
מהי רגרסיה?
רגרסיה היא אחד התהליכים החשובים והנפוצים ביותר לניתוח נתונים. במילים פשוטות, מדובר בשיטה סטטיסטית המסבירה את חוזק הקשר בין משתנה תלוי למשתנה (ים) עצמאי אחד או יותר.
משתנה תלוי יכול להיות משתנה או שדה שאתה מנסה לחזות או להבין. משתנה עצמאי יכול להיות השדות או נקודות הנתונים שלדעתך עשויים להשפיע על המשתנה התלוי.
בכך הוא עונה על כמה שאלות חשובות -
- אילו משתנים חשובים?
- עד כמה המשתנים הללו חשובים?
- עד כמה אנו בטוחים במשתנים אלה?
בואו ניקח דוגמא ...
כדי להסביר טוב יותר את המספרים בטבלת הרגרסיה, חשבתי שיהיה שימושי להשתמש במערך לדוגמה וללכת על המספרים וחשיבותם.
אני משתמש במערך נתונים קטן שמכיל GRE (מבחן שלוקחים סטודנטים כדי להיחשב כקבלה בבתי ספר גראד בארה"ב) של 500 סטודנטים והסיכוי שלהם להתקבל לאוניברסיטה.
כי chance of admittance
תלוי GRE score
, chance of admittance
האם המשתנה התלוי והוא GRE score
המשתנה הבלתי תלוי.

קו רגרסיה
ציור קו ישר המתאר בצורה הטובה ביותר את הקשר בין ציוני ה- GRE של התלמידים לסיכויי הקבלה שלהם נותן לנו את קו הרגרסיה הליניארית . זה ידוע כקו המגמה בכלי BI שונים. הרעיון הבסיסי העומד מאחורי ציור קו זה הוא למזער את המרחק בין נקודות הנתונים בקואורדינטת ה- x הנתונה לבין קואורדינטת ה- y דרכה עובר קו הרגרסיה.

קו הרגרסיה מקל עלינו לייצג את הקשר. היא מבוססת על משוואה מתמטית המקשרת בין מקדם ה- x לבין יירוט ה- y.
יירוט Y הוא הנקודה בה הקו מצטלב בציר ה- y ב- x = 0. זה גם הערך שהמודל היה לוקח או מנבא כאשר x הוא 0.
מקדמים מספקים את ההשפעה או המשקל של משתנה כלפי המודל כולו. במילים אחרות, הוא מספק את כמות השינוי במשתנה התלוי לשינוי יחידה במשתנה הבלתי תלוי.
חישוב משוואת קו הרגרסיה
על מנת לגלות את יירוט ה- y של המודל, אנו מאריכים את קו הרגרסיה מספיק רחוק עד שהוא חוצה את ציר ה- y ב- x = 0. זהו יירוט ה- y שלנו והוא בסביבות -2.5. המספר אולי לא ממש הגיוני עבור מערך הנתונים עליו אנו עובדים, אך הכוונה היא להציג רק את חישוב יירוט ה- y.

המקדם עבור מודל זה יהיה רק שיפוע קו הרגרסיה וניתן לחשב אותו על ידי קבלת השינוי בקבלה על פני השינוי בציוני GRE.

בדוגמה לעיל, המקדם יהיה פשוט
m = (y2-y1) / (x2-x1)ובמקרה זה, זה יהיה קרוב ל 0.01.
הנוסחה y = m * x + b עוזרת לנו לחשב את המשוואה המתמטית של קו הרגרסיה שלנו. בהחלפת הערכים עבור יירוט ו- שיפוע שקיבלנו מהארכת קו הרגרסיה, נוכל לנסח את המשוואה -
y = 0.01x - 2.48-2.48 הוא ערך יירוט מדויק יותר שקיבלתי מטבלת הרגרסיה כפי שמוצג בהמשך ההודעה.
משוואה זו מאפשרת לנו לחזות ולחזות את הסיכוי לקבלה של סטודנט כאשר ידוע ציון ה- GRE שלו.
כעת, כשיש לנו את היסודות, נקפוץ לקריאה ולפרשנות של טבלת רגרסיה.
קריאת טבלת רגרסיה
ניתן לחלק את טבלת הרגרסיה באופן גס לשלושה מרכיבים -
- ניתוח שונות (ANOVA): מספק את ניתוח השונות במודל, כפי שהשם מרמז.
- סטטיסטיקה של רגרסיה: ספק מידע מספרי על הווריאציה ועד כמה המודל מסביר את השונות עבור הנתונים / התצפיות הנתונות.
- פלט שיורי: מספק את הערך החזוי על ידי המודל ואת ההפרש בין הערך הנצפה בפועל של המשתנה התלוי לבין הערך החזוי שלו על ידי מודל הרגרסיה עבור כל נקודת נתונים.
ניתוח שונות (ANOVA)

דרגות חופש (df)
רגרסיה df הוא מספר המשתנים הבלתי תלויים במודל הרגרסיה שלנו. מכיוון שאנחנו רואים רק ציוני GRE בדוגמה זו, זה 1.
שיורית df היא המספר הכולל של תצפיות (שורות) של מערך הנתונים שמופחת על ידי מספר המשתנים הנאמדים. בדוגמה זו, אומדים גם מקדם ציון GRE וגם קבוע.
שארית df = 500 - 2 = 498
סה"כ df - הוא סכום הרגרסיה ודרגות החופש השיוריות, השווה לגודל מערך הנתונים מינוס 1.
סכום הריבועים (SS)

רגרסיה SS היא הווריאציה הכוללת במשתנה התלוי שמוסבר על ידי מודל הרגרסיה. זהו סכום הריבוע של ההפרש בין הערך החזוי לממוצע הערך של כל נקודות הנתונים.
∑ (ŷ - ӯ) ²מטבלת ANOVA, רגרסיית ה- SS היא 6.5 וה- SS הכולל הוא 9.9, כלומר מודל הרגרסיה מסביר כ- 6.5 / 9.9 (כ- 65%) מכל השונות במערך הנתונים.
SS שיורי - הוא הווריאציה הכוללת במשתנה התלוי שנשאר בלתי מוסבר על ידי מודל הרגרסיה. זה נקרא גם סכום השגיאות של הריבועים והוא סכום הריבוע של ההפרש בין הערכים בפועל לחיזוי של כל נקודות הנתונים.
∑ (y - ŷ) ²מטבלת ANOVA, ה- SS השיורי הוא כ -3.4. באופן כללי, ככל שהשגיאה קטנה יותר, כך מודל הרגרסיה מסביר טוב יותר את השונות במערכת הנתונים ולכן בדרך כלל נרצה למזער שגיאה זו.
סה"כ SS - הוא הסכום של שניהם, רגרסיה ו- SS שיורי או בכמה הסיכוי לקבלה ישתנה אם ציוני ה- GRE לא יובאו בחשבון.
שגיאות בריבוע ממוצע (MS) - הן הממוצע של סכום הריבועים או סכום הריבועים חלקי דרגות החופש לשניהם, רגרסיה ושאריות.
רגרסיה MS = ∑ (ŷ - ӯ) ² / רג. df שיורית MS = ∑ (y - ŷ) ² / Res. dfF - משמש לבדיקת ההשערה כי שיפוע המשתנה הבלתי תלוי הוא אפס. מתמטית, ניתן לחשב זאת גם כ-
F = טרשת נפוצה / טרשת נפוצה שיוריתזה מחושב אחרת על ידי השוואת סטטיסטית F להתפלגות F עם df רגרסיה במעלות מונה ו- df שיורי במעלות מכנה.
משמעות F - אינה אלא ערך ה- p עבור השערת האפס לפיה המקדם של המשתנה הבלתי תלוי הוא אפס וכמו בכל ערך p, ערך p נמוך מציין כי קיים קשר משמעותי בין משתנים תלויים ועצמאיים.

שגיאת תקן - מספקת את סטיית התקן המשוערת של התפלגות המקדמים. זהו הסכום בו משתנה המקדם בין מקרים שונים. מקדם גדול בהרבה מהשגיאה הסטנדרטית שלו מרמז על הסתברות שהמקדם אינו 0.
t-Stat - הוא הסטטיסטיקה או ערך t של הבדיקה וערכה שווה למקדם חלקי השגיאה הסטנדרטית.
t-Stat = מקדמים / שגיאה סטנדרטיתשוב, ככל שהמקדם גדול יותר ביחס לשגיאה הסטנדרטית, כך t-Stat גדול יותר וההסתברות שהמקדם רחוק מ- 0.
ערך p - הסטטיסטיקה t מושווה להפצת t כדי לקבוע את ערך p. בדרך כלל אנו רואים רק את ערך ה- p של המשתנה הבלתי תלוי המספק את הסבירות לקבל מדגם קרוב לזה המשמש להפקת משוואת הרגרסיה ולוודא אם שיפוע קו הרגרסיה הוא אפס בפועל או המקדם קרוב ל מקדם שהושג.
ערך p מתחת ל -0.05 מעיד על ביטחון של 95% כי שיפוע קו הרגרסיה אינו אפס ומכאן שקיים קשר ליניארי משמעותי בין המשתנים התלויים והבלתי תלויים.
ערך p גדול מ- 0.05 מציין כי שיפוע קו הרגרסיה עשוי להיות אפס וכי אין ראיות מספיקות ברמת הביטחון של 95% לכך שקיים קשר לינארי משמעותי בין המשתנים התלויים והבלתי תלויים.
מכיוון שערך ה- p של הציון המשתנה העצמאי GRE קרוב מאוד ל- 0, אנו יכולים להיות בטוחים ביותר שיש קשר לינארי משמעותי בין ציוני GRE לבין הסיכוי לקבלה.
95% תחתון ועליון - מכיוון שאנחנו משתמשים לרוב במדגם נתונים כדי לאמוד את קו הרגרסיה ואת מקדמיו, הם לרוב קירוב של המקדמים האמיתיים ובתורם קו הרגרסיה האמיתי. הגבולות התחתונים והעליונים של 95% נותנים את רווח הביטחון ה -95 של גבולות תחתונים ועליונים לכל מקדם.
מכיוון שרווח הביטחון של 95% לציוני GRE הוא 0.009 ו- 0.01, הגבולות אינם מכילים אפס וכך, אנו יכולים להיות בטוחים ב 95% שיש קשר לינארי משמעותי בין ציוני GRE לבין הסיכוי לקבלה.
לידיעתך, נעשה שימוש נרחב ברמת ביטחון של 95%, אך רמה שאינה 95% אפשרית וניתנת להגדרה במהלך ניתוח רגרסיה.
סטטיסטיקה של רגרסיה

R² (ריבוע R) - מייצג את כוחו של מודל. זה מראה את כמות השונות במשתנה התלוי שהמשתנה הבלתי תלוי מסביר ונמצא תמיד בין הערכים 0 ל- 1. ככל שה- R² גדל, יותר וריאציה בנתונים מוסברת על ידי המודל וטובה יותר שהמודל מקבל חיזוי. R² נמוך יציין שהמודל אינו מתאים לנתונים וכי משתנה עצמאי אינו מסביר היטב את השונות במשתנה התלוי.
R² = סכום רגרסיה של ריבועים / סך כל הריבועיםעם זאת, ריבוע R אינו יכול לקבוע אם אומדני המקדם והתחזיות מוטים, ולכן עליכם להעריך את החלקות הנותרים, עליהם נדון בהמשך מאמר זה.
ריבוע R גם אינו מציין אם מודל רגרסיה הולם. אתה יכול לקבל ערך בריבוע R נמוך עבור מודל טוב, או ערך גבוה בריבוע R עבור מודל שאינו מתאים לנתונים.
R², במקרה זה, הוא 65%, מה שמרמז שציוני GRE יכולים להסביר 65% מהשונות בסיכוי הקבלה.
R² מותאם - הוא R² כפול גורם כוונון. נעשה שימוש בהשוואה בין מודלים שונים של רגרסיה למשתנים עצמאיים שונים. מספר זה שימושי בעת ההחלטה על המשתנים העצמאיים הנכונים במודלי רגרסיה מרובים.
מרובה R - הוא השורש הריבועי החיובי של R²
שגיאה סטנדרטית - שונה מהשגיאה הסטנדרטית של המקדמים. זוהי סטיית התקן המשוערת של השגיאה במשוואת הרגרסיה והיא מדד טוב לדיוק קו הרגרסיה. זהו השורש הריבועי של שגיאות הריבוע הממוצעות השיורית.
Std. שגיאה = √ (Res.MS)תפוקה שיורית
שאריות הם ההבדל בין הערך בפועל לבין הערך החזוי של מודל הרגרסיה ופלט שיורי הוא הערך החזוי של המשתנה התלוי על ידי מודל הרגרסיה והשארית לכל נקודת נתונים.
וכפי שהשם מרמז, עלילה שיורית היא עלילת פיזור בין המשתנה השיורי והבלתי תלוי, שהוא במקרה זה ציון ה- GRE של כל תלמיד.
העלילה שיורית חשוב באיתור דברים כמו הטרוסקדס , אי-ליניאריות, וכן חריגים . תהליך איתורם אינו נדון כחלק ממאמר זה, אך העובדה שבעלילה השיורית לדוגמא שלנו יש נתונים המפוזרים באופן אקראי עוזרת לנו לקבוע את העובדה שהקשר בין המשתנים במודל זה הוא ליניארי.

כוונה
הכוונה במאמר זה אינה לבנות מודל רגרסיה עובד אלא לספק הדרכה של כל משתני הרגרסיה וחשיבותם במידת הצורך עם נתוני דוגמה שנקבעו בטבלת רגרסיה.
למרות שמאמר זה מספק הסבר עם רגרסיה ליניארית משתנה יחידה כדוגמה, אנא שים לב שלחלק מהמשתנים הללו יכולה להיות חשיבות רבה יותר במקרים של מצבים מרובי משתנים או אחרים.
הפניות
- מערך נתונים לקבלת בוגרים
- 10 דברים על קריאת טבלת רגרסיה
- רענון לניתוח רגרסיה