Professional Documents
Culture Documents
בניגוד לרגרסיה לינארית פשוטה ,אני רוצה להתבסס על יותר מנתון רקע אחד כדי שיתאפשר לי ניבוי
מדויק יותר ( לא ננבא הכנסות עתידיות רק מכמה למדנו אלא גם ממה למדנו ,נתונים על נטוורקינג ,הכנסות
התחלתיות).
רגרסיה לינארית מרובה היא הכללה מאוד פשוטה של רגרסיה לינארית פשוטה .ברגרסיה פשוטה יש רק X
אחד .כשיש לנו כמה משתני רקע נקרא להם .x1,x2,x3האיקסים שלנו יכולים להיות מדרג המקצוע (,)x1
כמה שנים למדנו ( )x2וגודל הנטוורקינג ( )x3ואני אנבא לכם משכורת עתידית.
איך אני עושה את זה? בהכללה מאוד פשוטה.
זה לא יהיה אותו a – aהוא פר נוסחה (צריך למצוא אותו מחדש) K .זה מספר המנבאים שלי .בניגוד
לרגרסיה פשוטה ,יש לי פה לכל Xאת ה B-שלו.
בנוסחה השנייה אפשר למצוא את ה Yהמנובא .הנוסחה הראשונה היא ה Yהאמיתי (כולל את ה Yהמנובא +
טעות .)e
הניבוי של Yנעשה באמצעות סכום משוקלל של המנבאים .הרגרסיה אומרת שיש לי סכום משוקלל של
המנבאים שלי ( Bמבטאים את המשקלות שאני נותן למנבאים שלי) שאתו אני מנבא את .Y
למה ל E-אין משקולת? כי הוא נובע ממה שהצלחתי לנבא באמצעות כל האיקסים E .זה כל היתר
– התנודתיות שנשארת בציון עקב סיבות אחרות אחרי שהסברתי באמצעות האיקסים האלה.
הגודל שלו נובע מהדברים האחרים.
כרגיל :שני פתרונות
יש מודל רגרסיה ומודל סטנדרטי:
במקום rבמודל הקודם יש לי פה בטא .זה בגלל שR-
הוא אחד ופה יש לי הרבה איקסים אז צריך לתת את המשקל של כל אחד מהאיקסים בציוני תקן (– B
ציונים גולמיים ,בטא – ציוני תקן) .זה נוסחה בציוני תקן ,אני מכפיל את הבטאות בציוני תקן ומקבל ניבוי
בציוני תקן.
איך לדעתכם יראה פתרון נומרי?
אני צריך לבנות פונקציה שתחשב לי SSעבור כל צירוף של ערכים של Aו .B1\B2\B3זה יראה בדיוק
אותו דבר רק לפי מספר המנבאים שיהיו לי .אני עושה Yמנובא פחות Yאמיתי בריבוע ,סוכם מעבר
לכולם ,וזו פונקציה שמוציאה את ה .SS-זו פונקציה שעבור כל צירוף של מס' Bנותנת עבורו .SSאני
שותל את הפונקציה באופטימייזר והיא נותנת לי פתרון .היא לא עושה זאת עבור כל ,Bהיא מחפשת את
הצירוף האופטימלי של ערך B1עם B2עם B3עם .A
איך הוא עושה את ההבחנה הזאת בין ה Bהשונים? בואי נגיד שעישון זה ( X1מספר הסיגריות
ביום) ו( B1המשקל שאת נותנת לזה) .יש לך את כל הנתונים האלה .את פשוט לוקחת ובודקת
האם הצלחת באמצעות המשקולות האלה לנבא טוב כמה הם חיו בסופו של דבר .הוא ימצא B
מסוים שטוב עבורו שנותן את סכום הריבועים הנמוך ביותר .הפונקציה מחשבת את המשקל.
יש שתי פונקציות .את הפונקציה הראשונה את כותבת והיא אומרת לו איך לחשב את סכום
הריבועים .זה את חייבת לעשות .אחרי שבנית את הפונקציה שלוקחת את הערכים של הנתונים
עם ניחוש של מהו Aומהם .B 1-3לכל ניחוש כזה היא נותנת סכום ריבועים .עכשיו היא יכולה
לשחק עם הניחושים עד שהיא תתן סכום ריבועים קטן.
ה A-זו איזשהו תוספת כדי לוודא שאת נמצאת ביחידות של Yשלך .זה איזשהו ערך קבוע .בואי
נגיד שאם תעיפי את ה Aהחוצה הניבוי שלך יהיה כזה שתמיד יהיו 5שנים פחות מדי .אז הA-
מוסיף את השנים כדי שזה יהיה בסדר .ה A-מתאים את התוצאה לאמצע .בציוני תקן אגב ה A-הוא
.0
הסבר על המשקולות –
ה R-יודע מהן המשקולות כי הוא מנסה ומנסה עד שהמשקולות נותנים את התוצאה הכי טובה .יכול להיות
שיסתבר ל R-שכדאי לתת משקל גדול יותר לעישון מדברים אחרים והוא ישחק עם זה לפי מה שיתן לו את
סכום הריבועים הכי נמוך.
לכן התחלנו מפונקציית הפסד .איך אני יודע? פונקציית ההפסד היא השופט שלי ,היא אומרת אם עשיתי
את הפתרון נכון או לא נכון .ברגע שהחלטתי לעבוד עם סכום הריבועים עם הקריטריון הזה אני יודע אם
המשקל מותאם או לא מותאם .אם הוא לא מותאם זה יתן לי סכום ריבועים לא טוב ולהפך .ועל סמך מה?
יש לי נתונים שמראים שסכום הריבועים יותר טוב בדרך מסוימת.
המשקולות בפתרון הנומרי הם גולמיים.
המודל הזה נותן לי כלי עבודה מרכזי לחלץ את הבטאות .במודל הזה אני עושה הבחנה בין השפעה ישירה
להשפעות עקיפות.
השפעה ישירה
יש לי שתיים .ההשפעה הסגולה הולכת מהטראומה דרך התמיכה אל ה ,ptsd-וההשפעה הכחולה הולכת
מה IQ-אל הטראומה אל ה.ptsd-
ההשפעות עקיפות אומרת שזה לא שהתמיכה החברתית משפיעה ,אלא שתמיכה חברתית קשורה לרמת ה-
IQולכן היא יכולה בעקיפין להשפיע על ה ptsd-גם כן דרך ה .IQ-ההשפעות העקיפות הן השפעות
שנובעות מהמתאמים בין המשתנים.
ברגע שיש לי במודל הזה השפעה ישירה והשפעות עקיפות אני יכול לבודד אותן בעזרתו .איך אני עושה
ההשפעה ההשפעה העקיפה ההשפעה העקיפה
את זה?
(דרך )IQ (דרך תמיכה) הישירה
המתאם הגולמי ( )ry1הוא הסכום של ההשפעות הישירות וההשפעות
העקיפות .בכל מסלול כזה אני מכפיל את כל החיצים ואז אני מחבר בין כל
המסלולים שיש לי .המתאם הגולמי שלי הוא ההשפעה הישירה +שתי
ההשפעות העקיפות.אני בונה את הניבוי אותו דבר על ry2ו.ry3
כתוצאה מכך אנחנו נקבל בכל מקום
שכתוב rמספר קונקרטי .אנחנו
שותלים את כל המספרים ומה שנקבל
זה המון מספרים ושלושה נעלמים β1 -
, β2ו.β3-
יש לנו שלוש נוסחאות עם שלושה
נעלמים – אפשר לחלץ את הערכים של
הבטאות .ברגע שאפשר לעשות זאת
מצאתי את מה שרציתי – יש לי את הנוסחה בציוני תקן .עכשיו כשאני יודע את הבטאות אני יכול לנבא את
Yבציוני תקן.
מה שיותר חשוב פה זה ההבחנה בין השפעות ישירות להשפעות עקיפות.
אם אני רוצה לדעת מהו Bשל X3 בטא של X3כפול סטיית התקן של ( Yאותו דבר אצל כולם)
חלקי סטיית התקן של .X3
ברגע שיש לי Bאני מציב בנוסחה אותו ואת ממוצעי המשתנים ומחלץ את aשנשאר נעלם בודד.
נוסחה גולמית בפתרון אנליטי.
דוגמא :פסיכומטרי מול ציוני .BAהפסיכומטרי זה
ביחידות נורא קטנות אז תהיה לו סטיית תקן ענקית .המכנה שלי יהיה מאוד גדול כי זה במספרים
גדולים ,והמונה שלי (ציוני שנה א) יהיה קטן כי זה ביחידות יותר קטנות ( .)0-100יהיה לי בטא כפול
איזשהו שבר ,ואז ה B-שלי יהיה מאוד קטן כי הוא מבטא את העובדה שהפסיכומטרי ביחידות קטנות.
זהו פתרון אנליטי לרגרסיה מרובה .זו סדרה של צעדים שצריך לעשות – לחשב מתאמים בין הכל,
להציב בסכימה של רייט ולחלץ בטאות ,להפוך אותך לB-ים באמצעות הנוסחה ואחר כך להציב את ה
Bים עם ה Xוהממוצע של Yולחלץ את .aהפעולות האלו מביאות אותנו למשקלות גולמיים
אופטימליים בלי לעשות פתרון נומרי – בלי ניסוי וטעייה ,זה מביא אותנו ישר לפתרון .רק במודלים
נורא פשוטים יש פתרונות אנליטיים .היופי זה שהם מאוד מהירים וקלים לחישוב ומביאים אותנו ישר
למקום שרצינו.
יישום :2משתנה מדכא – משתנה שתורם לניבוי של Yלמרות שהמתאם שלו עם Yאפסי. ‹
X1ו X2-מנבאים את .Y
בין X1ל Y-יש לי נתיב אדום ונתיב כחול .שימו לב
שהנתיבים האלה מסתכמים לאפס .כי הנתיב האדום
הוא 25-והנתיב הכחול הוא ,0.25 = 0.5×0.5ואז
הסכום בין הנתיבים הוא אפס .זאת אומרת שאני
בהחלט יכול למצוא מצב שהמתאם בין שני משתנים
שווה לאפס למרות של X1-יש השפעה על .Y
במקרה הזה X1הוא המשתנה המדכא שלי כי הוא תורם לי לניבוי של Yלמרות שהמתאם הגולמי שלו עם
Yהוא אפס .בגלל ש X1משפיע על Yבכיוון שלילי אבל יש לי משתנה אחד
שהולך בכיוון ההפוך ,אז התוצר ביניהם הוא אפס .המטרה שתכירו את
הדברים האלה זה שתבינו שיש תופעות מאוד לא אינטואיטיביות בעולם
של רגרסיה.
דוגמא :נגיד ש X1זה רמת משכל ו Yזה רמה סוציו-אקונומית ואני רוצה לראות אם רמת המשכל משפיעה
לי על הרמה הסוציו-אקונומית ,רמת המשכל מעלה לי את הרמה הסוציו-אקונומית ויש לו קשר חיובי עם
עצב ( )X2אבל עצב מפחית לך את המצב הסוציו-אקונומי.
כשאתם מסתכלים על מתאמים אתם מסתכלים על ברוטו ולא על נטו .הוא תוצר של הרבה השפעות וחלקן
מנוגדות .הן יכולות להיות כל כך מנוגדות שהן מבטלות אחת את השנייה .שמבחינה ישירה משתנה עוזר
אבל מבחינה עקיפה הוא מזיק והתוצאה של זה היא אפס.
אנחנו רואים שהמודל משמאל יותר פשוט .שימו לב שהמודל מצד ימין יותר מתאים לנתונים האדומים –
הנקודות נופלות עליו כמעט בדיוק .עם זאת ,הנקודות הכחולות רחוקות מדי מהקו .אני הוספתי עוד ועוד
איברים למודל ועשיתי אותו יותר מסובך כדי שיתאים יותר טוב לנתוני המדגם שלי ,אבל המחיר של זה
היה שכשעברתי לנתונים חדשים זה לא התאים .כי התאמתי את זה יותר מדי לדברים מקריים במדגם שהם
לא כלליים באוכלוסייה.
במודל השמאלי התאמתי את זה לנתונים האדומים רק בערך (הם די רחוקים מהקו) .לא רציתי להיות מאוד
מדויק ,עשיתי זום אאוט והסתכלתי על הדברים בערך מלמעלה .היתרון של זה הוא שקיבלתי מודל הרבה
יותר טוב כי כשאני בודק אותו על נתונים חדשים (הכחולים) הוא עובד הרבה יותר טוב.
הoverfitting -פוגע לי בניבוי של .Yיש לי נתונים חלקיים ,תמיד אני עובד על מדגם שבו יש לי את .Yאני
לוקח ובונה את המודל עליהם אבל אני לא מתכוון להשתמש במודל על בטא האלה כי אני לא צריך לדעת
את Yמתוך מודל ,יש לי שם את Yהאמתי .אני רוצה את זה כדי להשתמש בזה עבור המדגמים הבאים בהם
אין לי את Yואז אני יכול לחזות אותו .כשאני בונה מודל למזג אוויר אני לא רוצה לנבא את המז"א של
אתמול אלא של מחר.
אם אני אלך לפי סכום הריבועים ,המודל מימין יהיה טוב יותר .הנקודות האדומות בו הם הרבה יותר
קרובות למודל שלי .אם צריך להשוות בין המודלים רק על סמך הנקודות האדומות את תעדיפי אותו .אבל
השיקול הוא הרבה יותר רחב מסכום הריבועים ,כי מה שמעניין אותנו זה לדעת את האמת על האוכלוסייה
ולא רק על המדגם ,והרבה פעמים המודל שיותר קרוב לאמת הוא דווקא זה שמתאים פחות לנתונים.
אנחנו לוקחים את הR2 -ומפחיתים ממנו משהו .אנחנו מענישים את עצמנו כפונקציה של מספר המנבאים –
השונות הבלתי מוסברת ,וכל זה חלקי מספר הנבדקים ( – )Nמספר המנבאים ( .1- )Kהנוסחה הזאת
תפחית לי מה R2ככל שמספר המנבאים שלי יותר גדול ,ככל שהשונות הבלתי מוסברת שלי יותר
גדולה ,וככל שה N-יותר קטן.
ה adjusted R2-הוא מין אומדן ,כלל אצבע שאומר מה בערך נקבל ב .Crossvaliadation-זה גם נותן לנו
תחושה מתי יש לנו סכנה של .overfittingיש לנו סכנה כזו במודלים שמסבירים מעט (מעט שונות),
במודלים עם הרבה מאוד מנבאים ,ובמודלים עם Nקטן.