You are on page 1of 9

‫שיעור ‪ – 4‬רגרסיה לינארית מרובה‬

‫בניגוד לרגרסיה לינארית פשוטה‪ ,‬אני רוצה להתבסס על יותר מנתון רקע אחד כדי שיתאפשר לי ניבוי‬
‫מדויק יותר ( לא ננבא הכנסות עתידיות רק מכמה למדנו אלא גם ממה למדנו‪ ,‬נתונים על נטוורקינג‪ ,‬הכנסות‬
‫התחלתיות)‪.‬‬
‫רגרסיה לינארית מרובה היא הכללה מאוד פשוטה של רגרסיה לינארית פשוטה‪ .‬ברגרסיה פשוטה יש רק ‪X‬‬
‫אחד‪ .‬כשיש לנו כמה משתני רקע נקרא להם ‪ .x1,x2,x3‬האיקסים שלנו יכולים להיות מדרג המקצוע (‪,)x1‬‬
‫כמה שנים למדנו (‪ )x2‬וגודל הנטוורקינג (‪ )x3‬ואני אנבא לכם משכורת עתידית‪.‬‬
‫איך אני עושה את זה? בהכללה מאוד פשוטה‪.‬‬

‫זה לא יהיה אותו ‪ a – a‬הוא פר נוסחה (צריך למצוא אותו מחדש)‪ K .‬זה מספר המנבאים שלי‪ .‬בניגוד‬
‫לרגרסיה פשוטה‪ ,‬יש לי פה לכל ‪ X‬את ה‪ B-‬שלו‪.‬‬
‫בנוסחה השנייה אפשר למצוא את ה‪ Y‬המנובא‪ .‬הנוסחה הראשונה היא ה‪ Y‬האמיתי (כולל את ה‪ Y‬המנובא ‪+‬‬
‫טעות ‪.)e‬‬
‫הניבוי של ‪ Y‬נעשה באמצעות סכום משוקלל של המנבאים‪ .‬הרגרסיה אומרת שיש לי סכום משוקלל של‬
‫המנבאים שלי (‪ B‬מבטאים את המשקלות שאני נותן למנבאים שלי) שאתו אני מנבא את ‪.Y‬‬
‫למה ל‪ E-‬אין משקולת? כי הוא נובע ממה שהצלחתי לנבא באמצעות כל האיקסים‪ E .‬זה כל היתר‬ ‫‪‬‬
‫– התנודתיות שנשארת בציון עקב סיבות אחרות אחרי שהסברתי באמצעות האיקסים האלה‪.‬‬
‫הגודל שלו נובע מהדברים האחרים‪.‬‬
‫כרגיל‪ :‬שני פתרונות‬
‫יש מודל רגרסיה ומודל סטנדרטי‪:‬‬
‫במקום ‪ r‬במודל הקודם יש לי פה בטא‪ .‬זה בגלל ש‪R-‬‬
‫הוא אחד ופה יש לי הרבה איקסים אז צריך לתת את המשקל של כל אחד מהאיקסים בציוני תקן (‪– B‬‬
‫ציונים גולמיים‪ ,‬בטא – ציוני תקן)‪ .‬זה נוסחה בציוני תקן‪ ,‬אני מכפיל את הבטאות בציוני תקן ומקבל ניבוי‬
‫בציוני תקן‪.‬‬
‫איך לדעתכם יראה פתרון נומרי?‬
‫אני צריך לבנות פונקציה שתחשב לי ‪ SS‬עבור כל צירוף של ערכים של ‪ A‬ו‪ .B1\B2\B3‬זה יראה בדיוק‬
‫אותו דבר רק לפי מספר המנבאים שיהיו לי‪ .‬אני עושה ‪ Y‬מנובא פחות ‪ Y‬אמיתי בריבוע‪ ,‬סוכם מעבר‬
‫לכולם‪ ,‬וזו פונקציה שמוציאה את ה‪ .SS-‬זו פונקציה שעבור כל צירוף של מס' ‪ B‬נותנת עבורו ‪ .SS‬אני‬
‫שותל את הפונקציה באופטימייזר והיא נותנת לי פתרון‪ .‬היא לא עושה זאת עבור כל ‪ ,B‬היא מחפשת את‬
‫הצירוף האופטימלי של ערך ‪ B1‬עם ‪ B2‬עם ‪ B3‬עם ‪.A‬‬
‫איך הוא עושה את ההבחנה הזאת בין ה‪ B‬השונים? בואי נגיד שעישון זה ‪( X1‬מספר הסיגריות‬ ‫‪‬‬
‫ביום) ו‪( B1‬המשקל שאת נותנת לזה)‪ .‬יש לך את כל הנתונים האלה‪ .‬את פשוט לוקחת ובודקת‬
‫האם הצלחת באמצעות המשקולות האלה לנבא טוב כמה הם חיו בסופו של דבר‪ .‬הוא ימצא ‪B‬‬
‫מסוים שטוב עבורו שנותן את סכום הריבועים הנמוך ביותר‪ .‬הפונקציה מחשבת את המשקל‪.‬‬
‫יש שתי פונקציות‪ .‬את הפונקציה הראשונה את כותבת והיא אומרת לו איך לחשב את סכום‬ ‫‪‬‬
‫הריבועים‪ .‬זה את חייבת לעשות‪ .‬אחרי שבנית את הפונקציה שלוקחת את הערכים של הנתונים‬
‫עם ניחוש של מהו ‪ A‬ומהם ‪ .B 1-3‬לכל ניחוש כזה היא נותנת סכום ריבועים‪ .‬עכשיו היא יכולה‬
‫לשחק עם הניחושים עד שהיא תתן סכום ריבועים קטן‪.‬‬
‫ה‪ A-‬זו איזשהו תוספת כדי לוודא שאת נמצאת ביחידות של ‪ Y‬שלך‪ .‬זה איזשהו ערך קבוע‪ .‬בואי‬ ‫‪‬‬
‫נגיד שאם תעיפי את ה‪ A‬החוצה הניבוי שלך יהיה כזה שתמיד יהיו ‪ 5‬שנים פחות מדי‪ .‬אז ה‪A-‬‬
‫מוסיף את השנים כדי שזה יהיה בסדר‪ .‬ה‪ A-‬מתאים את התוצאה לאמצע‪ .‬בציוני תקן אגב ה‪ A-‬הוא‬
‫‪.0‬‬

‫הסבר על המשקולות –‬
‫ה‪ R-‬יודע מהן המשקולות כי הוא מנסה ומנסה עד שהמשקולות נותנים את התוצאה הכי טובה‪ .‬יכול להיות‬
‫שיסתבר ל‪ R-‬שכדאי לתת משקל גדול יותר לעישון מדברים אחרים והוא ישחק עם זה לפי מה שיתן לו את‬
‫סכום הריבועים הכי נמוך‪.‬‬
‫לכן התחלנו מפונקציית הפסד‪ .‬איך אני יודע? פונקציית ההפסד היא השופט שלי‪ ,‬היא אומרת אם עשיתי‬
‫את הפתרון נכון או לא נכון‪ .‬ברגע שהחלטתי לעבוד עם סכום הריבועים עם הקריטריון הזה אני יודע אם‬
‫המשקל מותאם או לא מותאם‪ .‬אם הוא לא מותאם זה יתן לי סכום ריבועים לא טוב ולהפך‪ .‬ועל סמך מה?‬
‫יש לי נתונים שמראים שסכום הריבועים יותר טוב בדרך מסוימת‪.‬‬
‫המשקולות בפתרון הנומרי הם גולמיים‪.‬‬

‫הסכימה של רייט ‪Wright‬‬


‫אני עכשיו הולך להסביר לכם איך אני מגיע לבטאות האלה (המשקלות בציוני תקן)‪ .‬כמו ברגרסיה פשוטה‪,‬‬
‫היה לנו פתרון בציוני תקן וממנו הגענו די בקלות לפתרון בציוני גלם‪ .‬עכשיו אנחנו גם צריכים ללכת‬
‫במסלול הזה‪ .‬ההסבר הזה הוא עמוק והבנתי והוא כלי להבין דברים בהמשך הקורס הזה‪.‬‬
‫אנחנו צריכים לתאר את המודל שלנו באמצעות סכמה ויזואלית מאוד אינטואיטיבית‪.‬‬
‫חצים חד כיווניים ‪ -‬הכיוון של החץ אומר מי מסביר את מי – מה מנבא ומה מנובא‪( .‬חומרת‬ ‫‪‬‬
‫הטראומה מסבירה את ה‪ ;ptsd‬מידת התמיכה חברתית אמנם מפחיתה אבל עדיין מסבירה את רמת‬
‫ה‪ ;ptsd‬גם ‪ IQ‬מפחית את ה‪.)ptsd‬‬
‫חצים דו כיווניים ‪ -‬בין המסבירים יש לי מתאמים‪ .‬הם דו כיווניים כי אין ביניהם יחסי‬ ‫‪‬‬
‫מסביר\מוסבר‪ .‬במודל הזה אני לא מתיימר לתת סטטוס של מנבא\מנובא עבור המשתנים‬
‫משמאל‪ .‬מבחינתי הם מתואמים ואני לא טוען שום טענה על כיוון סיבתי‪.‬‬

‫המודל הזה נותן לי כלי עבודה מרכזי לחלץ את הבטאות‪ .‬במודל הזה אני עושה הבחנה בין השפעה ישירה‬
‫להשפעות עקיפות‪.‬‬
‫השפעה ישירה‬

‫החץ שיוצא מן המשתנה הבלתי תלוי למשתנה התלוי‪.‬‬

‫יש לי שתיים‪ .‬ההשפעה הסגולה הולכת מהטראומה דרך התמיכה אל ה‪ ,ptsd-‬וההשפעה הכחולה הולכת‬
‫מה‪ IQ-‬אל הטראומה אל ה‪.ptsd-‬‬
‫ההשפעות עקיפות אומרת שזה לא שהתמיכה החברתית משפיעה‪ ,‬אלא שתמיכה חברתית קשורה לרמת ה‪-‬‬
‫‪ IQ‬ולכן היא יכולה בעקיפין להשפיע על ה‪ ptsd-‬גם כן דרך ה‪ .IQ-‬ההשפעות העקיפות הן השפעות‬
‫שנובעות מהמתאמים בין המשתנים‪.‬‬
‫ברגע שיש לי במודל הזה השפעה ישירה והשפעות עקיפות אני יכול לבודד אותן בעזרתו‪ .‬איך אני עושה‬
‫ההשפעה ההשפעה העקיפה ההשפעה העקיפה‬
‫את זה?‬
‫(דרך ‪)IQ‬‬ ‫(דרך תמיכה)‬ ‫הישירה‬
‫המתאם הגולמי (‪ )ry1‬הוא הסכום של ההשפעות הישירות וההשפעות‬
‫העקיפות‪ .‬בכל מסלול כזה אני מכפיל את כל החיצים ואז אני מחבר בין כל‬
‫המסלולים שיש לי‪ .‬המתאם הגולמי שלי הוא ההשפעה הישירה ‪ +‬שתי‬
‫ההשפעות העקיפות‪.‬אני בונה את הניבוי אותו דבר על ‪ ry2‬ו‪.ry3‬‬
‫כתוצאה מכך אנחנו נקבל בכל מקום‬
‫שכתוב ‪ r‬מספר קונקרטי‪ .‬אנחנו‬
‫שותלים את כל המספרים ומה שנקבל‬
‫זה המון מספרים ושלושה נעלמים ‪β1 -‬‬
‫‪ , β2‬ו‪.β3-‬‬
‫יש לנו שלוש נוסחאות עם שלושה‬
‫נעלמים – אפשר לחלץ את הערכים של‬
‫הבטאות‪ .‬ברגע שאפשר לעשות זאת‬
‫מצאתי את מה שרציתי – יש לי את הנוסחה בציוני תקן‪ .‬עכשיו כשאני יודע את הבטאות אני יכול לנבא את‬
‫‪ Y‬בציוני תקן‪.‬‬
‫מה שיותר חשוב פה זה ההבחנה בין השפעות ישירות להשפעות עקיפות‪.‬‬

‫שיעור ‪12.11.2020 – 4‬‬


‫הסכמה של רייט מציגה מודל של המתאמים‪ .‬היא אומרת שאפשר לבנות את המתאם המקורי (‪ )ry1‬שזה‬
‫משהו שאני יודע אותו‪ ,‬מתוך צירוף של דברים שאני רוצה להסיק עליהם‪ .‬אני יכול לדעת את ‪ ry1‬מתוך ‪β‬‬
‫‪ 1‬שזה השפעה ישירה (המודל מניח שיש השפעה ישירה של טראומה ושתי השפעות עקיפות דרך תמיכה‬
‫ואייקיו)‪.‬‬
‫ברגע שיש לי את הסכמה של רייט אני יכול לחלץ את הבטאות ויש לי משוואת רגרסיה סטנדרטית בציוני‬
‫תקן‪ .‬כלומר אם יש לי את ציוני התקן של טראומה‪ ,‬תמיכה ואייקיו (‪ – )X1,X2,X3‬אני יכול עם הבטאות‬
‫לנבא את ציון התקן של ‪.ptsd‬‬
‫הסכימה מאוד כללית (מתאימה להרבה מאד מודלים) ויש לה כמה כללים‪ .‬הרעיון אומר שאנחנו מגדירים‬
‫נתיבים (יש נתיבים של השפעה ישירה ויש של השפעה עקיפה)‪ ,‬ובתוך כל נתיב אנחנו מכפילים את‬
‫הערכים וסוכמים מעבר לכל הנתיבים‪.‬‬
‫הרעיון אומר שהרבה פעמים כשיש לנו קשר בין משתנים‪ ,‬הקשר לא מבטא רק השפעה ישירה אלא גם‬
‫השפעות עקיפות‪ .‬הרבה פעמים כשאנחנו מוצאים איזשהו קשר צריך להיות ער לעובדה שישנן השפעות‬
‫עקיפות‪ .‬זאת אומרת ששני משתנים קשורים לא באופן ישיר אלא דרך כל מיני משתנים נוספים‪.‬‬
‫סכום הנתיבים שמקשרים בין המשתנים הוא המתאם ביניהם‪.‬‬
‫כללי "אל תעשה" להגדרת נתיבים‬
‫אי אפשר ליצור סט‪-‬נתיבים שבו יש שנים או יותר נתיבים שעוברים באותו משתנה‪.‬‬ ‫‹‬
‫יש נתיב אחד שמקשר בין ‪ IQ‬להכנסה חודשית ועובר דרך הצלחה‬
‫בלימודים‪ ,‬וחוץ מזה יש לי מתאם בין ‪ IQ‬והצלחה בלימודים שהולך דרך‬
‫מוטיבציה‪.‬‬
‫לכאורה כל אחד הנתיבים פה הוא כשר‪ ,‬מה שלא כשר הוא העובדה שעברתי‬
‫פעמיים דרך הצלחה בלימודים‪.‬‬
‫אי אפשר להתקדם קדימה (בכיוון החץ) ואחר כך אחורנית‬ ‫‹‬
‫(נגד כיוון החץ)‪.‬‬
‫אני לא יכול לומר שהקשר בין טראומה ותמיכה ממודל חלקית על ידי‬
‫התקדמות מטראומה ל‪ ptsd‬ומשם לתמיכה‪.‬‬
‫המסלול האדום לא קשר – ברגע שהלכתי קדימה פעם אחת אסור לחזור‬
‫אחורה‪.‬‬
‫אי אפשר לעבור בשני מתאמים באותו הנתיב‪.‬‬ ‫‹‬
‫אני לא יכול לומר שיש לי קשר בין טראומה ל‪ ptsd‬דרך תמיכה ל‪ IQ‬ואז‬
‫ל‪ .ptsd‬אסור לעבור בין שני מתאמים באותו נתיב‪.‬‬
‫אחרי שחילצתי את הבטאות אני יכול לעבור לחישוב המקדמים הגולמיים‪ .‬זה מאוד דומה למה שעשינו‬
‫ברגרסיה פשוטה‪ ,‬שם היה לנו רק את ‪ a‬ו‪ b-‬לחשב‪ .‬פה יש לנו את ‪ a‬ואז ‪.…b1,b2‬‬
‫∗‪β‬‬
‫‪k SY‬‬
‫=‪b‬‬
‫‪k‬‬
‫‪SX‬‬ ‫‪k‬‬

‫אם אני רוצה לדעת מהו ‪ B‬של ‪ X3 ‬בטא של ‪ X3‬כפול סטיית התקן של ‪( Y‬אותו דבר אצל כולם)‬
‫חלקי סטיית התקן של ‪.X3‬‬
‫ברגע שיש לי ‪ B‬אני מציב בנוסחה אותו ואת ממוצעי המשתנים ומחלץ את ‪ a‬שנשאר נעלם בודד‪.‬‬
‫נוסחה גולמית בפתרון אנליטי‪.‬‬
‫דוגמא‪ :‬פסיכומטרי מול ציוני ‪ .BA‬הפסיכומטרי זה‬
‫ביחידות נורא קטנות אז תהיה לו סטיית תקן ענקית‪ .‬המכנה שלי יהיה מאוד גדול כי זה במספרים‬
‫גדולים‪ ,‬והמונה שלי (ציוני שנה א) יהיה קטן כי זה ביחידות יותר קטנות (‪ .)0-100‬יהיה לי בטא כפול‬
‫איזשהו שבר‪ ,‬ואז ה‪ B-‬שלי יהיה מאוד קטן כי הוא מבטא את העובדה שהפסיכומטרי ביחידות קטנות‪.‬‬
‫זהו פתרון אנליטי לרגרסיה מרובה‪ .‬זו סדרה של צעדים שצריך לעשות – לחשב מתאמים בין הכל‪,‬‬
‫להציב בסכימה של רייט ולחלץ בטאות‪ ,‬להפוך אותך ל‪B-‬ים באמצעות הנוסחה ואחר כך להציב את ה‬
‫‪B‬ים עם ה‪ X‬והממוצע של ‪ Y‬ולחלץ את ‪ .a‬הפעולות האלו מביאות אותנו למשקלות גולמיים‬
‫אופטימליים בלי לעשות פתרון נומרי – בלי ניסוי וטעייה‪ ,‬זה מביא אותנו ישר לפתרון‪ .‬רק במודלים‬
‫נורא פשוטים יש פתרונות אנליטיים‪ .‬היופי זה שהם מאוד מהירים וקלים לחישוב ומביאים אותנו ישר‬
‫למקום שרצינו‪.‬‬

‫דוגמאות לשימושים נוספים בסכימה של רייט‬


‫אני הולך לעשות סטייה מרגרסיה כדי להדגים לכם את הסכימה של רייט בשני תחומים‪.‬‬
‫יישום ‪ :1‬ניתוח גורמים‬ ‫‹‬
‫יש הבחנה בין מודלים שנקראים ‪( Supervised learning‬למידה עם מורה) ו‪unsupervised learning‬‬
‫( למידה ללא מורה)‪ .‬בלמידה עם מורה זה כאילו שכשאני בונה את המודל יש מישהו שכל הזמן אומר לי את‬
‫התשובה הנכונה‪ .‬רגרסיה מרובה היא דוגמה של למידה עם מורה‪ ,‬כי כשאני בונה את המודל אני יודע מהו‬
‫ה‪ Y-‬ואני משחק עם המודל עד שהוא מאוד קרוב ל‪ .Y-‬כשאני בונה את המודל‪ ,‬יש לי מישהו שמורה ואומר‬
‫לי את האמת‪.‬‬
‫למידה ללא מורה זה מודלים שלא באים לנבא שום דבר חיצוני אלא באים לזהות תבנית של הקשרים בתוך‬
‫סט נתונים קיים‪ .‬כמו ניתוח גורמים – הוא מזהה שיש לנו בתוך הנתונים האלה כמה גורמים‪ .‬ניתוח גורמים‬
‫הוא מקרה פרטי של למידה זו‪ ,‬הוא אינו מנבא כלום אלא רק מזהה איך האיקסים מאורגנים‪.‬‬
‫המודל של ניתוח גורמים‪:‬‬
‫יש לי פה שישה משתנים ושני גורמים (‪ .)f1,f2‬המשתנים שנצפים‬
‫(שיש לי אותם בנתונים) הם בריבועים‪ .‬יש לי תוצאה לכל נבדק ב‬
‫‪ X1‬עד ‪ .X6‬זה יכול להיות למשל ‪ 6‬מבחני אישיות‪ ,‬או ‪ 6‬דפוסי‬
‫הורות‪ .‬המודל אומר שיש לי ‪ 6‬התנהגויות וההתנהגויות מוסברות‬
‫באמצעות שני גורמים (בעיגולים)‪ .‬המושג הוא משתנים לטנטיים‬
‫(סמויים) – משתנים שלא רואים בנתונים אבל אפשר ללמוד על‬
‫קיומם מתוך הנתונים‪.‬‬
‫המודל הזה הוא מודל של המתאמים בין המשתנים‪ .‬אני יכול מתוך הדבר הזה להגיד מה הניבוי של המודל‬
‫למתאם בין ‪ X1‬ל‪ X2-‬למשל‪ .‬הניבוי של המודל למתאם זה הוא המסלול הסגול (מסלול כשר – הולכים‬
‫אחורה ואז קדימה)‪.‬‬
‫המשקלות שיש לי על החיצים נקראות בניתוח גורמים טעינויות – זה כמו משקולות רגרסיה (‪ )β‬רק שזה‬
‫לא בתוך מודל של רגרסיה‪ .‬המתאם בין ‪ X1‬ל‪ X3-‬שווה ‪.a1 × a3‬‬
‫אם אני רוצה לעשות מתאם בין ‪ X4‬ל‪ :X6-‬אני הולך על ‪ a4 ‬על המתאם בין הגורמים ‪ ‬ואז קדימה ל‪-‬‬
‫‪.a6‬‬
‫עכשיו אני בעצם יכול לבנות מודל שבו יש לי מתאמים ידועים ומשקולות לא ידועות‪ ,‬והמתאם בין‬
‫הגורמים לא ידוע‪ ,‬ואני יכול מתוך המתאמים הידועים לחלץ את המשקולות‪ .‬נגיד בפתרון נומרי‪ .‬אני אשחק‬
‫עם המשקולות עד שהמודל הזה ינבא לי את כל ה‪ r-‬בדיוק מאוד גבוה‪ .‬וזה הפתרון שלי של ניתוח גורמים‪.‬‬
‫המודל מנבא מה יהיה ‪ r12‬או ‪ .r13‬הוא מנבא את זה באמצעות משקולות שאנחנו צריכים לזהות‪ .‬איך‬
‫אנחנו מזהים את המשקולות? פתרון נומרי‪.‬‬
‫דוגמא קונקרטית‪ X1-X4 :‬יכולים להיות שלושה מבחנים שכל אחד מהם בודק יכולת מרחבית אחרת ו‪X5-‬‬
‫‪ X6‬הם שני מבחנים שבודקים דברים מילוליים (אוצר מילים‪ ,‬הבנת הוראות מילוליות)‪ F1 .‬ו‪ F2-‬מבטאות‬
‫את היכולות שמשפיעים על הביצוע במבחנים אלה‪ .‬למשל – ‪ f1‬זה יכולת מרחבית שמשפיע על ההצלחה‬
‫שלי ברוטציה מנטלית (‪ ,)x1‬קיפול מעטפת (‪ )X2‬וכו'‪ F2 .‬הוא יכולת מילולית שמשפיע על ההצלחה שלי ב‬
‫‪ X5‬ו‪ .X6-‬לנדבק אין ציון ב‪ ,F‬אני מסיק על ה‪ F-‬שלו לפי הביצועים שלו ב‪ X1‬וב‪.X2‬‬
‫המון מחקר בפסיכולוגיה מבוסס על זה שאני יכול לבדוק קשר בין יכולות למרות שאין לי מבחן ספציפי‬
‫שבודק את היכולת הזאת‪ .‬למשל אחד היתרונות של ניתוח גורמים הוא שאני יכול להגיד שמוטיבציה‬
‫מתבטאת בכמה מבחנים אבל לא נשבע בכך‪ ,‬ואז אני שם שלושה מדדים שונים של מוטיבציה ואומר‬
‫שהגורם הזה שמסביר את שלושתם הוא הדבר הכי קרוב למה שאני מגדיר כמוטיבציה‪ .‬אפשר להגיד שזה‬
‫הכי קרוב שאנחנו מגיעים למשהו נומינלי אבל זה עדיין אופרציונלי‪ .‬אתה יכול לענות על שאלות ברמה‬
‫הנומינלית דרך ניתוחי גורמים‪.‬‬
‫הוא מזהה תבנית של תוצאות בפנים – זה מצליח כי ‪ X1-X4‬מאוד מתואמים ביניהם ולא מתואמים ל‪ X5‬ו‪-‬‬
‫‪ X6‬ולהפך‪.‬‬

‫יישום ‪ :2‬משתנה מדכא – משתנה שתורם לניבוי של ‪ Y‬למרות שהמתאם שלו עם ‪ Y‬אפסי‪.‬‬ ‫‹‬
‫‪ X1‬ו‪ X2-‬מנבאים את ‪.Y‬‬
‫בין ‪ X1‬ל‪ Y-‬יש לי נתיב אדום ונתיב כחול‪ .‬שימו לב‬
‫שהנתיבים האלה מסתכמים לאפס‪ .‬כי הנתיב האדום‬
‫הוא ‪ 25-‬והנתיב הכחול הוא ‪ ,0.25 = 0.5×0.5‬ואז‬
‫הסכום בין הנתיבים הוא אפס‪ .‬זאת אומרת שאני‬
‫בהחלט יכול למצוא מצב שהמתאם בין שני משתנים‬
‫שווה לאפס למרות של‪ X1-‬יש השפעה על ‪.Y‬‬
‫במקרה הזה ‪ X1‬הוא המשתנה המדכא שלי כי הוא תורם לי לניבוי של ‪ Y‬למרות שהמתאם הגולמי שלו עם‬
‫‪ Y‬הוא אפס‪ .‬בגלל ש‪ X1‬משפיע על ‪ Y‬בכיוון שלילי אבל יש לי משתנה אחד‬
‫שהולך בכיוון ההפוך‪ ,‬אז התוצר ביניהם הוא אפס‪ .‬המטרה שתכירו את‬
‫הדברים האלה זה שתבינו שיש תופעות מאוד לא אינטואיטיביות בעולם‬
‫של רגרסיה‪.‬‬
‫דוגמא‪ :‬נגיד ש‪ X1‬זה רמת משכל ו‪ Y‬זה רמה סוציו‪-‬אקונומית ואני רוצה לראות אם רמת המשכל משפיעה‬
‫לי על הרמה הסוציו‪-‬אקונומית‪ ,‬רמת המשכל מעלה לי את הרמה הסוציו‪-‬אקונומית ויש לו קשר חיובי עם‬
‫עצב (‪ )X2‬אבל עצב מפחית לך את המצב הסוציו‪-‬אקונומי‪.‬‬
‫כשאתם מסתכלים על מתאמים אתם מסתכלים על ברוטו ולא על נטו‪ .‬הוא תוצר של הרבה השפעות וחלקן‬
‫מנוגדות‪ .‬הן יכולות להיות כל כך מנוגדות שהן מבטלות אחת את השנייה‪ .‬שמבחינה ישירה משתנה עוזר‬
‫אבל מבחינה עקיפה הוא מזיק והתוצאה של זה היא אפס‪.‬‬

‫מצגת ‪ – 5‬אמידת ביצועי המודל ו‪Overfitting-‬‬


‫האמדן הרגיל נעשה בכלים שאנחנו כבר מכירים‪:‬‬
‫חישוב ‪ R2‬מתוך ‪.SSreg, SSres, SStotal‬‬ ‫‪‬‬
‫חישוב מתאם בין ערך מנובא ^‪Y‬לערך בפועל ‪ .Y‬ה‪ R-‬שלי הוא המתאם ‪^y. ry‬‬ ‫‪‬‬
‫למה המתאם הזה תמיד חיובי? אני בונה את ‪ Y‬מנובא בכך שאני משחק עם המשקולות של המודל‬
‫כך ש‪ Y-‬יהיה הכי קרוב שאפשר ל‪ Y-‬האמתי‪ .‬הוא תמיד יהיה חיובי כי אני בחיים לא אבנה‬
‫משקולות שייצרו לי מתאם שלילי‪ .‬המתאם הזה הוא ‪ R‬כי ה‪^y -‬הוא על סמך מס' ‪X‬ים‪.‬‬
‫‪‬‬
‫אוכלוסייה‪.‬‬ ‫הבעיה בכל אלו היא שאני בונה את המודל על סמך מדגם ולא על סמך‬
‫ברגע שאני עושה על סמך מדגם‪ ,‬יכול להיות שאני אעשה התאמה שנורא מתאימה למדגם אבל לא נכונה‬
‫באוכלוסייה‪ ,‬כי למדגם יש אלמנט אקראי‪ .‬התופעה הזו שאני מתאים את המודל לדברים מקריים שקרו‬
‫בתוך המדגם אבל לא מייצגים משהו כללי באוכלוסייה נקראת ‪ .overfitting‬זה אומר שכשאני מקבל את‬
‫ה ‪ R2‬בכל השיטות האלו אני מקבל תמונה ורודה מדי על הביצועים של המודל שלי‪ .‬בעיה זו חמורה במיוחד‬
‫ככל שהמודל מורכב יותר (למשל במונחי מספר המנבאים) וככל שמספר התצפיות קטן יותר‪.‬‬
‫הדגמת ‪ :overfitting‬מדגם בגודל ‪ 100‬מאוכלוסייה שבה הקשר לינארי והמתאם ‪.0.5‬‬
‫נגיד ודגמנו ‪ 5‬נקודות מסוימות מתוך האוכלוסייה ואני רוצה להתאים להם מודל‪ ,‬אני יכול‬
‫להתאים מודל כזה (הגרף התחתון)‪.‬‬
‫המודל הזה יתאים בול לנקודות האלו‪ ,‬אבל הוא מנצל דברים מקריים‬
‫לגמרי שקרו במדגם והם לא קורים באוכלוסייה‪ .‬באותה מידה יכלו‬
‫ליפול נקודות אחרות לגמרי ואז היינו מקבלים פונ' אחרת לגמרי‪.‬‬
‫בנוסף‪ ,‬המודל הזה הרבה יותר מסובך מאשר קו ישר‪ .‬הרבה פעמים‬
‫יש נטייה להסביר יותר מדי דברים שיכול להיות שהם מקריים‬
‫לגמרי‪ .‬לפעמים בסטטיסטיקה צריך לעשות זום אאוט ולא לחפש‬
‫משהו שבדיוק מתאים‪ ,‬כי הרבה פעמים הוא יתאים למשהו שלא‬
‫מייצג את האוכלוסייה אלא בעיקר את המדגם שלכם‪ .‬בפסיכולוגיה אנחנו חוטאים ב‪ overfitting-‬המון‪.‬‬
‫התיאוריות שלנו מסובכות בהתחשב בנתונים שאנחנו מסבירים אותן על פיהם‪.‬‬
‫מודלים פשוטים מוכללים טוב יותר למדגם חדש‬
‫אדום ‪ ‬הנתונים עליהם פיתחתי את המודל‪.‬‬
‫כחול ‪ ‬נתונים שעליהם לא פיתחתי את המודל ואני‬
‫רוצה לבדוק באמצעותם האם המודל עובד (איכות‬
‫המודל)‪.‬‬
‫אם אני משתמש בנתונים האדומים גם כדי לבדוק את‬
‫ההתאמה של המודל יהיה לי ‪ .overfitting‬כי אני‬
‫מתאים את המודל לנתונים האלו‪ ,‬אז ברור שאליהם הוא‬
‫יתאים‪ .‬השאלה היא האם המודל מתאים גם לנתונים אחרים מאותו סוג‪.‬‬

‫אנחנו רואים שהמודל משמאל יותר פשוט‪ .‬שימו לב שהמודל מצד ימין יותר מתאים לנתונים האדומים –‬
‫הנקודות נופלות עליו כמעט בדיוק‪ .‬עם זאת‪ ,‬הנקודות הכחולות רחוקות מדי מהקו‪ .‬אני הוספתי עוד ועוד‬
‫איברים למודל ועשיתי אותו יותר מסובך כדי שיתאים יותר טוב לנתוני המדגם שלי‪ ,‬אבל המחיר של זה‬
‫היה שכשעברתי לנתונים חדשים זה לא התאים‪ .‬כי התאמתי את זה יותר מדי לדברים מקריים במדגם שהם‬
‫לא כלליים באוכלוסייה‪.‬‬
‫במודל השמאלי התאמתי את זה לנתונים האדומים רק בערך (הם די רחוקים מהקו)‪ .‬לא רציתי להיות מאוד‬
‫מדויק‪ ,‬עשיתי זום אאוט והסתכלתי על הדברים בערך מלמעלה‪ .‬היתרון של זה הוא שקיבלתי מודל הרבה‬
‫יותר טוב כי כשאני בודק אותו על נתונים חדשים (הכחולים) הוא עובד הרבה יותר טוב‪.‬‬

‫ה‪overfitting -‬פוגע לי בניבוי של ‪ .Y‬יש לי נתונים חלקיים‪ ,‬תמיד אני עובד על מדגם שבו יש לי את ‪ .Y‬אני‬
‫לוקח ובונה את המודל עליהם אבל אני לא מתכוון להשתמש במודל על בטא האלה כי אני לא צריך לדעת‬
‫את ‪ Y‬מתוך מודל‪ ,‬יש לי שם את ‪ Y‬האמתי‪ .‬אני רוצה את זה כדי להשתמש בזה עבור המדגמים הבאים בהם‬
‫אין לי את ‪ Y‬ואז אני יכול לחזות אותו‪ .‬כשאני בונה מודל למזג אוויר אני לא רוצה לנבא את המז"א של‬
‫אתמול אלא של מחר‪.‬‬

‫אם אני אלך לפי סכום הריבועים‪ ,‬המודל מימין יהיה טוב יותר‪ .‬הנקודות האדומות בו הם הרבה יותר‬
‫קרובות למודל שלי‪ .‬אם צריך להשוות בין המודלים רק על סמך הנקודות האדומות את תעדיפי אותו‪ .‬אבל‬
‫השיקול הוא הרבה יותר רחב מסכום הריבועים‪ ,‬כי מה שמעניין אותנו זה לדעת את האמת על האוכלוסייה‬
‫ולא רק על המדגם‪ ,‬והרבה פעמים המודל שיותר קרוב לאמת הוא דווקא זה שמתאים פחות לנתונים‪.‬‬

‫קבלת אמדן ריאלי לביצועי המודל‬


‫תיקוף צולב‪Crossvaliadation :‬‬ ‫‹‬
‫הפרדה בין נתונים שעליהם מפתחים את המודל (‪ )training‬וכאלה שמשמשים לבדיקת ביצועי המודל (‬
‫‪ .)testing‬אנחנו בודקים את התאמת המודל על נתונים שלא עליהם הוא פותח – כי זה נותן לנו אומדן‬
‫ריאלי יותר לגבי כמה המודל הזה יצליח לנבא סט חדש של נתונים‪ .‬זה אפשרי יותר בעולם הביג דאטא –‬
‫ככל שיש לך יותר דאטא אתה יכול להרשות לעצמך לשים בצד נתונים כדי לבדוק עליהם ולפתח אותו על‬
‫סמך אחרים‪ .‬השיטה הזו נותנת לנו אומדן ריאלי להצלחה האמתית של המודל ולא אומדן אופטימי ש‪R‬‬
‫בריבוע היה מחשב‪.‬‬
‫איך אני בודק את הביצועים במודל של ה‪ ?testing-‬אני בונה עם האיקסים במדגם של ה‪testing Y-‬‬
‫מנובא‪ ,‬יש להם ‪ ,Y‬ואז אני מחפש את המתאם ביניהם ומקבל ‪.R‬‬
‫יש דרך מתמטית לאמוד את ההצלחה של המודל גם בלי לעשות תיקוף צולב‪ .‬אפר להתייחס לזה כמה היה‬
‫קורה אם הייתי עושה תיקוף צולב‪:‬‬

‫אנחנו לוקחים את ה‪R2 -‬ומפחיתים ממנו משהו‪ .‬אנחנו מענישים את עצמנו כפונקציה של מספר המנבאים –‬
‫השונות הבלתי מוסברת‪ ,‬וכל זה חלקי מספר הנבדקים (‪ – )N‬מספר המנבאים (‪ .1- )K‬הנוסחה הזאת‬
‫תפחית לי מה ‪ R2‬ככל שמספר המנבאים שלי יותר גדול‪ ,‬ככל שהשונות הבלתי מוסברת שלי יותר‬
‫גדולה‪ ,‬וככל שה‪ N-‬יותר קטן‪.‬‬
‫ה‪ adjusted R2-‬הוא מין אומדן‪ ,‬כלל אצבע שאומר מה בערך נקבל ב‪ .Crossvaliadation-‬זה גם נותן לנו‬
‫תחושה מתי יש לנו סכנה של ‪ .overfitting‬יש לנו סכנה כזו במודלים שמסבירים מעט (מעט שונות)‪,‬‬
‫במודלים עם הרבה מאוד מנבאים‪ ,‬ובמודלים עם ‪ N‬קטן‪.‬‬

You might also like