Professional Documents
Culture Documents
רגרסיה ג20
רגרסיה ג20
קו הרגרסיה
הרגרסיה מהווה הרחבה של רעיון המתאם .המתאם מציג את עוצמת הקשר הלינארי בין שני משתנים.
הרגרסיה " מנצלת" את הקשר הזה לניבוי .אם יש קשר חזק בין משתנים אזי אם יודעים ערך של משתנה אחד יודעים "בערך" מהו הערך של
המשתנה השני .הרגרסיה מספקת את הנוסחה שמנבא את הערך של המשתנה השני.
קו הרגרסיה .גם משקף את הקשר הלינארי
בין המשתנים וגם מאפשר לנבא.
התרשים להלן מציג נתונים של 200תקליטורים
שהופקו בלונדון .כל נקודה בגרף היא תקליטור .עבור כל
תקליטור נתונים ההשקעה בפרסום ומכירות התקליטור.
(עיינו במצגת בנושא מתאם במידה ואתם מתקשים)
300
מפיקים תקליטור חדש ויש לנו סכום של 0150000
שטרלינג לפרסום .כמה צפוי להיות מספר תקליטורים
שנמכור?
200
100
המשתנים הב"ת של המודל .במקרה שלנו במודל רק המשתנים הב"ת שהיו במודל
משתנה בלתי תלוי אחד – ההשקעה בפרסום והוצאו ממנו .בדוגמה הנוכחית לא
()Advertising Budget קיימים .נראה כאלו בדוגמה
אחרת
Model Summary
Adjusted R Std. Error of
Model R R Square Square the Estimate
1
.578 .335 .331 65.991
Coefficients
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 )(Constant 134.140 7.537 17.799 .000
Advertsing Budget
.096 .010 .578 9.979 .000
)(thousands of pounds
המקדמים שמופיעים בנוסחת (מודל) הרגרסיה .על פי נתונים אלו מציג את נוסחת הרגרסיה ביחידות של סטיות תקן (נסמן ס.
המודל הוא: ת) .הנוסחה ביחידות אלו היא:
מכירות= •0.096 +134.4פרסום מכירות (ס.ת)= • 0.578 +134.4פרסום (ס.ת)
:למשל אם נפרסם ב( 1500-אלף שטרלינג) נקבל
134.4+0.0096 •1500= 278.4
כלומר צפוי שנמכור כ 278 -אלפי תקליטורים .שימו לב שזה מקדם חיובי בנוסחת הרגרסיה. המובהקות של המקדם .חשוב בעיקר
בדיוק מה שקיבלנו בגרף שמופיע בתחילת המצגת אומר שככל שההשקעה בפרסום המקדם של המשתנים הבלתי תלויים.
גבוהה יותר כך גם המכירות במקרה זה המקדם של הפרסום מובהק
.גבוהות יותר כלומר יש קשר מובהק בין פרסום
למכירות
רגרסיה מרובה
ברגרסיה מרובה אנו מנסים ל"נבא" או להסביר את המשתנה התלוי (למשל מכירות תקליטורים) באמצעות יותר ממשתנה
בלתי תלוי אחד .קשה לצפות שנוכל להסביר משתנה שאינו פיסיקלי באמצעות משתנה אחד בלבד .כשמדובר באנשים,
בפסיכולוגיה ,בחינוך יש משתנים רבים שמעורבים .משתנה אחד יסבירו לנו במקרים אלו רק חלק קטן יחסית של המשתנה
התלוי .מידת ההסבר נקבעת על ידי הערך של המתאם בריבוע ,בדוגמה הקודמת ערך המתאם בריבוע היה כ 33%-ואז
אומרים שהפרסום מסביר 33%מהמכירות .אבל זה מודל לא מספק אנחנו מעוניינים במודלים שמסבירים במידה גבוהה
בהרבה את המשתנה התלויה .הדרך למציאת מודלים טובים יותר היא הוספה של עוד משתנים בלתי תלויים למודל
הרגרסיה.
בדוגמה שלהלן נכלול במודל הרגרסיה של מכירות התקליטורים עוד 2משתנים בלתי תלויים:
מספר ההשמעות ברדיו בשבוע הראשון
האטרקטיביות של הלהקה המבצעת כפי שהוערכה על ידי שאלונים מתאימים שהועברו.
כמו כן נמשיך לכלול ברגרסיה את ההשקעה בפרסום
סה"כ נקבל מודל רגרסיה הכולל עתה 3משתנים בלתי תלויים.
רגרסיה מרובה :איך זה נראה ב?spss -
בדיוק כמו רגרסיה רגילה אבל עם עוד משתנים
•
Variables Entered/Removed
Variables
Model Variables Entered Removed Method
1
Attractiveness of Band, Advertsing Budget (thousands of
Enter
pounds), No. of plays on Radio 1 per week
המשתנים הבלתי תלויים של המודל .בדוגמה משתנים בלתי תלויים שבמהלך השיטה שהורינו לבצע את הרגרסיה.
הזו 3 ,משתנים בלתי תלויים :אטרקטיביות חישוב הרגרסיה המחשב השמיט במקרה זה שיטת Enterהמכונה גם
הלהקה ,השקעה בפרסום ,השמעות ברדיו. מהמודל .בשיטת הרגרסיה רגרסיה כפויה.
הכפויה המחשב לא מוציא אף
פעם משתנים מהמודל
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 .815 .665 .660 47.087
Coefficients Standardized
Model Unstandardized Coefficients Coefficients
B Std. Error Beta t Sig.
1 )(Constant -26.613 17.350 -1.534 .127
)Advertsing Budget (thousands of pounds .085 .007 .511 12.261 .000
No. of plays on Radio 1 per week 3.367 .278 .512 12.123 .000
Attractiveness of Band 11.086 2.438 .192 4.548 .000
המקדמים שמופיעים בנוסחת (מודל) הרגרסיה .על פי נתונים אלו המודל הוא: המובהקות של כל משתנה ב"ת
מכירות= • 0.085 +26.6-פרסום • 3.367 +השמעות ברדיו • 11.086 +אטרקטיביות להקה קטנה מ ,0.05 -לכן יש קשר
מובהק בין כל אחד מהמשתנים
הב"ת לבין מכירות התקליטורים
= Betaמקדמי הרגרסיה ביחידות של סטיית תקן .אנו רואים שהעלאה של סטיית תקן אחת בפרסום
מביאה בערך לעליה של חצי סטית תקן במכירות ( .)0.511העלאה של סטיית תקן בהשמעה מביאה
לעליה של כחצי סטיית תקן במכירות ( ,) 0.512והעלאה של סטיית תקן באטרקטיביות הלהקה מביאה
לעליה של פחות מ חמישית בסטיית התקן של המכירות ( .)0.192בפשטנות ניתן להסיק מכך
שהפרסום ומספר ההשמעות משפיעות במידה דומה על המכירות ושהאטרקטיביות משפיעה הרבה
פחות מהם.
רגרסיה מרובה :סיכום ביניים – הטבלאות ותפקידם
Variables Entered/Removed
מציין אלו משתנים בלתי תלויים במודל
Model Summary
מציין מה המתאם והשונות המוסברת של המודל .ככל שהשונות המוסברת גדולה יותר אנחנו שמחים יותר .סימן שהמשתנים
הבלתי תלויים מסבירים בצורה שלמה יותר את המשתנה התלוי( .שונות מוסברת מקסימלית אפשרית )100%
ANOVA
מראה אם המודל מובהק או לא .האם ניתן להסיק מן המדגם (שבאמצעותו בנינו את המודל) .אל האוכלוסייה .אם אין
מובהקות אין שום משמעות לתוצאות גם אם השונות המוסברות יצאה גדולה .אין מובהקות אומר שאת השונות המוסברת
שקיבלנו ניתן להסביר במקריות גרידא.
Coefficients
משמשת לכמה דברים:
א .לחילוץ נוסחת הרגרסיה .מקדמי ה B-הם המספרים שמופיעים בנוסחה
ב .לבחינה עבור כל משתנה בלתי תלוי האם הוא משפיע במובהק על המשתנה התלוי
ג .מקדמי ה -ביתא משקפים את מידת ההשפעה של כל משתנה על המשתנה התלוי .ככל שה ביטא (ערך מוחלט שלו כי
ביטא יכול להיות גם שלילי) גדול יותר כך פירושו של משתנה שזו הביטה שלו יש יותר השפעה על המשתנה התלוי .אם
משווים את הביטות של המשתנים הבלתי תלויים אפשר לראות מי משפיע יותר ומי משפיע פחות.
רגרסיה מרובה – שיטות החישוב ,משתנים שיצאו ,מובהקות המשתנים
ישנן כמה אפשריות לחישוב מודל הרגרסיה .בדוגמאות הקודמות הופעלה שיטת הרגרסיה הכפויה ( .) Enterבשיטה זו אנו כופים על המחשב את המשתנים הבלתי תלויים שיהיו במודל .יש שיטות אחרות שבהן אנו מאפשרים
למחשב להחליט על המשתנים הבלתי תלויים
הפעלה ראשונה באמצעות רגרסיה כפוייה Enter - אנו נדגים כמה מהשיטות באמצעות הדוגמה הבאה
אנו כופים על המחשב להכניס את כל המשתנים הבלתי תלויים למודל. המתייחסת ליחסים בן בני זוג .משתנים מנבאים (בלתי
תלויים):
הסתגרות (הימנעות מקשר)
חרדה (בהקשר של יחסים עם אנשים ,נטישה וכד')
Variables Entered/Removed זמן הקשר עם בן הזוג.
Variables גיל האדם
Model Variables Entered Removed Method 2המשתנים הראשונים מבטאים תכונת אופי או דפוס
1 התנהגות של אדם (נמדדו על פי שאלונים מתאימים)
histagrut, harada,
relation time, age
. Enter ובמידה רבה ניתן להתייחס להם כאופינים לאדם.
משתנה תלוי :זעם – מידת הזעם הקיימת כלפי בן
הזוג.
המחשב יוצר מודל שבו
נמצאים כל המשתנים הבלתי
תלויים שביקשנו לכלול אנו מנסים לברר באיזו מידה ניתן להסביר (או לנבא)
את מידת הזעם כלפי בן הזוג באמצעות ההסתגרות,
החרדה ואורך הקשר הזוגי.
Model Summary
Adjusted Std. Error of
Model R R Square R Square the Estimate
1 .418 .175 .157 .65203
שיטות החישוב ,משתנים שיצאו ,מובהקות המשתנים (המשך) רגרסיה מרובה –
ANOVA
Sum of Mean
Model Squares df Square F Sig.
1 Regression 16.918 4 4.229 9.948 .000
Residual 79.928 188 .425 המודל מובהק.
Total 96.845 192
Coefficients
Standardized
Unstandardized Coefficients Coefficients
אין קשר מובהק בין הגיל לזעם
Model B Std. Error Beta t Sig.
1 )(Constant .676 .366 1.845 .067
age .000 .013 -.002 -.012 .990 אין קשר מובהק בין זמן הקשר לזעם
relation time .000 .001 -.025 -.167 .868
harada .248 .043 .390 5.813 .000
histagrut יש קשר מובהק בין החרדה לזעם.
.114 .050 .151 2.270 .024
למשתנים הבלתי תלויים" :גיל" ו"-משך הקשר" יש מקדמים 0במודל יש קשר מובהק בין הסתגרות לזעם.
הרגרסיה .כלומר הם לא חלק מהמודל .הם גם יצאו לא מובהקים (ראה
עמודת .) Sigלעיתים למשתנים לא מובהקים המקדמים יוצאים שונים
מ .0-גם במקרה הזה הם לא 0ממש אלא פשוט קטנים מאלפית .ניתן
לראות את זה כי מקדמי הביטא ( )Betaשלהם קטנים מאוד אבל לא 0
המשך שיטת רגרסיה כפויה = Enter רגרסיה מרובה –
ANOVA
Sum of Mean
Model Squares df Square F Sig.
1 Regression 16.918 4 4.229 9.948 .000
Residual 79.928 188 .425 המודל מובהק.
Total 96.845 192 מודל מובהק אומר שלאחד
המשתנים או יותר יש קשר
מובהק למשתנה התלוי
Coefficients
Standardized
Unstandardized Coefficients Coefficients
אין קשר מובהק בין הגיל לזעם
Model B Std. Error Beta t Sig.
1 )(Constant .676 .366 1.845 .067
age .000 .013 -.002 -.012 .990 אין קשר מובהק בין זמן הקשר לזעם
relation time .000 .001 -.025 -.167 .868
harada .248 .043 .390 5.813 .000
histagrut יש קשר מובהק בין החרדה לזעם.
.114 .050 .151 2.270 .024
למשתנים הבלתי תלויים" :גיל" ו"-משך הקשר" יש מקדמים 0במודל יש קשר מובהק בין הסתגרות לזעם.
הרגרסיה .כלומר הם לא חלק מהמודל .הם גם יצאו לא מובהקים (ראה ()0.05 < 0.024
עמודת .) Sigלעיתים למשתנים לא מובהקים המקדמים יוצאים שונים מ.0-
גם במקרה הזה הם לא 0ממש אלא פשוט קטנים מאלפית .ניתן לראות את
זה כי מקדמי הביטא ( )Betaשלהם קטנים מאוד אבל לא 0
-רגרסיה כפויה בבלוקים שיטת Hierarchic Regression
בשיטה זו אנו מפרקים את המשתנים הבלתי תלויים לבלוקים.
מודל 1כולל את בלוק המשתנים הבלתי תלויים הראשון .למודל 2מתווסף הבלוק השני וכך הלאה .כל שלב כולל את הבלוקים
הקודמים ומוסיף עוד בלוק .המודל האחרון כולל את כל הבלוקים.
אפשר לראות שיטה זו כגרסה של רגרסיה כפויה אלא שהפעם אנו מחלקים אותה לשלבים .למחשב אין "שיקול דעת" .והוא
מפעיל את השלבים בדיוק על פי הבלוקים שקבענו.
Variables Entered/Removed • בדוגמה זו אנו שוב עוסקים בזעם ביחסים הזוגיים.
ומנסים לברר כיצד 4המשתנים הבלתי תלויים
Variables
משפיעים עליו .בניגוד לדוגמה הקודם עתה אנו
Model Variables Entered Removed Method
1
מחלקים את המשתנים הבלתי תלויים ל 2-בלוקים:
relation time, age . Enter
בלוק :1משך הקשר והגיל
2 histagrut, harada . Enter
בלוק :2הסתגרות וחרדה.
מודל 1כולל את הבלוק של "משך הבלוק הראשון כולל משתנים "טכניים" ,כאלו שאין
מודל 2כולל גם את הבלוק היחסים" וה"גיל" לנו שליטה עליהם .והבלוק השני כולל מאפייני אישיות
הראשון ומוסיף אליו את הבלוק ואנו רוצים לבחון מה התרומה של כל בלוק למודל
השני" :חרדה" ו"הסתגרות" (ליכולת להסביר את הזעם)
Model Summary
Change Statistics
Adjusted R Std. Error of Sig. F
Model R R Square Square the Estimate R Square Change F Change df1 df2 Change
1 .068 .005 -.006 .71229 .005 .441 2 190 .644
2 .418 .175 .157 .65203 .170 19.370 2 188 .000
השונות המוסברת על ידי מודל 1 השונות המוסברת על ידי מודל 2 הבלוק של משתני האישיות :הסתגרות וחרדה.
(הבלוק הראשון ) היא ( 0.005חצי הכולל את 2הבלוקים היא הוסיף עוד 17%לשונות המוסברות .זה ערכה של
אחוז) .קשר חלש מאוד למשתנה זעם. .17.5%חישוב פשוט מראה הרגרסיה בבלוקים אנו מבינים את ערכו של כל בלוק
שהתוספת של הבלוק השני בהסברת המשתנה התלוי
לשונות המוסברת היא 17%
טבלת האנובה ה"רגילה" .אלא שהפעם - Hierarchic Regressionהמשך
המחשב מספק טבלת אנובה לכל מודל
שנוצר .במקרה הזה 2מודלים .מודל 1
שכולל את הבלוק הראשון ומודל 2
שכולל את הבלוק הראשון והשני ביחד.
ANOVA
Model Sum of Squares df Mean Square F Sig. מודל 1איננו מובהק
1 Regression .448 2 .224 .441 .644
Residual 96.398 190 .507
Total 96.845 192 מודל 2מובהק
2 Regression 16.918 4 4.229 9.948 .000
Residual 79.928 188 .425
Total 96.845 192
מקדם שלילי בנוסחת הרגרסיה .אומר שככל שהגיל גבוה
מקדמי נוסחת הרגרסיה יותר כן קטן הזעם .תוצאה יפה ,אלא שבמקרה שלנו
של מודל 1 המשתנה גיל כלל אינו מובהק ולכן לא באמת תוצאה
Coefficients
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 )(Constant 1.934 .322 6.007 .000
age -.004 .014 -.048 -.288 .774 המובהקות של
relation time .000 .001 -.022 -.133 .894 המשתנים במודל .2
2 )(Constant .676 .366 1.845 .067 הסתגרות ןחרדה
age .000 .013 -.002 -.012 .990 מובהקים ,גיל ומשך
relation time .000 .001 -.025 -.167 .868 היחס לא מובהקים
histagrut .114 .050 .151 2.270 .024
harada .248 .043 .390 5.813 .000
מקדמי נוסחת
הרגרסיה של מודל 2
שיטת - Hierarchic Regressionהסוף
הפעם "צצה" לנו טבלה נוספת .טבלת המשתנים שלא נכללו במודלים.
במקרה שלנו היו 2מודלים .במודל השני נכללו כל המשתנים אבל במודל הראשון "כפינו" על המחשב להכניס רק את הבלוק
הראשון ולא להכניס את משתני הבלוק השני .בטבלה שלמטה המחשב "מזכיר" לנו את זה.
Excluded Variables
Collinearity Statistics
Partial Tolerance
Model Beta In t Sig. Correlation
1 histagrut .148 2.054 .041 .148 .988
harada .388 5.733 .000 .385 .977
Model Summary
Change Statistics
R Adjusted R Std. Error of the R Square F Sig. F
Model R Square Square Estimate Change Change df1 df2 Change
1 .390 .152 .147 .65575 .152 .441 2 190 .644
2 .417 .174 .165 .64887 .022 19.370 2 188 .000
המשתנה השני "הסתגרות" ( נוסף במודל )2מסביר עוד 2.2%מהזעם המשתנה הראשון "חרדה" (מודל )1מסביר 15.2%מהזעם
שיטת - Stepwiseהמשך
.
ANOVA
Sum of Mean
Model Squares df Square F Sig.
1 Regression 14.714 1 14.714 34.218 .000
Residual 82.131 191 .430
Total 96.845 192 שני המודלים מובהקים
2 Regression 16.850 2 8.425 20.010 .000
Residual 79.996 190 .421
Total 96.845 192
Coefficients
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 )(Constant 1.022 .144 7.087 .000
מקדמי המשתנים המנבאים במודל
harada .248 .042 .390 5.850 .000 הרגרסיה כאשר ערכי המשתנים
2 )(Constant .661 .215 3.083 .002 מבוטאים ביחידות של סטיות
harada .250 .042 .393 5.964 .000 התקן .אנו רואים (מודל )2
histagrut .112 .050 .149 2.252 .025 שהעלאה בסטיית תקן אחת של
חרדה גורמת לעליה של 0.393
מקדמי נוסחת הרגרסיה של כל בזעם לעומת זאת עליה בסטיית
אחד מהמודלים תקן בהסתגרות מביאה לעליה של
0.149סטיות תקן בלבד של זעם.
שיטת - Stepwiseהסוף
Partial Tolerance
Model Beta In t Sig. Correlation
1 age -.008 -.125 .901 -.009 .977
relation time -.011 -.167 .868 -.012 .981
histagrut .149 2.252 .025 .161 .999
2 age -.025 -.365 .716 -.027 .966
relation time -.027 -.401 .689 -.029 .971
במודל 2הוסיף המחשב למשתנה "חרדה" את המשתנים "גיל" ( )ageו" -משך היחסים"
המשתנה "היסתגרות" ולכן לא שיתף במודל את ( )relationtimeנמצאים לא מובהקים והמחשב
המשתנים שמצוינים פה."gil", "relationtime" : מסיים את מלאכתו.
המחשב לא ממשיך למודל 3כי בבדיקות שערך
שני המשתנים הללו נמצאים על ידו לא מובהקים.
סוף מצגת