Professional Documents
Culture Documents
Regression With Spss
Regression With Spss
زمستان 4931
رگرسیون با استفاده از – SPSSفصل دوم – شیوه های رگرسیون
نمای کلی فصل :
0.2روش های رگرسیون
0.4داده های غیر عادی و با نفوذ
0.0آزمون میزان نرمالیته باقیمانده ها )(residuals
0.9آزمون خطاهای غیرثابت واریانس
0.1آزمون چندخطی بودن متغیر های مستقل
0.2آزمون غیر خطی بودن متغیر های مستقل
0.2خصوصیات مدل
0.2مسائل مربوط به استقالل
0.2خالصه
1
0.2روش های رگرسیون
در فصل گذشته یادگرفتیم که چگونه با استفاده از SPSSرگرسیون خطی معمولی را انجام دهیم ،و در
انتها با روش هایی برای آزمون پراکندگی متغیرها آشنا شدیم که با استفاده از آنها بتوان با یک نگاه به
فرض های رگرسیون ،غیر نرمال بودن پراکنش متغیر ها را بررسی کرد .بدون بازبینی اینکه داده های شما
با فرض های رگرسیون همخوانی داشته باشند یا خیر ،نتایج شما ممکن است گمراه کننده باشند .این فصل
به بررسی این مورد می پردازد که آیا داده های شما با فروض رگرسیون خطی همخوانی دارند یا خیر؟ به
خصوص ،فروض زیر را در نظر می گیریم:
خطی بودن :رابطه بین پیش بینی کننده ها و اینکه متغیر نتیجه باید خطی باشد.
نرمال بودن :خطاها باید به طور نرمال پراکنده شده باشند -به طور فنی نرمالیته فقط درمورد
آزمون های tالزامی است تا بتوان این آزمون های را قابل اطمینان دانست ،پیش بینی ضرایب فقط
نیازمند آن است که خطاها به طور یکسان و مستقل پراکنده شده باشند.
همگنی واریانس :واریانس خطا باید ثابت باشد.
استقالل :خطاهای مربوط به یک مشاهده با خطاهای هیچ مشاهده دیگری در ارتباط نیستند.
مشخصات مدل :مدل به طور کامل باید مشخص شده باشد( شامل همه متغیرهای مربوط ،
باستثنای متغیرهای بی ربط)
در ادامه ،مسائلی وجود دارند که در طول این آنالیز ظاهر خواهند شد که ،همچنانکه به طور مستقیم نتایج
رگرسیون نیستند ،کم و بیش ،برای تحلیلگران رگرسیون دارای اهمیت زیادی هستند.
نفوذ :مشاهداتی که نفوذ غیرضروری بر ضرایب اعمال می کنند.
خطی بودن :پیش بینی کننده هایی که بسیار خطی هستند به عنوان مثال ،پیش بینی کننده
هایی که بصورت خطی ارتباط دارند می توانند باعث مشکالتی در تخمین ضرایب رگرسیون شوند.
بسیاری از روش های نموداری و آزمون های عددی برای تشخیص رگرسیون در طی سال ها توسعه یافته اند
و SPSSبسیاری از این روش ها را قابل دسترس و استفاده نموده است .در این فصل این روش ها را مورد
بررسی قرار می دهیم و نشان می دهیم که چگونه فروض رگرسیون را بررسی کنید و مشکالت احتمالی
درباره استفاده از SPSSرا شناسایی خواهیم کرد.
0.4داده های غیر عادی و با نفوذ
تک مشاهده ای که به طور اساسی با دیگر مشاهدات متفاوت است می تواند باعث تفاوت های بسیار زیادی
در آنالیز رگرسیون شما شود .اگر یک تک مشاهده (یا یک گروه کوچکی از مشاهدات) به طور اساسی نتایج
شما را تغییر دهند ،شما باید به آن توجه کنید و درباره آن تحقیقات بیشتری انجام دهید 3 .راه متفاوت
وجود دارند که یک مشاهده می تواند غیر عادی باشد:
.1مشاهدات دور ) : (outliersدر رگرسیون خطی ،یک مشاهده ی دور مشاهده ای با باقیمانده
بزرگ می باشد .به بیان دیگر ،مشاهده ای است که مقدار متغیر وابسته اش با توجه به مقادیر متغیر
2
های پیش بینی کننده ،غیرعادی است .یک مشاهده دور می تواند نشانگر ویژگی یک نمونه باشد و
یا نشان دهنده خطایی در ورود داده ها یا مشکالنی دیگر باشد.
:(leverage) .2مشاهده ای با مقدار بسیار باال بر روی متغیر پیش بینی کننده نقطه ای با قدرت
نفوذ باال نامیده می شود Leverage .مقیاسی برای تعیین میزان انحراف یک مشاهده از میانگین
آن متغیر می باشد .این نقاط می توانند اثرات غیرعادی بزرگی بر ارزیابی ضرایب رگرسیون داشته
باشند.
.3نفوذ ) : (influenceیک مشاهده زمانی تاثیر گذار نامیده می شود که حذف آن مشاهده به طور
اساسی در ارزیابی ضرایب تغییر ایجاد کند .نفوذ می تواند به عنوان محصولی (نتیجه ای) از
leverageو outlierباشد.
3
چگونه می توانیم این سه نوع مشاهده را شناسایی کنیم؟ بیائید به مثالی با عنوان "جرم" نگاهی
بیاندازیم .متغیر هاعبارتند از:
.1شماره شناسایی )(sid
.2نام شناسایی )(state
آمار توصیفی .3جرم های خشونت آمیز به ازای هر 111.111
Std. نفر)(crime
میانگین حداکثر حداقل N
Deviation
.4قتل ها به ازای هر 1.111.111نفر)(murder
CRIME 51 82 2922 612.84 441.111
.5درصد جمعیتی که در نواحی شهری زندگی می
MURDER 51 1.61 78.51 8.7275 11.71758
کنند)(pcmetro
PCTMETRO 51 24.11 111.11 67.3912 21.95713
.6درصد جمعیت سفید پوست)(pcwhite
PCTWHITE 51 31.81 98.51 84.1157 13.25839
.7درصد جمعیت با سواد باال)(pcths
PCTHS 51 64.31 86.61 76.2235 5.59219
.8درصد جمعیتی که زیر خط فقر
POVERTY 51 8.11 26.41 14.2588 4.58424
هستند)(poverty
SINGLE 51 8.41 22.11 11.3255 2.12149
.9درصد جمعیتی که والدین مجرد
Valid N 51
)(listwise
هستند).(single
در روبرو جدول توصیفی این متغیر ها و داده ها
آورده شده است.
بیایید با استفاده از متغیر های poverty ، pcmetroو singleبه پیش بینی متغیر crimeبپردازیم.
می توان گفت که ما می خواهیم یه
مدل رگرسیون خطی بین متغیر
واکنش) (crimeو 3متغیر دیگر
که مستقل هستند ،بسازیم .
در ابتدا و قبل از تحلیل رگرسیون به
نمودار پراکنش متغیر crimeدر
برابر هرکدام از 3متغیرپیش بینی
کننده ،نگاه می کنیم تا بتوانیم ایده
هایی درباره مشکالت احتمالی داشته
باشیم .می توانیم نمودار پراکنشی به
صورت روبرو داشته باشیم:
4
نمودار های متغیر crimeبا متغیر دیگر چند مشکل اساسی را نشان می دهند .در هر نمودار ،ما نقطه ای را
مشاهده می کنیم که بسیار دورتر از نقاط دیگر می باشد .بیایید نمودار های تک تک متغیر ها را با متغیر
crimeبسازیم تا بتوانیم دید بهتری از این نمودار های پراکنش داشته باشیم.
تمامی نمودار های پراکنش پیشنهاد می کنند که مشاهده dcنقطه ایست که باید به آن توجه بیشتری نشان
داد زیرا از تمامی نقاط دیگر بر روی نمودار کامال دور است .باید این نکته در زمان انجام تحلیل رگرسیون در
خاطر داشته باشیم.
5
متغیر دیگر3 در برابرcrime حاال با استفاده از دستور رگرسیون به پیش بینی
. قدم به قدم پیش خواهیم رفت که تمامی نقاط غیر عادی و تاثیرگذار احتمالی را شناسایی کنیم.می پردازیم
regression
/dependent crime
/method=enter pctmetro poverty single.
Model متغیر های وارد شده در مدل متغیر های حذف شده از مدل Method
4 SINGLE, PCTMETRO, POVERTY(a) - Enter
تمامی متغیر های خواسته شده وارد شده اند.4
crime : متغیر مستقل.0
ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Regression 8171481.211 3 2723493.414 82.161 .111(a)
4 Residual 1557994.534 47 33148.821
Total 9728474.745 51
پیش بینی کننده ها: (Constant), SINGLE, PCTMETRO, POVERTY
متغیر وابسته: CRIME
6
Coefficients(a)
Unstandardized
Standardized Coefficients
Coefficients t Sig.
Model B Std. Error Beta
7
حال بیایید داده هایی همانند داده های قبلی به جز باقی مانده های استیونت شده ی حذف شده
) (studentized deleted residualsرا در نظر بگیریم .باقی مانده استیودنت شده حذف شده ،
باقی مانده ای است که بعد از حذف مشاهده مورد نظر از مدل و دوباره به اجرا در آوردن رگرسیون وجود خواهد
داشت .این باقی مانده ها به این علت مهم هستند که برخی از این نقاط آنقدر تاثیرگذار هستند که زمانیکه در
تحلیل وجود دارند می توانند آن تک مشاهده را طوری نشان دهند که گویی یک داده دور افتاده نیست -در حالیکه
وقتی آن مشاهده را حذف می کنیم کامال میزان دورافتادگی اش مشخص می شود .در زیر خروجی مربوط به
تحلیل باقیمانده ها آورده شده است.
regression
/dependent crime
/method=enter pctmetro poverty single
/residuals=histogram(sdresid).
)Residuals Statistics(a
Minimum Maximum Mean Std.deviation
(حداقل) (حداکثر) (میانگین) (انحراف استاندارد) N
Predicted value
-92.24 0223.19 240.21 121.012 24
(مقدار پیش بینی شده)
Std. predicted value
-4.230 1.230 .222 4.222 24
(مقدار پیشبینی شده استاندارد)
Standard Error of Predicted Value
02.222 499.919 12.224 42.229 24
(خطای استاندارد مقدار پیشبینی شده)
Adjusted Predicted value
-93.02 0290.44 222.22 923.222 24
(؟)
(Residualباقیمانده) -209.24 102.44 .22 422.200 24
8
(متغیر وابسته Dependent variable : crime)crime :
این نمودار نشان دهنده تعدادی از داده های
دور افتاده احتمالی می باشد .می توانیم با
استفاده از داده های دور افتاده(باقیمانده های
حذف شده استیودنت شده) و )11 id(stateتا از
بیشترین مقادیر را برای باقیمانده های حذف
شده استیودنت شده بر اساس نام ایالتی که
مشاهده مورد نظر در آن صورت گرفته بدست
آوریم .در زیر خروجی ای که با استفاده از گزینه
باال بدست آورده ایم مشخص شده است.
می توانید ببینید که dcبیشترین مقدار را دارد و به دنبال آن msو flآمده اند.
regression
/dependent crime
/method=enter pctmetro poverty single
/residuals=histogram(sdresid) id(state) outliers(sdresid).
)Outlier Statistics(a
Case Number STATE Statistic
4 24 dc 9.222
0 02 ms -9.224
9 3 fl 0.202
1 42 la -4.293
2 93 ri -4.222
Stud. Deleted Residual
2 40 ia 4.232
2 12 wa -4.921
2 49 id 4.039
3 41 il 4.420
42 92 oh -4.412
a Dependent Variable: CRIME
9
2 می توانیم با استفاده از دستور زیر تمامی مشاهداتی که باقیمانده حذف شده استیودنت شده آنها بیشتر از
.هستند را بدست آوریم
regression
/dependent crime
/method=enter pctmetro poverty single
/residuals=histogram(sdresid) id(state) outliers(sdresid)
/casewise=plot(sdresid) outliers(0)
Case Number STATE Stud. Deleted Residual CRIME Predicted Value Residual
11
حال بیایید نگاهی بیاندازیم به مقادیر ،leverageتا مشاهداتی را که تاثیرات احتمالی باالیی در ارزیابی
رگرسیون ضرایب دارند شناسایی کنیم( .طبق دستور زیر)
در حالت کلی نقطه ای که مقدار leverageآن بیشتر از (0k+0)/nباشد باید به دقت مورد بررسی قرار
گیرد .در اینجا Kتعداد پیش بینی کننده هاست و nتعداد مشاهدات می باشد .بنابراین مقداری بیشتر از
(2*3+2)/51 = .1568ارزش تحقیقات بیشتر را خواهد داشت .همانطور که می بینید 4مشاهده وجود
دارد که مقدار leverageآنها بیشتر از .1568است.
regression
/dependent crime
/method=enter pctmetro poverty single
)/residuals=histogram(sdresid lever) id(state) outliers(sdresid lever
/casewise=plot(sdresid) outliers(0).
)Outlier Statistics(a
Case Number STATE Statistic
4 51 dc 3.766
11
a Dependent Variable: CRIME
12
13
همانطورکه دیدیم DC ،مشاهده ای است که هم باقیمانده بزرگی دارد و هم leverageآن بزرگ می باشد.
چنین نقاطی به صورت بالقوه بیشترین تاثیر را خواهند داشت .می توان نموداری بر حسب باقیمانده و
leverageتهیه کرد و به دنبال مشاهداتی بود که leverageو باقیمانده آنها باالست .می توان این کار را
با استفاده از دستور زیر انجام داد .این راهیست سریع برای بررسی هم زمان نقاط بالقوه ای که تاثیر باال
دارند و همچنین نقاط دور افتاده ) .(outliersهردو نوع این نقاط بیشترین اهمیت را برای ما دارند.
همانطور که می بینیم dc ،هم باقیمانده باال و هم leverageباالیی دارد ،و msباقیمانده بسیار منفی ای
دارد ولی leverageباالیی (در مقایسه با )dcندارد.
regression
/dependent crime
/method=enter pctmetro poverty single
)/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever
)/casewise=plot(sdresid) outliers(0
/scatterplot(*lever, *sdresid).
14
حاال بیایید برویم سراغ مقیاس های کلی نفوذ) ،(influenceبه خصوص نگاهی بیاندازیم به شاخص
کوک) ، (cook's Dکه اطالعات باقیمانده و leverageرا با هم ترکیب می کند .کمترین مقداری که
شاخص کوک می تواند داشته باشد صفر است ،و هرچه شاخص کوک بزرگتر باشد آن نقطه بیشترین نفوذ را
𝟒 𝟒
یا 1.178می باشد .در زیر با است ،یا در این مسئله خواهد داشت .محدوده قراردادی این نقطه
𝟏𝟓 𝒏
استفاده از دستور زیر می توانیم خروجی مورد نظر را در این رابطه بدست آوریم .در جدول های زیر
می بینیم که برای 3مشاهده دورافتاده که در جدول آمده اند ،مقدار شاخص کوک از این محدوده )(1.178
باالتر رفته است .و در جدول مشاهدات دورافتاده می بینیم که fl ، ms ، dcو 4،laایالتی هستند که از این
محدوده باالتر رفته اند ،و همه نقاط دیگر از این حد کمتراند.
regression
/dependent crime
/method=enter pctmetro poverty single
)/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever, cook
/casewise=plot(sdresid) outliers(0) cook dffit
/scatterplot(*lever, *sdresid).
15
Outlier Statistics(a)
Case Number STATE Statistic Sig. F
4 51 dc 3.766
0 25 ms -3.571
9 9 fl 2.621
1 18 la -1.839
Centered 2 18 la .146
Leverage Value 2 46 vt .117
2 9 fl .183
2 26 mt .181
3 31 nj .175
42 17 ky .172
dependent Variable: CRIME - متغیر وابسته: جرم
16
شاخص کوک را می توان به عنوان یک مقیاس عمومی نفوذ در نظر گرفت .همچنین می توانید مقیاس های
نفوذ خاص دیگری را نیز درنظر بگیرید که چگونگی تغییر هر ضریب با اضافه کردن مشاهده مورد نظر را
ارزیابی می کنند .فرض کنید که رگرسیون ضرایب را برای مدل رگرسیونی خود در زمانیکه یک مشاهده
خاص را حذف نموده اید ،محاسبه کردید ،و تغییر در رگرسیون ضرایب را در مقایسه با وجود آن مشاهده در
مدل مشاهده نمودید .این مقیاس DFBETAنامیده می شود و مقدار یک DFBETAمی تواند برای هر
مشاهده و هر پیش بینی کننده محاسبه شود .با این کار 4متغیر در فایل اطالعاتی ما باقی می مانند،
sdfb1و sdfb2و sdfb3و ، sdfb4که به ترتیب مربوط میشوند به DFBETAبرای عرض از
regression مبدا)poverty ،pctmetro ،(intercept
/dependent crime
/method=enter pctmetro poverty single
و .singleمی توانیم به جای کلمه sdfb
)/residuals=histogram(sdresid lever) id(state هرچیز دیگری بگذاریم و متغیر هایی که می
)outliers(sdresid, lever, cook
سازیم می توانند با هر پسوندی که خودمان
/casewise=plot(sdresid) outliers(0) cook dffit
)/scatterplot(*lever, *sdresid می گذاریم شروع شوند.
/save sdbeta(sdfb).
با اضافه کردن دستور ) /save sdbeta (sdfbخروجی جدیدی حاصل نخواهد شد ولی می توانیم ببینیم
که با استفاده از دستور listبرای 11مورد اول متغیر هایی ساخته می شود .به عنوان مثال با ورود مورد ak
در تحلیل رگرسیون (در مقایسه با حذف این مشاهده) ،ضریب pctmetroبه اندازه -1.116از خطای
استاندارد کاهش خواهد یافت .همچنین ،با ورود مورد akضریب povertyبه اندازه -1.131از خطای
استاندارد کاهش می یابد ،و ضریب singleبه اندازه 1.145از خطای استاندارد افزایش می یابد (در
مقایسه با مدلی که akدر آن حذف شده باشد) .از آنجائیکه ورود یا خروج یک مشاهده می تواند باعث
افزایش یا کاهش ضریب رگرسیونی شودDFBETA ،ها می توانند هم مثبت و هم منفی باشند .اگر
DFBETAباالتر از ) 2/sqrt(nباشد باید مورد بررسی بیشتری قرار گیرد .در این مثال ،نگرانی ما بیشتر
درباره مقادیری باالتر از ) 2/sqrt(51یا 28خواهد بود.
list
/variables state sdfb4 sdfb0 sdfb9
/cases from 4 to 42.
17
می توانیم نموداری تهیه کنیم که شامل مقادیر DFBETAبرای هر 3ضریب در برابر state idباشد ،این
نمودار به ما کمک می کند که مشاهداتی که به طور بالقوه باعث ایجاد مشکل می شوند را ببینیم .می بینیم
که مقادیر sdfb1و sdfb2و sdfb3تغییر کرده اند تا کوچکتر باشند و تا واضح تر در نمودار نشان داده
شوند .می توانیم ببینیم که DFBETAمتغیر singleبرای dcتقریبا 3است ،با توجه به اینکه با وجود
dcدر مول رگرسیونی ،ضریب 3 singleواحد خطای استاندارد بیشتر از زمانی است که dcرا از مدل حذف
کرده باشیم .و این دلیلی دیگر بر مشکل دار بودن مشاهده dcمی باشد.
"VARIABLE LABLES sdfb4 "Sdfbeta pctmetro
"/sdfb0 "Sdfbeta poverty
/sdfb9 "Sdfbeta single" .
GRAPH
/SCATTERPLOT(OVERLAY)=sid sid sid WITH sdfb4 sdfb0 sdfb9
)(PAIR) BY state(name
/MISSING=LISTWISE .
جدول زیر خالصه ای از مقادیری است که برای مقیاس هایی که در مورد آنها بحث شد استفاده می شود.
که با استفاده از آنها می توان مشاهداتی که باید راجع به آنها بررسی بیشتری آنجام داد را شناسایی کردk( .
تعداد پیش بینی کننده ها و nتعداد مشاهدات می باشد).
Measure
Value
leverage >(2k+2)/n
)abs(rstu >2
18
)abs(DFBETA )> 2/sqrt(n
در جدول زیر نمونه هایی از متغیر هایی که با استفاده از دستور های ، /casewise ، /residuals
/scatterplotو ) ( /save sdbetaبدست می آید آورده شده اند .اگرچه که همه این متغیر ها با یکی از
است دستورها حاصل نمی شوند(.منظور این است که با دادن یکی از این دستورها همه این متغیرها را در
خروجی نمی توان مشاهده کرد).
19
عالوه بر مقیاس های عددی که در باال نشان داده ایم ،نمودار های دیگری هم وجود دارند که می توان از آنها
برای جست و جوی مشاهدات غیرعادی و بانفوذ استفاده کرد .نمودار رگرسیون جزئی برای تشخیص نقاط
بانفوذ بسیار مفید است .برای مثال می توان دستور /partialplotرا برای ایجاد نمودار رگرسیون جزئی
برای تمامی پیش بینی کننده ها استفاده کنیم .به عنوان نمونه ،در سومین نمودار زیر می توانیم نمودار
رگرسیون جزئی را برای دو متغیر crimeبر حسب singleبعدا از آنکه هر دو آنها برای تمامی پیش بینی
های دیگر تنظیم شده اند مشاهده می شود .خطی که در نمودار کشیده شده است شیبی برابر شیب ضریب
singleدارد .این نمودار نشان می دهد که چگونه مشاهده DCضریب آن را تحت تاثیر قرار می دهد.
می توانید ببینید که خط رگرسیونی چگونه به سمت باال کشیده می شود و می کوشد تا مقادیر بسیار باالی
DCرا تحت پوشش قرار دهد .آالسکا و ویرجینیای غربی هم ممکن است مقادیر قابل توجه leverageرا
بر روی ضریب متغیر singleنشان دهند .این نقاط از این جهت مفیدند که چگونگی تاثیر یک تک نقطه را
بروری خط رگرسیونی نشان می دهند ،در عین حال سایر متغیر ها را نیز در مدل به حساب می آورند.
توجه داشته باشید که خط رگرسیونی به طور خودکار در نمودار ایجاد نمی شود .باید بر روی نمودار 2بار
کلیک کرده chart ،را انتخاب کنید ،سپس optionرا بزنید ،و Fit Line Totalرا بزنید تا خط
رگرسیونی به هرکدام از نمودارهایتان اضافه شود .همچنین دستور زیر را نیز می توانید استفاده کنید.
regression
/dependent crime
/method=enter pctmetro poverty single
)/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever, cook
/casewise=plot(sdresid) outliers(0) cook dffit
)/scatterplot(*lever, *sdresid
/partialplot.
21
21
در هر کدام از تحلیل ها DCهم به عنوان یک داده دور ) (outlierو هم به عنوان نقطه ای بانفوذ ظاهر
شده است .از آنجایی که DCیک ایالت محسوب نمی شود می توان از این دلیل استفاده کرد و آن را از
تحلیل حذف نمود و گفت که ما فقط به دنبال
regression
/dependent crime انجام این تحلیل در ایالت ها هستیم .ابتدا،
/method=enter pctmetro poverty دوباره تحلیل خود را با وجود DCبصورت زیر
single. تکرار کنیم.
ضرایب Coefficients(a)-
Unstandardized Coefficients Standardized coefficients
ضرایب استاندار نشده ضرایب استاندارد شده t Sig.
Model B Std. Error Beta
عرض از مبدا)(Constant -1666.436 147.852 -11.271 .111
PCTMETRO 7.829 1.255 .391 6.241 .111
4
POVERTY 17.681 6.941 .184 2.547 .114
22
حاال بیایید با استفاده از دستور روبرو تحلیل خود را
compute filtvar = (state NE "dc").
filter by filtvar. با حذف DCانجام دهیم .همانطور که انتظار داریم،
regression حذف DCباعث تغییر بزرگی در ضریب متغیر
/dependent crime singleشده است .ضریب متغیر singleاز 132.4
/method=enter pctmetro poverty
single . به 89.4کاهش پیدا کرد .بعد از اینکه DCرا حذف
کردیم ،پروسه ای را که در این قسمت توضیح دادیم
را تکرار خواهیم کرد تا هر مشاهده ای را که دورافتاده و با نفوذ است را پیدا کنیم.
خالصه
در این بخش ،روشهایی برای شناسایی داده های دورافتاده و نقاط با نفوذ را مورد بررسی قرار دادیم .در یک
تحلیل معمولی ،شما احتماال می توانید از بعضی از این روش ها استفاده کنید .به طور کلی ،دو روش برای
تشخیص داده های دورافتاده وجود دارد :شاخص های آماری ای مانند باقیمانده )leverage ، (residuals
و شاخص کوک) (Cook's Dکه یک دید کلی از یک مشاهده در نتایج رگرسیون را بدست می دهند .و
شاخص های آماری ای مانند DFBETAکه یک اثر جزئی از یک مشاهده را بر ضرایب رگرسیونی نشان
می دهند .در مثال ما ،متوجه شدیم که DCنقطه ای ست که باید به شدت مورد توجه قرار گیرد .تحلیل
رگرسیون را با وجود و در صورت عدم وجود این مشاهده انجام دادیم و دیدیم که معادالت رگرسیونی بسیار
متفاوت بودند .می توان حذف DCرا اینطور توجیه کرد که هدف از این تحلیل پیش بینی جرم در ایالت
های آمریکاست نه یک شهر.
23
آزمون هایی برای بررسی نرمالیته ی باقیمانده ها0.0
برای اینکه.یکی از فرضیات رگرسیون خطی آن است که باقی مانده ها بصورت نرمال پراکنده شده اند
. معتبر باشد بسیار مهم است که فرض گفته شده ثابت شودt آزمون
http://statistics.ats.ucla.edu/stat/spss/webbooks/reg/elemapi2.sav
.لینک باال داده های الزم را برای آنالیز پیش رو در اختیار شما قرار می دهد
از،(academic performance : api11) در این آنالیز می خواهیم به پیش بینی عملکرد تحصیلی
درصد زبان،(percent of receiving free meals: meals) درصد دریافت وعده غذایی رایگان
( و درصد معلمانی با گواهینامهpercent of English learners : ell) آموزان زبان انگلیسی
.(percent of teachers with emergency credentials: emer) !اضطراری
get file="c:\spssreg\elemapi0.sav".
regression
/dependent api22
/method=enter meals ell emer
/save resid(apires).
4 .914(a) Square
.836 R
.835 Estimate
57.821
Square
a Predictors: (Constant), EMER, ELL, MEALS
b Dependent Variable: API11
24
ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Regression 6749782.747 3 2249927.582 672.995 .111(a)
4 Residual 1323889.251 396 3343.155
Coefficients(a)
Unstandardized Standardized
Coefficients Coefficients t Sig.
Model B Std. Error Beta
(Constant) 886.713 6.261 141.651 .111
Casewise Diagnostics(a)
Case Number Std. Residual API22
39 3.187 614
Residuals Statistics(a)
25
حال با استفاده از دستور examineمی توانیم به میزان نرمالیته این باقیمانده ها نگاهی بیاندازیم.
تمامی نتایجی که از این دستور حاصل می شوند نشان می دهند که تمام باقیمانده ها پراکنش نرمالی دارند.
چولگی و کشیدگی نزدیک به صفر است ،آزمون های نرمالیته معنی دار نیستند ،نمودار هیستوگرام نرمال به
نظر می رسد ،و نمودار Q-Qنیز نرمال به نظر می رسد .با توجه به این نتایج ،باقیمانده های این رگرسیون
به نظر می رسد که با فرض نرمال بودن پراکنش نرمال مطابقت دارند.
examine
variables=apires
/plot boxplot stemleaf histogram npplot.
Median -3.6572916
Minimum -185.47331
Maximum 178.48224
Range 363.95555
26
Skewness .171 .122
Tests of Normality
Kolmogorov-Smirnov(a) Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
APIRES .133 411 .211(*) .996 411 .511
* This is a lower bound of the true significance.
a Lilliefors Significance Correction
27
28
0.9ناهمسانی )(Heteroscedasticity
یکی دیگر از فرضیات رگرسیون حداقل مربعات آن است که واریانس باقی مانده ها در سطوح مقادیر
پیش بینی شده همگن باشد ،که با عنوان ناهمسانی Heteroscedasticityشناخته می شود .اگر مدل
به خوبی ساخته شده باشد ،هنگامی که نمودار باقیمانده ها در برابر مقادیر پیش بینی شده رسم می شود،
هیچ الگوی مشخصی نباید وجود داشته باشد .اگر واریانس باقیمانده ها غیر ثابت باشد در این صورت
واریانس باقیمانده ها را ناهمسان می خوانند .در زیر با استفاده از روش های نموداری نشان می دهیم که
چگونه می توانیم ناهمسانی را پیدا کنیم .یک روش نموداری متداول آن است که از باقیمانده در برابر
نمودار پیش بینی شده استفاده کنیم تا باقیمانده ها را در برابر مقادیر پیش بینی شده نشان دهیم .با
استفاده از دستور زیر می توانیم باقیمانده های استاندارد شده را در برابر مقادیر پیش بینی شده ترسیم
کنیم .می بینیم که الگوی نقاط داده ها در حال تنگتر شدن به سمت راست می باشد ،که این نشانه ای
برای ناهمسانی خفیف می باشد.
regression
/dependent api22
/method=enter meals ell emer
/scatterplot(*zresid *pred).
29
بیایید مدلی را اجرا کنیم که در آن فقط دستور enrollرا به عنوان یک پیش بینی کننده استفاده
می کنیم و باقیمانده را در برابر طرح پیش بینی شده نشان می دهیم .همانطور که می بینید ،این طرح
ناهمسانی جدی ای را نشان می دهد .تغییر پذیری باقیمانده ها زمانی که مقدار پیش بینی شده تقریبا
711است بسیار بزرگتر از زمانی است که مقدار پیش بینی شده 611یا 511است.
regression
/dependent api22
/method=enter enroll
/scatterplot(*zresid *pred).
همانطور که در فصل اول دیدیم ،متغیر enrollبه طور قابل مالحظه ای به سمت راست چولگی داشت ،و
متوجه شدیم که با گرفتن لگاریتم ،متغیر تغییر یافته پراکنش نرمالی پیدا کرد .در زیر enrollرا تغییر
دادیم ،رگرسیون را اجرا کردیم ،و باقیمانده را در برابر طرح پیش بینی شده نشان دادیم .پراکنش
باقیمانده ها به شدت بهبود یافته است .مطمئنا این یک پراکنش عالی برای باقی مانده ها نمی باشد ،اما
بسیار بهتر از پراکنش متغیر تغییر نیافته می باشد.
compute lenroll = ln(enroll).
regression
/dependent api22
/method=enter lenroll
/scatterplot(*zresid *pred).
31
Variables Entered/Removed(b)
Model Variables Entered Variables Removed Method
4 LENROLL(a) . Enter
a All requested variables entered.
b Dependent Variable: API11
Model Summary(b)
Model R R Square Adjusted R Square Std. Error of the Estimate
4 .275(a) .175 .173 136.946
a Predictors: (Constant), LENROLL
b Dependent Variable: API11
ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Regression 619461.418 1 619461.418 32.497 .111(a)
4 Residual 7464211.589 398 18754.311
Coefficients(a)
Residuals Statistics(a)
31
Residual -288.65 295.47 .11 136.775 411
Std. Predicted Value -2.816 2.666 .111 1.111 411
Std. Residual -2.118 2.158 .111 .999 411
a Dependent Variable: API11
regression
/dependent api22
/method=enter meals ell emer enroll
/scatterplot(*zresid *pred).
)Variables Entered/Removed(b
Model Variables Entered Variables Removed Method
4 )ENROLL, MEALS, EMER, ELL(a . Enter
a All requested variables entered.
b Dependent Variable: API11
)Model Summary(b
32
Model R R Square Adjusted R Square Std. Error of the Estimate
4 .915(a) .838 .836 57.552
a Predictors: (Constant), ENROLL, MEALS, EMER, ELL
b Dependent Variable: API11
ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Casewise
6765344.151 Diagnostics(a)
4 1691336.112 511.635 .111(a)
Regression
Case Number 1318327.948 395Std. Residual
3312.223 API22
4 Residual
39 8173671.997 399 3.114 614
Total
a Predictors: (Constant),
002 ENROLL, MEALS, EMER,-3.311
ELL 386
abDependent
DependentVariable:
Variable:API11
API11
Coefficients(a)
33
)Residuals Statistics(a
34
0.1هم خطی Collinearity
زمانیکه یک رابطه خطی کامل بین پیش بینی کننده ها وجود دارد ،تخمین مدل رگرسیونی به تنهایی قابل
محاسبه نیست .کلمه هم خطی) (collinearityنشان می دهد که 2متغیر نزدیک به یک ترکیب خطی
کامل از یکدیگر هستند .وقتیکه بیشتر از 2متغیر در مدل وجود دارند این واژه به چندخطی
) (multicollinearityتغییر پیدا می کند ،اگرچه که این دو مفهوم اغلب به جای همدیگر استفاده می
شوند.
نگرانی اولیه آن است که با افزایش درجه چندخطی ،مدل رگرسیونی ضرایب ناپایدار خواهد شد ،و خطای
استاندارد برای ضرایب به مقدار بسیار زیادی متورم خواهد شد .در این بخش یک سری از دستور های برنامه
SPSSرا معرفی می کنیم که با استفاده از آنها می توان چندخطی را تشخیص داد.
می توان از دستور /statistics=defaults tolاستفاده کرد تا مقادیر toleranceو VIFبرای هر پیش
بینی کننده به منظور بررسی چندخطی بودن نشان داده شود Tolerance .نشانه ای است از درصدی از
واریانس در پیش بینی کننده ها که به پیش بینی کننده های دیگر اختصاص نمیابد ،از اینرو ،مقادیر بسیار
کوچک نشان می دهند که یک پیش بینی کننده اضافی است و مقادیری کمتر از 1.11باید مورد بررسی
1
می باشد ،و به بیشتری قرار گیرند VIF .مخفف ، Variance Inflation Factorبه اندازه
𝑒𝑐𝑛𝑎𝑟𝑒𝑙𝑜𝑇
عنوان یک قانون ،یک واریانس که مقادیر VIFآن باالتر از 11باشند باید مورد بررسی بیشتری قرار گیرد.
بیایید ابتدا به رگرسیونی که در بخش قبلی انجام دادیم نگاهی بیاندازیم .مدل رگرسیونی ای که به پیش
بینی api11از ell ، mealsو emerمی پرداخت و با
regression
/statistics=defaults tol استفاده از دستور /statistics=defaults tolدر نرم
/dependent api22 افزار انجام می شد .همانطور که می بینید مقادیر
/method=enter meals ell emer . Toleranceو VIFتقریبا قابل قبول می باشند.
)Coefficients(a
35
حال بیائید مثال دیگری را در نظر بگیریم که در آن مقادیر Toleranveو VIFنگران کننده تر می باشد .در
رگرسیون زیر ،از col_grad، grad_sch ، avg_ed ، acs_k3و some_colبه عنوان پیش بینی کننده
های api11استفاده کردیم .همانطور که می بینید ،مقادیر toleranceبرای grad_sch، avg_edو
col_gradکمتر از 1.11می باشد و avg_edتقریبا 1.12می باشد و نشان می دهد که تقریبا فقط 21از
واریانس در avg_edبا توجه به پیش بینی کننده های دیگر در مدل قابل پیش بینی نیست .تمامی این
متغیر ها «میزان تحصیالت والدین» را اندازه گیری می کنند و toleranceبسیار پایین نشان می دهد که
این متغیر ها حاوی اطالعات اضافی می باشند .برای مثال بعد از اینکه شما grad_sch،و col_gradرا
شناختید احتماال می توانید avg_edرا نیز به خوبی پیش بینی کنید .در این مثال ،چندخطی به وجود
می آید زیرا متغیر های زیادی را که همه یک چیز را اندازه گیری می کنند(تحصیالت والدین) وارد مدل کرده
ایم.
با استفاده از دستور Collinsخروجی مربوط به هم خطی بدست می آید .مقادیر بسیار پایین از معیار پنجم
(از آنجائیکه 5پیش بینی کننده داریم) نشانه ای دیگر از وجود مشکالت مربوط به چند خطی می باشد.
همچنین ،مقادیر بسیار باال از شاخص موقعیتی! ) (Condition Indexبرای معیار پنجم به طور مشابه
مشکالت چند خطی را برای این پیش بینی کننده ها نشان می دهد.
regression
/statistics=defaults tol collin
/dependent api22
/method=enter acs_k9 avg_ed grad_sch col_grad some_col.
)Coefficients(a
Unstandardized Standardized
Collinearity Statistics
Coefficients Coefficients t Sig.
Model B Std. Beta Tolerance VIF
-82.619 Error
81.846 -1.119 .313
)(Constant
ACS_K9 11.457 3.275 .117 3.498 .111 .972 1.129
36
Collinearity Diagnostics(a)
Variance Proportions
Eigen Condition
Mode value Index (Consta ACS_ AVG_E GRAD_S COL_GR SOME_
Dimension K9
l nt) D CH AD COL
توجه داشته باشید که.( حذف کنیمavg-ed) حاال بیائید یکی از متغیر های میزان تحصیالت والدین را
همچنین توجه داشته باشید که چگونه خطاهای. در تحلیل زیر بسیار بهتر شده اندVIF مقادیر
این به آن علت.( کاهش یافته اندgrad-sch , col-grad) استانداردبرای متغیر های تحصیالت والدین
با رفع مشکل چندخطی.است که مقادیر باالی همخطی باعث متورم شدن خطاهای استاندارد شده بود
. که قبال مهم نبود حال قابل توجه می باشدgrad-sch ضریب متغیر
regression
/statistics=defaults tol collin
/dependent api22
/method=enter acs_k9 grad_sch col_grad some_col.
Coefficients(a)
Unstandardized Standardized Collinearity
Coefficients Coefficients t Sig. Statistics
Model B Std. Error Beta Tolerance VIF
(Constant) 283.745 71.325 4.135 .111
4
ACS_K9 11.713 3.665 .113 3.196 .112 .977 1.124
37
GRAD_SCH 5.635 .458 .482 12.298 .111 .792 1.262
Collinearity Diagnostics(a)
Variance Proportions
Eigen Condition
value Index
Model Dimension (Constant) ACS_K9 GRAD_SCH COL_GRAD SOME_COL
38
0.2آزمون های غیرخطی
وقتی که رگرسیون خطی انجام می دهیم ،اینطور فرض می کنیم که رابطه بین متغیر واکنش و پیش بینی کننده ها
خطی است .اگر این فرض نقض شود ،رگرسیون خطی سعی میکند که بر روی خطی مسقیم از داده هایی منطبق
شود که خطی نیستند .بررسی فرض خطی بودن در رگرسیون ساده آسان است زیرا یک پیش بینی کننده داریم.
همه آنچه باید انجام دهیم آن است که نمودار پراکنش بین متغیر واکنش و پیش بینی کننده را رسم کنیم تا ببینیم
ک ه غیرخطی بودن وجود دارد یا خیر ،مانند یک نوار منحنی شکل یا یک منحنی موجی شکل بزرگ .برای مثال ،از
فایل داده ای که در مورد تعدادی از کشورهای سرتاسر دنیا است استفاده می کنیم .نگاهی می اندازیم به رابطه بین
GNPو ) capita(gnpcapو نرخ تولد . birthدر زیر اگر نگاهی بیاندازیم به نمودار پراکنش بین gnpcapو
birthمی توانیم ببینیم که ر ابطخ بیم این دو متغیر تقریبا غیر خطی است .با دوبار کلیک کردن بر روی این نمودار
یک خط رگرسیونی به آن اضافه کردیم ) (double click-chart-option-Fit Line Totalو می توانید ببینید
که این خط چقدر ضعیف با داده ها هماهنگ شده
regression
است .همچنین ،اگر به نمودار باقیمانده های
/dependent birth
/method=enter gnpcap پیش بینی شده نگاه کنیم می بینیم که باقیمانده
)/scatterplot(*zresid *pred ها با توجه به رابطه غیر همخط بین gnpcapو
/scat(birth gnpcap) . ،birthهمسان نیستند.
)Variables Entered/Removed(b
Model Variables Entered Variables Removed Method
4 )GNPCAP(a . Enter
a All requested variables entered.
b Dependent Variable: BIRTH
)Model Summary(b
Model R R Square Adjusted R Square Std. Error of the Estimate
4 ).626(a .392 .387 11.679
a Predictors: (Constant), GNPCAP
b Dependent Variable: BIRTH
)ANOVA(b
Model Sum of Squares df Mean Square F Sig.
Regression 7873.995 1 7873.995 69.147 ).111(a
39
Coefficients(a)
Residuals Statistics(a)
همانطور که می بینید از این طریق منحنی ای ایجاد می شود که به طور چشمگیری بهتر از رگرسیون خطی
. خطی نیستbirth وgnpcap داده ها را در بر می گیرد و در ادامه بیان می کند که رابطه بین
41
و مقادیر، و بیشتر مقادیر آن نزدیک به صفر، تقریبا چولگی پیدا کرده اندcapgnp می بینیم که مقادیر
این امر این را نشان می دهد که برخی تغییرات بر روی متغیر. به باال هستند11.111 انگشت شماری از
پس بیایید آن. یکی از تغییرات متداولی که مورد استفاده قرار می گیرد لگاریتم می باشد.ضروری می باشد
بسیار بهتر به نظر می رسدbirth وcapgnp نمودار پراکنش بین، همانطور که می بینید.را امتحان کنیم
و خط رگرسیونی از وسط داده ها
compute lgnpcap = ln(gnpcap).
regression همچنین نمودار.عبور می کند
/dependent birth باقیمانده های پیش بینی شده
/method=enter lgnpcap
/scatterplot(*zresid *pred) /scat(birth lgnpcap) .بسیار منطقی تر به نظر می رسد
/save resid(bres0).
Variables Entered/Removed(b)
Model Variables Entered Variables Removed Method
4 LGNPCAP(a) . Enter
a All requested variables entered.
b Dependent Variable: BIRTH
Model Summary(b)
Model R R Square Adjusted R Square Std. Error of the Estimate
4 .756(a) .571 .567 8.969
a Predictors: (Constant), LGNPCAP
b Dependent Variable: BIRTH
41
ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Regression 11469.248 1 11469.248 142.584 .111(a)
4 Residual 8616.899 117 81.438
Coefficients(a)
Residuals Statistics(a)
42
این بخش به شما نشان داد که چگونه می توانید از نمودار های پراکنش برای تشخیص مشکالت غیر هم
خطی استفاده کنید .هم با استفاده از نمودار پراکنش پیش بینی کننده ها و متغیر نتیجه ،و هم با بررسی
باقیمانده های پیش بینی شده می توان به این بررسی پرداخت .تمرکز این مثالها بر روی رگرسیون ساده
بود ،اگرچه که در مورد رگرسیون چندگانه نیز از تکنیک های مشابه می توان استفاده نمود.
به هر حال در رگرسیون چندگانه بسیار مفید خواهد بود که به جای نمودارهای پراکنش ساده بین پیش
بینی کننده و متغیر به بررسی نمودارهای رگرسیونی بخشی(جزئی) بپردازید.
43
0.2خصوصیات مدل
خطای خصوصیات مدل زمانی بروز می کند که یک یا بیشتر از یک متغیر وابسته از مدل حذف شده باشند
یا اینکه یک یا بیشتر از یک متغیر غیروابسته در مدل وارد شده باشند .اگر متغیر های وابسته از مدل حذف
شده باشند ،واریانس متداولی که با متغیر های موجود در مدل به اشتراک می گذارند ممکن است به استباه
به این متغیرها نسبت داده شود ،و خطای مربوط به آن بیشتر نمایان شود .از طرف دیگر ،اگر متغیر های
غیروابسته در مدل وارد شده باشند ،واریانس متداولی که بین متغیرها به اشتراک گذاشته می شود ممکن
است به طور نادرستی به این متغیر ها نسبت داده شود .خطای مربوط به خصوصیات مدل ممکن است به
طور چشمگیری ارزیابی رگرسیون ضرایب را تحت تاثیر قرار دهد.
مدل زیر را در نظر بگیرید .این رگرسیون پیشنهاد می دهد که با افزایش اندازه کالس عملکرد تحصیلی نیز
افزایش می یابد .(p=1.153) ،قبل از آنکه بگوییم
/dependent api22
بزرگی اندازه کالس با باالرفتن عملکرد تحصیلی در
/method=enter acs_k9 full
ارتباط است بیائید به بررسی خصوصیات این مدل
/save pred(apipred).
بپردازیم.
)Coefficients(a
44
را به عنوان پیش بینی کننده در مدل رگرسیونی وارد می کنیم به این امید که apipred2معنی دار
نمی باشد.
)Coefficients(a
نتیجه باال نشان می دهند که apipred2معنی دار می باشد ،و اشاره می کند که ممکن است متغیر های
مهمی را از مدل حذف کرده باشیم .به همین دلیل باید این را نیز در نظر بگیریم که آیا متغیر دیگری را به
مدل وارد کنیم بیا خیر؟ بایید این امر را با اضافه کردن
regression متغیر mealsبه مدل باال امتحان کنیم .می بینیم که
/dependent api22 mealsیک پیش بینی کننده معنی دار می باشد ،و
/method=enter acs_k9 full مقدار پیش بینی شده را با عنوان predaذخیره
meals می کنیم تا در تحلیل بعدی از آن استفاده کرده و
/save pred(preda).
ببینیم که آیا متغیر مهم دیگری را حذف کرده ایم یا
خیر؟
)Coefficients(a
Unstandardized Coefficients Standardized Coefficients
t Sig.
Model B Std. Error Beta
)(Constant 771.658 48.861 15.793 .111
45
MEALS -3.686 .112 -.828 -32.978 .111
a Dependent Variable: API11
حاال preda2که توان دوی predaمی باشد را می سازیم و هر دوی آنها را در مدلمان به عنوان پیش بینی
کننده وارد می کنیم.
)Coefficients(a
حاال می بینیم که preda2معنی دار نیست .بنابراین این آزمون نشان نمی دهد که متغیر مهم دیگری که
حذف شده باشد وجود دارد .توجه کنید که بعد از وارد کردن mealsو ،fullضریب متغیر اندازه کالس
دیگر معنی دار نیست .درحالیکه وقتی فقط متغیر fullدر مدل وارد شده است scs-k3 ،رابطه مثبتی با
api11دارد ،ولی زمانیکه mealsرا وارد مدل می کنیم acs-k3 ،به طور معنی داری رابطه ای با api11
ندارد و رابطه اش با api11دیگر مثبت نیست.
46
0.2مسائل مربوط به همبستگی
این فرض این مسئله را بیان می کند که خطاهای مربوط به یک مشاهده با خطاهای هیچکدام از مشاهدات
دیگر در ارتباط نیست .نقض این فرض در موقعیت های متفاوتی می تواند پدیدار شود .جمع آوری اطالعات
از دانش آموزان ابتدایی 8مدرسه مختلف را در نظر بگیرید .این احتمال وجود دارد که دانش آموزان یک
مدرسه بیشتر به هم شبیه باشند تا دانش آموزان مدارس مختلف .به همین دلیل خطاهای مربوط به آنها
مستقل نیست .راه دیگری که فرض استقالل می تواند نقض شود ،آن است که داده ها با متغیر های همسان
در طول زمان جمع آوری شوند .مثال اطالعات مربوط به گریز از مدرسه را در یک سال تحصیلی در مدت 12
سال جمع آوری کرده باشیم .در این حالت این احتمال وجود دارد که خطاهای هر مشاهده بین ترم های
نزدیک به هم ،بیشتر با هم ارتباط دارند تا مشاهداتی که از نظر زمانی از هم دورترند (.که این امر با عنوان
خودهمبستگی شناخته می شود) .وقتی که داده هایی داریم که بصورت سری زمانی هستند می توانیم از
آماره دوربین واتسون برای ارزیابی باقیمانده های همبسته استفاده کنیم.
در اینجا ما اطالعات سری زمانی نداریم پس از مجموعه داده elempi2استفاده می کنیم و فرض می کنیم
که snumنشان دهنده زمانی است که داده ها جمع آوری شده اند .داده های خود را بر اساس snumکه
متغیر زمانی فرضی ما می باشد دسته بندی می کنیم و سپس تحلیل رگرسیونی خود را با استفاده از گزینه
sort cases by snum . durbinبرای انجام آزمون Durbin-watsonانجام
regression می دهیم .بازه مقداری آماره دوربین واتسون بین 1تا4
/dependent api22 است ،که نقطه میانی آن 2می باشد .مقدار مشاهده شده
/method=enter enroll در مثال ما کمتر از 2می باشد ،که چون داده های ما
/residuals = durbin . واقعا سری زمانی نیستند زیاد تعجب برانگیز نیست.
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson
4 .942 .424 .233 492.202 4.924
a Predictors: (Constant), ENROLL
47
0.2خالصه
این فصل موضوعات مختلفی را در ارزیابی فرضیات رگرسیون و همچنین نتایج نقض این فرضیات با استفاده
از spssپوشش داده است .همانطور که دیدیم ،اجرای یک مدل رگرسیونی به صورت ساده کافی نیست ،ولی
بسیار مهم است که فرضیات رگرسیون به خوبی اجرا شده باشند .اگر ارزیابی فروض رگرسیون را انجام
ندهید و داده های شما با فروض مربوط به رگرسیون خطی مطابقت نداشته باشند ،نتایج شما ممکن است
گمراه کننده شوند و تحلیل نتایجتان با حدس و گمان همراه خواهد بود .بدون اینکه داده های خود را به
طور کامل از لحاظ مشکالت گفته شده ارزیابی کنید ،ممکن است محقق دیگری داده های شما را ارزیابی
کرده و این مشکالت را آشکار سازد و نتایج شما را با استفاده از یک آنالیز پیشرفته تر زیر سوال ببرد .که این
امر ممکن است نتایج شما را تکذیب کرده و تحلیل شما را تضعیف نماید.
48