Regression With Spss

‫«به نام خدا»‬
‫رگرسیون با استفاده از ‪SPSS‬‬
‫ترجمه و تنظیم ‪ :‬یلدا قنوعی‬
‫زمستان ‪4931‬‬
‫رگرسیون با استفاده از ‪ – SPSS‬فصل دوم – شیوه های رگرسیون‬
‫نمای کلی فصل ‪:‬‬
‫‪ 0.2‬روش های رگرسیون‬
‫‪ 0.4‬داده های غیر عادی و با نفوذ‬
‫‪ 0.0‬آزمون میزان نرمالیته باقیمانده ها )‪(residuals‬‬
‫‪ 0.9‬آزمون خطاهای غیرثابت واریانس‬
‫‪ 0.1‬آزمون چندخطی بودن متغیر های مستقل‬
‫‪ 0.2‬آزمون غیر خطی بودن متغیر های مستقل‬
‫‪ 0.2‬خصوصیات مدل‬
‫‪ 0.2‬مسائل مربوط به استقالل‬
‫‪ 0.2‬خالصه‬
‫‪1‬‬
‫‪ 0.2‬روش های رگرسیون‬
‫در فصل گذشته یادگرفتیم که چگونه با استفاده از ‪ SPSS‬رگرسیون خطی معمولی را انجام دهیم‪ ،‬و در‬
‫انتها با روش هایی برای آزمون پراکندگی متغیرها آشنا شدیم که با استفاده از آنها بتوان با یک نگاه به‬
‫فرض های رگرسیون‪ ،‬غیر نرمال بودن پراکنش متغیر ها را بررسی کرد‪ .‬بدون بازبینی اینکه داده های شما‬
‫با فرض های رگرسیون همخوانی داشته باشند یا خیر‪ ،‬نتایج شما ممکن است گمراه کننده باشند‪ .‬این فصل‬
‫به بررسی این مورد می پردازد که آیا داده های شما با فروض رگرسیون خطی همخوانی دارند یا خیر؟ به‬
‫خصوص‪ ،‬فروض زیر را در نظر می گیریم‪:‬‬
‫‪ ‬خطی بودن‪ :‬رابطه بین پیش بینی کننده ها و اینکه متغیر نتیجه باید خطی باشد‪.‬‬
‫‪ ‬نرمال بودن‪ :‬خطاها باید به طور نرمال پراکنده شده باشند‪ -‬به طور فنی نرمالیته فقط درمورد‬
‫آزمون های ‪ t‬الزامی است تا بتوان این آزمون های را قابل اطمینان دانست‪ ،‬پیش بینی ضرایب فقط‬
‫نیازمند آن است که خطاها به طور یکسان و مستقل پراکنده شده باشند‪.‬‬
‫‪ ‬همگنی واریانس‪ :‬واریانس خطا باید ثابت باشد‪.‬‬
‫‪ ‬استقالل‪ :‬خطاهای مربوط به یک مشاهده با خطاهای هیچ مشاهده دیگری در ارتباط نیستند‪.‬‬
‫‪ ‬مشخصات مدل‪ :‬مدل به طور کامل باید مشخص شده باشد( شامل همه متغیرهای مربوط ‪،‬‬
‫باستثنای متغیرهای بی ربط)‬
‫در ادامه‪ ،‬مسائلی وجود دارند که در طول این آنالیز ظاهر خواهند شد که‪ ،‬همچنانکه به طور مستقیم نتایج‬
‫رگرسیون نیستند‪ ،‬کم و بیش ‪ ،‬برای تحلیلگران رگرسیون دارای اهمیت زیادی هستند‪.‬‬
‫‪ ‬نفوذ‪ :‬مشاهداتی که نفوذ غیرضروری بر ضرایب اعمال می کنند‪.‬‬
‫‪ ‬خطی بودن‪ :‬پیش بینی کننده هایی که بسیار خطی هستند به عنوان مثال‪ ،‬پیش بینی کننده‬
‫هایی که بصورت خطی ارتباط دارند می توانند باعث مشکالتی در تخمین ضرایب رگرسیون شوند‪.‬‬
‫بسیاری از روش های نموداری و آزمون های عددی برای تشخیص رگرسیون در طی سال ها توسعه یافته اند‬
‫و ‪ SPSS‬بسیاری از این روش ها را قابل دسترس و استفاده نموده است‪ .‬در این فصل این روش ها را مورد‬
‫بررسی قرار می دهیم و نشان می دهیم که چگونه فروض رگرسیون را بررسی کنید و مشکالت احتمالی‬
‫درباره استفاده از ‪ SPSS‬را شناسایی خواهیم کرد‪.‬‬
‫‪ 0.4‬داده های غیر عادی و با نفوذ‬
‫تک مشاهده ای که به طور اساسی با دیگر مشاهدات متفاوت است می تواند باعث تفاوت های بسیار زیادی‬
‫در آنالیز رگرسیون شما شود‪ .‬اگر یک تک مشاهده (یا یک گروه کوچکی از مشاهدات) به طور اساسی نتایج‬
‫شما را تغییر دهند‪ ،‬شما باید به آن توجه کنید و درباره آن تحقیقات بیشتری انجام دهید‪ 3 .‬راه متفاوت‬
‫وجود دارند که یک مشاهده می تواند غیر عادی باشد‪:‬‬
‫‪ .1‬مشاهدات دور )‪ : (outliers‬در رگرسیون خطی‪ ،‬یک مشاهده ی دور مشاهده ای با باقیمانده‬
‫بزرگ می باشد‪ .‬به بیان دیگر‪ ،‬مشاهده ای است که مقدار متغیر وابسته اش با توجه به مقادیر متغیر‬
‫‪2‬‬
‫های پیش بینی کننده‪ ،‬غیرعادی است‪ .‬یک مشاهده دور می تواند نشانگر ویژگی یک نمونه باشد و‬
‫یا نشان دهنده خطایی در ورود داده ها یا مشکالنی دیگر باشد‪.‬‬
‫‪ :(leverage) .2‬مشاهده ای با مقدار بسیار باال بر روی متغیر پیش بینی کننده نقطه ای با قدرت‬
‫نفوذ باال نامیده می شود‪ Leverage .‬مقیاسی برای تعیین میزان انحراف یک مشاهده از میانگین‬
‫آن متغیر می باشد‪ .‬این نقاط می توانند اثرات غیرعادی بزرگی بر ارزیابی ضرایب رگرسیون داشته‬
‫باشند‪.‬‬
‫‪ .3‬نفوذ )‪ : (influence‬یک مشاهده زمانی تاثیر گذار نامیده می شود که حذف آن مشاهده به طور‬
‫اساسی در ارزیابی ضرایب تغییر ایجاد کند‪ .‬نفوذ می تواند به عنوان محصولی (نتیجه ای) از‬
‫‪ leverage‬و ‪ outlier‬باشد‪.‬‬
‫‪3‬‬
‫چگونه می توانیم این سه نوع مشاهده را شناسایی کنیم؟ بیائید به مثالی با عنوان "جرم" نگاهی‬
‫بیاندازیم‪ .‬متغیر هاعبارتند از‪:‬‬
‫‪ .1‬شماره شناسایی )‪(sid‬‬
‫‪ .2‬نام شناسایی )‪(state‬‬
‫آمار توصیفی‬ ‫‪ .3‬جرم های خشونت آمیز به ازای هر ‪111.111‬‬
‫‪Std.‬‬ ‫نفر)‪(crime‬‬
‫میانگین حداکثر حداقل ‪N‬‬
‫‪Deviation‬‬
‫‪ .4‬قتل ها به ازای هر ‪ 1.111.111‬نفر)‪(murder‬‬
‫‪CRIME‬‬ ‫‪51‬‬ ‫‪82‬‬ ‫‪2922‬‬ ‫‪612.84‬‬ ‫‪441.111‬‬
‫‪ .5‬درصد جمعیتی که در نواحی شهری زندگی می‬
‫‪MURDER‬‬ ‫‪51 1.61‬‬ ‫‪78.51‬‬ ‫‪8.7275‬‬ ‫‪11.71758‬‬
‫کنند)‪(pcmetro‬‬
‫‪PCTMETRO 51 24.11 111.11 67.3912‬‬ ‫‪21.95713‬‬
‫‪ .6‬درصد جمعیت سفید پوست)‪(pcwhite‬‬
‫‪PCTWHITE 51 31.81 98.51 84.1157‬‬ ‫‪13.25839‬‬
‫‪ .7‬درصد جمعیت با سواد باال)‪(pcths‬‬
‫‪PCTHS‬‬ ‫‪51 64.31‬‬ ‫‪86.61 76.2235‬‬ ‫‪5.59219‬‬
‫‪ .8‬درصد جمعیتی که زیر خط فقر‬
‫‪POVERTY‬‬ ‫‪51 8.11‬‬ ‫‪26.41 14.2588‬‬ ‫‪4.58424‬‬
‫هستند)‪(poverty‬‬
‫‪SINGLE‬‬ ‫‪51 8.41‬‬ ‫‪22.11 11.3255‬‬ ‫‪2.12149‬‬
‫‪ .9‬درصد جمعیتی که والدین مجرد‬
‫‪Valid N‬‬ ‫‪51‬‬
‫)‪(listwise‬‬
‫هستند)‪.(single‬‬
‫در روبرو جدول توصیفی این متغیر ها و داده ها‬
‫آورده شده است‪.‬‬
‫بیایید با استفاده از متغیر های ‪ poverty ، pcmetro‬و ‪ single‬به پیش بینی متغیر ‪ crime‬بپردازیم‪.‬‬
‫می توان گفت که ما می خواهیم یه‬
‫مدل رگرسیون خطی بین متغیر‬
‫واکنش)‪ (crime‬و ‪ 3‬متغیر دیگر‬
‫که مستقل هستند‪ ،‬بسازیم ‪.‬‬
‫در ابتدا و قبل از تحلیل رگرسیون به‬
‫نمودار پراکنش متغیر ‪ crime‬در‬
‫برابر هرکدام از ‪ 3‬متغیرپیش بینی‬
‫کننده‪ ،‬نگاه می کنیم تا بتوانیم ایده‬
‫هایی درباره مشکالت احتمالی داشته‬
‫باشیم‪ .‬می توانیم نمودار پراکنشی به‬
‫صورت روبرو داشته باشیم‪:‬‬
‫‪4‬‬
‫نمودار های متغیر ‪ crime‬با متغیر دیگر چند مشکل اساسی را نشان می دهند‪ .‬در هر نمودار‪ ،‬ما نقطه ای را‬
‫مشاهده می کنیم که بسیار دورتر از نقاط دیگر می باشد‪ .‬بیایید نمودار های تک تک متغیر ها را با متغیر‬
‫‪ crime‬بسازیم تا بتوانیم دید بهتری از این نمودار های پراکنش داشته باشیم‪.‬‬
‫تمامی نمودار های پراکنش پیشنهاد می کنند که مشاهده ‪ dc‬نقطه ایست که باید به آن توجه بیشتری نشان‬
‫داد زیرا از تمامی نقاط دیگر بر روی نمودار کامال دور است‪ .‬باید این نکته در زمان انجام تحلیل رگرسیون در‬
‫خاطر داشته باشیم‪.‬‬
‫‪5‬‬
‫ متغیر دیگر‬3 ‫ در برابر‬crime ‫حاال با استفاده از دستور رگرسیون به پیش بینی‬
.‫ قدم به قدم پیش خواهیم رفت که تمامی نقاط غیر عادی و تاثیرگذار احتمالی را شناسایی کنیم‬.‫می پردازیم‬
regression
/dependent crime
/method=enter pctmetro poverty single.
‫حذف شده در مدل‬/‫متغیر های وارد شده‬
Model ‫متغیر های وارد شده در مدل‬ ‫متغیر های حذف شده از مدل‬ Method
4 SINGLE, PCTMETRO, POVERTY(a) - Enter
‫ تمامی متغیر های خواسته شده وارد شده اند‬.4
crime : ‫ متغیر مستقل‬.0
Model Summary(b))‫(خالصه مدل‬

Model R R Square Adjusted R Square Std. Error of the Estimate
4 .342(a) .212 .292 420.222
‫پیش بینی کننده ها‬: (Constant), SINGLE, PCTMETRO, POVERTY
‫متغیر وابسته‬: CRIME
ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Regression 8171481.211 3 2723493.414 82.161 .111(a)
4 Residual 1557994.534 47 33148.821
Total 9728474.745 51
‫پیش بینی کننده ها‬: (Constant), SINGLE, PCTMETRO, POVERTY
6
Coefficients(a)
Unstandardized
Standardized Coefficients
Coefficients t Sig.
Model B Std. Error Beta
(Constant) -1666.436 147.852 -11.271 .111
PCTMETRO 7.829 1.255 .391 6.241 .111

4
POVERTY 17.681 6.941 .184 2.547 .114
SINGLE 132.418 15.513 .637 8.541 .111
7
‫حال بیایید داده هایی همانند داده های قبلی به جز باقی مانده های استیونت شده ی حذف شده‬
‫)‪ (studentized deleted residuals‬را در نظر بگیریم‪ .‬باقی مانده استیودنت شده حذف شده ‪،‬‬
‫باقی مانده ای است که بعد از حذف مشاهده مورد نظر از مدل و دوباره به اجرا در آوردن رگرسیون وجود خواهد‬
‫داشت‪ .‬این باقی مانده ها به این علت مهم هستند که برخی از این نقاط آنقدر تاثیرگذار هستند که زمانیکه در‬
‫تحلیل وجود دارند می توانند آن تک مشاهده را طوری نشان دهند که گویی یک داده دور افتاده نیست‪ -‬در حالیکه‬
‫وقتی آن مشاهده را حذف می کنیم کامال میزان دورافتادگی اش مشخص می شود‪ .‬در زیر خروجی مربوط به‬
‫تحلیل باقیمانده ها آورده شده است‪.‬‬
‫‪regression‬‬
‫‪/dependent crime‬‬
‫‪/method=enter pctmetro poverty single‬‬
‫‪/residuals=histogram(sdresid).‬‬
‫)‪Residuals Statistics(a‬‬
‫‪Minimum‬‬ ‫‪Maximum‬‬ ‫‪Mean‬‬ ‫‪Std.deviation‬‬
‫(حداقل)‬ ‫(حداکثر)‬ ‫(میانگین)‬ ‫(انحراف استاندارد)‬ ‫‪N‬‬
‫‪Predicted value‬‬
‫‪-92.24‬‬ ‫‪0223.19‬‬ ‫‪240.21‬‬ ‫‪121.012‬‬ ‫‪24‬‬
‫(مقدار پیش بینی شده)‬
‫‪Std. predicted value‬‬
‫‪-4.230‬‬ ‫‪1.230‬‬ ‫‪.222‬‬ ‫‪4.222‬‬ ‫‪24‬‬
‫(مقدار پیشبینی شده استاندارد)‬
‫‪Standard Error of Predicted Value‬‬
‫‪02.222‬‬ ‫‪499.919‬‬ ‫‪12.224‬‬ ‫‪42.229‬‬ ‫‪24‬‬
‫(خطای استاندارد مقدار پیشبینی شده)‬
‫‪Adjusted Predicted value‬‬
‫‪-93.02‬‬ ‫‪0290.44‬‬ ‫‪222.22‬‬ ‫‪923.222‬‬ ‫‪24‬‬
‫(؟)‬
‫‪(Residual‬باقیمانده)‬ ‫‪-209.24‬‬ ‫‪102.44‬‬ ‫‪.22‬‬ ‫‪422.200‬‬ ‫‪24‬‬
‫‪(Std. Residual‬باقیمانده استاندارد شده)‬ ‫‪-0.229‬‬ ‫‪0.912‬‬ ‫‪.222‬‬ ‫‪.322‬‬ ‫‪24‬‬
‫‪(Stud. Residual‬باقیمانده استیودنت شده)‬ ‫‪-9.431‬‬ ‫‪9.902‬‬ ‫‪.242‬‬ ‫‪4.2220‬‬ ‫‪24‬‬
‫‪(Deleted Residual‬باقیمانده حذف شده)‬ ‫‪-212.22‬‬ ‫‪223.23‬‬ ‫‪2.42‬‬ ‫‪009.222‬‬ ‫‪24‬‬

‫‪Stud. Deleted Residual‬‬
‫‪-9.224‬‬ ‫‪9.222‬‬ ‫‪.242‬‬ ‫‪4.499‬‬ ‫‪24‬‬
‫(باقیمانده استیودنت شده حذف شده)‬
‫‪(Mahal. Distance‬؟)‬ ‫‪.209‬‬ ‫‪02.293‬‬ ‫‪0.314‬‬ ‫‪1.241‬‬ ‫‪24‬‬
‫‪(Cook's Distance‬فاصله شاخص کوک)‬ ‫‪.222‬‬ ‫‪9.029‬‬ ‫‪.223‬‬ ‫‪.121‬‬ ‫‪24‬‬
‫‪(Centered Leverage Value‬؟)‬ ‫‪.222‬‬ ‫‪.242‬‬ ‫‪.223‬‬ ‫‪.222‬‬ ‫‪24‬‬
‫‪8‬‬
‫(متغیر وابسته ‪Dependent variable : crime)crime :‬‬
‫این نمودار نشان دهنده تعدادی از داده های‬
‫دور افتاده احتمالی می باشد‪ .‬می توانیم با‬
‫استفاده از داده های دور افتاده(باقیمانده های‬
‫حذف شده استیودنت شده) و )‪11 id(state‬تا از‬
‫بیشترین مقادیر را برای باقیمانده های حذف‬
‫شده استیودنت شده بر اساس نام ایالتی که‬
‫مشاهده مورد نظر در آن صورت گرفته بدست‬
‫آوریم‪ .‬در زیر خروجی ای که با استفاده از گزینه‬
‫باال بدست آورده ایم مشخص شده است‪.‬‬
‫می توانید ببینید که ‪ dc‬بیشترین مقدار را دارد و به دنبال آن ‪ ms‬و ‪ fl‬آمده اند‪.‬‬
‫‪/residuals=histogram(sdresid) id(state) outliers(sdresid).‬‬
‫)‪Outlier Statistics(a‬‬
‫‪Case Number‬‬ ‫‪STATE‬‬ ‫‪Statistic‬‬
‫‪4‬‬ ‫‪24‬‬ ‫‪dc‬‬ ‫‪9.222‬‬
‫‪0‬‬ ‫‪02‬‬ ‫‪ms‬‬ ‫‪-9.224‬‬
‫‪9‬‬ ‫‪3‬‬ ‫‪fl‬‬ ‫‪0.202‬‬
‫‪1‬‬ ‫‪42‬‬ ‫‪la‬‬ ‫‪-4.293‬‬
‫‪2‬‬ ‫‪93‬‬ ‫‪ri‬‬ ‫‪-4.222‬‬
‫‪2‬‬ ‫‪40‬‬ ‫‪ia‬‬ ‫‪4.232‬‬
‫‪2‬‬ ‫‪12‬‬ ‫‪wa‬‬ ‫‪-4.921‬‬
‫‪2‬‬ ‫‪49‬‬ ‫‪id‬‬ ‫‪4.039‬‬
‫‪3‬‬ ‫‪41‬‬ ‫‪il‬‬ ‫‪4.420‬‬
‫‪42‬‬ ‫‪92‬‬ ‫‪oh‬‬ ‫‪-4.412‬‬
‫‪a Dependent Variable: CRIME‬‬
‫‪9‬‬
2 ‫می توانیم با استفاده از دستور زیر تمامی مشاهداتی که باقیمانده حذف شده استیودنت شده آنها بیشتر از‬
.‫هستند را بدست آوریم‬
regression
/dependent crime
/method=enter pctmetro poverty single
/residuals=histogram(sdresid) id(state) outliers(sdresid)
/casewise=plot(sdresid) outliers(0)
)‫(بررسی موردی‬Casewise Diagnostics(a)
Case Number STATE Stud. Deleted Residual CRIME Predicted Value Residual
3 fl 2.621 1216 779.89 426.11
02 ms -3.571 434 957.11 -523.11
24 dc 3.766 2922 2519.43 412.57
a Dependent Variable: CRIME
11
‫حال بیایید نگاهی بیاندازیم به مقادیر ‪ ،leverage‬تا مشاهداتی را که تاثیرات احتمالی باالیی در ارزیابی‬
‫رگرسیون ضرایب دارند شناسایی کنیم‪( .‬طبق دستور زیر)‬
‫در حالت کلی نقطه ای که مقدار ‪ leverage‬آن بیشتر از ‪ (0k+0)/n‬باشد باید به دقت مورد بررسی قرار‬
‫گیرد‪ .‬در اینجا ‪ K‬تعداد پیش بینی کننده هاست و ‪ n‬تعداد مشاهدات می باشد‪ .‬بنابراین مقداری بیشتر از‬
‫‪ (2*3+2)/51 = .1568‬ارزش تحقیقات بیشتر را خواهد داشت‪ .‬همانطور که می بینید ‪ 4‬مشاهده وجود‬
‫دارد که مقدار ‪ leverage‬آنها بیشتر از ‪ .1568‬است‪.‬‬
‫)‪/residuals=histogram(sdresid lever) id(state) outliers(sdresid lever‬‬
‫‪/casewise=plot(sdresid) outliers(0).‬‬
‫)‪Outlier Statistics(a‬‬
‫‪Case Number‬‬ ‫‪STATE‬‬ ‫‪Statistic‬‬
‫‪4‬‬ ‫‪51‬‬ ‫‪dc‬‬ ‫‪3.766‬‬
‫‪0‬‬ ‫‪25‬‬ ‫‪ms‬‬ ‫‪-3.571‬‬
‫‪9‬‬ ‫‪9‬‬ ‫‪fl‬‬ ‫‪2.621‬‬
‫‪1‬‬ ‫‪18‬‬ ‫‪la‬‬ ‫‪-1.839‬‬
‫‪2‬‬ ‫‪39‬‬ ‫‪ri‬‬ ‫‪-1.686‬‬

‫‪2‬‬ ‫‪12‬‬ ‫‪ia‬‬ ‫‪1.591‬‬
‫‪2‬‬ ‫‪47‬‬ ‫‪wa‬‬ ‫‪-1.314‬‬
‫‪2‬‬ ‫‪13‬‬ ‫‪id‬‬ ‫‪1.293‬‬
‫‪3‬‬ ‫‪14‬‬ ‫‪il‬‬ ‫‪1.152‬‬
‫‪42‬‬ ‫‪35‬‬ ‫‪oh‬‬ ‫‪-1.148‬‬
‫‪4‬‬ ‫‪51‬‬ ‫‪dc‬‬ ‫‪.517‬‬
‫‪0‬‬ ‫‪1‬‬ ‫‪ak‬‬ ‫‪.241‬‬
‫‪9‬‬ ‫‪25‬‬ ‫‪ms‬‬ ‫‪.171‬‬

‫‪Centered Leverage Value‬‬
‫‪1‬‬ ‫‪49‬‬ ‫‪wv‬‬ ‫‪.161‬‬
‫‪2‬‬ ‫‪18‬‬ ‫‪la‬‬ ‫‪.146‬‬
‫‪2‬‬ ‫‪46‬‬ ‫‪vt‬‬ ‫‪.117‬‬
‫‪11‬‬
a Dependent Variable: CRIME
12
13
‫همانطورکه دیدیم‪ DC ،‬مشاهده ای است که هم باقیمانده بزرگی دارد و هم ‪ leverage‬آن بزرگ می باشد‪.‬‬
‫چنین نقاطی به صورت بالقوه بیشترین تاثیر را خواهند داشت‪ .‬می توان نموداری بر حسب باقیمانده و‬
‫‪ leverage‬تهیه کرد و به دنبال مشاهداتی بود که ‪ leverage‬و باقیمانده آنها باالست‪ .‬می توان این کار را‬
‫با استفاده از دستور زیر انجام داد‪ .‬این راهیست سریع برای بررسی هم زمان نقاط بالقوه ای که تاثیر باال‬
‫دارند و همچنین نقاط دور افتاده )‪ .(outliers‬هردو نوع این نقاط بیشترین اهمیت را برای ما دارند‪.‬‬
‫همانطور که می بینیم‪ dc ،‬هم باقیمانده باال و هم ‪ leverage‬باالیی دارد‪ ،‬و ‪ ms‬باقیمانده بسیار منفی ای‬
‫دارد ولی ‪ leverage‬باالیی (در مقایسه با ‪ )dc‬ندارد‪.‬‬
‫)‪/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever‬‬
‫)‪/casewise=plot(sdresid) outliers(0‬‬
‫‪/scatterplot(*lever, *sdresid).‬‬
‫‪14‬‬
‫حاال بیایید برویم سراغ مقیاس های کلی نفوذ)‪ ،(influence‬به خصوص نگاهی بیاندازیم به شاخص‬
‫کوک)‪ ، (cook's D‬که اطالعات باقیمانده و ‪ leverage‬را با هم ترکیب می کند‪ .‬کمترین مقداری که‬
‫شاخص کوک می تواند داشته باشد صفر است‪ ،‬و هرچه شاخص کوک بزرگتر باشد آن نقطه بیشترین نفوذ را‬
‫𝟒‬ ‫𝟒‬
‫یا ‪ 1.178‬می باشد‪ .‬در زیر با‬ ‫است‪ ،‬یا در این مسئله‬ ‫خواهد داشت‪ .‬محدوده قراردادی این نقطه‬
‫𝟏𝟓‬ ‫𝒏‬
‫استفاده از دستور زیر می توانیم خروجی مورد نظر را در این رابطه بدست آوریم‪ .‬در جدول های زیر‬
‫می بینیم که برای ‪ 3‬مشاهده دورافتاده که در جدول آمده اند‪ ،‬مقدار شاخص کوک از این محدوده )‪(1.178‬‬
‫باالتر رفته است‪ .‬و در جدول مشاهدات دورافتاده می بینیم که ‪ fl ، ms ، dc‬و ‪ 4،la‬ایالتی هستند که از این‬
‫محدوده باالتر رفته اند‪ ،‬و همه نقاط دیگر از این حد کمتراند‪.‬‬
‫)‪/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever, cook‬‬
‫‪/casewise=plot(sdresid) outliers(0) cook dffit‬‬
‫‪/scatterplot(*lever, *sdresid).‬‬
‫بررسی موردی ‪Casewise Diagnostics(a)-‬‬

‫‪Cook's D‬‬
‫‪Case Number‬‬ ‫‪State‬‬ ‫‪Stud, Deleted Residuals‬‬ ‫‪Crime‬‬ ‫‪Dffit‬‬
‫‪Distance‬‬
‫شماره مورد‬ ‫ایالت‬ ‫باقیمانده حذف شده استیودنت شده‬ ‫جرم‬ ‫؟‬
‫فاصله شاخص کوک‬
‫‪9‬‬ ‫‪fl‬‬ ‫‪2.261‬‬ ‫‪1216‬‬ ‫‪.174‬‬ ‫‪48.517‬‬
‫‪25‬‬ ‫‪ms‬‬ ‫‪-3.571‬‬ ‫‪434‬‬ ‫‪.612‬‬ ‫‪-123.491‬‬
‫‪51‬‬ ‫‪dc‬‬ ‫‪3.766‬‬ ‫‪2922‬‬ ‫‪3.213‬‬ ‫‪477.319‬‬
‫جرم ‪ :‬متغیر وابسته ‪dependent Variable: CRIME -‬‬
‫‪15‬‬
Outlier Statistics(a)
Case Number STATE Statistic Sig. F
4 51 dc 3.766
0 25 ms -3.571
9 9 fl 2.621
1 18 la -1.839
Stud. Deleted 2 39 ri -1.686

Residual 2 12 ia 1.591
2 47 wa -1.314
2 13 id 1.293
3 14 il 1.152
42 35 oh -1.148
4 51 dc 3.213 .121
0 25 ms .612 .663
9 9 fl .174 .951
1 18 la .159 .958
2 39 ri .141 .997
Cook's distance
2 12 ia .141 .997
2 13 id .137 .997
2 21 md .121 .999
3 6 co .118 .999
42 49 wv .116 .999
4 51 dc .517
0 1 ak .241
9 25 ms .171
1 49 wv .161
Centered 2 18 la .146
Leverage Value 2 46 vt .117
2 9 fl .183
2 26 mt .181
3 31 nj .175
42 17 ky .172
dependent Variable: CRIME - ‫ متغیر وابسته‬: ‫جرم‬
16
‫شاخص کوک را می توان به عنوان یک مقیاس عمومی نفوذ در نظر گرفت‪ .‬همچنین می توانید مقیاس های‬
‫نفوذ خاص دیگری را نیز درنظر بگیرید که چگونگی تغییر هر ضریب با اضافه کردن مشاهده مورد نظر را‬
‫ارزیابی می کنند‪ .‬فرض کنید که رگرسیون ضرایب را برای مدل رگرسیونی خود در زمانیکه یک مشاهده‬
‫خاص را حذف نموده اید‪ ،‬محاسبه کردید‪ ،‬و تغییر در رگرسیون ضرایب را در مقایسه با وجود آن مشاهده در‬
‫مدل مشاهده نمودید‪ .‬این مقیاس ‪ DFBETA‬نامیده می شود و مقدار یک ‪ DFBETA‬می تواند برای هر‬
‫مشاهده و هر پیش بینی کننده محاسبه شود‪ .‬با این کار ‪ 4‬متغیر در فایل اطالعاتی ما باقی می مانند‪،‬‬
‫‪ sdfb1‬و ‪ sdfb2‬و ‪ sdfb3‬و ‪ ، sdfb4‬که به ترتیب مربوط میشوند به ‪ DFBETA‬برای عرض از‬
‫‪regression‬‬ ‫مبدا)‪poverty ،pctmetro ،(intercept‬‬
‫و ‪ .single‬می توانیم به جای کلمه ‪sdfb‬‬
‫)‪/residuals=histogram(sdresid lever) id(state‬‬ ‫هرچیز دیگری بگذاریم و متغیر هایی که می‬
‫)‪outliers(sdresid, lever, cook‬‬
‫سازیم می توانند با هر پسوندی که خودمان‬
‫)‪/scatterplot(*lever, *sdresid‬‬ ‫می گذاریم شروع شوند‪.‬‬
‫‪/save sdbeta(sdfb).‬‬
‫با اضافه کردن دستور )‪ /save sdbeta (sdfb‬خروجی جدیدی حاصل نخواهد شد ولی می توانیم ببینیم‬
‫که با استفاده از دستور ‪ list‬برای ‪ 11‬مورد اول متغیر هایی ساخته می شود‪ .‬به عنوان مثال با ورود مورد ‪ak‬‬
‫در تحلیل رگرسیون (در مقایسه با حذف این مشاهده)‪ ،‬ضریب ‪ pctmetro‬به اندازه ‪ -1.116‬از خطای‬
‫استاندارد کاهش خواهد یافت‪ .‬همچنین‪ ،‬با ورود مورد ‪ ak‬ضریب ‪ poverty‬به اندازه ‪ -1.131‬از خطای‬
‫استاندارد کاهش می یابد‪ ،‬و ضریب ‪ single‬به اندازه ‪ 1.145‬از خطای استاندارد افزایش می یابد (در‬
‫مقایسه با مدلی که ‪ ak‬در آن حذف شده باشد)‪ .‬از آنجائیکه ورود یا خروج یک مشاهده می تواند باعث‬
‫افزایش یا کاهش ضریب رگرسیونی شود‪DFBETA ،‬ها می توانند هم مثبت و هم منفی باشند‪ .‬اگر‬
‫‪ DFBETA‬باالتر از )‪ 2/sqrt(n‬باشد باید مورد بررسی بیشتری قرار گیرد‪ .‬در این مثال‪ ،‬نگرانی ما بیشتر‬
‫درباره مقادیری باالتر از )‪ 2/sqrt(51‬یا ‪ 28‬خواهد بود‪.‬‬
‫‪list‬‬
‫‪/variables state sdfb4 sdfb0 sdfb9‬‬
‫‪/cases from 4 to 42.‬‬
‫‪17‬‬
‫می توانیم نموداری تهیه کنیم که شامل مقادیر ‪ DFBETA‬برای هر ‪ 3‬ضریب در برابر ‪ state id‬باشد‪ ،‬این‬
‫نمودار به ما کمک می کند که مشاهداتی که به طور بالقوه باعث ایجاد مشکل می شوند را ببینیم‪ .‬می بینیم‬
‫که مقادیر ‪ sdfb1‬و ‪ sdfb2‬و ‪ sdfb3‬تغییر کرده اند تا کوچکتر باشند و تا واضح تر در نمودار نشان داده‬
‫شوند‪ .‬می توانیم ببینیم که ‪ DFBETA‬متغیر ‪ single‬برای ‪ dc‬تقریبا ‪ 3‬است‪ ،‬با توجه به اینکه با وجود‬
‫‪ dc‬در مول رگرسیونی‪ ،‬ضریب ‪3 single‬واحد خطای استاندارد بیشتر از زمانی است که ‪ dc‬را از مدل حذف‬
‫کرده باشیم‪ .‬و این دلیلی دیگر بر مشکل دار بودن مشاهده ‪ dc‬می باشد‪.‬‬
‫"‪VARIABLE LABLES sdfb4 "Sdfbeta pctmetro‬‬
‫"‪/sdfb0 "Sdfbeta poverty‬‬
‫‪/sdfb9 "Sdfbeta single" .‬‬
‫‪GRAPH‬‬
‫‪/SCATTERPLOT(OVERLAY)=sid sid sid WITH sdfb4 sdfb0 sdfb9‬‬
‫)‪(PAIR) BY state(name‬‬
‫‪/MISSING=LISTWISE .‬‬
‫جدول زیر خالصه ای از مقادیری است که برای مقیاس هایی که در مورد آنها بحث شد استفاده می شود‪.‬‬
‫که با استفاده از آنها می توان مشاهداتی که باید راجع به آنها بررسی بیشتری آنجام داد را شناسایی کرد‪k( .‬‬
‫تعداد پیش بینی کننده ها و ‪ n‬تعداد مشاهدات می باشد)‪.‬‬
‫‪Measure‬‬
‫‪Value‬‬
‫‪leverage‬‬ ‫‪>(2k+2)/n‬‬
‫)‪abs(rstu‬‬ ‫‪>2‬‬
‫‪Cook's D‬‬ ‫‪> 4/n‬‬
‫‪18‬‬
‫)‪abs(DFBETA‬‬ ‫)‪> 2/sqrt(n‬‬
‫در جدول زیر نمونه هایی از متغیر هایی که با استفاده از دستور های ‪، /casewise ، /residuals‬‬
‫‪ /scatterplot‬و ) (‪ /save sdbeta‬بدست می آید آورده شده اند‪ .‬اگرچه که همه این متغیر ها با یکی از‬
‫است دستورها حاصل نمی شوند‪(.‬منظور این است که با دادن یکی از این دستورها همه این متغیرها را در‬
‫خروجی نمی توان مشاهده کرد)‪.‬‬
‫‪19‬‬
‫عالوه بر مقیاس های عددی که در باال نشان داده ایم‪ ،‬نمودار های دیگری هم وجود دارند که می توان از آنها‬
‫برای جست و جوی مشاهدات غیرعادی و بانفوذ استفاده کرد‪ .‬نمودار رگرسیون جزئی برای تشخیص نقاط‬
‫بانفوذ بسیار مفید است‪ .‬برای مثال می توان دستور ‪ /partialplot‬را برای ایجاد نمودار رگرسیون جزئی‬
‫برای تمامی پیش بینی کننده ها استفاده کنیم‪ .‬به عنوان نمونه‪ ،‬در سومین نمودار زیر می توانیم نمودار‬
‫رگرسیون جزئی را برای دو متغیر ‪ crime‬بر حسب ‪ single‬بعدا از آنکه هر دو آنها برای تمامی پیش بینی‬
‫های دیگر تنظیم شده اند مشاهده می شود‪ .‬خطی که در نمودار کشیده شده است شیبی برابر شیب ضریب‬
‫‪ single‬دارد‪ .‬این نمودار نشان می دهد که چگونه مشاهده ‪ DC‬ضریب آن را تحت تاثیر قرار می دهد‪.‬‬
‫می توانید ببینید که خط رگرسیونی چگونه به سمت باال کشیده می شود و می کوشد تا مقادیر بسیار باالی‬
‫‪ DC‬را تحت پوشش قرار دهد‪ .‬آالسکا و ویرجینیای غربی هم ممکن است مقادیر قابل توجه ‪ leverage‬را‬
‫بر روی ضریب متغیر ‪ single‬نشان دهند‪ .‬این نقاط از این جهت مفیدند که چگونگی تاثیر یک تک نقطه را‬
‫بروری خط رگرسیونی نشان می دهند‪ ،‬در عین حال سایر متغیر ها را نیز در مدل به حساب می آورند‪.‬‬
‫توجه داشته باشید که خط رگرسیونی به طور خودکار در نمودار ایجاد نمی شود‪ .‬باید بر روی نمودار ‪2‬بار‬
‫کلیک کرده‪ chart ،‬را انتخاب کنید‪ ،‬سپس ‪ option‬را بزنید‪ ،‬و ‪ Fit Line Total‬را بزنید تا خط‬
‫رگرسیونی به هرکدام از نمودارهایتان اضافه شود‪ .‬همچنین دستور زیر را نیز می توانید استفاده کنید‪.‬‬
‫)‪/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever, cook‬‬
‫)‪/scatterplot(*lever, *sdresid‬‬
‫‪/partialplot.‬‬
‫‪21‬‬
21
‫در هر کدام از تحلیل ها ‪ DC‬هم به عنوان یک داده دور )‪ (outlier‬و هم به عنوان نقطه ای بانفوذ ظاهر‬
‫شده است‪ .‬از آنجایی که ‪ DC‬یک ایالت محسوب نمی شود می توان از این دلیل استفاده کرد و آن را از‬
‫تحلیل حذف نمود و گفت که ما فقط به دنبال‬
‫‪/dependent crime‬‬ ‫انجام این تحلیل در ایالت ها هستیم‪ .‬ابتدا‪،‬‬
‫‪/method=enter pctmetro poverty‬‬ ‫دوباره تحلیل خود را با وجود ‪ DC‬بصورت زیر‬
‫‪single.‬‬ ‫تکرار کنیم‪.‬‬
‫ضرایب ‪Coefficients(a)-‬‬
‫‪Unstandardized Coefficients‬‬ ‫‪Standardized coefficients‬‬
‫ضرایب استاندار نشده‬ ‫ضرایب استاندارد شده‬ ‫‪t‬‬ ‫‪Sig.‬‬
‫‪Model‬‬ ‫‪B‬‬ ‫‪Std. Error‬‬ ‫‪Beta‬‬
‫عرض از مبدا)‪(Constant‬‬ ‫‪-1666.436‬‬ ‫‪147.852‬‬ ‫‪-11.271‬‬ ‫‪.111‬‬
‫‪PCTMETRO‬‬ ‫‪7.829‬‬ ‫‪1.255‬‬ ‫‪.391‬‬ ‫‪6.241‬‬ ‫‪.111‬‬
‫‪4‬‬
‫‪POVERTY‬‬ ‫‪17.681‬‬ ‫‪6.941‬‬ ‫‪.184‬‬ ‫‪2.547‬‬ ‫‪.114‬‬
‫‪SINGLE‬‬ ‫‪132.418‬‬ ‫‪15.513‬‬ ‫‪.637‬‬ ‫‪8.541‬‬ ‫‪.111‬‬
‫متغیر وابسته‪ :‬جرم ‪a Dependent Variable: CRIME -‬‬
‫‪22‬‬
‫حاال بیایید با استفاده از دستور روبرو تحلیل خود را‬
‫‪compute filtvar = (state NE "dc").‬‬
‫‪filter by filtvar.‬‬ ‫با حذف ‪ DC‬انجام دهیم‪ .‬همانطور که انتظار داریم‪،‬‬
‫‪regression‬‬ ‫حذف ‪ DC‬باعث تغییر بزرگی در ضریب متغیر‬
‫‪/dependent crime‬‬ ‫‪ single‬شده است‪ .‬ضریب متغیر ‪ single‬از ‪132.4‬‬
‫‪/method=enter pctmetro poverty‬‬
‫‪single .‬‬ ‫به ‪ 89.4‬کاهش پیدا کرد‪ .‬بعد از اینکه ‪ DC‬را حذف‬
‫کردیم‪ ،‬پروسه ای را که در این قسمت توضیح دادیم‬
‫را تکرار خواهیم کرد تا هر مشاهده ای را که دورافتاده و با نفوذ است را پیدا کنیم‪.‬‬
‫ضرایب ‪Coefficients(a) -‬‬
‫‪Unstandardized coefficients‬‬ ‫‪Standardized Coefficients‬‬

‫ضرایب استاندارد نشده‬ ‫ضرایب استاندارد شده‬ ‫‪t‬‬ ‫‪Sig.‬‬
‫عرض از مبدا)‪(Constant‬‬ ‫‪-1197.538‬‬ ‫‪181.487‬‬ ‫‪-6.635‬‬ ‫‪.111‬‬
‫‪PCTMETRO‬‬ ‫‪7.712‬‬ ‫‪1.119‬‬ ‫‪.565‬‬ ‫‪6.953‬‬ ‫‪.111‬‬

‫‪4‬‬
‫‪POVERTY‬‬ ‫‪18.283‬‬ ‫‪6.136‬‬ ‫‪.265‬‬ ‫‪2.981‬‬ ‫‪.115‬‬
‫‪SINGLE‬‬ ‫‪89.411‬‬ ‫‪17.836‬‬ ‫‪.446‬‬ ‫‪5.112‬‬ ‫‪.111‬‬

‫متغیر وابسته‪ :‬جرم ‪a Dependent Variable: CRIME -‬‬
‫خالصه‬
‫در این بخش‪ ،‬روشهایی برای شناسایی داده های دورافتاده و نقاط با نفوذ را مورد بررسی قرار دادیم‪ .‬در یک‬
‫تحلیل معمولی‪ ،‬شما احتماال می توانید از بعضی از این روش ها استفاده کنید‪ .‬به طور کلی‪ ،‬دو روش برای‬
‫تشخیص داده های دورافتاده وجود دارد‪ :‬شاخص های آماری ای مانند باقیمانده )‪leverage ، (residuals‬‬
‫و شاخص کوک)‪ (Cook's D‬که یک دید کلی از یک مشاهده در نتایج رگرسیون را بدست می دهند‪ .‬و‬
‫شاخص های آماری ای مانند ‪ DFBETA‬که یک اثر جزئی از یک مشاهده را بر ضرایب رگرسیونی نشان‬
‫می دهند‪ .‬در مثال ما‪ ،‬متوجه شدیم که ‪ DC‬نقطه ای ست که باید به شدت مورد توجه قرار گیرد‪ .‬تحلیل‬
‫رگرسیون را با وجود و در صورت عدم وجود این مشاهده انجام دادیم و دیدیم که معادالت رگرسیونی بسیار‬
‫متفاوت بودند‪ .‬می توان حذف ‪ DC‬را اینطور توجیه کرد که هدف از این تحلیل پیش بینی جرم در ایالت‬
‫های آمریکاست نه یک شهر‪.‬‬
‫‪23‬‬
‫ آزمون هایی برای بررسی نرمالیته ی باقیمانده ها‬0.0
‫ برای اینکه‬.‫یکی از فرضیات رگرسیون خطی آن است که باقی مانده ها بصورت نرمال پراکنده شده اند‬
.‫ معتبر باشد بسیار مهم است که فرض گفته شده ثابت شود‬t ‫آزمون‬
http://statistics.ats.ucla.edu/stat/spss/webbooks/reg/elemapi2.sav
.‫لینک باال داده های الزم را برای آنالیز پیش رو در اختیار شما قرار می دهد‬
‫ از‬،(academic performance : api11) ‫در این آنالیز می خواهیم به پیش بینی عملکرد تحصیلی‬
‫ درصد زبان‬،(percent of receiving free meals: meals) ‫درصد دریافت وعده غذایی رایگان‬
‫( و درصد معلمانی با گواهینامه‬percent of English learners : ell) ‫آموزان زبان انگلیسی‬
.(percent of teachers with emergency credentials: emer) !‫اضطراری‬
get file="c:\spssreg\elemapi0.sav".
regression
/dependent api22
/method=enter meals ell emer
/save resid(apires).
Variables Entered/Removed(b)‫حذف شده‬/‫متغیر های وارد شده‬
Variables Entered Variables Removed

Model Method ‫روش‬
‫متغیر های وارد شده‬ ‫متغیر های حذف شده‬
Enter
4 EMER, ELL, MEALS(a) . ‫ورود‬
a All requested variables entered.‫همه متغیر های خواسته شده وارد شده اند‬
b Dependent Variable: API11 API11:‫متغیر وابسته‬
Model Summary(b) - ‫خالصه ای از مدل‬
Model R R Adjusted Std. Error of the
4 .914(a) Square
.836 R
.835 Estimate
57.821
Square
a Predictors: (Constant), EMER, ELL, MEALS
b Dependent Variable: API11
24
ANOVA(b)
Regression 6749782.747 3 2249927.582 672.995 .111(a)
4 Residual 1323889.251 396 3343.155
Total 8173671.997 399

a Predictors: (Constant), EMER, ELL, MEALS
Coefficients(a)
Unstandardized Standardized
Coefficients Coefficients t Sig.
(Constant) 886.713 6.261 141.651 .111
MEALS -3.159 .151 -.719 -21.198 .111

4
ELL -.911 .185 -.159 -4.928 .111
EMER -1.573 .293 -.131 -5.368 .111

a Dependent Variable: API11
Casewise Diagnostics(a)
Case Number Std. Residual API22
39 3.187 614
002 -3.218 386

Residuals Statistics(a)
Minimum Maximum Mean Std. Deviation N
Predicted Value 425.52 884.88 647.62 131.164 411

Residual -185.47 178.48 .11 57.612 411
Std. Predicted Value -1.718 1.824 .111 1.111 411
Std. Residual -3.218 3.187 .111 .996 411
25
‫حال با استفاده از دستور ‪ examine‬می توانیم به میزان نرمالیته این باقیمانده ها نگاهی بیاندازیم‪.‬‬
‫تمامی نتایجی که از این دستور حاصل می شوند نشان می دهند که تمام باقیمانده ها پراکنش نرمالی دارند‪.‬‬
‫چولگی و کشیدگی نزدیک به صفر است‪ ،‬آزمون های نرمالیته معنی دار نیستند‪ ،‬نمودار هیستوگرام نرمال به‬
‫نظر می رسد‪ ،‬و نمودار ‪ Q-Q‬نیز نرمال به نظر می رسد‪ .‬با توجه به این نتایج‪ ،‬باقیمانده های این رگرسیون‬
‫به نظر می رسد که با فرض نرمال بودن پراکنش نرمال مطابقت دارند‪.‬‬
‫‪examine‬‬
‫‪variables=apires‬‬
‫‪/plot boxplot stemleaf histogram npplot.‬‬
‫‪Case Processing Summary‬‬

‫‪Cases‬‬
‫‪Valid‬‬ ‫‪Missing‬‬ ‫‪Total‬‬
‫‪Descriptives‬‬
‫‪N‬‬ ‫‪Percent‬‬ ‫‪N‬‬ ‫‪Percent‬‬ ‫‪N‬‬ ‫‪Percent‬‬
‫‪APIRES‬‬ ‫‪411‬‬ ‫‪111.11‬‬ ‫‪1‬‬ ‫‪.11‬‬ ‫‪Statistic‬‬
‫‪411‬‬ ‫‪Std. Error‬‬
‫‪111.11‬‬
‫‪Mean‬‬ ‫‪.1111111‬‬ ‫‪2.88111215‬‬
‫‪Lower Bound‬‬ ‫‪-5.6621919‬‬

‫‪329 Confidence Interval for Mean‬‬
‫‪Upper Bound‬‬ ‫‪5.6621919‬‬
‫‪29 Trimmed Mean‬‬ ‫‪-.7827765‬‬
‫‪Median‬‬ ‫‪-3.6572916‬‬
‫‪APIRES‬‬ ‫‪Variance‬‬ ‫‪3318.118‬‬
‫‪Std. Deviation‬‬ ‫‪57.61224114‬‬
‫‪Minimum‬‬ ‫‪-185.47331‬‬
‫‪Maximum‬‬ ‫‪178.48224‬‬
‫‪Range‬‬ ‫‪363.95555‬‬
‫‪Interquartile Range‬‬ ‫‪76.5523153‬‬
‫‪26‬‬
Skewness .171 .122
Kurtosis .135 .243
Tests of Normality
Kolmogorov-Smirnov(a) Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
APIRES .133 411 .211(*) .996 411 .511
* This is a lower bound of the true significance.
a Lilliefors Significance Correction
27
28
‫‪ 0.9‬ناهمسانی )‪(Heteroscedasticity‬‬
‫یکی دیگر از فرضیات رگرسیون حداقل مربعات آن است که واریانس باقی مانده ها در سطوح مقادیر‬
‫پیش بینی شده همگن باشد‪ ،‬که با عنوان ناهمسانی ‪ Heteroscedasticity‬شناخته می شود‪ .‬اگر مدل‬
‫به خوبی ساخته شده باشد‪ ،‬هنگامی که نمودار باقیمانده ها در برابر مقادیر پیش بینی شده رسم می شود‪،‬‬
‫هیچ الگوی مشخصی نباید وجود داشته باشد‪ .‬اگر واریانس باقیمانده ها غیر ثابت باشد در این صورت‬
‫واریانس باقیمانده ها را ناهمسان می خوانند‪ .‬در زیر با استفاده از روش های نموداری نشان می دهیم که‬
‫چگونه می توانیم ناهمسانی را پیدا کنیم‪ .‬یک روش نموداری متداول آن است که از باقیمانده در برابر‬
‫نمودار پیش بینی شده استفاده کنیم تا باقیمانده ها را در برابر مقادیر پیش بینی شده نشان دهیم‪ .‬با‬
‫استفاده از دستور زیر می توانیم باقیمانده های استاندارد شده را در برابر مقادیر پیش بینی شده ترسیم‬
‫کنیم‪ .‬می بینیم که الگوی نقاط داده ها در حال تنگتر شدن به سمت راست می باشد‪ ،‬که این نشانه ای‬
‫برای ناهمسانی خفیف می باشد‪.‬‬
‫‪/dependent api22‬‬
‫‪/method=enter meals ell emer‬‬
‫‪/scatterplot(*zresid *pred).‬‬
‫‪29‬‬
‫بیایید مدلی را اجرا کنیم که در آن فقط دستور ‪ enroll‬را به عنوان یک پیش بینی کننده استفاده‬
‫می کنیم و باقیمانده را در برابر طرح پیش بینی شده نشان می دهیم‪ .‬همانطور که می بینید‪ ،‬این طرح‬
‫ناهمسانی جدی ای را نشان می دهد‪ .‬تغییر پذیری باقیمانده ها زمانی که مقدار پیش بینی شده تقریبا‬
‫‪ 711‬است بسیار بزرگتر از زمانی است که مقدار پیش بینی شده ‪ 611‬یا ‪ 511‬است‪.‬‬
‫‪/method=enter enroll‬‬
‫همانطور که در فصل اول دیدیم‪ ،‬متغیر ‪ enroll‬به طور قابل مالحظه ای به سمت راست چولگی داشت‪ ،‬و‬
‫متوجه شدیم که با گرفتن لگاریتم‪ ،‬متغیر تغییر یافته پراکنش نرمالی پیدا کرد‪ .‬در زیر ‪ enroll‬را تغییر‬
‫دادیم‪ ،‬رگرسیون را اجرا کردیم‪ ،‬و باقیمانده را در برابر طرح پیش بینی شده نشان دادیم‪ .‬پراکنش‬
‫باقیمانده ها به شدت بهبود یافته است‪ .‬مطمئنا این یک پراکنش عالی برای باقی مانده ها نمی باشد‪ ،‬اما‬
‫بسیار بهتر از پراکنش متغیر تغییر نیافته می باشد‪.‬‬
‫‪compute lenroll = ln(enroll).‬‬
‫‪/method=enter lenroll‬‬
‫‪31‬‬
Variables Entered/Removed(b)
Model Variables Entered Variables Removed Method
4 LENROLL(a) . Enter
a All requested variables entered.
Model Summary(b)
4 .275(a) .175 .173 136.946
a Predictors: (Constant), LENROLL
ANOVA(b)
Regression 619461.418 1 619461.418 32.497 .111(a)
4 Residual 7464211.589 398 18754.311
Total 8173671.997 399

a Predictors: (Constant), LENROLL
Coefficients(a)
Unstandardized Coefficients Standardized Coefficients

t Sig.
(Constant) 1171.429 91.966 12.727 .111
4
LENROLL -86.111 15.186 -.275 -5.711 .111
Predicted Value 537.57 751.82 647.62 39.183 411
31
‫‪Residual‬‬ ‫‪-288.65‬‬ ‫‪295.47‬‬ ‫‪.11‬‬ ‫‪136.775‬‬ ‫‪411‬‬
‫‪Std. Predicted Value‬‬ ‫‪-2.816‬‬ ‫‪2.666‬‬ ‫‪.111‬‬ ‫‪1.111‬‬ ‫‪411‬‬
‫‪Std. Residual‬‬ ‫‪-2.118‬‬ ‫‪2.158‬‬ ‫‪.111‬‬ ‫‪.999‬‬ ‫‪411‬‬
‫‪a Dependent Variable: API11‬‬
‫بیائید‬ ‫انتها‪،‬‬ ‫در‬

‫دوباره به‬ ‫نگاهی‬
‫مدلی که در ابتدای این بخش استفاده کردیم‪ ،‬بیاندازیم‪ ،‬که در آن به پیش بینی ‪ api11‬از ‪ ell ، meals‬و‬
‫‪ emer‬پرداختیم‪ .‬با استفاده از این مدل‪ ،‬پراکنش باقیمانده ها بسیار خوب به نظر می رسید و حتی از میان‬
‫مقادیر پیش بینی شده گذر می کرد‪ .‬چه می شود اگر ‪ enroll‬را به این مدل اضافه کنیم؟ آیا این کار‬
‫بصورت خودکار پراکنش باقیمانده ها را خراب خواهد کرد؟ بیایید آن را اضافه کنیم و ببینیم چه اتفاقی‬
‫خواهد افتاد؟‬
‫‪/method=enter meals ell emer enroll‬‬
‫)‪Variables Entered/Removed(b‬‬
‫‪Model‬‬ ‫‪Variables Entered‬‬ ‫‪Variables Removed‬‬ ‫‪Method‬‬
‫‪4‬‬ ‫)‪ENROLL, MEALS, EMER, ELL(a‬‬ ‫‪.‬‬ ‫‪Enter‬‬
‫‪a All requested variables entered.‬‬
‫‪b Dependent Variable: API11‬‬
‫)‪Model Summary(b‬‬
‫‪32‬‬
4 .915(a) .838 .836 57.552
a Predictors: (Constant), ENROLL, MEALS, EMER, ELL
ANOVA(b)
Casewise
6765344.151 Diagnostics(a)
4 1691336.112 511.635 .111(a)
Regression
Case Number 1318327.948 395Std. Residual
3312.223 API22
4 Residual
39 8173671.997 399 3.114 614
Total
a Predictors: (Constant),
002 ENROLL, MEALS, EMER,-3.311
ELL 386
abDependent
DependentVariable:
Variable:API11
API11
Coefficients(a)

t Sig.
(Constant) 899.147 8.472 116.128 .111
MEALS -3.222 .152 -.723 -21.223 .111
4 ELL -.768 .195 -.134 -3.934 .111
EMER -1.418 .311 -.117 -4.721 .111
ENROLL -3.126E-12 .114 -.151 -2.168 .131

33
‫)‪Residuals Statistics(a‬‬
‫‪Minimum‬‬ ‫‪Maximum‬‬ ‫‪Mean‬‬ ‫‪Std. Deviation‬‬ ‫‪N‬‬
‫‪Predicted Value‬‬ ‫‪431.82‬‬ ‫‪888.18‬‬ ‫‪647.62‬‬ ‫‪131.214‬‬ ‫‪411‬‬

‫‪Residual‬‬ ‫‪-191.56‬‬ ‫‪172.86‬‬ ‫‪.11‬‬ ‫‪57.263‬‬ ‫‪411‬‬
‫‪Std. Predicted Value‬‬ ‫‪-1.665‬‬ ‫‪1.847‬‬ ‫‪.111‬‬ ‫‪1.111‬‬ ‫‪411‬‬
‫‪Std. Residual‬‬ ‫‪-3.311‬‬ ‫‪3.114‬‬ ‫‪.111‬‬ ‫‪.995‬‬ ‫‪411‬‬
‫مشاهده می‬ ‫همانطور که‬

‫کنید‪،‬پراکنش باقیمانده ها خوب به نظر می رسد‪ ،‬حتی بعد از اینکه متغیر ‪ enroll‬را اضافه کردیم‪ .‬وقتی که‬
‫تنها متغیر موجود در مدل ‪ enroll‬بود نیاز به انجام لگاریتم برای تغییر این متغیر و بهبود پراکنش باقیمانده‬
‫ها داشتیم‪ ،‬اما وقتی ‪ enroll‬به همراه دیگر متغیر ها در مدل وجود داشته باشد باقیمانده ها خوب به نظر‬
‫می رسند لذا به این تغییر نیازی نخواهد بود‪ .‬این امر روشن می کند که چگونه پراکنش باقیمانده ها‪ ،‬نه‬
‫پیش بینی کننده ها‪ ،‬راهنمایی برای آن است که آیا تغییر در متغیر احتیاج هست یا نیست؟‬
‫‪34‬‬
‫‪ 0.1‬هم خطی ‪Collinearity‬‬
‫زمانیکه یک رابطه خطی کامل بین پیش بینی کننده ها وجود دارد‪ ،‬تخمین مدل رگرسیونی به تنهایی قابل‬
‫محاسبه نیست‪ .‬کلمه هم خطی)‪ (collinearity‬نشان می دهد که ‪ 2‬متغیر نزدیک به یک ترکیب خطی‬
‫کامل از یکدیگر هستند‪ .‬وقتیکه بیشتر از ‪ 2‬متغیر در مدل وجود دارند این واژه به چندخطی‬
‫)‪ (multicollinearity‬تغییر پیدا می کند‪ ،‬اگرچه که این دو مفهوم اغلب به جای همدیگر استفاده می‬
‫شوند‪.‬‬
‫نگرانی اولیه آن است که با افزایش درجه چندخطی‪ ،‬مدل رگرسیونی ضرایب ناپایدار خواهد شد‪ ،‬و خطای‬
‫استاندارد برای ضرایب به مقدار بسیار زیادی متورم خواهد شد‪ .‬در این بخش یک سری از دستور های برنامه‬
‫‪ SPSS‬را معرفی می کنیم که با استفاده از آنها می توان چندخطی را تشخیص داد‪.‬‬
‫می توان از دستور ‪ /statistics=defaults tol‬استفاده کرد تا مقادیر ‪ tolerance‬و ‪ VIF‬برای هر پیش‬
‫بینی کننده به منظور بررسی چندخطی بودن نشان داده شود‪ Tolerance .‬نشانه ای است از درصدی از‬
‫واریانس در پیش بینی کننده ها که به پیش بینی کننده های دیگر اختصاص نمیابد‪ ،‬از اینرو‪ ،‬مقادیر بسیار‬
‫کوچک نشان می دهند که یک پیش بینی کننده اضافی است و مقادیری کمتر از ‪ 1.11‬باید مورد بررسی‬
‫‪1‬‬
‫می باشد‪ ،‬و به‬ ‫بیشتری قرار گیرند‪ VIF .‬مخفف ‪ ، Variance Inflation Factor‬به اندازه‬
‫𝑒𝑐𝑛𝑎𝑟𝑒𝑙𝑜𝑇‬
‫عنوان یک قانون‪ ،‬یک واریانس که مقادیر ‪ VIF‬آن باالتر از ‪ 11‬باشند باید مورد بررسی بیشتری قرار گیرد‪.‬‬
‫بیایید ابتدا به رگرسیونی که در بخش قبلی انجام دادیم نگاهی بیاندازیم‪ .‬مدل رگرسیونی ای که به پیش‬
‫بینی ‪ api11‬از ‪ ell ، meals‬و ‪ emer‬می پرداخت و با‬
‫‪/statistics=defaults tol‬‬ ‫استفاده از دستور ‪ /statistics=defaults tol‬در نرم‬
‫‪/dependent api22‬‬ ‫افزار انجام می شد‪ .‬همانطور که می بینید مقادیر‬
‫‪/method=enter meals ell emer .‬‬ ‫‪ Tolerance‬و ‪ VIF‬تقریبا قابل قبول می باشند‪.‬‬
‫)‪Coefficients(a‬‬
‫‪Unstandardized‬‬ ‫‪Standardized‬‬ ‫‪Collinearity‬‬

‫‪Coefficients‬‬ ‫‪Coefficients‬‬ ‫‪t‬‬ ‫‪Sig.‬‬ ‫‪Statistics‬‬
‫‪Model‬‬ ‫‪B‬‬ ‫‪Std. Error‬‬ ‫‪Beta‬‬ ‫‪Tolerance‬‬ ‫‪VIF‬‬
‫)‪(Constant‬‬ ‫‪886.713‬‬ ‫‪6.261‬‬ ‫‪141.651‬‬ ‫‪.111‬‬
‫‪MEALS‬‬ ‫‪-3.159‬‬ ‫‪.151‬‬ ‫‪-.719‬‬ ‫‪-21.198‬‬ ‫‪.111‬‬ ‫‪.367‬‬ ‫‪2.725‬‬

‫‪4‬‬
‫‪ELL‬‬ ‫‪-.911‬‬ ‫‪.185‬‬ ‫‪-.159‬‬ ‫‪-4.928‬‬ ‫‪.111‬‬ ‫‪.398‬‬ ‫‪2.511‬‬
‫‪EMER‬‬ ‫‪-1.573‬‬ ‫‪.293‬‬ ‫‪-.131‬‬ ‫‪-5.368‬‬ ‫‪.111‬‬ ‫‪.717‬‬ ‫‪1.415‬‬
‫‪35‬‬
‫حال بیائید مثال دیگری را در نظر بگیریم که در آن مقادیر ‪ Toleranve‬و ‪ VIF‬نگران کننده تر می باشد‪ .‬در‬
‫رگرسیون زیر‪ ،‬از ‪ col_grad، grad_sch ، avg_ed ، acs_k3‬و ‪ some_col‬به عنوان پیش بینی کننده‬
‫های ‪ api11‬استفاده کردیم‪ .‬همانطور که می بینید‪ ،‬مقادیر ‪ tolerance‬برای ‪ grad_sch، avg_ed‬و‬
‫‪ col_grad‬کمتر از ‪ 1.11‬می باشد و ‪ avg_ed‬تقریبا ‪ 1.12‬می باشد و نشان می دهد که تقریبا فقط ‪ 21‬از‬
‫واریانس در ‪ avg_ed‬با توجه به پیش بینی کننده های دیگر در مدل قابل پیش بینی نیست‪ .‬تمامی این‬
‫متغیر ها «میزان تحصیالت والدین» را اندازه گیری می کنند و ‪ tolerance‬بسیار پایین نشان می دهد که‬
‫این متغیر ها حاوی اطالعات اضافی می باشند‪ .‬برای مثال بعد از اینکه شما ‪ grad_sch،‬و ‪ col_grad‬را‬
‫شناختید احتماال می توانید ‪ avg_ed‬را نیز به خوبی پیش بینی کنید‪ .‬در این مثال‪ ،‬چندخطی به وجود‬
‫می آید زیرا متغیر های زیادی را که همه یک چیز را اندازه گیری می کنند(تحصیالت والدین) وارد مدل کرده‬
‫ایم‪.‬‬
‫با استفاده از دستور ‪ Collins‬خروجی مربوط به هم خطی بدست می آید‪ .‬مقادیر بسیار پایین از معیار پنجم‬
‫(از آنجائیکه ‪ 5‬پیش بینی کننده داریم) نشانه ای دیگر از وجود مشکالت مربوط به چند خطی می باشد‪.‬‬
‫همچنین‪ ،‬مقادیر بسیار باال از شاخص موقعیتی! )‪ (Condition Index‬برای معیار پنجم به طور مشابه‬
‫مشکالت چند خطی را برای این پیش بینی کننده ها نشان می دهد‪.‬‬
‫‪/statistics=defaults tol collin‬‬
‫‪/method=enter acs_k9 avg_ed grad_sch col_grad some_col.‬‬
‫‪Unstandardized‬‬ ‫‪Standardized‬‬
‫‪Collinearity Statistics‬‬
‫‪Coefficients‬‬ ‫‪Coefficients‬‬ ‫‪t‬‬ ‫‪Sig.‬‬
‫‪Model‬‬ ‫‪B‬‬ ‫‪Std.‬‬ ‫‪Beta‬‬ ‫‪Tolerance‬‬ ‫‪VIF‬‬
‫‪-82.619‬‬ ‫‪Error‬‬
‫‪81.846‬‬ ‫‪-1.119‬‬ ‫‪.313‬‬
‫)‪(Constant‬‬
‫‪ACS_K9‬‬ ‫‪11.457‬‬ ‫‪3.275‬‬ ‫‪.117‬‬ ‫‪3.498‬‬ ‫‪.111‬‬ ‫‪.972‬‬ ‫‪1.129‬‬
‫‪AVG_ED‬‬ ‫‪227.264‬‬ ‫‪37.221‬‬ ‫‪1.221‬‬ ‫‪6.116‬‬ ‫‪.111‬‬ ‫‪.123‬‬ ‫‪43.571‬‬

‫‪4‬‬
‫‪GRAD_SCH‬‬ ‫‪-2.191‬‬ ‫‪1.352‬‬ ‫‪-.181‬‬ ‫‪-1.546‬‬ ‫‪.123‬‬ ‫‪.167‬‬ ‫‪14.865‬‬
‫‪COL_GRAD‬‬ ‫‪-2.968‬‬ ‫‪1.118‬‬ ‫‪-.339‬‬ ‫‪-2.916‬‬ ‫‪.114‬‬ ‫‪.168‬‬ ‫‪14.779‬‬
‫‪SOME_COL‬‬ ‫‪-.761‬‬ ‫‪.811‬‬ ‫‪-.157‬‬ ‫‪-.938‬‬ ‫‪.349‬‬ ‫‪.246‬‬ ‫‪4.165‬‬

‫‪36‬‬
Collinearity Diagnostics(a)
Variance Proportions
Eigen Condition
Mode value Index (Consta ACS_ AVG_E GRAD_S COL_GR SOME_
Dimension K9
l nt) D CH AD COL
4 5.113 1.111 .11 .11 .11 .11 .11 .11
0 .589 2.918 .11 .11 .11 .15 .11 .11
9 .253 4.455 .11 .11 .11 .13 .17 .12

4
1 .142 5.941 .11 .11 .11 .11 .11 .23
2 .1128 42.136 .22 .86 .14 .11 .15 .19
2 .1115 65.887 .77 .13 .86 .81 .77 .66

‫ توجه داشته باشید که‬.‫( حذف کنیم‬avg-ed) ‫حاال بیائید یکی از متغیر های میزان تحصیالت والدین را‬
‫ همچنین توجه داشته باشید که چگونه خطاهای‬.‫ در تحلیل زیر بسیار بهتر شده اند‬VIF ‫مقادیر‬
‫ این به آن علت‬.‫( کاهش یافته اند‬grad-sch , col-grad) ‫استانداردبرای متغیر های تحصیالت والدین‬
‫ با رفع مشکل چندخطی‬.‫است که مقادیر باالی همخطی باعث متورم شدن خطاهای استاندارد شده بود‬
.‫ که قبال مهم نبود حال قابل توجه می باشد‬grad-sch ‫ضریب متغیر‬
regression
/statistics=defaults tol collin
/dependent api22
/method=enter acs_k9 grad_sch col_grad some_col.
Coefficients(a)
Unstandardized Standardized Collinearity
Coefficients Coefficients t Sig. Statistics
Model B Std. Error Beta Tolerance VIF
(Constant) 283.745 71.325 4.135 .111
4
ACS_K9 11.713 3.665 .113 3.196 .112 .977 1.124
37
GRAD_SCH 5.635 .458 .482 12.298 .111 .792 1.262
COL_GRAD 2.481 .341 .288 7.313 .111 .783 1.278
SOME_COL 2.158 .444 .173 4.862 .111 .967 1.134

Collinearity Diagnostics(a)
Variance Proportions
Eigen Condition
value Index
Model Dimension (Constant) ACS_K9 GRAD_SCH COL_GRAD SOME_COL
4 3.971 1.111 .11 .11 .12 .12 .11
0 .599 2.575 .11 .11 .61 .13 .14
4 9 .255 3.945 .11 .11 .37 .94 .13
1 .174 4.778 .11 .11 .11 .11 .92
2 .1249 39.925 .99 .99 .11 .11 .11

38
‫‪ 0.2‬آزمون های غیرخطی‬
‫وقتی که رگرسیون خطی انجام می دهیم‪ ،‬اینطور فرض می کنیم که رابطه بین متغیر واکنش و پیش بینی کننده ها‬
‫خطی است‪ .‬اگر این فرض نقض شود‪ ،‬رگرسیون خطی سعی میکند که بر روی خطی مسقیم از داده هایی منطبق‬
‫شود که خطی نیستند‪ .‬بررسی فرض خطی بودن در رگرسیون ساده آسان است زیرا یک پیش بینی کننده داریم‪.‬‬
‫همه آنچه باید انجام دهیم آن است که نمودار پراکنش بین متغیر واکنش و پیش بینی کننده را رسم کنیم تا ببینیم‬
‫ک ه غیرخطی بودن وجود دارد یا خیر‪ ،‬مانند یک نوار منحنی شکل یا یک منحنی موجی شکل بزرگ‪ .‬برای مثال‪ ،‬از‬
‫فایل داده ای که در مورد تعدادی از کشورهای سرتاسر دنیا است استفاده می کنیم‪ .‬نگاهی می اندازیم به رابطه بین‬
‫‪ GNP‬و )‪ capita(gnpcap‬و نرخ تولد‪ . birth‬در زیر اگر نگاهی بیاندازیم به نمودار پراکنش بین ‪ gnpcap‬و‬
‫‪ birth‬می توانیم ببینیم که ر ابطخ بیم این دو متغیر تقریبا غیر خطی است‪ .‬با دوبار کلیک کردن بر روی این نمودار‬
‫یک خط رگرسیونی به آن اضافه کردیم )‪ (double click-chart-option-Fit Line Total‬و می توانید ببینید‬
‫که این خط چقدر ضعیف با داده ها هماهنگ شده‬
‫است‪ .‬همچنین‪ ،‬اگر به نمودار باقیمانده های‬
‫‪/dependent birth‬‬
‫‪/method=enter gnpcap‬‬ ‫پیش بینی شده نگاه کنیم می بینیم که باقیمانده‬
‫)‪/scatterplot(*zresid *pred‬‬ ‫ها با توجه به رابطه غیر همخط بین ‪ gnpcap‬و‬
‫‪/scat(birth gnpcap) .‬‬ ‫‪ ،birth‬همسان نیستند‪.‬‬
‫)‪Variables Entered/Removed(b‬‬
‫‪Model‬‬ ‫‪Variables Entered‬‬ ‫‪Variables Removed‬‬ ‫‪Method‬‬
‫‪4‬‬ ‫)‪GNPCAP(a‬‬ ‫‪.‬‬ ‫‪Enter‬‬
‫‪a All requested variables entered.‬‬
‫‪b Dependent Variable: BIRTH‬‬
‫)‪Model Summary(b‬‬
‫‪Model‬‬ ‫‪R‬‬ ‫‪R Square‬‬ ‫‪Adjusted R Square‬‬ ‫‪Std. Error of the Estimate‬‬
‫‪4‬‬ ‫)‪.626(a‬‬ ‫‪.392‬‬ ‫‪.387‬‬ ‫‪11.679‬‬
‫‪a Predictors: (Constant), GNPCAP‬‬
‫)‪ANOVA(b‬‬
‫‪Model‬‬ ‫‪Sum of Squares‬‬ ‫‪df‬‬ ‫‪Mean Square‬‬ ‫‪F‬‬ ‫‪Sig.‬‬
‫‪Regression‬‬ ‫‪7873.995‬‬ ‫‪1‬‬ ‫‪7873.995‬‬ ‫‪69.147‬‬ ‫)‪.111(a‬‬
‫‪4‬‬ ‫‪Residual‬‬ ‫‪12212.152‬‬ ‫‪117‬‬ ‫‪114.139‬‬
‫‪Total‬‬ ‫‪21176.147‬‬ ‫‪118‬‬
‫‪a Predictors: (Constant), GNPCAP‬‬

‫‪39‬‬
Coefficients(a)

t Sig.
(Constant) 38.924 1.261 31.856 .111
4
GNPCAP -1.921E-13 .111 -.626 -8.319 .111
a Dependent Variable: BIRTH
Predicted Value 1.91 38.71 32.79 8.539 119

Residual -23.18 28.11 .11 11.629 119
Std. Predicted Value -3.618 .694 .111 1.111 119
Std. Residual -2.171 2.632 .111 .995 119
)‫ بگذارید‬default ‫ (پارامتر ها را بر روی‬:‫ما این نمودار را از طریق زیر اصالح نمودیم‬

𝒄𝒉𝒂𝒓𝒕 → 𝒐𝒑𝒕𝒊𝒐𝒏𝒔 → 𝑭𝒊𝒕 𝒐𝒑𝒕𝒊𝒐𝒏𝒔 → 𝑳𝒐𝒘𝒆𝒔𝒔
‫همانطور که می بینید از این طریق منحنی ای ایجاد می شود که به طور چشمگیری بهتر از رگرسیون خطی‬
.‫ خطی نیست‬birth ‫ و‬gnpcap ‫داده ها را در بر می گیرد و در ادامه بیان می کند که رابطه بین‬
41
‫ و مقادیر‬،‫ و بیشتر مقادیر آن نزدیک به صفر‬،‫ تقریبا چولگی پیدا کرده اند‬capgnp ‫می بینیم که مقادیر‬
‫ این امر این را نشان می دهد که برخی تغییرات بر روی متغیر‬.‫ به باال هستند‬11.111 ‫انگشت شماری از‬
‫ پس بیایید آن‬.‫ یکی از تغییرات متداولی که مورد استفاده قرار می گیرد لگاریتم می باشد‬.‫ضروری می باشد‬
‫ بسیار بهتر به نظر می رسد‬birth ‫ و‬capgnp ‫ نمودار پراکنش بین‬،‫ همانطور که می بینید‬.‫را امتحان کنیم‬
‫و خط رگرسیونی از وسط داده ها‬
compute lgnpcap = ln(gnpcap).
regression ‫ همچنین نمودار‬.‫عبور می کند‬
/dependent birth ‫باقیمانده های پیش بینی شده‬
/method=enter lgnpcap
/scatterplot(*zresid *pred) /scat(birth lgnpcap) .‫بسیار منطقی تر به نظر می رسد‬
/save resid(bres0).
Variables Entered/Removed(b)
Model Variables Entered Variables Removed Method
4 LGNPCAP(a) . Enter
a All requested variables entered.
b Dependent Variable: BIRTH
Model Summary(b)
4 .756(a) .571 .567 8.969
a Predictors: (Constant), LGNPCAP
41
ANOVA(b)
Regression 11469.248 1 11469.248 142.584 .111(a)
4 Residual 8616.899 117 81.438
Total 21176.147 118

a Predictors: (Constant), LGNPCAP
Coefficients(a)

t Sig.
(Constant) 84.277 4.397 19.168 .111
4
LGNPCAP -7.238 .616 -.756 -11.941 .111
Predicted Value 12.86 51.25 32.79 11.315 119

Residual -24.75 24.98 .11 8.927 119
Std. Predicted Value -1.934 1.695 .111 1.111 119
Std. Residual -2.761 2.786 .111 .995 119
42
‫این بخش به شما نشان داد که چگونه می توانید از نمودار های پراکنش برای تشخیص مشکالت غیر هم‬
‫خطی استفاده کنید‪ .‬هم با استفاده از نمودار پراکنش پیش بینی کننده ها و متغیر نتیجه‪ ،‬و هم با بررسی‬
‫باقیمانده های پیش بینی شده می توان به این بررسی پرداخت‪ .‬تمرکز این مثالها بر روی رگرسیون ساده‬
‫بود‪ ،‬اگرچه که در مورد رگرسیون چندگانه نیز از تکنیک های مشابه می توان استفاده نمود‪.‬‬
‫به هر حال در رگرسیون چندگانه بسیار مفید خواهد بود که به جای نمودارهای پراکنش ساده بین پیش‬
‫بینی کننده و متغیر به بررسی نمودارهای رگرسیونی بخشی(جزئی) بپردازید‪.‬‬
‫‪43‬‬
‫‪ 0.2‬خصوصیات مدل‬
‫خطای خصوصیات مدل زمانی بروز می کند که یک یا بیشتر از یک متغیر وابسته از مدل حذف شده باشند‬
‫یا اینکه یک یا بیشتر از یک متغیر غیروابسته در مدل وارد شده باشند‪ .‬اگر متغیر های وابسته از مدل حذف‬
‫شده باشند‪ ،‬واریانس متداولی که با متغیر های موجود در مدل به اشتراک می گذارند ممکن است به استباه‬
‫به این متغیرها نسبت داده شود‪ ،‬و خطای مربوط به آن بیشتر نمایان شود‪ .‬از طرف دیگر‪ ،‬اگر متغیر های‬
‫غیروابسته در مدل وارد شده باشند‪ ،‬واریانس متداولی که بین متغیرها به اشتراک گذاشته می شود ممکن‬
‫است به طور نادرستی به این متغیر ها نسبت داده شود‪ .‬خطای مربوط به خصوصیات مدل ممکن است به‬
‫طور چشمگیری ارزیابی رگرسیون ضرایب را تحت تاثیر قرار دهد‪.‬‬
‫مدل زیر را در نظر بگیرید‪ .‬این رگرسیون پیشنهاد می دهد که با افزایش اندازه کالس عملکرد تحصیلی نیز‬
‫افزایش می یابد‪ .(p=1.153) ،‬قبل از آنکه بگوییم‬
‫بزرگی اندازه کالس با باالرفتن عملکرد تحصیلی در‬
‫‪/method=enter acs_k9 full‬‬
‫ارتباط است بیائید به بررسی خصوصیات این مدل‬
‫‪/save pred(apipred).‬‬
‫بپردازیم‪.‬‬
‫‪Unstandardized Coefficients‬‬ ‫‪Standardized Coefficients‬‬

‫‪t‬‬ ‫‪Sig.‬‬
‫)‪(Constant‬‬ ‫‪32.213‬‬ ‫‪84.175‬‬ ‫‪.383‬‬ ‫‪.712‬‬
‫‪4‬‬ ‫‪ACS_K9‬‬ ‫‪8.356‬‬ ‫‪4.313‬‬ ‫‪.181‬‬ ‫‪1.942 .153‬‬
‫‪FULL‬‬ ‫‪5.391‬‬ ‫‪.396‬‬ ‫‪.564‬‬ ‫‪13.598 .111‬‬

‫‪ Spss‬ابزاری که به طور مستقیم خطاهای مربوط به خصوصیات مدل را نشان دهد‪ ،‬ندارد‪ .‬اگرچه می توانید‬
‫با استفاده از روش زیر به بررسی متغیرهای حذف شده بپردازید‪ .‬همانطور که در باال دیدید‪ ،‬وقتی که‬
‫رگرسیون را انجام دادیم مقدار پیش بینی شده را با عنوان ‪ apipred‬ذخیره کردیم‪ .‬اگر از مقدار پیش بینی‬
‫شده استفاده کردیم و این مقدار مانند پیش بینی کننده های متغیرمان به توان ‪ 2‬رسید!!!!‪ Apipred‬باید‬
‫معنی دار باشد زیرا یک مقدار پیش بینی شده است‪ ،‬ولی ‪ apipred‬به توان ‪ 2‬نباید یک پیش بینی کننده‬
‫معنی دار باشد‪ ،‬چون‪ ،‬اگر مدلمان را به درستی تعریف کرده باشیم‪ ،‬پیش بینی کننده هایی که به توان ‪2‬‬
‫رسیده اند نباید قدرت توضیحی زیادی‪ ،‬باال و ورای مقدار پیش بینی داشته باشند‪ .‬به همین دلیل اگر‬
‫مدلمان را به درستی تعریف کرده باشیم‪ ،‬انتظار نداریم که ‪ apipred‬به توان ‪ 2‬یک پیش بینی کننده‬
‫معنی دار باشد‪ .‬در زیر ‪ apipred2‬را به عنوان توان دوی ‪ apipred‬در نظر می گیریم و سپس هر دوی آنها‬
‫‪44‬‬
‫را به عنوان پیش بینی کننده در مدل رگرسیونی وارد می کنیم به این امید که ‪ apipred2‬معنی دار‬
‫نمی باشد‪.‬‬
‫‪compute apipred0 = apipred**0.‬‬

‫‪/method=enter apipred apipred0.‬‬

‫‪t‬‬ ‫‪Sig.‬‬
‫)‪(Constant‬‬ ‫‪858.873‬‬ ‫‪283.461‬‬ ‫‪3.131 .113‬‬
‫‪4 APIPRED‬‬ ‫‪-1.869‬‬ ‫‪.937‬‬ ‫‪-1.188‬‬ ‫‪-1.994 .147‬‬
‫‪APIPRED0‬‬ ‫‪2.344E-13‬‬ ‫‪.111‬‬ ‫‪1.674‬‬ ‫‪3.171 .112‬‬

‫نتیجه باال نشان می دهند که ‪ apipred2‬معنی دار می باشد‪ ،‬و اشاره می کند که ممکن است متغیر های‬
‫مهمی را از مدل حذف کرده باشیم‪ .‬به همین دلیل باید این را نیز در نظر بگیریم که آیا متغیر دیگری را به‬
‫مدل وارد کنیم بیا خیر؟ بایید این امر را با اضافه کردن‬
‫‪regression‬‬ ‫متغیر ‪ meals‬به مدل باال امتحان کنیم‪ .‬می بینیم که‬
‫‪/dependent api22‬‬ ‫‪ meals‬یک پیش بینی کننده معنی دار می باشد‪ ،‬و‬
‫‪/method=enter acs_k9 full‬‬ ‫مقدار پیش بینی شده را با عنوان ‪ preda‬ذخیره‬
‫‪meals‬‬ ‫می کنیم تا در تحلیل بعدی از آن استفاده کرده و‬
‫‪/save pred(preda).‬‬
‫ببینیم که آیا متغیر مهم دیگری را حذف کرده ایم یا‬
‫خیر؟‬
‫‪t‬‬ ‫‪Sig.‬‬
‫)‪(Constant‬‬ ‫‪771.658‬‬ ‫‪48.861‬‬ ‫‪15.793‬‬ ‫‪.111‬‬
‫‪4‬‬ ‫‪ACS_K9‬‬ ‫‪-.717‬‬ ‫‪2.239‬‬ ‫‪-.117‬‬ ‫‪-.321‬‬ ‫‪.749‬‬
‫‪FULL‬‬ ‫‪1.327‬‬ ‫‪.239‬‬ ‫‪.139‬‬ ‫‪5.556‬‬ ‫‪.111‬‬
‫‪45‬‬
‫‪MEALS‬‬ ‫‪-3.686‬‬ ‫‪.112‬‬ ‫‪-.828‬‬ ‫‪-32.978‬‬ ‫‪.111‬‬
‫حاال ‪ preda2‬که توان دوی ‪ preda‬می باشد را می سازیم و هر دوی آنها را در مدلمان به عنوان پیش بینی‬
‫کننده وارد می کنیم‪.‬‬
‫‪compute preda0 = preda**0.‬‬

‫‪/method=enter preda preda0.‬‬

‫‪t‬‬ ‫‪Sig.‬‬
‫)‪(Constant‬‬ ‫‪-136.511‬‬ ‫‪95.159‬‬ ‫‪-1.436 .152‬‬
‫‪4‬‬ ‫‪PREDA‬‬ ‫‪1.424‬‬ ‫‪.293‬‬ ‫‪1.293‬‬ ‫‪4.869 .111‬‬
‫‪PREDA0‬‬ ‫‪-3.172E-14‬‬ ‫‪.111‬‬ ‫‪-.386‬‬ ‫‪-1.455 .146‬‬

‫حاال می بینیم که ‪ preda2‬معنی دار نیست‪ .‬بنابراین این آزمون نشان نمی دهد که متغیر مهم دیگری که‬
‫حذف شده باشد وجود دارد‪ .‬توجه کنید که بعد از وارد کردن ‪ meals‬و ‪ ،full‬ضریب متغیر اندازه کالس‬
‫دیگر معنی دار نیست‪ .‬درحالیکه وقتی فقط متغیر ‪ full‬در مدل وارد شده است‪ scs-k3 ،‬رابطه مثبتی با‬
‫‪ api11‬دارد‪ ،‬ولی زمانیکه ‪ meals‬را وارد مدل می کنیم‪ acs-k3 ،‬به طور معنی داری رابطه ای با ‪api11‬‬
‫ندارد و رابطه اش با ‪ api11‬دیگر مثبت نیست‪.‬‬
‫‪46‬‬
‫‪ 0.2‬مسائل مربوط به همبستگی‬
‫این فرض این مسئله را بیان می کند که خطاهای مربوط به یک مشاهده با خطاهای هیچکدام از مشاهدات‬
‫دیگر در ارتباط نیست‪ .‬نقض این فرض در موقعیت های متفاوتی می تواند پدیدار شود‪ .‬جمع آوری اطالعات‬
‫از دانش آموزان ابتدایی ‪ 8‬مدرسه مختلف را در نظر بگیرید‪ .‬این احتمال وجود دارد که دانش آموزان یک‬
‫مدرسه بیشتر به هم شبیه باشند تا دانش آموزان مدارس مختلف‪ .‬به همین دلیل خطاهای مربوط به آنها‬
‫مستقل نیست‪ .‬راه دیگری که فرض استقالل می تواند نقض شود‪ ،‬آن است که داده ها با متغیر های همسان‬
‫در طول زمان جمع آوری شوند‪ .‬مثال اطالعات مربوط به گریز از مدرسه را در یک سال تحصیلی در مدت ‪12‬‬
‫سال جمع آوری کرده باشیم‪ .‬در این حالت این احتمال وجود دارد که خطاهای هر مشاهده بین ترم های‬
‫نزدیک به هم‪ ،‬بیشتر با هم ارتباط دارند تا مشاهداتی که از نظر زمانی از هم دورترند‪ (.‬که این امر با عنوان‬
‫خودهمبستگی شناخته می شود)‪ .‬وقتی که داده هایی داریم که بصورت سری زمانی هستند می توانیم از‬
‫آماره دوربین واتسون برای ارزیابی باقیمانده های همبسته استفاده کنیم‪.‬‬
‫در اینجا ما اطالعات سری زمانی نداریم پس از مجموعه داده ‪ elempi2‬استفاده می کنیم و فرض می کنیم‬
‫که ‪ snum‬نشان دهنده زمانی است که داده ها جمع آوری شده اند‪ .‬داده های خود را بر اساس ‪ snum‬که‬
‫متغیر زمانی فرضی ما می باشد دسته بندی می کنیم و سپس تحلیل رگرسیونی خود را با استفاده از گزینه‬
‫‪sort cases by snum .‬‬ ‫‪ durbin‬برای انجام آزمون ‪ Durbin-watson‬انجام‬
‫‪regression‬‬ ‫می دهیم‪ .‬بازه مقداری آماره دوربین واتسون بین ‪1‬تا‪4‬‬
‫‪/dependent api22‬‬ ‫است‪ ،‬که نقطه میانی آن ‪ 2‬می باشد‪ .‬مقدار مشاهده شده‬
‫‪/method=enter enroll‬‬ ‫در مثال ما کمتر از ‪ 2‬می باشد‪ ،‬که چون داده های ما‬
‫‪/residuals = durbin .‬‬ ‫واقعا سری زمانی نیستند زیاد تعجب برانگیز نیست‪.‬‬
‫‪Model Summary‬‬
‫‪Model‬‬ ‫‪R‬‬ ‫‪R Square‬‬ ‫‪Adjusted R Square‬‬ ‫‪Std. Error of the Estimate‬‬ ‫‪Durbin-Watson‬‬
‫‪4‬‬ ‫‪.942‬‬ ‫‪.424‬‬ ‫‪.233‬‬ ‫‪492.202‬‬ ‫‪4.924‬‬
‫‪a Predictors: (Constant), ENROLL‬‬
‫‪b Dependent Variable: API22‬‬
‫‪47‬‬
‫‪ 0.2‬خالصه‬
‫این فصل موضوعات مختلفی را در ارزیابی فرضیات رگرسیون و همچنین نتایج نقض این فرضیات با استفاده‬
‫از ‪ spss‬پوشش داده است‪ .‬همانطور که دیدیم‪ ،‬اجرای یک مدل رگرسیونی به صورت ساده کافی نیست‪ ،‬ولی‬
‫بسیار مهم است که فرضیات رگرسیون به خوبی اجرا شده باشند‪ .‬اگر ارزیابی فروض رگرسیون را انجام‬
‫ندهید و داده های شما با فروض مربوط به رگرسیون خطی مطابقت نداشته باشند‪ ،‬نتایج شما ممکن است‬
‫گمراه کننده شوند و تحلیل نتایجتان با حدس و گمان همراه خواهد بود‪ .‬بدون اینکه داده های خود را به‬
‫طور کامل از لحاظ مشکالت گفته شده ارزیابی کنید‪ ،‬ممکن است محقق دیگری داده های شما را ارزیابی‬
‫کرده و این مشکالت را آشکار سازد و نتایج شما را با استفاده از یک آنالیز پیشرفته تر زیر سوال ببرد‪ .‬که این‬
‫امر ممکن است نتایج شما را تکذیب کرده و تحلیل شما را تضعیف نماید‪.‬‬
‫‪48‬‬

Regression With Spss

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regression With Spss

Uploaded by

Copyright:

Available Formats

‫«به نام خدا»‬

‫رگرسیون با استفاده از ‪SPSS‬‬

‫ترجمه و تنظیم ‪ :‬یلدا قنوعی‬

‫حذف شده در مدل‬/‫متغیر های وارد شده‬

Model Summary(b))‫(خالصه مدل‬

(Constant) -1666.436 147.852 -11.271 .111

PCTMETRO 7.829 1.255 .391 6.241 .111

SINGLE 132.418 15.513 .637 8.541 .111

‫متغیر وابسته‬: CRIME

‫‪(Std. Residual‬باقیمانده استاندارد شده)‬ ‫‪-0.229‬‬ ‫‪0.912‬‬ ‫‪.222‬‬ ‫‪.322‬‬ ‫‪24‬‬

‫‪(Stud. Residual‬باقیمانده استیودنت شده)‬ ‫‪-9.431‬‬ ‫‪9.902‬‬ ‫‪.242‬‬ ‫‪4.2220‬‬ ‫‪24‬‬

‫‪(Deleted Residual‬باقیمانده حذف شده)‬ ‫‪-212.22‬‬ ‫‪223.23‬‬ ‫‪2.42‬‬ ‫‪009.222‬‬ ‫‪24‬‬

‫‪(Cook's Distance‬فاصله شاخص کوک)‬ ‫‪.222‬‬ ‫‪9.029‬‬ ‫‪.223‬‬ ‫‪.121‬‬ ‫‪24‬‬

‫‪(Centered Leverage Value‬؟)‬ ‫‪.222‬‬ ‫‪.242‬‬ ‫‪.223‬‬ ‫‪.222‬‬ ‫‪24‬‬

)‫(بررسی موردی‬Casewise Diagnostics(a)

3 fl 2.621 1216 779.89 426.11

02 ms -3.571 434 957.11 -523.11

24 dc 3.766 2922 2519.43 412.57

a Dependent Variable: CRIME

‫‪0‬‬ ‫‪25‬‬ ‫‪ms‬‬ ‫‪-3.571‬‬

‫‪9‬‬ ‫‪9‬‬ ‫‪fl‬‬ ‫‪2.621‬‬

‫‪1‬‬ ‫‪18‬‬ ‫‪la‬‬ ‫‪-1.839‬‬

‫‪2‬‬ ‫‪39‬‬ ‫‪ri‬‬ ‫‪-1.686‬‬

‫‪2‬‬ ‫‪47‬‬ ‫‪wa‬‬ ‫‪-1.314‬‬

‫‪2‬‬ ‫‪13‬‬ ‫‪id‬‬ ‫‪1.293‬‬

‫‪3‬‬ ‫‪14‬‬ ‫‪il‬‬ ‫‪1.152‬‬

‫‪42‬‬ ‫‪35‬‬ ‫‪oh‬‬ ‫‪-1.148‬‬

‫‪4‬‬ ‫‪51‬‬ ‫‪dc‬‬ ‫‪.517‬‬

‫‪0‬‬ ‫‪1‬‬ ‫‪ak‬‬ ‫‪.241‬‬

‫‪9‬‬ ‫‪25‬‬ ‫‪ms‬‬ ‫‪.171‬‬

‫‪2‬‬ ‫‪18‬‬ ‫‪la‬‬ ‫‪.146‬‬

‫‪2‬‬ ‫‪46‬‬ ‫‪vt‬‬ ‫‪.117‬‬

‫بررسی موردی ‪Casewise Diagnostics(a)-‬‬

Stud. Deleted 2 39 ri -1.686

‫‪Cook's D‬‬ ‫‪> 4/n‬‬

‫‪SINGLE‬‬ ‫‪132.418‬‬ ‫‪15.513‬‬ ‫‪.637‬‬ ‫‪8.541‬‬ ‫‪.111‬‬

‫متغیر وابسته‪ :‬جرم ‪a Dependent Variable: CRIME -‬‬

‫ضرایب ‪Coefficients(a) -‬‬

‫‪Unstandardized coefficients‬‬ ‫‪Standardized Coefficients‬‬

‫‪PCTMETRO‬‬ ‫‪7.712‬‬ ‫‪1.119‬‬ ‫‪.565‬‬ ‫‪6.953‬‬ ‫‪.111‬‬

‫‪SINGLE‬‬ ‫‪89.411‬‬ ‫‪17.836‬‬ ‫‪.446‬‬ ‫‪5.112‬‬ ‫‪.111‬‬

Variables Entered/Removed(b)‫حذف شده‬/‫متغیر های وارد شده‬

Variables Entered Variables Removed

Model Summary(b) - ‫خالصه ای از مدل‬

Model R R Adjusted Std. Error of the

Total 8173671.997 399

MEALS -3.159 .151 -.719 -21.198 .111

EMER -1.573 .293 -.131 -5.368 .111

002 -3.218 386

Minimum Maximum Mean Std. Deviation N

Predicted Value 425.52 884.88 647.62 131.164 411

‫‪Case Processing Summary‬‬

‫‪Mean‬‬ ‫‪.1111111‬‬ ‫‪2.88111215‬‬

‫‪Lower Bound‬‬ ‫‪-5.6621919‬‬

‫‪29 Trimmed Mean‬‬ ‫‪-.7827765‬‬

‫‪APIRES‬‬ ‫‪Variance‬‬ ‫‪3318.118‬‬

‫‪Std. Deviation‬‬ ‫‪57.61224114‬‬

‫‪Interquartile Range‬‬ ‫‪76.5523153‬‬

Kurtosis .135 .243

Total 8173671.997 399

Unstandardized Coefficients Standardized Coefficients

Minimum Maximum Mean Std. Deviation N

Predicted Value 537.57 751.82 647.62 39.183 411