You are on page 1of 49

‫«به نام خدا»‬

‫رگرسیون با استفاده از ‪SPSS‬‬

‫ترجمه و تنظیم ‪ :‬یلدا قنوعی‬

‫زمستان ‪4931‬‬
‫رگرسیون با استفاده از ‪ – SPSS‬فصل دوم – شیوه های رگرسیون‬
‫نمای کلی فصل ‪:‬‬
‫‪ 0.2‬روش های رگرسیون‬
‫‪ 0.4‬داده های غیر عادی و با نفوذ‬
‫‪ 0.0‬آزمون میزان نرمالیته باقیمانده ها )‪(residuals‬‬
‫‪ 0.9‬آزمون خطاهای غیرثابت واریانس‬
‫‪ 0.1‬آزمون چندخطی بودن متغیر های مستقل‬
‫‪ 0.2‬آزمون غیر خطی بودن متغیر های مستقل‬
‫‪ 0.2‬خصوصیات مدل‬
‫‪ 0.2‬مسائل مربوط به استقالل‬
‫‪ 0.2‬خالصه‬

‫‪1‬‬
‫‪ 0.2‬روش های رگرسیون‬
‫در فصل گذشته یادگرفتیم که چگونه با استفاده از ‪ SPSS‬رگرسیون خطی معمولی را انجام دهیم‪ ،‬و در‬
‫انتها با روش هایی برای آزمون پراکندگی متغیرها آشنا شدیم که با استفاده از آنها بتوان با یک نگاه به‬
‫فرض های رگرسیون‪ ،‬غیر نرمال بودن پراکنش متغیر ها را بررسی کرد‪ .‬بدون بازبینی اینکه داده های شما‬
‫با فرض های رگرسیون همخوانی داشته باشند یا خیر‪ ،‬نتایج شما ممکن است گمراه کننده باشند‪ .‬این فصل‬
‫به بررسی این مورد می پردازد که آیا داده های شما با فروض رگرسیون خطی همخوانی دارند یا خیر؟ به‬
‫خصوص‪ ،‬فروض زیر را در نظر می گیریم‪:‬‬
‫‪ ‬خطی بودن‪ :‬رابطه بین پیش بینی کننده ها و اینکه متغیر نتیجه باید خطی باشد‪.‬‬
‫‪ ‬نرمال بودن‪ :‬خطاها باید به طور نرمال پراکنده شده باشند‪ -‬به طور فنی نرمالیته فقط درمورد‬
‫آزمون های ‪ t‬الزامی است تا بتوان این آزمون های را قابل اطمینان دانست‪ ،‬پیش بینی ضرایب فقط‬
‫نیازمند آن است که خطاها به طور یکسان و مستقل پراکنده شده باشند‪.‬‬
‫‪ ‬همگنی واریانس‪ :‬واریانس خطا باید ثابت باشد‪.‬‬
‫‪ ‬استقالل‪ :‬خطاهای مربوط به یک مشاهده با خطاهای هیچ مشاهده دیگری در ارتباط نیستند‪.‬‬
‫‪ ‬مشخصات مدل‪ :‬مدل به طور کامل باید مشخص شده باشد( شامل همه متغیرهای مربوط ‪،‬‬
‫باستثنای متغیرهای بی ربط)‬
‫در ادامه‪ ،‬مسائلی وجود دارند که در طول این آنالیز ظاهر خواهند شد که‪ ،‬همچنانکه به طور مستقیم نتایج‬
‫رگرسیون نیستند‪ ،‬کم و بیش ‪ ،‬برای تحلیلگران رگرسیون دارای اهمیت زیادی هستند‪.‬‬
‫‪ ‬نفوذ‪ :‬مشاهداتی که نفوذ غیرضروری بر ضرایب اعمال می کنند‪.‬‬
‫‪ ‬خطی بودن‪ :‬پیش بینی کننده هایی که بسیار خطی هستند به عنوان مثال‪ ،‬پیش بینی کننده‬
‫هایی که بصورت خطی ارتباط دارند می توانند باعث مشکالتی در تخمین ضرایب رگرسیون شوند‪.‬‬
‫بسیاری از روش های نموداری و آزمون های عددی برای تشخیص رگرسیون در طی سال ها توسعه یافته اند‬
‫و ‪ SPSS‬بسیاری از این روش ها را قابل دسترس و استفاده نموده است‪ .‬در این فصل این روش ها را مورد‬
‫بررسی قرار می دهیم و نشان می دهیم که چگونه فروض رگرسیون را بررسی کنید و مشکالت احتمالی‬
‫درباره استفاده از ‪ SPSS‬را شناسایی خواهیم کرد‪.‬‬
‫‪ 0.4‬داده های غیر عادی و با نفوذ‬
‫تک مشاهده ای که به طور اساسی با دیگر مشاهدات متفاوت است می تواند باعث تفاوت های بسیار زیادی‬
‫در آنالیز رگرسیون شما شود‪ .‬اگر یک تک مشاهده (یا یک گروه کوچکی از مشاهدات) به طور اساسی نتایج‬
‫شما را تغییر دهند‪ ،‬شما باید به آن توجه کنید و درباره آن تحقیقات بیشتری انجام دهید‪ 3 .‬راه متفاوت‬
‫وجود دارند که یک مشاهده می تواند غیر عادی باشد‪:‬‬
‫‪ .1‬مشاهدات دور )‪ : (outliers‬در رگرسیون خطی‪ ،‬یک مشاهده ی دور مشاهده ای با باقیمانده‬
‫بزرگ می باشد‪ .‬به بیان دیگر‪ ،‬مشاهده ای است که مقدار متغیر وابسته اش با توجه به مقادیر متغیر‬

‫‪2‬‬
‫های پیش بینی کننده‪ ،‬غیرعادی است‪ .‬یک مشاهده دور می تواند نشانگر ویژگی یک نمونه باشد و‬
‫یا نشان دهنده خطایی در ورود داده ها یا مشکالنی دیگر باشد‪.‬‬
‫‪ :(leverage) .2‬مشاهده ای با مقدار بسیار باال بر روی متغیر پیش بینی کننده نقطه ای با قدرت‬
‫نفوذ باال نامیده می شود‪ Leverage .‬مقیاسی برای تعیین میزان انحراف یک مشاهده از میانگین‬
‫آن متغیر می باشد‪ .‬این نقاط می توانند اثرات غیرعادی بزرگی بر ارزیابی ضرایب رگرسیون داشته‬
‫باشند‪.‬‬
‫‪ .3‬نفوذ )‪ : (influence‬یک مشاهده زمانی تاثیر گذار نامیده می شود که حذف آن مشاهده به طور‬
‫اساسی در ارزیابی ضرایب تغییر ایجاد کند‪ .‬نفوذ می تواند به عنوان محصولی (نتیجه ای) از‬
‫‪ leverage‬و ‪ outlier‬باشد‪.‬‬

‫‪3‬‬
‫چگونه می توانیم این سه نوع مشاهده را شناسایی کنیم؟ بیائید به مثالی با عنوان "جرم" نگاهی‬
‫بیاندازیم‪ .‬متغیر هاعبارتند از‪:‬‬
‫‪ .1‬شماره شناسایی )‪(sid‬‬
‫‪ .2‬نام شناسایی )‪(state‬‬
‫آمار توصیفی‬ ‫‪ .3‬جرم های خشونت آمیز به ازای هر ‪111.111‬‬
‫‪Std.‬‬ ‫نفر)‪(crime‬‬
‫میانگین حداکثر حداقل ‪N‬‬
‫‪Deviation‬‬
‫‪ .4‬قتل ها به ازای هر ‪ 1.111.111‬نفر)‪(murder‬‬
‫‪CRIME‬‬ ‫‪51‬‬ ‫‪82‬‬ ‫‪2922‬‬ ‫‪612.84‬‬ ‫‪441.111‬‬
‫‪ .5‬درصد جمعیتی که در نواحی شهری زندگی می‬
‫‪MURDER‬‬ ‫‪51 1.61‬‬ ‫‪78.51‬‬ ‫‪8.7275‬‬ ‫‪11.71758‬‬
‫کنند)‪(pcmetro‬‬
‫‪PCTMETRO 51 24.11 111.11 67.3912‬‬ ‫‪21.95713‬‬
‫‪ .6‬درصد جمعیت سفید پوست)‪(pcwhite‬‬
‫‪PCTWHITE 51 31.81 98.51 84.1157‬‬ ‫‪13.25839‬‬
‫‪ .7‬درصد جمعیت با سواد باال)‪(pcths‬‬
‫‪PCTHS‬‬ ‫‪51 64.31‬‬ ‫‪86.61 76.2235‬‬ ‫‪5.59219‬‬
‫‪ .8‬درصد جمعیتی که زیر خط فقر‬
‫‪POVERTY‬‬ ‫‪51 8.11‬‬ ‫‪26.41 14.2588‬‬ ‫‪4.58424‬‬
‫هستند)‪(poverty‬‬
‫‪SINGLE‬‬ ‫‪51 8.41‬‬ ‫‪22.11 11.3255‬‬ ‫‪2.12149‬‬
‫‪ .9‬درصد جمعیتی که والدین مجرد‬
‫‪Valid N‬‬ ‫‪51‬‬
‫)‪(listwise‬‬
‫هستند)‪.(single‬‬
‫در روبرو جدول توصیفی این متغیر ها و داده ها‬
‫آورده شده است‪.‬‬

‫بیایید با استفاده از متغیر های ‪ poverty ، pcmetro‬و ‪ single‬به پیش بینی متغیر ‪ crime‬بپردازیم‪.‬‬
‫می توان گفت که ما می خواهیم یه‬
‫مدل رگرسیون خطی بین متغیر‬
‫واکنش)‪ (crime‬و ‪ 3‬متغیر دیگر‬
‫که مستقل هستند‪ ،‬بسازیم ‪.‬‬
‫در ابتدا و قبل از تحلیل رگرسیون به‬
‫نمودار پراکنش متغیر ‪ crime‬در‬
‫برابر هرکدام از ‪ 3‬متغیرپیش بینی‬
‫کننده‪ ،‬نگاه می کنیم تا بتوانیم ایده‬
‫هایی درباره مشکالت احتمالی داشته‬
‫باشیم‪ .‬می توانیم نمودار پراکنشی به‬
‫صورت روبرو داشته باشیم‪:‬‬

‫‪4‬‬
‫نمودار های متغیر ‪ crime‬با متغیر دیگر چند مشکل اساسی را نشان می دهند‪ .‬در هر نمودار‪ ،‬ما نقطه ای را‬
‫مشاهده می کنیم که بسیار دورتر از نقاط دیگر می باشد‪ .‬بیایید نمودار های تک تک متغیر ها را با متغیر‬
‫‪ crime‬بسازیم تا بتوانیم دید بهتری از این نمودار های پراکنش داشته باشیم‪.‬‬

‫تمامی نمودار های پراکنش پیشنهاد می کنند که مشاهده ‪ dc‬نقطه ایست که باید به آن توجه بیشتری نشان‬
‫داد زیرا از تمامی نقاط دیگر بر روی نمودار کامال دور است‪ .‬باید این نکته در زمان انجام تحلیل رگرسیون در‬
‫خاطر داشته باشیم‪.‬‬

‫‪5‬‬
‫ متغیر دیگر‬3 ‫ در برابر‬crime ‫حاال با استفاده از دستور رگرسیون به پیش بینی‬
.‫ قدم به قدم پیش خواهیم رفت که تمامی نقاط غیر عادی و تاثیرگذار احتمالی را شناسایی کنیم‬.‫می پردازیم‬

regression
/dependent crime
/method=enter pctmetro poverty single.

‫حذف شده در مدل‬/‫متغیر های وارد شده‬

Model ‫متغیر های وارد شده در مدل‬ ‫متغیر های حذف شده از مدل‬ Method
4 SINGLE, PCTMETRO, POVERTY(a) - Enter
‫ تمامی متغیر های خواسته شده وارد شده اند‬.4
crime : ‫ متغیر مستقل‬.0

Model Summary(b))‫(خالصه مدل‬


Model R R Square Adjusted R Square Std. Error of the Estimate
4 .342(a) .212 .292 420.222
‫پیش بینی کننده ها‬: (Constant), SINGLE, PCTMETRO, POVERTY
‫متغیر وابسته‬: CRIME

ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Regression 8171481.211 3 2723493.414 82.161 .111(a)
4 Residual 1557994.534 47 33148.821

Total 9728474.745 51
‫پیش بینی کننده ها‬: (Constant), SINGLE, PCTMETRO, POVERTY
‫متغیر وابسته‬: CRIME

6
Coefficients(a)
Unstandardized
Standardized Coefficients
Coefficients t Sig.
Model B Std. Error Beta

(Constant) -1666.436 147.852 -11.271 .111

PCTMETRO 7.829 1.255 .391 6.241 .111


4
POVERTY 17.681 6.941 .184 2.547 .114

SINGLE 132.418 15.513 .637 8.541 .111

‫متغیر وابسته‬: CRIME

7
‫حال بیایید داده هایی همانند داده های قبلی به جز باقی مانده های استیونت شده ی حذف شده‬
‫)‪ (studentized deleted residuals‬را در نظر بگیریم‪ .‬باقی مانده استیودنت شده حذف شده ‪،‬‬
‫باقی مانده ای است که بعد از حذف مشاهده مورد نظر از مدل و دوباره به اجرا در آوردن رگرسیون وجود خواهد‬
‫داشت‪ .‬این باقی مانده ها به این علت مهم هستند که برخی از این نقاط آنقدر تاثیرگذار هستند که زمانیکه در‬
‫تحلیل وجود دارند می توانند آن تک مشاهده را طوری نشان دهند که گویی یک داده دور افتاده نیست‪ -‬در حالیکه‬
‫وقتی آن مشاهده را حذف می کنیم کامال میزان دورافتادگی اش مشخص می شود‪ .‬در زیر خروجی مربوط به‬
‫تحلیل باقیمانده ها آورده شده است‪.‬‬
‫‪regression‬‬
‫‪/dependent crime‬‬
‫‪/method=enter pctmetro poverty single‬‬
‫‪/residuals=histogram(sdresid).‬‬

‫)‪Residuals Statistics(a‬‬
‫‪Minimum‬‬ ‫‪Maximum‬‬ ‫‪Mean‬‬ ‫‪Std.deviation‬‬
‫(حداقل)‬ ‫(حداکثر)‬ ‫(میانگین)‬ ‫(انحراف استاندارد)‬ ‫‪N‬‬
‫‪Predicted value‬‬
‫‪-92.24‬‬ ‫‪0223.19‬‬ ‫‪240.21‬‬ ‫‪121.012‬‬ ‫‪24‬‬
‫(مقدار پیش بینی شده)‬
‫‪Std. predicted value‬‬
‫‪-4.230‬‬ ‫‪1.230‬‬ ‫‪.222‬‬ ‫‪4.222‬‬ ‫‪24‬‬
‫(مقدار پیشبینی شده استاندارد)‬
‫‪Standard Error of Predicted Value‬‬
‫‪02.222‬‬ ‫‪499.919‬‬ ‫‪12.224‬‬ ‫‪42.229‬‬ ‫‪24‬‬
‫(خطای استاندارد مقدار پیشبینی شده)‬
‫‪Adjusted Predicted value‬‬
‫‪-93.02‬‬ ‫‪0290.44‬‬ ‫‪222.22‬‬ ‫‪923.222‬‬ ‫‪24‬‬
‫(؟)‬
‫‪(Residual‬باقیمانده)‬ ‫‪-209.24‬‬ ‫‪102.44‬‬ ‫‪.22‬‬ ‫‪422.200‬‬ ‫‪24‬‬

‫‪(Std. Residual‬باقیمانده استاندارد شده)‬ ‫‪-0.229‬‬ ‫‪0.912‬‬ ‫‪.222‬‬ ‫‪.322‬‬ ‫‪24‬‬

‫‪(Stud. Residual‬باقیمانده استیودنت شده)‬ ‫‪-9.431‬‬ ‫‪9.902‬‬ ‫‪.242‬‬ ‫‪4.2220‬‬ ‫‪24‬‬

‫‪(Deleted Residual‬باقیمانده حذف شده)‬ ‫‪-212.22‬‬ ‫‪223.23‬‬ ‫‪2.42‬‬ ‫‪009.222‬‬ ‫‪24‬‬


‫‪Stud. Deleted Residual‬‬
‫‪-9.224‬‬ ‫‪9.222‬‬ ‫‪.242‬‬ ‫‪4.499‬‬ ‫‪24‬‬
‫(باقیمانده استیودنت شده حذف شده)‬
‫‪(Mahal. Distance‬؟)‬ ‫‪.209‬‬ ‫‪02.293‬‬ ‫‪0.314‬‬ ‫‪1.241‬‬ ‫‪24‬‬

‫‪(Cook's Distance‬فاصله شاخص کوک)‬ ‫‪.222‬‬ ‫‪9.029‬‬ ‫‪.223‬‬ ‫‪.121‬‬ ‫‪24‬‬

‫‪(Centered Leverage Value‬؟)‬ ‫‪.222‬‬ ‫‪.242‬‬ ‫‪.223‬‬ ‫‪.222‬‬ ‫‪24‬‬

‫‪8‬‬
‫(متغیر وابسته ‪Dependent variable : crime)crime :‬‬
‫این نمودار نشان دهنده تعدادی از داده های‬
‫دور افتاده احتمالی می باشد‪ .‬می توانیم با‬
‫استفاده از داده های دور افتاده(باقیمانده های‬
‫حذف شده استیودنت شده) و )‪11 id(state‬تا از‬
‫بیشترین مقادیر را برای باقیمانده های حذف‬
‫شده استیودنت شده بر اساس نام ایالتی که‬
‫مشاهده مورد نظر در آن صورت گرفته بدست‬
‫آوریم‪ .‬در زیر خروجی ای که با استفاده از گزینه‬
‫باال بدست آورده ایم مشخص شده است‪.‬‬
‫می توانید ببینید که ‪ dc‬بیشترین مقدار را دارد و به دنبال آن ‪ ms‬و ‪ fl‬آمده اند‪.‬‬

‫‪regression‬‬
‫‪/dependent crime‬‬
‫‪/method=enter pctmetro poverty single‬‬
‫‪/residuals=histogram(sdresid) id(state) outliers(sdresid).‬‬

‫)‪Outlier Statistics(a‬‬
‫‪Case Number‬‬ ‫‪STATE‬‬ ‫‪Statistic‬‬
‫‪4‬‬ ‫‪24‬‬ ‫‪dc‬‬ ‫‪9.222‬‬
‫‪0‬‬ ‫‪02‬‬ ‫‪ms‬‬ ‫‪-9.224‬‬
‫‪9‬‬ ‫‪3‬‬ ‫‪fl‬‬ ‫‪0.202‬‬
‫‪1‬‬ ‫‪42‬‬ ‫‪la‬‬ ‫‪-4.293‬‬
‫‪2‬‬ ‫‪93‬‬ ‫‪ri‬‬ ‫‪-4.222‬‬
‫‪Stud. Deleted Residual‬‬
‫‪2‬‬ ‫‪40‬‬ ‫‪ia‬‬ ‫‪4.232‬‬
‫‪2‬‬ ‫‪12‬‬ ‫‪wa‬‬ ‫‪-4.921‬‬
‫‪2‬‬ ‫‪49‬‬ ‫‪id‬‬ ‫‪4.039‬‬
‫‪3‬‬ ‫‪41‬‬ ‫‪il‬‬ ‫‪4.420‬‬
‫‪42‬‬ ‫‪92‬‬ ‫‪oh‬‬ ‫‪-4.412‬‬
‫‪a Dependent Variable: CRIME‬‬

‫‪9‬‬
2 ‫می توانیم با استفاده از دستور زیر تمامی مشاهداتی که باقیمانده حذف شده استیودنت شده آنها بیشتر از‬
.‫هستند را بدست آوریم‬
regression
/dependent crime
/method=enter pctmetro poverty single
/residuals=histogram(sdresid) id(state) outliers(sdresid)
/casewise=plot(sdresid) outliers(0)

)‫(بررسی موردی‬Casewise Diagnostics(a)

Case Number STATE Stud. Deleted Residual CRIME Predicted Value Residual

3 fl 2.621 1216 779.89 426.11

02 ms -3.571 434 957.11 -523.11

24 dc 3.766 2922 2519.43 412.57

a Dependent Variable: CRIME

11
‫حال بیایید نگاهی بیاندازیم به مقادیر ‪ ،leverage‬تا مشاهداتی را که تاثیرات احتمالی باالیی در ارزیابی‬
‫رگرسیون ضرایب دارند شناسایی کنیم‪( .‬طبق دستور زیر)‬
‫در حالت کلی نقطه ای که مقدار ‪ leverage‬آن بیشتر از ‪ (0k+0)/n‬باشد باید به دقت مورد بررسی قرار‬
‫گیرد‪ .‬در اینجا ‪ K‬تعداد پیش بینی کننده هاست و ‪ n‬تعداد مشاهدات می باشد‪ .‬بنابراین مقداری بیشتر از‬
‫‪ (2*3+2)/51 = .1568‬ارزش تحقیقات بیشتر را خواهد داشت‪ .‬همانطور که می بینید ‪ 4‬مشاهده وجود‬
‫دارد که مقدار ‪ leverage‬آنها بیشتر از ‪ .1568‬است‪.‬‬
‫‪regression‬‬
‫‪/dependent crime‬‬
‫‪/method=enter pctmetro poverty single‬‬
‫)‪/residuals=histogram(sdresid lever) id(state) outliers(sdresid lever‬‬
‫‪/casewise=plot(sdresid) outliers(0).‬‬

‫)‪Outlier Statistics(a‬‬
‫‪Case Number‬‬ ‫‪STATE‬‬ ‫‪Statistic‬‬
‫‪4‬‬ ‫‪51‬‬ ‫‪dc‬‬ ‫‪3.766‬‬

‫‪0‬‬ ‫‪25‬‬ ‫‪ms‬‬ ‫‪-3.571‬‬

‫‪9‬‬ ‫‪9‬‬ ‫‪fl‬‬ ‫‪2.621‬‬

‫‪1‬‬ ‫‪18‬‬ ‫‪la‬‬ ‫‪-1.839‬‬

‫‪2‬‬ ‫‪39‬‬ ‫‪ri‬‬ ‫‪-1.686‬‬


‫‪Stud. Deleted Residual‬‬
‫‪2‬‬ ‫‪12‬‬ ‫‪ia‬‬ ‫‪1.591‬‬

‫‪2‬‬ ‫‪47‬‬ ‫‪wa‬‬ ‫‪-1.314‬‬

‫‪2‬‬ ‫‪13‬‬ ‫‪id‬‬ ‫‪1.293‬‬

‫‪3‬‬ ‫‪14‬‬ ‫‪il‬‬ ‫‪1.152‬‬

‫‪42‬‬ ‫‪35‬‬ ‫‪oh‬‬ ‫‪-1.148‬‬

‫‪4‬‬ ‫‪51‬‬ ‫‪dc‬‬ ‫‪.517‬‬

‫‪0‬‬ ‫‪1‬‬ ‫‪ak‬‬ ‫‪.241‬‬

‫‪9‬‬ ‫‪25‬‬ ‫‪ms‬‬ ‫‪.171‬‬


‫‪Centered Leverage Value‬‬
‫‪1‬‬ ‫‪49‬‬ ‫‪wv‬‬ ‫‪.161‬‬

‫‪2‬‬ ‫‪18‬‬ ‫‪la‬‬ ‫‪.146‬‬

‫‪2‬‬ ‫‪46‬‬ ‫‪vt‬‬ ‫‪.117‬‬

‫‪11‬‬
a Dependent Variable: CRIME

12
13
‫همانطورکه دیدیم‪ DC ،‬مشاهده ای است که هم باقیمانده بزرگی دارد و هم ‪ leverage‬آن بزرگ می باشد‪.‬‬
‫چنین نقاطی به صورت بالقوه بیشترین تاثیر را خواهند داشت‪ .‬می توان نموداری بر حسب باقیمانده و‬
‫‪ leverage‬تهیه کرد و به دنبال مشاهداتی بود که ‪ leverage‬و باقیمانده آنها باالست‪ .‬می توان این کار را‬
‫با استفاده از دستور زیر انجام داد‪ .‬این راهیست سریع برای بررسی هم زمان نقاط بالقوه ای که تاثیر باال‬
‫دارند و همچنین نقاط دور افتاده )‪ .(outliers‬هردو نوع این نقاط بیشترین اهمیت را برای ما دارند‪.‬‬
‫همانطور که می بینیم‪ dc ،‬هم باقیمانده باال و هم ‪ leverage‬باالیی دارد‪ ،‬و ‪ ms‬باقیمانده بسیار منفی ای‬
‫دارد ولی ‪ leverage‬باالیی (در مقایسه با ‪ )dc‬ندارد‪.‬‬
‫‪regression‬‬
‫‪/dependent crime‬‬
‫‪/method=enter pctmetro poverty single‬‬
‫)‪/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever‬‬
‫)‪/casewise=plot(sdresid) outliers(0‬‬
‫‪/scatterplot(*lever, *sdresid).‬‬

‫‪14‬‬
‫حاال بیایید برویم سراغ مقیاس های کلی نفوذ)‪ ،(influence‬به خصوص نگاهی بیاندازیم به شاخص‬
‫کوک)‪ ، (cook's D‬که اطالعات باقیمانده و ‪ leverage‬را با هم ترکیب می کند‪ .‬کمترین مقداری که‬
‫شاخص کوک می تواند داشته باشد صفر است‪ ،‬و هرچه شاخص کوک بزرگتر باشد آن نقطه بیشترین نفوذ را‬
‫𝟒‬ ‫𝟒‬
‫یا ‪ 1.178‬می باشد‪ .‬در زیر با‬ ‫است‪ ،‬یا در این مسئله‬ ‫خواهد داشت‪ .‬محدوده قراردادی این نقطه‬
‫𝟏𝟓‬ ‫𝒏‬
‫استفاده از دستور زیر می توانیم خروجی مورد نظر را در این رابطه بدست آوریم‪ .‬در جدول های زیر‬
‫می بینیم که برای ‪ 3‬مشاهده دورافتاده که در جدول آمده اند‪ ،‬مقدار شاخص کوک از این محدوده )‪(1.178‬‬
‫باالتر رفته است‪ .‬و در جدول مشاهدات دورافتاده می بینیم که ‪ fl ، ms ، dc‬و ‪ 4،la‬ایالتی هستند که از این‬
‫محدوده باالتر رفته اند‪ ،‬و همه نقاط دیگر از این حد کمتراند‪.‬‬

‫‪regression‬‬
‫‪/dependent crime‬‬
‫‪/method=enter pctmetro poverty single‬‬
‫)‪/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever, cook‬‬
‫‪/casewise=plot(sdresid) outliers(0) cook dffit‬‬
‫‪/scatterplot(*lever, *sdresid).‬‬

‫بررسی موردی ‪Casewise Diagnostics(a)-‬‬


‫‪Cook's D‬‬
‫‪Case Number‬‬ ‫‪State‬‬ ‫‪Stud, Deleted Residuals‬‬ ‫‪Crime‬‬ ‫‪Dffit‬‬
‫‪Distance‬‬
‫شماره مورد‬ ‫ایالت‬ ‫باقیمانده حذف شده استیودنت شده‬ ‫جرم‬ ‫؟‬
‫فاصله شاخص کوک‬
‫‪9‬‬ ‫‪fl‬‬ ‫‪2.261‬‬ ‫‪1216‬‬ ‫‪.174‬‬ ‫‪48.517‬‬
‫‪25‬‬ ‫‪ms‬‬ ‫‪-3.571‬‬ ‫‪434‬‬ ‫‪.612‬‬ ‫‪-123.491‬‬
‫‪51‬‬ ‫‪dc‬‬ ‫‪3.766‬‬ ‫‪2922‬‬ ‫‪3.213‬‬ ‫‪477.319‬‬
‫جرم ‪ :‬متغیر وابسته ‪dependent Variable: CRIME -‬‬

‫‪15‬‬
Outlier Statistics(a)
Case Number STATE Statistic Sig. F
4 51 dc 3.766
0 25 ms -3.571
9 9 fl 2.621
1 18 la -1.839

Stud. Deleted 2 39 ri -1.686


Residual 2 12 ia 1.591
2 47 wa -1.314
2 13 id 1.293
3 14 il 1.152
42 35 oh -1.148
4 51 dc 3.213 .121
0 25 ms .612 .663
9 9 fl .174 .951
1 18 la .159 .958
2 39 ri .141 .997
Cook's distance
2 12 ia .141 .997
2 13 id .137 .997
2 21 md .121 .999
3 6 co .118 .999
42 49 wv .116 .999
4 51 dc .517
0 1 ak .241
9 25 ms .171
1 49 wv .161

Centered 2 18 la .146
Leverage Value 2 46 vt .117
2 9 fl .183
2 26 mt .181
3 31 nj .175
42 17 ky .172
dependent Variable: CRIME - ‫ متغیر وابسته‬: ‫جرم‬

16
‫شاخص کوک را می توان به عنوان یک مقیاس عمومی نفوذ در نظر گرفت‪ .‬همچنین می توانید مقیاس های‬
‫نفوذ خاص دیگری را نیز درنظر بگیرید که چگونگی تغییر هر ضریب با اضافه کردن مشاهده مورد نظر را‬
‫ارزیابی می کنند‪ .‬فرض کنید که رگرسیون ضرایب را برای مدل رگرسیونی خود در زمانیکه یک مشاهده‬
‫خاص را حذف نموده اید‪ ،‬محاسبه کردید‪ ،‬و تغییر در رگرسیون ضرایب را در مقایسه با وجود آن مشاهده در‬
‫مدل مشاهده نمودید‪ .‬این مقیاس ‪ DFBETA‬نامیده می شود و مقدار یک ‪ DFBETA‬می تواند برای هر‬
‫مشاهده و هر پیش بینی کننده محاسبه شود‪ .‬با این کار ‪ 4‬متغیر در فایل اطالعاتی ما باقی می مانند‪،‬‬
‫‪ sdfb1‬و ‪ sdfb2‬و ‪ sdfb3‬و ‪ ، sdfb4‬که به ترتیب مربوط میشوند به ‪ DFBETA‬برای عرض از‬
‫‪regression‬‬ ‫مبدا)‪poverty ،pctmetro ،(intercept‬‬
‫‪/dependent crime‬‬
‫‪/method=enter pctmetro poverty single‬‬
‫و ‪ .single‬می توانیم به جای کلمه ‪sdfb‬‬
‫)‪/residuals=histogram(sdresid lever) id(state‬‬ ‫هرچیز دیگری بگذاریم و متغیر هایی که می‬
‫)‪outliers(sdresid, lever, cook‬‬
‫سازیم می توانند با هر پسوندی که خودمان‬
‫‪/casewise=plot(sdresid) outliers(0) cook dffit‬‬
‫)‪/scatterplot(*lever, *sdresid‬‬ ‫می گذاریم شروع شوند‪.‬‬
‫‪/save sdbeta(sdfb).‬‬
‫با اضافه کردن دستور )‪ /save sdbeta (sdfb‬خروجی جدیدی حاصل نخواهد شد ولی می توانیم ببینیم‬
‫که با استفاده از دستور ‪ list‬برای ‪ 11‬مورد اول متغیر هایی ساخته می شود‪ .‬به عنوان مثال با ورود مورد ‪ak‬‬
‫در تحلیل رگرسیون (در مقایسه با حذف این مشاهده)‪ ،‬ضریب ‪ pctmetro‬به اندازه ‪ -1.116‬از خطای‬
‫استاندارد کاهش خواهد یافت‪ .‬همچنین‪ ،‬با ورود مورد ‪ ak‬ضریب ‪ poverty‬به اندازه ‪ -1.131‬از خطای‬
‫استاندارد کاهش می یابد‪ ،‬و ضریب ‪ single‬به اندازه ‪ 1.145‬از خطای استاندارد افزایش می یابد (در‬
‫مقایسه با مدلی که ‪ ak‬در آن حذف شده باشد)‪ .‬از آنجائیکه ورود یا خروج یک مشاهده می تواند باعث‬
‫افزایش یا کاهش ضریب رگرسیونی شود‪DFBETA ،‬ها می توانند هم مثبت و هم منفی باشند‪ .‬اگر‬
‫‪ DFBETA‬باالتر از )‪ 2/sqrt(n‬باشد باید مورد بررسی بیشتری قرار گیرد‪ .‬در این مثال‪ ،‬نگرانی ما بیشتر‬
‫درباره مقادیری باالتر از )‪ 2/sqrt(51‬یا ‪ 28‬خواهد بود‪.‬‬
‫‪list‬‬
‫‪/variables state sdfb4 sdfb0 sdfb9‬‬
‫‪/cases from 4 to 42.‬‬

‫‪17‬‬
‫می توانیم نموداری تهیه کنیم که شامل مقادیر ‪ DFBETA‬برای هر ‪ 3‬ضریب در برابر ‪ state id‬باشد‪ ،‬این‬
‫نمودار به ما کمک می کند که مشاهداتی که به طور بالقوه باعث ایجاد مشکل می شوند را ببینیم‪ .‬می بینیم‬
‫که مقادیر ‪ sdfb1‬و ‪ sdfb2‬و ‪ sdfb3‬تغییر کرده اند تا کوچکتر باشند و تا واضح تر در نمودار نشان داده‬
‫شوند‪ .‬می توانیم ببینیم که ‪ DFBETA‬متغیر ‪ single‬برای ‪ dc‬تقریبا ‪ 3‬است‪ ،‬با توجه به اینکه با وجود‬
‫‪ dc‬در مول رگرسیونی‪ ،‬ضریب ‪3 single‬واحد خطای استاندارد بیشتر از زمانی است که ‪ dc‬را از مدل حذف‬
‫کرده باشیم‪ .‬و این دلیلی دیگر بر مشکل دار بودن مشاهده ‪ dc‬می باشد‪.‬‬
‫"‪VARIABLE LABLES sdfb4 "Sdfbeta pctmetro‬‬
‫"‪/sdfb0 "Sdfbeta poverty‬‬
‫‪/sdfb9 "Sdfbeta single" .‬‬
‫‪GRAPH‬‬
‫‪/SCATTERPLOT(OVERLAY)=sid sid sid WITH sdfb4 sdfb0 sdfb9‬‬
‫)‪(PAIR) BY state(name‬‬
‫‪/MISSING=LISTWISE .‬‬

‫جدول زیر خالصه ای از مقادیری است که برای مقیاس هایی که در مورد آنها بحث شد استفاده می شود‪.‬‬
‫که با استفاده از آنها می توان مشاهداتی که باید راجع به آنها بررسی بیشتری آنجام داد را شناسایی کرد‪k( .‬‬
‫تعداد پیش بینی کننده ها و ‪ n‬تعداد مشاهدات می باشد)‪.‬‬

‫‪Measure‬‬
‫‪Value‬‬

‫‪leverage‬‬ ‫‪>(2k+2)/n‬‬

‫)‪abs(rstu‬‬ ‫‪>2‬‬

‫‪Cook's D‬‬ ‫‪> 4/n‬‬

‫‪18‬‬
‫)‪abs(DFBETA‬‬ ‫)‪> 2/sqrt(n‬‬
‫در جدول زیر نمونه هایی از متغیر هایی که با استفاده از دستور های ‪، /casewise ، /residuals‬‬
‫‪ /scatterplot‬و ) (‪ /save sdbeta‬بدست می آید آورده شده اند‪ .‬اگرچه که همه این متغیر ها با یکی از‬
‫است دستورها حاصل نمی شوند‪(.‬منظور این است که با دادن یکی از این دستورها همه این متغیرها را در‬
‫خروجی نمی توان مشاهده کرد)‪.‬‬

‫‪19‬‬
‫عالوه بر مقیاس های عددی که در باال نشان داده ایم‪ ،‬نمودار های دیگری هم وجود دارند که می توان از آنها‬
‫برای جست و جوی مشاهدات غیرعادی و بانفوذ استفاده کرد‪ .‬نمودار رگرسیون جزئی برای تشخیص نقاط‬
‫بانفوذ بسیار مفید است‪ .‬برای مثال می توان دستور ‪ /partialplot‬را برای ایجاد نمودار رگرسیون جزئی‬
‫برای تمامی پیش بینی کننده ها استفاده کنیم‪ .‬به عنوان نمونه‪ ،‬در سومین نمودار زیر می توانیم نمودار‬
‫رگرسیون جزئی را برای دو متغیر ‪ crime‬بر حسب ‪ single‬بعدا از آنکه هر دو آنها برای تمامی پیش بینی‬
‫های دیگر تنظیم شده اند مشاهده می شود‪ .‬خطی که در نمودار کشیده شده است شیبی برابر شیب ضریب‬
‫‪ single‬دارد‪ .‬این نمودار نشان می دهد که چگونه مشاهده ‪ DC‬ضریب آن را تحت تاثیر قرار می دهد‪.‬‬
‫می توانید ببینید که خط رگرسیونی چگونه به سمت باال کشیده می شود و می کوشد تا مقادیر بسیار باالی‬
‫‪ DC‬را تحت پوشش قرار دهد‪ .‬آالسکا و ویرجینیای غربی هم ممکن است مقادیر قابل توجه ‪ leverage‬را‬
‫بر روی ضریب متغیر ‪ single‬نشان دهند‪ .‬این نقاط از این جهت مفیدند که چگونگی تاثیر یک تک نقطه را‬
‫بروری خط رگرسیونی نشان می دهند‪ ،‬در عین حال سایر متغیر ها را نیز در مدل به حساب می آورند‪.‬‬
‫توجه داشته باشید که خط رگرسیونی به طور خودکار در نمودار ایجاد نمی شود‪ .‬باید بر روی نمودار ‪2‬بار‬
‫کلیک کرده‪ chart ،‬را انتخاب کنید‪ ،‬سپس ‪ option‬را بزنید‪ ،‬و ‪ Fit Line Total‬را بزنید تا خط‬
‫رگرسیونی به هرکدام از نمودارهایتان اضافه شود‪ .‬همچنین دستور زیر را نیز می توانید استفاده کنید‪.‬‬
‫‪regression‬‬
‫‪/dependent crime‬‬
‫‪/method=enter pctmetro poverty single‬‬
‫)‪/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever, cook‬‬
‫‪/casewise=plot(sdresid) outliers(0) cook dffit‬‬
‫)‪/scatterplot(*lever, *sdresid‬‬
‫‪/partialplot.‬‬

‫‪21‬‬
21
‫در هر کدام از تحلیل ها ‪ DC‬هم به عنوان یک داده دور )‪ (outlier‬و هم به عنوان نقطه ای بانفوذ ظاهر‬
‫شده است‪ .‬از آنجایی که ‪ DC‬یک ایالت محسوب نمی شود می توان از این دلیل استفاده کرد و آن را از‬
‫تحلیل حذف نمود و گفت که ما فقط به دنبال‬
‫‪regression‬‬
‫‪/dependent crime‬‬ ‫انجام این تحلیل در ایالت ها هستیم‪ .‬ابتدا‪،‬‬
‫‪/method=enter pctmetro poverty‬‬ ‫دوباره تحلیل خود را با وجود ‪ DC‬بصورت زیر‬
‫‪single.‬‬ ‫تکرار کنیم‪.‬‬

‫ضرایب ‪Coefficients(a)-‬‬
‫‪Unstandardized Coefficients‬‬ ‫‪Standardized coefficients‬‬
‫ضرایب استاندار نشده‬ ‫ضرایب استاندارد شده‬ ‫‪t‬‬ ‫‪Sig.‬‬
‫‪Model‬‬ ‫‪B‬‬ ‫‪Std. Error‬‬ ‫‪Beta‬‬
‫عرض از مبدا)‪(Constant‬‬ ‫‪-1666.436‬‬ ‫‪147.852‬‬ ‫‪-11.271‬‬ ‫‪.111‬‬
‫‪PCTMETRO‬‬ ‫‪7.829‬‬ ‫‪1.255‬‬ ‫‪.391‬‬ ‫‪6.241‬‬ ‫‪.111‬‬
‫‪4‬‬
‫‪POVERTY‬‬ ‫‪17.681‬‬ ‫‪6.941‬‬ ‫‪.184‬‬ ‫‪2.547‬‬ ‫‪.114‬‬

‫‪SINGLE‬‬ ‫‪132.418‬‬ ‫‪15.513‬‬ ‫‪.637‬‬ ‫‪8.541‬‬ ‫‪.111‬‬

‫متغیر وابسته‪ :‬جرم ‪a Dependent Variable: CRIME -‬‬

‫‪22‬‬
‫حاال بیایید با استفاده از دستور روبرو تحلیل خود را‬
‫‪compute filtvar = (state NE "dc").‬‬
‫‪filter by filtvar.‬‬ ‫با حذف ‪ DC‬انجام دهیم‪ .‬همانطور که انتظار داریم‪،‬‬
‫‪regression‬‬ ‫حذف ‪ DC‬باعث تغییر بزرگی در ضریب متغیر‬
‫‪/dependent crime‬‬ ‫‪ single‬شده است‪ .‬ضریب متغیر ‪ single‬از ‪132.4‬‬
‫‪/method=enter pctmetro poverty‬‬
‫‪single .‬‬ ‫به ‪ 89.4‬کاهش پیدا کرد‪ .‬بعد از اینکه ‪ DC‬را حذف‬
‫کردیم‪ ،‬پروسه ای را که در این قسمت توضیح دادیم‬
‫را تکرار خواهیم کرد تا هر مشاهده ای را که دورافتاده و با نفوذ است را پیدا کنیم‪.‬‬

‫ضرایب ‪Coefficients(a) -‬‬

‫‪Unstandardized coefficients‬‬ ‫‪Standardized Coefficients‬‬


‫ضرایب استاندارد نشده‬ ‫ضرایب استاندارد شده‬ ‫‪t‬‬ ‫‪Sig.‬‬
‫‪Model‬‬ ‫‪B‬‬ ‫‪Std. Error‬‬ ‫‪Beta‬‬
‫عرض از مبدا)‪(Constant‬‬ ‫‪-1197.538‬‬ ‫‪181.487‬‬ ‫‪-6.635‬‬ ‫‪.111‬‬

‫‪PCTMETRO‬‬ ‫‪7.712‬‬ ‫‪1.119‬‬ ‫‪.565‬‬ ‫‪6.953‬‬ ‫‪.111‬‬


‫‪4‬‬
‫‪POVERTY‬‬ ‫‪18.283‬‬ ‫‪6.136‬‬ ‫‪.265‬‬ ‫‪2.981‬‬ ‫‪.115‬‬

‫‪SINGLE‬‬ ‫‪89.411‬‬ ‫‪17.836‬‬ ‫‪.446‬‬ ‫‪5.112‬‬ ‫‪.111‬‬


‫متغیر وابسته‪ :‬جرم ‪a Dependent Variable: CRIME -‬‬

‫خالصه‬
‫در این بخش‪ ،‬روشهایی برای شناسایی داده های دورافتاده و نقاط با نفوذ را مورد بررسی قرار دادیم‪ .‬در یک‬
‫تحلیل معمولی‪ ،‬شما احتماال می توانید از بعضی از این روش ها استفاده کنید‪ .‬به طور کلی‪ ،‬دو روش برای‬
‫تشخیص داده های دورافتاده وجود دارد‪ :‬شاخص های آماری ای مانند باقیمانده )‪leverage ، (residuals‬‬
‫و شاخص کوک)‪ (Cook's D‬که یک دید کلی از یک مشاهده در نتایج رگرسیون را بدست می دهند‪ .‬و‬
‫شاخص های آماری ای مانند ‪ DFBETA‬که یک اثر جزئی از یک مشاهده را بر ضرایب رگرسیونی نشان‬
‫می دهند‪ .‬در مثال ما‪ ،‬متوجه شدیم که ‪ DC‬نقطه ای ست که باید به شدت مورد توجه قرار گیرد‪ .‬تحلیل‬
‫رگرسیون را با وجود و در صورت عدم وجود این مشاهده انجام دادیم و دیدیم که معادالت رگرسیونی بسیار‬
‫متفاوت بودند‪ .‬می توان حذف ‪ DC‬را اینطور توجیه کرد که هدف از این تحلیل پیش بینی جرم در ایالت‬
‫های آمریکاست نه یک شهر‪.‬‬

‫‪23‬‬
‫ آزمون هایی برای بررسی نرمالیته ی باقیمانده ها‬0.0
‫ برای اینکه‬.‫یکی از فرضیات رگرسیون خطی آن است که باقی مانده ها بصورت نرمال پراکنده شده اند‬
.‫ معتبر باشد بسیار مهم است که فرض گفته شده ثابت شود‬t ‫آزمون‬
http://statistics.ats.ucla.edu/stat/spss/webbooks/reg/elemapi2.sav
.‫لینک باال داده های الزم را برای آنالیز پیش رو در اختیار شما قرار می دهد‬
‫ از‬،(academic performance : api11) ‫در این آنالیز می خواهیم به پیش بینی عملکرد تحصیلی‬
‫ درصد زبان‬،(percent of receiving free meals: meals) ‫درصد دریافت وعده غذایی رایگان‬
‫( و درصد معلمانی با گواهینامه‬percent of English learners : ell) ‫آموزان زبان انگلیسی‬
.(percent of teachers with emergency credentials: emer) !‫اضطراری‬

get file="c:\spssreg\elemapi0.sav".
regression
/dependent api22
/method=enter meals ell emer
/save resid(apires).

Variables Entered/Removed(b)‫حذف شده‬/‫متغیر های وارد شده‬

Variables Entered Variables Removed


Model Method ‫روش‬
‫متغیر های وارد شده‬ ‫متغیر های حذف شده‬
Enter
4 EMER, ELL, MEALS(a) . ‫ورود‬
a All requested variables entered.‫همه متغیر های خواسته شده وارد شده اند‬
b Dependent Variable: API11 API11:‫متغیر وابسته‬

Model Summary(b) - ‫خالصه ای از مدل‬

Model R R Adjusted Std. Error of the

4 .914(a) Square
.836 R
.835 Estimate
57.821
Square
a Predictors: (Constant), EMER, ELL, MEALS
b Dependent Variable: API11

24
ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Regression 6749782.747 3 2249927.582 672.995 .111(a)
4 Residual 1323889.251 396 3343.155

Total 8173671.997 399


a Predictors: (Constant), EMER, ELL, MEALS
b Dependent Variable: API11

Coefficients(a)
Unstandardized Standardized
Coefficients Coefficients t Sig.
Model B Std. Error Beta
(Constant) 886.713 6.261 141.651 .111

MEALS -3.159 .151 -.719 -21.198 .111


4
ELL -.911 .185 -.159 -4.928 .111

EMER -1.573 .293 -.131 -5.368 .111


a Dependent Variable: API11

Casewise Diagnostics(a)
Case Number Std. Residual API22
39 3.187 614

002 -3.218 386


a Dependent Variable: API11

Residuals Statistics(a)

Minimum Maximum Mean Std. Deviation N

Predicted Value 425.52 884.88 647.62 131.164 411


Residual -185.47 178.48 .11 57.612 411
Std. Predicted Value -1.718 1.824 .111 1.111 411
Std. Residual -3.218 3.187 .111 .996 411
a Dependent Variable: API11

25
‫حال با استفاده از دستور ‪ examine‬می توانیم به میزان نرمالیته این باقیمانده ها نگاهی بیاندازیم‪.‬‬
‫تمامی نتایجی که از این دستور حاصل می شوند نشان می دهند که تمام باقیمانده ها پراکنش نرمالی دارند‪.‬‬
‫چولگی و کشیدگی نزدیک به صفر است‪ ،‬آزمون های نرمالیته معنی دار نیستند‪ ،‬نمودار هیستوگرام نرمال به‬
‫نظر می رسد‪ ،‬و نمودار ‪ Q-Q‬نیز نرمال به نظر می رسد‪ .‬با توجه به این نتایج‪ ،‬باقیمانده های این رگرسیون‬
‫به نظر می رسد که با فرض نرمال بودن پراکنش نرمال مطابقت دارند‪.‬‬
‫‪examine‬‬
‫‪variables=apires‬‬
‫‪/plot boxplot stemleaf histogram npplot.‬‬

‫‪Case Processing Summary‬‬


‫‪Cases‬‬
‫‪Valid‬‬ ‫‪Missing‬‬ ‫‪Total‬‬
‫‪Descriptives‬‬
‫‪N‬‬ ‫‪Percent‬‬ ‫‪N‬‬ ‫‪Percent‬‬ ‫‪N‬‬ ‫‪Percent‬‬
‫‪APIRES‬‬ ‫‪411‬‬ ‫‪111.11‬‬ ‫‪1‬‬ ‫‪.11‬‬ ‫‪Statistic‬‬
‫‪411‬‬ ‫‪Std. Error‬‬
‫‪111.11‬‬

‫‪Mean‬‬ ‫‪.1111111‬‬ ‫‪2.88111215‬‬

‫‪Lower Bound‬‬ ‫‪-5.6621919‬‬


‫‪329 Confidence Interval for Mean‬‬
‫‪Upper Bound‬‬ ‫‪5.6621919‬‬

‫‪29 Trimmed Mean‬‬ ‫‪-.7827765‬‬

‫‪Median‬‬ ‫‪-3.6572916‬‬

‫‪APIRES‬‬ ‫‪Variance‬‬ ‫‪3318.118‬‬

‫‪Std. Deviation‬‬ ‫‪57.61224114‬‬

‫‪Minimum‬‬ ‫‪-185.47331‬‬

‫‪Maximum‬‬ ‫‪178.48224‬‬

‫‪Range‬‬ ‫‪363.95555‬‬

‫‪Interquartile Range‬‬ ‫‪76.5523153‬‬

‫‪26‬‬
Skewness .171 .122

Kurtosis .135 .243

Tests of Normality
Kolmogorov-Smirnov(a) Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
APIRES .133 411 .211(*) .996 411 .511
* This is a lower bound of the true significance.
a Lilliefors Significance Correction

27
28
‫‪ 0.9‬ناهمسانی )‪(Heteroscedasticity‬‬
‫یکی دیگر از فرضیات رگرسیون حداقل مربعات آن است که واریانس باقی مانده ها در سطوح مقادیر‬
‫پیش بینی شده همگن باشد‪ ،‬که با عنوان ناهمسانی ‪ Heteroscedasticity‬شناخته می شود‪ .‬اگر مدل‬
‫به خوبی ساخته شده باشد‪ ،‬هنگامی که نمودار باقیمانده ها در برابر مقادیر پیش بینی شده رسم می شود‪،‬‬
‫هیچ الگوی مشخصی نباید وجود داشته باشد‪ .‬اگر واریانس باقیمانده ها غیر ثابت باشد در این صورت‬
‫واریانس باقیمانده ها را ناهمسان می خوانند‪ .‬در زیر با استفاده از روش های نموداری نشان می دهیم که‬
‫چگونه می توانیم ناهمسانی را پیدا کنیم‪ .‬یک روش نموداری متداول آن است که از باقیمانده در برابر‬
‫نمودار پیش بینی شده استفاده کنیم تا باقیمانده ها را در برابر مقادیر پیش بینی شده نشان دهیم‪ .‬با‬
‫استفاده از دستور زیر می توانیم باقیمانده های استاندارد شده را در برابر مقادیر پیش بینی شده ترسیم‬
‫کنیم‪ .‬می بینیم که الگوی نقاط داده ها در حال تنگتر شدن به سمت راست می باشد‪ ،‬که این نشانه ای‬
‫برای ناهمسانی خفیف می باشد‪.‬‬

‫‪regression‬‬
‫‪/dependent api22‬‬
‫‪/method=enter meals ell emer‬‬
‫‪/scatterplot(*zresid *pred).‬‬

‫‪29‬‬
‫بیایید مدلی را اجرا کنیم که در آن فقط دستور ‪ enroll‬را به عنوان یک پیش بینی کننده استفاده‬
‫می کنیم و باقیمانده را در برابر طرح پیش بینی شده نشان می دهیم‪ .‬همانطور که می بینید‪ ،‬این طرح‬
‫ناهمسانی جدی ای را نشان می دهد‪ .‬تغییر پذیری باقیمانده ها زمانی که مقدار پیش بینی شده تقریبا‬
‫‪ 711‬است بسیار بزرگتر از زمانی است که مقدار پیش بینی شده ‪ 611‬یا ‪ 511‬است‪.‬‬
‫‪regression‬‬
‫‪/dependent api22‬‬
‫‪/method=enter enroll‬‬
‫‪/scatterplot(*zresid *pred).‬‬

‫همانطور که در فصل اول دیدیم‪ ،‬متغیر ‪ enroll‬به طور قابل مالحظه ای به سمت راست چولگی داشت‪ ،‬و‬
‫متوجه شدیم که با گرفتن لگاریتم‪ ،‬متغیر تغییر یافته پراکنش نرمالی پیدا کرد‪ .‬در زیر ‪ enroll‬را تغییر‬
‫دادیم‪ ،‬رگرسیون را اجرا کردیم‪ ،‬و باقیمانده را در برابر طرح پیش بینی شده نشان دادیم‪ .‬پراکنش‬
‫باقیمانده ها به شدت بهبود یافته است‪ .‬مطمئنا این یک پراکنش عالی برای باقی مانده ها نمی باشد‪ ،‬اما‬
‫بسیار بهتر از پراکنش متغیر تغییر نیافته می باشد‪.‬‬
‫‪compute lenroll = ln(enroll).‬‬
‫‪regression‬‬
‫‪/dependent api22‬‬
‫‪/method=enter lenroll‬‬
‫‪/scatterplot(*zresid *pred).‬‬

‫‪31‬‬
Variables Entered/Removed(b)
Model Variables Entered Variables Removed Method
4 LENROLL(a) . Enter
a All requested variables entered.
b Dependent Variable: API11

Model Summary(b)
Model R R Square Adjusted R Square Std. Error of the Estimate
4 .275(a) .175 .173 136.946
a Predictors: (Constant), LENROLL
b Dependent Variable: API11

ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Regression 619461.418 1 619461.418 32.497 .111(a)
4 Residual 7464211.589 398 18754.311

Total 8173671.997 399


a Predictors: (Constant), LENROLL
b Dependent Variable: API11

Coefficients(a)

Unstandardized Coefficients Standardized Coefficients


t Sig.
Model B Std. Error Beta
(Constant) 1171.429 91.966 12.727 .111
4
LENROLL -86.111 15.186 -.275 -5.711 .111
a Dependent Variable: API11

Residuals Statistics(a)

Minimum Maximum Mean Std. Deviation N

Predicted Value 537.57 751.82 647.62 39.183 411

31
‫‪Residual‬‬ ‫‪-288.65‬‬ ‫‪295.47‬‬ ‫‪.11‬‬ ‫‪136.775‬‬ ‫‪411‬‬
‫‪Std. Predicted Value‬‬ ‫‪-2.816‬‬ ‫‪2.666‬‬ ‫‪.111‬‬ ‫‪1.111‬‬ ‫‪411‬‬
‫‪Std. Residual‬‬ ‫‪-2.118‬‬ ‫‪2.158‬‬ ‫‪.111‬‬ ‫‪.999‬‬ ‫‪411‬‬
‫‪a Dependent Variable: API11‬‬

‫بیائید‬ ‫انتها‪،‬‬ ‫در‬


‫دوباره به‬ ‫نگاهی‬
‫مدلی که در ابتدای این بخش استفاده کردیم‪ ،‬بیاندازیم‪ ،‬که در آن به پیش بینی ‪ api11‬از ‪ ell ، meals‬و‬
‫‪ emer‬پرداختیم‪ .‬با استفاده از این مدل‪ ،‬پراکنش باقیمانده ها بسیار خوب به نظر می رسید و حتی از میان‬
‫مقادیر پیش بینی شده گذر می کرد‪ .‬چه می شود اگر ‪ enroll‬را به این مدل اضافه کنیم؟ آیا این کار‬
‫بصورت خودکار پراکنش باقیمانده ها را خراب خواهد کرد؟ بیایید آن را اضافه کنیم و ببینیم چه اتفاقی‬
‫خواهد افتاد؟‬

‫‪regression‬‬
‫‪/dependent api22‬‬
‫‪/method=enter meals ell emer enroll‬‬
‫‪/scatterplot(*zresid *pred).‬‬

‫)‪Variables Entered/Removed(b‬‬
‫‪Model‬‬ ‫‪Variables Entered‬‬ ‫‪Variables Removed‬‬ ‫‪Method‬‬
‫‪4‬‬ ‫)‪ENROLL, MEALS, EMER, ELL(a‬‬ ‫‪.‬‬ ‫‪Enter‬‬
‫‪a All requested variables entered.‬‬
‫‪b Dependent Variable: API11‬‬

‫)‪Model Summary(b‬‬

‫‪32‬‬
Model R R Square Adjusted R Square Std. Error of the Estimate
4 .915(a) .838 .836 57.552
a Predictors: (Constant), ENROLL, MEALS, EMER, ELL
b Dependent Variable: API11

ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Casewise
6765344.151 Diagnostics(a)
4 1691336.112 511.635 .111(a)
Regression
Case Number 1318327.948 395Std. Residual
3312.223 API22
4 Residual
39 8173671.997 399 3.114 614
Total
a Predictors: (Constant),
002 ENROLL, MEALS, EMER,-3.311
ELL 386
abDependent
DependentVariable:
Variable:API11
API11

Coefficients(a)

Unstandardized Coefficients Standardized Coefficients


t Sig.
Model B Std. Error Beta
(Constant) 899.147 8.472 116.128 .111

MEALS -3.222 .152 -.723 -21.223 .111

4 ELL -.768 .195 -.134 -3.934 .111

EMER -1.418 .311 -.117 -4.721 .111

ENROLL -3.126E-12 .114 -.151 -2.168 .131


a Dependent Variable: API11

33
‫)‪Residuals Statistics(a‬‬

‫‪Minimum‬‬ ‫‪Maximum‬‬ ‫‪Mean‬‬ ‫‪Std. Deviation‬‬ ‫‪N‬‬

‫‪Predicted Value‬‬ ‫‪431.82‬‬ ‫‪888.18‬‬ ‫‪647.62‬‬ ‫‪131.214‬‬ ‫‪411‬‬


‫‪Residual‬‬ ‫‪-191.56‬‬ ‫‪172.86‬‬ ‫‪.11‬‬ ‫‪57.263‬‬ ‫‪411‬‬
‫‪Std. Predicted Value‬‬ ‫‪-1.665‬‬ ‫‪1.847‬‬ ‫‪.111‬‬ ‫‪1.111‬‬ ‫‪411‬‬
‫‪Std. Residual‬‬ ‫‪-3.311‬‬ ‫‪3.114‬‬ ‫‪.111‬‬ ‫‪.995‬‬ ‫‪411‬‬
‫‪a Dependent Variable: API11‬‬

‫مشاهده می‬ ‫همانطور که‬


‫کنید‪،‬پراکنش باقیمانده ها خوب به نظر می رسد‪ ،‬حتی بعد از اینکه متغیر ‪ enroll‬را اضافه کردیم‪ .‬وقتی که‬
‫تنها متغیر موجود در مدل ‪ enroll‬بود نیاز به انجام لگاریتم برای تغییر این متغیر و بهبود پراکنش باقیمانده‬
‫ها داشتیم‪ ،‬اما وقتی ‪ enroll‬به همراه دیگر متغیر ها در مدل وجود داشته باشد باقیمانده ها خوب به نظر‬
‫می رسند لذا به این تغییر نیازی نخواهد بود‪ .‬این امر روشن می کند که چگونه پراکنش باقیمانده ها‪ ،‬نه‬
‫پیش بینی کننده ها‪ ،‬راهنمایی برای آن است که آیا تغییر در متغیر احتیاج هست یا نیست؟‬

‫‪34‬‬
‫‪ 0.1‬هم خطی ‪Collinearity‬‬
‫زمانیکه یک رابطه خطی کامل بین پیش بینی کننده ها وجود دارد‪ ،‬تخمین مدل رگرسیونی به تنهایی قابل‬
‫محاسبه نیست‪ .‬کلمه هم خطی)‪ (collinearity‬نشان می دهد که ‪ 2‬متغیر نزدیک به یک ترکیب خطی‬
‫کامل از یکدیگر هستند‪ .‬وقتیکه بیشتر از ‪ 2‬متغیر در مدل وجود دارند این واژه به چندخطی‬
‫)‪ (multicollinearity‬تغییر پیدا می کند‪ ،‬اگرچه که این دو مفهوم اغلب به جای همدیگر استفاده می‬
‫شوند‪.‬‬
‫نگرانی اولیه آن است که با افزایش درجه چندخطی‪ ،‬مدل رگرسیونی ضرایب ناپایدار خواهد شد‪ ،‬و خطای‬
‫استاندارد برای ضرایب به مقدار بسیار زیادی متورم خواهد شد‪ .‬در این بخش یک سری از دستور های برنامه‬
‫‪ SPSS‬را معرفی می کنیم که با استفاده از آنها می توان چندخطی را تشخیص داد‪.‬‬
‫می توان از دستور ‪ /statistics=defaults tol‬استفاده کرد تا مقادیر ‪ tolerance‬و ‪ VIF‬برای هر پیش‬
‫بینی کننده به منظور بررسی چندخطی بودن نشان داده شود‪ Tolerance .‬نشانه ای است از درصدی از‬
‫واریانس در پیش بینی کننده ها که به پیش بینی کننده های دیگر اختصاص نمیابد‪ ،‬از اینرو‪ ،‬مقادیر بسیار‬
‫کوچک نشان می دهند که یک پیش بینی کننده اضافی است و مقادیری کمتر از ‪ 1.11‬باید مورد بررسی‬
‫‪1‬‬
‫می باشد‪ ،‬و به‬ ‫بیشتری قرار گیرند‪ VIF .‬مخفف ‪ ، Variance Inflation Factor‬به اندازه‬
‫𝑒𝑐𝑛𝑎𝑟𝑒𝑙𝑜𝑇‬
‫عنوان یک قانون‪ ،‬یک واریانس که مقادیر ‪ VIF‬آن باالتر از ‪ 11‬باشند باید مورد بررسی بیشتری قرار گیرد‪.‬‬
‫بیایید ابتدا به رگرسیونی که در بخش قبلی انجام دادیم نگاهی بیاندازیم‪ .‬مدل رگرسیونی ای که به پیش‬
‫بینی ‪ api11‬از ‪ ell ، meals‬و ‪ emer‬می پرداخت و با‬
‫‪regression‬‬
‫‪/statistics=defaults tol‬‬ ‫استفاده از دستور ‪ /statistics=defaults tol‬در نرم‬
‫‪/dependent api22‬‬ ‫افزار انجام می شد‪ .‬همانطور که می بینید مقادیر‬
‫‪/method=enter meals ell emer .‬‬ ‫‪ Tolerance‬و ‪ VIF‬تقریبا قابل قبول می باشند‪.‬‬

‫)‪Coefficients(a‬‬

‫‪Unstandardized‬‬ ‫‪Standardized‬‬ ‫‪Collinearity‬‬


‫‪Coefficients‬‬ ‫‪Coefficients‬‬ ‫‪t‬‬ ‫‪Sig.‬‬ ‫‪Statistics‬‬

‫‪Model‬‬ ‫‪B‬‬ ‫‪Std. Error‬‬ ‫‪Beta‬‬ ‫‪Tolerance‬‬ ‫‪VIF‬‬

‫)‪(Constant‬‬ ‫‪886.713‬‬ ‫‪6.261‬‬ ‫‪141.651‬‬ ‫‪.111‬‬

‫‪MEALS‬‬ ‫‪-3.159‬‬ ‫‪.151‬‬ ‫‪-.719‬‬ ‫‪-21.198‬‬ ‫‪.111‬‬ ‫‪.367‬‬ ‫‪2.725‬‬


‫‪4‬‬
‫‪ELL‬‬ ‫‪-.911‬‬ ‫‪.185‬‬ ‫‪-.159‬‬ ‫‪-4.928‬‬ ‫‪.111‬‬ ‫‪.398‬‬ ‫‪2.511‬‬

‫‪EMER‬‬ ‫‪-1.573‬‬ ‫‪.293‬‬ ‫‪-.131‬‬ ‫‪-5.368‬‬ ‫‪.111‬‬ ‫‪.717‬‬ ‫‪1.415‬‬

‫‪a Dependent Variable: API11‬‬

‫‪35‬‬
‫حال بیائید مثال دیگری را در نظر بگیریم که در آن مقادیر ‪ Toleranve‬و ‪ VIF‬نگران کننده تر می باشد‪ .‬در‬
‫رگرسیون زیر‪ ،‬از ‪ col_grad، grad_sch ، avg_ed ، acs_k3‬و ‪ some_col‬به عنوان پیش بینی کننده‬
‫های ‪ api11‬استفاده کردیم‪ .‬همانطور که می بینید‪ ،‬مقادیر ‪ tolerance‬برای ‪ grad_sch، avg_ed‬و‬
‫‪ col_grad‬کمتر از ‪ 1.11‬می باشد و ‪ avg_ed‬تقریبا ‪ 1.12‬می باشد و نشان می دهد که تقریبا فقط ‪ 21‬از‬
‫واریانس در ‪ avg_ed‬با توجه به پیش بینی کننده های دیگر در مدل قابل پیش بینی نیست‪ .‬تمامی این‬
‫متغیر ها «میزان تحصیالت والدین» را اندازه گیری می کنند و ‪ tolerance‬بسیار پایین نشان می دهد که‬
‫این متغیر ها حاوی اطالعات اضافی می باشند‪ .‬برای مثال بعد از اینکه شما ‪ grad_sch،‬و ‪ col_grad‬را‬
‫شناختید احتماال می توانید ‪ avg_ed‬را نیز به خوبی پیش بینی کنید‪ .‬در این مثال‪ ،‬چندخطی به وجود‬
‫می آید زیرا متغیر های زیادی را که همه یک چیز را اندازه گیری می کنند(تحصیالت والدین) وارد مدل کرده‬
‫ایم‪.‬‬
‫با استفاده از دستور ‪ Collins‬خروجی مربوط به هم خطی بدست می آید‪ .‬مقادیر بسیار پایین از معیار پنجم‬
‫(از آنجائیکه ‪ 5‬پیش بینی کننده داریم) نشانه ای دیگر از وجود مشکالت مربوط به چند خطی می باشد‪.‬‬
‫همچنین‪ ،‬مقادیر بسیار باال از شاخص موقعیتی! )‪ (Condition Index‬برای معیار پنجم به طور مشابه‬
‫مشکالت چند خطی را برای این پیش بینی کننده ها نشان می دهد‪.‬‬
‫‪regression‬‬
‫‪/statistics=defaults tol collin‬‬
‫‪/dependent api22‬‬
‫‪/method=enter acs_k9 avg_ed grad_sch col_grad some_col.‬‬

‫)‪Coefficients(a‬‬
‫‪Unstandardized‬‬ ‫‪Standardized‬‬
‫‪Collinearity Statistics‬‬
‫‪Coefficients‬‬ ‫‪Coefficients‬‬ ‫‪t‬‬ ‫‪Sig.‬‬
‫‪Model‬‬ ‫‪B‬‬ ‫‪Std.‬‬ ‫‪Beta‬‬ ‫‪Tolerance‬‬ ‫‪VIF‬‬
‫‪-82.619‬‬ ‫‪Error‬‬
‫‪81.846‬‬ ‫‪-1.119‬‬ ‫‪.313‬‬
‫)‪(Constant‬‬
‫‪ACS_K9‬‬ ‫‪11.457‬‬ ‫‪3.275‬‬ ‫‪.117‬‬ ‫‪3.498‬‬ ‫‪.111‬‬ ‫‪.972‬‬ ‫‪1.129‬‬

‫‪AVG_ED‬‬ ‫‪227.264‬‬ ‫‪37.221‬‬ ‫‪1.221‬‬ ‫‪6.116‬‬ ‫‪.111‬‬ ‫‪.123‬‬ ‫‪43.571‬‬


‫‪4‬‬
‫‪GRAD_SCH‬‬ ‫‪-2.191‬‬ ‫‪1.352‬‬ ‫‪-.181‬‬ ‫‪-1.546‬‬ ‫‪.123‬‬ ‫‪.167‬‬ ‫‪14.865‬‬

‫‪COL_GRAD‬‬ ‫‪-2.968‬‬ ‫‪1.118‬‬ ‫‪-.339‬‬ ‫‪-2.916‬‬ ‫‪.114‬‬ ‫‪.168‬‬ ‫‪14.779‬‬

‫‪SOME_COL‬‬ ‫‪-.761‬‬ ‫‪.811‬‬ ‫‪-.157‬‬ ‫‪-.938‬‬ ‫‪.349‬‬ ‫‪.246‬‬ ‫‪4.165‬‬


‫‪a Dependent Variable: API11‬‬

‫‪36‬‬
Collinearity Diagnostics(a)

Variance Proportions
Eigen Condition
Mode value Index (Consta ACS_ AVG_E GRAD_S COL_GR SOME_
Dimension K9
l nt) D CH AD COL

4 5.113 1.111 .11 .11 .11 .11 .11 .11

0 .589 2.918 .11 .11 .11 .15 .11 .11

9 .253 4.455 .11 .11 .11 .13 .17 .12


4
1 .142 5.941 .11 .11 .11 .11 .11 .23

2 .1128 42.136 .22 .86 .14 .11 .15 .19

2 .1115 65.887 .77 .13 .86 .81 .77 .66


a Dependent Variable: API11

‫ توجه داشته باشید که‬.‫( حذف کنیم‬avg-ed) ‫حاال بیائید یکی از متغیر های میزان تحصیالت والدین را‬
‫ همچنین توجه داشته باشید که چگونه خطاهای‬.‫ در تحلیل زیر بسیار بهتر شده اند‬VIF ‫مقادیر‬
‫ این به آن علت‬.‫( کاهش یافته اند‬grad-sch , col-grad) ‫استانداردبرای متغیر های تحصیالت والدین‬
‫ با رفع مشکل چندخطی‬.‫است که مقادیر باالی همخطی باعث متورم شدن خطاهای استاندارد شده بود‬
.‫ که قبال مهم نبود حال قابل توجه می باشد‬grad-sch ‫ضریب متغیر‬

regression
/statistics=defaults tol collin
/dependent api22
/method=enter acs_k9 grad_sch col_grad some_col.

Coefficients(a)
Unstandardized Standardized Collinearity
Coefficients Coefficients t Sig. Statistics
Model B Std. Error Beta Tolerance VIF
(Constant) 283.745 71.325 4.135 .111
4
ACS_K9 11.713 3.665 .113 3.196 .112 .977 1.124

37
GRAD_SCH 5.635 .458 .482 12.298 .111 .792 1.262

COL_GRAD 2.481 .341 .288 7.313 .111 .783 1.278

SOME_COL 2.158 .444 .173 4.862 .111 .967 1.134


a Dependent Variable: API11

Collinearity Diagnostics(a)

Variance Proportions
Eigen Condition
value Index
Model Dimension (Constant) ACS_K9 GRAD_SCH COL_GRAD SOME_COL

4 3.971 1.111 .11 .11 .12 .12 .11

0 .599 2.575 .11 .11 .61 .13 .14

4 9 .255 3.945 .11 .11 .37 .94 .13

1 .174 4.778 .11 .11 .11 .11 .92

2 .1249 39.925 .99 .99 .11 .11 .11


a Dependent Variable: API11

38
‫‪ 0.2‬آزمون های غیرخطی‬
‫وقتی که رگرسیون خطی انجام می دهیم‪ ،‬اینطور فرض می کنیم که رابطه بین متغیر واکنش و پیش بینی کننده ها‬
‫خطی است‪ .‬اگر این فرض نقض شود‪ ،‬رگرسیون خطی سعی میکند که بر روی خطی مسقیم از داده هایی منطبق‬
‫شود که خطی نیستند‪ .‬بررسی فرض خطی بودن در رگرسیون ساده آسان است زیرا یک پیش بینی کننده داریم‪.‬‬
‫همه آنچه باید انجام دهیم آن است که نمودار پراکنش بین متغیر واکنش و پیش بینی کننده را رسم کنیم تا ببینیم‬
‫ک ه غیرخطی بودن وجود دارد یا خیر‪ ،‬مانند یک نوار منحنی شکل یا یک منحنی موجی شکل بزرگ‪ .‬برای مثال‪ ،‬از‬
‫فایل داده ای که در مورد تعدادی از کشورهای سرتاسر دنیا است استفاده می کنیم‪ .‬نگاهی می اندازیم به رابطه بین‬
‫‪ GNP‬و )‪ capita(gnpcap‬و نرخ تولد‪ . birth‬در زیر اگر نگاهی بیاندازیم به نمودار پراکنش بین ‪ gnpcap‬و‬
‫‪ birth‬می توانیم ببینیم که ر ابطخ بیم این دو متغیر تقریبا غیر خطی است‪ .‬با دوبار کلیک کردن بر روی این نمودار‬
‫یک خط رگرسیونی به آن اضافه کردیم )‪ (double click-chart-option-Fit Line Total‬و می توانید ببینید‬
‫که این خط چقدر ضعیف با داده ها هماهنگ شده‬
‫‪regression‬‬
‫است‪ .‬همچنین‪ ،‬اگر به نمودار باقیمانده های‬
‫‪/dependent birth‬‬
‫‪/method=enter gnpcap‬‬ ‫پیش بینی شده نگاه کنیم می بینیم که باقیمانده‬
‫)‪/scatterplot(*zresid *pred‬‬ ‫ها با توجه به رابطه غیر همخط بین ‪ gnpcap‬و‬
‫‪/scat(birth gnpcap) .‬‬ ‫‪ ،birth‬همسان نیستند‪.‬‬

‫)‪Variables Entered/Removed(b‬‬
‫‪Model‬‬ ‫‪Variables Entered‬‬ ‫‪Variables Removed‬‬ ‫‪Method‬‬
‫‪4‬‬ ‫)‪GNPCAP(a‬‬ ‫‪.‬‬ ‫‪Enter‬‬
‫‪a All requested variables entered.‬‬
‫‪b Dependent Variable: BIRTH‬‬

‫)‪Model Summary(b‬‬
‫‪Model‬‬ ‫‪R‬‬ ‫‪R Square‬‬ ‫‪Adjusted R Square‬‬ ‫‪Std. Error of the Estimate‬‬
‫‪4‬‬ ‫)‪.626(a‬‬ ‫‪.392‬‬ ‫‪.387‬‬ ‫‪11.679‬‬
‫‪a Predictors: (Constant), GNPCAP‬‬
‫‪b Dependent Variable: BIRTH‬‬

‫)‪ANOVA(b‬‬
‫‪Model‬‬ ‫‪Sum of Squares‬‬ ‫‪df‬‬ ‫‪Mean Square‬‬ ‫‪F‬‬ ‫‪Sig.‬‬
‫‪Regression‬‬ ‫‪7873.995‬‬ ‫‪1‬‬ ‫‪7873.995‬‬ ‫‪69.147‬‬ ‫)‪.111(a‬‬

‫‪4‬‬ ‫‪Residual‬‬ ‫‪12212.152‬‬ ‫‪117‬‬ ‫‪114.139‬‬

‫‪Total‬‬ ‫‪21176.147‬‬ ‫‪118‬‬

‫‪a Predictors: (Constant), GNPCAP‬‬


‫‪b Dependent Variable: BIRTH‬‬

‫‪39‬‬
Coefficients(a)

Unstandardized Coefficients Standardized Coefficients


t Sig.
Model B Std. Error Beta
(Constant) 38.924 1.261 31.856 .111
4
GNPCAP -1.921E-13 .111 -.626 -8.319 .111
a Dependent Variable: BIRTH

Residuals Statistics(a)

Minimum Maximum Mean Std. Deviation N

Predicted Value 1.91 38.71 32.79 8.539 119


Residual -23.18 28.11 .11 11.629 119
Std. Predicted Value -3.618 .694 .111 1.111 119
Std. Residual -2.171 2.632 .111 .995 119
a Dependent Variable: BIRTH

)‫ بگذارید‬default ‫ (پارامتر ها را بر روی‬:‫ما این نمودار را از طریق زیر اصالح نمودیم‬


𝒄𝒉𝒂𝒓𝒕 → 𝒐𝒑𝒕𝒊𝒐𝒏𝒔 → 𝑭𝒊𝒕 𝒐𝒑𝒕𝒊𝒐𝒏𝒔 → 𝑳𝒐𝒘𝒆𝒔𝒔

‫همانطور که می بینید از این طریق منحنی ای ایجاد می شود که به طور چشمگیری بهتر از رگرسیون خطی‬
.‫ خطی نیست‬birth ‫ و‬gnpcap ‫داده ها را در بر می گیرد و در ادامه بیان می کند که رابطه بین‬

41
‫ و مقادیر‬،‫ و بیشتر مقادیر آن نزدیک به صفر‬،‫ تقریبا چولگی پیدا کرده اند‬capgnp ‫می بینیم که مقادیر‬
‫ این امر این را نشان می دهد که برخی تغییرات بر روی متغیر‬.‫ به باال هستند‬11.111 ‫انگشت شماری از‬
‫ پس بیایید آن‬.‫ یکی از تغییرات متداولی که مورد استفاده قرار می گیرد لگاریتم می باشد‬.‫ضروری می باشد‬
‫ بسیار بهتر به نظر می رسد‬birth ‫ و‬capgnp ‫ نمودار پراکنش بین‬،‫ همانطور که می بینید‬.‫را امتحان کنیم‬
‫و خط رگرسیونی از وسط داده ها‬
compute lgnpcap = ln(gnpcap).
regression ‫ همچنین نمودار‬.‫عبور می کند‬
/dependent birth ‫باقیمانده های پیش بینی شده‬
/method=enter lgnpcap
/scatterplot(*zresid *pred) /scat(birth lgnpcap) .‫بسیار منطقی تر به نظر می رسد‬
/save resid(bres0).

Variables Entered/Removed(b)
Model Variables Entered Variables Removed Method
4 LGNPCAP(a) . Enter
a All requested variables entered.
b Dependent Variable: BIRTH

Model Summary(b)
Model R R Square Adjusted R Square Std. Error of the Estimate
4 .756(a) .571 .567 8.969
a Predictors: (Constant), LGNPCAP
b Dependent Variable: BIRTH

41
ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Regression 11469.248 1 11469.248 142.584 .111(a)
4 Residual 8616.899 117 81.438

Total 21176.147 118


a Predictors: (Constant), LGNPCAP
b Dependent Variable: BIRTH

Coefficients(a)

Unstandardized Coefficients Standardized Coefficients


t Sig.
Model B Std. Error Beta
(Constant) 84.277 4.397 19.168 .111
4
LGNPCAP -7.238 .616 -.756 -11.941 .111
a Dependent Variable: BIRTH

Residuals Statistics(a)

Minimum Maximum Mean Std. Deviation N

Predicted Value 12.86 51.25 32.79 11.315 119


Residual -24.75 24.98 .11 8.927 119
Std. Predicted Value -1.934 1.695 .111 1.111 119
Std. Residual -2.761 2.786 .111 .995 119
a Dependent Variable: BIRTH

42
‫این بخش به شما نشان داد که چگونه می توانید از نمودار های پراکنش برای تشخیص مشکالت غیر هم‬
‫خطی استفاده کنید‪ .‬هم با استفاده از نمودار پراکنش پیش بینی کننده ها و متغیر نتیجه‪ ،‬و هم با بررسی‬
‫باقیمانده های پیش بینی شده می توان به این بررسی پرداخت‪ .‬تمرکز این مثالها بر روی رگرسیون ساده‬
‫بود‪ ،‬اگرچه که در مورد رگرسیون چندگانه نیز از تکنیک های مشابه می توان استفاده نمود‪.‬‬
‫به هر حال در رگرسیون چندگانه بسیار مفید خواهد بود که به جای نمودارهای پراکنش ساده بین پیش‬
‫بینی کننده و متغیر به بررسی نمودارهای رگرسیونی بخشی(جزئی) بپردازید‪.‬‬

‫‪43‬‬
‫‪ 0.2‬خصوصیات مدل‬
‫خطای خصوصیات مدل زمانی بروز می کند که یک یا بیشتر از یک متغیر وابسته از مدل حذف شده باشند‬
‫یا اینکه یک یا بیشتر از یک متغیر غیروابسته در مدل وارد شده باشند‪ .‬اگر متغیر های وابسته از مدل حذف‬
‫شده باشند‪ ،‬واریانس متداولی که با متغیر های موجود در مدل به اشتراک می گذارند ممکن است به استباه‬
‫به این متغیرها نسبت داده شود‪ ،‬و خطای مربوط به آن بیشتر نمایان شود‪ .‬از طرف دیگر‪ ،‬اگر متغیر های‬
‫غیروابسته در مدل وارد شده باشند‪ ،‬واریانس متداولی که بین متغیرها به اشتراک گذاشته می شود ممکن‬
‫است به طور نادرستی به این متغیر ها نسبت داده شود‪ .‬خطای مربوط به خصوصیات مدل ممکن است به‬
‫طور چشمگیری ارزیابی رگرسیون ضرایب را تحت تاثیر قرار دهد‪.‬‬
‫مدل زیر را در نظر بگیرید‪ .‬این رگرسیون پیشنهاد می دهد که با افزایش اندازه کالس عملکرد تحصیلی نیز‬
‫افزایش می یابد‪ .(p=1.153) ،‬قبل از آنکه بگوییم‬
‫‪/dependent api22‬‬
‫بزرگی اندازه کالس با باالرفتن عملکرد تحصیلی در‬
‫‪/method=enter acs_k9 full‬‬
‫ارتباط است بیائید به بررسی خصوصیات این مدل‬
‫‪/save pred(apipred).‬‬
‫بپردازیم‪.‬‬

‫)‪Coefficients(a‬‬

‫‪Unstandardized Coefficients‬‬ ‫‪Standardized Coefficients‬‬


‫‪t‬‬ ‫‪Sig.‬‬
‫‪Model‬‬ ‫‪B‬‬ ‫‪Std. Error‬‬ ‫‪Beta‬‬
‫)‪(Constant‬‬ ‫‪32.213‬‬ ‫‪84.175‬‬ ‫‪.383‬‬ ‫‪.712‬‬

‫‪4‬‬ ‫‪ACS_K9‬‬ ‫‪8.356‬‬ ‫‪4.313‬‬ ‫‪.181‬‬ ‫‪1.942 .153‬‬

‫‪FULL‬‬ ‫‪5.391‬‬ ‫‪.396‬‬ ‫‪.564‬‬ ‫‪13.598 .111‬‬


‫‪a Dependent Variable: API11‬‬
‫‪ Spss‬ابزاری که به طور مستقیم خطاهای مربوط به خصوصیات مدل را نشان دهد‪ ،‬ندارد‪ .‬اگرچه می توانید‬
‫با استفاده از روش زیر به بررسی متغیرهای حذف شده بپردازید‪ .‬همانطور که در باال دیدید‪ ،‬وقتی که‬
‫رگرسیون را انجام دادیم مقدار پیش بینی شده را با عنوان ‪ apipred‬ذخیره کردیم‪ .‬اگر از مقدار پیش بینی‬
‫شده استفاده کردیم و این مقدار مانند پیش بینی کننده های متغیرمان به توان ‪ 2‬رسید!!!!‪ Apipred‬باید‬
‫معنی دار باشد زیرا یک مقدار پیش بینی شده است‪ ،‬ولی ‪ apipred‬به توان ‪ 2‬نباید یک پیش بینی کننده‬
‫معنی دار باشد‪ ،‬چون‪ ،‬اگر مدلمان را به درستی تعریف کرده باشیم‪ ،‬پیش بینی کننده هایی که به توان ‪2‬‬
‫رسیده اند نباید قدرت توضیحی زیادی‪ ،‬باال و ورای مقدار پیش بینی داشته باشند‪ .‬به همین دلیل اگر‬
‫مدلمان را به درستی تعریف کرده باشیم‪ ،‬انتظار نداریم که ‪ apipred‬به توان ‪ 2‬یک پیش بینی کننده‬
‫معنی دار باشد‪ .‬در زیر ‪ apipred2‬را به عنوان توان دوی ‪ apipred‬در نظر می گیریم و سپس هر دوی آنها‬

‫‪44‬‬
‫را به عنوان پیش بینی کننده در مدل رگرسیونی وارد می کنیم به این امید که ‪ apipred2‬معنی دار‬
‫نمی باشد‪.‬‬

‫‪compute apipred0 = apipred**0.‬‬


‫‪regression‬‬
‫‪/dependent api22‬‬
‫‪/method=enter apipred apipred0.‬‬

‫)‪Coefficients(a‬‬

‫‪Unstandardized Coefficients‬‬ ‫‪Standardized Coefficients‬‬


‫‪t‬‬ ‫‪Sig.‬‬
‫‪Model‬‬ ‫‪B‬‬ ‫‪Std. Error‬‬ ‫‪Beta‬‬
‫)‪(Constant‬‬ ‫‪858.873‬‬ ‫‪283.461‬‬ ‫‪3.131 .113‬‬

‫‪4 APIPRED‬‬ ‫‪-1.869‬‬ ‫‪.937‬‬ ‫‪-1.188‬‬ ‫‪-1.994 .147‬‬

‫‪APIPRED0‬‬ ‫‪2.344E-13‬‬ ‫‪.111‬‬ ‫‪1.674‬‬ ‫‪3.171 .112‬‬


‫‪a Dependent Variable: API11‬‬

‫نتیجه باال نشان می دهند که ‪ apipred2‬معنی دار می باشد‪ ،‬و اشاره می کند که ممکن است متغیر های‬
‫مهمی را از مدل حذف کرده باشیم‪ .‬به همین دلیل باید این را نیز در نظر بگیریم که آیا متغیر دیگری را به‬
‫مدل وارد کنیم بیا خیر؟ بایید این امر را با اضافه کردن‬
‫‪regression‬‬ ‫متغیر ‪ meals‬به مدل باال امتحان کنیم‪ .‬می بینیم که‬
‫‪/dependent api22‬‬ ‫‪ meals‬یک پیش بینی کننده معنی دار می باشد‪ ،‬و‬
‫‪/method=enter acs_k9 full‬‬ ‫مقدار پیش بینی شده را با عنوان ‪ preda‬ذخیره‬
‫‪meals‬‬ ‫می کنیم تا در تحلیل بعدی از آن استفاده کرده و‬
‫‪/save pred(preda).‬‬
‫ببینیم که آیا متغیر مهم دیگری را حذف کرده ایم یا‬
‫خیر؟‬
‫)‪Coefficients(a‬‬
‫‪Unstandardized Coefficients‬‬ ‫‪Standardized Coefficients‬‬
‫‪t‬‬ ‫‪Sig.‬‬
‫‪Model‬‬ ‫‪B‬‬ ‫‪Std. Error‬‬ ‫‪Beta‬‬
‫)‪(Constant‬‬ ‫‪771.658‬‬ ‫‪48.861‬‬ ‫‪15.793‬‬ ‫‪.111‬‬

‫‪4‬‬ ‫‪ACS_K9‬‬ ‫‪-.717‬‬ ‫‪2.239‬‬ ‫‪-.117‬‬ ‫‪-.321‬‬ ‫‪.749‬‬

‫‪FULL‬‬ ‫‪1.327‬‬ ‫‪.239‬‬ ‫‪.139‬‬ ‫‪5.556‬‬ ‫‪.111‬‬

‫‪45‬‬
‫‪MEALS‬‬ ‫‪-3.686‬‬ ‫‪.112‬‬ ‫‪-.828‬‬ ‫‪-32.978‬‬ ‫‪.111‬‬
‫‪a Dependent Variable: API11‬‬
‫حاال ‪ preda2‬که توان دوی ‪ preda‬می باشد را می سازیم و هر دوی آنها را در مدلمان به عنوان پیش بینی‬
‫کننده وارد می کنیم‪.‬‬

‫‪compute preda0 = preda**0.‬‬


‫‪regression‬‬
‫‪/dependent api22‬‬
‫‪/method=enter preda preda0.‬‬

‫)‪Coefficients(a‬‬

‫‪Unstandardized Coefficients‬‬ ‫‪Standardized Coefficients‬‬


‫‪t‬‬ ‫‪Sig.‬‬
‫‪Model‬‬ ‫‪B‬‬ ‫‪Std. Error‬‬ ‫‪Beta‬‬
‫)‪(Constant‬‬ ‫‪-136.511‬‬ ‫‪95.159‬‬ ‫‪-1.436 .152‬‬

‫‪4‬‬ ‫‪PREDA‬‬ ‫‪1.424‬‬ ‫‪.293‬‬ ‫‪1.293‬‬ ‫‪4.869 .111‬‬

‫‪PREDA0‬‬ ‫‪-3.172E-14‬‬ ‫‪.111‬‬ ‫‪-.386‬‬ ‫‪-1.455 .146‬‬


‫‪a Dependent Variable: API11‬‬

‫حاال می بینیم که ‪ preda2‬معنی دار نیست‪ .‬بنابراین این آزمون نشان نمی دهد که متغیر مهم دیگری که‬
‫حذف شده باشد وجود دارد‪ .‬توجه کنید که بعد از وارد کردن ‪ meals‬و ‪ ،full‬ضریب متغیر اندازه کالس‬
‫دیگر معنی دار نیست‪ .‬درحالیکه وقتی فقط متغیر ‪ full‬در مدل وارد شده است‪ scs-k3 ،‬رابطه مثبتی با‬
‫‪ api11‬دارد‪ ،‬ولی زمانیکه ‪ meals‬را وارد مدل می کنیم‪ acs-k3 ،‬به طور معنی داری رابطه ای با ‪api11‬‬
‫ندارد و رابطه اش با ‪ api11‬دیگر مثبت نیست‪.‬‬

‫‪46‬‬
‫‪ 0.2‬مسائل مربوط به همبستگی‬
‫این فرض این مسئله را بیان می کند که خطاهای مربوط به یک مشاهده با خطاهای هیچکدام از مشاهدات‬
‫دیگر در ارتباط نیست‪ .‬نقض این فرض در موقعیت های متفاوتی می تواند پدیدار شود‪ .‬جمع آوری اطالعات‬
‫از دانش آموزان ابتدایی ‪ 8‬مدرسه مختلف را در نظر بگیرید‪ .‬این احتمال وجود دارد که دانش آموزان یک‬
‫مدرسه بیشتر به هم شبیه باشند تا دانش آموزان مدارس مختلف‪ .‬به همین دلیل خطاهای مربوط به آنها‬
‫مستقل نیست‪ .‬راه دیگری که فرض استقالل می تواند نقض شود‪ ،‬آن است که داده ها با متغیر های همسان‬
‫در طول زمان جمع آوری شوند‪ .‬مثال اطالعات مربوط به گریز از مدرسه را در یک سال تحصیلی در مدت ‪12‬‬
‫سال جمع آوری کرده باشیم‪ .‬در این حالت این احتمال وجود دارد که خطاهای هر مشاهده بین ترم های‬
‫نزدیک به هم‪ ،‬بیشتر با هم ارتباط دارند تا مشاهداتی که از نظر زمانی از هم دورترند‪ (.‬که این امر با عنوان‬
‫خودهمبستگی شناخته می شود)‪ .‬وقتی که داده هایی داریم که بصورت سری زمانی هستند می توانیم از‬
‫آماره دوربین واتسون برای ارزیابی باقیمانده های همبسته استفاده کنیم‪.‬‬
‫در اینجا ما اطالعات سری زمانی نداریم پس از مجموعه داده ‪ elempi2‬استفاده می کنیم و فرض می کنیم‬
‫که ‪ snum‬نشان دهنده زمانی است که داده ها جمع آوری شده اند‪ .‬داده های خود را بر اساس ‪ snum‬که‬
‫متغیر زمانی فرضی ما می باشد دسته بندی می کنیم و سپس تحلیل رگرسیونی خود را با استفاده از گزینه‬
‫‪sort cases by snum .‬‬ ‫‪ durbin‬برای انجام آزمون ‪ Durbin-watson‬انجام‬
‫‪regression‬‬ ‫می دهیم‪ .‬بازه مقداری آماره دوربین واتسون بین ‪1‬تا‪4‬‬
‫‪/dependent api22‬‬ ‫است‪ ،‬که نقطه میانی آن ‪ 2‬می باشد‪ .‬مقدار مشاهده شده‬
‫‪/method=enter enroll‬‬ ‫در مثال ما کمتر از ‪ 2‬می باشد‪ ،‬که چون داده های ما‬
‫‪/residuals = durbin .‬‬ ‫واقعا سری زمانی نیستند زیاد تعجب برانگیز نیست‪.‬‬
‫‪Model Summary‬‬

‫‪Model‬‬ ‫‪R‬‬ ‫‪R Square‬‬ ‫‪Adjusted R Square‬‬ ‫‪Std. Error of the Estimate‬‬ ‫‪Durbin-Watson‬‬
‫‪4‬‬ ‫‪.942‬‬ ‫‪.424‬‬ ‫‪.233‬‬ ‫‪492.202‬‬ ‫‪4.924‬‬
‫‪a Predictors: (Constant), ENROLL‬‬

‫‪b Dependent Variable: API22‬‬

‫‪47‬‬
‫‪ 0.2‬خالصه‬
‫این فصل موضوعات مختلفی را در ارزیابی فرضیات رگرسیون و همچنین نتایج نقض این فرضیات با استفاده‬
‫از ‪ spss‬پوشش داده است‪ .‬همانطور که دیدیم‪ ،‬اجرای یک مدل رگرسیونی به صورت ساده کافی نیست‪ ،‬ولی‬
‫بسیار مهم است که فرضیات رگرسیون به خوبی اجرا شده باشند‪ .‬اگر ارزیابی فروض رگرسیون را انجام‬
‫ندهید و داده های شما با فروض مربوط به رگرسیون خطی مطابقت نداشته باشند‪ ،‬نتایج شما ممکن است‬
‫گمراه کننده شوند و تحلیل نتایجتان با حدس و گمان همراه خواهد بود‪ .‬بدون اینکه داده های خود را به‬
‫طور کامل از لحاظ مشکالت گفته شده ارزیابی کنید‪ ،‬ممکن است محقق دیگری داده های شما را ارزیابی‬
‫کرده و این مشکالت را آشکار سازد و نتایج شما را با استفاده از یک آنالیز پیشرفته تر زیر سوال ببرد‪ .‬که این‬
‫امر ممکن است نتایج شما را تکذیب کرده و تحلیل شما را تضعیف نماید‪.‬‬

‫‪48‬‬

You might also like