You are on page 1of 9

การวิเคราะห์ การถดถอย (regression analysis)(4)

การวิเคราะห์การถดถอยเป็ นวิธีการที่ใช้ศึกษาความสัมพันธ์ระหว่างตัวแปร 2 ประเภท ( IV และ DV)


โดยมีวตั ถุประสงค์เพื่อพยากรณ์ตวั แปรตามด้วยค่าความสัมพันธ์ ซึ่งเรี ยกว่า ค่าสัมประสิ ทธิ์การถดถอย
(regression coefficient) เช่นต้องการทราบรายได้ของประชากรในอนาคต ผูว้ จิ ยั ใช้ตวั แปร อาทิ อายุ ระดับ
การศึกษา เป็ นตัวพยากรณ์ แบ่งออกเป็ น 2 ชนิด คือ
1. การวิเคราะห์การถดถอยอย่างง่าย (simple regression analysis) เป็ นการวิเคราะห์ความสัมพันธ์ของ
ตัวแปร IV 1 ตัว เพื่อเป็ นตัวบ่งบอกอิทธิพลของตัวแปร DV ที่เกิดขึ้น
2. การวิเคราะห์การถดถอยพหุคูณ (multiple regression analysis) เป็ นการวิเคราะห์ความสัมพันธ์ของ
ตัวแปร IV ตั้งแต่ 2 ตัวขึ้นไป เพื่อใช้อธิบายผลของตัวแปร DV ที่เกิดขึ้น
การวิเคราะห์การถดถอยแบ่งได้เป็ น 2 ลักษณะ คือ
1. การวิเคราะห์การถดถอยแบบเส้นตรง จาแนกได้เป็ น 2 รู ปแบบ
1.1 การวิเคราะห์การถดถอยเส้นตรงแบบง่าย
1.2 การวิเคราะห์การถดถอยเส้นตรงแบบพหุคูณหรื อแบบเชิงซ้อน
2. การวิเคราะห์การถดถอยแบบเส้นโค้ง จาแนกได้เป็ น 2 รู ปแบบ
1.1 การวิเคราะห์การถดถอยเส้นโค้งแบบง่าย
1.2 การวิเคราะห์การถดถอยเส้นโค้งแบบพหุคูณหรื อแบบเชิงซ้อน

แผนภาพกระจาย (scatter diagram)


เมื่อเราต้องการศึกษาความสัมพันธ์ของข้อมูลและไม่แน่ใจว่าข้อมูลนั้นมีความสัมพันธ์แบบเชิงเส้ นหรือ
แบบเส้ นโค้ ง ก่อนทาการวิเคราะห์ต่อไปควรเขียนแผนภาพกระจาย หรื อใช้คาสัง่ จากคอมพิวเตอร์ตรวจสอบ
เบื้องต้นก่อนคร่ าวๆ ดังแผนภาพข้างล่าง
Y Y

X X

การวิเคราะห์ สหสัมพันธ์ คือ การศึกษาขนาดความสัมพันธ์ของตัวแปรตั้งแต่ 2 ชุดขึ้นไป โดยมุ่งเน้นศึกษาค่า


สัมประสิ ทธิ์สหสัมพันธ์แบบเชิงเส้นและแบบพหุคูณหรื อแบบเชิงซ้อน
การวิเคราะห์ การถดถอยเชิงเส้ นอย่ างง่ าย (simple linear regression analysis)
เงื่อนไข
1. ตัวอย่างที่นามาวิเคราะห์ตอ้ งได้จากการสุ่ม นัน่ คือ ความผิดพลาดหรื อความคลาดเคลื่อนต้องเป็ น
อิสระต่อกัน (no autocorrelation)
2. ค่าความคลาดเคลื่อนต้องมีการแจกแจงเป็ นปกติ โดยค่าเฉลี่ยมีค่าเท่ากับ 0 และค่าความแปรปรวน
ของค่าความคลาดเคลื่อนต้องคงที่ทุกค่าของ x (Homosedasticity)
3. ตัวแปรอิสระและตัวแปรตามมีความสัมพันธ์แบบเส้นตรง

การตรวจสอบเงือ่ นไข
1. ค่ าความคลาดเคลือ่ นต้ องเป็ นอิสระกัน (No autocorrelation) โดยที่ ei เป็ นค่าความคลาดเคลื่อน
และ e i  y i  ŷ i ทดสอบ ได้ 2 วิธีคือ
o เขียนกราฟแสดงความสัมพันธ์ระหว่าง ei กับ t
et

. . .
. . . . . .
. . . . .
0 . .
. .. . .
. . . .
.

t
o ทดสอบโดยใช้ค่าสถิติ Durbin – Watson (มีคา่ ตั้งแต่ 0 ถึง 4)
ถ้า ค่า Durbin – Watsonมีค่าใกล้ 2 (ช่วง 1.5 ถึง 2.5) สรุ ปว่าค่าความคลาดเคลื่อนเป็ นอิสระกัน
ถ้า ค่า Durbin – Watson < 1.5 แสดงว่า ค่าความคลาดเคลื่อนมีความในทิศทางบวก และยิง่ มี
ค่าเข้าใกล้ 0 ยิง่ มีความสัมพันธ์กนั มาก
ถ้า ค่า Durbin – Watson > 2.5 แสดงว่า ค่าความคลาดเคลื่อนมีความในทิศทางลบ และยิง่ มี
ค่าเข้าใกล้ 4 ยิง่ มีความสัมพันธ์กนั มาก
2. ค่ าความคลาดเคลือ่ นต้ องมีการแจกแจงเป็ นปกติ ตรวจสอบโดยนาค่าความคลาดเคลื่อนที่ได้เขียน
แผนภาพฮิสโตแกรม ถ้าได้กราฟรู ประฆังคว่าแสดงว่าข้อมูลมีการแจกแจงแบบปกติ โดยค่าความคลาดเคลื่อน
มาตรฐานของการแจกแจงแบบปกติมีค่าอยูร่ ะหว่าง -3 ถึง 3 แต่ถา้ ค่าความคลาดเคลื่อนมาตรฐานใดมีค่ามากกว่า
3 หรื อน้อยกว่า -3 เรี ยกว่าข้อมูลมีค่าผิดปกติ (outliners) ดังนั้นถ้ามีค่าผิดปกติมากแสดงว่าค่าความคลาดเคลื่อน
มาตรฐานไม่มีการแจกแจงแบบปกติ
3. ค่ าเฉลีย่ ของความคลาดเคลือ่ นมีค่าเท่ ากับ 0
4. ค่ าความแปรปรวนของค่ าความคลาดเคลือ่ นต้ องคงทีท่ ุกค่ าของ x (Homosedasticity)
5. ตัวแปรอิสระและตัวแปรตามมีความสัมพันธ์ แบบเส้ นตรง
H0 : 1 = 0 (ไม่มีความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม)
H1 : 1  0 (มีความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม)
โดยวิเคราะห์ค่านัยสาคัญจากค่า F

2
ในการวิเคราะห์การถดถอย มีขอ้ ที่น่าสังเกตว่าถ้าผลการวิเคราะห์ไม่ดีเท่าที่ควร เราจาเป็ นต้องทาการ
ตรวจสอบว่าข้อมูลที่นามาศึกษานั้นเป็ นไปตามเงื่อนไขหรื อไม่ ซึ่งการตรวจสอบเราจะใช้ค่าความคลาดเคลื่อน
e i  y i  ŷ i เป็ นหลัก ซึ่งเมื่อทดสอบแล้วพบว่าข้อมูลไม่เป็ นไปตามเงื่อนไขที่กล่าวแล้ว ก็จาเป็ นต้องแก้ไข
ข้อมูล

การปรับรู ปแบบข้ อมูลกรณีไม่ เป็ นไปตามเงือ่ นไข (data tranformation)


ใช้หลักการ ดังนี้
1. ในกรณี ค่าความแปรปรวนของค่าความคลาดเคลื่อนมีค่าเพิ่มขึ้น เมื่อค่า y มีค่าเพิ่มขึ้น แสดงว่าการ
แจกแจงของความคลาดเคลื่อนเป็ นแบบเบ้ขวา จึงปรับข้อมูลอยูใ่ นรู ปแบบ Y’ = log(y) ; y >0 เพื่อทาให้
ความสัมพันธ์ของข้อมูลอยูใ่ นรู ปแบบเชิงเส้น
2. ในกรณี ค่าความแปรปรวนของค่าความคลาดเคลื่อนมีค่าลดลง เมื่อค่า y มีค่าเพิ่มขึ้น แสดงว่าการ
1
แจกแจงของความคลาดเคลื่อนเป็ นแบบเบ้ซา้ ย จึงปรับข้อมูลอยูใ่ นรู ปแบบ y  y หรื อ y 
y

ตัวแบบสมการถดถอย
รู ปแบบ Y   0  1X   โดยที่  0 คือ ค่า y – intercept (ส่วนตัดแกน x) เป็ นค่าของ Y เมื่อ
ค่าของ Xเป็ น 0 และ 1 คือ ค่ าสัมประสิทธิ์การถดถอย เป็ นค่าความชัน แสดงค่าของตัวแปร DV ที่เปลี่ยนไป
เมื่อ ตัวแปร IV เปลี่ยนไป 1 หน่วย และ  คือ ค่าความคลาดเคลื่อนสุ่มที่เป็ นอิสระระหว่าง x กับ y และ
ประมาณค่ารู ปแบบสมการถดถอยอย่างง่ายด้วยสมการ ŷ  a  bx
เมื่อสร้างสมการถดถอยเพื่อใช้ในการพยากรณ์ นัน่ หมายความว่า IV ต้องสามารถพยากรณ์ DV ได้ดี
เราต้องสามารถตรวจสอบได้โดยวิธีที่นิยมที่สุด คือ ใช้ค่ากาลังสองของผลรวม (SST = total of sum of square) วัด
ความแปรปรวนของ y แต่ละตัวจากค่าเฉลี่ย ซึ่งความแปรปรวนของ y แบ่งได้เป็ น 2 ประเภท คือ
1. ความแปรปรวนที่อธิบายได้ (explained variation) หรื อเรี ยกว่าความแปรปรวนจากความถดถอย
(SSR = regression sum of square) เป็ นความแปรปรวนที่เกิดเนื่องจากตัวแปรอิสระ
2. ความแปรปรวนที่ไม่สามารถอธิบายได้ (unexplained variation) หรื อเรี ยกว่าความแปรปรวนเชิงสุ่ม
(SSE = error sum of square) เป็ นความแปรปรวนที่เกิดเนื่องจากปั จจัยอื่นๆที่เกิดขึ้นนอกเหนือจากตัวแปรอิสระ
นัน่ คือ ความแปรปรวนของ y = ความแปรปรวนที่อธิบายได้ + ความแปรปรวนที่ไม่สามารถอธิบายได้
total of sum of square = explained variation + unexplained variation หรือ SST = SSR + SSE

ตารางวิเคราะห์ ความแปรปรวนสาหรับการวิเคราะห์ การถดถอยเชิงเส้ นอย่ างง่ าย


แหล่งความผันแปร df SS MS F
regression 1 SSR MSR = SSR/1 F = MSR/ MSE
error n-2 SSE MSE = SSE/ n - 2
total n-1 SST

3
การหาค่ าสัมประสิทธิ์สหสัมพันธ์ แบบเชิงเส้ นแบบง่ าย (  ) เป็ นการหาค่าขนาดของสัมพันธ์ของตัวแปร 2 ตัว
โดยไม่กาหนดว่าตัวแปรใดเป็ นตัวแปรอิสระหรื อตัวแปรตาม ต้องการศึกษาเฉพาะ ขนาดและทิศทางของ
ความสัมพันธ์เท่านั้น โดยดูจากค่า r (ได้กล่าวแล้วในเรื่ องการหาค่าความสัมพันธ์)

การหาค่ าสัมประสิทธิ์การตัดสินใจ (coefficient of determination - r2)


การที่จะตรวจสอบตัวแบบหรื อสมการพยากรณ์วา่ สามารถพยากรณ์ได้ถูกต้องหรื อใกล้เคียงความเป็ น
จริ งมากที่สุดนั้น เราพิจารณาจาความผันแปรของ y ว่ามีผลมาจาก x มากน้อยเพียงใด หรื อ IV มีอิทธิพลต่อ DV
มากน้อยเพียงใด ดังนั้น ค่า r2 เป็ นค่าที่บ่งบอกว่าตัวแปรอิสระมีผลทาให้ตวั แปรตามเปลี่ยนแปลงไปมากน้อย
เพียงใด มีค่าตั้งแต่ 0 ถึง 1

การปรับค่ าประสิทธิ์การตัดสินใจ (adjusted coefficient of determination )


เมื่อข้อมูลที่นามาใช้ศึกษามีจานวนน้อย การคานวณค่า r2 จาเป็ นต้องมีการปรับด้วยขนาดของข้อมูล
เพื่อลดความผิดพลาดที่เกิดขึ้น ส่วนการแปลความหมายอธิบายได้เช่นเดียวกับ ค่า r2

ความหมายของสัมประสิทธิ์การถดถอยมาตรฐาน (standardized regression coefficient หรือ beta coefficient)


สัมประสิ ทธิ์การถดถอยมาตรฐาน ใช้สาหรับการคัดเลือกหรื อเปรี ยบเทียบตัวแปรอิสระในกรณี ที่มีตวั
แปรอิสระหลายตัวอยูใ่ นสมการ เพื่อให้ทราบว่าตัวแปรอิสระตัวใดมีผลต่อการเปลี่ยนแปลงตัวแปรตามมากกว่า
กัน ตัวแปรอิสระที่ถูกคัดเลือกเข้าไปในสมการถดถอยมีหน่วยในการวัดต่างกัน ผูว้ จิ ยั จึงจาเป็ นต้องปรับหน่วย
ของตัวแปรอิสระทุกตัวให้เหมือนกัน คือทาหน่วยให้เป็ น หน่วยมาตรฐาน (standard unit) จึงเรี ยกว่า
สัมประสิ ทธิ์การถดถอยมาตรฐาน
ตัวอย่างเช่น y = a + b1 x1 + b2 x2 เมื่อ y เป็ นรายจ่าย x1 เป็ นรายได้ และ x2 เป็ นขนาดของครอบครัว

ความคลาดเคลือ่ นมาตรฐานของการประมาณ (standard error of estimate)


สมการถดถอยที่ประมาณจากตัวอย่าง ŷ  a  bx หรื อเรี ยกว่าสมการพยากรณ์ ซึ่งการพยากรณ์จะ
ถูกต้องมากน้อยเพียงใดขึ้นอยูก่ บั ค่าความแปรปรวนของ y ที่แตกต่างไปจากค่า ŷ ที่คานวณได้ ดังรู ป

คาสั่งการวิเคราะห์ วเิ คราะห์ การถดถอยเชิงเส้ นอย่ างง่ าย


Analyze  Regression  Linear

4
โจทย์ 1. ต้องการพยากรณ์น้ าหนักสัมภาระของผูโ้ ดยสารที่นาติดตัวไป โดยใช้จานวนวันที่ผโู ้ ดยสารเป็ นตัว
พยากรณ์
จานวนวันที่ผโู ้ ดยสาร 14 12 8 7 17 10 5 7 15 11 13 19 3 17 15
น้ าหนักสัมภาระ 46 40 29 27 49 42 27 35 53 35 42 58 20 58 52
น้ าหนักสัมภาระ จานวนวันเฉลี่ย
เฉลี่ย เท่ากับ 40.87 เท่ากับ 11.53 หมายถึง น้ าหนักสัมภาระเฉลี่ย
อยูใ่ นช่วง 40.87  11.90
D es c r ipt iv e St a t is t i c s

Mean St d. Deviation N
weight 40.8667 11.90358 15

day 11.5333 4.77892 15


จานวนวันกับน้ าหนักสัมภาระมี
หมายถึง จานวนวันเฉลี่ย ความสัมพันธ์ = 0.957 แสดงว่า มี
อยูใ่ นช่วง 11.53  4.78 C or r elat ion s ความสัมพันธ์กนั สูงในทิศทางเดียวกัน

weight day
Pearson Correlation weight 1.000 .957 H0 :  = 0
day .957 1.000 H1 :  ≠ 0
Sig. (1-tailed) weight . .000 ค่า sig = 0.00 น้อยกว่าค่า (0.05)
day .000 . ดังนั้นจึง ปฏิเสธ H0 แสดงว่า จานวนวัน
N weight 15 15
กับน้ าหนักสัมภาระมีความสัมพันธ์กนั
day 15 15
ที่ระดับนัยสาคัญ 0.05

จานวนวันกับน้ าหนักสัมภาระมี ค่าความคลาดเคลื่อนมาตรฐาน (Sy.x) โดยประมาณเท่ากับ


ความสัมพันธ์ = 0.957 แสดงว่า มี 3.59 หมายถึง ค่า y  ŷ เป็ นค่าประมาณน้ าหนักสัมภาระ
ความสัมพันธ์กนั สูงในทิศทางเดียวกัน ที่เก็บข้อมูลเบี่ยงเบนจากตัวแบบ
M ode l Sum ma ryb

Adjusted St d. Error of Durbin-W


Model R R Square R Square the Estimate atson
1 a
.957 .916 .909 3.58833 1.342

a.
Predictors: (Constant), day
b. ค่าสัมประสิ ทธิ์การตัดสิ นใจที่ถูกปรับค่า ค่า Durbin-Watson มีค่า 1.342
Dependent Variable: weight
แล้วเท่ากับ 0.909 หมายถึง จานวนวัน ใกล้เคียง 1.5 แสดงว่า ค่า
สามารถอธิบายน้ าหนักสัมภาระได้ 90.9% ความคลาดเคลื่อนเป็ นอิสระต่อกัน
ที่เหลืออีก 9.1% เกิดจากสาเหตุอื่นๆ
5
H0 :  1 = 0
ความแปรปรวนที่อธิบายได้ H1 :  1  0
หมายถึง ความแปรปรวนที่เกิดขึ้นจาก ค่า sig < 0.05 แสดงว่า จานวนวันกับ
ตัวแปรอิสระ มีค่าเท่ากับ 1816.344 น้ าหนัก มีความสัมพันธ์กนั เป็ นเส้นตรง
AN OVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 1816.344 1 1816.344 141.063 .000a

Residual 167.390 13 12.876

Total 1983.733 14

a.
Predictors: (Constant), day
ความแปรปรวนที่ไม่สามารถอธิบายได้
b.
Dependent Variable: weight หมายถึง ความแปรปรวนที่เกิดขึ้นจาก
ปั จจัยอื่นๆ มีค่าเท่ากับ 167.390

H0 :  1 = 0
ค่า a มีค่าเท่ากับ 13.378 หมายถึง เมื่อตัวแปร H1 :  1  0
x มีค่าเป็ น 0 ตัวแปร y จะมีค่าเป็ น 13.378 ค่า sig < 0.05 แสดงว่า จานวนวันกับ
น้ าหนัก มีความสัมพันธ์กนั เป็ นเส้นตรง
C oe f f ic i ent sa

Unstandardized St andardized
Coefficient s Coefficient s

Model B St d. Error Beta t Sig.


1 (Constant) 13.378 2.493 5.366 .000

day 2.383 .201 .957 11.877 .000

a.
Dependent Variable: weight

ค่าสัมประสิ ทธิ์การถดถอย b มีค่าเท่ากับ 2.383


หมายถึง ถ้า x มีค่าเพิ่มขึ้น 1 หน่วย ค่า y จะ
เพิ่มขึ้น 2.383 หน่วย

สมการพยากรณ์ คือ ŷ  a  bx

6
2. จากข้อมูลความสูง (height) และน้ าหนัก (weight) ของชายไทยที่สุ่มมาจากจังหวัดหนึ่งจานวน 10 คน
ได้ขอ้ มูล ดังนี้
ความสูง (ซม.) 150 162 185 175 175 165 170 180 160 178
น้ าหนัก (กก.) 50 68 91 84 77 73 82 89 61 98
2.1 จงสร้างแผนภาพการกระจายพร้อมอธิบาย
2.2 จงหาค่าสัมประสิ ทธิ์สหสัมพันธ์ของข้อมูลชุดนี้ และทดสอบว่าความสูง และน้ าหนักมี
ความสัมพันธ์กนั หรื อไม่
2.3 จากข้อมูลจงสร้างสมการถดถอยเพื่อพยากรณ์น้ าหนัก หาค่าวัดความเหมาะสมของรู ปแบบ
และทดสอบว่ารู ปแบบที่สร้างขึ้นมาเหมาะสม
2.4 จงประมาณน้ าหนักของชายไทยที่มีความสูง 80 กิโลกรัม

7
Graph

100

90

80

70

60

50
VAR00004

40
140 150 160 170 180 190

VAR00003

Correlati ons

VAR00003 VAR00004
VAR00003 Pearson Correlation 1 .939**
Sig. (2-tailed) . .000
N 10 10
VAR00004 Pearson Correlation .939** 1
Sig. (2-tailed) .000 .
N 10 10
**. Correlation is signif icant at the 0.01 lev el (2-tailed).

Regression

Variabl es Entered/ Removed2

Variables Variables
Entered Remov ed Method
Model 1 VAR000011 . Enter
1. All requested v ariables ent ered.
2. Dependent Variable: VAR00002

Model Summary2

Adjusted Std. Error of


R R Square R Square the Est imat e Durbin-Watson
1
Model 1 .957 .916 .909 3.58833 1.342
1. Predictors: (Const ant ), VAR00001
2. Dependent Variable: VAR00002

8
ANOVA2

Sum of
Squares df Mean Square F Sig.
Model 1 Regression 1816.344 1 1816.344 141.063 .0001
Residual 167.390 13 12.876
Total 1983.733 14
1. Predictors: (Const ant), VAR00001
2. Dependent Variable: VAR00002

Coeffi ci ents1

Unstandardized St andardized
Coef f icients Coef f icients
B St d. Error Beta t Sig.
Model 1 (Constant) 13.378 2.493 5.366 .000
VAR00001 2.383 .201 .957 11.877 .000
1. Dependent Variable: VAR00002

Residual s Stati stics1

Minimum Maximum Mean St d. Dev iation N


Predicted Value 20.5279 58.6631 40.8667 11.39030 15
Residual -4.8962 4.9383 .0000 3.45780 15
St d. Predicted Value -1.786 1.562 .000 1.000 15
St d. Residual -1.364 1.376 .000 .964 15
1. Dependent Variable: VAR00002

You might also like