Bai 12. Hoi Quy Tuyen Tinh-Don Bien

Mục tiêu học tập
Trong phần này, sinh viên được học:

 Mô hình hồi quy tuyến tính
 Ý nghĩa của các hệ số b0 và b1
 Đánh giá các giả thuyết của mô hình hồi quy
 Suy luận về hệ số góc và hệ số tương quan
 Ước lượng trung bình và dự đoán trị số của cá htể
Tương quan và Hồi quy
◼ Tạo phân tán đồ để nhận định về quan hệ giữa

hai biến.
 Phân tích tương quan để nhận định về mức
độ liên quan giữa hai biến
 Mức tương quan = độ mạnh của quan hệ giữa hai
biến
 Tương quan không nói lên quan hệ nhân quả
Giới thiệu về hồi quy
 Mô hình hồi quy được dùng để:

 Dự đoán trị số của biến phụ thuộc dựa vào trị số của ít nhất
1 biến độc lập
 Giải thích tác động của một biến độc lập đến biến
phụ thuộc
 Biến phụ thuộc: biến được giải thích/dự đoán
 Biến độc lập: biến được dùng để giải thích/dự đoán
Mô hình hồi quy tuyến tính đơn
 Chỉ có một biến độc lập X

 Quan hệ giữa biến độc lập X và biến phụ
thuộc Y = hàm tuyến tính
 Giả sử: Thay đổi trị số Y liên quan đến
thay đổi trị số X
Các loại quan hệ
Quan hệ tuyến tính Quan hệ phi tuyến tính
Y Y
X X
Y Y
X X
Quan hệ TT mạnh Quan hệ TT yếu
Y Y
X Hình C X
Hình A
Y Y
Hình B X X
Hình D
Không quan hệ
X
Mô hình hồi quy tuyến tính
đơn
Sai số
ngẫu
Hệ số chặn Hệ số góc Biến độc lập
nhiên
Biến phụ
thuộc
Yi  β 0  β 1 X i  ε
i Thành phần
ngẫu nhiên
Thành phần
hàm tuyến tính
Mô hình tuyến tính đơn
Y Yi  β 0  β 1 X i  ε i
Trị số Y ứng với
trị số Xi
εi Hệ số góc β1
Trị số dự đoán Sai số ngẫu
Y ứng với Xi
nhiên ứng với X i
Hệ số chặn
β0
Xi X
Phương trình hồi quy
Phương trình hồi quy thực nghiệm cho biết ước
lượng của phương trình hồi quy tổng thể
Ước lượng Ước lượng Ước lượng

(dự đoán) trị hệ số hệ số góc
số Y ứng chặn Trị số X trong
với Xi quan sát thứ
i
Yˆ  b  b 1X
i 0
i
Hệ số góc và hệ số chặn
 b0 là trị số ước lượng trung bình của Y

khi X = 0
 b1 là trị số ước lượng mức tăng của

trung bình của Y khi X tăng lên 1
Hồi quy tuyến tính đơn: Ví dụ
Biến phụ thuộc Biến độc lập
(Y) (X)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Hồi quy tuyến tính đơn: Excel Output
Regression Statistics
Multiple R 0.76211 Phương trình hồi y:
qu
R Square 0.58082
Adjusted R Square 0.52842 Y = 98.24833 + 0.1 0977 𝑋
Standard Error 41.33032
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Hồi quy tuyến tính đơn: Ví dụ
Mô hình: Đồ thị phân tán và đường dự báo

450
400
House Price ($1000s)
350 Hệ số góc
300
250
= 0.10977
200
150
100
50
Hệ số 0
chặn 0 500 1000 1500 2000 2500 3000
= Square Feet
98.24
8 Y = 98.24833 + 0.10977 𝑋)
Tiếp theo: Ý nghĩa của bo
Y =
98.24833 + 0.10977 X
 Ý nghĩa của b0 : ước lượng của trung bình Y khi

X là 0, giả sử X = 0 nằm trong phạm vi quan sát
được của biến X
 Chú ý: Nếu X không thể có trị số 0, b0 không có
ý nghiã thực tế
Tiếp theo: Ý nghĩa của b1
house price  98.24833  0.10977 (square feet)
◼ Ý nghĩa của b1 : ước lượng mức

tăng trung bình của Y khi X tăng lên 1
đơn vị
◼ Vậy b1 = 0.10977 cho biết mức tăng trung bình
của
Y là 109.77, đối với mỗi đơn vị thêm vào X
Hồi quy tuyến tính đơn: Dự đoán
Dự đoán mức giá trị của Y:
Y = 98.24833 +
0.10977 X
= 98.24833 + 0.10977(2000)
= 317.78
Mức giá trị dự đoán của Y khi X = 2000

là 317,780
Hồi quy tuyến tính đơn: Dự đoán
◼ Khi dùng mô hình hồi quy để dự đoán,
chỉ có kết quả trong một phạm vi hợp lý nào
đó
Phạm vi dự đoán f
450
400
House Price ($1000s)
350
300
250
200
150
100
50 Không suy đoán
0
bên ngoài khoảng
0 500 1000 1500 2000 2500 3000
trị số quan sát
Square Feet
được của X
Sự biến động số liệu
◼ Phương sai được phân tích như sau:
SST  SSR 
SSE
Total Sum of Regression Sum Error Sum of
Squares of Squares Squares
2 2 2
SST  (Y i
Y) SSR   ( Yˆ  Y )
i SSE  (Y i
 Yˆi )
Trong đó:
Y = Trung bình trị số của biến phụ

thuộc
ˆi i = Trị số quan
YY được sát
dự được
đoán của Y tùyphụ
biến thuộc vào
thuộc Xi
Phương sai
 SST = total sum of squares (Total

Variation)
 Số đo sự biến động của các Yi quanh trung
bình Y
 SSR = regression sum of squares
(Explained Variation)
 Sự biến động do quan hệ giữa X và Y
 SSE = error sum of squares (Unexplained
Variation)
 Biến động của Y do ảnh hưởng của các yếu tố khác
ngoài X
Phương sai
Y
Yi  
SSE = (Yi - Yi )2 Y
_
SST = (Yi - Y)2

Y  _
_ SSR = (Yi - Y)2 _
Y
Y
Xi X
Hệ số xác định r2
 Hệ số xác định là phần biến động giá trị của
biến phụ thuộc được giải thích bằng biến động
giá trị của biến độc lập
 Trị số của r2
𝑆𝑆𝑅 regression sum of squares

𝑟2 = =
𝑆𝑆𝑇 total sum of squares
CHÚ Ý:
0  r2  1
Một số giá trị của r2
Y
r2 = 1
Quan hệ hàm số tuyến tính:

X
r2 = 1 100% biến động giá trị của Y
Y được giải thích bằng biến
động giá trị của X
X
r =1
2
Đ4T
Y
0 < r2 < 1
Mối quan hệ tuyến tính yếu

hơn giữa X và Y:
X
Một phần nào nhưng
Y
không phải tất cả biến
động giá trị của Y được
giải thích qua biến
động giá trị của X
X
Đ4T
r2 = 0
Y
Không có quan hệ tuyến
tính giữa X và Y:
Giá trị của Y không phụ

X thuộc vào X.
r2 = 0
Mọi biến động giá trị của Y

không được giải thích
qua biến động giá trị của
X
Ví dụ: Hệ số xác định r2
Đ-4T
Regression Statistics 2 SSR 18934.9348

r    0.58082
Multiple R 0.76211 SST 32600.500 0
R Square 0.58082
Adjusted R Square 0.52842 58.08 % biến động giá trị của Y
Standard Error 41.33032 đư ợc giải thích bằng biến
Observations 10 động giá trị của X
ANOVA
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients S tandard Error t Stat P-value Lower 95% Upper 95%

Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Sai số chuẩn của ước lượng
Đ-4T
◼ Độ lệch chuẩn của biến động giá trị xung
quanh đường hồi quy thực nghiệm
 (Y i  Yˆ ) 2
i
SSE i 1
 
S YX
n  2 n  2
Với
SSE = error sum of
squares n = cỡ mẫu
Ví dụ:
DCOV
S YX A
Multiple R 0.76211  41.330 32
R Square 0.58082
Adjusted R Square 0.52842

Observations 10
ANOVA
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957

Total 9 32600.5000
Co efficient Standard Error t Stat P-value Lower 95% Upper 95%

s
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Đ-4T
SYX là số đo sự biến động của giá trị Y xung
quanh đường thẳng hồi quy
Y Y
S𝑌𝑋 𝑛ℎỏ X S𝑌𝑋 𝑙ớ𝑛 X
Độ lớn của SYX là tương đối, tùy theo độ lớn của giá trị Y trong
số liệu thu được.
Ví dụ SYX = 41,33 là tương đối nhỏ so với Y trong khoảng từ 200
đến 400
Giả định của hồi quy tuyến tính
L.I.N.E
Đ-4T
 Linearity
 Quan hệ giữa X và Y tuyến tính
 Independence of Errors
 Các sai số về mặt thống kê là độc lập
 Normality of Error
 Các sai số có phân phối chuẩn đối với mỗi giá trị của
X
 Equal Variance (homoscedasticity)
 Phân phối xác suất của sai số có phương sai cố
định
Dư số
e i  Y i  Yˆ
 Dư số thứ i, ei, là hiệu của trị số qaun sát và trị số dự
i
đoán
 Phân tích dư số để kiểm tra điều kiện giả thuyết được
dùng cho mô hình hồi quy
 Giả thuyết tuyến tính
 Giả thuyết độc lập
 Giả thuyết phân phối chuẩn
 Giả thuyết phương sai đồng nhất
 Đồ thị dư số
 Trị số của dư số so với trị số của X
Phân tích dư số : Kiểm
tra quan hệ tuyến
tính
Y Y
Dư số
Dư số
x x
Dư số
Dư số
x x
Không tuyến tính

 Tuyến tính
Phân tích dư số : Kiểm tra
tính độc lập
Không độc lập

 Có tính độc lập
Dư số
Dư số
X
Dư số
X
Phân tích dư số: Kiểm
tra tính chuẩn
 Stem-and-Leaf Display
 Boxplot
 Histogram
 Normal Probability Plot
Phân tích dư số: phân
phối chuẩn
Dùng normal probability plot, nếu sai số có phân
phối chuẩn sẽ cho thấy các điểm xấp xỉ một
đường thẳng
100
Phần trăm
0
-3
-2
Phân tích dư số : phương sai
đồng nhất
Y Y
x x
residuals
x residuals x
Không đồng nhất  Đồng nhất

Kiểm định giả thuyết
về hệ số góc
Đ-4T
◼ Sai số chuẩn của hệ số góc (b1) là:
S YX
S YX
Sb  
1
SSX
  X)
i
(X
2
Với:
S b = ước lượng sai số chuẩn của hệ số
1
góc
SSE
S YX  = Sai số chuẩn của ước lượng hồi
n2 quy
t Test cho hệ số góc
Đ-4T
 Câu hỏi:
 Tồn tại một quan hệ tuyến tính giữa X và Y?
 Giả thuyết:
 H0: β1 = 0 (không có QHTT)
 H1: β1 ≠ 0 (tồn tại QHTT)
◼ Thống kê kiểm định Với:
b1 β1 b1 = hệ số góc thực nghiệm

t STAT β1 = hệ số góc lý thuyết
S b1 Sb1 = sai số chuẩn của hệ
góc
số
d.f.  n  2
Ví dụ: t Test cho hệ số góc
H0: β1 = 0 Đ-4T
From Excel output: H1: β1 ≠

Coefficients 0
Standard Error t Stat P-value
Intercept 98.24833 58.03348 1.69296 0.12892
Square Feet 0.10977 0.03297 3.32938 0.01039
From Minitab output: b1 Sb

1
Predictor Coef SE Coef T P

98.25 58.03 1.69 0.129
Square Feet 0.10977 0.03297
Constant 3.33
0.010
b β 0 .10977  0
1
t    3 .32938
b1 Sb
1
STAT 1S
b
1
0 .03297
Đ-4T
H0: β1 = 0
Thống kê: tSTA = 3.329
H1: β1 ≠ 0
T
d.f. = 10- 2 = 8
/2=.025 /2=.025
Quyết định: Bác bỏ H0
Kết luận: Có đủ bằng chứng

Bác bỏ H0 Không bác bỏ H0
-tα/2 tα/2
Bác bỏ H0 X và Y có quan hệ tuyến
0
-2.3060 2.3060 3.329 tính
H0: β1 = 0 Đ-4T
From Excel output: H1: β1 ≠
Coefficients Standard Error t Stat P-value
Intercept 98.24833
0 58.03348 1.69296 0.12892
Square Feet 0.10977 0.03297 3.32938 0.01039
From Minitab output:

Predictor Coef SE Coef T P p-value
98.25 58.03 1.69 0.129
Square Feet 0.10977 0.03297
Constant 3.33 0.010
Quyết định: Bác bỏ H0, vì p-value < α
Có đủ bằng chứng cho sự tồn tại mối

quan hệ tuyến tính.
F Test cho hệ số góc
Đ-4T
MSR
◼ Thống F STAT 
kê F: MSE
với SSR
MSR 
k
SSE
MSE 
nk1
FSTAT có phân phối F với độ tự do: k cho tử số, (n – k - 1) cho mẫu

số
(k = số biến độc lập)

Ví dụ: F-Test cho hệ số góc
Đ-4T
Multiple R 0.76211 MSR 18 934.9348
R Square 0.58082 F STAT    11.0848
Adjusted R Square 0.52842 MSE 08.1957
17
Observations 10 Df = 1 và 8
p-value
ANOVA
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957

Total 9 32600.5000
F Test cho hệ số góc
(tiếp theo)
Đ-4T
H0: β1 = 0 Thống kê kiểm định:
H1: β1 ≠ 0 MSR
  11.08
 = .05 F STAT
MSE
df1= 1 df2 = 8
Quyết định:
Critical Bác bỏ H0 ,  = 0.05
Value:
F =
5.32 Kết luận:
= Có đủ bằng chứng về mối quan
0 .05 F hệ tuyến tính
Không bác bỏ Bác bỏ H0
H0
F.05 = 5.32
Ước lượng khoảng của
hệ số góc
Đ-4T
Khoảng tin cậy của hệ số góc:
d.f. = n - 2
b 1  tα /2S b1
Excel Printout for House Prices:

Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Với độ tin cậy 95%, hệ số góc nằm trong khoảng giá trị
(0,0337, 0,1858)
Ước lượng khoảng
của hệ số góc (tiếp theo)
Đ-4T
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Variable X 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Khoảng tin cậy 95% của hệ số góc từ 0,03374

đến 0,18580.
Khoảng tin cậy 95% này không chứa giá trị 0.

Kết luận: Mối quan hệ giữa X và Y có ý nghĩa, xét ở mức
ý nghĩa 5%.
t Test cho hệ số tương quan
Đ-4T
◼ Giả thuyết
H0: ρ = 0 (không tương quan giữa X và Y)
H1: ρ ≠ 0 (có tương quan)
◼ Thống kê kiểm định

r -ρ
 (với n – 2 độ tự do)
t STAT
1  r2
where
r  if b 1  0
n 
2
r
2 r  2 if b 1  0
r
t-test cho hệ số tương quan
(tiếp theo)
Đ-4T
Có bằng chứng của một tương quan tuyến
tính giữa mặt bằng và giá với mức ý nghĩa
5% hay không?
H 0: ρ = 0(Không tương quan)

H1: ρ ≠ 0 (Có tương quan)
 =.05 , df = 10 - 2 = 8
r ρ .762  0
 
t STAT
2
 3.329 1  r 21  .762
n  2 10 
2
t-test cho hệ số tương quan
(tiếp theo)
Đ-4T
r  ρ .762  0 Quyết định:

t STAT    3.329
2 2 Bác bỏ H0
1 r 1  .762
n  2 10  2 Kết luận:
Có bằng chứng
d.f. = 10-2 = 8
tồn tại một tương
quan tuyến tính
/2=.025 /2=.025
với mức ý nghĩa
5%.
Bác bỏ H0 Không bác bỏ H0 Bác bỏ H0
-tα/2 tα/2
0
-2.3060 2.3060
3.329
Ước lượng trị số của trung
bình và trị số của cá thể
Mục đích: Lập khoảng trị số xung quanh Y để nói
lên sự biến động trị số Y, với trị số cho trước Xi
Khoảng tin
cậy của Y 
trung bình Y, Y
biết Xi

Y = b0+b1Xi
Dự đoán trị số cá
thể Y, biết Xi
Xi X
Ước lượng khoảng cho trong
bình của Y, cho biết X
Ước lượng khoảng cho
Trị số trung bình của Y cho trước trị số Xi
hi
Yˆ  t / 2 S YX
Độ rộng khoảng tin cậy biến

động tùy theo khoảng cách đến
trung bình X
1 (X i  X ) 2 1 (X i
X)2
hi    
n SSX n
 X)2
i
(X
Ước lượng khoảng cho một cá
thể Y, cho biết X
Ước lượng khoảng cho một
Trị số của cá thể Y cho trước trị số Xi
1  hi
Y ˆ  t / 2 YX
Phần này xuất hiện do sự bất định của cá

thể nhiều hơn là của trung bình
Ước lượng trung bình: Ví dụ
Ước lượng khoảng cho trị số của μY|X=Xi
Tìm khoảng tin cậy 95% cho trung bình của những
cá thể có X = 2.000

Dự đoán trung bình là: Yi = 317,78 (đơn vị 1000)
1  (X
i X)2
Yˆ  t0.025 YX
 317.78  37.12
n
S  X)2
i
(X
Các trị số đầu khoảng là 280,66 và 354,90, nghĩa là trung

bình nằm trong khoảng từ 280.660 đến 354.900
Ước lượng trị số : Ví dụ
Ước lượng khoảng dự đoán của YX=i X
Dự đoán với độ tin cậy 95% về giá trị Y khi X = 2000

Trị trung bình được dự đoán là : Yi = 317.85 (đơn vị 1000)
1  (X
i X)2
Yˆ  t0.025 YX
1  317.78  102.28
n
S  X)2
i
(X
Hai trị số đầu khoảng là 215,50 và 420,07, nghĩa là giá trị

trong khoảng từ 215.500 đến 420.070
Ví dụ: Dự đoán giá trị và trung bình
Trị số X

Y
Khoảng tin cậy của trung bình μY|X=Xi
Khoảng trị số dự đoán của trị số YX=Xi

Sai lầm thường mắc phải
 Bỏ qua các giả thuyết của mô hình
 Bỏ qua đánh giá mô hình
 Không dùng mô hình thay thế khi giả thuyết bị vi
phạm
 Bỏ qua kiến thức chuyên ngành có liên quan
 Suy đoán bên ngoài phạm vi số liệu phù hợp
Cách tránh sai lầm
 Dùng scatter plot để quan sát nhận định mối
quan hệ của X và Y
 Dùng phân tích dư số để kiểm tra thỏa mãn
giả thuyết
 Dùng đồ thị dư số theo X để kiểm tra sự vi phạm
điều kiện phương sai đồng nhất
 Dùng biểu đồ histogram, stem-and-leaf, boxplot,
hoặc normal probability plot của dư số để phát
hiện sự vi phạm tính chuẩn
Cách tránh sai lầm
 Nếu phát hiện sự vi phạm giả thuyết, dùng mô
hình khác hay phương pháp khai thác số liệu
khác
 Nếu không có bằng chứng thuyết phục cho sự
vi phạm giả thuyết, tiếp tục kiểm định các hệ số
hồi quy và lập khoảng tin cậy và khoảng dự
đoán trị số
 Không dự đoán bên ngoài phạm vi số liệu có
liên quan đến quan sát
Tổng kết
 Giới thiệu mô hình hồi quy

 Các giả thuyết của hồi quy và tương quan
 Phương trình hồi quy đơn
 Phương sai
 Phân tích dư số
Tổng kết
 Suy luận về hệ số góc

 Tương quan
 Ước lượng trung bình và dự đoán trị số
 Một số sai lầm dễ mắc và cách tránh

Bai 12. Hoi Quy Tuyen Tinh-Don Bien

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bai 12. Hoi Quy Tuyen Tinh-Don Bien

Uploaded by

Copyright:

Available Formats

Mục tiêu học tập

Trong phần này, sinh viên được học:

◼ Tạo phân tán đồ để nhận định về quan hệ giữa

 Mô hình hồi quy được dùng để:

 Chỉ có một biến độc lập X

Quan hệ tuyến tính Quan hệ phi tuyến tính

Ước lượng Ước lượng Ước lượng

 b0 là trị số ước lượng trung bình của Y

 b1 là trị số ước lượng mức tăng của

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Mô hình: Đồ thị phân tán và đường dự báo

 Ý nghĩa của b0 : ước lượng của trung bình Y khi

house price  98.24833  0.10977 (square feet)

◼ Ý nghĩa của b1 : ước lượng mức

Mức giá trị dự đoán của Y khi X = 2000

◼ Phương sai được phân tích như sau:

Y = Trung bình trị số của biến phụ

 SST = total sum of squares (Total

𝑆𝑆𝑅 regression sum of squares

Quan hệ hàm số tuyến tính:

Mối quan hệ tuyến tính yếu

Giá trị của Y không phụ

Mọi biến động giá trị của Y

Regression Statistics 2 SSR 18934.9348

Coefficients S tandard Error t Stat P-value Lower 95% Upper 95%

Standard Error 41.33032

Residual 8 13665.5652 1708.1957

Co efficient Standard Error t Stat P-value Lower 95% Upper 95%

S𝑌𝑋 𝑛ℎỏ X S𝑌𝑋 𝑙ớ𝑛 X

Không tuyến tính

Không độc lập

Không đồng nhất  Đồng nhất

From Excel output: H1: β1 ≠

From Minitab output: b1 Sb

Predictor Coef SE Coef T P

Kết luận: Có đủ bằng chứng

From Minitab output:

Quyết định: Bác bỏ H0, vì p-value < α

Có đủ bằng chứng cho sự tồn tại mối

FSTAT có phân phối F với độ tự do: k cho tử số, (n – k - 1) cho mẫu

(k = số biến độc lập)

Residual 8 13665.5652 1708.1957

Excel Printout for House Prices:

Khoảng tin cậy 95% của hệ số góc từ 0,03374

Khoảng tin cậy 95% này không chứa giá trị 0.

◼ Thống kê kiểm định

H 0: ρ = 0(Không tương quan)

r  ρ .762  0 Quyết định:

Độ rộng khoảng tin cậy biến

Phần này xuất hiện do sự bất định của cá

Các trị số đầu khoảng là 280,66 và 354,90, nghĩa là trung

Dự đoán với độ tin cậy 95% về giá trị Y khi X = 2000

Hai trị số đầu khoảng là 215,50 và 420,07, nghĩa là giá trị

Khoảng tin cậy của trung bình μY|X=Xi

Khoảng trị số dự đoán của trị số YX=Xi

 Giới thiệu mô hình hồi quy

 Suy luận về hệ số góc

You might also like