You are on page 1of 60

Mục tiêu học tập

Trong phần này, sinh viên được học:


 Mô hình hồi quy tuyến tính
 Ý nghĩa của các hệ số b0 và b1
 Đánh giá các giả thuyết của mô hình hồi quy
 Suy luận về hệ số góc và hệ số tương quan
 Ước lượng trung bình và dự đoán trị số của cá htể
Tương quan và Hồi quy

◼ Tạo phân tán đồ để nhận định về quan hệ giữa


hai biến.
 Phân tích tương quan để nhận định về mức
độ liên quan giữa hai biến
 Mức tương quan = độ mạnh của quan hệ giữa hai
biến
 Tương quan không nói lên quan hệ nhân quả
Giới thiệu về hồi quy

 Mô hình hồi quy được dùng để:


 Dự đoán trị số của biến phụ thuộc dựa vào trị số của ít nhất
1 biến độc lập
 Giải thích tác động của một biến độc lập đến biến
phụ thuộc
 Biến phụ thuộc: biến được giải thích/dự đoán
 Biến độc lập: biến được dùng để giải thích/dự đoán
Mô hình hồi quy tuyến tính đơn

 Chỉ có một biến độc lập X


 Quan hệ giữa biến độc lập X và biến phụ
thuộc Y = hàm tuyến tính
 Giả sử: Thay đổi trị số Y liên quan đến
thay đổi trị số X
Các loại quan hệ

Quan hệ tuyến tính Quan hệ phi tuyến tính

Y Y

X X

Y Y

X X
Các loại quan hệ
Quan hệ TT mạnh Quan hệ TT yếu

Y Y

X Hình C X
Hình A
Y Y

Hình B X X
Hình D
Các loại quan hệ
Không quan hệ

X
Mô hình hồi quy tuyến tính
đơn

Sai số
ngẫu
Hệ số chặn Hệ số góc Biến độc lập
nhiên
Biến phụ
thuộc

Yi  β 0  β 1 X i  ε
i Thành phần
ngẫu nhiên

Thành phần
hàm tuyến tính
Mô hình tuyến tính đơn

Y Yi  β 0  β 1 X i  ε i
Trị số Y ứng với
trị số Xi

εi Hệ số góc β1
Trị số dự đoán Sai số ngẫu
Y ứng với Xi
nhiên ứng với X i
Hệ số chặn
β0

Xi X
Phương trình hồi quy
Phương trình hồi quy thực nghiệm cho biết ước
lượng của phương trình hồi quy tổng thể

Ước lượng Ước lượng Ước lượng


(dự đoán) trị hệ số hệ số góc
số Y ứng chặn Trị số X trong
với Xi quan sát thứ
i

Yˆ  b  b 1X
i 0

i
Hệ số góc và hệ số chặn

 b0 là trị số ước lượng trung bình của Y


khi X = 0

 b1 là trị số ước lượng mức tăng của


trung bình của Y khi X tăng lên 1
Hồi quy tuyến tính đơn: Ví dụ
Biến phụ thuộc Biến độc lập
(Y) (X)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Hồi quy tuyến tính đơn: Excel Output
Regression Statistics
Multiple R 0.76211 Phương trình hồi y:
qu
R Square 0.58082
Adjusted R Square 0.52842 Y = 98.24833 + 0.1 0977 𝑋
Standard Error 41.33032
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Hồi quy tuyến tính đơn: Ví dụ

Mô hình: Đồ thị phân tán và đường dự báo


450
400
House Price ($1000s)

350 Hệ số góc
300
250
= 0.10977
200
150
100
50
Hệ số 0
chặn 0 500 1000 1500 2000 2500 3000
= Square Feet
98.24
8 Y = 98.24833 + 0.10977 𝑋)
Tiếp theo: Ý nghĩa của bo

Y =
98.24833 + 0.10977 X

 Ý nghĩa của b0 : ước lượng của trung bình Y khi


X là 0, giả sử X = 0 nằm trong phạm vi quan sát
được của biến X
 Chú ý: Nếu X không thể có trị số 0, b0 không có
ý nghiã thực tế
Tiếp theo: Ý nghĩa của b1

house price  98.24833  0.10977 (square feet)

◼ Ý nghĩa của b1 : ước lượng mức


tăng trung bình của Y khi X tăng lên 1
đơn vị
◼ Vậy b1 = 0.10977 cho biết mức tăng trung bình
của
Y là 109.77, đối với mỗi đơn vị thêm vào X
Hồi quy tuyến tính đơn: Dự đoán
Dự đoán mức giá trị của Y:

Y = 98.24833 +
0.10977 X
= 98.24833 + 0.10977(2000)
= 317.78

Mức giá trị dự đoán của Y khi X = 2000


là 317,780
Hồi quy tuyến tính đơn: Dự đoán
◼ Khi dùng mô hình hồi quy để dự đoán,
chỉ có kết quả trong một phạm vi hợp lý nào
đó
Phạm vi dự đoán f
450
400
House Price ($1000s)

350
300
250
200
150
100
50 Không suy đoán
0
bên ngoài khoảng
0 500 1000 1500 2000 2500 3000
trị số quan sát
Square Feet
được của X
Sự biến động số liệu

◼ Phương sai được phân tích như sau:

SST  SSR 
SSE
Total Sum of Regression Sum Error Sum of
Squares of Squares Squares

2 2 2

SST  (Y i
Y) SSR   ( Yˆ  Y )
i SSE  (Y i
 Yˆi )
Trong đó:

Y = Trung bình trị số của biến phụ


thuộc
ˆi i = Trị số quan
YY được sát
dự được
đoán của Y tùyphụ
biến thuộc vào
thuộc Xi
Phương sai

 SST = total sum of squares (Total


Variation)
 Số đo sự biến động của các Yi quanh trung
bình Y
 SSR = regression sum of squares
(Explained Variation)
 Sự biến động do quan hệ giữa X và Y
 SSE = error sum of squares (Unexplained
Variation)
 Biến động của Y do ảnh hưởng của các yếu tố khác
ngoài X
Phương sai

Y
Yi  
SSE = (Yi - Yi )2 Y
_
SST = (Yi - Y)2

Y  _
_ SSR = (Yi - Y)2 _
Y
Y

Xi X
Hệ số xác định r2
 Hệ số xác định là phần biến động giá trị của
biến phụ thuộc được giải thích bằng biến động
giá trị của biến độc lập
 Trị số của r2

𝑆𝑆𝑅 regression sum of squares


𝑟2 = =
𝑆𝑆𝑇 total sum of squares

CHÚ Ý:
0  r2  1
Một số giá trị của r2
Y
r2 = 1

Quan hệ hàm số tuyến tính:


X
r2 = 1 100% biến động giá trị của Y
Y được giải thích bằng biến
động giá trị của X

X
r =1
2
Một số giá trị của r2
Đ4T
Y
0 < r2 < 1

Mối quan hệ tuyến tính yếu


hơn giữa X và Y:
X
Một phần nào nhưng
Y
không phải tất cả biến
động giá trị của Y được
giải thích qua biến
động giá trị của X
X
Một số giá trị của r2
Đ4T

r2 = 0
Y
Không có quan hệ tuyến
tính giữa X và Y:

Giá trị của Y không phụ


X thuộc vào X.
r2 = 0

Mọi biến động giá trị của Y


không được giải thích
qua biến động giá trị của
X
Ví dụ: Hệ số xác định r2
Đ-4T

Regression Statistics 2 SSR 18934.9348


r    0.58082
Multiple R 0.76211 SST 32600.500 0
R Square 0.58082
Adjusted R Square 0.52842 58.08 % biến động giá trị của Y
Standard Error 41.33032 đư ợc giải thích bằng biến
Observations 10 động giá trị của X

ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficients S tandard Error t Stat P-value Lower 95% Upper 95%


Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Sai số chuẩn của ước lượng
Đ-4T
◼ Độ lệch chuẩn của biến động giá trị xung
quanh đường hồi quy thực nghiệm

 (Y i  Yˆ ) 2
i
SSE i 1
 
S YX
n  2 n  2
Với
SSE = error sum of
squares n = cỡ mẫu
Ví dụ:
Sai số chuẩn của ước lượng
DCOV
Regression Statistics
S YX A
Multiple R 0.76211  41.330 32
R Square 0.58082
Adjusted R Square 0.52842

Standard Error 41.33032


Observations 10

ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039

Residual 8 13665.5652 1708.1957


Total 9 32600.5000

Co efficient Standard Error t Stat P-value Lower 95% Upper 95%


s
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Sai số chuẩn của ước lượng
Đ-4T
SYX là số đo sự biến động của giá trị Y xung
quanh đường thẳng hồi quy

Y Y

S𝑌𝑋 𝑛ℎỏ X S𝑌𝑋 𝑙ớ𝑛 X

Độ lớn của SYX là tương đối, tùy theo độ lớn của giá trị Y trong
số liệu thu được.
Ví dụ SYX = 41,33 là tương đối nhỏ so với Y trong khoảng từ 200
đến 400
Giả định của hồi quy tuyến tính
L.I.N.E
Đ-4T

 Linearity
 Quan hệ giữa X và Y tuyến tính

 Independence of Errors
 Các sai số về mặt thống kê là độc lập

 Normality of Error
 Các sai số có phân phối chuẩn đối với mỗi giá trị của

X
 Equal Variance (homoscedasticity)
 Phân phối xác suất của sai số có phương sai cố

định
Dư số

e i  Y i  Yˆ
 Dư số thứ i, ei, là hiệu của trị số qaun sát và trị số dự
i
đoán
 Phân tích dư số để kiểm tra điều kiện giả thuyết được
dùng cho mô hình hồi quy
 Giả thuyết tuyến tính
 Giả thuyết độc lập
 Giả thuyết phân phối chuẩn
 Giả thuyết phương sai đồng nhất
 Đồ thị dư số
 Trị số của dư số so với trị số của X
Phân tích dư số : Kiểm
tra quan hệ tuyến
tính
Y Y
Dư số

Dư số
x x

Dư số
Dư số

x x

Không tuyến tính


 Tuyến tính
Phân tích dư số : Kiểm tra
tính độc lập

Không độc lập


 Có tính độc lập
Dư số

Dư số
X
Dư số

X
Phân tích dư số: Kiểm
tra tính chuẩn

 Stem-and-Leaf Display
 Boxplot
 Histogram
 Normal Probability Plot
Phân tích dư số: phân
phối chuẩn
Dùng normal probability plot, nếu sai số có phân
phối chuẩn sẽ cho thấy các điểm xấp xỉ một
đường thẳng

100

Phần trăm

0
-3

-2
Phân tích dư số : phương sai
đồng nhất

Y Y

x x
residuals

x residuals x

Không đồng nhất  Đồng nhất


Kiểm định giả thuyết
về hệ số góc
Đ-4T
◼ Sai số chuẩn của hệ số góc (b1) là:

S YX
S YX
Sb  
1
SSX
  X)
i
(X
2

Với:
S b = ước lượng sai số chuẩn của hệ số
1
góc
SSE
S YX  = Sai số chuẩn của ước lượng hồi
n2 quy
t Test cho hệ số góc
Đ-4T
 Câu hỏi:
 Tồn tại một quan hệ tuyến tính giữa X và Y?
 Giả thuyết:
 H0: β1 = 0 (không có QHTT)
 H1: β1 ≠ 0 (tồn tại QHTT)
◼ Thống kê kiểm định Với:
b1 β1 b1 = hệ số góc thực nghiệm

t STAT β1 = hệ số góc lý thuyết
S b1 Sb1 = sai số chuẩn của hệ
góc
số
d.f.  n  2
Ví dụ: t Test cho hệ số góc
H0: β1 = 0 Đ-4T

From Excel output: H1: β1 ≠


Coefficients 0
Standard Error t Stat P-value
Intercept 98.24833 58.03348 1.69296 0.12892
Square Feet 0.10977 0.03297 3.32938 0.01039

From Minitab output: b1 Sb


1

Predictor Coef SE Coef T P


98.25 58.03 1.69 0.129
Square Feet 0.10977 0.03297
Constant 3.33
0.010
b β 0 .10977  0
1
t    3 .32938
b1 Sb
1
STAT 1S
b
1
0 .03297
Ví dụ: t Test cho hệ số góc
Đ-4T
H0: β1 = 0
Thống kê: tSTA = 3.329
H1: β1 ≠ 0
T

d.f. = 10- 2 = 8

/2=.025 /2=.025
Quyết định: Bác bỏ H0

Kết luận: Có đủ bằng chứng


Bác bỏ H0 Không bác bỏ H0
-tα/2 tα/2
Bác bỏ H0 X và Y có quan hệ tuyến
0
-2.3060 2.3060 3.329 tính
Ví dụ: t Test cho hệ số góc
H0: β1 = 0 Đ-4T
From Excel output: H1: β1 ≠
Coefficients Standard Error t Stat P-value
Intercept 98.24833
0 58.03348 1.69296 0.12892
Square Feet 0.10977 0.03297 3.32938 0.01039

From Minitab output:


Predictor Coef SE Coef T P p-value
98.25 58.03 1.69 0.129
Square Feet 0.10977 0.03297
Constant 3.33 0.010

Quyết định: Bác bỏ H0, vì p-value < α

Có đủ bằng chứng cho sự tồn tại mối


quan hệ tuyến tính.
F Test cho hệ số góc
Đ-4T
MSR
◼ Thống F STAT 
kê F: MSE

với SSR
MSR 
k

SSE
MSE 
nk1

FSTAT có phân phối F với độ tự do: k cho tử số, (n – k - 1) cho mẫu


số

(k = số biến độc lập)


Ví dụ: F-Test cho hệ số góc
Đ-4T

Regression Statistics
Multiple R 0.76211 MSR 18 934.9348
R Square 0.58082 F STAT    11.0848
Adjusted R Square 0.52842 MSE 08.1957
17
Standard Error 41.33032
Observations 10 Df = 1 và 8
p-value

ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039

Residual 8 13665.5652 1708.1957


Total 9 32600.5000
F Test cho hệ số góc
(tiếp theo)

Đ-4T
H0: β1 = 0 Thống kê kiểm định:
H1: β1 ≠ 0 MSR
  11.08
 = .05 F STAT
MSE
df1= 1 df2 = 8
Quyết định:
Critical Bác bỏ H0 ,  = 0.05
Value:
F =
5.32 Kết luận:
= Có đủ bằng chứng về mối quan
0 .05 F hệ tuyến tính
Không bác bỏ Bác bỏ H0
H0
F.05 = 5.32
Ước lượng khoảng của
hệ số góc
Đ-4T
Khoảng tin cậy của hệ số góc:
d.f. = n - 2
b 1  tα /2S b1

Excel Printout for House Prices:


Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

Với độ tin cậy 95%, hệ số góc nằm trong khoảng giá trị
(0,0337, 0,1858)
Ước lượng khoảng
của hệ số góc (tiếp theo)
Đ-4T
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Variable X 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

Khoảng tin cậy 95% của hệ số góc từ 0,03374


đến 0,18580.

Khoảng tin cậy 95% này không chứa giá trị 0.


Kết luận: Mối quan hệ giữa X và Y có ý nghĩa, xét ở mức
ý nghĩa 5%.
t Test cho hệ số tương quan
Đ-4T
◼ Giả thuyết
H0: ρ = 0 (không tương quan giữa X và Y)
H1: ρ ≠ 0 (có tương quan)

◼ Thống kê kiểm định


r -ρ
 (với n – 2 độ tự do)
t STAT
1  r2
where

r  if b 1  0
n 
2
r

2 r  2 if b 1  0
r
t-test cho hệ số tương quan
(tiếp theo)
Đ-4T
Có bằng chứng của một tương quan tuyến
tính giữa mặt bằng và giá với mức ý nghĩa
5% hay không?

H 0: ρ = 0(Không tương quan)


H1: ρ ≠ 0 (Có tương quan)
 =.05 , df = 10 - 2 = 8

r ρ .762  0
 
t STAT
2
 3.329 1  r 21  .762

n  2 10 
2
t-test cho hệ số tương quan
(tiếp theo)

Đ-4T

r  ρ .762  0 Quyết định:


t STAT    3.329
2 2 Bác bỏ H0
1 r 1  .762
n  2 10  2 Kết luận:
Có bằng chứng
d.f. = 10-2 = 8
tồn tại một tương
quan tuyến tính
/2=.025 /2=.025
với mức ý nghĩa
5%.
Bác bỏ H0 Không bác bỏ H0 Bác bỏ H0
-tα/2 tα/2
0
-2.3060 2.3060
3.329
Ước lượng trị số của trung
bình và trị số của cá thể
Mục đích: Lập khoảng trị số xung quanh Y để nói
lên sự biến động trị số Y, với trị số cho trước Xi
Khoảng tin
cậy của Y 
trung bình Y, Y
biết Xi

Y = b0+b1Xi

Dự đoán trị số cá
thể Y, biết Xi
Xi X
Ước lượng khoảng cho trong
bình của Y, cho biết X
Ước lượng khoảng cho
Trị số trung bình của Y cho trước trị số Xi

hi
Yˆ  t / 2 S YX

Độ rộng khoảng tin cậy biến


động tùy theo khoảng cách đến
trung bình X

1 (X i  X ) 2 1 (X i
X)2
hi    
n SSX n
 X)2
i
(X
Ước lượng khoảng cho một cá
thể Y, cho biết X
Ước lượng khoảng cho một
Trị số của cá thể Y cho trước trị số Xi

1  hi
Y ˆ  t / 2 YX

Phần này xuất hiện do sự bất định của cá


thể nhiều hơn là của trung bình
Ước lượng trung bình: Ví dụ
Ước lượng khoảng cho trị số của μY|X=Xi

Tìm khoảng tin cậy 95% cho trung bình của những
cá thể có X = 2.000

Dự đoán trung bình là: Yi = 317,78 (đơn vị 1000)

1  (X
i X)2
Yˆ  t0.025 YX
 317.78  37.12
n
S  X)2
i
(X

Các trị số đầu khoảng là 280,66 và 354,90, nghĩa là trung


bình nằm trong khoảng từ 280.660 đến 354.900
Ước lượng trị số : Ví dụ
Ước lượng khoảng dự đoán của YX=i X

Dự đoán với độ tin cậy 95% về giá trị Y khi X = 2000


Trị trung bình được dự đoán là : Yi = 317.85 (đơn vị 1000)

1  (X
i X)2
Yˆ  t0.025 YX
1  317.78  102.28
n
S  X)2
i
(X

Hai trị số đầu khoảng là 215,50 và 420,07, nghĩa là giá trị


trong khoảng từ 215.500 đến 420.070
Ví dụ: Dự đoán giá trị và trung bình

Trị số X


Y

Khoảng tin cậy của trung bình μY|X=Xi

Khoảng trị số dự đoán của trị số YX=Xi


Sai lầm thường mắc phải
 Bỏ qua các giả thuyết của mô hình
 Bỏ qua đánh giá mô hình
 Không dùng mô hình thay thế khi giả thuyết bị vi
phạm
 Bỏ qua kiến thức chuyên ngành có liên quan
 Suy đoán bên ngoài phạm vi số liệu phù hợp
Cách tránh sai lầm
 Dùng scatter plot để quan sát nhận định mối
quan hệ của X và Y
 Dùng phân tích dư số để kiểm tra thỏa mãn
giả thuyết
 Dùng đồ thị dư số theo X để kiểm tra sự vi phạm
điều kiện phương sai đồng nhất
 Dùng biểu đồ histogram, stem-and-leaf, boxplot,
hoặc normal probability plot của dư số để phát
hiện sự vi phạm tính chuẩn
Cách tránh sai lầm
 Nếu phát hiện sự vi phạm giả thuyết, dùng mô
hình khác hay phương pháp khai thác số liệu
khác
 Nếu không có bằng chứng thuyết phục cho sự
vi phạm giả thuyết, tiếp tục kiểm định các hệ số
hồi quy và lập khoảng tin cậy và khoảng dự
đoán trị số
 Không dự đoán bên ngoài phạm vi số liệu có
liên quan đến quan sát
Tổng kết

 Giới thiệu mô hình hồi quy


 Các giả thuyết của hồi quy và tương quan
 Phương trình hồi quy đơn
 Phương sai
 Phân tích dư số
Tổng kết

 Suy luận về hệ số góc


 Tương quan
 Ước lượng trung bình và dự đoán trị số
 Một số sai lầm dễ mắc và cách tránh

You might also like