Professional Documents
Culture Documents
Bai 12. Hoi Quy Tuyen Tinh-Don Bien
Bai 12. Hoi Quy Tuyen Tinh-Don Bien
Y Y
X X
Y Y
X X
Các loại quan hệ
Quan hệ TT mạnh Quan hệ TT yếu
Y Y
X Hình C X
Hình A
Y Y
Hình B X X
Hình D
Các loại quan hệ
Không quan hệ
X
Mô hình hồi quy tuyến tính
đơn
Sai số
ngẫu
Hệ số chặn Hệ số góc Biến độc lập
nhiên
Biến phụ
thuộc
Yi β 0 β 1 X i ε
i Thành phần
ngẫu nhiên
Thành phần
hàm tuyến tính
Mô hình tuyến tính đơn
Y Yi β 0 β 1 X i ε i
Trị số Y ứng với
trị số Xi
εi Hệ số góc β1
Trị số dự đoán Sai số ngẫu
Y ứng với Xi
nhiên ứng với X i
Hệ số chặn
β0
Xi X
Phương trình hồi quy
Phương trình hồi quy thực nghiệm cho biết ước
lượng của phương trình hồi quy tổng thể
Yˆ b b 1X
i 0
i
Hệ số góc và hệ số chặn
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
350 Hệ số góc
300
250
= 0.10977
200
150
100
50
Hệ số 0
chặn 0 500 1000 1500 2000 2500 3000
= Square Feet
98.24
8 Y = 98.24833 + 0.10977 𝑋)
Tiếp theo: Ý nghĩa của bo
Y =
98.24833 + 0.10977 X
Y = 98.24833 +
0.10977 X
= 98.24833 + 0.10977(2000)
= 317.78
350
300
250
200
150
100
50 Không suy đoán
0
bên ngoài khoảng
0 500 1000 1500 2000 2500 3000
trị số quan sát
Square Feet
được của X
Sự biến động số liệu
SST SSR
SSE
Total Sum of Regression Sum Error Sum of
Squares of Squares Squares
2 2 2
SST (Y i
Y) SSR ( Yˆ Y )
i SSE (Y i
Yˆi )
Trong đó:
Y
Yi
SSE = (Yi - Yi )2 Y
_
SST = (Yi - Y)2
Y _
_ SSR = (Yi - Y)2 _
Y
Y
Xi X
Hệ số xác định r2
Hệ số xác định là phần biến động giá trị của
biến phụ thuộc được giải thích bằng biến động
giá trị của biến độc lập
Trị số của r2
CHÚ Ý:
0 r2 1
Một số giá trị của r2
Y
r2 = 1
X
r =1
2
Một số giá trị của r2
Đ4T
Y
0 < r2 < 1
r2 = 0
Y
Không có quan hệ tuyến
tính giữa X và Y:
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
(Y i Yˆ ) 2
i
SSE i 1
S YX
n 2 n 2
Với
SSE = error sum of
squares n = cỡ mẫu
Ví dụ:
Sai số chuẩn của ước lượng
DCOV
Regression Statistics
S YX A
Multiple R 0.76211 41.330 32
R Square 0.58082
Adjusted R Square 0.52842
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Y Y
Độ lớn của SYX là tương đối, tùy theo độ lớn của giá trị Y trong
số liệu thu được.
Ví dụ SYX = 41,33 là tương đối nhỏ so với Y trong khoảng từ 200
đến 400
Giả định của hồi quy tuyến tính
L.I.N.E
Đ-4T
Linearity
Quan hệ giữa X và Y tuyến tính
Independence of Errors
Các sai số về mặt thống kê là độc lập
Normality of Error
Các sai số có phân phối chuẩn đối với mỗi giá trị của
X
Equal Variance (homoscedasticity)
Phân phối xác suất của sai số có phương sai cố
định
Dư số
e i Y i Yˆ
Dư số thứ i, ei, là hiệu của trị số qaun sát và trị số dự
i
đoán
Phân tích dư số để kiểm tra điều kiện giả thuyết được
dùng cho mô hình hồi quy
Giả thuyết tuyến tính
Giả thuyết độc lập
Giả thuyết phân phối chuẩn
Giả thuyết phương sai đồng nhất
Đồ thị dư số
Trị số của dư số so với trị số của X
Phân tích dư số : Kiểm
tra quan hệ tuyến
tính
Y Y
Dư số
Dư số
x x
Dư số
Dư số
x x
Dư số
X
Dư số
X
Phân tích dư số: Kiểm
tra tính chuẩn
Stem-and-Leaf Display
Boxplot
Histogram
Normal Probability Plot
Phân tích dư số: phân
phối chuẩn
Dùng normal probability plot, nếu sai số có phân
phối chuẩn sẽ cho thấy các điểm xấp xỉ một
đường thẳng
100
Phần trăm
0
-3
-2
Phân tích dư số : phương sai
đồng nhất
Y Y
x x
residuals
x residuals x
S YX
S YX
Sb
1
SSX
X)
i
(X
2
Với:
S b = ước lượng sai số chuẩn của hệ số
1
góc
SSE
S YX = Sai số chuẩn của ước lượng hồi
n2 quy
t Test cho hệ số góc
Đ-4T
Câu hỏi:
Tồn tại một quan hệ tuyến tính giữa X và Y?
Giả thuyết:
H0: β1 = 0 (không có QHTT)
H1: β1 ≠ 0 (tồn tại QHTT)
◼ Thống kê kiểm định Với:
b1 β1 b1 = hệ số góc thực nghiệm
t STAT β1 = hệ số góc lý thuyết
S b1 Sb1 = sai số chuẩn của hệ
góc
số
d.f. n 2
Ví dụ: t Test cho hệ số góc
H0: β1 = 0 Đ-4T
d.f. = 10- 2 = 8
/2=.025 /2=.025
Quyết định: Bác bỏ H0
với SSR
MSR
k
SSE
MSE
nk1
Regression Statistics
Multiple R 0.76211 MSR 18 934.9348
R Square 0.58082 F STAT 11.0848
Adjusted R Square 0.52842 MSE 08.1957
17
Standard Error 41.33032
Observations 10 Df = 1 và 8
p-value
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Đ-4T
H0: β1 = 0 Thống kê kiểm định:
H1: β1 ≠ 0 MSR
11.08
= .05 F STAT
MSE
df1= 1 df2 = 8
Quyết định:
Critical Bác bỏ H0 , = 0.05
Value:
F =
5.32 Kết luận:
= Có đủ bằng chứng về mối quan
0 .05 F hệ tuyến tính
Không bác bỏ Bác bỏ H0
H0
F.05 = 5.32
Ước lượng khoảng của
hệ số góc
Đ-4T
Khoảng tin cậy của hệ số góc:
d.f. = n - 2
b 1 tα /2S b1
Với độ tin cậy 95%, hệ số góc nằm trong khoảng giá trị
(0,0337, 0,1858)
Ước lượng khoảng
của hệ số góc (tiếp theo)
Đ-4T
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Variable X 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
r if b 1 0
n
2
r
2 r 2 if b 1 0
r
t-test cho hệ số tương quan
(tiếp theo)
Đ-4T
Có bằng chứng của một tương quan tuyến
tính giữa mặt bằng và giá với mức ý nghĩa
5% hay không?
r ρ .762 0
t STAT
2
3.329 1 r 21 .762
n 2 10
2
t-test cho hệ số tương quan
(tiếp theo)
Đ-4T
Dự đoán trị số cá
thể Y, biết Xi
Xi X
Ước lượng khoảng cho trong
bình của Y, cho biết X
Ước lượng khoảng cho
Trị số trung bình của Y cho trước trị số Xi
hi
Yˆ t / 2 S YX
1 (X i X ) 2 1 (X i
X)2
hi
n SSX n
X)2
i
(X
Ước lượng khoảng cho một cá
thể Y, cho biết X
Ước lượng khoảng cho một
Trị số của cá thể Y cho trước trị số Xi
1 hi
Y ˆ t / 2 YX
Tìm khoảng tin cậy 95% cho trung bình của những
cá thể có X = 2.000
Dự đoán trung bình là: Yi = 317,78 (đơn vị 1000)
1 (X
i X)2
Yˆ t0.025 YX
317.78 37.12
n
S X)2
i
(X
Trị trung bình được dự đoán là : Yi = 317.85 (đơn vị 1000)
1 (X
i X)2
Yˆ t0.025 YX
1 317.78 102.28
n
S X)2
i
(X
Trị số X
Y