Professional Documents
Culture Documents
Nội dung
1 Giới thiệu
• Giới thiệu bài toán hồi quy và hồi quy tuyến tính đơn
• Các giả định về sai số ngẫu nhiên
• Ước lượng các hệ số hồi quy bằng phương pháp bình phương
bé nhất (BPBN)
• Hệ số xác định
• Các tính chất của ước lượng BPBN
• Khoảng tin cậy cho hệ số hồi quy, trung bình biến đáp ứng
• Dự đoán giá trị quan trắc mới
• Kiểm định giả thuyết cho β0 và β1
• Phân tích thặng dư, tương quan
• Kiểm định giả thuyết cho hệ số tương quan
TĂNG LÂM TƯỜNG VINH XÁC SUẤT THỐNG KÊ
HỒI QUY VÀ TƯƠNG QUAN 3
Giới thiệu Mô hình hồi quy tuyến tính đơn KTC cho mô hình hồi quy KĐGT cho mô hình hồi quy
Nội dung chính: Mô hình hồi quy tuyến tính bội (đọc thêm)
Bài toán
Trong các hoạt động về khoa học - kỹ thuật, kinh tế, xã hội,. . . ta
có nhu cầu xác định mối quan hệ giữa hai hay nhiều biến ngẫu nhiên
với nhau. Ví dụ
• Mối liên hệ giữa chiều cao và cỡ giày của 1 người, từ đó 1 cửa
hàng bán giày dép có thể xác định chính xác cỡ giày của 1
khách hàng khi biết chiều cao
• Độ giãn nở của 1 loại vật liệu theo nhiệt độ môi trường
• Doanh thu khi bán 1 loại sản phẩm và số tiền chi cho quảng
cáo và khuyến mãi
• ...
Để giải quyết các vấn đề trên, ta sử dụng kỹ thuật phân tích hồi
quy (Regression Analysis)
Nội dung
1 Giới thiệu
Định nghĩa
Một mô hình thống kê tuyến tính đơn (Simple linear regression
model) liên quan đến một biến ngẫu nhiên Y và 1 biến giải thích x
là phương trình có dạng
Y = β0 + β1 x + ε (1)
với
• β0 , β1 là các tham số chưa biết, gọi là các hệ số hồi quy.
• x là độc lập, giải thích cho y.
• ε là thành phần sai số, ε được giả sử có phân phối chuẩn với
E(ε) = 0 và Var(ε) = σ 2 .
• Trong mô hình (1), sự thay đổi của Y được giả sử ảnh hưởng
bởi 2 yếu tố:
I Mối liên hệ tuyến tính của X và Y : β0 + β1 x. Trong đó, β0
gọi là hệ số chặn (intercept) và β1 gọi là hệ số góc (slope).
I Tác động của các yếu tố khác (không phải x) thành phần sai
số ε.
• Với (x1 , y1 ), . . . , (xn , yn ) là n cặp giá trị quan trắc của 1 mẫu
ngẫu nhiên cỡ n, từ (1) ta có
Yi = β0 + β1 xi + εi , i = 1, . . . , n (2)
•SửSửdụng
dụngđồđồ
thịthịphânphân tántán (Scatter
(Scatter plot)
plot) để biểu
để biểu diễn diễn cácgiá
các cặp cặp
ăn giá trị quan
trị quan trắc trắc
(xi , y(x , yi ) 1,trên
i ),i i = . . . ,hệ trụchệ
n trên tọatrục
độtọa
Oxyđộ. Oxy.
nh
iả
nh
iả
g TĂNG LÂM TƯỜNG VINH XÁC SUẤT THỐNG KÊ
HỒI QUY VÀ TƯƠNG QUAN 10
Giới thiệu Mô hình hồi quy tuyến tính đơn KTC cho mô hình hồi quy KĐGT cho mô hình hồi quy
• Từ (2) ta có
Y ∼ N (β0 + β1 x, σ 2 ) (4)
• Một đường thẳng ước lượng tốt phải “gần với các điểm dữ
liệu”
• Tìm β̂0 và β̂1 : dùng phương pháp bình phương bé nhất
(method of least squares)
Định nghĩa
Tổng bình phương sai số (Sum of Squares for Errors - SSE) hay tổng
bình phương thặng dư thặng dư cho n điểm dữ liệu được định nghĩa
như sau n n
X X 2
ε2i =
SSE = yi − (β0 + β1 xi ) (6)
i=1 i=1
Nội dung của PPBPBN là tìm các ước lượng β̂0 và β̂1 sao cho SSE
đạt giá trị bé nhất.
TĂNG LÂM TƯỜNG VINH XÁC SUẤT THỐNG KÊ
HỒI QUY VÀ TƯƠNG QUAN 13
Giới thiệu Mô hình hồi quy tuyến tính đơn KTC cho mô hình hồi quy KĐGT cho mô hình hồi quy
• Các ước lượng β̂0 và β̂1 tìm được gọi là các ULBPBN.
• Đường thẳng ŷ = β̂0 + β̂1 x gọi là đường thẳng BPBN, thỏa
các tính chất sau
n
X
I SSE = (yi − ŷi )2 đạt giá trị bé nhất.
i=1
n
X n
X
I SE = (yi − ŷi ) = εi = 0 với SE là tổng các thặng
i=1 i=1
dự (Sum of Error)
X 411 550 471 393 427 431 492 371 470 419 407 489 439
Y 2, 00 2, 46 2, 11 1, 89 2, 05 2, 30 2, 46 2, 06 2, 25 2, 07 2, 17 2, 32 2, 12
1 Vẽ biểu đồ phân tán biểu diễn diện tích lá X và trọng lượng khô Y
của cây đậu nành với mẫu quan sát đã cho.
2 Tìm đường thẳng hồi quy biểu diễn mối liên hệ giữa trọng lượng cây
Y theo diện tích X. Vẽ đường thẳng hồi quy tìm được trên đồ thị
phân tán.
3 Dự đoán trọng lượng khô khi tổng diện tích bề mặt của lá cây đậu
nành là 500cm2 .
Giải
Giải
n
X n
X n
X X
n = 13; xi yi = 12625.99; xi = 5770; yi = 28.26; x2i = 2589458
i=1 i=1 i=1 i=1
n n
!2
X 1 X
Sxx = x2i − xi = 28465.69
n
i=1 i=1
n n
! n
!
X 1 X X
Sxy = xi yi − xi yi = 82.89769
n
i=1 i=1 i=1
Sxy
β̂1 = = 0.002912197
Sxx
β̂0 = ȳ − β̂1 x̄ = 0.8812789
Giải
• SST : đo sự biến thiên của các giá trị yi xung quanh giá trị
trung tâm của dữ liệu ȳ
• SSR : giải thích sự biến thiên liên quan đến mối liên hệ tuyến
tính của X và Y
• SSE : giải tích sự biến thiên của các nhân tố khác (không liên
quan đến mối quan hệ tuyến tính của X và Y )
Ta có
n
X n
X n
X
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2
i=1 i=1 i=1
SST = SSR + SSE
Văn
n
hồi
n tính
tin
mô
quy
h giả
ho
uan
hồi
n tính
Hệ số xác định
Định nghĩa
Hệ số xác định (Coefficient of Determination) là tỷ lệ của tổng sự
biến thiên trong biến phụ thuộc gây ra bởi sự biến thiên của các
biến độc lập (biến giải thích) so với tổng sự biến thiên toàn phần.
Hệ số xác định thường được gọi là R−bình phương (R−squared),
ký hiệu là R2 . Công thức
SSR
R2 =
SST
2
Chú ý: 0 ≤ R ≤ 1
Hệ số xác định của một mô hình cho phép ta đánh giá mô hình tìm
được có giải thích tốt cho mối liên hệ giữa biến phụ thuộc Y và
biến phụ thuộc X hay không.
TĂNG LÂM TƯỜNG VINH XÁC SUẤT THỐNG KÊ
HỒI QUY VÀ TƯƠNG QUAN 24
Hệ số xác định và mối liên hệ giữa X và Y
Giới thiệu Mô hình hồi quy tuyến tính đơn KTC cho mô hình hồi quy KĐGT cho mô hình hồi quy
Hệ số xác định
Hệ số xác định
Hệ số xác định
Định nghĩa
Hệ số tương quan (Correlation coefficient) của 2 biến ngẫu nhiên X và
Y , kí hiệu ρXY , được xác định như sau
Cov(X, Y )
ρXY = p ∈ [−1; 1]
Var(X)Var(Y )
Định nghĩa
Với mẫu ngẫu nhiên cỡ n: (Xi , Yi ), i = 1, . . . , n. Hệ số tương quan mẫu,
kí hiệu r, được xác định như sau
n
X
Xi − X Yi − Y
Sxy
r = v i=1 =√ (12)
uX
u n n
2 X 2 Sxx .SST
t Xi − X Yi − Y
i=1 i=1
Chú ý rằng
2
Sxy β̂1 Sxy SSR
(12) ⇔ r2 = = = = R2
Sxx .SST SST SST
• −1 ≤ r < 0: tương quan âm. r càng gần −1 biểu thị mối liên
hệ tuyến tính nghịch giữa X và Y càng mạnh.
• 0 < r ≤ 1: tương quan dương. r càng gần 1 biểu thị mối liên
hệ tuyến tính thuận giữa X và Y càng mạnh.
Yi − (β0 + β1 xi )
∼ N (0, 1)
σ
Ta có
n 2
X [Yi − (β0 + β1 xi )] SSE
= ∼ χ2 (n − 2)
i=1
σ2 σ2
Nên
SSE SSE
E = n − 2 hay E = σ2
σ2 n−2
Định lý
Xét Y = β0 + β1 x + ε là 1 mô hình hồi quy tuyến tính đơn với
ε ∼ N (0, σ 2 ); với n quan trắc độc lập yi , i = 1, . . . , n ta có tương
ứng các sai số εi .
Gọi β̂0 và β̂1 là các ước lượng của β0 và β1 tìm được từ PPBPBN,
khi đó
1 β̂0 và β̂1 tuân theo luật phân phối chuẩn
x̄2
1
E β̂0 = β0 , Var β̂0 = + σ2
n Sxx
σ2
E β̂1 = β1 , Var β̂1 =
Sxx
TĂNG LÂM TƯỜNG VINH XÁC SUẤT THỐNG KÊ
HỒI QUY VÀ TƯƠNG QUAN 35
Giới thiệu Mô hình hồi quy tuyến tính đơn KTC cho mô hình hồi quy KĐGT cho mô hình hồi quy
Định nghĩa
Trong mô hình hồi quy tuyến tính đơn, sai số chuẩn (SE) của các
ước lượng β̂0 và β̂1 là
v !
x̄2
u
u 1
SE β̂0 = t + σ2
n Sxx
s
σ2
SE β̂1 =
Sxx
Y = β0 + β1 x + ε
Nội dung
1 Giới thiệu
contents...
Nội dung
1 Giới thiệu
contents...