You are on page 1of 55

Thống Kê Trong kinh

doanh và kinh tế

Hồi Quy Hai Biến


Nô ịị dung
• Khái niệm
• Mô hình hồi quy hai biến
• Phân tích tương quan
• Hồi quy
• Dự đoán
• Mô ̣t số giả định
• Phân tích phần dư
Khái niệm
Biến độc lập (Independent Variable)
Còn gọi là biến giải thích (Explanatory Variable).
Ký hiệu: X
Biến phụ thuộc (Dependent Variable).
Ký hiệu: Y.
Quan hệ hàm số: các biến không phải là ngẫu nhiên, ví
dụ: S=V.T
S: độ dài quảng đường đi được.
V: vận tốc (km/giờ)
T: thời gian
Khái niệm
Quan hệ thống kê:Ứng với mỗi giá trị của biến độc lập
(X) có thể có nhiều giá trị khác nhau của biến phụ thuộc
(Y).
Phân tích tương quan (Correlation Analysis):
Đo mức độ kết hợp tuyến tính giữa X và Y. Tương quan
có tính chất đối xứng.
Phân tích hồi quy (Regression Analysis).
Phân tích hồi quy là kỹ thuật để dự báo (Forecasting)
cho biến phụ thuộc Y khi cho trước giá trị của biến X
Phân Tích Tương Quan
Các loại tương quan.
Kỹ thuật:
Biểu đồ phân tán (Scatter Diagram)
Đo lường mức độ liên hệ tương quan giữa các biến.
Kiểm định hệ số tương quan
Các loại tương quan
Tương quan tuyến tính thuâ ̣n Tương quan phi tuyến

Tương quan tuyến tính nghịch Không có liên hê ̣ tương quan
Hệ số tương quan
Hệ số tương quan tổng thể:ρ
Cov ( X , Y )

 X . Y
Tính chất của ρ.
 -1 ≤ ρ ≤ 1
 ρ > 0: X,Y có tương quan thuận.
 ρ < 0: X,Y có tương quan nghịch.
 ρ = 0: X,Y không có tương quan tuyến tính.
Hệ số tương quan
Phương pháp Pearson.
Hệ số tương quan mẫu:
n

 ( x  x )( y  y )
i i
r  i 1
n n

 (x
i 1
i  x ) . ( yi  y ) 2
2

i 1
n n

n  x . y
i i

x i yi  i 1
n
i 1

r  i 1

  n   
2
 n  
2

 n   xi    n   yi  

 xi2   i 1  
 yi2   i 1  
 i 1 n   i 1 n 
   

 
 
 

Hệ số tương quan
Tính chất của r:
-1 ≤ r ≤ 1.
r>0 : X,Y có tương quan thuận.
r<0: X,Y có tương quan nghịch.
r=0: X,Y không có có tương quan tuyến tính.
Mô Hình Hồi Quy Hai Biến

Hệ số góc Sai số


̣ số chă
hê ̣ n (tổng thể) ngẫu
của mô
hình nhiên

Yi      X i   i
Biến phụ
thuộ c PT hồi quy tổng thể Biến giải thích
̣ n)
(trung bình có điều kiê
Y | X
Mô hình hồi quy
(tiếp theo)

Y (giá trị quan sát của Y) =Yi      X i   i

 i = sai số ngẫu nhiên 

Y | X      X i
 (trung bình có điều kiên)
̣
X
Giá trị quan sát của Y
Phương trình hồi quy
Phương trình hồi quy mẫu (Sample Regression Function):
Ước lượng cho mô hình hồi quy tổng thể và để dự đoán cho
biến phụ thuộc Y.
Hê ̣ số góc
Hê ̣số chă ̣n Giá trị quan sát thứ i: Yi

Yi  b0  b1 X i  ei Phần dư

Yˆ  b0  b1. X
Phương trình hồi quy mẫu:
(Hàm hồi quy mẫu)
phương trình hồi quy
(tiếp theo)

• b0 và b1xác định bằng phương pháp bình


phương bé nhất (least squares method)

   e
n 2 n
Yi  Yˆi 2
i
i 1 i 1

• 
b0 ước lượng cho
• b ước lượng cho
1

Phương trình hồi quy
(tiếp theo)

Yi  b0  b1 X i  ei Yi      X i   i
Y b1
i 
ei
 Y | X      X i
 Yˆi  b0  b1 X i
b0 X
Giá trị quan sát
Phương trình hồi quy
Phương pháp bình phương bé nhất
(Least squares method)
Hệ phương trình:
 y  nb  b  x
i 0 1 i

x y b x b x
i i 0 i 1
2
i

Giải hệ phương trình:


b1 
 x y  n.x . y
i i

 x  n.x 2
i
2

b0  y  b1.x
Suy diễn hệ số hồi quy
(tiếp theo)

• b0 : giá trị ước lượng trung bình của Y khi X


bằng 0
• b1 cho biết biến phụ thuô ̣c Y sẽ thay đổi bao
nhiêu khi X tăng lên 1 đơn vị.
Hồi quy hai biến
Dữ liệu sau đây ghi nhận chi phí quảng cáo và lợi nhuận
(triệu đồng) của công ty SOL bán hàng trực tuyến trong
năm vừa qua:
Tháng 1 2 3 4 5 6 7 8 9 10 11 12

Advert. 0,5 0,7 0,65 0,8 0,8 0,7 0,5 0,6 0,8 0,45 0,5 0,6

profit 21,5 26 24 28 29 27 23 22,7 28 21,5 22 24


Ví dụ 1
X:Thời gian làm việc của
nhân viên (năm)
Y: thu nhập (triệu
đồng/tháng)
Y 10 9 12 10 13 12 14 15

X 4 3 6 5 10 9 10 12
Ví dụ 2
Dữ liệu sau đây ghi nhận chi phí quảng cáo và lợi nhuận
(triệu đồng) của công ty SOL bán hàng trực tuyến trong
năm vừa qua:
Tháng 1 2 3 4 5 6 7 8 9 10 11 12

Advert. 0,5 0,7 0,65 0,8 0,8 0,7 0,5 0,6 0,8 0,45 0,5 0,6

profit 21,5 26 24 28 29 27 23 22,7 28 21,5 22 24


Biểu đồ phân tán (Scatter diagram)
Hệ số tương quan
Tháng x y x.y x2 y2
1 0,5 21,5 10,75 0,25 462,25
2 0,7 26 18,2 0,49 676
… … … … … …
12 0,6 24 14,4 0,36 576
Cộng 7,6 296,7 191,645 4,995 7418,79

(7,6)(296,7)
191,645 
r 12
 7,6 2  296,7 2 
 4,995   7418,79  
 12  12 
r  0,9625
Kiểm định hệ số tương quan
Đặt giả thuyết:
H0 :ρ = 0: X,Y không có liên hệ tương quan.
H1 : ρ≠ 0: X,Y có liên hệ tương quan.
Giá trị kiểmr định :
t
1  r 2  / n  2
Giả thuyết H0 sẽ bị bác bỏ khi:
t  t n  2, / 2 hay
t  t n  2, / 2
Kiểm định hệ số tương quan
Giá trị kiểm định:
0,9625
t
(1  0,96252 ) /(12  2 )
t  11,218
Với mức ý nghĩa α=5%, n=12.
Giá trị ngưỡng:
t10,2,5% = 2,228
Giả thuyết H0 bị bác bỏ ở mức ý nghĩa 5%.
Có thể nói rằng giữa chi phí quảng cáo và lợi nhuận của
công ty OL có tương thuận mạnh (chặt chẽ): r = 0,9625
Phương trình hồi quy
Kết quả cho bởi Excel: 
Coefficients:(Các hệ số của phương trình hồi quy)
  Coefficients

Intercept 11.7039

Advert 20.5596

Phương trình hồi quy:


Yˆ  11,7039  20,5596. X
Pr ofit  11,7039  20,5596. Advert
Phương trình hồi quy
Phân Tích sự Phù hợp của Mô hình Hồi quy

Sử dụng kỹ thuật ANOVA


• SST = Total Sum of Squares
– Đo lường biến thiên của Yi (xoay quanh giá trị trung bình
của Y)
• SSR = Regression Sum of Squares
– Biến thiên của Y do ảnh hưởng của X
• SSE = Error Sum of Squares
– Biến thiên của Y do ảnh hưởng của các yếu tố khác .
Phân tích sự phù hợp của mô
hình hồi quy
(tiếp theo))

Y 
SSE =(Yi - Yi )2
_ 
SST = (Yi - Y) 2

 _
SSR = (Yi - Y)2
_
Y

X
Xi
Phân tích phương sai
Bảng Anova.
SS DF MS F
Regression SSR k MSR=SSR/k F=MSR/MSE
(Hồi quy)

Residuals SSE n-k-1 MSE=SSE/n-k-1


(phần dư)

Total SST n-1 -

Với: k= số biến giải thích (mô hình hồi quy hai biến, k=1).
n : kích thước mẫu
Kiểm định sự phù hợp của mô hình
hồi quy
Bảng ANOVA.
Df SS MS F Sig. F
Regression 1 76.79023 76.79023 126.0453 5.45E-07

Residuals 10 6.092271 0.609227

Total 11
Kiểm định sự phù hợp của mô hình
hồi quy
Phát biểu giả thuyết:
H0 : Mô hình hồi quy của Y đối với X là không phù hợp.
H1 : Mô hình hồi quy của Y đối với X là phù hợp.
Giá trị kiểm định:
F=MSR/MSE.
Với mức ý nghĩa α, H0 sẽ bị bác bỏ khi:

Giá  ngưỡng
F trị Fk ,n  k 1F:, F1,10,5% =4,96.
Giả thuyết H0 bị bác bỏ ở mức ý nghĩa 5%.
Hê ̣ Số Xác Định (Coefficient of
determination)

SSE
R  1
2

SST
• Hê ̣ số xác định cho biết biến thiên của biến Y
thì bao nhiêu % có thể được giải thích bởi X.
Hê ̣ số xác định

Hệ số xác định.


SSE
R  1
2

SST
6,0923
R  1
2
 0,9265
82,8825
R 2  92,65%
Kiểm định các tham số của mô
hình hồi quy
Đặt giả thuyết:
H0 : β1 = 0
H1 : β1 ≠ 0
Giá trịbkiểm định:
t 1
S b1
SSE /  n  2 
S b1  n

Sb1 : sai số chuẩn


x
i 1
2
i  n.x 2

của hệ số b1 6,0923 / 10
S b1 
4,995  12.(7,6 / 12) 2
S b1  1,8313
Kiểm định tham số của mô hình hồi quy
Giá trị kiểm định: 20,5596
t  11,227
1,8313
Với mức ý nghĩa 5%, giá trị ngưỡng t=2,228.
 Giả thuyết H0 bị bác bỏ ở mức ý nghĩa 5%. Có thể nói
rằng hệ số góc của phương trình hồi quy có ý nghĩa thống
kê.
Kết quả cho bởi Excel:
Coefficien Standard Lower Upper
  ts Error t Stat P-value 95% 95%

Intercept 11.7039 1.1815 9.9061 0.0000 9.0714 14.3364

Advert 20.5596 1.8313 11.2270 0.0000 16.4793 24.6400


Ước lượng Tham số của Mô hình
Hồi quy
Nếu hệ số góc của phương trình hồi quy có ý nghĩa thống kê ta
có thể ước lượng tham số β1 .

Khoảng tin cậy của β1 :

 b1  t n  2, / 2 .Sb1
Với độ tin cậy 95%:

1  (20,5596  2,228 1,8313)


1  (16,48;24,64)
Dự đoán
Sai số chuẩn dự đoán.
n

 (Yi  Yi )
ˆ 2
SSE
Se  i 1

n2 n2
6,092271
Se   0,78053
12  2
Sai số chuẩn
Kết qủa cho bởi Excel: Sai số chuẩn

Regression Statistics
 

Multiple R 0.9625

R Square 0.9265

Adjusted R Square 0.9191

Standard Error 0.7805

Observations 12
Dự Đoán
Dự đoán điểm.
Cho biết: X=Xn+1 ta dự đoán giá trị của biến Y.
Yˆn 1  b0  b1. X n 1

Biết ngân sách quảng cáo cho tháng tới là: 0,5 triệu đồng thì
lợi nhuận kỳ vọng bằng:
Pr ofit  11,7039  20,5596.(0,5)
Pr ofit  21,9837.tr
Dự đoán
Dự đoán khoảng:
Dự đoán khoảng cho giá trị trung bình của Y.
1 ( x  x ) 2
Yˆn 1  t n  2, / 2 .se.  n n 1
n
 i x 2

i 1
 n. x 2

Dự đoán khoảng cho giá trị cụ thể của Y.

1 ( x  x ) 2
Yˆn 1  t n  2, / 2 .se. 1   n n 1
n
 i x
i 1
2
 n. x 2
Dự đoán
Biết ngân sách cho quảng cáo tháng tới là 0,5 triệu
đồng; với độ tin cậy 90% thì lợi nhuận có thể đạt
được:
1 (0,5  7,6  12) 2
 21,9837  1,812.(0,78053). 1  
12 4,995  12.(7,6  12) 2
 21,9837  1,537.
 (20,45;23,52).tr
Phân Tích Hồi Quy, Ví dụ 2
Phân tích mối quan hệ giữa hai biến:
X: diện tích cửa hàng (m2 ).
Y: doanh số bán (tỷ đồng)
Dữ liệu sau đây ghi nhận được của 7 trung tâm thương
mại của một thành phố trong năm vừa qua:
Phân tích hồi quy (ví dụ 2)
TT.Tmại diê ̣n tích (m2 )doanh số (tỉ đồng)

1 1726 3681
2 1542 3395
3 2816 6653
4 5555 9543
5 1292 3318
6 2208 5563
7 1313 3760
Biểu đồ phân tán(Scatter
Diagram)
12000
10000
doanh số

8000
6000
4000
2000
0
0 1000 2000 3000 4000 5000 6000
diệ n tích

Kết quả cho


bởi Excel
Phương trình hồi quy

Yˆi  b0  b1 X i
 1636.415  1.487 X i

Coefficients
Intercept 1636.414726
X Variable 1 1.486633657
Phương trình hồi quy
12000

10000
(doanh số)

8000
8 7 Xi
6000 + 1.4
. 415
 6 36
4000 1
Yi =
2000

0
0 1000 2000 3000 4000 5000 6000

diệ n tích
Phân tích phương sai

Bâ ̣c tự do

ANOVA
df SS MS F Significance F
Regression 1 30380456.12 30380456 81.17909 0.000281201
Residual 5 1871199.595 374239.92
Total 6 32251655.71

Hồi quy (regression) SST


SSE
Phần dư (residual)
SSR
Phân tích hồi quy
Kết quả cho bởi Excel
Regression Statistics
Multiple R 0.9705572
R Square 0.94198129
Adjusted R Square 0.93037754
Standard Error 611.751517
Observations n 7
R2 = .94 Syx
Thay đổi doanh số thì 94% có thể được giải
̣ n tích của các trung tâm thương
thích bởi diê
mại
Giả Định Trong Phân Tích Hồi Quy
(Assumptions)
Trong phân tích hồi quy cần thiết một số giả thiết cơ
bản:
Mô ṭṭ số giả định

• Phân phối chuẩn


– Các giá trị của biến Y có phân phối chuẩn
(ứng với mỗi giá trị của X)
– Sai số ngẫu nhiên (random errors) có phân
phối chuẩn với kỳ vọng =0
• Phương sai không đổi (Homoscedasticity)
(Constant Variance)
• Sai số ngẫu nhiên độc lập (Independence
of Errors)
Giả định
• Giá trị của Y có phân phối chuẩn .
f(e)
• Phương sai không đổi

Y
X2
X1
X
Đường hồi quy mẫu
Phân tích phần dư (Residual
Analysis)
• Mục đích
– Khảo sát mối liên hệ tuyến tính (linearity)
– Các gỉa định có thỏa mãn.
– Phân tích phần dư bằng đồ thị
Phân tích phần dư
Y Y

X X
e e
X
X

Not Linear
 Linear
Phân tích giả định về phương
sai không đổi
Y Y

X X
SR SR

X X

Giả định về phương sai bị


vi phạm

Phương sai không đổi
Phân tích phần dư
Observation Predicted Profit Residuals Standard Residuals

1.000 21.984 -0.484 -0.650

2.000 26.096 -0.096 -0.129

3.000 25.068 -1.068 -1.435

4.000 28.152 -0.152 -0.204

5.000 28.152 0.848 1.140

6.000 26.096 0.904 1.215

7.000 21.984 1.016 1.366

8.000 24.040 -1.340 -1.800

9.000 28.152 -0.152 -0.204

10.000 20.956 0.544 0.731

11.000 21.984 0.016 0.022

12.000 24.040 -0.040 -0.053


Phân tích phần dư

You might also like