You are on page 1of 9

CH NG 9

T NG QUAN & H I QUI TUY N TÍNH


(Linear Correlation and Regression)

7.1. KHÁI NI M CHUNG


Trong các chương trước chúng ta chỉ nghiên cứu các vấn đề liên quan đến mẫu ngẫu nhiên
của một biến ngẫu nhiên X. Trong chương này, chúng ta quan tâm đến mẫu ngẫu nhiên bao
gồm các cặp giá trị của hai biến ngẫu nhiên X và Y.
Ví dụ
Để nghiên cứu về chiều cao và cân nặng của các em học sinh trong một trường, chúng ta
lấy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu về chiều cao và cân nặng của n
học sinh. Gọi X là biến ngẫu nhiên để đo chiều cao của học sinh và Y là biến ngẫu nhiên
chỉ cân nặng của học sinh. Với n học sinh ta có n cặp giá trị (Yi , Xi).

X(m) x1 x2 x3 ..... xi ....... xn


Y(kg) y1 y2 y3 .......... yi .......... yn

Mục tiêu của chương này là nghiên cứu sự liên hệ giữa biến Y và X bằng sự phân tích
t ng quan và h i qui.
Trong phân tích tương quan người ta đề cập đến cường độ của mối quan hệ giữa hai biến Y
và X, đánh giá xem hai biến Y và X có quan hệ với nhau hay không.
Trong phân tích hồi qui người ta lại xác định quan hệ giữa hai biến Y và X dưới dạng
phương trình toán học, từ đó ta có thể dự đoán được biến Y (biến phụ thuộc, dependent
variable) dựa vào biến X (biến độc lập, independent variable)
Trong chương này, chúng ta cũng giới hạn chỉ nghiên cứu t ng quan và h i qui đ n
bi n và tuy n tính, nghĩa là chỉ nghiên cứu trường hợp biến Y chỉ phụ thuộc vào 1 biến X
và dạng phương trình hồi qui là phương trình đường thẳng (khác với các tương quan và hồi
qui bội và phi tuyến).

7.2. T NG QUAN TUY N TÍNH (Linear Correlation)

7.2.1. Đ thị phân tán (Scatter Diagram)


Đồ thị phân tán của biến Y đối với biến X là tập hợp các điểm M(xi , yi) trong hệ tọa độ
vuông góc.
Dựa vào đồ thị phân tán ta có thể xác định được dạng quan hệ giữa 2 biến Y và X.
Y Y
(D)

X
X

Cao Haøo Thi 1


7.2.2. T ng quan tuy n tính (Linear Correlation)
Trong đồ thị phân tán, nếu các điểm M(xi , yi) qui tụ xung quanh một đường thẳng (D) ta
nói hai biến ngẫu Y và X có một sự tương quan tuyến tính. Đường thẳng (D) được gọi là
đường hồi qui tuyến tính (đường hòa hợp thẳng).
7.2.3. H s t ng quan ρ của tập hợp chính (The Population Correlation Coefficient)
Gọi X, Y là cặp giá trị của các biến ngẫu nhiên với số trung bình là µx , µy và phương sai là
σ 2x , σ 2y . Để đo lường mức độ quan hệ giữa X và Y người ta dùng đại lượng hi p t ng
quan (covariance) và h s t ng quan (correlation coefficent).
7.2.3.1. Hi p t ng quan (Covariance)
σX,Y = Cov(X,Y) = E [(x - µx)(y - µy)]

∑ ( x i − µ x )( y i − µ y )
N

σ xy = Cov( X, Y) = i =1
N

7.2.3.2. H s t ng quan của tập hợp chính

ρ = Corr ( X, Y) =
Cov( X, Y)
σ xσ y

∑ (x − µx )2
N

σ xy σ x2 = i =1
1

ρ=
∑(y
σ xσ y
N
− µi ) 2
Với N

σ y2 = i =1
i

N
hay
E[( X − µ x )(Y − µ y )]
ρ=
E[( X − µ x ) 2 ] * E[(Y − µ y ) 2 ]

∑ ( x1 − µ x )( y i − µ y )
N

ρ= i −1

∑ (x i − µ x ) 2 *∑ (y i − µ y ) 2
N N

i =1 i =1

Cao Haøo Thi 2


Tính chất

-1≤ρ≤1

ρ = + 1 : X, Y tương quan tuyến tính dương tuyệt đối


ρ = - 1 : X, Y tương quan tuyến tính âm tuyệt đối
• ρ = 0 : X, Y không tương quan tuyến tính.
7.2.4. H s t ng quan r của mẫu
7.2.4.1. Hi p t ng quan của mẫu (Sample Covariance)

∑ (x i − x )(y i − y )
n

S X,Y = Cov( X, Y) = i =1
n −1
7.2.4.2. H s t ng quan của mẫu r (Sample Correlation Coefficient)

r=
S XY
SX − SY

∑ ( x i − x)( y i − y)
n

r= i =1

∑ ( x i − x) * ∑ ( y i − y ) 2
n n
2

i =1 i =1

hay

∑ x i y i − nx. y
n

r= i =1

⎛ n ⎞⎛ n ⎞
⎜ ∑ x i2 − nx ⎟ ⎜ ∑ y i2 − ny ⎟
2 2

⎜ ⎟⎜ ⎟
⎝ i =1 ⎠ ⎝ i =1 ⎠

Ghi Chú
-1 ≤ r ≤ 1
r được dùng để ước lượng hướng và độ mạnh của mối quan hệ giữa X,Y.
⏐r⏐ > 0,8 tương quan mạnh
⏐r⏐ = 0,4 - 0,8 tương quan trung bình
⏐r⏐ < 0,4 tương quan yếu
⏐r⏐ càng lớn thì tương quan giữa X và Y càng chặt
r > 0 hướng TN - ĐB, r < 0 hướng TB - ĐN
0 < r ≤ 1 : gọi là tương quan tuyến tính thuận (X↑, Y↑)
-1 ≤ r ≤ 0 : gọi là tương quan tuyến tính nghịch (X↑, Y↓)
r là ước lượng của ρ

Cao Haøo Thi 3


Ví dụ
Tính hệ số tương quan giữa 2 biến X, Y cho bởi bảng tương quan sau:
X 0 1 2 3 4
Y 6 7 8 9 4

Gi i
Số phần tử của mẫu n = 5
xi yi (xi - x ) (yi - y ) (xi - x )2 (yi - y )2 (xi - x )(yi- y )
0 6 -2 0 4 0 0
1 5 -1 -1 1 1 1
2 7 0 1 0 1 0
3 8 1 2 1 4 2
4 4 2 -2 4 4 -4

10 30 10 10 -1

x= =2 y= =6
10 30
n=5
5 5

∑ (x − x) ⋅ ( y i − y )
5

−1
r= i =1
= = −0,1
i

∑ (x − x) 2 × ∑ ( y i − y ) 2
5 5
10 × 10
i =1 i =1
i

r = -0,1 tương quan yếu.

7.2.5. Kiểm định gi thuy t về ρ


Nếu chúng ta muốn kiểm định giả thuyết cho rằng các biến không có tương quan tuyến
tính thì ta phải kiểm định giả thuyết H0: ρ = 0. Ta có 3 trường hợp:

Cao Haøo Thi 4


Tr ờng hợp 1
H0 : ρ=0
H1 : ρ≠0
R : bác bỏ H0 nếu tn-2 < - tn - 2, α/2
hay tn-2 > tn-2,a/2

t n −2 =
r
(1 − r 2 ) /(n − 2)
Với

r: hệ số tương quan của mẫu


n: cỡ mẫu
tn-2: tuân theo phân phối Student t với độ tự do n-2

Tr ờng hợp 2
H0 : ρ=0
H1 : ρ>0
R : bác bỏ H0 nếu tn-2 > - tn - 2, α

Tr ờng hợp 3
H0 : ρ=0
H1 : ρ<0
R : bác bỏ H0 nếu tn-2 < - tn - 2, α
Ví dụ
Lấy mẫu ngẫu nhiên 2 biến X và Y ta có các giá trị (xi, yi) cho bởi bảng sau:
X 13 18 9 25 36 19
Y 70 55 100 40 15 20

a) Tìm hệ số tương quan giữa 2 biến X, Y


b) Kiểm định giả thuyết cho rằng biến giữa X và Y không tương quan, với α = 0.05
Gi i
a) Tính r
yI xi yx2 xi2 xiyi
70 13 4900 169 910
55 18 3025 324 991
100 9 10000 81 900
40 25 1600 625 1000
15 36 225 1296 540
20 19 400 361 380
Tổng 300 120 20150 2856 4720

Cao Haøo Thi 5


y=
∑y i
=
300
= 50

∑ xi
n 6

x= = = 20
120

( )
⎜ ∑ xi − n x ⎟ = 2856 − 6 * 20 2 = 456 / 5 = 91,2
n 6
1 ⎛ 6 2 2⎞
S X2 =
1
n − 1 ⎝ i =1 ⎠ 5

S y2 =
n − 1 ⎝ i =1
2⎞ 1
( )
⎜ ∑ y i − n y ⎟ = 20150 − 6 * 50 2 = 5150 / 5 = 1030
1 ⎛ 6 2
⎠ 5

⎜ ∑ xi y i − n x ⋅ y ⎟ = (4720 − 6 * 20 * 50) = −1280 / 5 = −256


1 ⎛ 6 ⎞ 1
S XY =
n − 1 ⎝ i =1 ⎠ 5
Hệ số tương quan:
− 256
r= = = −0,835 tương quan mạnh
S XY
S X S Y 91,2 * 1030
b) Kiểm định giả thuyết:
1. H0 : ρ = 0
2. H1 : ρ ≠ 0
3. α = 0,05 => α/2 = 0,025
n=6 => n - 2 = 4
tn -2, α/2 = t4, 0,025 = 2,776
- tn - 2 , α/2 = -2,776
4, r = -0,835
− 0,835
=
r
(1 − r 2 ) /(n − 2) [1 − (−0,835) 2 ] / 4
t n−2

tn -2 = - 3,03
5. Ra quyết định
tn - 2 = - 3,03 < - tn -2, α/2 = -2,776
=> Bác bỏ H0.
Giữa 2 biến Y và X có tương quan nghịch.

7.3. H I QUI TUY N TÍNH Đ N GI N (Simple Linear Regression)

7.3.1 Khái ni m c b n về h i qui tuy n tính đ n gi n


7.3.1.1. Mô hình h i qui tuy n tính đ n gi n (Simple Linear Regression Model)
Để mô hình hóa quan hệ tuyến tính trong đó diễn tả sự thay đổi của biến Y theo biến X cho
trước người ta sử dụng mô hình hồi qui tuyến tính đơn giản.
Mô hình hồi qui tuyến tính đơn giản có dạng sau:
Yi = A + BXi + ei (mô hình hồi qui tuyến đơn giản Y theo X)
Yi : Giá trị của biến phụ thuộc Y trong lần quan sát thứ i.

Cao Haøo Thi 6


Xi : Giá trị của biến độc lập X trong lần quan sát thứ i .
ei : Giá trị đối với sự dao động ngẫu nhiên hay sai số trong lần quan sát thứ i.
A : là thông số diễn tả tung độ gốc của đường hồi qui của tập hợp chính, hay A là
giá trị trung bình của biến phụ thuộc Y khi biến độc lập X thay đổi 1 đơn vị.
B : là thông số diễn tả độ dốc của đường hồi qui của tập hợp chính, hay B diễn tả
sự thay đổi của giá trị trung bình của biến phụ thuộc Y khi biến độc lập X thay
đổi 1 đơn vị.
7.3.1.2. Ph ng trình h i qui tuy n tính đ n gi n của tập hợp chính
(Population Simple Linear Regression Equation)
Là phương trình diễn tả giá trị trung bình của biến phụ thuộc Y theo biến độc lập X đã biết.
µY/ X = A + BX

7.3.1.3. Ph ng trình h i qui tuy n tính đ n gi n của mẫu


Chúng ta có thể ước lượng các tham số (A,B) của phương trình hồi qui tuyến tính đơn giản
của tập hợp chính bằng cách sử dụng số liệu của mẫu ngẫu nhiên thu thập được. Dựa vào
số liệu của mẫu ta có phương trình hồi qui tuyến tính đơn giản của mẫu.

Y = a + bX

Trong đó:

Y là ước lượng của giá trị trung bình của Y đối với biến X đã biết
a: là ước lượng của A
b là ước lượng của B
Ghi chú
Phương trình hồi qui của Y theo X khác phương trình hồi qui của X theo Y
Nếu X đổi mà Y không đổi => Y và X không có tương quan

Cao Haøo Thi 7


Y

Dựa vào phương trình hồi qui ta có thể tự đoán Y khi biết X
7.3.2. Xác định d c và tung độ g c của đ ờng h i qui tuy n tính

b
1

Y i

Yi êi = Y i - Y i

Xi X

Dựa vào số hiệu của mẫu ta có phương trình hồi qui của Y theo X có dạng:

Y = a + bX
Trong thống kê, để xác định tung độ gốc a và độ dốc b người ta thường sử dụng phương

( )
pháp bình phương tối thiểu (least squared method)

∑e = ∑ (Yi − Yi ) = ∑ Y − a − bX i
n ∧2 n ∧ n 2
2

i =1 i i =1 i =1

Trong phương pháp bình phương tối thiểu ta có:


n ∧2
Min e i
i =1

Để tìm cực tiểu ta cần giải hệ phương trình:

∑ (Yi − a − bX i ) 2 = 0
∂ n
∂a i =1


∂ n
(Yi − a − bX i ) 2 = 0
∂b i =1
Giải hệ phương trình ta có:

Cao Haøo Thi 8


∑( )(
xi − x yi − y ) ∑x y − nxy
n n

b= =
∑( )
i =1 i =1
i i

xi − x ∑ − nx
n 2 n 2
x ai
i =1 i =1

a = y − bx
Người ta chứng minh được rằng a, b là những ước lượng không chệch và vững của A,B.

Đường thẳng Y = a + bX được gọi là đ ờng h i qui thực nghi m

Đường thẳng Y = A + BX được gọi là đ ờng h i qui lý thuy t
Ví dụ
Tìm đường hồi qui thực nghiệm của y theo x cho bời bảng tương quan sau:
xi 1 2 3 4 5
yi 2 5 4 3 6

Gi i
Gọi phương trình đường hồi qui là y = a + bx => xác định a, b.
xi yi xì2 xiyi
1 2 1 2
2 5 4 10
3 4 9 12
4 3 16 12
5 6 25 30

Tổng 15 20 55 66

x= =3 y= =4
15 20
n= 2
5 5

∑x y − nx y
5

66 − 5 * 3 * 4 6
b= i =1
= = = 0,6
i i

∑x
55 − 5 * 3 2
− nx
n
2 2 10
i =1
i

a = y − b x = 4 − 0,6 * 3 = 2,2
Phương trình đường hồi qui thực nghiệm là
y = 0,6x + 2,2

Cao Haøo Thi 9

You might also like