You are on page 1of 31

Hệ số tương quan mẫu

Khi quan sát 1 đối tượng ta thu được các cặp giá trị 𝑥𝑖 , 𝑦𝑖 .
Để có hình ảnh về sự phân tán của các cặp giá trị này, ta biểu diễn
các cặp giá trị này trên hệ trục tọa độ Oxy. Ví dụ:

TS. Nguyễn Văn Quang


2/6/2022 1
Đại học Công nghệ - ĐHQGHN
Hệ số tương quan mẫu
Nhận xét: Xu hướng ở đây là chiều cao tăng theo độ tuổi, hay
chiều cao Y thay đổi 1 cách có hệ thống theo độ tuổi X.
Biểu đồ trên cho thấy mối liên hệ giữa độ tuổi X và chiều cao Y
là 1 đường tuyến tính. Để đo lường mối liên hệ tuyến tính này, ta
sử dụng hệ số tương quan mẫu.
Định nghĩa: Xét mẫu ngẫu nhiên 𝑋1 , 𝑌1 , … , 𝑋𝑛 , 𝑌𝑛 của véc
tơ ngẫu nhiên 𝑋, 𝑌 . Hệ số tương quan mẫu giữa X và Y là thống
kê:
XY  X  Y 1 n
RXY   xy   xi yi

mau cu the

Sˆ X  SˆY n i 1
sˆX2  x 2  x 2 ; sˆY2  y 2  y 2
TS. Nguyễn Văn Quang
2/6/2022 2
Đại học Công nghệ - ĐHQGHN
Hệ số tương quan mẫu
Ý nghĩa của hệ số tương quan:
𝑟𝑋𝑌 ≤ 1: đo mức độ quan hệ tuyến tính giữa X và Y.
𝑟𝑋𝑌 : càng lớn thì mức độ quan hệ tuyến tính giữa X và Y càng
tăng lên.
𝑟𝑋𝑌 < 0: quan hệ tuyến tính giữa X và Y là nghịch biến.
𝑟𝑋𝑌 > 0: quan hệ tuyến tính giữa X và Y là đồng biến.
Định nghĩa: Hai biến ngẫu nhiên gọi là tương quan với nhau nếu
hệ số tương quan khác 0. Hai biến ngẫu nhiên gọi là không tương
quan với nhau nếu hệ số tương quan bằng 0.
Phân tích hồi quy: Nghiên cứu quan hệ giữa biến phụ thuộc Y
và biến độc lập. Biến độc lập không phải là ngẫu nhiên, biến phụ
thuộc có nhiều nhân tố tác động đến, do đó nó là biến ngẫu nhiên.
TS. Nguyễn Văn Quang
2/6/2022 3
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
Định nghĩa: Mô hình hồi quy tuyến tính đơn
Y   0  1 x   ;  N  0, 2 

Đường hồi quy


tuyến tính lý thuyết

TS. Nguyễn Văn Quang


2/6/2022 4
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu

E Y   E   0  1 x      0  1 x  E      0  1 x

D Y   D   0  1 x     D   0  1 x   D      2

Y N   0  1 x, 2 

Đường hồi quy


tuyến tính lý thuyết
TS. Nguyễn Văn Quang
2/6/2022 5
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
Ví dụ: Đường hồi quy tuyến tính lý thuyết có phương trình:
y  65  1.2 x ;   8
E Y x  20   65  1.2  20  41

E Y x  25   65  1.2  25  35

D Y x  20   D Y x  25   82

 50  41 
P Y  50 x  20   P  U    0.5   0 1.125   0.13
 8 
 50  35 
P Y  50 x  25   P  U    0.5   0 1.875   0.03
 8 
TS. Nguyễn Văn Quang
2/6/2022 6
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
P Y  50 x  20   0.13

P Y  50 x  25   0.03

Đường hồi quy


tuyến tính lý thuyết

TS. Nguyễn Văn Quang


2/6/2022 7
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
Giả sử 𝑥, 𝑌 tuân theo mô hình hồi quy tuyến tính đơn.
Từ n quan sát độc lập 𝑥1 , 𝑦1 , … , 𝑥𝑛 , 𝑦𝑛 ta sẽ ước lượng các
tham số của mô hình 𝛽0 , 𝛽1 .
Yi   0  1 xi   i ;  i N  0, 2 
Các quan sát này sẽ tập trung quanh đường hồi quy tuyến tính lý
thuyết.

Hai ước lượng


của đường hồi
quy tuyến tính

TS. Nguyễn Văn Quang


2/6/2022 8
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
Đường hồi quy tuyến
tính ước lượng

n
f  b0 , b1     yi   b0  b1 xi  
2

i 1

f  b0 , b1   min

Đường hồi quy ước lượng (thực nghiệm) của đường hồi quy
tuyến tính lý thuyết:
y  b0  b1 x

TS. Nguyễn Văn Quang


2/6/2022 9
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
Định lý: Từ f b0  f b1  0 ta có:

xy  x  y
b1  , b0  y  b1  x
sˆX
2

Đường hồi quy ước lượng (thực nghiệm) Y theo x:


y y xx
 rXY
sˆY sˆX
Đường hồi quy ước lượng (thực nghiệm) X theo y:
xx y y
 rXY
sˆX sˆY
TS. Nguyễn Văn Quang
2/6/2022 10
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
 fb0  0
Chứng minh: vì f  b0 , b1   min  
 fb1  0
 n   n  n

  yi   b0  b1 xi    0 nb0    xi  b1   yi
 i 1   i 1  i 1
 n 
  y   b  b x  x  0  n
  n
 n

   i  0   i  b1   xi yi
 i 1 i  i x b  x 2

i 1
0

 i 1   i 1  i 1
n n n
n xi yi   xi  yi
xy  x  y
Giải hệ này ta có: b1  i 1 i 1 i 1


n
 n 2
sˆX2
n x    xi 
2
i
 b0  y  b1  x i 1  i 1 
TS. Nguyễn Văn Quang
2/6/2022 11
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu

Từ phương trình đường hồi quy ước lượng Y theo x:

 xy  x  y  xy  x  y
y  b0  b1  x   y  x x
 sˆX
2
 sˆX
2

xy  x  y sˆY
 x  x   y   rXY   x  x   y
sˆX
2
sˆX
y y xx
Do đó:  rXY
sˆY sˆX

TS. Nguyễn Văn Quang


2/6/2022 12
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu

Chú ý: Đường hồi quy ước lượng là đường thẳng xấp xỉ nội suy
từ bảng số liệu của x và Y theo phương pháp bình phương tối
tiểu. Nếu x và Y có tương quan xấp xỉ tuyến tính thì đường hồi
quy ước lượng cho ta một dự báo đơn giản (ngắn hạn):

• Dự báo cá biệt: x  x0  Y  y0  b0  b1  x0

• Dự báo trung bình có điều kiện x  x0 : E Y   y0  b0  b1  x0

TS. Nguyễn Văn Quang


2/6/2022 13
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
Nghiên cứu mối liên hệ giữa X (đồng) là số tiền đầu tư cho việc
phòng bệnh tính trên đầu người và Y (%) là tỷ lệ người mắc bệnh
ở 50 địa phương, ta thu được kết quả sau:
Y
2 2.5 3 3.5 4
X
100 2 3
200 3 6 2
300 4 6 3
400 1 6 4 1
500 6 3

TS. Nguyễn Văn Quang


2/6/2022 14
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
a. Tìm hệ số tương quan mẫu.
b. Xây dựng đường hồi quy tuyến tính thực nghiệm của Y theo X.
c. Nếu năm sau đầu tư cho phòng bệnh là 600 đ/người thì tỷ lệ
mắc bệnh khoảng bao nhiêu %.
Giải: Từ bảng số liệu, ta có:
x  318 ; y  2.95 ; sˆX2  15476 ; sˆY2  0.3625 ; rXY  0.8291
y y xx
 rXY  y  4.226  0.004013  x
sˆY sˆX
Sử dụng đường hồi quy tuyến tính thực nghiệm để xấp xỉ tỷ lệ
người mắc bệnh theo số tiền đầu tư cho việc phòng bệnh, khi đó
tỷ lệ người mắc bệnh năm sau:
y  4.226  0.004013  600  1.8182(%)
TS. Nguyễn Văn Quang
2/6/2022 15
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
Nghiên cứu đo lường độ Cholesterol (Y) trong máu của 10 đối
tượng nam của người độ tuổi (X). Kết quả như sau:
X 20 52 30 57 28 43 57 63 40 49
Y 1.9 4 2.6 4.5 2.9 3.8 4.1 4.6 3.2 4
Xác định phương trình hồi quy mẫu của Cholesterol theo độ tuổi.
1 n 1 n
x   xi  43.9 ; y   yi  3.56
n i 1 n i 1
1 n
sˆX  13.54 ; sˆY  0.8333 ; xy   xi yi  167.26 ; rXY  0.972
n i 1
y y xx
 rXY  y  0.9335  0.05983  x
sˆY sˆX
TS. Nguyễn Văn Quang
2/6/2022 16
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu

Số vốn đầu tư X và lợi nhuận Y trong một đơn vị thời gian của
100 quan sát, được bảng số liệu:

Y
0.3 0.7 1.0
X
1 20 10 0
2 0 30 10
3 0 10 20

TS. Nguyễn Văn Quang


2/6/2022 17
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
a. Xác định phương trình hồi quy mẫu của Y theo X.
Từ bảng số liệu ta có:
n  100
x 2
y  0.71
xy  1.56 ; s X  0.7785 ; sY  0.2439
sˆX  0.7746 ; sˆY  0.2427
rXY  0.7447
y y xx
Từ:  rXY  y  0.2433  0.2333  x
sˆY sˆX
TS. Nguyễn Văn Quang
2/6/2022 18
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
b. Với độ tin cậy 0.95, hãy ước lượng số vốn đầu tư và lợi nhuận
trung bình.

sX
X  t /2  0.15259
n
x   X   X  x   X  1.85   X  2.15
sY
Y  t /2  0.04781
n
y   Y  Y  y   Y  0.66  Y  0.76

TS. Nguyễn Văn Quang


2/6/2022 19
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
c. Trước đây lợi nhuận trung bình là 0.6. Với mức ý nghĩa 0.05,
hãy kiểm tra ý kiến cho rằng lợi nhuận trung bình đã tăng lên.

H 0 :   0  0.6 ; H1 :   0.6
y  0 0.71  0.6
t n 100  4.51  t0.05  1.65
sY 0.2439

Bác bỏ 𝐻0 , chấp nhận 𝐻1 , do đó lợi nhuận trung bình đã tăng lên.

TS. Nguyễn Văn Quang


2/6/2022 20
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
d. Lợi nhuận lớn hơn 0.7 là lợi nhuận cao. Với mức ý nghĩa 0.01,
hãy kiểm tra ý kiến cho rằng tỷ lệ lợi nhuận cao là 0.32.
H 0 : p  p0  0.32 ; H1 : p  0.32
30
f   0.3
100
f  p0 0.3  0.32
t n 100  0.43
p0 (1  p0 ) 0.32  0.68
t  t0.01  2.33
Giá trị quan sát không rơi vào miền bác bỏ. Do đó, tạm thời chấp
nhận 𝐻0 , do đó ý kiến đã cho là đúng (đối với mẫu này).
TS. Nguyễn Văn Quang
2/6/2022 21
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu

Cho X (%) và Y (g/mm) là 2 chỉ tiêu của 1 sản phẩm. Kiểm tra
một số sản phẩm ta có bảng số liệu sau:

X
0-5 5-10 10-15 15-20 20-25
Y
115-125 7 0 0 0 0
125-135 12 8 10 0 0
135-145 0 20 15 2 0
145-155 0 19 16 9 5
155-165 0 0 0 8 3

TS. Nguyễn Văn Quang


2/6/2022 22
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu

Từ bảng tần số đồng thời, ta có bảng tần số thành phần:

X 2.5 7.5 12.5 17.5 22.5


ni 19 47 41 19 8

Y 120 130 140 150 160


ni 7 30 37 49 11

n
i
i  134

TS. Nguyễn Văn Quang


2/6/2022 23
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
a. Giả sử trung bình tiêu chuẩn của Y là 120 g/mm. Với mức ý
nghĩa 1% hỏi tình hình sản xuất có cao hơn tiêu chuẩn đề ra
không?
Giả thiết H0: EY = 120. Đối thiết H1: EY > 120.
Từ bảng tần số thành phần ta có: y  142.01, s  10.53

Giá trị quan sát:

t
 y  0  n

142.01  120  134
 24.2  t0.01  2.33
s 10.53
Bác bỏ giả thiết H0, do đó tình hình sản xuất cao hơn tiêu chuẩn
đề ra.
TS. Nguyễn Văn Quang
2/6/2022 24
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
b. Để ước lượng trung bình chỉ tiêu của Y với độ chính xác 0.6
g/mm thì đảm bảo độ tin cậy là bao nhiêu?
s
Sai số của ước lượng:    t /2
n

 n 0.6 134
Suy ra: t /2    0.66
s 10.53

1 1
Ta có:  0  t /2    0.245   1    0.49
2 2

Độ tin cậy là 49%.


TS. Nguyễn Văn Quang
2/6/2022 25
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
c. Sản phẩm có chỉ tiêu X lớn hơn 17 là sản phẩm loại A. Tìm
ước lượng khoảng cho tỷ lệ sản phẩm loại A với độ tin cậy 99%.

19  8
Tỷ lệ sản phẩm loại A trên mẫu: f   0.2015
134

f 1  f 
Sai số của ước lượng:   t /2 
n
0.2015  0.7985
 2.57   0.09
134

Khoảng ước lượng cho tỷ lệ:  f   , f      0.112,0.291


TS. Nguyễn Văn Quang
2/6/2022 26
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
d. Lập phương trình hồi quy tuyến tính của X theo Y. Dự đoán X
biết Y = 145 g/mm.
xy  x  y
Hệ số tương quan mẫu: rXY   0.6524
sˆX  sˆY

Phương trình hồi quy tuyến tính của X theo Y:


xx yy
 rXY  x  0.3311y  36.386
sˆX sˆY

Dự đoán khi Y = 145 thì X là: x  0.3311 145  36.386  11.62

TS. Nguyễn Văn Quang


2/6/2022 27
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu

Để nghiên cứu doanh số bán hàng (triệu đồng) trong một ngày ở
cửa hàng A, ta tiến hành khảo sát một số ngày và thu được số liệu
sau:
Doanh số 24 30 36 42 48 54 60 65 70
Số ngày 5 12 25 35 24 15 12 10 6
Giả sử doanh số bán hàng (triệu đồng/ngày) của cửa hàng A là
biến ngẫu nhiên có phân bố (xấp xỉ) chuẩn. Những ngày có
doanh số bán từ 60 triệu đồng trở lên được gọi là những ngày
“bán đắt hàng”.

TS. Nguyễn Văn Quang


2/6/2022 28
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
a. Với độ tin cậy 95%, ước lượng tỷ lệ của những ngày “bán đắt
hàng” của cửa hàng A.
b. Ước lượng doanh số bán trung bình của một ngày “bán đắt
hàng” của cửa hàng A với độ tin cậy 95% (giả sử doanh số bán
của những ngày “bán đắt hàng” là biến ngẫu nhiên có phân bố
(xấp xỉ) chuẩn).
c. Trước đây doanh số bán trung bình của A là 35 triệu/ngày. Số
liệu ở bảng trên được thu thập sau khi A áp dụng phương thức
bán hàng mới. Với mức ý nghĩa 5%, hãy nhận xét xem phương
thức bán hàng mới có làm tăng doanh số trung bình hay không?
d. Trước đây tỷ lệ những ngày “bán đắt hàng” là 22%. Năm nay
có ý kiến cho rằng tỷ lệ này đã suy giảm. Với mức ý nghĩa 5%,
hãy cho nhận xét về ý kiến trên.
TS. Nguyễn Văn Quang
2/6/2022 29
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu
Kiểm tra ngẫu nhiên khối lượng của 28 sản phẩm cùng loại do một
máy sản xuất, ta thu được kết quả sau:
Khối lượng (kg) 3.90-3.94 3.94-3.98 3.98-4.02 4.02-4.06 4.06-4.10
Số sản phẩm 2 7 10 6 3
Biết rằng khối lượng sản phẩm tuân theo quy luật phân bố chuẩn.
a. Với độ tin cậy 0.95 hãy tìm khoảng ước lượng của khối lượng trung
bình của sản phẩm.
b. Những sản phẩm có khối lượng lớn hơn 4.02 kg được xem là sản
phẩm loại I. Hãy ước lượng cho tỷ lệ sản phẩm loại I với độ tin cậy
99%.
c. Với mức ý nghĩa 5% hãy kiểm định giả thuyết “khối lượng trung
bình của sản phẩm do nhà máy sản xuất là 4 kg”.
d. Với mức ý nghĩa 5% hãy kiểm định giả thuyết “tỷ lệ sản phẩm có
khối lượng lớn hơn 4.02 kg của nhà máy là 30%”.
TS. Nguyễn Văn Quang
2/6/2022 30
Đại học Công nghệ - ĐHQGHN
Hồi quy mẫu

Trái cây A có khối lượng (X) xấp xỉ phân bố chuẩn. Cân 68 quả,
ta có bảng số liệu sau:
X [80,85) [85,90) [90,95) [95,100) [100,105) [105,110) [110,115)
n 5 12 25 35 24 15 12

a. Trái cây có khối lượng trên 25 gam là loại I. Với độ tin cậy
95% hãy tìm khoảng tin cậy của ntỷ lệ trái cây loại I.
b. Sau khi kiểm tra, người ta nhập lô trái cây A nhưng giống khác
và khối lượng trung bình là 100.5 gam. Với mức ý nghĩa 5% hãy
cho biết khối lượng trung bình có tang lên hay không?
c. Muốn ước lượng tỷ lệ sản phẩm loại I với độ tin cậy 90% và
độ chính xác 0.01 thì cần điều tra thêm hay bớt đi bao nhiêu sản
phẩm?
TS. Nguyễn Văn Quang
2/6/2022 31
Đại học Công nghệ - ĐHQGHN

You might also like