You are on page 1of 12

XÁC SUẤT THỐNG KÊ Y DƯỢC

BIOSTATISTICS
CHUYÊN ĐỀ: KIỂM ĐỊNH GIẢ THUYẾT – PHÂN TÍCH
TƯƠNG QUAN – HỒI QUY REFERENCES
TS. ĐÀO HỒNG NAM 1. Jay S. Kim, Ronald J. Dailey (2008), Biostatistics for Oral Healthcare,
published 2008 by Blackwell Munksgaard, a Blackwell Publishing
Company. USA.
2. Wayne W. Daniel (2009), Biostatistics: a foundation for analysis
in the health sciences. John Wiley & Sons, Inc. USA.
3. Nigel C. Smeeton (2017). Dental statistics made easy. Third Edition.
© 2017 by Taylor & Francis Group, LLC. USA.
4. Altman DG (1991). Practical statistics for medical research. London:
Chapman and Hall.

Fanpage: facebook.com/xstkyd

MỞ ĐẦU
Suy luận thống kê là một quá trình tìm kiếm các kết luận liên quan đến một tổng Mục đích của kiểm định giả thuyết là để hỗ trợ nhà nghiên cứu hoặc nhà quản lý
thể (dân số) dựa trên thông tin hạn chế từ một mẫu được lấy từ tổng thể mà đưa ra kết luận liên quan đến một quần thể bằng cách kiểm định một hoặc một số
chúng ta quan tâm. Có nhiều cách tiếp cận khác nhau để đưa ra quyết định về mẫu từ quần thể đó.
dân số. Một trong những cách tiếp cận là kiểm định giả thuyết (KĐGT), có
ĐỊNH NGHĨA: Một giả thuyết là một tuyên bố về một hoặc nhiều quần thể.
nhiều ứng dụng trong y sinh và khoa học sức khỏe, cũng như các ngành khác.
KĐGT có thể được áp dụng để giải quyết các phỏng đoán như sau: Giả thuyết thường liên quan đến các tham số của quần thể mà tuyên bố được đưa
• Đeo miếng bảo vệ miệng là một cách hiệu quả để ngăn ngừa chấn thương cho ra. Một nhà quản lý bệnh viện có thể đưa ra giả thuyết rằng thời gian lưu trú trung
răng trong các hoạt động thể thao. bình của những bệnh nhân nhập viện là 5 ngày; một y tá sức khỏe cộng đồng có
• Tỷ lệ răng bị sâu, mất, trám (decayed, missing, filled teeth -DMFT) ở trẻ em thể đưa ra giả thuyết rằng một chương trình giáo dục cụ thể sẽ giúp cải thiện giao
bị sứt môi / vòm miệng cao hơn so với trẻ không bị sứt môi / vòm miệng. tiếp giữa y tá và bệnh nhân; bác sĩ có thể đưa ra giả thuyết rằng một loại thuốc
• Uống rượu, như hút thuốc, có thể liên quan đến các bệnh nha chu. nhất định sẽ có hiệu quả trong 90% các trường hợp mà nó được sử dụng. Bằng
• Bệnh nhân được điều trị bằng nifedipine có xu hướng phì đại lợi (gingival cách kiểm định giả thuyết, người ta xác định xem liệu các tuyên bố đó có tương
enlargement). thích với dữ liệu có sẵn hay không.
• Tỷ lệ sống sót sau 5 năm của bệnh ung thư miệng và họng ở bệnh nhân da
trắng cao hơn bệnh nhân da đen.
ĐỊNH NGHĨA: Giả thuyết thống kê là giả thuyết về tham số, về luật phân phối
• Thuốc tẩy có hiệu quả hơn nhiều so với xà phòng rửa bát trong việc loại bỏ
hoặc tính chất của biến ngẫu nhiên mà chúng có thể được đánh giá bằng các kỹ
các vi sinh vật như salmonella, pseudomonas, staphylococcus và candida.
thuật thống kê thích hợp.

Các quy tắc để nêu giả thuyết thống kê


Các bước kiểm định giả thuyết
Tùy theo bản chất của DL, mục đích mong muốn của NNC mà có thể đặt ra các
1. Dữ liệu. Bản chất của dữ liệu tạo cơ sở cho các thủ tục KĐ phải được hiểu rõ,
GT khác nhau.
vì điều này xác định KĐ cụ thể sẽ được sử dụng. Dữ liệu bao gồm số đếm hoặc số
Ví dụ, Giả thuyết là H0:  = 50; HA:  ≠ 50.
đo, phải được xác định.
Giả sử chúng ta muốn biết liệu có thể kết luận rằng trung bình dân số lớn hơn 50
2. Các giả định. Các giả định thông thường là: PPC của DL, sự đồng nhất của
hay không. Các giả thuyết là: H0:  ≤ 50; HA:  > 50.
các phương sai và tính độc lập của các mẫu.
Nếu chúng ta muốn biết liệu có thể kết luận rằng trung bình dân số nhỏ hơn 50
hay không, các giả thuyết là H0:  ≥ 50; HA:  <50.
3. Các giả thuyết KĐ
H0: GT vô hiệu, là GT được kiểm định. 4. Lựa chọn phép KĐ
HA : GT thay thế khi H0 bị bác bỏ, là một tuyên bố về những gì NNC tin là đúng. Tùy theo bản chất của dữ liệu, các giả định, các phân phối mà dữ liệu tuân theo,
NNC sẽ lựa chọn một trong các phép kiểm phù hợp như: Z, T, F, 2, …
Trong quá trình KĐ, H0 hoặc bị bác bỏ hoặc không bị bác bỏ (chấp nhận).
Nếu H0 không bị bác bỏ, thì có thể nói rằng DL không cung cấp đủ bằng chứng để
từ chối. Ngược lại, nếu H0 bị bác bỏ thì có thể nói rằng DL hiện tại không tương Công thức chung cho một phép kiểm thống kê là:
thích với H0, nhưng hỗ trợ cho GT khác: HA.
Thông thường HA và giả thuyết nghiên cứu là giống nhau, và trên thực tế, hai thuật
ngữ này được sử dụng thay thế cho nhau.
5. Quy tắc quyết định. Các loại sai lầm trong KĐGT
Các giá trị của KĐ tạo thành vùng bác bỏ là những giá trị ít có khả năng xảy ra Sai lầm mắc phải khi H0 đúng bị bác bỏ được gọi là sai lầm loại I (ký hiệu là α). Sai
nếu H0 là đúng, trong khi các giá trị tạo nên vùng chấp nhận có nhiều khả năng lầm loại II (ký hiệu là β) là sai lầm mắc phải khi một giả thuyết H0 không bị bác bỏ
xảy ra nếu H0 là đúng. Quy tắc quyết định là bác bỏ giả thuyết H0 nếu giá trị của nếu nó sai. Nói chung, chúng ta không kiểm soát β, mặc dù chúng ta biết rằng trong
KĐ là một trong các giá trị trong vùng bác bỏ và ngược lại. Quy tắc này dựa vào hầu hết các tình huống thực tế, nó lớn hơn α.
mức ý nghĩa alpha ()
Thuật ngữ mức ý nghĩa phản ánh thực tế là
các kiểm định giả thuyết đôi khi được gọi là
kiểm định ý nghĩa và giá trị tính toán của
KĐ nằm trong vùng bác bỏ được cho là sự
khác biệt có ý nghĩa.
Ngoài ra, trong nghiên cứu, NNC thường sử
6. Tính toán giá trị KĐ. Từ dữ liệu có trong mẫu, chúng ta tính toán giá trị của
dụng p value để quyết định theo quy tắc:
KĐ và so sánh nó với các vùng từ chối và không từ chối đã được chỉ định.
Nếu p < 0,05 thì bác bỏ H0. (GT không phù
hợp với dữ liệu) và ngược lại. 7. Quyết định. Quyết định bao gồm việc bác bỏ hoặc không bác bỏ giả thuyết vô
hiệu H0. Nó bị từ chối nếu giá trị được tính toán của KĐ nằm trong vùng bác bỏ và
ngược lại.
P value là XS thu thập được bộ DL như đã thực hiện với điều kiện H0 là 8. Kết luận. Nếu H0 bị bác bỏ, ta kết luận rằng HA là đúng. Nếu H0 không bị bác
đúng. P value cũng là giá trị  nhỏ nhất để có thể bác bỏ H0. bỏ, thì kết luận rằng H0 có thể đúng.

Ví dụ 1. Huyết áp tâm thu của 100 người khỏe 98 87 101 92 110


Evaluate Review State Select test mạnh: 119 80 82 105 96
data assumptions hypotheses statistics 95 người (95%) có h/a từ 80-120 mmHg 81 81 88 115 94
 có 5 người có h/a bất thường, nếu coi 5 người 115 98 96 116 114
82 116 91 107 81
này có bệnh thì sai sót α= 5% (sai lầm I) 90 84 105 89 102
Ngược lại, trong 100 người có h/a 80-120 mmHg, 81 96 110 103 101
Determine có thể có 6 người đã có bệnh nhưng chẩn đoán 87 93 94 96 102
Caculate test State distribution 119 83 96 84 103
statistics decision rule
không bệnh thì sai sót β = 6% (sai lầm II)
of test 106 100 99 84 119
statistics Ví dụ 2. NC về hiệu quả hạ huyết áp bằng thuốc A
111 92 100 101 90
trên 2 nhóm: 96 102 92 107 97
- Nhóm 1: 83 BN được uống thuốc A 102 112 86 116 80
- Nhóm 2: 77 BN được uống placebo. Theo dõi 89 80 106 114 88
sau 3-6 tháng, đánh giá kết quả bằng các test TK 95 91 110 84 92
108 100 110 97 93
xem thuốc A có hạ được h/a.
88 90 112 98 113
Ho: Thuốc A không có tác dụng hạ h/a. 93 89 109 88 103
Có 4 tình huống xảy ra như sau: 94 96 98 88 95
(1) Ho đúng nhưng bác bỏ Ho: sai sót . 60 60 130 140 150
(2) Ho đúng và không bác bỏ Ho: QĐ đúng
(3) Ho sai và bác bỏ Ho: QĐ đúng
(4) Ho sai nhưng không bác bỏ Ho: sai sót .

𝑟
(𝑛𝑖 − 𝑛𝑖 ′)2 (580 − 500)2 (420 − 500)2
PHÉP KIỂM CHI BÌNH PHƯƠNG (CHI SQUARED TEST) 𝑄=෍ = +
Mục đích: 𝑛𝑖 ′ 500 500
𝑖=1
- Dùng để so sánh hai tỷ lệ, nhiều tỷ lệ
- Kiểm định sự độc lập hay phụ thuộc Quy tắc quyết định như sau:
- Kiểm định sự phù hợp của dữ liệu với một phân phối - Nếu Q  C thì chấp nhận H0
1. Trường hợp số liệu trên một hàng - Nếu Q > C thì bác bỏ H0.
Ví dụ 1. Thống kê số người đến khám và điều trị RHM tại một số bệnh viện, kết C là giá trị ngưỡng trong PP Chi bình phương
quả như sau: 𝐶 = 𝜒𝛼2 (𝑟 − 1)
Nam Nữ Tổng
580 420 N =1000
Hỏi: Tỷ lệ nam và nữ có như nhau không? α C KQ KL
H0: Tỷ lệ nam và nữ như nhau 0,05 3,841 Q>C Bác bỏ Ho
Nếu H0 đúng thì ta có bảng sau đây, gọi là bảng phân phối tần số LT 0,01 6,635 Q>C Bác bỏ Ho
Nam (0,5) Nữ (0,5) Tổng r
(ni − ni ') 2 0,001 10,828 Q>C Bác bỏ Ho
500 500 n = 1000 Q= 
i =1 ni ' Chọn α = 0,05 thì C = 3.841  Q > C nên bác bỏ Ho
Kết luận:
2. Trường hợp số liệu trên bảng dự phòng rc (The Contingency Table)
Ví dụ 2. Nhóm máu của một mẫu gồm 500 người lấy từ dân số X như
Sự phân loại theo hai tiêu chí, của một tập hợp các đối tượng có thể được hiển thị
sau:
bằng một bảng 𝑟 × 𝑐 trong đó r và c đại diện cho các cấp độ khác nhau của tiêu chí
A (0,18) B (0,28) AB (0,05) O (0,49) Tổng thứ nhất và thứ hai tương ứng. Chúng ta sẽ quan tâm đến việc kiểm định giả thuyết
75 150 15 260 500 H0 rằng trong quần thể, hai tiêu chí phân loại là độc lập. Một mẫu có kích thước n
sẽ được lấy từ tập hợp các đối tượng như Bảng dưới đây:
Hỏi: Nhóm máu của dân số X có phù hợp với quy luật trên đây không?

Giải: Đặt GT H0: Nhóm máu của dân số X phù hợp với hằng số sinh học
A (0,18) B (0,28) AB (0,05) O (0,49) Tổng
75 (90) 150 (140) 15 (25) 260 (245) 500
r
(ni − ni ') 2
Q= 
i =1 ni '
Lấy  = 0,05 ta có C = 2(3) = 7,815 < Q nên bác bỏ H0.
Kết luận: Ngưỡng C được tính theo phân phối Chi bình phương: 𝑪 = 𝝌𝟐𝜶(𝒓 − 𝟏) × (𝒄 − 𝟏)

Ví dụ 3. Mặc dù mão sứ kim loại thường xuyên được sử dụng trong những năm
a. Bảng 2x2
gần đây, nhưng nhiều bệnh nhân vẫn thích loại mão sứ hơn. Lý do chính cho sự
H0: A và B độc lập ưa thích của họ là tính thẩm mỹ vượt trội. Các chuyên gia về răng giả đã nghiên
cứu tỷ lệ sống sót của hai loại mão này. Trong khoảng thời gian 4 năm, có 368
Bệnh B bệnh nhân bọc mão sứ kim loại và 294 bệnh nhân bọc mão răng sứ ở phía trước
Yếu tố A Tổng hàm trên. Nghiên cứu tiếp theo cho thấy 330 bệnh nhân bọc mão sứ kim loại và
Có Không 251 bệnh nhân bọc mão bọc sứ có mão vẫn hoạt động.
Có a b 𝑎 + 𝑏 = 𝑚1
Thời gian hoạt động
Không c d 𝑐 + 𝑑 = 𝑚0 H0: Không có liên quan giữa loại mão Mão Tổng
và thời gian hoạt động.
Tổng 𝑎 + 𝑐 = 𝑛1 𝑏 + 𝑑 = 𝑛0 𝑛 =𝑎+𝑏+𝑐+𝑑 <5 năm ≥5 năm
(38 × 251 − 43 × 330)2 × 662
𝑄=
81 × 581 × 368 × 294 Kim loại 38 330 368
𝑄=
𝑎𝑑 − 𝑏𝑐 2 . 𝑛 Sứ 43 251 294
𝑄= Tổng 81 581 662
𝑛1 . 𝑛0 . 𝑚1 . 𝑚0
Kết luận:
Nếu 𝑄 > 𝐶 = 𝜒𝛼2 (1) thì bác bỏ 𝐻0

t ≤ 10 10 < t ≤ 25 t > 25 Tổng


σ 𝑟𝑖 ×σ𝑐𝑖 Ví dụ 5. Sau khi phẫu thuật tại bệnh viện, bệnh nhân được chuyên gia
b. Bảng rxc: Tính TSLT 𝑛𝑖′ =
Nặng 1
𝑛
42 230 273 dinh dưỡng hỗ trợ dinh dưỡng tại nhà như một phần của quá trình theo
dõi. Bảng dưới cho thấy tình trạng dinh dưỡng được đánh giá ba tháng
Ví dụ 4: Một nghiên cứu về mức độ Vừa 6 114 347 467
sau khi xuất viện. Việc cung cấp hỗ trợ ăn kiêng tại nhà có liên quan đến
bệnh và thời gian chủng ngừa có kết Nhẹ 23 301 510 834
Tổng 30 457 1087 1574 việc cải thiện tình trạng dinh dưỡng 3 tháng sau khi xuất viện không?
quả như bảng bên. Kết luận?
Ho: Mức độ bệnh X không phụ thuộc vào thời gian chủng ngừa.
t ≤ 10 10 < t ≤ 25 t > 25 Tổng
Nặng 1 (5,203) 42 (79,263) 230 (188,534) 273
Vừa 6 (8,9) 114 (135,590) 347 (322,51) 467
Nhẹ 23 (15,897) 301 (242,147) 510 (575,956) 834 α = 0.05  C = 7.815
Tổng 30 457 1087 1574
𝐻0: Việc cung cấp hỗ trợ ăn kiêng tại nhà không liên quan đến việc cải
27330/1574 thiện tình trạng dinh dưỡng 3 tháng sau khi xuất viện.
r
(ni − ni ') 2 Vì Q > C nên bác bỏ 𝐻0.
Q= 
i =1 ni '
Lấy  = 0,05 ⇒ C = 2(4) = 9,488. Vì Q > C nên bác bỏ
H0.
Kết luận:

Kết luận:
Chú ý: Phép kiểm chi bình phương chỉ có hiệu lực tốt khi tần số lý thuyết 𝑛𝑖′ ≥ 5.
H0: Không có sự liên quan giữa chủng tộc và tình trạng sử dụng axit folic Nếu vi phạm điều này cần thiết phải sử dụng các phép hiệu chỉnh hoặc phép kiểm
chính xác Fisher.
247.8585 311.1415 559 ❖ Hiệu chỉnh liên tục Yates(1934): sử dụng khi 2 ≤ 𝑛𝑖′ < 5
24.83019 31.16981 56 𝑛 𝑎𝑑 − 𝑏𝑐 − 0,5𝑛 2
9.311321 11.68868 21 𝑄=
(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)
282 354 636
❖ Phép kiểm chính xác Fisher (Fisher’s exact test): Sử dụng khi 𝑛𝑖′ < 2
. dụ 6. Số trẻ em từ 13–14 tuổi tiêu thụ trái cây và rau quả đáp ứng các khuyến

nghị, theo giới tính.

Chọn  = 0,05 thì C = 2 (2) = 5.991


Q > C, bác bỏ H0.

𝑛 𝑎𝑑 − 𝑏𝑐 − 0,5𝑛 2 2
Kết luận: 𝑄= = 2,539 < 𝐶 = 𝜒0,05 1 = 3,841. Chấp nhậnH0.
(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)
Kết luận:

Ví dụ 7. Dùng thuốc X điều trị cho 21 bệnh nhân bị bệnh A, thấy khỏi bệnh 4 PHÂN BIỆT CÁC THAM SỐ MẪU VÀ DÂN SỐ (QUẦN THỂ)
người. Dùng thuốc Y điều trị cho 19 bệnh nhân bị bệnh A, thấy khỏi bệnh 1
người. Kết luận?
H0: Tác dụng của thuốc X và Y như nhau
Thuốc Khỏi bệnh Không khỏi Tổng Thuốc Khỏi bệnh Không khỏi Tổng
X 4 17 21 X 2,625 18,375 21
Y 1 18 19 Y 2,375 16,625 19
Tổng 5 35 40 Tổng 5 35 40

Q = 0,702 (p = 0,4022)
2
Chọn 𝛼 = 0.05 ⇒ 𝐶 = 𝜒0.05 1 = 3.841. Vì Q < C nên không bác bỏ 𝐻0
Kết luận:

SO SÁNH HAI TRUNG BÌNH (Two Sample Means Comparisons) b. Khi mẫu rút từ dân số có PPC và phương sai 2
1. So sánh trung bình thực nghiệm và trung bình lý thuyết (0) chưa biết
𝐻0 : 𝜇 = 𝜇0 ; 𝐻1 : 𝜇 ≠ 𝜇0
𝑋 − 𝜇0
a. Khi mẫu rút từ dân số có PPC và phương sai 2 đã biết (nếu 30 thì 2 = s2) 𝑇= ~𝑡𝛼 𝑛 − 1
𝑠/ 𝑛
𝑋 − 𝜇0 α 0.05 0.01
𝑍= ~𝑁(0; 1)
𝜎/ 𝑛 C 1,96 2,58 Quy tắc quyết định
Nếu |T| > C = 𝑡𝛼 𝑛 − 1 thì bác bỏ H0.
Quy tắc quyết định: Nếu |Z| > C thì bác bỏ H0. Ví dụ: Nếu 𝒏 = 𝟐𝟕
• 𝛼 = 0.05 ⇒ 𝐶 = 𝑡0.05 26 = 2.056
• 𝛼 = 0.01 ⇒ 𝐶 = 𝑡0.01 26 = 2.779
• 𝛼 = 0.001 ⇒ 𝐶 = 𝑡0.001 26 =3.707
Ví dụ 1. Mức trung bình của prothrombin (một loại protein có trong huyết Examle 2. For many years, conscious sedation has been a popular pharmacological
tương được chuyển thành thrombin hoạt động trong quá trình đông máu) approach in the management of young uncooperative children who need invasive
trong dân số bình thường là 20 mg/100 ml huyết tương và độ lệch chuẩn dental and medical procedures. The waiting time Y after drug administration for
là 4 mg/100 ml. Một mẫu gồm 40 bệnh nhân thiếu vitamin K có mức sedation is believed to be normally distributed. For the children who are at least 36
prothrombin trung bình là 18,50 mg/100 ml. Có thể kết luận rằng giá trị months old, the average waiting time is about 55 minutes. Some pediatric clinicians
trung bình của bệnh nhân thiếu vitamin K giống với mức trung bình của claim that they have waited longer and were determined to prove it. They observed
dân số bình thường không? 22 sedation appointments and recorded the waiting time for each appointment. The
sample mean of these 22 observations is 61 minutes. Suppose the variance of the
𝐻0 : 𝜇 = 20; 𝐻1: 𝜇 ≠ 20 waiting time Y is 104. State the hypotheses and perform an appropriate test at the
𝑥 − 𝜇0 significance level α = 0.05.
𝑧= =
𝜎/ 𝑛
𝛼 = 0.05 ⇒ 𝑍 > 𝐶 = 1.96. Bác bỏ H0. 𝐻0 : 𝜇 = 55; 𝐻1: 𝜇 ≠ 55
Kết luận: 𝑥 − 𝜇0
𝑧= =
𝑠/ 𝑛
Since 𝐶 = 𝑍1−𝛼/2 = 1.96 and |Z| = 2.7596 > C, we reject 𝐻0
Because 61 > 55 ⇒ 𝜇 > 55
Conclude: The average waiting time is ……………………………………………………………than
55 minutes at the significance level α = 0.05.
.

2. So sánh 2 trung bình thực nghiệm độc lập Ví dụ 3. Suppose investigators wish to compare the clinical shear bond strength of
Mẫu 1: Cỡ mẫu 𝑛1 rút từ dân số 𝑋1 ~𝑁 𝜇1; 𝜎12 the two mostwidely used orthodontic adhesives; Orthobond (Vivident) and
Mẫu 1: Cỡ mẫu 𝑛2 rút từ dân số 𝑋2 ~𝑁 𝜇2 ; 𝜎22 Unibond (Orthobite). For this study, 𝑛1 = 15 Orthobond and 𝑛2 = 12 Unibond
Giả thuyết: 𝐻0 : 𝜇1 = 𝜇2 ; 𝐻1: 𝜇1 ≠ 𝜇2 samples were prepared and their strength was tested using an Instron machine.
a. Nếu (12, 22) đã biết From the measurements of the shear bond strength, they have estimated 𝑋ത1 =
9.28 kg and 𝑋ത2 = 8.13 kg. Assume that the shear bond strength is normally
𝑋1 − 𝑋2
𝑍= ~𝑁(0; 1) distributed with known variances 𝜎12 = 4.75 𝑎𝑛𝑑 𝜎22 = 4.37
𝜎12 𝜎22 𝐻0 : 𝜇1 = 𝜇2 ; 𝐻1: 𝜇1 ≠ 𝜇2
+
𝑛1 𝑛2 𝑋1 − 𝑋2
Quy tắc quyết định: Nếu |Z| > C thì bác bỏ H0. 𝑍= =
𝜎12 𝜎22
𝑛1 + 𝑛2

At the significance level α = 0.05, |Z| < C = 1.96. Thus, we accept 𝐻0


Conclude:

b. Nếu phương sai 12, 22 chưa biết (n1< 30, n2 < 30) Ví dụ 4. Dernellis và Panaretou đã khảo sát chỉ số độ cứng động mạch chủ trên 15 bệnh
* so sánh hai phương sai 𝐻0: 𝜎12 = 𝜎22 ; 𝐻1 : 𝜎12 ≠ 𝜎22 . Giả sử 𝑠12 > 𝑠22 nhân bị tăng huyết áp (nhóm 1) và 30 người khỏe mạnh (nhóm 2). Các phép đo của biến
này được tính toán từ đường kính động mạch chủ được đánh giá bằng siêu âm tim và
𝑠12 huyết áp. Các thông số về chỉ số độ cứng trung bình của động mạch chủ và độ lệch
F = 2 ~𝐹𝑖𝑠ℎ𝑒𝑟(𝑛1 − 1; 𝑛2 − 1)
𝑠2 chuẩn tương ứng của 2 nhóm là: Nhóm 1: 19.16 và 5.29; nhóm 2: 9.53 và 2.69. Các
Nếu 𝐹 > 𝐶 = 𝐹𝛼 (𝑛1 − 1; 𝑛2 − 1) thì bác bỏ 𝐻0 NNC muốn xác định xem có sự khác nhau về chỉ số độ cứng trung bình của động mạch
chủ trong 2 dân số lấy mẫu bởi 2 nhóm trên hay không.
❖ Nếu 12 = 22 • So sánh hai phương sai: 𝐻0 : 𝜎12 = 𝜎22 ; 𝐻1 : 𝜎12 ≠ 𝜎22
❖ Nếu 12 ≠ 22
𝑛1 − 1 𝑠12 + 𝑛2 − 1 𝑠22 𝑥1 − 𝑥2 𝑠12
𝑠𝑝2 = 𝑡= ~𝑡𝛼 (𝑑𝑓) 𝐹= 2=
𝑛1 + 𝑛2 − 2 𝑠2
𝑥ҧ1 − 𝑥ҧ2 𝑠12 𝑠22 F > C = F0.05(14;29) = 2.05, bác bỏ H0.
𝑡=
1 1
~𝑡𝛼 (𝑑𝑓) 𝑛1 + 𝑛2 • So sánh hai trung bình: H0: µ1 = µ2
𝑠𝑝2 𝑛 + 𝑛 𝑠12 𝑠22 𝑠𝑒12 + 𝑠𝑒22 2
1 2 𝑠𝑒12 + 𝑠𝑒22 2 𝑠𝑒12 = = 1.865; 𝑠𝑒22 = = 0.241; 𝑑𝑓 = =
Với 𝑑𝑓 = 𝑛1 + 𝑛2 − 2 𝑑𝑓 = 𝑛1 𝑛2 𝑠𝑒14 𝑠𝑒24
𝑠𝑒14 𝑠𝑒24 +
𝑛1 − 1 + 𝑛2 − 1 𝑛1 − 1 𝑛2 − 1
𝑠2 𝑠2 𝑥1 − 𝑥2
Với 𝑠𝑒12 = 𝑛1 ; 𝑠𝑒22 = 𝑛2 𝑡= =
1 2 𝑠𝑒12 + 𝑠𝑒22
Quy tắc quyết định : Nếu |t| > C = 𝑡𝛼 (𝑑𝑓) thì bác bỏ H0. Vì |t| > C = t0.05(16) = 2.119, bác bỏ H0.
Kết luận:
3. So sánh 2 trung bình ghép cặp (PAIRED COMPARISONS) Thay vì thực hiện phân tích với các quan sát riêng lẻ, chúng ta sử dụng 𝑑𝑖 , sự khác
Ví dụ: bạn có thể muốn biết chế độ ăn kiêng có chỉ số đường huyết thấp có tác biệt giữa các cặp quan sát, làm biến quan tâm. Khi n chênh lệch mẫu được tính từ n
động có lợi đến mức đường huyết lúc đói hay không. Bạn sẽ đo đường huyết lúc cặp phép đo tạo thành một mẫu ngẫu nhiên từ một tập hợp chênh lệch được phân
đói ở mỗi đối tượng sau một đêm nhịn ăn, vào cùng thời điểm vào buổi sáng; sau phối chuẩn, phép kiểm để kiểm tra các giả thuyết về chênh lệch trung bình của tổng
đó cung cấp cho họ chế độ ăn kiêng có chỉ số đường huyết thấp trong bốn tuần; thể là:
và sau đó đo đường huyết lúc đói lần thứ hai, cũng lúc đói và đồng thời vào buổi 𝐻0 : 𝜇𝑑 = 0; 𝐻1 : 𝜇𝑑 ≠ 0
sáng như lần đo đầu tiên. a. Nếu d2 đã biết (nếu n > = 30 thì d2 = sd2)
Time Point 𝑑ҧ − 0
Subject Baseline 4 weeks 𝑍= ~𝑁(0; 1)
𝜎𝑑 / 𝑛
1 x1,0 x1,1
2 x2,0 x2,1 Quy tắc quyết định: Nếu |Z| > C thì bác bỏ H0.
3 x3,0 x3,1
b. Nếu d2 chưa biết và n < 30
4 x4,0 x4,1
𝑑ҧ − 0
5 x5,0 X5,1 𝑡= ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡
6 X6,0 X6,1 𝑠𝑑 / 𝑛
7 X7,0 X7,1 Quy tắc quyết định : Nếu |t| > C = 𝑡𝛼 (𝑛 − 1) thì bác bỏ H0.
8 X8,0 X8,1
9 X9,0 X9,1
10 X10,0 X10,1

Example 5. A study was conducted by an orthodontist to compare pre-treatment to post- Example 6. Agents with carbamide peroxide (CP) in various concentrations are widely
treatment changes in patients undergoing fixed orthodontic therapy who have had buccinator prescribed for at-home tooth whitening. A study was conducted to evaluate the efficacy of a
release surgery. The alveolar and soft tissue changes in the mandible of the 13 subjects who 10% CP with nine human subjects with maxillary anterior teeth. All of the study subjects
are of the brachyfacial type were observed. Table below presents the measurement data on underwent a professional prophylaxis and were given specific instructions regarding at-
alveolar bone in the area of the symphysis for both pre-orthodontic treatment 𝑋1𝑖 and post- home use of a 10% CP tooth-whitening agent. They were required to use it for 2 weeks.
orthodontic treatment 𝑋2𝑖 based on their lateral cephalometric radiographs. Duration of Tooth shade index of their central incisors was measured at baseline and after the 2- week
fixed orthodontic treatment was approximately 30 months. The difference in alveolar bone study period. It is assumed that the distribution of tooth shade index is normal. The
area between pre- and post-treatment is denoted by: 𝐷𝑖 = 𝑋2𝑖− 𝑋1𝑖 following table summarizes the data. Would you be able to conclude that the 10% CP tooth-
whitening agent is effective?
ഥ = 11.443; 𝑆𝐷 = 9.081
Solution. 𝐷
ഥ = 3.111; 𝑆𝐷 = 3.586
Solution. 𝐷
𝐻0 : 𝜇𝐷 = 0; 𝐻1 : 𝜇𝐷 ≠ 0
𝐻0 : 𝜇𝐷 = 0; 𝐻1 : 𝜇𝐷 ≠ 0
𝐷ഥ
𝑡= = ഥ
𝐷
𝑆𝐷 / 𝑛 𝑡= =
𝑆𝐷 / 𝑛
Because 𝑡 > 𝐶 = 𝑡0.05 12 = 2.179.
Because 𝑡 > 𝐶 = 𝑡0.05 8 = 2.306,
𝐻0 is rejected at the significance level α =
𝐻0 is rejected (p = 0.04).
0.05.

PHÂN TÍCH PHƯƠNG SAI Các giả định trong phân tích phương sai một yếu tố
(ANALYSIS OF VARIANCE - ANOVA) 1. Có ba hoặc nhiều nhóm quan sát được rút ra từ cùng một tổng thể
1. PHÂN TÍCH PHƯƠNG SAI 1 YẾU TỐ 2. Sự phân bố của biến là PPC
Phân tích phương sai (ANOVA) là một kỹ thuật tổng quát của kiểm định t. Điều này 3. Các mẫu là ngẫu nhiên và độc lập
tương đương với phép kiểm t không ghép đôi cho hơn hai nhóm. Giả thiết cơ bản là 4. Không có sự phù hợp giữa các mẫu
các quan sát trong mỗi nhóm được rút ra từ cùng một quần thể. Do đó, kỳ vọng là 5. Sự khác biệt của các mẫu giống nhau
không có sự khác biệt giữa các trung bình của nhóm.
Ví dụ: Phân tích sự tăng trưởng ở bốn nhóm chuột được cho ăn khẩu phần có 0%, Các giả thuyết.
0,5%, 1% hoặc 2% axit linoleic (thứ tự tự nhiên). H0: tất cả trung bình dân số đều bằng nhau
So sánh nồng độ hemoglobin ở các bà mẹ từ ba làng khác nhau (không theo thứ tự HA: ít nhất một cặp trung bình không bằng nhau.
tự nhiên).
Ngày nhập viện của trẻ nhỏ với ba chế độ ăn khác nhau sau khi đặt nội soi cắt dạ
dày (không thiết lập trật tự tự nhiên). Mục đích trong mỗi trường hợp là để kiểm tra
bằng chứng về sự khác biệt thực sự giữa các trung bình nhóm so với sự khác biệt có
thể phát sinh tình cờ do lỗi lấy mẫu.
• Tính tổng bình phương độ lệch Ví dụ 1. Số lượng tiểu cầu giảm nhiều trong bệnh sốt xuất huyết (SXH), giảm
2
𝑄𝑇 = σij 𝑋ij2 − 𝑁𝑋 : TBPĐL chung trung bình trong sốt dengue (SD) và giảm ít trong nhiễm siêu vi (NSV). Xét
2 2 nghiệm tiểu cầu cho 10 bệnh nhân mỗi nhóm có kết quả sau:
𝑄𝑓 = σij 𝑛𝑗 𝑋𝑗 − 𝑁𝑋 : TBPĐL giữa các mức của yếu tố A Hỏi: Có sự khác biệt về số lượng tiểu cầu (  1000mm ) trong 3 nhóm trên không?
𝑄𝑟 = 𝑄𝑇 − 𝑄𝑓 : TBPĐL do ngẫu nhiên SD SXH NSV 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3
𝑄𝑓 𝑄
• Tính các phương sai: 𝑆𝑓2 = 𝑐−1 ; 𝑆𝑟2 = 𝑁−𝑐
𝑟
150 100 140 𝑋1 = 140; 𝑋2 = 80; 𝑋3 = 170
2
𝑆𝑓2 140 130 200 𝑁 = 130; σσ𝑋 = 3900; σσ𝑋 = 599600
• Tính 𝐹 = ~𝐹𝑖𝑠ℎ𝑒𝑟(𝑐 − 1; 𝑁 − 𝑐) 2
𝑆𝑟2
170 80 210 𝑁𝑋 = 30.1302 = 507000
Miền bác bỏ H0: F > C = F (c-1; N-c) 2
Bảng Anova 160 70 230 𝑄𝑇 = ෍ 𝑋ij2 − 𝑁𝑋
90 40 100 ij
240 30 120 2
2
100 120 220 𝑄𝑓 = ෍ 𝑛𝑗 𝑋𝑗 − 𝑁𝑋
140 130 160 ij
120 20 150
𝑄𝑟 = 𝑄𝑇 − 𝑄𝑓
90 80 170

𝑄𝑓 𝑄𝑟 Ví dụ 2. Trong một nghiên cứu về chế độ


𝑆𝑓2 = = ; 𝑆𝑟2 = = nuôi dưỡng hậu phẫu sau khi đặt nội soi
𝑐−1 𝑁−𝑐
𝑆𝑓2 cắt dạ dày ở trẻ em, thời gian nằm viện
𝐹= = (thời gian xuất viện) là biến số kết quả
𝑆𝑟2
Lấy  = 0.05  C =F0.05(2;27) = 3.354 được quan tâm. Ngày bắt đầu cho ăn sau
Vì F > C nên bác bỏ H0 mổ qua ống thông dạ dày là biến số độc
Kết luận: Có sự khác biệt về số lượng tiểu cầu trung bình trong 3 nhóm lập. Kết quả cho 17 bệnh nhân trong 3
Bảng Anova nhóm được thể hiện trong Bảng. Mặc dù
rõ ràng có một mức độ trùng lặp về thời
Nguồn biến động TBPĐL Độ tự do Phương sai F gian nằm viện giữa ba nhóm, các giá trị
trung bình cho thấy rằng việc áp dụng chế
Giữa các mức của A 42000 2 21000 11,205 độ nuôi dưỡng sớm hơn có liên quan đến
Ngẫu nhiên 50600 27 1874,074 thời gian nằm viện ngắn hơn. Nếu chúng
ta giả định rằng thời gian lưu trú tuân theo
Source of Variation SS df MS F P-value F crit phân phối chuẩn, chúng ta có thể sử dụng
Between Groups 42000 2 21000 11.206 0.0003 3.3541
phân tích phương sai để kiểm tra sự khác
biệt có ý nghĩa thống kê giữa ba nhóm.
Within Groups 50600 27 1874.1
Total 92600 29

Ví dụ 3: Có 4 loại thuốc gây mê A, B, C, D thử A B C D


nghiệm trên 4 lô chuột có cùng thể trạng. Kết quả
0,79 0,48 0,5 0,34
như bảng bên.
Tác dụng của 4 loại thuốc trên có như nhau 0,76 0,45 0,48 0,37
H : Không có sự khác biệt về thời gian nằm viện trung bình của 3 nhóm sau khi
0 không? 0,74 0,49 0,49 0,39
phẫu thuật nội soi cắt dạ dày ở trẻ em.
0,75 0,44 0,51 0,38
𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4
Hoặc H0: 1= 2= 3 0,76 0,47

Source of Variation SS df MS F P-value F crit


Between Groups 0.3842 3 0.1281 137.9 1E-10 3.3439
Within Groups 0.013 14 0.0009
Total 0.3972 17

Vì 𝐹 = 137.9 > 3.344 nên Bác bỏ H0


Kết luận: có sự khác biệt có ý nghĩa thống kê giữa số ngày nằm viện trung bình Kết luận: Có sự khác biệt về tác dụng của 4 loại thuốc trên
của 3 nhóm.
Ví dụ 4. So sánh hiệu quả giảm đau của 4 loại thuốc A, B, C, D. Mức độ giảm Ví dụ 5: Có 4 loại thuốc gây mê A, B, C, D thử nghiệm trên 4 lô chuột có cùng thể
đau thể hiện bằng điểm số, tối đa 100 điểm. trạng. Kết quả như sau:
So sánh hiệu quả của 4 loại thuốc giảm đau. Tác dụng của 4 loại thuốc trên có như nhau không?
A B C D
A B C D
SUMMARY 0,79 0,48 0,5 0,34
82 80 77 65 Groups Count Sum Average
89 70 69 75
Groups Count Sum Average
0,76 0,45 0,48 0,37 A 5 3.8 0.76
77 72 67 67 A 4 320 80 B 4 1.86 0.465
B 6 482 80.333 0,74 0,49 0,49 0,39 C 4 1.98 0.495
72 90 65 55
78 63 C 4 278 69.5 0,75 0,44 0,51 0,38 D 5 1.95 0.39
92 70 D 6 395 65.833 0,76 0,47

Source of Variation SS df MS F P-value F crit Source of Variation SS df MS F P-value F crit


Between Groups 864.583 3 288.194 5.232 0.0104 3.238 Between Groups 0.3842 3 0.1281 137.9 1E-10 3.3439
Within Groups 881.166 16 55.072 Within Groups 0.013 14 0.0009
Total 1745.75 19
Total 0.3972 17

KỸ THUẬT HẬU KIỂM (POST HOC TEST) Với giả định các phương sai bằng nhau, hai trong số các phép kiểm sau được sử
Khi việc phân tích phương sai dẫn đến việc bác bỏ giả thuyết H0: không có sự dụng phổ biến nhất là LSD và Tukey’s HSD. LSD thường được coi là quá nhạy –
khác biệt giữa các trung bình tổng thể, sẽ tồn tại ít nhất 1 cặp trung bình khác nghĩa là có sự khác biệt đáng kể về mặt thống kê giữa hai nhóm trong khi thực tế
nhau. Để xác định những cặp trung bình nào khác nhau cần phải sử dụng các kỹ là không có. HSD đưa ra quan điểm thận trọng hơn và được nhiều người chấp
thuật hậu kiểm. nhận. Nói chung, HSD là kỹ thuật hậu kiểm tốt nhất để lựa chọn với giả định
Ví dụ, có bốn phương pháp điều trị, chúng ta có thể muốn biết, sau khi bác bỏ thì các phương sai bằng nhau. Nếu các phương sai không đồng nhất (‘không
nên bác bỏ giả thuyết nào trong sáu giả thuyết riêng lẻ có thể có. Mặc dù xác suất bằng nhau’), Dunnett’s T3 là tốt cho các mẫu nhỏ và Dunnett’s C cho các
bác bỏ một giả thuyết rỗng thực sự cho toàn bộ thử nghiệm là nhỏ, nhưng xác mẫu lớn.
suất bác bỏ ít nhất một giả thuyết đúng khi một số cặp trung bình được kiểm tra
lớn hơn so với một số so sánh nhiều các thủ tục thường dùng trong thực tế. Có rất Một quy trình so sánh nhiều lần do Tukey phát triển thường được sử dụng để kiểm
nhiều tài liệu về điểm mạnh và điểm yếu của các kỹ thuật hậu kiểm khác nhau có tra giả thuyết rỗng rằng tất cả các cặp trung bình có thể là như nhau khi tất cả các
sẵn trong SPSS. Các thử nghiệm khác nhau trong ứng dụng của chúng tùy theo mẫu đều có cùng kích thước.
kích thước của mẫu, số lượng nhóm, liệu các quan sát có khớp giữa các nhóm hay Khi tất cả các mẫu không có cùng kích thước, thì không thể áp dụng thử nghiệm
không và liệu có một nhóm đối chứng để so sánh hay không. HSD của Tukey. Tuy nhiên, bản thân Tukey và Kramer đã mở rộng quy trình
Tukey cho trường hợp kích thước mẫu khác nhau. Thủ tục của họ, đôi khi được
gọi là phương pháp Tukey-Kramer.

To test Homogeneity of
variance, press the “Options"
button and choose the
following:

Example 2
in SPSS

Select the variable “Days” in the left


pane and press the arrow to switch to
the independent List box. And select
the variable “Group” in the left pane
and press the arrow to switch to the
Factor box.
To compare groups, press the “Post Hoc" button and choose the following:

Press Continue and OK

II. Phân tích phương sai hai yếu tố


Ví dụ 6. Đo hàm lượng chất X (g) của 12 người bệnh K đã được phân loại theo 4
Giả sử có 2 yếu tố A (có h hàng) và B (có c cột) ảnh hưởng đến kết quả quan sát
mức độ của bệnh K (yếu tố B) và 3 môi trường làm việc (yếu tố A) của người
H0A: Yếu tố A không ảnh hưởng đến kết quả quan sát
bệnh. Kết quả như bảng dưới đây. Xét sự ảnh hưởng của bệnh K và môi trường
H0B : Yếu tố B không ảnh hưởng đến kết quả quan sát
làm việc đến hàm lượng chất X của người bệnh K ( = 0,01).
• Tính trung bình từng cột và trung bình từng hàng
• Nhập toàn bộ bảng số liệu vào máy tính để tính 𝑁, 𝑋, ത σσ𝑋, σσ𝑋 2
• Tính tổng bình phương độ lệch:
𝑄𝑇 = σσ𝑋 2 − Nഥ X 2 ; Q A = cσ𝑋ത𝑖2 − 𝑁𝑋ത 2 ;
Q 𝐵 = ℎσ𝑋ത𝑗2 − 𝑁𝑋ത 2 ; 𝑄𝑟 = 𝑄𝑇 − (𝑄𝐴 + 𝑄𝐵 )
𝑄𝐴 𝑄𝐵 𝑄
• Tính phương sai: 𝑆𝐴2 = ; 𝑆2 = ; 𝑆 2 = 𝑟 với 𝑘 = ℎ − 1 . (𝑐 − 1)
ℎ−1 𝐵 𝑐−1 𝑟 𝑘
2
𝑆𝐴 𝑆2
• Tính F: 𝐹𝐴 = 𝑆𝑟2
~𝐹𝛼 ℎ − 1; 𝑘 ; 𝐹𝐵 = 𝑆𝐵2 ~𝐹𝛼 𝑐 − 1; 𝑘
𝑟
• Kết luận: Trung bình hàng: 𝑋𝑖 = 19.5; 19; 20
Nếu 𝐹𝐴 > 𝐹𝛼 ℎ − 1; 𝑘 thì bác bỏ H0A Trung bình cột: 𝑋𝑗 = 24; 21; 18; 15
2
Nếu 𝐹𝐵 > 𝐹𝛼 𝑐 − 1; 𝑘 thì bác bỏ H0B σσ𝑋𝑖𝑗 = 4710; 𝑋ത = 19.5; 𝑁 = 12; 𝑐 = 4; ℎ = 3;
2
𝑁𝑋 = 12.19, 52 = 4563

𝑄𝑇 = σσ𝑋 2 − Nഥ X2 = HỒI QUY VÀ TƯƠNG QUAN TUYẾN TÍNH


Q A = cσ𝑋ത𝑖2 − 𝑁𝑋ത 2 = SIMPLE LINEAR REGRESSION AND CORRELATION
Q 𝐵 = ℎσ𝑋ത𝑗2 − 𝑁𝑋ത 2 =
Phân tích hồi quy hữu ích trong việc đánh giá các dạng cụ thể của mối quan hệ
𝑄𝑟 = 𝑄𝑇 − 𝑄𝐴 + 𝑄𝐵 =
𝑄𝐴 2 𝑄𝐵 135 𝑄𝑟 10 giữa các biến và mục tiêu cuối cùng khi phương pháp phân tích này được sử
𝑆𝐴2 = = = 1; 𝑆𝐵2 = = = 45; 𝑆𝑟2 = = dụng thường là để dự đoán hoặc ước tính giá trị của một biến tương ứng với một
ℎ−1 2 𝑐−1 3 𝑘 6 giá trị nhất định của một biến khác. Các ý tưởng về hồi quy lần đầu tiên được
𝑆𝐴2
𝐹𝐴 = 2 = làm sáng tỏ bởi nhà khoa học người Anh Sir Francis Galton (1822–1911) trong
𝑆𝑟 các báo cáo nghiên cứu của ông về tính di truyền — đầu tiên là ở đậu ngọt và sau
𝐹𝐴 < 𝐹0,05 (2; 6) = 5,143 đó là ở tầm vóc con người. Ông mô tả xu hướng của con cái trưởng thành, có bố
Chấp nhận H0A  Yếu tố A không ảnh hưởng đến hàm lượng chất X mẹ thấp hoặc cao, quay ngược lại với chiều cao trung bình của dân số chung.
𝑆𝐵2 Đầu tiên, ông sử dụng từ đảo ngược, và sau đó là hồi quy, để chỉ hiện tượng này.
𝐹𝐵 = 2 =
𝑆𝑟
𝐹𝐵 < 𝐹0,05 (3; 6) = 4,757 Mặt khác, phân tích tương quan quan tâm đến việc đo lường mức độ mạnh mẽ
Bác bỏ H0B  Yếu tố B có ảnh hưởng đến hàm lượng chất X. của mối quan hệ giữa các biến. Khi chúng ta tính toán các thước đo về mối tương
quan từ một tập hợp dữ liệu, chúng ta quan tâm đến mức độ tương quan giữa các
Source of Variation SS df MS F P-value F crit biến. Một lần nữa, các khái niệm và thuật ngữ của phân tích tương quan bắt
Rows 2 2 1 0.6 0.579 5.143 nguồn từ Galton, người đầu tiên sử dụng từ tương quan vào năm 1888
Columns 135 3 45 27 0.001 4.757
Error 10 6 1.667
1. Mô hình hồi quy tuyến tính Các giả định của mô hình hồi quy tuyến tính đơn giản:
1. Giá trị của biến độc lập X được cho là “cố định”. Điều này có nghĩa là các giá
trị của X được người điều tra chọn trước để khi thu thập dữ liệu, chúng không
được phép thay đổi so với các giá trị đã chọn trước này.
Phân tích HQTT là tìm sự liên hệ giữa 2 biến số liên tục X và Y có dạng 2. Biến X được đo không sai số. Vì không có quy trình đo nào là hoàn hảo, điều
Y = aX + b và từ phương trình này ta có thể dự đoán được biến Y. này có nghĩa là độ lớn của sai số đo trong X là không đáng kể.
3. Với mỗi giá trị của X có một tập con của các giá trị Y. Để các quy trình suy
a và b gọi chung là hệ số hồi quy và được ước lượng theo phương pháp
luận thông thường về ước lượng và kiểm tra giả thuyết có hiệu lực, các quần thể
bình phương bé nhất con này phải được phân phối chuẩn.
a: hệ số góc hoặc độ dốc 4. Phương sai của các quần thể con của Y đều bằng nhau và được ký hiệu là σ2.
b: điểm cắt trên trục tung của đường thẳng Y = aX + b 5. Các giá trị trung bình của quần thể con Y đều nằm trên cùng một đường thẳng.
X: biến độc lập Đây được gọi là giả định về độ tuyến tính. Giả định này có thể được biểu thị một
Y: biến phụ thuộc cách tượng trưng là y = β0 + β1x + ϵ
6. Các giá trị Y là độc lập về mặt thống kê. Nói cách khác, khi vẽ mẫu, giả định
rằng các giá trị của Y được chọn tại một giá trị của X không phụ thuộc vào các
giá trị của Y được chọn ở một giá trị khác của X.

Chú ý: Một số giáo trình của VN thường


viết PTHQ là 𝒀 = 𝒂𝒙 + 𝒃.
Trong khi các giáo trình nước ngoài thường
viết PTHQ là 𝒀 = 𝒂 + 𝒃𝒙
Mục đích của phương pháp bình phương bé
nhất là xác định a và b sao cho d 2 nhỏ nhất.

𝑎 ෍ 𝑥 2 + 𝑏 ෍ 𝑥 = ෍ 𝑥𝑦
𝑅. 𝑆𝑦
𝑎=
⇔൞ 𝑆𝑥
𝑎 ෍ 𝑥 + 𝑛𝑏 = ෍ 𝑦 𝑏 = 𝑦lj − 𝑎𝑥lj

Ví dụ 1: Cân nặng (Y) của 6 trẻ từ 1 đến 6 tuổi (X) như sau: Ví dụ 2: Tuổi (X) và cân nặng (Y) của 6 X 1 2 3 4 5 6
trẻ em khác như sau: Y 11 11 14 16 18 20
X 1 2 3 4 5 6
Y 10 12 14 16 18 20

Nối các cặp (X, Y) này sẽ tạo thành một đường thẳng:
2. Hệ số tương quan
Ví dụ 3. Nghiên cứu về sự thải trừ thuốc sau khi uống một thời gian. Gọi
X(giờ) là thời gian khi uống thuốc và Y (g/ml) là nồng độ thuốc khi đó. Quan sát Tương quan đo lường mức độ tương quan giữa các biến (x, y). Nó cũng cho
(X, Y) nhiều lần ta có kết quả sau: chúng ta biết chiều hướng tương quan là âm (nghịc) hay dương (thuận).
X 1 2 3 5 8 10 xem xét mộCho dù t số ví dụ:
Y 0,9 0,8 0,75 0,7 0,5 0,4 1. Lượng cholesterol toàn phần trong huyết thanh có liên quan đến lượng
cholesterol trong chế độ ăn uống hay không?
2. Chiều cao và cân nặng. Bạn càng cao, bạn càng nặng: Tương quan dương.
3. Kết quả điểm danh và thi của lớp. Bạn càng nghỉ học nhiều, kết quả thi của bạn
càng kém: Tương quan âm.
4. Chỉ số khối cơ thể (BMI) và tỷ lệ phần trăm mỡ trong cơ thể. Chỉ số BMI của
bạn càng cao, tỷ lệ phần trăm chất béo trong cơ thể của bạn càng cao.
5. Màu mắt và trí thông minh. Không có bằng chứng thuyết phục nào cho thấy
màu mắt và trí thông minh có liên quan.
Dự báo hàm lượng thuốc sau khi uống Công thức tính hệ số tương quan r:
11 giờ, 12 giờ. σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)

𝑟= =
PT hồi quy là Y = 𝑛 2 𝑛
σ𝑖=1 𝑥𝑖 − 𝑥ҧ . σ𝑖=1 𝑦𝑖 − 𝑦ത 2 𝑛 − 1 𝑠𝑥 𝑠𝑦
Sau 11g: Y =
Sau 12g: Y =

Câu hỏi: Khi nào thuốc thải trừ hết?

* Ý nghĩa của hệ số tương quan r


r đại diện cho mối tương quan của hai biến x và y. Giá trị của 𝑟 ∈ [−1; 1]
- Nếu r = 1 thì X và Y có tương quan thuận hoàn toàn.
- Nếu r = −1 thì X và Y có mối tương quan âm hoàn toàn
- Nếu r = 0 thì X và Y không tương quan. Điều này có nghĩa là không có
sự liên kết tuyến tính giữa X và Y
Nếu r gần với −1 hoặc +1, có một mối quan hệ tuyến tính mạnh.
Khi r gần bằng 0, tương quan yếu hoặc không tồn tại
Trong ví dụ 2. Tính được 𝑟 = 0,985 > 0 nên X và Y tương quan thuận.

Hệ số xác định r2
Trong thực tế, hệ số tương quan r thường được sử dụng để mô tả mức độ liên kết
tuyến tính giữa hai biến ngẫu nhiên X và Y. Hệ số xác định là một thước đo khác
thường được sử dụng để mô tả mức độ liên kết tuyến tính giữa X và Y. Trong thực
tế, 0 ≤ r2 ≤ 1.
r2 đại diện cho tỷ lệ giảm trong tổng biến động do sử dụng biến độc lập cụ thể Xi
trong mô hình hồi quy. r2 càng lớn thì sự giảm tổng biến phản ứng Yi càng lớn.
Điều này có nghĩa là dự đoán tốt hơn về Yi có thể được thực hiện khi r2 xấp xỉ 1.
Nếu r2 = 1 thì tất cả sự thay đổi trong biến kết quả Yi được giải thích bởi Xi.
Nếu r2 = 0 thì không có liên kết tuyến tính giữa Xi và Yi, và biến độc lập không
làm giảm bất kỳ sự biến đổi nào trong Yi với mô hình hồi quy tuyến tính.

http://www.statstutor.ac.uk/resources/uploaded/spearmans.doc (accessed 24 April 2020).


Statistics in Nutrition and Dietetics, First Edition. Michael Nelson.
© 2020 John Wiley & Sons Ltd. Published 2020 by John Wile
Trong ví dụ 2
𝑛 = 6; 𝑋 = 3,5; 𝑌 = 15; 𝑆𝑋 = 1,87; 𝑆𝑌 = 3,687
𝑎 = 1,942; 𝑏 = 8,2; 𝑅 = 0,985
𝑛−1 X 1 2 3 4 5 6
𝑆𝑌.𝑋 = (1 − 𝑅 2 )𝑆𝑌2
𝑛−2 Y 11 11 14 16 18 20
PTHQ: Y =
Giá trị dự đoán: Nếu X = 8 thì Y =
Nếu kết quả đánh giá PTHQ mẫu cho thấy có mối quan hệ giữa hai biến quan tâm,
2
chúng ta có thể đưa PTHQ vào ứng dụng thực tế. Có hai cách để sử dụng PTHQ. Nó
Trong ví dụ 2. Tính được 𝑟 = 0,985 ⇒ 𝑟 = 0,97. có thể được sử dụng để dự đoán giá trị nào Y có khả năng giả định với một giá trị cụ
Điều này có nghĩa là 97% sự biến động của trọng lượng (Y) là do tuổi (X) thể của X. Khi các giả định của mô hình hồi quy được đáp ứng, một khoảng dự
3. PHƯƠNG SAI HỒI QUY (regression variance) đoán cho giá trị dự đoán này của Y có thể được xây dựng. Chúng ta cũng có thể sử
2
σ(𝑌𝑖 − 𝑌𝑒𝑖 )2 𝑛 − 1 dụng PTHQ để ước tính giá trị trung bình của quần thể con của các giá trị Y được
𝑆𝑌.𝑋 = = 1 − 𝑟 2 𝑆𝑌2
𝑛−2 𝑛−2 giả định là tồn tại ở bất kỳ giá trị cụ thể nào của X. Một lần nữa, nếu giả định về các
SY.X gọi là độ lệch chuẩn của phương sai hồi quy quần thể phân bố chuẩn là đúng, thì một KTC cho tham số này có thể được xây
𝑛−1 dựng. Giá trị dự đoán của Y và ước lượng điểm về giá trị trung bình của dân số con
𝑆𝑌.X = 1 − 𝑟 2 𝑆𝑌2 Y sẽ tương đương về mặt số học đối với bất kỳ giá trị cụ thể nào của X nhưng như
𝑛−2
chúng ta thấy, khoảng dự đoán sẽ rộng hơn KTC.

4. Khoảng tin cậy cho dự báo Y và trung bình của dự báo 𝝁𝒀 5. Kiểm định hệ số tương quan
PTHQ: Y = aX + b. Tại X0 thì Y0 = aX0 + b, với X0 là một giá trị cụ thể của X tại H0: ρ = 0; H1: ρ ≠ 0
điểm cần dự báo cho Y và Y. 𝑟
𝑡= 𝑛 − 2 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡(𝑛 − 2)
❑ KTC cho dự báo Y ❑ KTC cho µY 1 − 𝑟2
Nếu |t| > C = tα(n-2) thì H0 bị bác bỏ.
1 𝑋0 − 𝑋ത 2 1 𝑋0 − 𝑋ത 2 Khi H0 bị bác bỏ ở một mức ý nghĩa xác định, thì có nghĩa là r khác 0 đáng kể,
𝑌 = 𝑌0 ± 𝐶. 𝑆𝑌.𝑋 1 + + 𝜇𝑌 = 𝑌0 ± 𝐶. 𝑆𝑌.𝑋 +
𝑛 𝑛 − 1 𝑆𝑋2 𝑛 𝑛 − 1 𝑆𝑋2 tức là nhỏ hơn nhiều hoặc lớn hơn nhiều so với 0. Khi H0 được chấp nhận, nghĩa
là r không khác 0 đáng kể.
PTHQ: Y = 1,942X + 8,2. Khi X0 = 8 thì Y0 = 23,736 Trong ví dụ 3. Có tồn tại mối tương quan giữa hai biến ngẫu nhiên X và Y?
𝛾 = 0,95 ⇒C = t0.05(4) = 2,776 H0: Không có sự tương quan giữa X và Y
• KTC 95% cho Y 𝑅
𝑡= . 𝑛−2
1 (8 − 3,5)2 1 − 𝑅2
𝑌 = 23,736 ± 2,776 × 0,711 1 + + =
6 5 × 1,872
𝛼 = 0.05 ⇒ 𝐶 = 𝑡0.05 (4) = 2.776
• KTC 95% cho µY
Vì |t| > C, H0 bị bác bỏ, với mức ý nghĩa α = 0.05.
1 (8 − 3,5)2
𝜇𝑌 = 23,736 ± 2,776 × 0,711 + Kết luận:
6 5 × 1,872

Example 4. Scaling and root planing are the most widely used techniques in periodontal
therapy. These procedures are used to remove bacterial plaque and calculus from the
surfaces of teeth. Despite the best efforts of clinicians to thoroughly root plane teeth,
considerable amounts of calculus remain, even though the surface of teeth feel clinically
smooth at the completion of scaling and root-planing procedures. Suppose a periodontist
observed pocket depth and percentage of calculus after scaling was done with 12
patients, as presented in the table below. We may assume both pocket depth and
percentage of calculus are normally distributed.
Perform a test of significance for the correlation coefficient for the data.

We need to test 𝐻0: 𝜌 = 0; 𝐻𝐴 : 𝜌 ≠ 0.


By substituting n = 12 and r = 0.676, we have:
𝑛−2
𝑡 = 𝑟. =
1 − 𝑟2
Since t > 𝐶 = 𝑡0.05 10 = 2.228, 𝐻0 is rejected
at the significance level α = 0.05.
Conclude:

You might also like