Professional Documents
Culture Documents
BIOSTATISTICS
CHUYÊN ĐỀ: KIỂM ĐỊNH GIẢ THUYẾT – PHÂN TÍCH
TƯƠNG QUAN – HỒI QUY REFERENCES
TS. ĐÀO HỒNG NAM 1. Jay S. Kim, Ronald J. Dailey (2008), Biostatistics for Oral Healthcare,
published 2008 by Blackwell Munksgaard, a Blackwell Publishing
Company. USA.
2. Wayne W. Daniel (2009), Biostatistics: a foundation for analysis
in the health sciences. John Wiley & Sons, Inc. USA.
3. Nigel C. Smeeton (2017). Dental statistics made easy. Third Edition.
© 2017 by Taylor & Francis Group, LLC. USA.
4. Altman DG (1991). Practical statistics for medical research. London:
Chapman and Hall.
Fanpage: facebook.com/xstkyd
MỞ ĐẦU
Suy luận thống kê là một quá trình tìm kiếm các kết luận liên quan đến một tổng Mục đích của kiểm định giả thuyết là để hỗ trợ nhà nghiên cứu hoặc nhà quản lý
thể (dân số) dựa trên thông tin hạn chế từ một mẫu được lấy từ tổng thể mà đưa ra kết luận liên quan đến một quần thể bằng cách kiểm định một hoặc một số
chúng ta quan tâm. Có nhiều cách tiếp cận khác nhau để đưa ra quyết định về mẫu từ quần thể đó.
dân số. Một trong những cách tiếp cận là kiểm định giả thuyết (KĐGT), có
ĐỊNH NGHĨA: Một giả thuyết là một tuyên bố về một hoặc nhiều quần thể.
nhiều ứng dụng trong y sinh và khoa học sức khỏe, cũng như các ngành khác.
KĐGT có thể được áp dụng để giải quyết các phỏng đoán như sau: Giả thuyết thường liên quan đến các tham số của quần thể mà tuyên bố được đưa
• Đeo miếng bảo vệ miệng là một cách hiệu quả để ngăn ngừa chấn thương cho ra. Một nhà quản lý bệnh viện có thể đưa ra giả thuyết rằng thời gian lưu trú trung
răng trong các hoạt động thể thao. bình của những bệnh nhân nhập viện là 5 ngày; một y tá sức khỏe cộng đồng có
• Tỷ lệ răng bị sâu, mất, trám (decayed, missing, filled teeth -DMFT) ở trẻ em thể đưa ra giả thuyết rằng một chương trình giáo dục cụ thể sẽ giúp cải thiện giao
bị sứt môi / vòm miệng cao hơn so với trẻ không bị sứt môi / vòm miệng. tiếp giữa y tá và bệnh nhân; bác sĩ có thể đưa ra giả thuyết rằng một loại thuốc
• Uống rượu, như hút thuốc, có thể liên quan đến các bệnh nha chu. nhất định sẽ có hiệu quả trong 90% các trường hợp mà nó được sử dụng. Bằng
• Bệnh nhân được điều trị bằng nifedipine có xu hướng phì đại lợi (gingival cách kiểm định giả thuyết, người ta xác định xem liệu các tuyên bố đó có tương
enlargement). thích với dữ liệu có sẵn hay không.
• Tỷ lệ sống sót sau 5 năm của bệnh ung thư miệng và họng ở bệnh nhân da
trắng cao hơn bệnh nhân da đen.
ĐỊNH NGHĨA: Giả thuyết thống kê là giả thuyết về tham số, về luật phân phối
• Thuốc tẩy có hiệu quả hơn nhiều so với xà phòng rửa bát trong việc loại bỏ
hoặc tính chất của biến ngẫu nhiên mà chúng có thể được đánh giá bằng các kỹ
các vi sinh vật như salmonella, pseudomonas, staphylococcus và candida.
thuật thống kê thích hợp.
𝑟
(𝑛𝑖 − 𝑛𝑖 ′)2 (580 − 500)2 (420 − 500)2
PHÉP KIỂM CHI BÌNH PHƯƠNG (CHI SQUARED TEST) 𝑄= = +
Mục đích: 𝑛𝑖 ′ 500 500
𝑖=1
- Dùng để so sánh hai tỷ lệ, nhiều tỷ lệ
- Kiểm định sự độc lập hay phụ thuộc Quy tắc quyết định như sau:
- Kiểm định sự phù hợp của dữ liệu với một phân phối - Nếu Q C thì chấp nhận H0
1. Trường hợp số liệu trên một hàng - Nếu Q > C thì bác bỏ H0.
Ví dụ 1. Thống kê số người đến khám và điều trị RHM tại một số bệnh viện, kết C là giá trị ngưỡng trong PP Chi bình phương
quả như sau: 𝐶 = 𝜒𝛼2 (𝑟 − 1)
Nam Nữ Tổng
580 420 N =1000
Hỏi: Tỷ lệ nam và nữ có như nhau không? α C KQ KL
H0: Tỷ lệ nam và nữ như nhau 0,05 3,841 Q>C Bác bỏ Ho
Nếu H0 đúng thì ta có bảng sau đây, gọi là bảng phân phối tần số LT 0,01 6,635 Q>C Bác bỏ Ho
Nam (0,5) Nữ (0,5) Tổng r
(ni − ni ') 2 0,001 10,828 Q>C Bác bỏ Ho
500 500 n = 1000 Q=
i =1 ni ' Chọn α = 0,05 thì C = 3.841 Q > C nên bác bỏ Ho
Kết luận:
2. Trường hợp số liệu trên bảng dự phòng rc (The Contingency Table)
Ví dụ 2. Nhóm máu của một mẫu gồm 500 người lấy từ dân số X như
Sự phân loại theo hai tiêu chí, của một tập hợp các đối tượng có thể được hiển thị
sau:
bằng một bảng 𝑟 × 𝑐 trong đó r và c đại diện cho các cấp độ khác nhau của tiêu chí
A (0,18) B (0,28) AB (0,05) O (0,49) Tổng thứ nhất và thứ hai tương ứng. Chúng ta sẽ quan tâm đến việc kiểm định giả thuyết
75 150 15 260 500 H0 rằng trong quần thể, hai tiêu chí phân loại là độc lập. Một mẫu có kích thước n
sẽ được lấy từ tập hợp các đối tượng như Bảng dưới đây:
Hỏi: Nhóm máu của dân số X có phù hợp với quy luật trên đây không?
Giải: Đặt GT H0: Nhóm máu của dân số X phù hợp với hằng số sinh học
A (0,18) B (0,28) AB (0,05) O (0,49) Tổng
75 (90) 150 (140) 15 (25) 260 (245) 500
r
(ni − ni ') 2
Q=
i =1 ni '
Lấy = 0,05 ta có C = 2(3) = 7,815 < Q nên bác bỏ H0.
Kết luận: Ngưỡng C được tính theo phân phối Chi bình phương: 𝑪 = 𝝌𝟐𝜶(𝒓 − 𝟏) × (𝒄 − 𝟏)
Ví dụ 3. Mặc dù mão sứ kim loại thường xuyên được sử dụng trong những năm
a. Bảng 2x2
gần đây, nhưng nhiều bệnh nhân vẫn thích loại mão sứ hơn. Lý do chính cho sự
H0: A và B độc lập ưa thích của họ là tính thẩm mỹ vượt trội. Các chuyên gia về răng giả đã nghiên
cứu tỷ lệ sống sót của hai loại mão này. Trong khoảng thời gian 4 năm, có 368
Bệnh B bệnh nhân bọc mão sứ kim loại và 294 bệnh nhân bọc mão răng sứ ở phía trước
Yếu tố A Tổng hàm trên. Nghiên cứu tiếp theo cho thấy 330 bệnh nhân bọc mão sứ kim loại và
Có Không 251 bệnh nhân bọc mão bọc sứ có mão vẫn hoạt động.
Có a b 𝑎 + 𝑏 = 𝑚1
Thời gian hoạt động
Không c d 𝑐 + 𝑑 = 𝑚0 H0: Không có liên quan giữa loại mão Mão Tổng
và thời gian hoạt động.
Tổng 𝑎 + 𝑐 = 𝑛1 𝑏 + 𝑑 = 𝑛0 𝑛 =𝑎+𝑏+𝑐+𝑑 <5 năm ≥5 năm
(38 × 251 − 43 × 330)2 × 662
𝑄=
81 × 581 × 368 × 294 Kim loại 38 330 368
𝑄=
𝑎𝑑 − 𝑏𝑐 2 . 𝑛 Sứ 43 251 294
𝑄= Tổng 81 581 662
𝑛1 . 𝑛0 . 𝑚1 . 𝑚0
Kết luận:
Nếu 𝑄 > 𝐶 = 𝜒𝛼2 (1) thì bác bỏ 𝐻0
Kết luận:
Chú ý: Phép kiểm chi bình phương chỉ có hiệu lực tốt khi tần số lý thuyết 𝑛𝑖′ ≥ 5.
H0: Không có sự liên quan giữa chủng tộc và tình trạng sử dụng axit folic Nếu vi phạm điều này cần thiết phải sử dụng các phép hiệu chỉnh hoặc phép kiểm
chính xác Fisher.
247.8585 311.1415 559 ❖ Hiệu chỉnh liên tục Yates(1934): sử dụng khi 2 ≤ 𝑛𝑖′ < 5
24.83019 31.16981 56 𝑛 𝑎𝑑 − 𝑏𝑐 − 0,5𝑛 2
9.311321 11.68868 21 𝑄=
(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)
282 354 636
❖ Phép kiểm chính xác Fisher (Fisher’s exact test): Sử dụng khi 𝑛𝑖′ < 2
. dụ 6. Số trẻ em từ 13–14 tuổi tiêu thụ trái cây và rau quả đáp ứng các khuyến
Ví
nghị, theo giới tính.
𝑛 𝑎𝑑 − 𝑏𝑐 − 0,5𝑛 2 2
Kết luận: 𝑄= = 2,539 < 𝐶 = 𝜒0,05 1 = 3,841. Chấp nhậnH0.
(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)
Kết luận:
Ví dụ 7. Dùng thuốc X điều trị cho 21 bệnh nhân bị bệnh A, thấy khỏi bệnh 4 PHÂN BIỆT CÁC THAM SỐ MẪU VÀ DÂN SỐ (QUẦN THỂ)
người. Dùng thuốc Y điều trị cho 19 bệnh nhân bị bệnh A, thấy khỏi bệnh 1
người. Kết luận?
H0: Tác dụng của thuốc X và Y như nhau
Thuốc Khỏi bệnh Không khỏi Tổng Thuốc Khỏi bệnh Không khỏi Tổng
X 4 17 21 X 2,625 18,375 21
Y 1 18 19 Y 2,375 16,625 19
Tổng 5 35 40 Tổng 5 35 40
Q = 0,702 (p = 0,4022)
2
Chọn 𝛼 = 0.05 ⇒ 𝐶 = 𝜒0.05 1 = 3.841. Vì Q < C nên không bác bỏ 𝐻0
Kết luận:
SO SÁNH HAI TRUNG BÌNH (Two Sample Means Comparisons) b. Khi mẫu rút từ dân số có PPC và phương sai 2
1. So sánh trung bình thực nghiệm và trung bình lý thuyết (0) chưa biết
𝐻0 : 𝜇 = 𝜇0 ; 𝐻1 : 𝜇 ≠ 𝜇0
𝑋 − 𝜇0
a. Khi mẫu rút từ dân số có PPC và phương sai 2 đã biết (nếu 30 thì 2 = s2) 𝑇= ~𝑡𝛼 𝑛 − 1
𝑠/ 𝑛
𝑋 − 𝜇0 α 0.05 0.01
𝑍= ~𝑁(0; 1)
𝜎/ 𝑛 C 1,96 2,58 Quy tắc quyết định
Nếu |T| > C = 𝑡𝛼 𝑛 − 1 thì bác bỏ H0.
Quy tắc quyết định: Nếu |Z| > C thì bác bỏ H0. Ví dụ: Nếu 𝒏 = 𝟐𝟕
• 𝛼 = 0.05 ⇒ 𝐶 = 𝑡0.05 26 = 2.056
• 𝛼 = 0.01 ⇒ 𝐶 = 𝑡0.01 26 = 2.779
• 𝛼 = 0.001 ⇒ 𝐶 = 𝑡0.001 26 =3.707
Ví dụ 1. Mức trung bình của prothrombin (một loại protein có trong huyết Examle 2. For many years, conscious sedation has been a popular pharmacological
tương được chuyển thành thrombin hoạt động trong quá trình đông máu) approach in the management of young uncooperative children who need invasive
trong dân số bình thường là 20 mg/100 ml huyết tương và độ lệch chuẩn dental and medical procedures. The waiting time Y after drug administration for
là 4 mg/100 ml. Một mẫu gồm 40 bệnh nhân thiếu vitamin K có mức sedation is believed to be normally distributed. For the children who are at least 36
prothrombin trung bình là 18,50 mg/100 ml. Có thể kết luận rằng giá trị months old, the average waiting time is about 55 minutes. Some pediatric clinicians
trung bình của bệnh nhân thiếu vitamin K giống với mức trung bình của claim that they have waited longer and were determined to prove it. They observed
dân số bình thường không? 22 sedation appointments and recorded the waiting time for each appointment. The
sample mean of these 22 observations is 61 minutes. Suppose the variance of the
𝐻0 : 𝜇 = 20; 𝐻1: 𝜇 ≠ 20 waiting time Y is 104. State the hypotheses and perform an appropriate test at the
𝑥 − 𝜇0 significance level α = 0.05.
𝑧= =
𝜎/ 𝑛
𝛼 = 0.05 ⇒ 𝑍 > 𝐶 = 1.96. Bác bỏ H0. 𝐻0 : 𝜇 = 55; 𝐻1: 𝜇 ≠ 55
Kết luận: 𝑥 − 𝜇0
𝑧= =
𝑠/ 𝑛
Since 𝐶 = 𝑍1−𝛼/2 = 1.96 and |Z| = 2.7596 > C, we reject 𝐻0
Because 61 > 55 ⇒ 𝜇 > 55
Conclude: The average waiting time is ……………………………………………………………than
55 minutes at the significance level α = 0.05.
.
2. So sánh 2 trung bình thực nghiệm độc lập Ví dụ 3. Suppose investigators wish to compare the clinical shear bond strength of
Mẫu 1: Cỡ mẫu 𝑛1 rút từ dân số 𝑋1 ~𝑁 𝜇1; 𝜎12 the two mostwidely used orthodontic adhesives; Orthobond (Vivident) and
Mẫu 1: Cỡ mẫu 𝑛2 rút từ dân số 𝑋2 ~𝑁 𝜇2 ; 𝜎22 Unibond (Orthobite). For this study, 𝑛1 = 15 Orthobond and 𝑛2 = 12 Unibond
Giả thuyết: 𝐻0 : 𝜇1 = 𝜇2 ; 𝐻1: 𝜇1 ≠ 𝜇2 samples were prepared and their strength was tested using an Instron machine.
a. Nếu (12, 22) đã biết From the measurements of the shear bond strength, they have estimated 𝑋ത1 =
9.28 kg and 𝑋ത2 = 8.13 kg. Assume that the shear bond strength is normally
𝑋1 − 𝑋2
𝑍= ~𝑁(0; 1) distributed with known variances 𝜎12 = 4.75 𝑎𝑛𝑑 𝜎22 = 4.37
𝜎12 𝜎22 𝐻0 : 𝜇1 = 𝜇2 ; 𝐻1: 𝜇1 ≠ 𝜇2
+
𝑛1 𝑛2 𝑋1 − 𝑋2
Quy tắc quyết định: Nếu |Z| > C thì bác bỏ H0. 𝑍= =
𝜎12 𝜎22
𝑛1 + 𝑛2
b. Nếu phương sai 12, 22 chưa biết (n1< 30, n2 < 30) Ví dụ 4. Dernellis và Panaretou đã khảo sát chỉ số độ cứng động mạch chủ trên 15 bệnh
* so sánh hai phương sai 𝐻0: 𝜎12 = 𝜎22 ; 𝐻1 : 𝜎12 ≠ 𝜎22 . Giả sử 𝑠12 > 𝑠22 nhân bị tăng huyết áp (nhóm 1) và 30 người khỏe mạnh (nhóm 2). Các phép đo của biến
này được tính toán từ đường kính động mạch chủ được đánh giá bằng siêu âm tim và
𝑠12 huyết áp. Các thông số về chỉ số độ cứng trung bình của động mạch chủ và độ lệch
F = 2 ~𝐹𝑖𝑠ℎ𝑒𝑟(𝑛1 − 1; 𝑛2 − 1)
𝑠2 chuẩn tương ứng của 2 nhóm là: Nhóm 1: 19.16 và 5.29; nhóm 2: 9.53 và 2.69. Các
Nếu 𝐹 > 𝐶 = 𝐹𝛼 (𝑛1 − 1; 𝑛2 − 1) thì bác bỏ 𝐻0 NNC muốn xác định xem có sự khác nhau về chỉ số độ cứng trung bình của động mạch
chủ trong 2 dân số lấy mẫu bởi 2 nhóm trên hay không.
❖ Nếu 12 = 22 • So sánh hai phương sai: 𝐻0 : 𝜎12 = 𝜎22 ; 𝐻1 : 𝜎12 ≠ 𝜎22
❖ Nếu 12 ≠ 22
𝑛1 − 1 𝑠12 + 𝑛2 − 1 𝑠22 𝑥1 − 𝑥2 𝑠12
𝑠𝑝2 = 𝑡= ~𝑡𝛼 (𝑑𝑓) 𝐹= 2=
𝑛1 + 𝑛2 − 2 𝑠2
𝑥ҧ1 − 𝑥ҧ2 𝑠12 𝑠22 F > C = F0.05(14;29) = 2.05, bác bỏ H0.
𝑡=
1 1
~𝑡𝛼 (𝑑𝑓) 𝑛1 + 𝑛2 • So sánh hai trung bình: H0: µ1 = µ2
𝑠𝑝2 𝑛 + 𝑛 𝑠12 𝑠22 𝑠𝑒12 + 𝑠𝑒22 2
1 2 𝑠𝑒12 + 𝑠𝑒22 2 𝑠𝑒12 = = 1.865; 𝑠𝑒22 = = 0.241; 𝑑𝑓 = =
Với 𝑑𝑓 = 𝑛1 + 𝑛2 − 2 𝑑𝑓 = 𝑛1 𝑛2 𝑠𝑒14 𝑠𝑒24
𝑠𝑒14 𝑠𝑒24 +
𝑛1 − 1 + 𝑛2 − 1 𝑛1 − 1 𝑛2 − 1
𝑠2 𝑠2 𝑥1 − 𝑥2
Với 𝑠𝑒12 = 𝑛1 ; 𝑠𝑒22 = 𝑛2 𝑡= =
1 2 𝑠𝑒12 + 𝑠𝑒22
Quy tắc quyết định : Nếu |t| > C = 𝑡𝛼 (𝑑𝑓) thì bác bỏ H0. Vì |t| > C = t0.05(16) = 2.119, bác bỏ H0.
Kết luận:
3. So sánh 2 trung bình ghép cặp (PAIRED COMPARISONS) Thay vì thực hiện phân tích với các quan sát riêng lẻ, chúng ta sử dụng 𝑑𝑖 , sự khác
Ví dụ: bạn có thể muốn biết chế độ ăn kiêng có chỉ số đường huyết thấp có tác biệt giữa các cặp quan sát, làm biến quan tâm. Khi n chênh lệch mẫu được tính từ n
động có lợi đến mức đường huyết lúc đói hay không. Bạn sẽ đo đường huyết lúc cặp phép đo tạo thành một mẫu ngẫu nhiên từ một tập hợp chênh lệch được phân
đói ở mỗi đối tượng sau một đêm nhịn ăn, vào cùng thời điểm vào buổi sáng; sau phối chuẩn, phép kiểm để kiểm tra các giả thuyết về chênh lệch trung bình của tổng
đó cung cấp cho họ chế độ ăn kiêng có chỉ số đường huyết thấp trong bốn tuần; thể là:
và sau đó đo đường huyết lúc đói lần thứ hai, cũng lúc đói và đồng thời vào buổi 𝐻0 : 𝜇𝑑 = 0; 𝐻1 : 𝜇𝑑 ≠ 0
sáng như lần đo đầu tiên. a. Nếu d2 đã biết (nếu n > = 30 thì d2 = sd2)
Time Point 𝑑ҧ − 0
Subject Baseline 4 weeks 𝑍= ~𝑁(0; 1)
𝜎𝑑 / 𝑛
1 x1,0 x1,1
2 x2,0 x2,1 Quy tắc quyết định: Nếu |Z| > C thì bác bỏ H0.
3 x3,0 x3,1
b. Nếu d2 chưa biết và n < 30
4 x4,0 x4,1
𝑑ҧ − 0
5 x5,0 X5,1 𝑡= ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡
6 X6,0 X6,1 𝑠𝑑 / 𝑛
7 X7,0 X7,1 Quy tắc quyết định : Nếu |t| > C = 𝑡𝛼 (𝑛 − 1) thì bác bỏ H0.
8 X8,0 X8,1
9 X9,0 X9,1
10 X10,0 X10,1
Example 5. A study was conducted by an orthodontist to compare pre-treatment to post- Example 6. Agents with carbamide peroxide (CP) in various concentrations are widely
treatment changes in patients undergoing fixed orthodontic therapy who have had buccinator prescribed for at-home tooth whitening. A study was conducted to evaluate the efficacy of a
release surgery. The alveolar and soft tissue changes in the mandible of the 13 subjects who 10% CP with nine human subjects with maxillary anterior teeth. All of the study subjects
are of the brachyfacial type were observed. Table below presents the measurement data on underwent a professional prophylaxis and were given specific instructions regarding at-
alveolar bone in the area of the symphysis for both pre-orthodontic treatment 𝑋1𝑖 and post- home use of a 10% CP tooth-whitening agent. They were required to use it for 2 weeks.
orthodontic treatment 𝑋2𝑖 based on their lateral cephalometric radiographs. Duration of Tooth shade index of their central incisors was measured at baseline and after the 2- week
fixed orthodontic treatment was approximately 30 months. The difference in alveolar bone study period. It is assumed that the distribution of tooth shade index is normal. The
area between pre- and post-treatment is denoted by: 𝐷𝑖 = 𝑋2𝑖− 𝑋1𝑖 following table summarizes the data. Would you be able to conclude that the 10% CP tooth-
whitening agent is effective?
ഥ = 11.443; 𝑆𝐷 = 9.081
Solution. 𝐷
ഥ = 3.111; 𝑆𝐷 = 3.586
Solution. 𝐷
𝐻0 : 𝜇𝐷 = 0; 𝐻1 : 𝜇𝐷 ≠ 0
𝐻0 : 𝜇𝐷 = 0; 𝐻1 : 𝜇𝐷 ≠ 0
𝐷ഥ
𝑡= = ഥ
𝐷
𝑆𝐷 / 𝑛 𝑡= =
𝑆𝐷 / 𝑛
Because 𝑡 > 𝐶 = 𝑡0.05 12 = 2.179.
Because 𝑡 > 𝐶 = 𝑡0.05 8 = 2.306,
𝐻0 is rejected at the significance level α =
𝐻0 is rejected (p = 0.04).
0.05.
PHÂN TÍCH PHƯƠNG SAI Các giả định trong phân tích phương sai một yếu tố
(ANALYSIS OF VARIANCE - ANOVA) 1. Có ba hoặc nhiều nhóm quan sát được rút ra từ cùng một tổng thể
1. PHÂN TÍCH PHƯƠNG SAI 1 YẾU TỐ 2. Sự phân bố của biến là PPC
Phân tích phương sai (ANOVA) là một kỹ thuật tổng quát của kiểm định t. Điều này 3. Các mẫu là ngẫu nhiên và độc lập
tương đương với phép kiểm t không ghép đôi cho hơn hai nhóm. Giả thiết cơ bản là 4. Không có sự phù hợp giữa các mẫu
các quan sát trong mỗi nhóm được rút ra từ cùng một quần thể. Do đó, kỳ vọng là 5. Sự khác biệt của các mẫu giống nhau
không có sự khác biệt giữa các trung bình của nhóm.
Ví dụ: Phân tích sự tăng trưởng ở bốn nhóm chuột được cho ăn khẩu phần có 0%, Các giả thuyết.
0,5%, 1% hoặc 2% axit linoleic (thứ tự tự nhiên). H0: tất cả trung bình dân số đều bằng nhau
So sánh nồng độ hemoglobin ở các bà mẹ từ ba làng khác nhau (không theo thứ tự HA: ít nhất một cặp trung bình không bằng nhau.
tự nhiên).
Ngày nhập viện của trẻ nhỏ với ba chế độ ăn khác nhau sau khi đặt nội soi cắt dạ
dày (không thiết lập trật tự tự nhiên). Mục đích trong mỗi trường hợp là để kiểm tra
bằng chứng về sự khác biệt thực sự giữa các trung bình nhóm so với sự khác biệt có
thể phát sinh tình cờ do lỗi lấy mẫu.
• Tính tổng bình phương độ lệch Ví dụ 1. Số lượng tiểu cầu giảm nhiều trong bệnh sốt xuất huyết (SXH), giảm
2
𝑄𝑇 = σij 𝑋ij2 − 𝑁𝑋 : TBPĐL chung trung bình trong sốt dengue (SD) và giảm ít trong nhiễm siêu vi (NSV). Xét
2 2 nghiệm tiểu cầu cho 10 bệnh nhân mỗi nhóm có kết quả sau:
𝑄𝑓 = σij 𝑛𝑗 𝑋𝑗 − 𝑁𝑋 : TBPĐL giữa các mức của yếu tố A Hỏi: Có sự khác biệt về số lượng tiểu cầu ( 1000mm ) trong 3 nhóm trên không?
𝑄𝑟 = 𝑄𝑇 − 𝑄𝑓 : TBPĐL do ngẫu nhiên SD SXH NSV 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3
𝑄𝑓 𝑄
• Tính các phương sai: 𝑆𝑓2 = 𝑐−1 ; 𝑆𝑟2 = 𝑁−𝑐
𝑟
150 100 140 𝑋1 = 140; 𝑋2 = 80; 𝑋3 = 170
2
𝑆𝑓2 140 130 200 𝑁 = 130; σσ𝑋 = 3900; σσ𝑋 = 599600
• Tính 𝐹 = ~𝐹𝑖𝑠ℎ𝑒𝑟(𝑐 − 1; 𝑁 − 𝑐) 2
𝑆𝑟2
170 80 210 𝑁𝑋 = 30.1302 = 507000
Miền bác bỏ H0: F > C = F (c-1; N-c) 2
Bảng Anova 160 70 230 𝑄𝑇 = 𝑋ij2 − 𝑁𝑋
90 40 100 ij
240 30 120 2
2
100 120 220 𝑄𝑓 = 𝑛𝑗 𝑋𝑗 − 𝑁𝑋
140 130 160 ij
120 20 150
𝑄𝑟 = 𝑄𝑇 − 𝑄𝑓
90 80 170
KỸ THUẬT HẬU KIỂM (POST HOC TEST) Với giả định các phương sai bằng nhau, hai trong số các phép kiểm sau được sử
Khi việc phân tích phương sai dẫn đến việc bác bỏ giả thuyết H0: không có sự dụng phổ biến nhất là LSD và Tukey’s HSD. LSD thường được coi là quá nhạy –
khác biệt giữa các trung bình tổng thể, sẽ tồn tại ít nhất 1 cặp trung bình khác nghĩa là có sự khác biệt đáng kể về mặt thống kê giữa hai nhóm trong khi thực tế
nhau. Để xác định những cặp trung bình nào khác nhau cần phải sử dụng các kỹ là không có. HSD đưa ra quan điểm thận trọng hơn và được nhiều người chấp
thuật hậu kiểm. nhận. Nói chung, HSD là kỹ thuật hậu kiểm tốt nhất để lựa chọn với giả định
Ví dụ, có bốn phương pháp điều trị, chúng ta có thể muốn biết, sau khi bác bỏ thì các phương sai bằng nhau. Nếu các phương sai không đồng nhất (‘không
nên bác bỏ giả thuyết nào trong sáu giả thuyết riêng lẻ có thể có. Mặc dù xác suất bằng nhau’), Dunnett’s T3 là tốt cho các mẫu nhỏ và Dunnett’s C cho các
bác bỏ một giả thuyết rỗng thực sự cho toàn bộ thử nghiệm là nhỏ, nhưng xác mẫu lớn.
suất bác bỏ ít nhất một giả thuyết đúng khi một số cặp trung bình được kiểm tra
lớn hơn so với một số so sánh nhiều các thủ tục thường dùng trong thực tế. Có rất Một quy trình so sánh nhiều lần do Tukey phát triển thường được sử dụng để kiểm
nhiều tài liệu về điểm mạnh và điểm yếu của các kỹ thuật hậu kiểm khác nhau có tra giả thuyết rỗng rằng tất cả các cặp trung bình có thể là như nhau khi tất cả các
sẵn trong SPSS. Các thử nghiệm khác nhau trong ứng dụng của chúng tùy theo mẫu đều có cùng kích thước.
kích thước của mẫu, số lượng nhóm, liệu các quan sát có khớp giữa các nhóm hay Khi tất cả các mẫu không có cùng kích thước, thì không thể áp dụng thử nghiệm
không và liệu có một nhóm đối chứng để so sánh hay không. HSD của Tukey. Tuy nhiên, bản thân Tukey và Kramer đã mở rộng quy trình
Tukey cho trường hợp kích thước mẫu khác nhau. Thủ tục của họ, đôi khi được
gọi là phương pháp Tukey-Kramer.
To test Homogeneity of
variance, press the “Options"
button and choose the
following:
Example 2
in SPSS
𝑎 𝑥 2 + 𝑏 𝑥 = 𝑥𝑦
𝑅. 𝑆𝑦
𝑎=
⇔൞ 𝑆𝑥
𝑎 𝑥 + 𝑛𝑏 = 𝑦 𝑏 = 𝑦lj − 𝑎𝑥lj
Ví dụ 1: Cân nặng (Y) của 6 trẻ từ 1 đến 6 tuổi (X) như sau: Ví dụ 2: Tuổi (X) và cân nặng (Y) của 6 X 1 2 3 4 5 6
trẻ em khác như sau: Y 11 11 14 16 18 20
X 1 2 3 4 5 6
Y 10 12 14 16 18 20
Nối các cặp (X, Y) này sẽ tạo thành một đường thẳng:
2. Hệ số tương quan
Ví dụ 3. Nghiên cứu về sự thải trừ thuốc sau khi uống một thời gian. Gọi
X(giờ) là thời gian khi uống thuốc và Y (g/ml) là nồng độ thuốc khi đó. Quan sát Tương quan đo lường mức độ tương quan giữa các biến (x, y). Nó cũng cho
(X, Y) nhiều lần ta có kết quả sau: chúng ta biết chiều hướng tương quan là âm (nghịc) hay dương (thuận).
X 1 2 3 5 8 10 xem xét mộCho dù t số ví dụ:
Y 0,9 0,8 0,75 0,7 0,5 0,4 1. Lượng cholesterol toàn phần trong huyết thanh có liên quan đến lượng
cholesterol trong chế độ ăn uống hay không?
2. Chiều cao và cân nặng. Bạn càng cao, bạn càng nặng: Tương quan dương.
3. Kết quả điểm danh và thi của lớp. Bạn càng nghỉ học nhiều, kết quả thi của bạn
càng kém: Tương quan âm.
4. Chỉ số khối cơ thể (BMI) và tỷ lệ phần trăm mỡ trong cơ thể. Chỉ số BMI của
bạn càng cao, tỷ lệ phần trăm chất béo trong cơ thể của bạn càng cao.
5. Màu mắt và trí thông minh. Không có bằng chứng thuyết phục nào cho thấy
màu mắt và trí thông minh có liên quan.
Dự báo hàm lượng thuốc sau khi uống Công thức tính hệ số tương quan r:
11 giờ, 12 giờ. σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത
𝑟= =
PT hồi quy là Y = 𝑛 2 𝑛
σ𝑖=1 𝑥𝑖 − 𝑥ҧ . σ𝑖=1 𝑦𝑖 − 𝑦ത 2 𝑛 − 1 𝑠𝑥 𝑠𝑦
Sau 11g: Y =
Sau 12g: Y =
Hệ số xác định r2
Trong thực tế, hệ số tương quan r thường được sử dụng để mô tả mức độ liên kết
tuyến tính giữa hai biến ngẫu nhiên X và Y. Hệ số xác định là một thước đo khác
thường được sử dụng để mô tả mức độ liên kết tuyến tính giữa X và Y. Trong thực
tế, 0 ≤ r2 ≤ 1.
r2 đại diện cho tỷ lệ giảm trong tổng biến động do sử dụng biến độc lập cụ thể Xi
trong mô hình hồi quy. r2 càng lớn thì sự giảm tổng biến phản ứng Yi càng lớn.
Điều này có nghĩa là dự đoán tốt hơn về Yi có thể được thực hiện khi r2 xấp xỉ 1.
Nếu r2 = 1 thì tất cả sự thay đổi trong biến kết quả Yi được giải thích bởi Xi.
Nếu r2 = 0 thì không có liên kết tuyến tính giữa Xi và Yi, và biến độc lập không
làm giảm bất kỳ sự biến đổi nào trong Yi với mô hình hồi quy tuyến tính.
4. Khoảng tin cậy cho dự báo Y và trung bình của dự báo 𝝁𝒀 5. Kiểm định hệ số tương quan
PTHQ: Y = aX + b. Tại X0 thì Y0 = aX0 + b, với X0 là một giá trị cụ thể của X tại H0: ρ = 0; H1: ρ ≠ 0
điểm cần dự báo cho Y và Y. 𝑟
𝑡= 𝑛 − 2 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡(𝑛 − 2)
❑ KTC cho dự báo Y ❑ KTC cho µY 1 − 𝑟2
Nếu |t| > C = tα(n-2) thì H0 bị bác bỏ.
1 𝑋0 − 𝑋ത 2 1 𝑋0 − 𝑋ത 2 Khi H0 bị bác bỏ ở một mức ý nghĩa xác định, thì có nghĩa là r khác 0 đáng kể,
𝑌 = 𝑌0 ± 𝐶. 𝑆𝑌.𝑋 1 + + 𝜇𝑌 = 𝑌0 ± 𝐶. 𝑆𝑌.𝑋 +
𝑛 𝑛 − 1 𝑆𝑋2 𝑛 𝑛 − 1 𝑆𝑋2 tức là nhỏ hơn nhiều hoặc lớn hơn nhiều so với 0. Khi H0 được chấp nhận, nghĩa
là r không khác 0 đáng kể.
PTHQ: Y = 1,942X + 8,2. Khi X0 = 8 thì Y0 = 23,736 Trong ví dụ 3. Có tồn tại mối tương quan giữa hai biến ngẫu nhiên X và Y?
𝛾 = 0,95 ⇒C = t0.05(4) = 2,776 H0: Không có sự tương quan giữa X và Y
• KTC 95% cho Y 𝑅
𝑡= . 𝑛−2
1 (8 − 3,5)2 1 − 𝑅2
𝑌 = 23,736 ± 2,776 × 0,711 1 + + =
6 5 × 1,872
𝛼 = 0.05 ⇒ 𝐶 = 𝑡0.05 (4) = 2.776
• KTC 95% cho µY
Vì |t| > C, H0 bị bác bỏ, với mức ý nghĩa α = 0.05.
1 (8 − 3,5)2
𝜇𝑌 = 23,736 ± 2,776 × 0,711 + Kết luận:
6 5 × 1,872
Example 4. Scaling and root planing are the most widely used techniques in periodontal
therapy. These procedures are used to remove bacterial plaque and calculus from the
surfaces of teeth. Despite the best efforts of clinicians to thoroughly root plane teeth,
considerable amounts of calculus remain, even though the surface of teeth feel clinically
smooth at the completion of scaling and root-planing procedures. Suppose a periodontist
observed pocket depth and percentage of calculus after scaling was done with 12
patients, as presented in the table below. We may assume both pocket depth and
percentage of calculus are normally distributed.
Perform a test of significance for the correlation coefficient for the data.