You are on page 1of 60

BÀI GIẢNG PHÂN TÍCH DỮ LIỆU VÀ

THỬ NGHIỆM LÂM SÀNG


Summarizing Data and Clinical Trials
TS. ĐÀO HỒNG NAM

Website: dhnammp.blogspot.com, Fanpage: facebook.com/xstkyd


BÀI GIẢNG PHÂN TÍCH DỮ LIỆU VÀ
THỬ NGHIỆM LÂM SÀNG
Summarizing Data and Clinical Trials
TS. ĐÀO HỒNG NAM
CHƯƠNG 2. PHÂN TÍCH DỮ LIỆU VÀ THỬ NGHIỆM LÂM SÀNG
Summarizing Data and Clinical Trials
TS. ĐÀO HỒNG NAM
2.1. DỮ LIỆU TRONG KHẢO SÁT VÀ THỬ NGHIỆM LÂM SÀNG
Trong hầu hết các trường hợp, dữ liệu y sinh và khoa học sức khỏe bao gồm các
quan sát về các đặc điểm nhất định của từng đối tượng, động vật thí nghiệm, các
hiện tượng hóa học, vi sinh hoặc vật lý trong phòng thí nghiệm hoặc quan sát phản
ứng của bệnh nhân với điều trị. Ví dụ, các đặc điểm điển hình của từng đối tượng
là giới tính, tuổi, huyết áp, tình trạng vệ sinh răng miệng, chỉ số nướu, hàm lượng
thuốc, số viên thuốc trong 1 lô/vỉ thuốc, mức cholesterol, tỷ lệ người nhiễm HIV
dương tính trong cộng đồng.
Bất cứ khi nào một thử nghiệm lâm sàng được tiến hành, các phép đo được thực
hiện, các nhà nghiên cứu sẽ thu thập dữ liệu dưới nhiều hình thức khác nhau. Một
số dữ liệu là số, chẳng hạn như chiều cao, huyết áp tâm thu, mật độ xương,… và
một số không phải là số, chẳng hạn như giới tính (nữ, nam) và mức độ đau của
bệnh nhân (không đau, đau vừa, đau dữ dội). Để thảo luận và mô tả đầy đủ dữ liệu,
chúng ta phải xác định một số thuật ngữ sẽ được sử dụng lặp đi lặp lại trong các
phần tiếp theo.
2.2. Các loại thang đo trong nghiên cứu
Biến số có thể phân làm 2 loại chính là biến định tính và biến định lượng. Các thang
đo dùng để đo lường các biến số này có thể chia thành 4 loại như sơ đồ sau:

Nominal Ordinal Interval Ratio


Biến định tính (The qualitative variable): Mô tả đặc tính của người hoặc đối tượng và
không thể được biểu thị bằng một giá trị số.
•Thang đo danh nghĩa (The nominal measurement scale) đại diện cho loại dữ liệu đơn
giản nhất. NNC thường sử dụng các mã số để qui ước, giữa các con số này không có
quan hệ hơn kém, không có thứ tự và không có ý nghĩa toán học.
Ví dụ 1. Thang đo danh nghĩa
Nhóm máu: 1 = A, 2 = B, 3 = AB, 4 = O
Giới tính: 1 = Nam, 0 = Nữ
•Thang đo thứ bậc (The ordinal measurement scale)
Là thang đo danh nghĩa, tuy nhiên khi mã hóa, các con số được sắp xếp theo một
quy ước tăng dần hoặc giảm dần về sự hơn kém, nhưng ta không biết được chính
xác khoảng cách giữa chúng. Điều này có nghĩa là bất cứ thang đo thứ bậc nào cũng
là thang đo danh nghĩa nhưng điều ngược lại không đúng.
Ví dụ 2. Thang đo thứ bậc
Mức độ đau: 1 = đau nhẹ, 2 = đau vừa, 3 = đau dữ dội, 4 = cực kỳ đau
Mức độ đau đã được sắp tăng dần nhưng không biết người có mức độ đau là 3 thì
đau gấp mấy lần người có mức độ đau là 2.
• Thang đo khoảng và thang đo tỷ lệ được ghép chung thành 1 loại thang đo
Scale trong phần mềm SPSS.
Ví dụ 3. Trong bảng khảo sát có câu hỏi “Các yếu tố sau đây có ảnh hưởng đến chất
lượng khám chữa bệnh tại bệnh viện”. Các đáp án là:
1: Rất không đồng ý, 2: Không đồng ý, 3:
STT Yếu tố Không ý kiến, 4: Đồng ý, 5: Rất đồng ý
1 Cơ sở vật chất 1 2 3 4 5
2 Trình độ của bác sĩ 1 2 3 4 5
3 Kinh nghiệm của bác sĩ 1 2 3 4 5
4 Số lượng người đến khám và điều trị 1 2 3 4 5
Ví dụ này sử dụng thang đo Likert. Đây là một dãy các chữ số liên tục từ 1-5, 1-7,
hay 1-10. Dãy số này có 2 cực ở 2 đầu thể hiện trạng thái đối nghịch nhau.
Biến định lượng là đặc tính của người hoặc vật có thể ID Sex Age SBP
được biểu thị một cách tự nhiên dưới dạng giá trị số. Giá 1 M 55 183
trị của biến có thể cân, đong, đo, đếm được bằng các phép 2 F 50 152
3 F 60 178
đo. Các biến định lượng nhận các giá trị số và do đó có thể
4 M 47 157
thực hiện các phép toán số học cơ bản (cộng, chia và tính 5 F 65 194
trung bình) 6 M 50 163
7 M 48 144
8 F 58 114
9 F 61 178
10 F 48 152
11 M 53 118
12 M 58 158

Ví dụ 4. Biến định tính


Bảng bên là huyết áp tâm thu (mm Hg) của 12 bệnh nhân đang điều trị bằng thuốc
điều trị tăng huyết áp.
Biến định lượng
- Tuổi, chiều cao, cân nặng, huyết áp, nồng độ florua trong nước uống, thời gian
thuyên giảm bệnh của bệnh nhân, hàm lượng thuốc,…
- Số viên thuốc trong một lô/vỉ thuốc; nhịp tim, …
Câu hỏi lượng giá
1. Biến số nào sau đây, liên quan đến các thử nghiệm lâm sàng của một loại thuốc, là biến
số rời rạc và biến số nào là liên tục?
Loại thuốc: thử nghiệm, giả dược (placebo)
Dạng bào chế: dung dịch/viên nang/khác
Các phép đo sinh khả dụng: Cmax, Tmax, AUC
Nồng độ prolactin (ng/l)
Nhà sản xuất A, B, C, D
Giới tính: nam, nữ
Tuổi (tính theo năm)
Lịch sử hút thuốc (điếu thuốc mỗi ngày)
2. Chọn ngẫu nhiên 5000 viên nén trong một lô thuốc (rất nhiều) để kiểm tra, biến nào sau
đây là biến rời rạc và biến nào là liên tục?
Lượng hoạt chất (độ đồng nhất hàm lượng)
Kiểm tra độ hòa tan - tiêu chí đạt hoặc không đạt
Tỷ lệ tan rã
Dễ vỡ - đạt hoặc không đạt tiêu chí
Độ cứng
Tạp chất - có hoặc không có
Kích thước - độ dày/đường kính
Trọng lượng viên nén
Công thức A, B hoặc C
3. Khả năng xác định các biến độc lập và phụ thuộc, và xác định xem các biến này là rời
rạc hay liên tục là rất quan trọng đối với thử nghiệm thống kê. Trong các ví dụ được liệt kê
dưới đây, hãy xác định những nội dung sau:
Có một biến độc lập? Biến độc lập này là liên tục hay rời rạc? Biến phụ thuộc là gì? Biến
phụ thuộc này là liên tục hay rời rạc?
a) Trong một thử nghiệm lâm sàng, các tình nguyện viên được chia ngẫu nhiên thành hai
nhóm và được sử dụng: 1) thuốc chống loạn thần Innovator hoặc 2) Acme Chemical tương
đương với cùng một loại thuốc. Dưới đây là kết quả của thử nghiệm (Cmax). Có sự khác
biệt nào giữa thuốc của hai nhà sản xuất dựa trên một đặc tính dược động học này không?
b) Các mẫu được lấy từ một lô thuốc cụ thể và được chia ngẫu nhiên thành hai nhóm thuốc.
Một nhóm đã được thử nghiệm bởi các phòng thí nghiệm kiểm soát chất lượng của chính
nhà sản xuất. Nhóm thuốc thứ hai được gửi đến phòng thí nghiệm hợp đồng để phân tích.

c) Một nhà sản xuất thiết bị đã thực hiện một loạt các thử nghiệm để so sánh tỷ lệ đạt hoặc
không đạt của một thiết bị phân rã mới. Các mẫu được lấy từ một lô viên nén không bao. Hai
nhiệt độ khác nhau đã được sử dụng và thử nghiệm cho thời gian khuyến nghị. Thành công
được định nghĩa là cả sáu viên đều tan rã trong thiết bị phân rã.
2.3. Mô tả dữ liệu
2.2.1 Bảng tần số
Bước đầu tiên trong việc tóm tắt dữ liệu là sắp xếp dữ liệu theo một số cách có ý
nghĩa. Phương pháp thuận tiện và thường được sử dụng nhất là phân phối tần số,
trong đó dữ liệu thô được tổ chức dưới dạng bảng theo lớp và tần suất.
Ví dụ 5. Có 3 loại thuốc chống nôn (anti‐emetic) khác nhau được sử dụng kết hợp
với chế độ trị liệu hóa trị. Một là thuốc tiêu chuẩn hiện tại và sau đó có hai loại
thuốc mới. NNC muốn xem xét mức độ buồn nôn được báo cáo khi chúng được sử
dụng. Mỗi thuốc chống nôn được dùng cho 30 bệnh nhân và họ đánh giá buồn nôn
theo thang điểm từ 1 đến 4 (1 = Không, 2 = Nhẹ, 3 = Trung bình, 4 = Nặng). Kết
quả được thể hiện trong bảng 2.1.

Nhận xét?
X X
251 245
Ví dụ 6. Lập bảng dữ liệu 250 246
Cách đơn giản nhất và ít thông tin nhất để trình bày kết quả thử 253 247
247
nghiệm là liệt kê các quan sát (dữ liệu thô). 249
250 248
Ví dụ: lấy mẫu 30 viên nang tetracycline trong quá trình sản xuất 252 248
để đo hàm lượng. Dữ liệu được trình bày ở định dạng này tương 247 248
249
248
đối vô dụng ngoài việc chỉ cung cấp các kết quả riêng lẻ. 254 249
Ta có thể sắp xếp kết quả của 30 mẫu theo thứ tự từ kết quả xét 245 249
250 249
nghiệm nhỏ nhất đến lớn nhất. Khi đó ta có thể thấy một số đặc 253 250
điểm nhất định của dữ liệu: 1) hầu hết các cụm quan sát gần giữa 251 250
250 250
của sự phân phối (ví dụ: 250 mg) và 2) sự phân bố của các kết quả 249 250
thay đổi từ nhỏ như 245 mg đến lớn như 254 mg. 252 250
250
Mục đích của thống kê mô tả là tổ chức và tóm tắt thông tin; do đó, 251
249 250
các bảng và biểu đồ có thể được sử dụng để trình bày dữ liệu này ở 246 251
định dạng hữu ích hơn. 250
250
251
251
254 251
248 251
252 252
251 252
248 252
250 253
247 253
251 254
249 254
Trong quá trình phân tích DL, chúng ta cố gắng giảm dữ liệu thành thông tin dễ quản lý
hơn. Các kết quả về hàm lượng viên nén đại diện cho một biến liên tục (mg); tuy nhiên, dữ
liệu liên tục có thể được nhóm lại với nhau để tạo thành các danh mục và sau đó được xử lý
như một biến rời rạc. Giả sử rằng hàm lượng ghi trên nhãn của tetracycline là 250 mg mỗi
viên. Dữ liệu có thể được tóm tắt để báo cáo kết quả: 1) tập trung vào những viên nang đáp
ứng hoặc vượt quá lượng ghi trên nhãn

X f cf % cum.%
f: frequencies
<250 11 11 36.67 36.67 cf: cumulative frequencies
=250 7 18 23.33 60.00
>250 12 30 40.00 100.00
Để trình bày dữ liệu thô dưới dạng phân bố tần số, phải chia phạm vi của các phép
đo trong dữ liệu thành một số khoảng. Các khoảng thường được xây dựng để có
chiều rộng bằng nhau. Điều này sẽ giúp dễ dàng so sánh giữa các khoảng khác nhau.
Lưu ý khi tóm tắt dữ liệu, việc có quá nhiều khoảng sẽ không cải thiện nhiều so với
dữ liệu thô. Nếu có quá ít khoảng, rất nhiều thông tin sẽ bị mất.
Số khoảng và độ rộng khoảng được tính theo quy tắc Sturges.
Số khoảng I = 1 + 3.322𝑙𝑜𝑔10 𝑛
𝑅
Độ rộng khoảng 𝑤 = 𝐼 với 𝑅 = 𝐺𝑇𝐿𝑁 − 𝐺𝑇𝑁𝑁
Trong ví dụ 6: I = 1 + 3.322𝑙𝑜𝑔10 30 = 5.9 ≈ 6; 𝑅 = 254 − 245 = 9 nên độ
𝑅 9
rộng khoảng 𝑤 = 𝐼 = 6 = 1.5
Số lớp f % cum.%
245-246.5 2 6.67 6.67
246.5-248 2 6.67 13.33
248-249.5 7 23.33 36.67
249.5-251 7 23.33 60.00
251-252.5 8 26.67 86.67
252.5-254 4 13.33 100.00
Tổng cộng 30 100
H. A. STURGES, “The Choice of a Class Interval,” Journal of the American Statistical Association, 21
(1926), 65–66.
2.2.2 Tần số, tần suất và tần suất tích lũy

Ví dụ 7. Đo huyết áp tâm thu (mmHg) của 17 bệnh nhân:


150, 154, 156, 157, 159, 160, 161, 161, 162, 163, 164, 165, 167, 168, 169, 170,174

X 150 - 156 156 - 162 162 - 168 168 - 174


n 2 6 5 4

X Tần số Tần suất (%) Tần suất tích lũy (%)


150 - 156 2 11.76 11.76
156 - 162 6 35.29 47.06
162 - 168 5 29.41 76.47
168 - 174 4 23.53 100
2.2.3. Biểu đồ
Mặc dù phân bố tần suất là một cách hiệu quả để tổ chức và trình bày dữ liệu,
nhưng biểu đồ có thể truyền tải cùng một thông tin trực tiếp hơn. Do bản chất của
chúng, dữ liệu định tính thường được hiển thị dưới dạng biểu đồ thanh (bar graphs)
và biểu đồ hình tròn (pie charts), dữ liệu định lượng thường được hiển thị dưới
dạng biểu đồ (histograms), biểu đồ hình hộp (box-whisker plots) và biểu đồ thân và
lá (stem and leaf plots).
✓ Biểu đồ hình quạt (tròn): Dùng để diễn tả sự phân phối của các thành phần
(%) so với toàn thể
Ví dụ 8. Biểu đồ hình tròn: Số liệu kê đơn cho
các loại statin tại một bệnh viện trong ngày

Tên thuốc Số người


Atorvastatin 60
Fluvastatin 6
Lovastatin 9
Pravastatin 7
Rosuvastatin 7
Simvastatin 18
Biểu đồ hình quạt (tròn) trong VD6

Số lớp f % cum.%
245-246.5 2 6.67 6.67
246.5-248 2 6.67 13.33
248-249.5 7 23.33 36.67
249.5-251 7 23.33 60.00
251-252.5 8 26.67 86.67
252.5-254 4 13.33 100.00
Tổng cộng 30 100
✓ Biểu đồ hình cột
Dùng để so sánh sự phân phối của các giá trị khảo sát
Biểu đồ cột trong VD6
X f
<250 11
=250 7
>250 12

2.4.5 Biểu đồ thân và lá (Stem and Leaf Plots)


Biểu đồ thân và lá là một phương pháp tổ chức dữ liệu sử dụng một phần dữ liệu
làm “thân” và một phần dữ liệu làm “lá” để tạo thành các nhóm.
Biểu đồ thân và lá trong ví dụ 6
X X Thân Lá Vị trí lá
251 245 24 5 1
250 246 24 6 2
253 247 24 7 3
249 247 24 7 4
250 248 24 8 5
252 248 24 8 6
247 248 24 8 7
248 249 24 9 8
254 249 24 9 9
245 249 24 9 10
250 249 24 9 11
253 250 25 0 1
251 250 25 0 2
250 250 25 0 3
249 250 25 0 4
252 250 25 0 5
251 250 25 0 6
249 250 25 0 7
246 251 25 1 8
250 251 25 1 9
250 251 25 1 10
254 251 25 1 11
248 251 25 1 12
252 252 25 2 13
251 252 25 2 14
248 252 25 2 15
250 253 25 3 16
247 253 25 3 17
251 254 25 4 18
249 254 25 4 19
ví dụ 6a. Nồng độ Cmax của một loại thuốc
Ví dụ 9. Tổng số 49 phép đo chiều cao xương (mm) của 17 bệnh nhân. Số lượng cấy ghép
được đặt ở mỗi bệnh nhân thay đổi từ 1 đến 6. Phần nguyên của các phép đo này: 2, 3, 4, 5, 6,
7, 8, 9, 10, 11 và 12 sẽ đóng vai trò là thân. Số xuất hiện sau dấu thập phân sẽ được biểu diễn
dưới dạng một chiếc lá trên thân cây tương ứng. Biểu đồ có một đường thẳng đứng được vẽ ở
bên phải của cột thân cây như trong hình, hoặc một số chỉ đơn giản là đặt dấu chấm (·) sau
thân cây.
✓ Biểu đồ phân vị (Histogram)
Dùng để diễn tả sự phân phối tần số các đặc tính định lượng liên tục: chiều cao,
cân nặng, huyết áp, mật độ xương, …
Trong Ví dụ 9: Tổng số 49 phép đo chiều cao xương (mm) của 17 bệnh nhân
✓ Đường biểu diễn
• Đường biểu diễn đa giác tần số
Khi nối các cột trong biểu đồ hình cột, ta được một đường gấp khúc gọi là đường
biểu diễn đa giác tần số. Đường này cho thấy sự thay đổi của đặc tính cần khảo sát.
Ví dụ 10. Số ca nhiễm mới Covid-19 theo ngày trong tháng 8/2021
• Đường biểu diễn tần số tương đối
Được vẽ dựa vào Histogram và các giá trị trung tâm của lớp.
- Nếu phân phối đối xứng thì DL khảo sát có PPC.
- Nếu phân phối không đối xứng thì DL không có PPC.
• Đường biểu diễn tần số tương đối dồn (tích lũy)
- Dùng để diễn tả sự phân phối các đặc tính định lượng và được vẽ từ
cột tần số tương đối dồn
- Dựa vào đường biểu diễn tần số tương đối dồn có thể tính toán các
bách phân vị của một phân phối.
Có 99 bách phân vị từ bách phân vị thứ 1 (P1) đến bách phân vị thứ 99
(P99). Không có P0 và P100.

Bách phân vị (Percentile) còn được gọi là phân vị phần trăm.


Bách phân vị thứ p (hay phân vị phần trăm thứ p) của một dãy số đã xếp theo thứ
tự tăng dần là một số A có:
• p phần trăm số hạng của dãy số này có giá trị bé hơn hay bằng A,
• (100-p) phần trăm số hạng của dãy số này có giá trị lớn hơn hay bằng A.
Cần lưu ý rằng A có thể thuộc dãy số này hay không.

Thuật toán chia đôi


Ví dụ 12 (n chẵn): Lượng cholesterol của 34 người:
114, 115, 121, 123, 127, 130, 135,137,140,145,146,150,153, 156,160, 166,170,
177,180,190, 191, 192, 195,199, 200, 201, 201, 202, 205, 207, 208, 210, 213, 233.
Tính 𝑃25 , 𝑃50, 𝑃75
Trung vị của dãy DL là 𝑃50 =
Chia DL thành 2 phần
Phần 1 có trung vị là 𝑃25 =
Phần 2 có trung vị là 𝑃75 =

Ví dụ 13 (n lẻ): Có dãy DL như sau: 4, 8, 9, 11, 12, 13, 16, 18, 20


Trung vị của dãy DL là 𝑃50 =
Chia DL thành 2 phần
Phần 1 có trung vị là 𝑃25 =
Phần 2 có trung vị là 𝑃75 =
Ví dụ: Biểu đồ BPV về cân nặng của
trẻ từ lúc sinh ra đến 2 tuổi theo WHO

Một bé 8 tháng tuổi, nặng 10,5kg => tương ứng BPV thứ 97 => Kết luận: bé này thừa cân!
Khi bé tròn 1 tuổi, cân nặng 11kg => tương ứng BPV thứ 85 => Kết luận: bé “diet” thành công,
không còn thừa cân nữa :3. Rồi đến 18 tháng, bé vẫn 11kg => BPV thứ 50 => KL?
CHƯƠNG 3. CÁC THƯỚC ĐO VỀ XU HƯỚNG TRUNG TÂM,
ĐỘ PHÂN TÁN VÀ ĐỘ NGHIÊNG

Ngoài việc mô tả dữ liệu bằng phân bố tần số và đồ thị để tóm tắt và hiển thị dữ liệu một
cách trực quan, chúng ta mong muốn mô tả thêm một số đặc điểm của dữ liệu bằng cách sử
dụng các biện pháp định lượng.
Thước đo vị trí được sử dụng rộng rãi nhất là giá trị trung bình. Tuy nhiên, một công ty sản
xuất găng tay cao su phẫu thuật sẽ không thể tồn tại lâu nếu chỉ sản xuất găng tay cỡ trung
bình. Các thước đo của xu hướng trung tâm không đủ để mô tả dữ liệu một cách đầy đủ.
Ngoài việc biết giá trị trung bình, chúng ta phải biết dữ liệu được phân tán, hoặc trải rộng
như thế nào. Các thước đo xác định mức độ phân tán được gọi là các thước đo độ phân tán,
hay các thước đo độ biến thiên. Các thước đo tiêu biểu của sự phân tán là phạm vi (range),
phương sai (variance), và độ lệch chuẩn (standard deviation). Các thông số đo độ phân tán
này sẽ được thảo luận trong phần sau của chương. Phần cuối trình bày biểu đồ hộp (box
plot), đây là một kỹ thuật cực kỳ hữu ích để phân tích dữ liệu khám phá và các khái niệm
về hệ số biến thiên và độ lệch.
1. CÁC GIÁ TRỊ TRUNG TÂM
1.1 SỐ TRUNG BÌNH
Thước đo xu hướng trung tâm được sử dụng thường xuyên nhất là trung bình cộng hoặc
đơn giản là trung bình.
Khảo sát đặc tính X trên n đối tượng thu được giá trị của dữ liệu mẫu 𝑋1 , 𝑋2 , … , 𝑋𝑛 .
𝑋1 +𝑋2 +⋯+𝑋𝑛 σ𝑛
𝑖=1 𝑋𝑖
Công thức tính giá trị trung bình là: 𝑋 = hay gọn hơn là: 𝑋 =
𝑛 𝑛

Ví dụ 1. Axit ascorbic là một trong những thành phần quan trọng có trong viên
vitamin C. Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn vị: mg) có kết
quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Khi đó, giá trị trung bình về hàm lượng Axit ascorbic là:
455 + 450 + ⋯ + 455
𝑋ത = = 450
10
Ví dụ 2. Bác sĩ sử dụng thang điểm để phân loại tình trạng bệnh của bệnh nhân:
1. Không bệnh; 2. Nhẹ; 3. Trung bình; 4. Nghiêm trọng; 5. Cực kỳ nghiêm trọng
Có thể gắn nhãn các danh mục 0 = không bệnh, 1 = nhẹ, 3 = trung bình, 5 =
nghiêm trọng và 7 = cực kỳ nghiêm trọng.
Điểm trung bình 3,85 cho trạng thái bệnh là vô nghĩa.

1.2 TRUNG VỊ
Để tránh khả năng bị ảnh hưởng bởi một vài quan sát có giá trị cực nhỏ hoặc cực
lớn, chúng ta mô tả trung tâm của tập dữ liệu bằng một thước đo thống kê khác với
giá trị trung bình số học. Một biện pháp thay thế cho vị trí trung tâm, gần như phổ
biến như giá trị trung bình số học, là trung vị. Giả sử có n quan sát trong một tập
dữ liệu. Để tìm trung vị, tất cả n quan sát phải được sắp xếp theo thứ tự tăng dần.
Sau đó, trung vị được xác định như sau.
Định nghĩa 1. Gọi 𝑋1, 𝑋2 , … , 𝑋𝑛 là một mẫu gồm n quan sát được sắp xếp theo thứ
tự tăng dần. Trung vị là giá trị quan sát ở giữa nếu n lẻ. Nếu n chẵn, trung vị mẫu là
giá trị trung bình của hai quan sát ở giữa dãy dữ liệu.
Ví dụ 3. Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn vị: mg) có kết
quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Sắp DL tăng dần (không giảm): 445, 447, 448, 448, 450, 450, 450, 452, 455, 455
Do 𝑛 = 10 là số chẵn nên trung vị là:
Bây giờ giả sử chỉ đo hàm lượng Axit ascorbic trong 7 viên vitamin C và được dãy
DL (đã sắp tăng dần): 445, 447, 448, 448, 450, 452, 455
Khi đó 𝑛 = 7 là số lẻ nên trung vị là:
Chú ý: Vì trung vị là giá trị ở giữa dãy dữ liệu (đã được sắp tăng dần), trong khi các
giá trị rất nhỏ hoặc rất lớn nằm ở hai đầu của một dãy dữ liệu nên trung vị không bị
ảnh hưởng bởi các giá trị rất nhỏ hoặc rất lớn (giá trị ngoại lai)
1.3 YẾU VỊ (MODE)
Một thước đo khác được sử dụng để mô tả trung tâm của tập dữ liệu là yếu vị, là giá
trị quan sát xảy ra thường xuyên nhất và xảy ra nhiều hơn một lần. Một ưu điểm
của yếu vị là không cần tính toán. Nó có thể được xác định đơn giản bằng cách đếm
các tần số. Yếu vị là thước đo duy nhất về khuynh hướng trung tâm có thể được sử
dụng cho các biến định tính, chẳng hạn như loại thuốc gây tê, dân tộc và nhóm máu
của bệnh nhân. Ngay cả đối với các biến định lượng rời rạc, chẳng hạn như quy mô
gia đình, số lần đến phòng khám bệnh và số lần mang thai, yếu vị đôi khi là thước đo
có ý nghĩa hơn về xu hướng trung tâm so với giá trị trung bình hoặc trung vị.
Chẳng hạn, sẽ hợp lý hơn khi nói rằng quy mô gia đình Việt Nam điển hình nhất là 4
người, hoặc phụ nữ Việt Nam điển hình có 2 lần mang thai trong đời, hơn là quy mô
gia đình Việt Nam trung bình là 3,8 hoặc phụ nữ Việt Nam trung bình có 1,9 lần
mang thai. Một bất lợi là một tập dữ liệu có thể có nhiều yếu vị hoặc không có yếu
vị nào nếu không có giá trị nào xuất hiện nhiều hơn một lần.
Ví dụ 4. Trong Ví dụ 1: Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn
vị: mg) có kết quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Khi đó yếu vị là 540 (mg) vì giá trị này xuất hiện nhiều lần nhất (3 lần)
• Bây giờ giả sử kết quả đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn
vị: mg) là dãy DL: 455, 450, 452, 448, 446, 456, 447, 453, 449, 445.
Khi đó dãy DL này không có yếu vị.
• Nếu kết quả đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn vị: mg) là
dãy DL: 455, 450, 450, 448, 446, 456, 447, 453, 449, 455.
Khi đó dãy DL này có 2 yếu vị là 450 và 455.
Tóm tắt các tính chất quan trọng của 3 thước đo vị trí trung tâm được sử dụng rộng rãi.
Trung bình:
• Được sử dụng rộng rãi nhất và phụ thuộc vào giá trị của mọi quan sát
• Điểm cân bằng của một phân phối
• Không thích hợp cho dữ liệu định tính
• Nhạy cảm với các giá trị cực đoan
• Không thích hợp cho dữ liệu sai lệch cao (có giá trị ngoại vi)
Trung vị:
• Không nhạy cảm với các giá trị cực đoan
• Nhạy cảm với kích thước mẫu
• Được sử dụng rộng rãi cho các bảng phân phối có độ lệch cao
• Thích hợp cho các biến thứ tự
Yếu vị:
• Giá trị điển hình nhất trong dữ liệu
• Chỉ đo lường thích hợp cho dữ liệu danh nghĩa
• Thích hợp hơn giá trị trung bình hoặc trung vị cho các biến định lượng rời rạc
2. CÁC GIÁ TRỊ PHÂN TÁN
Trong phần trên, chúng ta đã thảo luận về các số đo của khuynh hướng trung tâm.
Tuy nhiên, trong thực tế không có hai bệnh nhân nào đáp ứng chính xác theo cùng
một cách đối với một phương pháp điều trị nhất định. Sự thay đổi trong tất cả các
khía cạnh của khoa học sức khỏe là không thể tránh khỏi.
Ví dụ 5. Để đánh giá việc kiểm soát mảng bám khiến nhiều bệnh nhân sợ khám và
điều trị nha khoa, các nhà điều tra đã chọn ngẫu nhiên 7 sinh viên ngành kỹ thuật và
7 sinh viên ngành y dược. Từ mỗi đối tượng trong số 14 đối tượng, sử dụng một viên
bông, một mẫu mảng bám được lấy từ bề mặt nhẵn của vùng răng hàm trên bên phải
của họ. Sau 24 giờ ủ, các mẫu được quan sát về sự phát triển của khuẩn lạc, được
biểu thị bằng số lượng đơn vị khuẩn lạc (colony-forming units = CFU) được hình
thành như sau:
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330
Giá trị trung bình của mỗi tập dữ liệu trên đều là ………... Sẽ hoàn toàn không phù
hợp nếu kết luận rằng tình trạng mảng bám của hai nhóm này là như nhau vì trung
bình là như nhau. Điều này cho thấy thực tế là nếu chỉ sử dụng giá trị trung bình là
không đủ để mô tả chính xác dữ liệu.
Các thước đo của xu hướng trung tâm đại diện cho các điểm mà trên đó phân bố có xu
hướng tập trung. Các thước đo của vị trí trung tâm truyền tải thông tin quan trọng về dữ liệu,
nhưng chúng không cho chúng ta biết bất cứ điều gì về sự thay đổi hoặc phân tán của các giá
trị quan sát. Nhiều thước đo về độ biến thiên đã được đề xuất để thể hiện sự phân tán của các
giá trị quan sát xung quanh một số vị trí trung tâm. Các thước đo hữu ích nhất về sự biến
thiên trong khoa học sức khỏe như: phạm vi (range), bách phân vị (percentiles), tứ phân vị
(interquartile range), phương sai (variance), độ lệch chuẩn (standard deviation) và hệ số biến
thiên (coefficient of variation).
2.1. Phạm vi (Range)
Thước đo độ biến thiên đơn giản nhất là phạm vi, là khoảng cách giữa các quan sát lớn nhất
và nhỏ nhất. Cho dãy được ký hiệu là R và 𝑋1 , 𝑋2 , … , 𝑋𝑛 là n quan sát. Khi đó phạm vi được
tính bởi 𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛.
Trong ví dụ 5 về số lượng đơn vị khuẩn lạc (colony-forming units = CFU) được hình thành
Sau 24 giờ ủ :
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330

Phạm vi CFU của sinh viên kỹ thuật là R =


và phạm vi CFU của sinh viên y dược là R =
Phạm vi rất dễ tính toán, nhưng nó chỉ phụ thuộc vào hai giá trị cực đoan, nhỏ nhất và lớn
nhất, bỏ qua tất cả các giá trị trung gian. Vì vậy, phạm vi không phản ánh sự phân tán của các
giá trị giữa hai quan sát cực đoan. Đây là thiếu sót chính của phạm vi. Cả ba trường hợp dưới
đây có cùng phạm vi vì chúng có cùng các giá trị cực đoan, bất kể giá trị giữa chúng là bao
nhiêu.
Trường hợp 1: 30, 150, 250, 280, 310, 410, 530
Trường hợp 2: 30, 30, 30, 30, 30, 30, 530
Trường hợp 3: 30, 530, 530, 530, 530, 530, 530

Phạm vi có những nhược điểm sau:


1. Độ ổn định lấy mẫu (sự thay đổi từ mẫu này sang mẫu tiếp theo) của phạm vi là rất kém.
2. Nó phụ thuộc vào kích thước mẫu. Kích thước mẫu càng lớn, càng có nhiều khả năng quan
sát các giá trị cực đoan hơn. Do đó, phạm vi có thể sẽ lớn hơn khi tăng kích thước mẫu.
3. Nó rất nhạy cảm với hai giá trị cực đoan và bỏ qua phần còn lại của các quan sát.
4. Nó không có ý nghĩa đối với dữ liệu định tính không có thứ tự.
2.2. BÁCH PHÂN VỊ VÀ TỨ PHÂN VỊ
Một thước đo độ biến thiên tốt hơn phạm vi sẽ sử dụng nhiều thông tin hơn từ DL và
sẽ không phụ thuộc vào kích thước mẫu. Bách phân vị và tứ phân vị chia DL
thành 100 phần và 4 phần tương ứng.
Định nghĩa 2. Điểm phân vị là điểm nằm dưới một phần trăm quan sát cụ thể. Phân
vị được ký hiệu là 𝑝% .
Ví dụ 6. DL được cho bởi: 6, 3, 12, 23, 2, 6, 18, 11, 9, 5, 9, 8. Tìm các phân vị thứ
25, 50, 75.
Sắp xếp lại DL theo thứ tự tăng dần: 2, 3, 5, 6, 6, 8, 9, 9, 11, 12, 18, 23
Trung vị của dãy DL là phân vị thứ 50: 𝑃50 =
Để tìm các phân vị 𝑃25 , 𝑃75 cần chia DL thành 2 phần:
Phần 1 gồm: 2, 3, 5, 6, 6, 8 có trung vị là 𝑃25 =
Phần 2 gồm: 9, 9, 11, 12, 18, 23 có trung vị là 𝑃75 =
Khoảng tứ phân vị là một thước đo độ phân tán không dễ bị ảnh hưởng bởi một vài
giá trị cực trị đoan như Phạm vi. Phân vị thứ 25, 50 và 75 được gọi là tứ phân vị
thứ 1, thứ 2 và thứ 3, và được ký hiệu là 𝑄1 , 𝑄2 , 𝑄3 . Sử dụng ký hiệu phân vị, 𝑄1 =
𝑃25 , 𝑄2 = 𝑃50, 𝑄3 = 𝑃75
Định nghĩa 3. Khoảng tứ phân vị (interquartile range = IQR) là khoảng cách giữa 𝑄1 và 𝑄3 .
𝐼𝑄𝑅 = 𝑄3 − 𝑄1

Khoảng tứ phân vị chứa khoảng 50% DL. Nếu IQR lớn, thì DL có xu hướng bị phân tán rộng.
Ngược lại, nếu IQR nhỏ, thì DL có xu hướng tập trung xung quanh trung tâm của phân phối.

Đối với dữ liệu trong Ví dụ 6, 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 =


Khi phân tích DL khám phá, ta nên xem xét kỹ lưỡng DL cho các quan sát cực nhỏ hoặc cực
lớn.
Định nghĩa 4. Các giá trị quan sát được gọi là ngoại vi (hay ngoại lai) là các quan sát có giá
trị cực nhỏ và cực lớn so với phần còn lại của các giá trị trong dữ liệu.
Có một số phương pháp tìm và phát hiện các giá trị ngoại lai. Một phương pháp sử dụng IQR
gọi là khoảng giới hạn của tứ phân vị như sau: [𝑄1 − 1,5𝐼𝑄𝑅; 𝑄3 + 1,5𝐼𝑄𝑅]
Nếu giá trị quan sát nào không thuộc khoảng giới hạn của tứ phân vị thì giá trị đó được gọi là
ngoại lai. Phương pháp phát hiện giá trị ngoại lai này còn được gọi là phép thử Tukey.

Ví dụ 7. Trong ví dụ 6, với dữ liệu {2, 3, 5, 6, 6, 8, 9, 9, 11, 12, 18, 23 }


IQR = Q3 – Q1 =
khoảng giới hạn của tứ phân vị là:
2.3. ĐỘ LỆCH
Một số đặc điểm quan trọng của
phân bố có thể quan sát được từ
biểu đồ, biểu đồ thân và lá, hoặc
biểu đồ hộp là tính đối xứng và hình
dạng của phân bố. Dữ liệu được cho
là phân phối đối xứng nếu một nửa
của phân phối bên dưới trung vị
khớp với phân phối trên trung vị.
Nói cách khác, vị trí tương đối của
các điểm dữ liệu ở cả hai phía của
đường trung bình sẽ khớp với nhau.

Định nghĩa 5. Phân phối có


"đuôi" dài ở bên phải được
cho là lệch sang phải hoặc lệch
phải (hoặc lệch dương) và
phân phối có "đuôi" dài ở bên
trái được cho là lệch sang trái ,
hoặc lệch trái (hoặc lệch âm).
Các biểu đồ hộp được thảo luận trước đó có thể cho chúng ta một ý tưởng sơ bộ về độ lệch
của dữ liệu. Ví dụ: nếu râu dưới dài hơn râu trên, thì dữ liệu có thể bị lệch trái. Ngược lại,
nếu râu trên dài hơn râu dưới, thì dữ liệu có khả năng bị lệch phải. Nếu phân phối bị lệch
vừa phải, thì mối quan hệ giữa giá trị trung bình, trung vị và yếu vị như sau:
𝑀𝑒𝑎𝑛 − 𝑀𝑜𝑑𝑒 ≅ 3(𝑀𝑒𝑎𝑛 − 𝑀𝑒𝑑𝑖𝑎𝑛)
Công thức tính độ lệch là:
3
σ𝑛𝑖=1 𝑋𝑖 − 𝑋
𝑆𝐾 = 3
2 2
σ𝑛𝑖=1 𝑋𝑖 − 𝑋

Nếu một phân phối là đối xứng, SK = 0; nếu nó lệch phải (hoặc lệch dương) thì SK > 0; và
nếu nó bị lệch trái (lệch âm) thì SK < 0.

Ví dụ 8. 18 người lớn đã được chọn để nghiên cứu khoảng thời gian súc miệng
bằng nước súc miệng liên quan đến thời gian súc miệng khuyến nghị của nhà sản
xuất. Biến ngẫu nhiên Xi biểu thị khoảng thời gian súc miệng (tính bằng giây) của
người thứ i.
Mean 24.111 Với dữ liệu này, tính được: SK = - 0.199
Standard Error 1.747 Giá trị này cho thấy dữ liệu hơi bị lệch sang trái.
Median 25
Mode 25
Standard Deviation 7.411
Sample Variance 54.928
Kurtosis -1.088
Skewness -0.199
Range 25
Minimum 10
Maximum 35
Sum 434
Count 18
Confidence Level(95.0%) 3.686

2.4. BIỂU ĐỒ HỘP VÀ RÂU (Box and whisker plot)


Một loại biểu đồ trình bày trực quan về vị trí, khả năng thay đổi và các giá trị ngoại
lai là biểu đồ hộp và râu, hay được gọi đơn giản là biểu đồ hộp. Biểu đồ hộp về cơ
bản chỉ liên quan đến một số giá trị: giá trị thấp nhất, tứ phân vị thứ nhất (Q1), tứ
phân vị thứ hai (Q2 = giá trị trung vị), tứ phân vị thứ ba (Q3) và giá trị lớn nhất.
Ví dụ 9: Lượng acid uric (mg/dl) của một mẫu gồm 15 người như sau:
AU
2
4
4.5
6
6.2
6.3
6.5
6.6
6.9
7.5
7.8
8
9.2
10.5
15
2.5. PHƯƠNG SAI, ĐỘ LỆCH CHUẨN, SAI SỐ CHUẨN
• Phương sai: Mô tả mức độ phân tán của DL xung quanh giá trị trung bình
σ 2
(𝑥𝑖 − 𝑥)
𝑠2 =
𝑛−1
Trong đó n – 1 gọi là số bậc tự do (degree of freedom = df), df là số nguồn thông
tin (piece of information) về một biến ngẫu nhiên.
• Độ lệch chuẩn (Standard deviation = SD hay s): 𝑆𝐷 = 𝑠 = 𝑠 2
𝑠
• Sai số chuẩn (Standard Error = SE): 𝑆𝐸 = 𝑛
Ví dụ 10. Đo huyết áp tâm thu (mmHg) của 5 người có kết quả như bảng sau:

Vậy 𝑠 2 =
Ví dụ 11: Thuốc hạ huyết áp A và B được sử dụng trên 2 nhóm, mỗi nhóm 5 b/n.
Huyết áp tâm thu sau khi dùng thuốc là
A: 110, 115, 120, 125, 130.
B: 100, 110, 120, 130, 140.

Tham số A B
Trung bình
Độ lệch chuẩn
Phương sai
Nhận xét?
2.6. HỆ SỐ BIẾN THIÊN
Mặc dù SD là thước đo độ biến thiên được sử dụng rộng rãi nhất, nhưng có một nhược điểm
là nó phụ thuộc vào đơn vị đo lường. Hệ số biến thiên là thước đo dùng để so sánh mức độ
biến thiên giữa hai hay nhiều bộ dữ liệu biểu thị các đại lượng khác nhau với các đơn vị đo
lường khác nhau.
𝑆
𝐶𝑉 = × 100(%)

𝑋
Ví dụ 12. Độ bền của hai loại trụ đúc sẵn, trụ bằng sợi carbon (CFP) và trụ được gia cố bằng
sợi polyethylene (PFRP), trên răng được điều trị nội nha. Giá trị trung bình của mẫu và SD
mẫu đối với CFP là 𝑋𝐴 = 67,57 kg và 𝑆𝐴= 26,57 kg, và đối với PFRP lần lượt là 𝑋𝐵 = 132,55
lbs và 𝑆𝐵 = 36,19 lbs. Sẽ không có nhiều ý nghĩa nếu so sánh trực tiếp hai SD này vì chúng
được báo cáo theo các đơn vị đo lường khác nhau. Hệ số biến thiên là thông số chúng ta cần
trong tình huống này để đo sự biến thiên.
𝑆𝐴
𝐶𝑉𝐴 = ത × 100 % =
𝑋𝐴
𝑆𝐵
𝐶𝑉𝐵 = ത × 100 % =
𝑋𝐵
Ví dụ 13: Dạng Liệt kê: Xét hai tập giá trị
X = {7, 7, 8, 9,11, 12, 12, 14}
Ví dụ 14: Dạng thu gọn
Chiều cao của một số người
X = {150, 150, 160, 160, 160, 170, 170, 170, 170, 170, 180, 170, 180, 180, 190, 180,
190}
X 150 160 170 180 190
n 2 3 6 4 2

Ví dụ 15: Dạng ghép lớp


X = {150, 154, 156, 157, 159, 160, 161, 161, 162, 163, 164, 165, 167, 168, 169, 170,174

n = 17; R = max-min = 24. Số lớp = 𝑛 = 4,123 nên chọn số lớp là 4


𝑅 24
Độ rộng khoảng = 𝑠ố 𝑙ớ𝑝 = 4
=6

X 150 - 156 156 - 162 162 - 168 168 - 174


n 2 6 5 4
CHƯƠNG 4. ƯỚC LƯỢNG KHOẢNG TIN CẬY
MỘT SỐ KHÁI NIỆM
• QUẦN THỂ VÀ MẪU
- Quần thể (dân số): N
- Mẫu là tập con của quần thể : n
• SAI SỐ CHỌN MẪU
- Là sự khác biệt giữa giá trị thu được từ mẫu và giá trị đặc trưng của quần thể.
- Sai số chọn mẫu không thể tính được một cách chính xác nhưng có thể giảm đến
mức tối thiểu và giới hạn của sai số có thể xác định được.
- Có 2 yếu tố tạo ra sai số chọn mẫu:
• Chọn mẫu không đại diện được cho quần thể, khi đó giới hạn của sai số chọn mẫu
không xác định được.
• Sự biến thiên ngẫu nhiên trong sinh học, khi đó giới hạn của sai số chọn mẫu có
thể xác định được.
Ví dụ 1: Để xác định tỷ lệ lao kháng đa thuốc trong bệnh nhân mới người ta chọn
mẫu ngẫu nhiên từ một bệnh viện chuyên khoa lao ở thành phố X, tính được tỷ lệ
này là 6%. Một khảo sát khác được thực hiện bằng cách chọn mẫu ngẫu nhiên hồ sơ
của tất cả bệnh viện lao trong toàn quốc, tính được KTC cho tỷ lệ này từ 3% -5%.
1. Định nghĩa quần thể nghiên cứu.
2. Tại sao có sự khác biệt giữa 2 mẫu khảo sát. Mẫu khảo sát nào chính xác hơn?
Khi cần nghiên cứu về một tham số 𝜃 nào đó như trung bình, tỷ lệ, phương sai,
tỷ số chênh (OR), nguy cơ tương đối (RR),… của quần thể C, do số đối tượng của
quần thể C rất lớn, NNC không thể khảo sát từng đối tượng của C mà sẽ thực hiện
chọn một hoặc một số mẫu đối tượng trong C và khảo sát về tham số 𝜃 trên mẫu đã
chọn. Dựa trên DL thu thập được của mẫu, NNC thực hiện ước lượng các tham số 𝜃
bằng các phương pháp ước lượng như ước lượng điểm, ước lượng KTC nhằm đánh
giá mức độ dao động của 𝜃 và đưa ra các kết luận về tham số 𝜃 của quần thể C.
Chẳng hạn, NNC muốn biết tỷ lệ người nhiễm Covid-19 trong cộng đồng
không được tiêm ngừa (𝐶1) để so sánh với tỷ lệ này trong cộng đồng được tiêm
ngừa (𝐶2 ), NNC tiến hành khảo sát 𝑛1 đối tượng trong 𝐶1 và 𝑛2 đối tượng trong 𝐶2
sau đó thực hiện phân tích số liệu theo phương pháp ước lượng KTC để so sánh,
đánh giá xem tỷ lệ mắc Covid-19 của quần thể nào lớn hơn, từ đó đưa ra các khuyến
cáo về y tế nhằm bảo vệ sức khỏe cộng đồng.
Một số ví dụ
• Cả BPTNMT và bệnh mạch vành (BMV) đều là các bệnh có tần suất cao trên toàn
thế giới và gia tăng cùng với tuổi. Đối với BPTNMT, khoảng 9 – 10% dân số ≥
40 tuổi mắc bệnh. Tần suất này gia tăng nhanh với tuổi, có thể đến hơn 20% ở
những người > 70 tuổi, đặc biệt đối với những người hút thuốc lá > 20 gói-năm
thì tần suất này lên đến 34%. Tần suất của BMV cũng gia tăng theo tuổi. Khoảng
35 – 40% người trong nhóm tuổi 40 – 59 mắc bệnh và có thể đạt đến 70% ở nhóm
tuổi 60 – 70. Ước tính đến năm 2020, BMV, bệnh mạch máu não và BPTNMT là
3 bệnh lý gây tử vong hàng đầu trên toàn thế giới. (Trần Văn Thi, 2016)
• Tại Châu Âu, ước tính dựa trên nghiên cứu dịch tễ học năm 2004, khoảng hơn
317.000 trường hợp tử vong liên quan đến TTHKTM ở 6 quốc gia liên hiệp châu
Âu (dân số khoảng 454,4 triệu), trong số này 34% tử vong đột ngột, 59% tử vong
là hậu quả của TĐMP không được chẩn đoán trong suốt cuộc đời, chỉ 7% TĐMP
được chẩn đoán đúng trước tử vong (Nguyễn Quang Đợi, 2019, tr. 22)
- Khoảng tin cậy Confidence
Interval (CI) biểu diễn xác suất
tham số tổng thể sẽ nằm giữa hai giá
trị trong một khoảng 𝐾 = [𝑎; 𝑏]

- Độ tin cậy (ký hiệu 𝜸) đo lường


mức độ tin cậy trong phương pháp
lấy mẫu. Khoảng tin cậy có thể là
bất kì con số xác suất nào, trong đó
phổ biến nhất là độ tin cậy 95%
hoặc 99%  ĐỘ TIN CẬY
Khi ước lượng X thuộc khoảng giá
trị K nào đó, thì xác suất để X
thuộc khoảng giá trị ấy được gọi
là độ tin cậy của ước lượng. Ký
hiệu: 𝜸 = 𝟏 − 𝜶
Với 𝛼 gọi là mức ý nghĩa.
1. Ước lượng KTC cho trung bình
a. Trường hợp đã biết phương sai 𝝈𝟐 đã biết (nếu 𝒏 ≥ 𝟑𝟎 thì 𝝈𝟐 = 𝒔𝟐 )
𝜎
𝜇=𝑥±𝐶×
𝑛
Với 𝐶 = 𝑍1+𝛾 là hằng số trong phân phối chuẩn
2

b. Trường hợp chưa biết phương sai σ2 (n < 30, DL có PPC)


𝐶. S
𝜇=𝑥±
𝑛
𝐶 = 𝑡1−𝛾 (𝑛 − 1)
Chú ý: Có thể tra giá trị ngưỡng C của PPC theo 𝛾 bất kì trong Excel.
Để tra C trong phân phối chuẩn, nhập vào ô bất kỳ theo cú pháp như sau:
Chẳng hạn với
• 𝛾 = 0.95 ⇒ 𝐶 = 𝑍1+𝛾 = Z0.975 . Nhập =NORMSINV(0.975). Nhấn Enter sẽ được giá trị
2
𝐶 = 1.959964 ≈ 𝟏. 𝟗𝟔
• 𝛾 = 0.99 ⇒ 𝐶 = 𝑍1+𝛾 = Z0.995 . Nhập =NORMSINV(0.995). Nhấn Enter sẽ được giá trị
2
𝐶 = 2.575829 ≈ 𝟐. 𝟓𝟖
Để tra C trong phân phối Student, nhập vào ô bất kỳ theo cú pháp như sau:
Chẳng hạn với 𝑛 = 12
• 𝛾 = 0.95 ⇒ 𝐶 = 𝑡1−𝛾 𝑛 − 1 = 𝑡0.05 11 . Nhập = TINV(0.05,11). Nhấn Enter sẽ được
giá trị 𝐶 = 2.200985 ≈ 𝟐. 𝟐𝟎𝟏
Ví dụ 3. 10 người lớn trong D đã được chọn để X
nghiên cứu khoảng thời gian súc miệng bằng nước Mean 26
2.16024
súc miệng liên quan đến thời gian súc miệng khuyến
Standard Error 7
nghị của nhà sản xuất. Biến ngẫu nhiên 𝑋 biểu thị
Median 25.5
khoảng thời gian súc miệng (tính bằng giây) của Mode 25
người thứ i. 6.83130
Tìm KTC 95% về thời gian súc miệng của người sử Standard Deviation 1
dụng trong D. 46.6666
• Tính được: 𝑛 = 10; 𝑋ത = 26; 𝑠 = 6.831 Sample Variance 7
𝐶𝑠 Kurtosis -1.10784
𝛾 = 0.95 ⇒ 𝐶 = 𝑡0.05 9 = 2.262. 𝜇 = 𝑥 ±
𝑛 Skewness -0.23526
X = 26 ± 4.886 Range 20
20 Minimum 15
34 Maximum 35
25 Sum 260
15 Count 10
25 Confidence 4.88681
30 Level(95.0%) 8
35
32
18
26
Trong Ví dụ 2. Đo ion 𝑁𝑎+ (đơn vị mEq/lít) trong máu của một số người và ghi
nhận được kết quả như sau: 129; 132; 140; 141; 138; 143; 133; 137; 140; 143; 138;
140. Ước lượng KTC 95% trung bình lượng ion 𝑁𝑎+
𝑥 = 137,833; 𝑠 = 4,407, 𝑛 = 12 Na+
Khi 𝛾 = 0.95 thì 𝐶 = 𝑡0.05 11 = 2.201
𝐶𝑠 4.407 Mean 137.833
𝜇=𝑥± = 137.833 ± 2.201 × Standard Error 1.272
𝑛 12 Median 139
= 137.833 ± 2.8 Mode 140
Standard Deviation 4.407
Sample Variance 19.424
Kurtosis -0.114
Skewness -0.845
Range 14
Minimum 129
Maximum 143
Sum 1654
Count 12
Confidence Level(95.0%) 2.80
X
Ví dụ 4. Gọi X là lượng lưu huỳnh hữu cơ có trong 500 mg metyl sulfonyl 80
metan (MSM) viên nén. Lưu huỳnh hữu cơ đóng một vai trò quan trọng 81
trong việc duy trì sụn khớp. Công thức cho MSM yêu cầu mỗi viên phải 82
84
chứa 85 mg lưu huỳnh hữu cơ. Để đánh giá mức độ tuân thủ yêu cầu, 24 85
viên MSM được chọn ngẫu nhiên. Kết quả như bảng bên. Tìm KTC 95% 80
cho lượng lưu huỳnh hữu cơ trung bình. 79
Mean 80.54167 78
78
Standard Error 0.558139
76
Median 80.5 75
Mode 80 80
Standard Deviation 2.73431 81
Sample Variance 7.476449 82
Kurtosis -0.5806 83
Skewness -0.1537 77
Range 10 78
79
Minimum 75
84
Maximum 85 85
Sum 1933 83
Count 24 80
Confidence 81
Level(95.0%) 1.154598 82
Ví dụ 5. Nghiên cứu lượng chất A (mg) thay đổi sau khi tiêm thuốc B. Kết quả khảo sát 10
người được chọn ngẫu nhiên trước và sau khi tiêm thuốc B như sau:
TT Trước Sau D Mean 15
1 100 110 10 Standard Error 12.202
2 200 300 100 Median 15
3 255 250 -5 Mode -30
Standard Deviation 38.5861
4 180 150 -30
1488.88
5 160 200 40
Sample Variance 9
6 210 200 -10 Kurtosis 1.71618
7 175 210 35 1.04437
8 195 165 -30 Skewness 8
9 170 190 20 Range 130
10 230 250 20 Minimum -30
Ước lượng KTC cho trung bình của D. Maximum 100
• Tính được: 𝑛 = 10; 𝐷 ഥ = 15; 𝑆𝐷 = 38.586 Sum 150
• Khi 𝛾 = 0.95 thì 𝐶 = 𝑡0.05 9 = 2.262 Count 10
𝐶𝑠 2.262×38.586 Confidence Level(95.0%) 27.6028
𝜇 = 𝑥ҧ ± 𝑛 = 15 ± 10
= 15 ± 27.601 =
[−12.601; 42.601] chứa 0 nên không có sự khác biệt
lượng chất A.
2. Ước lượng khoảng tin cậy về tỷ lệ (KTC Wald)

𝑓(1 − 𝑓)
𝑝=𝑓±𝐶
𝑛

Khi sử dụng KTC Wald cần phải kiểm tra điều kiện:
0.1 < f < 0.9 và nf ≥ 10 và n 1 − f ≥ 10 (*)
Khi thỏa (*) thì phân phối mẫu của f xấp xỉ đường cong chuẩn.
C = 1,96(γ = 0,95); C = 2,58(γ = 0,99)

Chú ý: Nếu điều kiện (*) không thỏa mãn thì các phương pháp khác, chẳng hạn
như phương pháp Clopper-Pearson hoặc phương pháp Wilson sẽ được sử dụng.
Ví dụ 6. Cần khảo sát cần ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn trong
một lô thuốc gồm rất nhiều viên thuốc. Khảo sát ngẫu nhiên 200 viên trong lô 𝑓 =
25
𝑓 = 200 = 0.125
Kiểm tra điều kiện 0.1 < f < 0.9 và 𝑛𝑓 ≥ 10 và 𝑛 1 − 𝑓 ≥ 10 thỏa mãn
𝑓(1−𝑓) 0.125(1−0.125)
• 𝑝=𝑓±𝐶 = 0.125 ± 1.96 = 0.125 ± 0.046
𝑛 200
STT Code KQ
1 1 Không đạt
Mean 0.125
2 0 Đạt Standard Error 0.023444
3 0 Đạt
4 1 Không đạt
Median 0
5 0 Đạt Mode 0
6 0 Đạt
7 0 Đạt
Standard Deviation 0.331549
8 0 Đạt Sample Variance 0.109925
9 0 Đạt
10 0 Đạt
Range 1
11 0 Đạt Minimum 0
12 0 Đạt
13 0 Đạt
Maximum 1
14 0 Đạt Sum 25
15 0 Đạt
16 0 Đạt
Count 200
17 1 Không đạt Confidence Level(95.0%) 0.046

You might also like