You are on page 1of 69

BÀI GIẢNG PHÂN TÍCH DỮ LIỆU VÀ

THỬ NGHIỆM LÂM SÀNG


Summarizing Data and Clinical Trials
TS. ĐÀO HỒNG NAM

Website: dhnammp.blogspot.com, Fanpage: facebook.com/xstkyd


BÀI GIẢNG PHÂN TÍCH DỮ LIỆU VÀ
THỬ NGHIỆM LÂM SÀNG
Summarizing Data and Clinical Trials
TS. ĐÀO HỒNG NAM
CHƯƠNG 2. PHÂN TÍCH DỮ LIỆU VÀ THỬ NGHIỆM LÂM SÀNG
Summarizing Data and Clinical Trials
TS. ĐÀO HỒNG NAM
2.1. DỮ LIỆU TRONG KHẢO SÁT VÀ THỬ NGHIỆM LÂM SÀNG
Trong hầu hết các trường hợp, dữ liệu y sinh và khoa học sức khỏe bao gồm các
quan sát về các đặc điểm nhất định của từng đối tượng, động vật thí nghiệm, các
hiện tượng hóa học, vi sinh hoặc vật lý trong phòng thí nghiệm hoặc quan sát phản
ứng của bệnh nhân với điều trị. Ví dụ, các đặc điểm điển hình của từng đối tượng
là giới tính, tuổi, huyết áp, tình trạng vệ sinh răng miệng, chỉ số nướu, hàm lượng
thuốc, số viên thuốc trong 1 lô/vỉ thuốc, mức cholesterol, tỷ lệ người nhiễm HIV
dương tính trong cộng đồng.
Bất cứ khi nào một thử nghiệm lâm sàng được tiến hành, các phép đo được thực
hiện, các nhà nghiên cứu và bác sĩ lâm sàng sẽ thu thập dữ liệu dưới nhiều hình
thức khác nhau. Một số dữ liệu là số, chẳng hạn như chiều cao, huyết áp tâm thu,
mật độ xương,… và một số không phải là số, chẳng hạn như giới tính (nữ, nam) và
mức độ đau của bệnh nhân (không đau, đau vừa, đau dữ dội). Để thảo luận và mô
tả đầy đủ dữ liệu, chúng ta phải xác định một số thuật ngữ sẽ được sử dụng lặp đi
lặp lại trong các phần tiếp theo.
2.2. Các loại thang đo trong nghiên cứu
Biến số có thể phân làm 2 loại chính là biến định tính và biến định lượng. Các thang đo dùng
để đo lường các biến số này có thể chia thành 4 loại như sơ đồ sau:

Nominal Ordinal Interval Ratio


Ví dụ 1: thang đo định tính
Nhóm máu (1= A, 2 = B, 3 = AB, 4 = O), giới tính (1 = Nam, 0 = Nữ),
Câu trả lời Có / không trên bảng câu hỏi khảo sát; Lớp phủ cấy ghép, Loại thuốc gây tê/gây
mê, Loại vật liệu trám bít ống tủy (guttapercha, calcium hydroxide, eugenol, silver,..), Tình
trạng hôn nhân.
Các con số trong thang đo danh nghĩa có thể được cộng, trừ, chia, trung bình, v.v., nhưng
kết quả không cho chúng ta biết gì về các loại và mối quan hệ của chúng với nhau.
Mức độ đau: 0 = Không đau, 1 = đau nhẹ, 2 = đau vừa, 3 = đau dữ dội, 4 = cực kỳ đau
Biến định lượng là đặc tính của người hoặc vật có thể được biểu thị một cách tự
nhiên dưới dạng giá trị số. Giá trị của biến có thể cân, đong, đo, đếm được bằng
các phép đo. Các biến định lượng nhận các giá trị số và do đó có thể thực hiện các
phép toán số học cơ bản (cộng, chia và tính trung bình)
Ví dụ 2. Biến định lượng
- Tuổi, chiều cao, cân nặng, huyết áp, mức gắn kết, lượng calo, dịch tiết ở nướu, mức
cholesterol huyết thanh, thời gian tồn tại của mô cấy, điểm DAT và MCAT, mất xương do
viêm nha chu, tỷ lệ thành công của một phẫu thuật, nồng độ florua trong nước uống, thời
gian thuyên giảm bệnh của bệnh nhân, hàm lượng thuốc,…
- Số răng DMF, nó có thể là bất kỳ một trong 33 số, 0, 1, 2, 3 ,. . . , 32. Số viên thuốc trong
một lô/vỉ thuốc; Quy mô của một gia đình; Số lượng răng vĩnh viễn đã mọc; nhịp tim, …
2.3. Mô tả dữ liệu
2.2.1 Bảng tần số
Bước đầu tiên trong việc tóm tắt dữ liệu là sắp xếp dữ liệu theo một số cách có ý nghĩa.
Phương pháp thuận tiện và thường được sử dụng nhất là phân phối tần số, trong đó dữ liệu
thô được tổ chức dưới dạng bảng theo lớp và tần suất.
Ví dụ 4. Một cuộc khảo sát đã được thực hiện để đánh giá sự hài lòng của bệnh nhân khi
đến khám chữa bệnh tại Bệnh viện X. Bảng dưới trình bày tập hợp dữ liệu thứ tự gồm 179
câu trả lời cho một trong những câu hỏi trong bảng câu hỏi khảo sát, “cơ sở vật chất ảnh
hưởng đến chất lượng khám chữa bệnh tại bệnh viện”
Ví dụ 5. Một nguyên nhân có thể gây ra suy tủy răng là do sự tồn tại của vi khuẩn cư trú
trong ống tủy. Để giảm nguy cơ này và liệu pháp nội nha, các thiết bị và vật liệu mới liên tục
được nghiên cứu. Một nghiên cứu đã được thực hiện để đánh giá hiệu quả của việc khử
trùng ống tủy bằng chiếu xạ laser trong ống nghiệm sử dụng mô hình in vitro. Dữ liệu sau
đây đại diện cho số lượng các khuẩn lạc (Một "quần thể" vi khuẩn được gọi là khuẩn
lạc, là một cụm (nhìn thấy được bằng mắt thường) sinh khối của vi khuẩn phát
triển trên bề mặt của một giá thể cứng) được tìm thấy trong các mẫu sau khi chúng
được tái tạo bằng laser neodymium.
Để trình bày dữ liệu thô, rời rạc hoặc liên tục, dưới dạng phân bố tần số, chúng ta phải chia
phạm vi của các phép đo trong dữ liệu thành một số khoảng (hoặc lớp) không chồng chéo.
Các khoảng không cần có cùng chiều rộng, nhưng thường chúng được xây dựng để có chiều
rộng bằng nhau. Điều này sẽ giúp dễ dàng so sánh giữa các lớp khác nhau. Lưu ý khi tóm tắt
dữ liệu, việc có quá nhiều khoảng sẽ không cải thiện nhiều so với dữ liệu thô. Nếu có quá ít
khoảng, rất nhiều thông tin sẽ bị mất.

Nên có bao nhiêu khoảng? Một số tác giả cho rằng nên có 10–20 khoảng.
Một số tác giả đề xuất rằng nên có số khoảng xấp xỉ bằng căn bậc hai của số lần quan sát.
Tức là, số khoảng I = 𝒏. Vì 90 = 9,49 nên chọn I = 10

𝐏𝐡ạ𝐦 𝐯𝐢 𝒄ủ𝒂 𝒕ậ𝒑 𝒅ữ 𝒍𝒊ệ𝒖 𝑹


Độ 𝒓ộ𝒏𝒈 𝒄ủ𝒂 𝒌𝒉𝒐ả𝒏𝒈 𝐰 = =
𝒔ố 𝒌𝒉𝒐ả𝒏𝒈 𝑰
2.2.2 Tần số tương đối
Ví dụ 6. Đo
huyết áp tâm
thu (mmHg)
của 112 bệnh
nhân

Số khoảng:
I = 112 = 10.58 ⇒ 𝐼 = 11
Độ rộng khoảng:
R 179 − 96
W= = = 7,55
I 11
2.2.3. Biểu đồ
Mặc dù phân bố tần suất là một cách hiệu quả để tổ chức và trình bày dữ liệu,
nhưng biểu đồ có thể truyền tải cùng một thông tin trực tiếp hơn. Do bản chất của
chúng, dữ liệu định tính thường được hiển thị dưới dạng biểu đồ thanh (bar graphs)
và biểu đồ hình tròn (pie charts), dữ liệu định lượng thường được hiển thị dưới
dạng biểu đồ (histograms), biểu đồ hình hộp (box-whisker plots) và biểu đồ thân và
lá (stem and leaf plots).
✓ Biểu đồ hình quạt: Dùng để diễn tả sự phân phối của các thành phần (%) so
với toàn thể
Ví dụ 7. Số trường hợp co giật đã xảy ra tại các
phòng nha trong số các trường hợp được khảo
sát
✓ Biểu đồ hình cột
Dùng để so sánh sự phân phối của các giá trị khảo sát

70.00

60.00 58.33

50.00

40.00 37.50
35.71

29.49 29.74
30.00
26.83

19.10
20.00

10.00

0.00
General dentistry Endodontics Oral surgery Orthodontics Periodontics Prosthodontics Other
2.4.5 Biểu đồ thân và lá (Stem and Leaf Plots)
Biểu đồ thân và lá là một phương pháp tổ chức dữ
liệu sử dụng một phần dữ liệu làm “thân” và một
phần dữ liệu làm “lá” để tạo thành các nhóm.
Biểu đồ thân và lá trong ví dụ 6.

Hình: Biểu đồ thân và lá cho số liệu huyết áp


Ví dụ 8. Tổng số 49 phép đo chiều cao xương (mm)
của 17 bệnh nhân. Số lượng cấy ghép được đặt ở mỗi
bệnh nhân thay đổi từ 1 đến 6. Phần nguyên của các
phép đo này, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 và 12 sẽ đóng
vai trò là thân. Số xuất hiện sau dấu thập phân sẽ
được biểu diễn dưới dạng một chiếc lá trên thân cây
tương ứng. Biểu đồ có một đường thẳng đứng được
vẽ ở bên phải của cột thân cây như trong hình, hoặc
một số chỉ đơn giản là đặt dấu chấm (·) sau thân cây.

Bảng. Chiều cao xương (mm) của


bệnh nhân cấy ghép.
✓ Biểu đồ phân vị (Histogram)
Dùng để diễn tả sự phân phối tần số các đặc tính định lượng liên tục: chiều cao,
cân nặng, huyết áp, mật độ xương, …
Ví dụ 9: Đo chiều cao của 40 sinh viên
✓ Đường biểu diễn
• Đường biểu diễn đa giác tần số
Khi nối các cột trong biểu đồ hình cột, ta được một đường gấp khúc gọi là
đường biểu diễn đa giác tần số. Đường này cho thấy sự thay đổi của đặc tính
cần khảo sát.
Ví dụ 10. Số người nhiễm HIV từ năm 1990 đến 2006
Ví dụ 11. Có thể có hai hoặc nhiều nhóm dữ liệu liên quan đến một biến nhất định được hiển
thị trong cùng một biểu đồ. Loo, Cha và Huang đã tổng hợp một cơ sở dữ liệu về các phương
pháp điều trị phục hình răng cụ thể được cung cấp tại Trường Nha khoa Đại học Loma Linda
trong giai đoạn 1991–1998. Một trong những phương pháp điều trị phục hình răng mà họ quan
tâm là làm răng giả bán phần cố định (FPD), được phân loại theo số lượng đơn vị liên quan và
bằng vật liệu cấu thành gốm vàng hoặc kim loại.
• Đường biểu diễn tần số tương đối
Được vẽ dựa vào Histogram và các giá trị trung tâm của lớp.
- Nếu phân phối đối xứng thì DL khảo sát có PPC.
- Nếu phân phối không đối xứng thì DL không có PPC.

Đường biểu diễn trong Ví dụ 9: Đo chiều cao của 40 sinh viên


• Đường biểu diễn tần số tương đối dồn (tích lũy)
- Dùng để diễn tả sự phân phối các đặc tính định lượng và được vẽ từ
cột tần số tương đối dồn
- Dựa vào đường biểu diễn tần số tương đối dồn có thể tính toán các
bách phân vị của một phân phối.
Có 99 bách phân vị từ bách phân vị thứ 1 (P1) đến bách phân vị thứ 99
(P99). Không có P0 và P100.

Bách phân vị (Percentile) còn được gọi là phân vị phần trăm.


Bách phân vị thứ p (hay phân vị phần trăm thứ p) của một dãy số đã xếp theo thứ
tự tăng dần là một số A có:
• p phần trăm số hạng của dãy số này có giá trị bé hơn hay bằng A,
• (100-p) phần trăm số hạng của dãy số này có giá trị lớn hơn hay bằng A.
Cần lưu ý rằng A có thể thuộc dãy số này hay không.

Cách xác định BPV thứ p của một dãy số có n số hạng đã xếp thứ tự tăng
dần: {X1, X2, ..., Xn}
• tính k=np/100;
• nếu k là số nguyên, A = (Xk + Xk+1)/2
• nếu k không là số nguyên, A = Xm, với m là số nguyên liền kề sau K
Ví dụ 12: Lượng cholesterol của 34 người:
114, 115, 121, 123, 127, 130, 135,137,140,145,146,150,153, 156,160,
166,170, 177,180,190, 191, 192, 195,199, 200, 201, 201, 202, 205, 207,
208, 210, 213, 233.
Tính P25, P50, P75
Đường biểu diễn tần số tương đối dồn Trong Ví dụ 9: Lớp Tần số tương đối dồn
Đo chiều cao của 40 thanh niên 153.5 2.5
156.5 10
159.5 27.5
162.5 50
165.5 70
168.5 85
171.5 95
174.5 100

75% số người có chiều


cao dưới 165.5 nên
165.5 là bách phân vị
thứ 75 của phân phối
Ví dụ: Biểu đồ BPV về cân nặng của
trẻ từ lúc sinh ra đến 2 tuổi theo WHO

Một bé 8 tháng tuổi, nặng 10,5kg => tương ứng BPV thứ 97 => Kết luận: bé này thừa cân!
Khi bé tròn 1 tuổi, cân nặng 11kg => tương ứng BPV thứ 85 => Kết luận: bé “diet” thành công,
không còn thừa cân nữa :3. Rồi đến 18 tháng, bé vẫn 11kg => BPV thứ 50 => KL?
CHƯƠNG 3. CÁC THƯỚC ĐO VỀ XU HƯỚNG TRUNG TÂM,
ĐỘ PHÂN TÁN VÀ ĐỘ NGHIÊNG

Ngoài việc mô tả dữ liệu bằng phân bố tần số và đồ thị để tóm tắt và hiển thị dữ liệu một
cách trực quan, chúng ta mong muốn mô tả thêm một số đặc điểm của dữ liệu bằng cách sử
dụng các biện pháp định lượng.
Thước đo vị trí được sử dụng rộng rãi nhất là giá trị trung bình. Tuy nhiên, một công ty sản
xuất găng tay cao su phẫu thuật sẽ không thể tồn tại lâu nếu chỉ sản xuất găng tay cỡ trung
bình. Các thước đo của xu hướng trung tâm không đủ để mô tả dữ liệu một cách đầy đủ.
Ngoài việc biết giá trị trung bình, chúng ta phải biết dữ liệu được phân tán, hoặc trải rộng
như thế nào. Các thước đo xác định mức độ phân tán được gọi là các thước đo độ phân tán,
hay các thước đo độ biến thiên. Các thước đo tiêu biểu của sự phân tán là phạm vi (range),
phương sai (variance), và độ lệch chuẩn (standard deviation). Các thông số đo độ phân tán
này sẽ được thảo luận trong phần sau của chương. Phần cuối trình bày biểu đồ hộp (box
plot), đây là một kỹ thuật cực kỳ hữu ích để phân tích dữ liệu khám phá và các khái niệm
về hệ số biến thiên và độ lệch.
1. CÁC GIÁ TRỊ TRUNG TÂM
1.1 SỐ TRUNG BÌNH
Thước đo xu hướng trung tâm được sử dụng thường xuyên nhất là trung bình cộng hoặc
đơn giản là trung bình.
Khảo sát đặc tính X trên n đối tượng thu được giá trị của dữ liệu mẫu 𝑋1 , 𝑋2 , … , 𝑋𝑛 .
𝑋1 +𝑋2 +⋯+𝑋𝑛 σ𝑛
𝑖=1 𝑋𝑖
Công thức tính giá trị trung bình là: 𝑋 = hay gọn hơn là: 𝑋 =
𝑛 𝑛
Ví dụ 1. Thuốc lá nhai có lượng đường cao và người dùng thường ngậm nó trong miệng vài
giờ một lần. Do đó, nó có thể gây sâu răng. Một mẫu gồm 6 người dùng thuốc lá nhai và 8
người không dùng thuốc lá, tất cả đều là người không hút thuốc, được so sánh về số lượng
răng bị sâu hoặc đã trám (decayed or filled teeth = DFT; xem Bảng). Hai mẫu có liên quan
trong ví dụ này; một mẫu gồm 6 đối tượng từ quần thể sử dụng thuốc lá nhai và 8 mẫu khác
từ một nhóm người không dùng. Gọi X là biến ngẫu nhiên đại diện cho số DFT đối với
những người sử dụng thuốc lá nhai và Y là biến ngẫu nhiên đại diện cho số DFT đối với
những người không sử dụng.
Trung bình hai mẫu là:
𝑋1 + 𝑋2 + ⋯ + 𝑋6 𝑌1 + 𝑌2 + ⋯ + 𝑌8
𝑋= = 16,5; 𝑌 = = 4,75
6 8
Giả sử đã mắc lỗi trong ghi chép số liệu và số DFT cho đối tượng thứ ba trong nhóm không
sử dụng thuốc lá nhai được ghi lại là 31, thay vì 3. Khi đó trung bình mẫu sẽ là 𝑌 = 8,25.
Như vậy, số DFT trung bình đã tăng 3,50 từ 4,75 lên 8,25.
Tác động của một giá trị lớn lên giá trị trung bình là khá mạnh. Tương tự, một giá trị cực
kỳ nhỏ có thể làm giảm giá trị trung bình xuống bất thường. Nói cách khác, giá trị trung
bình khá nhạy cảm với các giá trị cực nhỏ hoặc cực lớn.
Đây không phải là một tính năng mong muốn để đo lường vị trí trung tâm. Tuy nhiên, giá
trị trung bình rất đơn giản để tính toán; nó có thể được tính toán cho bất kỳ tập hợp dữ liệu
số nào. Có một và chỉ một giá trị trung bình cho bất kỳ tập dữ liệu định lượng nào. Tuy
nhiên, giá trị trung bình không thích hợp để mô tả vị trí trung tâm cho dữ liệu danh nghĩa
hoặc thứ tự như trong ví dụ sau:
Bác sĩ sử dụng thang điểm sau để phân loại tình trạng bệnh của bệnh nhân:
1. Không bệnh; 2. Nhẹ; 3. Trung bình; 4. Nghiêm trọng; 5. Cực kỳ nghiêm trọng
Có thể gắn nhãn các danh mục 0 = không bệnh, 1 = nhẹ, 3 = trung bình, 5 = nghiêm trọng và
7 = cực kỳ nghiêm trọng. Điểm trung bình 3,85 cho trạng thái bệnh là vô nghĩa.
1.2 TRUNG VỊ
Để tránh khả năng bị ảnh hưởng bởi một vài quan sát có giá trị cực nhỏ hoặc cực lớn, chúng
ta mô tả trung tâm của tập dữ liệu bằng một thước đo thống kê khác với giá trị trung bình số
học. Một biện pháp thay thế cho vị trí trung tâm, gần như phổ biến như giá trị trung bình số
học, là trung vị. Giả sử có n quan sát trong một tập dữ liệu. Để tìm trung vị, tất cả n quan sát
phải được sắp xếp theo thứ tự tăng dần. Sau đó, trung vị được xác định như sau.
Định nghĩa 1. Gọi 𝑋1 , 𝑋2 , … , 𝑋𝑛 là một mẫu gồm n quan sát được sắp xếp theo thứ tự tăng
dần. Trung vị là giá trị quan sát ở giữa nếu n lẻ. Nếu n chẵn, trung vị mẫu là giá trị trung bình
của hai quan sát ở giữa dãy dữ liệu. Nói cách khác nếu n lẻ, trung vị là giá trị quan sát thứ
𝑛+1 𝑛 𝑛
2
. Nếu n chẵn, trung vị là trung bình cộng 2 giá trị quan sát thứ 2 và 2 + 1.
Ví dụ 2. Bộ dữ liệu bao gồm: 47,4; 42,2; 49,0; 47,6; 48,5; 45,8; 41,4
Sắp xếp các quan sát theo thứ tự tăng dần:
41,4; 42,2; 45,8; 47,4; 47,6; 48,5; 49,0.

Chú ý: Vì trung vị là giá trị ở giữa dãy dữ liệu (đã được sắp tăng dần), trong khi các giá trị
rất nhỏ hoặc rất lớn nằm ở hai đầu của một dãy dữ liệu nên trung vị không bị ảnh hưởng bởi
các giá trị rất nhỏ hoặc rất lớn (còn gọi là giá trị ngoại vi hay ngoại lai)
1.3 YẾU VỊ (MODE)
Một thước đo khác được sử dụng để mô tả trung tâm của tập dữ liệu là yếu vị, là giá trị quan
sát xảy ra thường xuyên nhất và xảy ra nhiều hơn một lần. Một ưu điểm của yếu vị là
không cần tính toán. Nó có thể được xác định đơn giản bằng cách đếm các tần số. Yếu vị là
thước đo duy nhất về khuynh hướng trung tâm có thể được sử dụng cho các biến định tính,
chẳng hạn như loại thuốc gây tê, dân tộc và nhóm máu của bệnh nhân. Ngay cả đối với các
biến định lượng rời rạc, chẳng hạn như quy mô gia đình, số lần đến phòng khám bệnh và số
lần mang thai, yếu vị đôi khi là thước đo có ý nghĩa hơn về xu hướng trung tâm so với giá trị
trung bình hoặc trung vị.

Chẳng hạn, sẽ hợp lý hơn khi nói rằng quy mô gia đình Việt Nam điển hình nhất là 4
người, hoặc phụ nữ Việt Nam điển hình có 2 lần mang thai trong đời, hơn là quy mô gia
đình Việt Nam trung bình là 3,8 hoặc phụ nữ Việt Nam trung bình có 1,9 lần mang thai.
Một bất lợi là một tập dữ liệu có thể có nhiều yếu vị hoặc không có yếu vị nào nếu không
có giá trị nào xuất hiện nhiều hơn một lần.
Ví dụ 3. Một nhóm bệnh nhân được kiểm tra trong một
thử nghiệm lâm sàng để xác định xem việc ăn bánh kẹo
chứa nhiều đường trong một thời gian ngắn có gây ra sự
gia tăng mức độ vi khuẩn Streptococcus mutans trên răng
hay không. Chỉ số nướu (Gingival index = GI) của bệnh
nhân được ghi nhận như bảng bên.
bảng tần số

Ví dụ 4. Nhịp tim của một số bệnh nhân khi đến khám bệnh là 92, 88, 90, 94, 92, 86, 95,94,
93, 92, 82, 90, 96, 94, 92, 89, 94.
Có 4 bệnh nhân có nhịp tim là 92, và 4 bệnh nhân khác có nhịp tim là 94. Cả 92 và 94 đều là
các giá trị xuất hiện thường xuyên nhất. Do đó, dãy dữ liệu này có hai yếu vị là:
Tóm tắt các tính chất quan trọng của 3 thước đo vị trí trung tâm được sử dụng rộng rãi.
Trung bình:
• Được sử dụng rộng rãi nhất và phụ thuộc vào giá trị của mọi quan sát
• Điểm cân bằng của một phân phối
• Không thích hợp cho dữ liệu định tính
• Nhạy cảm với các giá trị cực đoan
• Không thích hợp cho dữ liệu sai lệch cao (có giá trị ngoại vi)
Trung vị:
• Không nhạy cảm với các giá trị cực đoan
• Nhạy cảm với kích thước mẫu
• Được sử dụng rộng rãi cho các bảng phân phối có độ lệch cao
• Thích hợp cho các biến thứ tự
Yếu vị:
• Giá trị điển hình nhất trong dữ liệu
• Chỉ đo lường thích hợp cho dữ liệu danh nghĩa
• Thích hợp hơn giá trị trung bình hoặc trung vị cho các biến định lượng rời rạc
2. CÁC GIÁ TRỊ PHÂN TÁN
Trong phần trên, chúng ta đã thảo luận về các số đo của khuynh hướng trung tâm. Tuy nhiên,
trong thực tế không có hai bệnh nhân nào đáp ứng chính xác theo cùng một cách đối với một
phương pháp điều trị nhất định. Sự thay đổi trong tất cả các khía cạnh của khoa học sức khỏe
là không thể tránh khỏi.
Ví dụ 5. Để đánh giá việc kiểm soát mảng bám khiến nhiều bệnh nhân sợ khám và điều trị
nha khoa, các nhà điều tra đã chọn ngẫu nhiên 7 sinh viên ngành kỹ thuật và 7 sinh viên
ngành y dược. Từ mỗi đối tượng trong số 14 đối tượng, sử dụng một viên bông, một mẫu
mảng bám được lấy từ bề mặt nhẵn của vùng răng hàm trên bên phải của họ. Sau 24 giờ ủ, các
mẫu được quan sát về sự phát triển của khuẩn lạc, được biểu thị bằng số lượng đơn vị khuẩn
lạc (colony-forming units = CFU) được hình thành như sau:
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330

Giá trị trung bình của mỗi tập dữ liệu trên đều là ……. Mặc dù giá trị CFU cho 7 sinh viên kỹ
thuật khác nhau nhiều hơn so với CFU của sinh viên y dược, nhưng trung bình cho hai nhóm
là như nhau. Sẽ hoàn toàn không phù hợp nếu kết luận rằng tình trạng mảng bám của hai
nhóm này là như nhau vì trung bình là như nhau. Điều này cho thấy thực tế là nếu chỉ sử
dụng giá trị trung bình là không đủ để mô tả chính xác dữ liệu.
Các thước đo của xu hướng trung tâm đại diện cho các điểm mà trên đó phân bố có xu
hướng tập trung. Các thước đo của vị trí trung tâm truyền tải thông tin quan trọng về dữ liệu,
nhưng chúng không cho chúng ta biết bất cứ điều gì về sự thay đổi hoặc phân tán của các giá
trị quan sát. Nhiều thước đo về độ biến thiên đã được đề xuất để thể hiện sự phân tán của các
giá trị quan sát xung quanh một số vị trí trung tâm. Các thước đo hữu ích nhất về sự biến
thiên trong khoa học sức khỏe như: phạm vi (range), bách phân vị (percentiles), tứ phân vị
(interquartile range), phương sai (variance), độ lệch chuẩn (standard deviation) và hệ số biến
thiên (coefficient of variation).
2.1. Phạm vi (Range)
Thước đo độ biến thiên đơn giản nhất là phạm vi, là khoảng cách giữa các quan sát lớn nhất
và nhỏ nhất. Cho dãy được ký hiệu là R và 𝑋1 , 𝑋2 , … , 𝑋𝑛 là n quan sát. Khi đó phạm vi được
tính bởi 𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛.
Trong ví dụ 5 về số lượng đơn vị khuẩn lạc (colony-forming units = CFU) được hình thành
Sau 24 giờ ủ :
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330

Phạm vi CFU của sinh viên kỹ thuật là R =


Phạm vi CFU của sinh viên y dược là R =
Phạm vi rất dễ tính toán, nhưng nó chỉ phụ thuộc vào hai giá trị cực đoan, nhỏ nhất và lớn
nhất, bỏ qua tất cả các giá trị trung gian. Vì vậy, phạm vi không phản ánh sự phân tán của các
giá trị giữa hai quan sát cực đoan. Đây là thiếu sót chính của phạm vi. Cả ba trường hợp dưới
đây có cùng phạm vi vì chúng có cùng các giá trị cực đoan, bất kể giá trị giữa chúng là bao
nhiêu.
Trường hợp 1: 30, 150, 250, 280, 310, 410, 530
Trường hợp 2: 30, 30, 30, 30, 30, 30, 530
Trường hợp 3: 30, 530, 530, 530, 530, 530, 530

Phạm vi có những nhược điểm sau:


1. Độ ổn định lấy mẫu (sự thay đổi từ mẫu này sang mẫu tiếp theo) của phạm vi là rất kém.
2. Nó phụ thuộc vào kích thước mẫu. Kích thước mẫu càng lớn, càng có nhiều khả năng quan
sát các giá trị cực đoan hơn. Do đó, phạm vi có thể sẽ lớn hơn khi tăng kích thước mẫu.
3. Nó rất nhạy cảm với hai giá trị cực đoan và bỏ qua phần còn lại của các quan sát.
4. Nó không có ý nghĩa đối với dữ liệu định tính không có thứ tự.
2.2. BÁCH PHÂN VỊ VÀ TỨ PHÂN VỊ
Một thước đo độ biến thiên tốt hơn phạm vi sẽ sử dụng nhiều thông tin hơn từ dữ liệu bằng
cách bao gồm nhiều hơn hai quan sát cực đoan và sẽ không phụ thuộc vào kích thước mẫu.
Bách phân vị và tứ phân vị chia dữ liệu thành 100 phần và 4 phần tương ứng.
Định nghĩa 2. Điểm phân vị, hay đơn giản là phân vị, là điểm nằm dưới một phần trăm quan
sát cụ thể. Phân vị được ký hiệu là 𝑝% ; phân vị thứ 95 được ký hiệu là 𝑝95 .
Ví dụ 6. Dữ liệu được cho bởi: 6, 3, 12, 23, 2, 6, 18, 11, 9, 5, 9, 8. Tìm các phân vị thứ 25, 40,
50, 75.
Sắp xếp lại các quan sát theo thứ tự tăng dần: 2, 3, 5, 6, 6, 8, 9, 9, 11, 12, 18, 23

Bách phân vị chia dữ liệu thành 100 phần. Tứ phân vị chia dữ liệu thành bốn phần bằng
nhau. Phạm vi, như một thước đo của sự thay đổi, có một thiếu sót lớn vì nó nhạy cảm với
hai giá trị cực đoan. Người ta mong muốn có một thước đo độ phân tán không dễ bị ảnh
hưởng bởi một vài giá trị cực trị đoan. Khoảng tứ phân vị là một thước đo như vậy. Bách phân
vị thứ 25, 50 và 75 được gọi là tứ phân vị thứ 1, thứ 2 và thứ 3, và được ký hiệu là 𝑄1 , 𝑄2 , 𝑄3 .
Sử dụng ký hiệu phân vị, 𝑄1 = 𝑃25 , 𝑄2 = 𝑃50 , 𝑄3 = 𝑃75
Định nghĩa 3. Khoảng tứ phân vị (interquartile range = IQR) là khoảng cách giữa 𝑄1 và 𝑄3 .
𝐼𝑄𝑅 = 𝑄3 − 𝑄1

Khoảng tứ phân vị chứa khoảng 50% dữ liệu. Nếu IQR lớn, thì dữ liệu có xu hướng bị phân
tán rộng. Ngược lại, nếu IQR nhỏ, thì dữ liệu có xu hướng tập trung xung quanh trung tâm
của phân phối.
Đối với dữ liệu trong Ví dụ 6, 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 =
Khi phân tích dữ liệu khám phá, ta nên xem xét kỹ lưỡng dữ liệu cho các quan sát cực nhỏ
hoặc cực lớn.
Định nghĩa 4. Các giá trị quan sát được gọi là ngoại vi (hay ngoại lai) là các quan sát có giá
trị cực nhỏ và cực lớn so với phần còn lại của các giá trị trong dữ liệu.
Có một số phương pháp tìm và phát hiện các giá trị ngoại lai. Một phương pháp sử dụng IQR
gọi là khoảng giới hạn của tứ phân vị như sau:
[𝑄1 − 1,5𝐼𝑄𝑅; 𝑄3 + 1,5𝐼𝑄𝑅]
Nếu giá trị quan sát nào không thuộc khoảng giới hạn của tứ phân vị thì giá trị đó được gọi là
ngoại lai. Phương pháp phát hiện giá trị ngoại lai này còn được gọi là phép thử Tukey.
Ví dụ 7. Trong ví dụ 6, với dữ liệu {2, 3, 5, 6, 6, 8, 9, 9, 11, 12, 18, 23 }, Q1 = 5,5, Q3 = 11,5
và IQR = 6, khoảng giới hạn của tứ phân vị là […..……………]. Quan sát có giá trị 23 không
thuộc khoảng này nên 23 là một giá trị ngoại lai.
Dữ liệu thường chứa các giá trị ngoại lai. Điều này có thể xảy ra do nhiều lý do: dụng cụ
không chính xác, xử lý sai đơn vị thí nghiệm, lỗi đo lường hoặc lỗi ghi chép như giá trị nhập
sai hoặc đặt sai dấu thập phân.
Các quan sát có thể được thực hiện về một đối tượng không đáp ứng các tiêu chí nghiên cứu;
ví dụ, một nghiên cứu nghiên cứu về tăng huyết áp có thể bao gồm một bệnh nhân bị huyết áp
thấp, do sự giám sát của người thí nghiệm. Một giá trị ngoại lai cũng có thể là một quan sát
hợp pháp xảy ra hoàn toàn tình cờ.
Nếu có thể giải thích cách thức và lý do tại sao các giá trị ngoại lai xảy ra, chúng nên được
xóa khỏi dữ liệu. Chẳng hạn, một bác sĩ nha chu đang thu thập dữ liệu về mức độ bám của
nha chu của bệnh nhân bị viêm nha chu cấp tính. Giá trị 75 mm cho mức đính kèm rõ ràng là
một lỗi. Trừ khi chúng ta có thể chắc chắn rằng thiếu dấu thập phân và giá trị chính xác là 7,5
mm giá trị này nên được loại bỏ.
2.3. ĐỘ LỆCH
Một số đặc điểm quan trọng của phân bố có thể quan sát được từ biểu đồ, biểu đồ thân và lá,
hoặc biểu đồ hộp là tính đối xứng và hình dạng của phân bố. Dữ liệu được cho là phân phối
đối xứng nếu một nửa của phân phối bên dưới trung vị khớp với phân phối trên trung vị. Nói
cách khác, vị trí tương đối của các điểm dữ liệu ở cả hai phía của đường trung bình sẽ khớp
với nhau.

Định nghĩa 5. Phân phối có "đuôi" dài ở bên phải được cho là lệch sang phải hoặc
lệch phải (hoặc lệch dương) và phân phối có "đuôi" dài ở bên trái được cho là lệch
sang trái , hoặc lệch trái (hoặc lệch âm).
Nếu một phân phối bị lệch
sang phải, các quan sát phía
trên trung vị sẽ có xu hướng
xa hơn trung vị và phần cuối
bên phải của phân phối có
thể chứa các giá trị cực trị.
Mặt khác, nếu một phân
phối bị lệch sang trái, thì các
quan sát bên dưới trung vị sẽ
có xu hướng xa trung vị hơn
và có thể có các giá trị cực
trị ở phía bên trái của phân
phối.
Các biểu đồ hộp được thảo luận trước đó có thể cho chúng ta một ý tưởng sơ bộ về độ lệch
của dữ liệu. Ví dụ: nếu râu dưới dài hơn râu trên, thì dữ liệu có thể bị lệch trái. Ngược lại,
nếu râu trên dài hơn râu dưới, thì dữ liệu có khả năng bị lệch phải. Nếu phân phối bị lệch
vừa phải, thì mối quan hệ giữa giá trị trung bình, trung vị và yếu vị như sau:
𝑀𝑒𝑎𝑛 − 𝑀𝑜𝑑𝑒 ≅ 3(𝑀𝑒𝑎𝑛 − 𝑀𝑒𝑑𝑖𝑎𝑛)
Công thức tính độ lệch là:
Nếu một phân phối là đối xứng, SK = 0; nếu nó lệch
3 phải (hoặc lệch dương) thì SK > 0; và nếu nó bị lệch
σ𝑛𝑖=1 𝑋𝑖 − 𝑋
𝑆𝐾 = trái (lệch âm) thì SK < 0.
3
2 2 Một phân phối có chỉ số độ lệch SK = 1,122
σ𝑛𝑖=1 𝑋𝑖 − 𝑋 nghiêng về bên phải nhiều hơn một phân phối có SK
= 0,768.
Tương tự, phân phối có chỉ số độ lệch SK = −0,948
nghiêng về bên trái nhiều hơn phân phối có SK =
−0,375.
Ví dụ 8. 10 người lớn đã được chọn để nghiên cứu khoảng thời gian súc miệng bằng nước
súc miệng liên quan đến thời gian súc miệng khuyến nghị của nhà sản xuất. Biến ngẫu nhiên
Xi biểu thị khoảng thời gian súc miệng (tính bằng giây) của người thứ i.
Với dữ liệu này, tính được:
SK = - 0,2555.
Giá trị này cho thấy dữ liệu trên bị
lệch sang trái. Lưu ý rằng hình ảnh
đối xứng của dữ liệu bị lệch sang bên
phải khi chỉ số độ lệch của nó là:
SK = 0,2555.

2.4. BIỂU ĐỒ HỘP VÀ RÂU


Chúng ta đã học trong Chương 2 rằng đồ thị là cách rất hiệu quả để tóm tắt và trình bày dữ
liệu. Một loại biểu đồ trình bày trực quan về vị trí, khả năng thay đổi và các ngoại lệ là biểu
đồ hộp và râu, hay được gọi đơn giản là biểu đồ hộp. Biểu đồ hộp về cơ bản chỉ liên quan
đến một số giá trị: giá trị thấp nhất, tứ phân vị thứ nhất (Q1), tứ phân vị thứ hai (Q2 = giá trị
trung vị), tứ phân vị thứ ba (Q3) và giá trị lớn nhất.
Ví dụ 9: Lượng acid uric (mg/dl) của một mẫu gồm 15 người như sau:
2.0 4.0 4.5 6.0 6.2 6.3 6.5 6.6 6.9 7.5 7.8 8.0 9.2 10.5 15.0

Biểu đồ hộp và các giá trị trong biểu đồ này thể hiện trong hình
2.5. PHƯƠNG SAI, ĐỘ LỆCH CHUẨN, SAI SỐ CHUẨN
- Phương sai: Mô tả mức độ phân tán của DL xung quanh giá trị trung bình
σ(𝑥𝑖 − 𝑥)2
𝑠2 =
𝑛−1
- Độ lệch chuẩn (Standard deviation = SD hay s): 𝑆𝐷 = 𝑠 = 𝑠2
𝑠
- Sai số chuẩn (Standard Error = SE): 𝑆𝐸 = 𝑛

Ví dụ 10: Xét nghiệm cholesterol cho 125 người bình thường trong dân số D. Kết quả:
Lượng cholesterol trung bình = 4.6 mmol/L và đlc = 0.3 mmol/L.
Trung bình cholesterol của toàn bộ dân số D là không xác định được nhưng theo lý
thuyết về khoảng tham chiếu thì cholesterol sẽ dao động trong khoảng
[𝑥lj − 2𝜎; 𝑥lj − 2𝜎] = [4; 5.2]

Điều này có nghĩa là nếu tiếp tục lấy mẫu 125 người trong D nhiều lần
(mỗi lần lấy trên các đối tượng khác nhau) và tính trung bình cholesterol
thì khi đó 95% các lần, trung bình sẽ nằm trong đoạn [4; 5.2]
n – 1 gọi là số bậc tự do (degree of freedom = df), df là số
nguồn thông tin (piece of information) về một biến ngẫu nhiên.

σ(𝑥𝑖 − 𝑥)2
𝑠2 =
𝑛−1

Vậy s2 = 250/4 = 62,5

෍(𝑥 − 𝑥) = ෍ 𝑥 − ෍ 𝑥 = ෍ 𝑥 − 𝑛𝑥 = ෍ 𝑥 − ෍ 𝑥 = 0
Ví dụ 11. Thuốc hạ huyết áp A và B được sử dụng trên 2 nhóm,
mỗi nhóm 5 b/n. Huyết áp tâm thu sau khi dùng thuốc là
A: 110, 115, 120, 125, 130.
B: 100, 110, 120, 130, 140.
2.6. HỆ SỐ BIẾN THIÊN
Mặc dù SD là thước đo độ biến thiên được sử dụng rộng rãi nhất, nhưng có một nhược điểm
là nó phụ thuộc vào đơn vị đo lường. Hệ số biến thiên là thước đo dùng để so sánh mức độ
biến thiên giữa hai hay nhiều bộ dữ liệu biểu thị các đại lượng khác nhau với các đơn vị đo
lường khác nhau.
𝑆
𝐶𝑉 = × 100(%)
𝑋ത
Ví dụ 12. Độ bền của hai loại trụ đúc sẵn, trụ bằng sợi carbon (CFP) và trụ được gia cố bằng
sợi polyethylene (PFRP), trên răng được điều trị nội nha. Giá trị trung bình của mẫu và SD
mẫu đối với CFP là 𝑋𝐴 = 67,57 kg và 𝑆𝐴 = 26,57 kg, và đối với PFRP lần lượt là 𝑋𝐵 = 132,55
lbs và 𝑆𝐵 = 36,19 lbs. Sẽ không có nhiều ý nghĩa nếu so sánh trực tiếp hai SD này vì chúng
được báo cáo theo các đơn vị đo lường khác nhau. Hệ số biến thiên là thứ chúng ta cần trong
tình huống này để đo sự biến thiên.
𝑆𝐴
𝐶𝑉𝐴 = ത × 100 % =
𝑋𝐴
𝑆𝐵
𝐶𝑉𝐵 = ത × 100 % =
𝑋𝐵
Ví dụ 13. Đánh giá chính xác chất lượng xương trước phẫu thuật là điều cần thiết
để hỗ trợ bác sĩ lâm sàng trong các giai đoạn lập kế hoạch điều trị của liệu pháp cấy
ghép implant. Sự thành công lâu dài về mặt lâm sàng của việc cấy ghép răng được
báo cáo là ảnh hưởng bởi cả chất lượng và số lượng xương sẵn có. Có hai kỹ thuật
cho phép chúng ta đo mật độ xương ổ răng trong các khu vực xung quanh của hàm:
chụp cắt lớp vi tính định lượng (QCT) và chụp cắt lớp vi tính chùm tia hình nón
(CBCT). Cả hai kỹ thuật này đều được sử dụng để đánh giá mật độ xương của 10
người bệnh. Các phép đo được thực hiện bằng QCT được biểu thị bằng miligam
trên centimet khối (𝑚𝑔/𝑐𝑚3 ) và các phép đo bằng cách sử dụng CBCT được biểu
thị bằng phần trăm.
Giả sử rằng các nhà nghiên cứu báo cáo giá trị trung bình và SD của QCT và CBCT
là 𝑋𝑄 = 4,53; 𝑆𝑄 = 2,28 và 𝑋𝐶 = 78,5; 𝑆𝐶 = 24,3. Do các đơn vị đo là khác nhau,
hệ số biến thiên nên được sử dụng để so sánh độ phân tán của các phép đo được
thực hiện bởi hai phương pháp. CV của QCT và CBCT là:
Ví dụ 14: Dạng Liệt kê: Xét hai tập giá trị
X = {7, 7, 8, 9,11, 12, 12, 14}
Ví dụ 15: Dạng thu gọn
Chiều cao của một số người
X = {150, 150, 160, 160, 160, 170, 170, 170, 170, 170, 180,
170, 180, 180, 190, 180, 190}
X 150 160 170 180 190
n 2 3 6 4 2

Ví dụ 16: Dạng ghép lớp


X = 150, 154, 156, 157, 159, 160, 161, 161, 162, 163, 164, 165, 167, 168, 169, 170,174

n = 17; R = max-min = 24. Số lớp = 𝑛 = 4,123 nên chọn số lớp là 4


𝑅 24
Độ rộng khoảng = 𝑠ố 𝑙ớ𝑝 = =6
4

X 150 - 156 156 - 162 162 - 168 168 - 174


n 2 6 5 4
KHOẢNG THAM CHIẾU
KHOẢNG THAM CHIẾU
3. KHOẢNG THAM CHIẾU
3.1. Chọn cá thể tham chiếu (CTTC)
Cách 1: Chọn trước
- CTTC được chọn trước với n ≥ 120 người
- XN được làm sau

Cách 2: Chọn sau


- XN được làm trước cho một số lớn đối tượng n ≥ 1000 người
- CTTC được chọn sau với n ≥ 120 người trong số những người đã làm XN.
3.2. Quy trình thiết lập KTCh
- Lập danh sách những yếu tố ảnh hưởng đến kết quả XN
- Thiết lập tiêu chuẩn lựa chọn, tiêu chuẩn loại trừ
- Chọn một số lượng thích hợp CTTC để có mẫu tham chiếu
- XN tìm trị số tham chiếu (X)
- Loại bỏ giá trị ngoại lai
- Ước lượng KTch
3.3. Loại bỏ giá trị ngoại lai
Cách 1: Phép thử Tukey
- Xác định các tứ phân vị Q1, Q3
- Xác định khoảng tứ phân vị (Interquatile = IQR). IQR = Q3 – Q1
- Xác định khoảng GH của tứ phân vị : [Q1-1,5IQR; Q3+1,5IQR]
- Các giá trị không thuộc khoảng GH của tứ phân vị là giá trị ngoại lai
Ví dụ 16: Mẫu tham chiếu cholesterol huyết thanh (mg/dl) có 34 người:
114, 115, 121, 123, 127, 130, 135,137,140,145,146,150,153, 156,160, 166,170,
177,180,190, 191, 192, 195,199, 200, 201, 201, 202, 205, 207, 208, 210, 213, 322

Cách 2: Trường hợp DL có PPC


Nếu Xi không thuộc khoảng sau đây thì Xi là giá trị ngoại lai: [𝑥lj − 3𝜎; 𝑥lj + 3𝜎]
3.4. Xây dựng khoảng tham chiếu
• TRƯỜNG HỢP DL CÓ PHÂN PHỐI CHUẨN
Khi mẫu ks có > 30 người bình thường, đường biểu diễn có dạng hình chuông, có
khoảng cách: [𝑥ҧ − 2𝜎; 𝑥ҧ + 2𝜎]
Gọi là khoảng giới hạn sinh lý
bình thường hay khoảng tham
chiếu.
Có 95% số người bình thường có
chỉ số X thuộc KTch, ngoài
khoảng này có 5% số người bình
thường

• TRƯỜNG HỢP DL KHÔNG CÓ PP CHUẨN


Khi mẫu ks có lẫn lộn những người bình thường và không bình thường, đường
biểu diễn của DL sẽ không đối xứng.
Khi đó KTch nằm giữa 2 bách phân vị thứ 3 và thứ 97.
Nồng độ Hemoglobin của 70 thai phụ
10.2 13.7 10.4 14.9 11.5 12 11
13.3 12.9 12.1 9.4 13.2 10.8 11.7
10.6 10.5 13.7 11.8 14.1 10.3 13.6
12.1 12.9 11.4 12.7 10.6 11.4 11.9
9.3 13.5 14.6 11.2 11.7 10.9 10.4
12 12.9 11.1 8.8 10.2 11.6 12.5
13.4 12.1 10.9 11.3 14.7 10.8 13.3
11.9 11.4 12.5 13 11.6 13.1 9.7
11.2 15.1 10.7 12.9 13.4 12.3 11
14.6 11.1 13.5 10.9 13.1 11.8 12.2

Mean ≈ Mode ≈ Median nên


Hemoglobin có PPC (p = 0.2 > 0.05)
3.5. Thiết lập KTch dưới nhóm
Cần thiết lập KTCh dưới nhóm khi:
- Sự khác biệt giữa nhóm và dưới nhóm có ý nghĩa TK
- Sự khác biệt có ý nghĩa TK cũng có ý nghĩa lâm sàng trong chẩn
đoán
Để đánh giá sự khác biệt:
- Kiểm định so sánh 2 trung bình hoặc KTC hiệu hai trung bình
- Nếu hiệu hai số TB > 25% chiều rộng KTCh nhóm chung thì cần thiết
lập KTCh nhóm riêng
Ví dụ 17: KTCh reatinin của nam và nữ là 0,4 – 1,2 mg/dl
Chiều rộng KTch là: 1,2 – 0,4 = 0,8
Số trung bình nhóm chung = 0,79
Trung bình creatinin của nữ là 0,57
Chênh lệch: 0,79 – 0,57 = 0,22
Tỷ lệ chênh lệch 0,22/0,8 = 0,275 > 25% nên cần thiết lập KTCh cho
nam và nữ riêng.
4. NGUY CƠ SAI LẦM
Gọi X là giá trị quan sát một đặc tính người bình thường.
- Khi X nằm trong KTCh ta kết luận người đó “bình thường”. KL này có một
nguy cơ sai lầm β không tính được.
- Khi X nằm ngoài KTch ta kết luận người đó “bất thường”. KL này có một
nguy cơ sai lầm α = 5%, vì nằm ngoài khoảng này cũng có 5% số người bình
thường.
Ví dụ 18: Xét nghiệm cholesterol cho 125 người bình thường. Kết quả: Lượng
cholesterol trung bình = 4,6 mmol/L và đlc = 0,3 mmol/L. Tìm KTCh và kết luận
cho các trường hợp
- Ông M có X = 5,5 mmol/L.
- Bà N có X = 5,0 mmol/L
Khoảng tham chiếu là:
CHƯƠNG 4. ƯỚC LƯỢNG KHOẢNG TIN CẬY
MỘT SỐ KHÁI NIỆM
• QUẦN THỂ VÀ MẪU
- Quần thể (dân số): N
- Mẫu là tập con của quần thể : n
• SAI SỐ CHỌN MẪU
- Là sự khác biệt giữa giá trị thu được từ mẫu và giá trị đặc trưng của quần
thể.
- Sai số chọn mẫu không thể tính được một cách chính xác nhưng có thể
giảm đến mức tối thiểu và giới hạn của sai số có thể xác định được.
- Có 2 yếu tố tạo ra sai số chọn mẫu:
• Chọn mẫu không đại diện được cho quần thể, khi đó giới hạn của sai số
chọn mẫu không xác định được.
• Sự biến thiên ngẫu nhiên trong sinh học, khi đó giới hạn của sai số chọn
mẫu có thể xác định được.
 ĐỘ TIN CẬY
Khi ta ước lượng X thuộc khoảng giá trị K nào đó, thì xác suất để
X thuộc khoảng giá trị ấy được gọi là độ tin cậy của ước lượng. Ký
hiệu: γ= 1-
1. Ước lượng KTC cho phương sai
2 2
𝑎 = 𝜒1−𝛾 (𝑛 − 1); b = 𝜒1+𝛾 (𝑛 − 1)
(𝑛 − 1)𝑆 2 (𝑛 − 1)𝑆 2
2 2
≤ 𝜎2 ≤
𝑎 𝑏
2 2
𝑎 = 𝜒1−𝛾 (𝑛 − 1) = 𝜒0,025 (11) = 21,92
2
𝛾 = 0,95 ⇒ ൞ 2 2
b = 𝜒1+𝛾 (𝑛 − 1) = 𝜒0,975 (11) = 3,82
2
Ví dụ 2. Đo ion 𝑁𝑎 + (đơn vị mEq/lít) trong máu của một số người và ghi nhận
được kết quả như sau: 129; 132; 140; 141; 138; 143; 133; 137; 140; 143; 138;
140.
1. Ước lượng trung bình và phương sai của lượng ion 𝑁𝑎 +
2. Nếu muốn sai số ước lượng trung bình ion 𝑁𝑎 + không quá 1 mEq/lít ở độ
tin cậy 95% thì phải khảo sát tối thiểu bao nhiêu người?

𝑥 = 137,833; 𝑠 = 4,407, 𝑛 = 12
2.Ước lượng KTC cho trung bình
a. Trường hợp đã biết phương sai σ2
𝜎
𝜇 = 𝑥±𝐶× ; với 𝐶 = 𝑍𝛾/2
𝑛
𝛾 = 0,95 ⇒ 𝐶 = 𝑍𝛾/2 = 𝑍0,475 = 1,96

𝛾 = 0,99 ⇒ 𝐶 = 𝑍𝛾/2 = 𝑍0,495 = 2,58

b. Trường hợp chưa biết phương sai


σ2 (n < 30, DL có PPC)
𝐶. S
𝜇=𝑥± ; 𝑣ớ𝑖 𝐶 = 𝑡1−𝛾 (𝑛 − 1)
𝑛
Bài toán tìm cỡ mẫu trong NC về giá trị trung bình.
Yêu cầu: Để sai số ước lượng không vượt quá ε thì cỡ mẫu tối
thiểu = ?
- Nếu đã biết phương sai thì từ KTC:
2
𝐶𝜎 𝐶𝜎 𝐶𝜎
𝜇=𝑥± ⇒ ≤𝜀 ⇔𝑛≥
𝑛 𝑛 𝜀
- Nếu chưa biết phương sai thì từ KTC:
2
𝐶𝑠 𝐶𝑠 𝐶𝑠
𝜇=𝑥± ⇒ ≤𝜀 ⇔𝑛≥
𝑛 𝑛 𝜀

Chú ý: Trong cả 2 công thức trên thì C là hằng số của PPC


Ví dụ 2. Đo ion 𝑁𝑎 + (đơn vị mEq/lít) trong máu của một
số người và ghi nhận được kết quả như sau: 129; 132;
140; 141; 138; 143; 133; 137; 140; 143; 138; 140.
1. Ước lượng trung bình và phương sai của lượng ion
𝑁𝑎+
2. Nếu muốn sai số ước lượng trung bình ion 𝑁𝑎 +
không quá 1 mEq/lít ở độ tin cậy 95% thì phải khảo
sát tối thiểu bao nhiêu người?
𝑥 = 137,833; 𝑠 = 4,407, 𝑛 = 12
Ví dụ 3. Giả sử X là biến ngẫu nhiên đại diện cho lượng lưu huỳnh hữu cơ có trong 500 mg
metyl sulfonyl metan (MSM) viên nén. Lưu huỳnh hữu cơ đóng một vai trò quan trọng trong
việc duy trì sụn khớp. Công thức cho MSM yêu cầu mỗi viên phải chứa 85 mg lưu huỳnh
hữu cơ. Để đánh giá mức độ tuân thủ yêu cầu, 24 viên MSM được chọn ngẫu nhiên. Kết quả
phân tích cho thấy trung bình các viên nén chứa khoảng 80,5 mg lưu huỳnh hữu cơ. Theo
kinh nghiệm, lượng lưu huỳnh hữu cơ tìm thấy trong viên nén MSM được phân phối chuẩn
với σ = 14,2 mg,
1. Tìm khoảng tin cậy 95% cho lượng lưu huỳnh hữu cơ trong viên nén.
2. Muốn sai số ước lượng không quá 5 mg, độ tin cậy 95% thì cỡ mẫu tối thiểu là bao
nhiêu?
Ví dụ 4. Nghiên cứu lượng chất X (mg) thay đổi sau khi tiêm thuốc M. Kết quả khảo sát 10
người được chọn ngẫu nhiên trước và sau khi tiêm thuốc M như sau:

Giả sử sự khác biệt về lượng chất X trước (𝑋1 ) và sau (𝑋2 ) khi
uống thuốc M: 𝑑𝑖 = 𝑋2 − 𝑋1 là biến ngẫu nhiên có PPC. Ước
lượng KTC cho trung bình của d.
3. Ước lượng khoảng tin cậy về tỷ lệ

𝑓(1 − 𝑓)
𝑝=𝑓±𝐶
𝑛 𝐶 = 1,96(𝛾 = 0,95); 𝐶 = 2,58(𝛾 = 0,99)

*Xác định cỡ mẫu : Để sai số ước lượng không vượt quá ε thì:
𝐶 2
𝑓(1 − 𝑓) 𝑛≥ × 𝑓(1 − 𝑓) (1)
𝐶 ≤𝜀⇔ 𝜀
𝑛

Nếu chưa có mẫu khảo sát thăm dò (chưa biết f) thì:


𝑦 = 𝑓(1 − 𝑓) = (−𝑓 2 − 𝑓)
2 2
1 1 1 1 1
=− 𝑓− − = − 𝑓− ≤
2 4 4 2 4

2
𝐶
(1) ⇔ 𝑛 ≥ (2)
2𝜀
Ví dụ 5. Một khảo sát cần ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn trong
một lô thuốc gồm rất nhiều viên thuốc.
a. Nếu muốn sai số ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn không quá
0,01 ở độ tin cậy 95% thì cần khảo sát tối thiểu bao nhiêu viên thuốc?
b. Khảo sát ngẫu nhiên 200 viên trong lô thuốc, kết quả có 18 viên không đạt
tiêu chuẩn.
• Ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn của lô thuốc.
• Nếu muốn sai số ước lượng không quá 0,01 ở độ tin cậy 95% thì phải khảo sát
tối thiểu bao nhiêu viên thuốc?
Bài tập. Một lô thuốc có rất nhiều hộp thuốc của xí nghiệp A. Lấy ngẫu nhiên 225 hộp đem
cân, kết quả như sau:

You might also like