Professional Documents
Culture Documents
Bài Giảng LT Mẫu - Ước Lượng KTC (SV RHM)
Bài Giảng LT Mẫu - Ước Lượng KTC (SV RHM)
Nên có bao nhiêu khoảng? Một số tác giả cho rằng nên có 10–20 khoảng.
Một số tác giả đề xuất rằng nên có số khoảng xấp xỉ bằng căn bậc hai của số lần quan sát.
Tức là, số khoảng I = 𝒏. Vì 90 = 9,49 nên chọn I = 10
Số khoảng:
I = 112 = 10.58 ⇒ 𝐼 = 11
Độ rộng khoảng:
R 179 − 96
W= = = 7,55
I 11
2.2.3. Biểu đồ
Mặc dù phân bố tần suất là một cách hiệu quả để tổ chức và trình bày dữ liệu,
nhưng biểu đồ có thể truyền tải cùng một thông tin trực tiếp hơn. Do bản chất của
chúng, dữ liệu định tính thường được hiển thị dưới dạng biểu đồ thanh (bar graphs)
và biểu đồ hình tròn (pie charts), dữ liệu định lượng thường được hiển thị dưới
dạng biểu đồ (histograms), biểu đồ hình hộp (box-whisker plots) và biểu đồ thân và
lá (stem and leaf plots).
✓ Biểu đồ hình quạt: Dùng để diễn tả sự phân phối của các thành phần (%) so
với toàn thể
Ví dụ 7. Số trường hợp co giật đã xảy ra tại các
phòng nha trong số các trường hợp được khảo
sát
✓ Biểu đồ hình cột
Dùng để so sánh sự phân phối của các giá trị khảo sát
70.00
60.00 58.33
50.00
40.00 37.50
35.71
29.49 29.74
30.00
26.83
19.10
20.00
10.00
0.00
General dentistry Endodontics Oral surgery Orthodontics Periodontics Prosthodontics Other
2.4.5 Biểu đồ thân và lá (Stem and Leaf Plots)
Biểu đồ thân và lá là một phương pháp tổ chức dữ
liệu sử dụng một phần dữ liệu làm “thân” và một
phần dữ liệu làm “lá” để tạo thành các nhóm.
Biểu đồ thân và lá trong ví dụ 6.
Cách xác định BPV thứ p của một dãy số có n số hạng đã xếp thứ tự tăng
dần: {X1, X2, ..., Xn}
• tính k=np/100;
• nếu k là số nguyên, A = (Xk + Xk+1)/2
• nếu k không là số nguyên, A = Xm, với m là số nguyên liền kề sau K
Ví dụ 12: Lượng cholesterol của 34 người:
114, 115, 121, 123, 127, 130, 135,137,140,145,146,150,153, 156,160,
166,170, 177,180,190, 191, 192, 195,199, 200, 201, 201, 202, 205, 207,
208, 210, 213, 233.
Tính P25, P50, P75
Đường biểu diễn tần số tương đối dồn Trong Ví dụ 9: Lớp Tần số tương đối dồn
Đo chiều cao của 40 thanh niên 153.5 2.5
156.5 10
159.5 27.5
162.5 50
165.5 70
168.5 85
171.5 95
174.5 100
Một bé 8 tháng tuổi, nặng 10,5kg => tương ứng BPV thứ 97 => Kết luận: bé này thừa cân!
Khi bé tròn 1 tuổi, cân nặng 11kg => tương ứng BPV thứ 85 => Kết luận: bé “diet” thành công,
không còn thừa cân nữa :3. Rồi đến 18 tháng, bé vẫn 11kg => BPV thứ 50 => KL?
CHƯƠNG 3. CÁC THƯỚC ĐO VỀ XU HƯỚNG TRUNG TÂM,
ĐỘ PHÂN TÁN VÀ ĐỘ NGHIÊNG
Ngoài việc mô tả dữ liệu bằng phân bố tần số và đồ thị để tóm tắt và hiển thị dữ liệu một
cách trực quan, chúng ta mong muốn mô tả thêm một số đặc điểm của dữ liệu bằng cách sử
dụng các biện pháp định lượng.
Thước đo vị trí được sử dụng rộng rãi nhất là giá trị trung bình. Tuy nhiên, một công ty sản
xuất găng tay cao su phẫu thuật sẽ không thể tồn tại lâu nếu chỉ sản xuất găng tay cỡ trung
bình. Các thước đo của xu hướng trung tâm không đủ để mô tả dữ liệu một cách đầy đủ.
Ngoài việc biết giá trị trung bình, chúng ta phải biết dữ liệu được phân tán, hoặc trải rộng
như thế nào. Các thước đo xác định mức độ phân tán được gọi là các thước đo độ phân tán,
hay các thước đo độ biến thiên. Các thước đo tiêu biểu của sự phân tán là phạm vi (range),
phương sai (variance), và độ lệch chuẩn (standard deviation). Các thông số đo độ phân tán
này sẽ được thảo luận trong phần sau của chương. Phần cuối trình bày biểu đồ hộp (box
plot), đây là một kỹ thuật cực kỳ hữu ích để phân tích dữ liệu khám phá và các khái niệm
về hệ số biến thiên và độ lệch.
1. CÁC GIÁ TRỊ TRUNG TÂM
1.1 SỐ TRUNG BÌNH
Thước đo xu hướng trung tâm được sử dụng thường xuyên nhất là trung bình cộng hoặc
đơn giản là trung bình.
Khảo sát đặc tính X trên n đối tượng thu được giá trị của dữ liệu mẫu 𝑋1 , 𝑋2 , … , 𝑋𝑛 .
𝑋1 +𝑋2 +⋯+𝑋𝑛 σ𝑛
𝑖=1 𝑋𝑖
Công thức tính giá trị trung bình là: 𝑋 = hay gọn hơn là: 𝑋 =
𝑛 𝑛
Ví dụ 1. Thuốc lá nhai có lượng đường cao và người dùng thường ngậm nó trong miệng vài
giờ một lần. Do đó, nó có thể gây sâu răng. Một mẫu gồm 6 người dùng thuốc lá nhai và 8
người không dùng thuốc lá, tất cả đều là người không hút thuốc, được so sánh về số lượng
răng bị sâu hoặc đã trám (decayed or filled teeth = DFT; xem Bảng). Hai mẫu có liên quan
trong ví dụ này; một mẫu gồm 6 đối tượng từ quần thể sử dụng thuốc lá nhai và 8 mẫu khác
từ một nhóm người không dùng. Gọi X là biến ngẫu nhiên đại diện cho số DFT đối với
những người sử dụng thuốc lá nhai và Y là biến ngẫu nhiên đại diện cho số DFT đối với
những người không sử dụng.
Trung bình hai mẫu là:
𝑋1 + 𝑋2 + ⋯ + 𝑋6 𝑌1 + 𝑌2 + ⋯ + 𝑌8
𝑋= = 16,5; 𝑌 = = 4,75
6 8
Giả sử đã mắc lỗi trong ghi chép số liệu và số DFT cho đối tượng thứ ba trong nhóm không
sử dụng thuốc lá nhai được ghi lại là 31, thay vì 3. Khi đó trung bình mẫu sẽ là 𝑌 = 8,25.
Như vậy, số DFT trung bình đã tăng 3,50 từ 4,75 lên 8,25.
Tác động của một giá trị lớn lên giá trị trung bình là khá mạnh. Tương tự, một giá trị cực
kỳ nhỏ có thể làm giảm giá trị trung bình xuống bất thường. Nói cách khác, giá trị trung
bình khá nhạy cảm với các giá trị cực nhỏ hoặc cực lớn.
Đây không phải là một tính năng mong muốn để đo lường vị trí trung tâm. Tuy nhiên, giá
trị trung bình rất đơn giản để tính toán; nó có thể được tính toán cho bất kỳ tập hợp dữ liệu
số nào. Có một và chỉ một giá trị trung bình cho bất kỳ tập dữ liệu định lượng nào. Tuy
nhiên, giá trị trung bình không thích hợp để mô tả vị trí trung tâm cho dữ liệu danh nghĩa
hoặc thứ tự như trong ví dụ sau:
Bác sĩ sử dụng thang điểm sau để phân loại tình trạng bệnh của bệnh nhân:
1. Không bệnh; 2. Nhẹ; 3. Trung bình; 4. Nghiêm trọng; 5. Cực kỳ nghiêm trọng
Có thể gắn nhãn các danh mục 0 = không bệnh, 1 = nhẹ, 3 = trung bình, 5 = nghiêm trọng và
7 = cực kỳ nghiêm trọng. Điểm trung bình 3,85 cho trạng thái bệnh là vô nghĩa.
1.2 TRUNG VỊ
Để tránh khả năng bị ảnh hưởng bởi một vài quan sát có giá trị cực nhỏ hoặc cực lớn, chúng
ta mô tả trung tâm của tập dữ liệu bằng một thước đo thống kê khác với giá trị trung bình số
học. Một biện pháp thay thế cho vị trí trung tâm, gần như phổ biến như giá trị trung bình số
học, là trung vị. Giả sử có n quan sát trong một tập dữ liệu. Để tìm trung vị, tất cả n quan sát
phải được sắp xếp theo thứ tự tăng dần. Sau đó, trung vị được xác định như sau.
Định nghĩa 1. Gọi 𝑋1 , 𝑋2 , … , 𝑋𝑛 là một mẫu gồm n quan sát được sắp xếp theo thứ tự tăng
dần. Trung vị là giá trị quan sát ở giữa nếu n lẻ. Nếu n chẵn, trung vị mẫu là giá trị trung bình
của hai quan sát ở giữa dãy dữ liệu. Nói cách khác nếu n lẻ, trung vị là giá trị quan sát thứ
𝑛+1 𝑛 𝑛
2
. Nếu n chẵn, trung vị là trung bình cộng 2 giá trị quan sát thứ 2 và 2 + 1.
Ví dụ 2. Bộ dữ liệu bao gồm: 47,4; 42,2; 49,0; 47,6; 48,5; 45,8; 41,4
Sắp xếp các quan sát theo thứ tự tăng dần:
41,4; 42,2; 45,8; 47,4; 47,6; 48,5; 49,0.
Chú ý: Vì trung vị là giá trị ở giữa dãy dữ liệu (đã được sắp tăng dần), trong khi các giá trị
rất nhỏ hoặc rất lớn nằm ở hai đầu của một dãy dữ liệu nên trung vị không bị ảnh hưởng bởi
các giá trị rất nhỏ hoặc rất lớn (còn gọi là giá trị ngoại vi hay ngoại lai)
1.3 YẾU VỊ (MODE)
Một thước đo khác được sử dụng để mô tả trung tâm của tập dữ liệu là yếu vị, là giá trị quan
sát xảy ra thường xuyên nhất và xảy ra nhiều hơn một lần. Một ưu điểm của yếu vị là
không cần tính toán. Nó có thể được xác định đơn giản bằng cách đếm các tần số. Yếu vị là
thước đo duy nhất về khuynh hướng trung tâm có thể được sử dụng cho các biến định tính,
chẳng hạn như loại thuốc gây tê, dân tộc và nhóm máu của bệnh nhân. Ngay cả đối với các
biến định lượng rời rạc, chẳng hạn như quy mô gia đình, số lần đến phòng khám bệnh và số
lần mang thai, yếu vị đôi khi là thước đo có ý nghĩa hơn về xu hướng trung tâm so với giá trị
trung bình hoặc trung vị.
Chẳng hạn, sẽ hợp lý hơn khi nói rằng quy mô gia đình Việt Nam điển hình nhất là 4
người, hoặc phụ nữ Việt Nam điển hình có 2 lần mang thai trong đời, hơn là quy mô gia
đình Việt Nam trung bình là 3,8 hoặc phụ nữ Việt Nam trung bình có 1,9 lần mang thai.
Một bất lợi là một tập dữ liệu có thể có nhiều yếu vị hoặc không có yếu vị nào nếu không
có giá trị nào xuất hiện nhiều hơn một lần.
Ví dụ 3. Một nhóm bệnh nhân được kiểm tra trong một
thử nghiệm lâm sàng để xác định xem việc ăn bánh kẹo
chứa nhiều đường trong một thời gian ngắn có gây ra sự
gia tăng mức độ vi khuẩn Streptococcus mutans trên răng
hay không. Chỉ số nướu (Gingival index = GI) của bệnh
nhân được ghi nhận như bảng bên.
bảng tần số
Ví dụ 4. Nhịp tim của một số bệnh nhân khi đến khám bệnh là 92, 88, 90, 94, 92, 86, 95,94,
93, 92, 82, 90, 96, 94, 92, 89, 94.
Có 4 bệnh nhân có nhịp tim là 92, và 4 bệnh nhân khác có nhịp tim là 94. Cả 92 và 94 đều là
các giá trị xuất hiện thường xuyên nhất. Do đó, dãy dữ liệu này có hai yếu vị là:
Tóm tắt các tính chất quan trọng của 3 thước đo vị trí trung tâm được sử dụng rộng rãi.
Trung bình:
• Được sử dụng rộng rãi nhất và phụ thuộc vào giá trị của mọi quan sát
• Điểm cân bằng của một phân phối
• Không thích hợp cho dữ liệu định tính
• Nhạy cảm với các giá trị cực đoan
• Không thích hợp cho dữ liệu sai lệch cao (có giá trị ngoại vi)
Trung vị:
• Không nhạy cảm với các giá trị cực đoan
• Nhạy cảm với kích thước mẫu
• Được sử dụng rộng rãi cho các bảng phân phối có độ lệch cao
• Thích hợp cho các biến thứ tự
Yếu vị:
• Giá trị điển hình nhất trong dữ liệu
• Chỉ đo lường thích hợp cho dữ liệu danh nghĩa
• Thích hợp hơn giá trị trung bình hoặc trung vị cho các biến định lượng rời rạc
2. CÁC GIÁ TRỊ PHÂN TÁN
Trong phần trên, chúng ta đã thảo luận về các số đo của khuynh hướng trung tâm. Tuy nhiên,
trong thực tế không có hai bệnh nhân nào đáp ứng chính xác theo cùng một cách đối với một
phương pháp điều trị nhất định. Sự thay đổi trong tất cả các khía cạnh của khoa học sức khỏe
là không thể tránh khỏi.
Ví dụ 5. Để đánh giá việc kiểm soát mảng bám khiến nhiều bệnh nhân sợ khám và điều trị
nha khoa, các nhà điều tra đã chọn ngẫu nhiên 7 sinh viên ngành kỹ thuật và 7 sinh viên
ngành y dược. Từ mỗi đối tượng trong số 14 đối tượng, sử dụng một viên bông, một mẫu
mảng bám được lấy từ bề mặt nhẵn của vùng răng hàm trên bên phải của họ. Sau 24 giờ ủ, các
mẫu được quan sát về sự phát triển của khuẩn lạc, được biểu thị bằng số lượng đơn vị khuẩn
lạc (colony-forming units = CFU) được hình thành như sau:
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330
Giá trị trung bình của mỗi tập dữ liệu trên đều là ……. Mặc dù giá trị CFU cho 7 sinh viên kỹ
thuật khác nhau nhiều hơn so với CFU của sinh viên y dược, nhưng trung bình cho hai nhóm
là như nhau. Sẽ hoàn toàn không phù hợp nếu kết luận rằng tình trạng mảng bám của hai
nhóm này là như nhau vì trung bình là như nhau. Điều này cho thấy thực tế là nếu chỉ sử
dụng giá trị trung bình là không đủ để mô tả chính xác dữ liệu.
Các thước đo của xu hướng trung tâm đại diện cho các điểm mà trên đó phân bố có xu
hướng tập trung. Các thước đo của vị trí trung tâm truyền tải thông tin quan trọng về dữ liệu,
nhưng chúng không cho chúng ta biết bất cứ điều gì về sự thay đổi hoặc phân tán của các giá
trị quan sát. Nhiều thước đo về độ biến thiên đã được đề xuất để thể hiện sự phân tán của các
giá trị quan sát xung quanh một số vị trí trung tâm. Các thước đo hữu ích nhất về sự biến
thiên trong khoa học sức khỏe như: phạm vi (range), bách phân vị (percentiles), tứ phân vị
(interquartile range), phương sai (variance), độ lệch chuẩn (standard deviation) và hệ số biến
thiên (coefficient of variation).
2.1. Phạm vi (Range)
Thước đo độ biến thiên đơn giản nhất là phạm vi, là khoảng cách giữa các quan sát lớn nhất
và nhỏ nhất. Cho dãy được ký hiệu là R và 𝑋1 , 𝑋2 , … , 𝑋𝑛 là n quan sát. Khi đó phạm vi được
tính bởi 𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛.
Trong ví dụ 5 về số lượng đơn vị khuẩn lạc (colony-forming units = CFU) được hình thành
Sau 24 giờ ủ :
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330
Bách phân vị chia dữ liệu thành 100 phần. Tứ phân vị chia dữ liệu thành bốn phần bằng
nhau. Phạm vi, như một thước đo của sự thay đổi, có một thiếu sót lớn vì nó nhạy cảm với
hai giá trị cực đoan. Người ta mong muốn có một thước đo độ phân tán không dễ bị ảnh
hưởng bởi một vài giá trị cực trị đoan. Khoảng tứ phân vị là một thước đo như vậy. Bách phân
vị thứ 25, 50 và 75 được gọi là tứ phân vị thứ 1, thứ 2 và thứ 3, và được ký hiệu là 𝑄1 , 𝑄2 , 𝑄3 .
Sử dụng ký hiệu phân vị, 𝑄1 = 𝑃25 , 𝑄2 = 𝑃50 , 𝑄3 = 𝑃75
Định nghĩa 3. Khoảng tứ phân vị (interquartile range = IQR) là khoảng cách giữa 𝑄1 và 𝑄3 .
𝐼𝑄𝑅 = 𝑄3 − 𝑄1
Khoảng tứ phân vị chứa khoảng 50% dữ liệu. Nếu IQR lớn, thì dữ liệu có xu hướng bị phân
tán rộng. Ngược lại, nếu IQR nhỏ, thì dữ liệu có xu hướng tập trung xung quanh trung tâm
của phân phối.
Đối với dữ liệu trong Ví dụ 6, 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 =
Khi phân tích dữ liệu khám phá, ta nên xem xét kỹ lưỡng dữ liệu cho các quan sát cực nhỏ
hoặc cực lớn.
Định nghĩa 4. Các giá trị quan sát được gọi là ngoại vi (hay ngoại lai) là các quan sát có giá
trị cực nhỏ và cực lớn so với phần còn lại của các giá trị trong dữ liệu.
Có một số phương pháp tìm và phát hiện các giá trị ngoại lai. Một phương pháp sử dụng IQR
gọi là khoảng giới hạn của tứ phân vị như sau:
[𝑄1 − 1,5𝐼𝑄𝑅; 𝑄3 + 1,5𝐼𝑄𝑅]
Nếu giá trị quan sát nào không thuộc khoảng giới hạn của tứ phân vị thì giá trị đó được gọi là
ngoại lai. Phương pháp phát hiện giá trị ngoại lai này còn được gọi là phép thử Tukey.
Ví dụ 7. Trong ví dụ 6, với dữ liệu {2, 3, 5, 6, 6, 8, 9, 9, 11, 12, 18, 23 }, Q1 = 5,5, Q3 = 11,5
và IQR = 6, khoảng giới hạn của tứ phân vị là […..……………]. Quan sát có giá trị 23 không
thuộc khoảng này nên 23 là một giá trị ngoại lai.
Dữ liệu thường chứa các giá trị ngoại lai. Điều này có thể xảy ra do nhiều lý do: dụng cụ
không chính xác, xử lý sai đơn vị thí nghiệm, lỗi đo lường hoặc lỗi ghi chép như giá trị nhập
sai hoặc đặt sai dấu thập phân.
Các quan sát có thể được thực hiện về một đối tượng không đáp ứng các tiêu chí nghiên cứu;
ví dụ, một nghiên cứu nghiên cứu về tăng huyết áp có thể bao gồm một bệnh nhân bị huyết áp
thấp, do sự giám sát của người thí nghiệm. Một giá trị ngoại lai cũng có thể là một quan sát
hợp pháp xảy ra hoàn toàn tình cờ.
Nếu có thể giải thích cách thức và lý do tại sao các giá trị ngoại lai xảy ra, chúng nên được
xóa khỏi dữ liệu. Chẳng hạn, một bác sĩ nha chu đang thu thập dữ liệu về mức độ bám của
nha chu của bệnh nhân bị viêm nha chu cấp tính. Giá trị 75 mm cho mức đính kèm rõ ràng là
một lỗi. Trừ khi chúng ta có thể chắc chắn rằng thiếu dấu thập phân và giá trị chính xác là 7,5
mm giá trị này nên được loại bỏ.
2.3. ĐỘ LỆCH
Một số đặc điểm quan trọng của phân bố có thể quan sát được từ biểu đồ, biểu đồ thân và lá,
hoặc biểu đồ hộp là tính đối xứng và hình dạng của phân bố. Dữ liệu được cho là phân phối
đối xứng nếu một nửa của phân phối bên dưới trung vị khớp với phân phối trên trung vị. Nói
cách khác, vị trí tương đối của các điểm dữ liệu ở cả hai phía của đường trung bình sẽ khớp
với nhau.
Định nghĩa 5. Phân phối có "đuôi" dài ở bên phải được cho là lệch sang phải hoặc
lệch phải (hoặc lệch dương) và phân phối có "đuôi" dài ở bên trái được cho là lệch
sang trái , hoặc lệch trái (hoặc lệch âm).
Nếu một phân phối bị lệch
sang phải, các quan sát phía
trên trung vị sẽ có xu hướng
xa hơn trung vị và phần cuối
bên phải của phân phối có
thể chứa các giá trị cực trị.
Mặt khác, nếu một phân
phối bị lệch sang trái, thì các
quan sát bên dưới trung vị sẽ
có xu hướng xa trung vị hơn
và có thể có các giá trị cực
trị ở phía bên trái của phân
phối.
Các biểu đồ hộp được thảo luận trước đó có thể cho chúng ta một ý tưởng sơ bộ về độ lệch
của dữ liệu. Ví dụ: nếu râu dưới dài hơn râu trên, thì dữ liệu có thể bị lệch trái. Ngược lại,
nếu râu trên dài hơn râu dưới, thì dữ liệu có khả năng bị lệch phải. Nếu phân phối bị lệch
vừa phải, thì mối quan hệ giữa giá trị trung bình, trung vị và yếu vị như sau:
𝑀𝑒𝑎𝑛 − 𝑀𝑜𝑑𝑒 ≅ 3(𝑀𝑒𝑎𝑛 − 𝑀𝑒𝑑𝑖𝑎𝑛)
Công thức tính độ lệch là:
Nếu một phân phối là đối xứng, SK = 0; nếu nó lệch
3 phải (hoặc lệch dương) thì SK > 0; và nếu nó bị lệch
σ𝑛𝑖=1 𝑋𝑖 − 𝑋
𝑆𝐾 = trái (lệch âm) thì SK < 0.
3
2 2 Một phân phối có chỉ số độ lệch SK = 1,122
σ𝑛𝑖=1 𝑋𝑖 − 𝑋 nghiêng về bên phải nhiều hơn một phân phối có SK
= 0,768.
Tương tự, phân phối có chỉ số độ lệch SK = −0,948
nghiêng về bên trái nhiều hơn phân phối có SK =
−0,375.
Ví dụ 8. 10 người lớn đã được chọn để nghiên cứu khoảng thời gian súc miệng bằng nước
súc miệng liên quan đến thời gian súc miệng khuyến nghị của nhà sản xuất. Biến ngẫu nhiên
Xi biểu thị khoảng thời gian súc miệng (tính bằng giây) của người thứ i.
Với dữ liệu này, tính được:
SK = - 0,2555.
Giá trị này cho thấy dữ liệu trên bị
lệch sang trái. Lưu ý rằng hình ảnh
đối xứng của dữ liệu bị lệch sang bên
phải khi chỉ số độ lệch của nó là:
SK = 0,2555.
Biểu đồ hộp và các giá trị trong biểu đồ này thể hiện trong hình
2.5. PHƯƠNG SAI, ĐỘ LỆCH CHUẨN, SAI SỐ CHUẨN
- Phương sai: Mô tả mức độ phân tán của DL xung quanh giá trị trung bình
σ(𝑥𝑖 − 𝑥)2
𝑠2 =
𝑛−1
- Độ lệch chuẩn (Standard deviation = SD hay s): 𝑆𝐷 = 𝑠 = 𝑠2
𝑠
- Sai số chuẩn (Standard Error = SE): 𝑆𝐸 = 𝑛
Ví dụ 10: Xét nghiệm cholesterol cho 125 người bình thường trong dân số D. Kết quả:
Lượng cholesterol trung bình = 4.6 mmol/L và đlc = 0.3 mmol/L.
Trung bình cholesterol của toàn bộ dân số D là không xác định được nhưng theo lý
thuyết về khoảng tham chiếu thì cholesterol sẽ dao động trong khoảng
[𝑥lj − 2𝜎; 𝑥lj − 2𝜎] = [4; 5.2]
Điều này có nghĩa là nếu tiếp tục lấy mẫu 125 người trong D nhiều lần
(mỗi lần lấy trên các đối tượng khác nhau) và tính trung bình cholesterol
thì khi đó 95% các lần, trung bình sẽ nằm trong đoạn [4; 5.2]
n – 1 gọi là số bậc tự do (degree of freedom = df), df là số
nguồn thông tin (piece of information) về một biến ngẫu nhiên.
σ(𝑥𝑖 − 𝑥)2
𝑠2 =
𝑛−1
(𝑥 − 𝑥) = 𝑥 − 𝑥 = 𝑥 − 𝑛𝑥 = 𝑥 − 𝑥 = 0
Ví dụ 11. Thuốc hạ huyết áp A và B được sử dụng trên 2 nhóm,
mỗi nhóm 5 b/n. Huyết áp tâm thu sau khi dùng thuốc là
A: 110, 115, 120, 125, 130.
B: 100, 110, 120, 130, 140.
2.6. HỆ SỐ BIẾN THIÊN
Mặc dù SD là thước đo độ biến thiên được sử dụng rộng rãi nhất, nhưng có một nhược điểm
là nó phụ thuộc vào đơn vị đo lường. Hệ số biến thiên là thước đo dùng để so sánh mức độ
biến thiên giữa hai hay nhiều bộ dữ liệu biểu thị các đại lượng khác nhau với các đơn vị đo
lường khác nhau.
𝑆
𝐶𝑉 = × 100(%)
𝑋ത
Ví dụ 12. Độ bền của hai loại trụ đúc sẵn, trụ bằng sợi carbon (CFP) và trụ được gia cố bằng
sợi polyethylene (PFRP), trên răng được điều trị nội nha. Giá trị trung bình của mẫu và SD
mẫu đối với CFP là 𝑋𝐴 = 67,57 kg và 𝑆𝐴 = 26,57 kg, và đối với PFRP lần lượt là 𝑋𝐵 = 132,55
lbs và 𝑆𝐵 = 36,19 lbs. Sẽ không có nhiều ý nghĩa nếu so sánh trực tiếp hai SD này vì chúng
được báo cáo theo các đơn vị đo lường khác nhau. Hệ số biến thiên là thứ chúng ta cần trong
tình huống này để đo sự biến thiên.
𝑆𝐴
𝐶𝑉𝐴 = ത × 100 % =
𝑋𝐴
𝑆𝐵
𝐶𝑉𝐵 = ത × 100 % =
𝑋𝐵
Ví dụ 13. Đánh giá chính xác chất lượng xương trước phẫu thuật là điều cần thiết
để hỗ trợ bác sĩ lâm sàng trong các giai đoạn lập kế hoạch điều trị của liệu pháp cấy
ghép implant. Sự thành công lâu dài về mặt lâm sàng của việc cấy ghép răng được
báo cáo là ảnh hưởng bởi cả chất lượng và số lượng xương sẵn có. Có hai kỹ thuật
cho phép chúng ta đo mật độ xương ổ răng trong các khu vực xung quanh của hàm:
chụp cắt lớp vi tính định lượng (QCT) và chụp cắt lớp vi tính chùm tia hình nón
(CBCT). Cả hai kỹ thuật này đều được sử dụng để đánh giá mật độ xương của 10
người bệnh. Các phép đo được thực hiện bằng QCT được biểu thị bằng miligam
trên centimet khối (𝑚𝑔/𝑐𝑚3 ) và các phép đo bằng cách sử dụng CBCT được biểu
thị bằng phần trăm.
Giả sử rằng các nhà nghiên cứu báo cáo giá trị trung bình và SD của QCT và CBCT
là 𝑋𝑄 = 4,53; 𝑆𝑄 = 2,28 và 𝑋𝐶 = 78,5; 𝑆𝐶 = 24,3. Do các đơn vị đo là khác nhau,
hệ số biến thiên nên được sử dụng để so sánh độ phân tán của các phép đo được
thực hiện bởi hai phương pháp. CV của QCT và CBCT là:
Ví dụ 14: Dạng Liệt kê: Xét hai tập giá trị
X = {7, 7, 8, 9,11, 12, 12, 14}
Ví dụ 15: Dạng thu gọn
Chiều cao của một số người
X = {150, 150, 160, 160, 160, 170, 170, 170, 170, 170, 180,
170, 180, 180, 190, 180, 190}
X 150 160 170 180 190
n 2 3 6 4 2
𝑥 = 137,833; 𝑠 = 4,407, 𝑛 = 12
2.Ước lượng KTC cho trung bình
a. Trường hợp đã biết phương sai σ2
𝜎
𝜇 = 𝑥±𝐶× ; với 𝐶 = 𝑍𝛾/2
𝑛
𝛾 = 0,95 ⇒ 𝐶 = 𝑍𝛾/2 = 𝑍0,475 = 1,96
Giả sử sự khác biệt về lượng chất X trước (𝑋1 ) và sau (𝑋2 ) khi
uống thuốc M: 𝑑𝑖 = 𝑋2 − 𝑋1 là biến ngẫu nhiên có PPC. Ước
lượng KTC cho trung bình của d.
3. Ước lượng khoảng tin cậy về tỷ lệ
𝑓(1 − 𝑓)
𝑝=𝑓±𝐶
𝑛 𝐶 = 1,96(𝛾 = 0,95); 𝐶 = 2,58(𝛾 = 0,99)
*Xác định cỡ mẫu : Để sai số ước lượng không vượt quá ε thì:
𝐶 2
𝑓(1 − 𝑓) 𝑛≥ × 𝑓(1 − 𝑓) (1)
𝐶 ≤𝜀⇔ 𝜀
𝑛
2
𝐶
(1) ⇔ 𝑛 ≥ (2)
2𝜀
Ví dụ 5. Một khảo sát cần ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn trong
một lô thuốc gồm rất nhiều viên thuốc.
a. Nếu muốn sai số ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn không quá
0,01 ở độ tin cậy 95% thì cần khảo sát tối thiểu bao nhiêu viên thuốc?
b. Khảo sát ngẫu nhiên 200 viên trong lô thuốc, kết quả có 18 viên không đạt
tiêu chuẩn.
• Ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn của lô thuốc.
• Nếu muốn sai số ước lượng không quá 0,01 ở độ tin cậy 95% thì phải khảo sát
tối thiểu bao nhiêu viên thuốc?
Bài tập. Một lô thuốc có rất nhiều hộp thuốc của xí nghiệp A. Lấy ngẫu nhiên 225 hộp đem
cân, kết quả như sau: