Professional Documents
Culture Documents
c) Một nhà sản xuất thiết bị đã thực hiện một loạt các thử nghiệm để so sánh tỷ lệ đạt hoặc
không đạt của một thiết bị phân rã mới. Các mẫu được lấy từ một lô viên nén không bao. Hai
nhiệt độ khác nhau đã được sử dụng và thử nghiệm cho thời gian khuyến nghị. Thành công
được định nghĩa là cả sáu viên đều tan rã trong thiết bị phân rã.
2.3. Mô tả dữ liệu
2.2.1 Bảng tần số
Bước đầu tiên trong việc tóm tắt dữ liệu là sắp xếp dữ liệu theo một số cách có ý
nghĩa. Phương pháp thuận tiện và thường được sử dụng nhất là phân phối tần số,
trong đó dữ liệu thô được tổ chức dưới dạng bảng theo lớp và tần suất.
Ví dụ 5. Có 3 loại thuốc chống nôn (anti‐emetic) khác nhau được sử dụng kết hợp
với chế độ trị liệu hóa trị. Một là thuốc tiêu chuẩn hiện tại và sau đó có hai loại
thuốc mới. NNC muốn xem xét mức độ buồn nôn được báo cáo khi chúng được sử
dụng. Mỗi thuốc chống nôn được dùng cho 30 bệnh nhân và họ đánh giá buồn nôn
theo thang điểm từ 1 đến 4 (1 = Không, 2 = Nhẹ, 3 = Trung bình, 4 = Nặng). Kết
quả được thể hiện trong bảng 2.1.
Nhận xét?
X X
251 245
Ví dụ 6. Lập bảng dữ liệu 250 246
Cách đơn giản nhất và ít thông tin nhất để trình bày kết quả thử 253 247
247
nghiệm là liệt kê các quan sát (dữ liệu thô). 249
250 248
Ví dụ: lấy mẫu 30 viên nang tetracycline trong quá trình sản xuất 252 248
để đo hàm lượng. Dữ liệu được trình bày ở định dạng này tương 247 248
249
248
đối vô dụng ngoài việc chỉ cung cấp các kết quả riêng lẻ. 254 249
Ta có thể sắp xếp kết quả của 30 mẫu theo thứ tự từ kết quả xét 245 249
250 249
nghiệm nhỏ nhất đến lớn nhất. Khi đó ta có thể thấy một số đặc 253 250
điểm nhất định của dữ liệu: 1) hầu hết các cụm quan sát gần giữa 251 250
250 250
của sự phân phối (ví dụ: 250 mg) và 2) sự phân bố của các kết quả 249 250
thay đổi từ nhỏ như 245 mg đến lớn như 254 mg. 252 250
250
Mục đích của thống kê mô tả là tổ chức và tóm tắt thông tin; do đó, 251
249 250
các bảng và biểu đồ có thể được sử dụng để trình bày dữ liệu này ở 246 251
định dạng hữu ích hơn. 250
250
251
251
254 251
248 251
252 252
251 252
248 252
250 253
247 253
251 254
249 254
Trong quá trình phân tích DL, chúng ta cố gắng giảm dữ liệu thành thông tin dễ quản lý
hơn. Các kết quả về hàm lượng viên nén đại diện cho một biến liên tục (mg); tuy nhiên, dữ
liệu liên tục có thể được nhóm lại với nhau để tạo thành các danh mục và sau đó được xử lý
như một biến rời rạc. Giả sử rằng hàm lượng ghi trên nhãn của tetracycline là 250 mg mỗi
viên. Dữ liệu có thể được tóm tắt để báo cáo kết quả: 1) tập trung vào những viên nang đáp
ứng hoặc vượt quá lượng ghi trên nhãn
X f cf % cum.%
f: frequencies
<250 11 11 36.67 36.67 cf: cumulative frequencies
=250 7 18 23.33 60.00
>250 12 30 40.00 100.00
Để trình bày dữ liệu thô dưới dạng phân bố tần số, phải chia phạm vi của các phép
đo trong dữ liệu thành một số khoảng. Các khoảng thường được xây dựng để có
chiều rộng bằng nhau. Điều này sẽ giúp dễ dàng so sánh giữa các khoảng khác nhau.
Lưu ý khi tóm tắt dữ liệu, việc có quá nhiều khoảng sẽ không cải thiện nhiều so với
dữ liệu thô. Nếu có quá ít khoảng, rất nhiều thông tin sẽ bị mất.
Số khoảng và độ rộng khoảng được tính theo quy tắc Sturges.
Số khoảng I = 1 + 3.322𝑙𝑜𝑔10 𝑛
𝑅
Độ rộng khoảng 𝑤 = 𝐼 với 𝑅 = 𝐺𝑇𝐿𝑁 − 𝐺𝑇𝑁𝑁
Trong ví dụ 6: I = 1 + 3.322𝑙𝑜𝑔10 30 = 5.9 ≈ 6; 𝑅 = 254 − 245 = 9 nên độ
𝑅 9
rộng khoảng 𝑤 = 𝐼 = 6 = 1.5
Số lớp f % cum.%
245-246.5 2 6.67 6.67
246.5-248 2 6.67 13.33
248-249.5 7 23.33 36.67
249.5-251 7 23.33 60.00
251-252.5 8 26.67 86.67
252.5-254 4 13.33 100.00
Tổng cộng 30 100
H. A. STURGES, “The Choice of a Class Interval,” Journal of the American Statistical Association, 21
(1926), 65–66.
2.2.2 Tần số, tần suất và tần suất tích lũy
Số lớp f % cum.%
245-246.5 2 6.67 6.67
246.5-248 2 6.67 13.33
248-249.5 7 23.33 36.67
249.5-251 7 23.33 60.00
251-252.5 8 26.67 86.67
252.5-254 4 13.33 100.00
Tổng cộng 30 100
✓ Biểu đồ hình cột
Dùng để so sánh sự phân phối của các giá trị khảo sát
Biểu đồ cột trong VD6
X f
<250 11
=250 7
>250 12
Một bé 8 tháng tuổi, nặng 10,5kg => tương ứng BPV thứ 97 => Kết luận: bé này thừa cân!
Khi bé tròn 1 tuổi, cân nặng 11kg => tương ứng BPV thứ 85 => Kết luận: bé “diet” thành công,
không còn thừa cân nữa :3. Rồi đến 18 tháng, bé vẫn 11kg => BPV thứ 50 => KL?
CHƯƠNG 3. CÁC THƯỚC ĐO VỀ XU HƯỚNG TRUNG TÂM,
ĐỘ PHÂN TÁN VÀ ĐỘ NGHIÊNG
Ngoài việc mô tả dữ liệu bằng phân bố tần số và đồ thị để tóm tắt và hiển thị dữ liệu một
cách trực quan, chúng ta mong muốn mô tả thêm một số đặc điểm của dữ liệu bằng cách sử
dụng các biện pháp định lượng.
Thước đo vị trí được sử dụng rộng rãi nhất là giá trị trung bình. Tuy nhiên, một công ty sản
xuất găng tay cao su phẫu thuật sẽ không thể tồn tại lâu nếu chỉ sản xuất găng tay cỡ trung
bình. Các thước đo của xu hướng trung tâm không đủ để mô tả dữ liệu một cách đầy đủ.
Ngoài việc biết giá trị trung bình, chúng ta phải biết dữ liệu được phân tán, hoặc trải rộng
như thế nào. Các thước đo xác định mức độ phân tán được gọi là các thước đo độ phân tán,
hay các thước đo độ biến thiên. Các thước đo tiêu biểu của sự phân tán là phạm vi (range),
phương sai (variance), và độ lệch chuẩn (standard deviation). Các thông số đo độ phân tán
này sẽ được thảo luận trong phần sau của chương. Phần cuối trình bày biểu đồ hộp (box
plot), đây là một kỹ thuật cực kỳ hữu ích để phân tích dữ liệu khám phá và các khái niệm
về hệ số biến thiên và độ lệch.
1. CÁC GIÁ TRỊ TRUNG TÂM
1.1 SỐ TRUNG BÌNH
Thước đo xu hướng trung tâm được sử dụng thường xuyên nhất là trung bình cộng hoặc
đơn giản là trung bình.
Khảo sát đặc tính X trên n đối tượng thu được giá trị của dữ liệu mẫu 𝑋1 , 𝑋2 , … , 𝑋𝑛 .
𝑋1 +𝑋2 +⋯+𝑋𝑛 σ𝑛
𝑖=1 𝑋𝑖
Công thức tính giá trị trung bình là: 𝑋 = hay gọn hơn là: 𝑋 =
𝑛 𝑛
Ví dụ 1. Axit ascorbic là một trong những thành phần quan trọng có trong viên
vitamin C. Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn vị: mg) có kết
quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Khi đó, giá trị trung bình về hàm lượng Axit ascorbic là:
455 + 450 + ⋯ + 455
𝑋ത = = 450
10
Ví dụ 2. Bác sĩ sử dụng thang điểm để phân loại tình trạng bệnh của bệnh nhân:
1. Không bệnh; 2. Nhẹ; 3. Trung bình; 4. Nghiêm trọng; 5. Cực kỳ nghiêm trọng
Có thể gắn nhãn các danh mục 0 = không bệnh, 1 = nhẹ, 3 = trung bình, 5 =
nghiêm trọng và 7 = cực kỳ nghiêm trọng.
Điểm trung bình 3,85 cho trạng thái bệnh là vô nghĩa.
1.2 TRUNG VỊ
Để tránh khả năng bị ảnh hưởng bởi một vài quan sát có giá trị cực nhỏ hoặc cực
lớn, chúng ta mô tả trung tâm của tập dữ liệu bằng một thước đo thống kê khác với
giá trị trung bình số học. Một biện pháp thay thế cho vị trí trung tâm, gần như phổ
biến như giá trị trung bình số học, là trung vị. Giả sử có n quan sát trong một tập
dữ liệu. Để tìm trung vị, tất cả n quan sát phải được sắp xếp theo thứ tự tăng dần.
Sau đó, trung vị được xác định như sau.
Định nghĩa 1. Gọi 𝑋1, 𝑋2 , … , 𝑋𝑛 là một mẫu gồm n quan sát được sắp xếp theo thứ
tự tăng dần. Trung vị là giá trị quan sát ở giữa nếu n lẻ. Nếu n chẵn, trung vị mẫu là
giá trị trung bình của hai quan sát ở giữa dãy dữ liệu.
Ví dụ 3. Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn vị: mg) có kết
quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Sắp DL tăng dần (không giảm): 445, 447, 448, 448, 450, 450, 450, 452, 455, 455
Do 𝑛 = 10 là số chẵn nên trung vị là:
Bây giờ giả sử chỉ đo hàm lượng Axit ascorbic trong 7 viên vitamin C và được dãy
DL (đã sắp tăng dần): 445, 447, 448, 448, 450, 452, 455
Khi đó 𝑛 = 7 là số lẻ nên trung vị là:
Chú ý: Vì trung vị là giá trị ở giữa dãy dữ liệu (đã được sắp tăng dần), trong khi các
giá trị rất nhỏ hoặc rất lớn nằm ở hai đầu của một dãy dữ liệu nên trung vị không bị
ảnh hưởng bởi các giá trị rất nhỏ hoặc rất lớn (giá trị ngoại lai)
1.3 YẾU VỊ (MODE)
Một thước đo khác được sử dụng để mô tả trung tâm của tập dữ liệu là yếu vị, là giá
trị quan sát xảy ra thường xuyên nhất và xảy ra nhiều hơn một lần. Một ưu điểm
của yếu vị là không cần tính toán. Nó có thể được xác định đơn giản bằng cách đếm
các tần số. Yếu vị là thước đo duy nhất về khuynh hướng trung tâm có thể được sử
dụng cho các biến định tính, chẳng hạn như loại thuốc gây tê, dân tộc và nhóm máu
của bệnh nhân. Ngay cả đối với các biến định lượng rời rạc, chẳng hạn như quy mô
gia đình, số lần đến phòng khám bệnh và số lần mang thai, yếu vị đôi khi là thước đo
có ý nghĩa hơn về xu hướng trung tâm so với giá trị trung bình hoặc trung vị.
Chẳng hạn, sẽ hợp lý hơn khi nói rằng quy mô gia đình Việt Nam điển hình nhất là 4
người, hoặc phụ nữ Việt Nam điển hình có 2 lần mang thai trong đời, hơn là quy mô
gia đình Việt Nam trung bình là 3,8 hoặc phụ nữ Việt Nam trung bình có 1,9 lần
mang thai. Một bất lợi là một tập dữ liệu có thể có nhiều yếu vị hoặc không có yếu
vị nào nếu không có giá trị nào xuất hiện nhiều hơn một lần.
Ví dụ 4. Trong Ví dụ 1: Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn
vị: mg) có kết quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Khi đó yếu vị là 540 (mg) vì giá trị này xuất hiện nhiều lần nhất (3 lần)
• Bây giờ giả sử kết quả đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn
vị: mg) là dãy DL: 455, 450, 452, 448, 446, 456, 447, 453, 449, 445.
Khi đó dãy DL này không có yếu vị.
• Nếu kết quả đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn vị: mg) là
dãy DL: 455, 450, 450, 448, 446, 456, 447, 453, 449, 455.
Khi đó dãy DL này có 2 yếu vị là 450 và 455.
Tóm tắt các tính chất quan trọng của 3 thước đo vị trí trung tâm được sử dụng rộng rãi.
Trung bình:
• Được sử dụng rộng rãi nhất và phụ thuộc vào giá trị của mọi quan sát
• Điểm cân bằng của một phân phối
• Không thích hợp cho dữ liệu định tính
• Nhạy cảm với các giá trị cực đoan
• Không thích hợp cho dữ liệu sai lệch cao (có giá trị ngoại vi)
Trung vị:
• Không nhạy cảm với các giá trị cực đoan
• Nhạy cảm với kích thước mẫu
• Được sử dụng rộng rãi cho các bảng phân phối có độ lệch cao
• Thích hợp cho các biến thứ tự
Yếu vị:
• Giá trị điển hình nhất trong dữ liệu
• Chỉ đo lường thích hợp cho dữ liệu danh nghĩa
• Thích hợp hơn giá trị trung bình hoặc trung vị cho các biến định lượng rời rạc
2. CÁC GIÁ TRỊ PHÂN TÁN
Trong phần trên, chúng ta đã thảo luận về các số đo của khuynh hướng trung tâm.
Tuy nhiên, trong thực tế không có hai bệnh nhân nào đáp ứng chính xác theo cùng
một cách đối với một phương pháp điều trị nhất định. Sự thay đổi trong tất cả các
khía cạnh của khoa học sức khỏe là không thể tránh khỏi.
Ví dụ 5. Để đánh giá việc kiểm soát mảng bám khiến nhiều bệnh nhân sợ khám và
điều trị nha khoa, các nhà điều tra đã chọn ngẫu nhiên 7 sinh viên ngành kỹ thuật và
7 sinh viên ngành y dược. Từ mỗi đối tượng trong số 14 đối tượng, sử dụng một viên
bông, một mẫu mảng bám được lấy từ bề mặt nhẵn của vùng răng hàm trên bên phải
của họ. Sau 24 giờ ủ, các mẫu được quan sát về sự phát triển của khuẩn lạc, được
biểu thị bằng số lượng đơn vị khuẩn lạc (colony-forming units = CFU) được hình
thành như sau:
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330
Giá trị trung bình của mỗi tập dữ liệu trên đều là ………... Sẽ hoàn toàn không phù
hợp nếu kết luận rằng tình trạng mảng bám của hai nhóm này là như nhau vì trung
bình là như nhau. Điều này cho thấy thực tế là nếu chỉ sử dụng giá trị trung bình là
không đủ để mô tả chính xác dữ liệu.
Các thước đo của xu hướng trung tâm đại diện cho các điểm mà trên đó phân bố có xu
hướng tập trung. Các thước đo của vị trí trung tâm truyền tải thông tin quan trọng về dữ liệu,
nhưng chúng không cho chúng ta biết bất cứ điều gì về sự thay đổi hoặc phân tán của các giá
trị quan sát. Nhiều thước đo về độ biến thiên đã được đề xuất để thể hiện sự phân tán của các
giá trị quan sát xung quanh một số vị trí trung tâm. Các thước đo hữu ích nhất về sự biến
thiên trong khoa học sức khỏe như: phạm vi (range), bách phân vị (percentiles), tứ phân vị
(interquartile range), phương sai (variance), độ lệch chuẩn (standard deviation) và hệ số biến
thiên (coefficient of variation).
2.1. Phạm vi (Range)
Thước đo độ biến thiên đơn giản nhất là phạm vi, là khoảng cách giữa các quan sát lớn nhất
và nhỏ nhất. Cho dãy được ký hiệu là R và 𝑋1 , 𝑋2 , … , 𝑋𝑛 là n quan sát. Khi đó phạm vi được
tính bởi 𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛.
Trong ví dụ 5 về số lượng đơn vị khuẩn lạc (colony-forming units = CFU) được hình thành
Sau 24 giờ ủ :
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330
Khoảng tứ phân vị chứa khoảng 50% DL. Nếu IQR lớn, thì DL có xu hướng bị phân tán rộng.
Ngược lại, nếu IQR nhỏ, thì DL có xu hướng tập trung xung quanh trung tâm của phân phối.
Nếu một phân phối là đối xứng, SK = 0; nếu nó lệch phải (hoặc lệch dương) thì SK > 0; và
nếu nó bị lệch trái (lệch âm) thì SK < 0.
Ví dụ 8. 18 người lớn đã được chọn để nghiên cứu khoảng thời gian súc miệng
bằng nước súc miệng liên quan đến thời gian súc miệng khuyến nghị của nhà sản
xuất. Biến ngẫu nhiên Xi biểu thị khoảng thời gian súc miệng (tính bằng giây) của
người thứ i.
Mean 24.111 Với dữ liệu này, tính được: SK = - 0.199
Standard Error 1.747 Giá trị này cho thấy dữ liệu hơi bị lệch sang trái.
Median 25
Mode 25
Standard Deviation 7.411
Sample Variance 54.928
Kurtosis -1.088
Skewness -0.199
Range 25
Minimum 10
Maximum 35
Sum 434
Count 18
Confidence Level(95.0%) 3.686
Vậy 𝑠 2 =
Ví dụ 11: Thuốc hạ huyết áp A và B được sử dụng trên 2 nhóm, mỗi nhóm 5 b/n.
Huyết áp tâm thu sau khi dùng thuốc là
A: 110, 115, 120, 125, 130.
B: 100, 110, 120, 130, 140.
Tham số A B
Trung bình
Độ lệch chuẩn
Phương sai
Nhận xét?
2.6. HỆ SỐ BIẾN THIÊN
Mặc dù SD là thước đo độ biến thiên được sử dụng rộng rãi nhất, nhưng có một nhược điểm
là nó phụ thuộc vào đơn vị đo lường. Hệ số biến thiên là thước đo dùng để so sánh mức độ
biến thiên giữa hai hay nhiều bộ dữ liệu biểu thị các đại lượng khác nhau với các đơn vị đo
lường khác nhau.
𝑆
𝐶𝑉 = × 100(%)
ത
𝑋
Ví dụ 12. Độ bền của hai loại trụ đúc sẵn, trụ bằng sợi carbon (CFP) và trụ được gia cố bằng
sợi polyethylene (PFRP), trên răng được điều trị nội nha. Giá trị trung bình của mẫu và SD
mẫu đối với CFP là 𝑋𝐴 = 67,57 kg và 𝑆𝐴= 26,57 kg, và đối với PFRP lần lượt là 𝑋𝐵 = 132,55
lbs và 𝑆𝐵 = 36,19 lbs. Sẽ không có nhiều ý nghĩa nếu so sánh trực tiếp hai SD này vì chúng
được báo cáo theo các đơn vị đo lường khác nhau. Hệ số biến thiên là thông số chúng ta cần
trong tình huống này để đo sự biến thiên.
𝑆𝐴
𝐶𝑉𝐴 = ത × 100 % =
𝑋𝐴
𝑆𝐵
𝐶𝑉𝐵 = ത × 100 % =
𝑋𝐵
Ví dụ 13: Dạng Liệt kê: Xét hai tập giá trị
X = {7, 7, 8, 9,11, 12, 12, 14}
Ví dụ 14: Dạng thu gọn
Chiều cao của một số người
X = {150, 150, 160, 160, 160, 170, 170, 170, 170, 170, 180, 170, 180, 180, 190, 180,
190}
X 150 160 170 180 190
n 2 3 6 4 2
𝑓(1 − 𝑓)
𝑝=𝑓±𝐶
𝑛
Khi sử dụng KTC Wald cần phải kiểm tra điều kiện:
0.1 < f < 0.9 và nf ≥ 10 và n 1 − f ≥ 10 (*)
Khi thỏa (*) thì phân phối mẫu của f xấp xỉ đường cong chuẩn.
C = 1,96(γ = 0,95); C = 2,58(γ = 0,99)
Chú ý: Nếu điều kiện (*) không thỏa mãn thì các phương pháp khác, chẳng hạn
như phương pháp Clopper-Pearson hoặc phương pháp Wilson sẽ được sử dụng.
Ví dụ 6. Cần khảo sát cần ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn trong
một lô thuốc gồm rất nhiều viên thuốc. Khảo sát ngẫu nhiên 200 viên trong lô 𝑓 =
25
𝑓 = 200 = 0.125
Kiểm tra điều kiện 0.1 < f < 0.9 và 𝑛𝑓 ≥ 10 và 𝑛 1 − 𝑓 ≥ 10 thỏa mãn
𝑓(1−𝑓) 0.125(1−0.125)
• 𝑝=𝑓±𝐶 = 0.125 ± 1.96 = 0.125 ± 0.046
𝑛 200
STT Code KQ
1 1 Không đạt
Mean 0.125
2 0 Đạt Standard Error 0.023444
3 0 Đạt
4 1 Không đạt
Median 0
5 0 Đạt Mode 0
6 0 Đạt
7 0 Đạt
Standard Deviation 0.331549
8 0 Đạt Sample Variance 0.109925
9 0 Đạt
10 0 Đạt
Range 1
11 0 Đạt Minimum 0
12 0 Đạt
13 0 Đạt
Maximum 1
14 0 Đạt Sum 25
15 0 Đạt
16 0 Đạt
Count 200
17 1 Không đạt Confidence Level(95.0%) 0.046