You are on page 1of 76

PCAP219 Tài liệu này của:

Thiết kế nghiên cứu và thống kê trong sinh học Mã sinh viên:


Study Design and Biostatistics

THỐNG KÊ MÔ TẢ
- XÁC SUẤT – PHÂN BỐ XÁC SUẤT
Chương trình Dược sĩ Đại học – Sinh viên năm 3
Buổi học 3-4 – (6 tiết)

Giảng viên: Nguyễn Thị Đức Hạnh, ThS. DS.


Năm học 2020 - 2021

Email: ntd.hanh@hutech.edu.vn
Điện thoại: (028) 5449 9968
TÀI LIỆU THAM KHẢO
Tài liệu đọc chính
• Slide bài giảng
• Wayne W. Daniel, Chad L. Cross (2013). Biostatistics, A
Foundation for Analysis in the Health Sciences. Wiley. Chapter.
2, 4.
Tài liệu đọc thêm
• Bernard Rosner (2015). Fundamentals of Biostatistics.
Cengage learning.

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
2
TNNC - TKTSH
MỤC TIÊU HỌC TẬP

• Cung cấp cho sinh viên kiến thức, kỹ năng, thái độ về thống
kê mô tả, xác xuất và phân bố

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
3
TNNC - TKTSH
CHUẨN ĐẦU RA BÀI BUỔI HỌC
• Trình bày được vai trò của Thống kê mô tả
• Đánh giá được dữ liệu có được sắp xếp hợp lý hay không
• Tính toán được và giải thích được các Thông số liên quan để
Đánh giá Độ tập trung của dữ liệu và Độ phân tán của dữ liệu
• Trình bày được về Phân bố rời rạc và Phân bố liên tục; Và Biết
cách áp dụng để tính xác suất trong các tình huống thực tế
• Giải thích và so sánh được các điểm giống và khác nhau giữa
Phân bố rời rạc và Phân bố liên tục và lựa chọn được Cách áp
dụng.

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
4
TNNC - TKTSH
HƯỚNG DẪN SINH VIÊN TỰ HỌC
• Tài liệu cần đọc:
- Slide bài giảng
• Tài liệu cần xem online, website
- Wayne W. Daniel, Chad L. Cross (2013). Biostatistics, A
Foundation for Analysis in the Health Sciences. Wiley. Chapter. 2, 4.
• Phần mềm cần cài đặt
- Minitab 19.0
• Câu hỏi, bài tập cần trả lời
- Bài tập trong slide

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
5
TNNC - TKTSH
Nội dung các chủ đề buổi học
• CHỦ ĐỀ 1: DÃY DỮ LIỆU – NHÓM DỮ LIỆU
• CHỦ ĐỀ 2: THỐNG KÊ MÔ TẢ
• CHỦ ĐỀ 3: XÁC SUẤT – PHÂN BỐ XÁC SUẤT

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
TNNC - TKTSH 6
CHỦ ĐỀ 01:
DÃY DỮ LIỆU – NHÓM DỮ LIỆU
• Dãy dữ liệu đã được sắp xếp
• Nhóm dữ liệu

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
7
TNNC - TKTSH
CASE STUDY
• Một số nhà nghiên cứu đưa ra giả thuyết là bổ sung vitamin A
giúp phòng ngừa ung thư.
• Để kiểm chứng giả thuyết này, nhà nghiên cứu cần sử dụng 1
bộ câu hỏi để thu thập dữ liệu về việc sử dụng vit A ở 200 bệnh
nhân ung thư nằm viện và 200 bệnh nhân không sử dụng vit A
(nhóm chứng). 2 nhóm nghiên cứu cùng độ tuổi – giới tính, dữ
liệu được thu thập vào cùng thời điểm.
• Câu hỏi đặt ra : Cần làm gì sau khi thu thập xong dữ liệu?

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
8
TNNC - TKTSH
DỮ LIỆU THÔ
• Dữ liệu thô: Dữ liệu bao gồm các biến số ngẫu nhiên được thu thập
trong toàn bộ dân số; chưa được tổ chức, tóm tắt hoặc xử lý
• Dữ liệu thô không có khả năng truyền đạt nhiều thông tin cho
đến khi được xếp theo một loại trật tự nào đó; trừ khi số lượng
quan sát là vô cùng nhỏ.
Cần một số kỹ thuật tổ chức và tóm tắt dữ liệu để có thể dễ
dàng xác định thông tin nào từ các dữ liệu thô.
Trước khi thực hiện bất kỳ bước nào để trả lời câu hỏi nghiên cứu
thì cần mô tả dữ liệu (tính toán các giá trị đo lường, đánh giá dữ
liệu).

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
9
TNNC - TKTSH
DÃY DỮ LIỆU
• Bước đầu tiên trong quản lý dữ liệu thu thập là sắp xếp dãy dữ
liệu theo trật tự.
• Dãy dữ liệu: Dãy số liệu (thu thập từ mẫu nghiên cứu hoặc từ
dân số) được sắp xếp theo thứ tự từ giá trị nhỏ nhất đến giá trị
lớn nhất.
• Dãy dữ liệu đã được sắp xếp: giúp xác định nhanh giá trị nhỏ
nhất, giá trị lớn nhất, các đặc điểm khác
• Có thể sử dụng máy tính để thực hiện việc sắp xếp dữ liệu vì số
lượng các giá trị nhiều – không thể thực hiện thủ công.

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
10
TNNC - TKTSH
VÍ DỤ
• Một nghiên cứu được thực hiện để khảo sát hiệu quả giúp cai
thuốc lá của N= 189 người tình nguyện khỏe mạnh tham gia
vào 1 trong 3 nhóm sau:
- Nhóm 1: bupropion SR
- Nhóm 2: miếng dán nicotine
- Nhóm 3: bupropion SR + miếng dán nicotine
kèm với liệu pháp thay đổi nhận thức – hành vi
Dữ liệu thu thập được từ nghiên cứu viên được thể hiện ở bảng
1.4.1 (Slide 45)
Câu hỏi: Cần làm gì với Bảng số liệu này để xác định Độ tuổi
nhỏ nhất, lớn nhất và đặc điểm của các người tình nguyện
tham gia nghiên cứu
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
11
TNNC - TKTSH
DỮ LIỆU THÔ

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
12
TNNC - TKTSH
DÃY DỮ LIỆU ĐÃ ĐƯỢC SẮP XẾP

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
13
TNNC - TKTSH
NHÓM DỮ LIỆU (GROUPED DATA)
• Nhóm dữ liệu giúp tóm tắt dữ liệu
khi dữ liệu quá lớn;
• Nhóm dữ liệu thành các khoảng
dữ liệu (Interval)
• Lưu ý: cần tóm tắt vừa đủ để hiểu
thông tin nhưng không làm mất
dữ liệu

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
14
TNNC - TKTSH
VÍ DỤ

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
15
TNNC - TKTSH
NHÓM DỮ LIỆU (GROUPED DATA)
• Cách tính số khoảng dữ liệu k – Quy tắc Stuges

=> Chia thành 9 khoảng


• Cách tính độ rộng của khoảng

=> Chia thành nhóm có độ rộng 5-10

• Giá trị giữa của khoảng (midpoint) = (max+min)/2


ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
16
TNNC - TKTSH
BẢNG PHÂN BỐ TẦN SUẤT

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
17
TNNC - TKTSH
BẢNG PHÂN BỐ TẦN SUẤT
• Tần số (Frequency): số lần xuất hiện của dữ liệu
• Tần số tương đối (Relative Frequency): Tỷ lệ (số lần xuất hiện
của dữ liệu trong khoảng mong đợi)/ toàn dữ liệu
• Tần số tích lũy (Cumulative Frequency): Số lần xuất hiện của
dữ liệu ở 2 hoặc nhiều khoảng
• Tần số tương đối tích lũy (Relative Cumulative Frequency)

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
18
TNNC - TKTSH
NHÓM DỮ LIỆU (GROUPED DATA):
PHÂN BỐ TẦN SUẤT

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
19
TNNC - TKTSH
BIỂU ĐỒ THỂ HIỆN SỰ PHÂN BỐ TẦN
SUẤT
• Histogram
• Đa giác tần số (Frequency Polygon)
• Biểu đồ Thân và Lá (Stem-and-Leaf Displays)

• Trục hoành (X): Biến số đang được xem xét


• Trục tung (Y): Tần số

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
20
TNNC - TKTSH
HISTOGRAM
• 1 dạng biểu đồ cột
• Biểu thị sự phân
bố tần suất

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
21
TNNC - TKTSH
ĐA GIÁC TẦN SUẤT (FREQUENCY
POLYGON)

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
22
TNNC - TKTSH
BIỂU ĐỒ THÂN VÀ LÁ (STEM-AND-
LEAF DISPLAYS)
• Biểu thị mối tương quan mạnh với histogram và có mục đích
tương tự histogram

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
23
TNNC - TKTSH
CHỦ ĐỀ 02: THỐNG KÊ MÔ TẢ
• Đánh giá Độ tập trung dữ liệu
• Đánh giá Độ phân tán của dữ liệu
• Khảo cứu dạng của dữ liệu

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
24
TNNC - TKTSH
THỐNG KÊ MÔ TẢ
• Đánh giá Độ tập trung dữ liệu: Giá trị trung bình (mean), Trung
vị (median), Yếu vị (mode), độ lệch
• Đánh giá Độ phân tán của dữ liệu: khoảng giá trị, phương sai,
độ tự do, độ lệch chuẩn (Variance), C.V. (hệ số biến thiên),
percentiles (phần tram – bách phân vị) và quartiles (tứ phân vị),
interquatile range (khoảng giữa tứ phân – IQR), kurtosis
• Khảo cứu dạng của dữ liệu: box – and – whisker plot (Boxplot)
– Biểu đồ hình hộp

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
25
TNNC - TKTSH
GIÁ TRỊ TRUNG BÌNH - MEAN
• Công thức tính: Tổng các giá trị thu thập được từ mẫu nghiên
cứu hoặc dân số nghiên cứu chia cho số lượng các giá trị

Công thức tính Giá trị trung bình Công thức tính Giá trị trung bình cho
cho một Dân số hữu hạn một Mẫu
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
26
TNNC - TKTSH
GIÁ TRỊ TRUNG BÌNH – MEAN – ĐẶC
ĐIỂM
• Duy nhất
• Dễ tính toán – Dễ hiểu
• Tất cả các giá trị đều ảnh hưởng đến Giá trị trung bình nên các
giá trị ngoại lai có thể làm sai lệch kết quả MEAN vì đây là các
giá trị không mong đợi
• VD: chi phí PCI do 5 bác sĩ tính toán 75$, 75$, 80$, 80$ và
280$ (giá trị do tính sai)
MEAN = 118$
Giá trị 280$ có thể ảnh hưởng kết quả của MEAN
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
27
TNNC - TKTSH
TRUNG VỊ - MEDIAN
• Là Giá trị chia dãy số liệu (sắp xếp theo thứ tự từ nhỏ nhất đến
lớn nhất) thành 2 phần bằng nhau nghĩa là số lượng các giá trị
≥ TRUNG VỊ (MEDIAN) bằng với số lượng các giá trị ≤ TRUNG
VỊ (MEDIAN)
• Trung vị là:
 Giá trị thứ nếu n (số lượng các giá trị quan sát của
mẫu) là số lẻ
 Giá trị trung bình của giá trị thứ và thứ nếu n (số
lượng các giá trị quan sát của mẫu) là số chẵn
• VD: nếu mẫu có 11 giá trị thì Median = giá trị thứ 6; Nếu mẫu có
12 giá trị thì Median = giá trị thứ 6.5
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
28
TNNC - TKTSH
TRUNG VỊ - MEDIAN – ĐẶC ĐIỂM
• Duy nhất
• Dễ tính toán
• Ít bị ảnh hưởng các giá trị khác trong dãy số liệu
• Không bị ảnh hưởng bởi giá trị ngoại lai (extreme value) như
MEAN
• Nếu dữ liệu phân bố bình thường thì MEDIAN = MEAN

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
29
TNNC - TKTSH
YẾU VỊ - MODE
• Giá trị xuất hiện nhiều nhất
• Nếu số liệu không lặp lại thì không có MODE
• Một dãy số liệu có thể có hơn 1 MODE
• Có thể được sử dụng để mô tả dữ liệu định tính

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
30
TNNC - TKTSH
BÀI TẬP – TÍNH MEAN, MEDIAN, MODE,
KHOẢNG GIÁ TRỊ (cân nặng lúc sinh)
• Bảng bên dưới là cân nặng lúc sinh (gram) của trẻ sơ sinh tại
01 bệnh viện tư tại San Diego, California, được ghi nhận trong
1 tuần

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
31
TNNC - TKTSH
ĐỘ LỆCH CỦA SỰ PHÂN BỐ DỮ LIỆU
• Dữ liệu có thể phân bố đối xứng (phân bố bình thường) hoặc
không đối xứng (phân bố lệch)
• Dữ liệu phân bố lệch trái (có đuôi dài hướng về phía bên trái)
(negative skew): nếu MEAN < MODE, Giá trị Skewness < 0
• Dữ liệu phân bố lệch phải (có đuôi dài hướng về phía bên phải)
(positive skew): nếu MEAN > MODE, Giá trị Skewness > 0
• Công thức tính độ lệch (Skewness)

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
32
TNNC - TKTSH
BÀI TẬP
• Dữ liệu như sau: 5, 5, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9,
10, 10, 10, 11, 11 – Xác định độ lệch của dữ liệu

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
33
TNNC - TKTSH
BÀI TẬP
• Nhìn vào 3 hình bên dưới và tái lập lại dữ liệu các số được thể
hiện của dãy dữ liệu và tính độ lệch của dữ liệu

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
34
TNNC - TKTSH
KHOẢNG GIÁ TRỊ
• Cho biết sự phân tán của dữ liệu (scatter, spread, variation)
• Các dữ liệu khác nhau thì có độ đa dạng khác nhau; nếu không
khác biệt thì không có sự phân tán
• Mức độ phân tán nhỏ nếu dữ liệu gần nhau và ngược lại
• Khoảng giá trị (R) = Hiệu số của Giá trị lớn nhất và Nhỏ nhất

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
35
TNNC - TKTSH
BÀI TẬP – TÍNH KHOẢNG GIÁ TRỊ
• Kết quả đo nồng độ cholesterol trên cùng bệnh nhân bằng 2
phương pháp khác nhau

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
36
TNNC - TKTSH
BÁCH PHÂN VỊ - PERCENTILES
• Giá trị trung bình và giá trị trung vị là các thông số xác định vị trí dữ liệu
trên trục hoành trên biểu đồ biểu diễn sự phân bố số liệu – tham số vị trí.
• BÁCH PHÂN VỊ THỨ P trong dãy số liệu (n số liệu) x1, x2, ..xn là giá trị X
mà p% hoặc nhỏ hơn p% < p và (100-p)% hoặc nhỏ hơn các quan sát
lớn hơn p
• Ký hiệu: Pn (Bách phân vị thứ 10 – ký hiệu P10)
• Bách phân vị thứ 50 là MEDIAN
• Bách phân vị thứ p được xác định như sau trong dãy số liệu x1, x2, ..xn:
 Điểm thứ (k+1) nếu giá trị np/100 không phải là số nguyên, k là số
nguyên lớn nhất mà nhỏ hơn np/100
 Giá trị trung bình của giá trị thứ (np/100) và thứ (np/100 +1) nếu giá
trị np/100 là số nguyên
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
37
TNNC - TKTSH
TỨ PHÂN VỊ
• Chia dữ liệu (n số liệu) thành 4 phần bằng nhau
• Trung vị = Tứ phân 2 (50th phần trăm)
Q1
Q2
Q3
Q4
Trung vị

Khoảng giữa tứ phân (IQR)

Q1 Q3 Tứ phân
IQR gồm 50 % số quan sát trong dữ liệu dãy số liệu (n số liệu) x1, x2, ..xn
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
38
TNNC - TKTSH
BÁCH PHÂN VỊ – TỨ PHÂN VỊ
• Bách phân vị thứ 25, ký hiệu là P25, được gọi là tứ phân vị thứ
nhất và ký hiệu là Q1.
• Bách phân vị thứ 50 là TRUNG VỊ, ký hiệu là P50, được gọi là tứ
phân vị thứ hai, và ký hiệu là Q2.
• Bách phân vị thứ 75, ký hiệu là P75, được gọi là tứ phân vị thứ
ba, Q3.

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
39
TNNC - TKTSH
BÁCH PHÂN VỊ – TỨ PHÂN VỊ
Tứ phân vị thứ ba; bách phân vị thứ 75

Tứ phân vị thứ hai; bách phân vị thứ 50 = trung vị =


phạm vi

trung bình nếu phân phối chuẩn

Tứ phân vị thứ nhất; bách phân vị thứ 25

bình thường Lệch bên phải

ThS. DS. Nguyễn Thị Đức Hạnh. Trung vị Thống kê mô tả -Trung


Xác suấtvị– Phân bố
40
TNNC - TKTSH
trung bình
BÀI TẬP – TÍNH PERCENTILE thứ 10
và thứ 90 (cân nặng lúc sinh)
• Bảng bên dưới là cân nặng lúc sinh (gram) của trẻ sơ sinh tại
01 bệnh viện tư tại San Diego, California, được ghi nhận trong
1 tuần

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
41
TNNC - TKTSH
KHOẢNG GIỮA TỨ PHÂN VỊ (IQR)
• Khoảng giá trị có nhược điểm là chỉ tính khoảng giá trị giữa số
nhỏ nhất và lớn nhất
• Thông số để phản ảnh sự khác biệt trong khoảng ở giữa 50%
dữ liệu quan sát được gọi là Khoảng giữa tứ phân vị
• Khoảng giữa tứ phân vị (IQR) là sự khác biệt giữa tứ phân vị
thứ ba và thứ nhất

• IQR nhỏ nghĩa là các số liệu quan sát được khác biệt nhau ít.
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
42
TNNC - TKTSH
PHƯƠNG SAI CỦA MẪU
• Khi các số liệu trong dãy số liệu càng nằm gần giá trị trung bình
thì độ phân tán của dữ liệu càng ít
=> Đánh giá sự phân tán của các giá trị Xi quanh Giá trị trung
bình X bằng Thông số PHƯƠNG SAI S2 của n mẫu trong dân
số

Độ phân tán nhỏ

Độ phân tán lớn

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
43
X TNNC - TKTSH
BẬC TỰ DO
• Mẫu có n giá trị
• Bậc tự do = n-1
• Nếu áp dụng cho Dân số hữu hạn N giá trị thì

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
44
TNNC - TKTSH
ĐỘ LỆCH CHUẨN
• Đánh giá sự khác biệt trong dữ liệu

• Sử dụng thay thế Phương sai (giá trị bình phương) khi muốn
thể hiện theo đơn vị giá trị ban đầu

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
45
TNNC - TKTSH
BÀI TẬP – TÍNH PHƯƠNG SAI/ ĐỘ
LỆCH CHUẨN
• Kết quả đo nồng độ cholesterol trên cùng bệnh nhân bằng 2
phương pháp khác nhau

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
46
TNNC - TKTSH
HỆ SỐ BIẾN THIÊN – COEFFICIENT
OF VARIATION

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
47
TNNC - TKTSH
ĐẶT VẤN ĐỀ
• Phương sai và độ lệch chuẩn được dùng để đánh giá sự phân
tán của 1 bộ dữ liệu; tuy nhiên không thể dùng để so sánh giữa
2 bộ dữ liệu khác nhau vì sẽ dẫn đến sai lệch kết quả.
• Nguyên nhân có thể do khác biệt về đơn vị đo lường – vd cân
nặng, chiều cao, nồng đô cholesterol
• Tuy nhiên, ngay cả khi cùng đơn vị đo thì vẫn không thể có kết
luận phù hợp khi so sánh 2 bộ dữ liệu khác nhau. Vd không thể
so sánh độ lệch chuẩn về cân nặng của trẻ em lớp 01 và học
sinh lớp 06 vì SD của dữ liệu học sinh lớp 06 sẽ lớn hơn SD
của học sinh lớp 01 (về mặt con số thì cân năng của trẻ lớp 06
lớn hơn trẻ lớp 01)
Sử dụng C.V
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
48
TNNC - TKTSH
HỆ SỐ BIẾN THIÊN – COEFFICIENT
OF VARIATION
• So sánh sự phân tán dữ liệu trong 2 bộ dữ liệu
• Không phụ thuộc vào đơn vị đo lường của bộ dữ liệu

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
49
TNNC - TKTSH
BÀI TẬP – TÍNH PHƯƠNG SAI, ĐỘ
LỆCH CHUẨN, C.V
• Bảng bên dưới là cân nặng lúc sinh (gram) của trẻ sơ sinh tại
01 bệnh viện tư tại San Diego, California, được ghi nhận trong
1 tuần

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
50
TNNC - TKTSH
KURTOSIS
• Đánh giá mức độ mà 1 phân bố “có đỉnh” hoặc “phẳng” so với
phân bố bình thường
• Phân bố bình thường là phân bố có dạng hình chuông

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
51
TNNC - TKTSH
KURTOSIS
• Platykurtic: Phân bố có đuôi chủ yếu, không có đỉnh rõ, Kurtosis < 0
• Leptokurtic: Phân bố có đuôi, có đỉnh rõ, Kurtosis > 0
• Mesokurtic: Phân bố hình chuông, phân bố bình thường, Kurtosis = 0

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
52
TNNC - TKTSH
PHƯƠNG PHÁP ĐỒ THỊ

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
53
TNNC - TKTSH
BOX AND WHISKER PLOT
• Phương pháp hình ảnh hữu ích để mô tả bộ dữ liệu
• Tên gọi khác: Boxplot
• Chia bộ dữ liệu thành các tứ phân vị

Q2
Q1 Q3

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
54
TNNC - TKTSH
BOX AND WHISKER PLOT

• Đồ thị Box-and-Whisker cho thấy thông tin liên quan đến mức
độ phân phối, vị trí tập trung dữ liệu và tính đối xứng của dữ
liệu.

Q2
Q1 Q3

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
55
TNNC - TKTSH
1. Trục hoành: biến số quan tâm
2. Vẽ một hình hộp trên trục hoành sao cho đầu bên trái của hình
hộp thẳng hàng với tứ phân vị thứ nhất Q1 và đầu bên phải của
hình hộp thẳng hàng với tứ phân vị thứ ba Q3.
3. Chia hình hộp thành hai phần bằng một đường thẳng đứng
thẳng hàng với trung vị Q2.
4. Vẽ một đường ngang (whisker) từ đầu bên trái của hình hộp
đến điểm thẳng hàng với giá trị nhỏ nhất trong dữ liệu.
5. Vẽ một đường ngang khác (whisker) từ đầu bên phải của hình
hộp đến điểm thẳng hàng với giá trị lớn nhất trong tập dữ liệu.
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
56
TNNC - TKTSH
BÀI TẬP
• Tính Q1, Q2, Q3 và vẽ Boxplot

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
57
TNNC - TKTSH
OUTLIER – GIÁ TRỊ NGOẠI LỆ
• Là giá trị quan sát được, x, và

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
58
TNNC - TKTSH
OUTLIER – GIÁ TRỊ NGOẠI LỆ

Ngoại lệ cách xa: > 3 IQR quá tứ phân thứ ba

Ngoại lệ: > 1.5 IQR quá tứ phân thứ ba *

3
Khoảng giữa tứ phân (IQR) Trung vị
1
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
59
TNNC - TKTSH
OUTLIER – GIÁ TRỊ NGOẠI LỆ
30

20

90
10

Tối đa
0 80
50.0 55.0 60.0 65.0 70.0 75.0 80.0

30
CHF

70

Trung vị
20

10 60

0
28
43
13
45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 90.0
20
50

Tối thiểu
HTN

40
10 N= 45 45 45

CHF HTN DM

ThS. DS. Nguyễn Thị Đức Hạnh. 0


Thống kê mô tả - Xác suất – Phân bố
50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 90.0 60
DM TNNC - TKTSH
CHỦ ĐỀ 03: XÁC SUẤT – PHÂN BỐ
XÁC SUẤT
• Đánh giá Độ tập trung dữ liệu
• Đánh giá Độ phân tán của dữ liệu

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
61
TNNC - TKTSH
XÁC SUẤT – PHÂN BỐ XÁC SUẤT
• Xác suất của biến cố là tần số tương đối xảy ra biến cố trong
dân số thử nghiệm.
• Phân bố xác suất
- Phân bố xác suất biến rời rạc: Phân bố nhị phân, Phân bố
Poisson
- Phân bố xác suất biến liên tục
- Phân bố bình thường
• Khoảng tin cậy

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
Chapter TNNC
04 - TKTSH 62
PHÂN BỐ XÁC SUẤT BIẾN RỜI RẠC
• Phân bố xác suất của các biến ngẫu nhiên rời rạc có thể được
thể hiện dưới dạng bảng, đồ thị, … nhằm xác định tất cả các
giá trị có thể xuất hiện của biến số ngẫu nhiên rời rạc (x) cùng
với xác xuất tương ứng của biến (p (x))
• Nếu phân bố xác suất biến rời rạc là p(x), thì p(x) = P(X=x) là
xác suất để biến rời rạc X nhận giá trị x
• Giá trị trung bình và Phương sai:

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
63
TNNC - TKTSH
VÍ DỤ
• Tần suất sử dụng 1 chương trình hỗ trợ chăm sóc trẻ em bởi
các hộ gia đình được thể hiện ở bảng sau
• Tính xác suất sử dụng của các chương trình?

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
64
TNNC - TKTSH
ĐỒ THỊ BIỂU DIỄN
SỰ PHÂN BỐ XÁC SUẤT

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
65
TNNC - TKTSH
PHÂN BỐ NHỊ PHÂN
• Phân bố xác suất thường được sử dụng rộng rãi nhất trong
thống kê ứng dụng
• Có nguồn gốc từ Thử nghiệm Bernoulli
• Điều kiện của Thử nghiệm Bernoulli:
 Mỗi thử nghiệm có 2 cơ hội: thành công, thất bại
 Xác xuất thành công, ký hiệu là p, là hằng định trong tất cả
các thử nghiệm. Xác suất thất bại, 1-p, được ký hiệu là q
 Các thử nghiệm độc lập với nhau

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
66
TNNC - TKTSH
PHÂN BỐ NHỊ PHÂN

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
67
TNNC - TKTSH
PHÂN BỐ POISSON
• Phân bố rời rạc
• Được sử dụng rộng rãi trong sinh học và y học
• Đặc điểm:
• Các biến cố xảy ra độc lập
• Xác suất xảy ra 1 biến cố trong 1 khoảng thời gian xác định
là tỷ lệ với thời gian
• Sử dụng Mô hình Poisson khi các biến cố phân bố ngẫu nhiên
theo thời gian và địa điểm

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
68
TNNC - TKTSH
PHÂN BỐ XÁC SUẤT BIẾN LIÊN TỤC
• Phân bố của các biến
ngẫu nhiên liên tục
• Biến liên tục: biến có thể
nhận bất kỳ giá trị nào
trong khoảng giá trị dự
đoán của biến số đó
• Khi n (giá trị ở cột Ox) tiến
về vô cực thì khoảng cách
giữa 2 giá trị liên tiếp tiến
về zero.
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
69
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG
• Tên gọi khác: phân bố Gaussian

• Hàm mật độ phân bố bình thường

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
70
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG
• Tên gọi khác: phân bố Gaussian
• Đặc điểm:
 Đối xứng quanh giá trị trung bình, μ
 MEAN = MEDIAN = MODE
 Tổng diện tích dưới đường cong trên trục X: = 1 đơn vị bình
phương.
 Được xác định bởi μ (GIÁ TRỊ TRUNG BÌNH) (tham số vị
trí) và σ (ĐỘ LỆCH CHUẨN) (tham số hình dạng)

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
71
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG

• 68% giá trị quan sát nằm trong khoảng 1σ của μ.


• 95% giá trị quan sát nằm trong khoảng 2σ của μ.
• 99,7% giá trị quan sát nằm trong khoảng 3σ của μ.

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
72
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG
• Giá trị μ khác nhau sẽ dịch chuyển vị trí của đồ thị trên trục
hoành

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
73
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG
• Giá trị σ khác nhau sẽ xác định độ tù hoặc nhọn của đồ thị biểu
diễn phân bố xác suất

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
74
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG CHUẨN
• Giá trị trung bình = 0, Độ lệch chuẩn = 1

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
75
TNNC - TKTSH
CẢM ƠN CÁC BẠN

ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
76
TNNC - TKTSH

You might also like