Professional Documents
Culture Documents
NTD Hanh - Buoi3-4 - Thong Ke Mo Ta Xac Suat Phan Bo Xac Suat
NTD Hanh - Buoi3-4 - Thong Ke Mo Ta Xac Suat Phan Bo Xac Suat
THỐNG KÊ MÔ TẢ
- XÁC SUẤT – PHÂN BỐ XÁC SUẤT
Chương trình Dược sĩ Đại học – Sinh viên năm 3
Buổi học 3-4 – (6 tiết)
Email: ntd.hanh@hutech.edu.vn
Điện thoại: (028) 5449 9968
TÀI LIỆU THAM KHẢO
Tài liệu đọc chính
• Slide bài giảng
• Wayne W. Daniel, Chad L. Cross (2013). Biostatistics, A
Foundation for Analysis in the Health Sciences. Wiley. Chapter.
2, 4.
Tài liệu đọc thêm
• Bernard Rosner (2015). Fundamentals of Biostatistics.
Cengage learning.
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
2
TNNC - TKTSH
MỤC TIÊU HỌC TẬP
• Cung cấp cho sinh viên kiến thức, kỹ năng, thái độ về thống
kê mô tả, xác xuất và phân bố
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
3
TNNC - TKTSH
CHUẨN ĐẦU RA BÀI BUỔI HỌC
• Trình bày được vai trò của Thống kê mô tả
• Đánh giá được dữ liệu có được sắp xếp hợp lý hay không
• Tính toán được và giải thích được các Thông số liên quan để
Đánh giá Độ tập trung của dữ liệu và Độ phân tán của dữ liệu
• Trình bày được về Phân bố rời rạc và Phân bố liên tục; Và Biết
cách áp dụng để tính xác suất trong các tình huống thực tế
• Giải thích và so sánh được các điểm giống và khác nhau giữa
Phân bố rời rạc và Phân bố liên tục và lựa chọn được Cách áp
dụng.
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
4
TNNC - TKTSH
HƯỚNG DẪN SINH VIÊN TỰ HỌC
• Tài liệu cần đọc:
- Slide bài giảng
• Tài liệu cần xem online, website
- Wayne W. Daniel, Chad L. Cross (2013). Biostatistics, A
Foundation for Analysis in the Health Sciences. Wiley. Chapter. 2, 4.
• Phần mềm cần cài đặt
- Minitab 19.0
• Câu hỏi, bài tập cần trả lời
- Bài tập trong slide
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
5
TNNC - TKTSH
Nội dung các chủ đề buổi học
• CHỦ ĐỀ 1: DÃY DỮ LIỆU – NHÓM DỮ LIỆU
• CHỦ ĐỀ 2: THỐNG KÊ MÔ TẢ
• CHỦ ĐỀ 3: XÁC SUẤT – PHÂN BỐ XÁC SUẤT
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
TNNC - TKTSH 6
CHỦ ĐỀ 01:
DÃY DỮ LIỆU – NHÓM DỮ LIỆU
• Dãy dữ liệu đã được sắp xếp
• Nhóm dữ liệu
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
7
TNNC - TKTSH
CASE STUDY
• Một số nhà nghiên cứu đưa ra giả thuyết là bổ sung vitamin A
giúp phòng ngừa ung thư.
• Để kiểm chứng giả thuyết này, nhà nghiên cứu cần sử dụng 1
bộ câu hỏi để thu thập dữ liệu về việc sử dụng vit A ở 200 bệnh
nhân ung thư nằm viện và 200 bệnh nhân không sử dụng vit A
(nhóm chứng). 2 nhóm nghiên cứu cùng độ tuổi – giới tính, dữ
liệu được thu thập vào cùng thời điểm.
• Câu hỏi đặt ra : Cần làm gì sau khi thu thập xong dữ liệu?
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
8
TNNC - TKTSH
DỮ LIỆU THÔ
• Dữ liệu thô: Dữ liệu bao gồm các biến số ngẫu nhiên được thu thập
trong toàn bộ dân số; chưa được tổ chức, tóm tắt hoặc xử lý
• Dữ liệu thô không có khả năng truyền đạt nhiều thông tin cho
đến khi được xếp theo một loại trật tự nào đó; trừ khi số lượng
quan sát là vô cùng nhỏ.
Cần một số kỹ thuật tổ chức và tóm tắt dữ liệu để có thể dễ
dàng xác định thông tin nào từ các dữ liệu thô.
Trước khi thực hiện bất kỳ bước nào để trả lời câu hỏi nghiên cứu
thì cần mô tả dữ liệu (tính toán các giá trị đo lường, đánh giá dữ
liệu).
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
9
TNNC - TKTSH
DÃY DỮ LIỆU
• Bước đầu tiên trong quản lý dữ liệu thu thập là sắp xếp dãy dữ
liệu theo trật tự.
• Dãy dữ liệu: Dãy số liệu (thu thập từ mẫu nghiên cứu hoặc từ
dân số) được sắp xếp theo thứ tự từ giá trị nhỏ nhất đến giá trị
lớn nhất.
• Dãy dữ liệu đã được sắp xếp: giúp xác định nhanh giá trị nhỏ
nhất, giá trị lớn nhất, các đặc điểm khác
• Có thể sử dụng máy tính để thực hiện việc sắp xếp dữ liệu vì số
lượng các giá trị nhiều – không thể thực hiện thủ công.
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
10
TNNC - TKTSH
VÍ DỤ
• Một nghiên cứu được thực hiện để khảo sát hiệu quả giúp cai
thuốc lá của N= 189 người tình nguyện khỏe mạnh tham gia
vào 1 trong 3 nhóm sau:
- Nhóm 1: bupropion SR
- Nhóm 2: miếng dán nicotine
- Nhóm 3: bupropion SR + miếng dán nicotine
kèm với liệu pháp thay đổi nhận thức – hành vi
Dữ liệu thu thập được từ nghiên cứu viên được thể hiện ở bảng
1.4.1 (Slide 45)
Câu hỏi: Cần làm gì với Bảng số liệu này để xác định Độ tuổi
nhỏ nhất, lớn nhất và đặc điểm của các người tình nguyện
tham gia nghiên cứu
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
11
TNNC - TKTSH
DỮ LIỆU THÔ
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
12
TNNC - TKTSH
DÃY DỮ LIỆU ĐÃ ĐƯỢC SẮP XẾP
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
13
TNNC - TKTSH
NHÓM DỮ LIỆU (GROUPED DATA)
• Nhóm dữ liệu giúp tóm tắt dữ liệu
khi dữ liệu quá lớn;
• Nhóm dữ liệu thành các khoảng
dữ liệu (Interval)
• Lưu ý: cần tóm tắt vừa đủ để hiểu
thông tin nhưng không làm mất
dữ liệu
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
14
TNNC - TKTSH
VÍ DỤ
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
15
TNNC - TKTSH
NHÓM DỮ LIỆU (GROUPED DATA)
• Cách tính số khoảng dữ liệu k – Quy tắc Stuges
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
17
TNNC - TKTSH
BẢNG PHÂN BỐ TẦN SUẤT
• Tần số (Frequency): số lần xuất hiện của dữ liệu
• Tần số tương đối (Relative Frequency): Tỷ lệ (số lần xuất hiện
của dữ liệu trong khoảng mong đợi)/ toàn dữ liệu
• Tần số tích lũy (Cumulative Frequency): Số lần xuất hiện của
dữ liệu ở 2 hoặc nhiều khoảng
• Tần số tương đối tích lũy (Relative Cumulative Frequency)
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
18
TNNC - TKTSH
NHÓM DỮ LIỆU (GROUPED DATA):
PHÂN BỐ TẦN SUẤT
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
19
TNNC - TKTSH
BIỂU ĐỒ THỂ HIỆN SỰ PHÂN BỐ TẦN
SUẤT
• Histogram
• Đa giác tần số (Frequency Polygon)
• Biểu đồ Thân và Lá (Stem-and-Leaf Displays)
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
20
TNNC - TKTSH
HISTOGRAM
• 1 dạng biểu đồ cột
• Biểu thị sự phân
bố tần suất
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
21
TNNC - TKTSH
ĐA GIÁC TẦN SUẤT (FREQUENCY
POLYGON)
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
22
TNNC - TKTSH
BIỂU ĐỒ THÂN VÀ LÁ (STEM-AND-
LEAF DISPLAYS)
• Biểu thị mối tương quan mạnh với histogram và có mục đích
tương tự histogram
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
23
TNNC - TKTSH
CHỦ ĐỀ 02: THỐNG KÊ MÔ TẢ
• Đánh giá Độ tập trung dữ liệu
• Đánh giá Độ phân tán của dữ liệu
• Khảo cứu dạng của dữ liệu
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
24
TNNC - TKTSH
THỐNG KÊ MÔ TẢ
• Đánh giá Độ tập trung dữ liệu: Giá trị trung bình (mean), Trung
vị (median), Yếu vị (mode), độ lệch
• Đánh giá Độ phân tán của dữ liệu: khoảng giá trị, phương sai,
độ tự do, độ lệch chuẩn (Variance), C.V. (hệ số biến thiên),
percentiles (phần tram – bách phân vị) và quartiles (tứ phân vị),
interquatile range (khoảng giữa tứ phân – IQR), kurtosis
• Khảo cứu dạng của dữ liệu: box – and – whisker plot (Boxplot)
– Biểu đồ hình hộp
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
25
TNNC - TKTSH
GIÁ TRỊ TRUNG BÌNH - MEAN
• Công thức tính: Tổng các giá trị thu thập được từ mẫu nghiên
cứu hoặc dân số nghiên cứu chia cho số lượng các giá trị
Công thức tính Giá trị trung bình Công thức tính Giá trị trung bình cho
cho một Dân số hữu hạn một Mẫu
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
26
TNNC - TKTSH
GIÁ TRỊ TRUNG BÌNH – MEAN – ĐẶC
ĐIỂM
• Duy nhất
• Dễ tính toán – Dễ hiểu
• Tất cả các giá trị đều ảnh hưởng đến Giá trị trung bình nên các
giá trị ngoại lai có thể làm sai lệch kết quả MEAN vì đây là các
giá trị không mong đợi
• VD: chi phí PCI do 5 bác sĩ tính toán 75$, 75$, 80$, 80$ và
280$ (giá trị do tính sai)
MEAN = 118$
Giá trị 280$ có thể ảnh hưởng kết quả của MEAN
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
27
TNNC - TKTSH
TRUNG VỊ - MEDIAN
• Là Giá trị chia dãy số liệu (sắp xếp theo thứ tự từ nhỏ nhất đến
lớn nhất) thành 2 phần bằng nhau nghĩa là số lượng các giá trị
≥ TRUNG VỊ (MEDIAN) bằng với số lượng các giá trị ≤ TRUNG
VỊ (MEDIAN)
• Trung vị là:
Giá trị thứ nếu n (số lượng các giá trị quan sát của
mẫu) là số lẻ
Giá trị trung bình của giá trị thứ và thứ nếu n (số
lượng các giá trị quan sát của mẫu) là số chẵn
• VD: nếu mẫu có 11 giá trị thì Median = giá trị thứ 6; Nếu mẫu có
12 giá trị thì Median = giá trị thứ 6.5
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
28
TNNC - TKTSH
TRUNG VỊ - MEDIAN – ĐẶC ĐIỂM
• Duy nhất
• Dễ tính toán
• Ít bị ảnh hưởng các giá trị khác trong dãy số liệu
• Không bị ảnh hưởng bởi giá trị ngoại lai (extreme value) như
MEAN
• Nếu dữ liệu phân bố bình thường thì MEDIAN = MEAN
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
29
TNNC - TKTSH
YẾU VỊ - MODE
• Giá trị xuất hiện nhiều nhất
• Nếu số liệu không lặp lại thì không có MODE
• Một dãy số liệu có thể có hơn 1 MODE
• Có thể được sử dụng để mô tả dữ liệu định tính
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
30
TNNC - TKTSH
BÀI TẬP – TÍNH MEAN, MEDIAN, MODE,
KHOẢNG GIÁ TRỊ (cân nặng lúc sinh)
• Bảng bên dưới là cân nặng lúc sinh (gram) của trẻ sơ sinh tại
01 bệnh viện tư tại San Diego, California, được ghi nhận trong
1 tuần
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
31
TNNC - TKTSH
ĐỘ LỆCH CỦA SỰ PHÂN BỐ DỮ LIỆU
• Dữ liệu có thể phân bố đối xứng (phân bố bình thường) hoặc
không đối xứng (phân bố lệch)
• Dữ liệu phân bố lệch trái (có đuôi dài hướng về phía bên trái)
(negative skew): nếu MEAN < MODE, Giá trị Skewness < 0
• Dữ liệu phân bố lệch phải (có đuôi dài hướng về phía bên phải)
(positive skew): nếu MEAN > MODE, Giá trị Skewness > 0
• Công thức tính độ lệch (Skewness)
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
32
TNNC - TKTSH
BÀI TẬP
• Dữ liệu như sau: 5, 5, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9,
10, 10, 10, 11, 11 – Xác định độ lệch của dữ liệu
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
33
TNNC - TKTSH
BÀI TẬP
• Nhìn vào 3 hình bên dưới và tái lập lại dữ liệu các số được thể
hiện của dãy dữ liệu và tính độ lệch của dữ liệu
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
34
TNNC - TKTSH
KHOẢNG GIÁ TRỊ
• Cho biết sự phân tán của dữ liệu (scatter, spread, variation)
• Các dữ liệu khác nhau thì có độ đa dạng khác nhau; nếu không
khác biệt thì không có sự phân tán
• Mức độ phân tán nhỏ nếu dữ liệu gần nhau và ngược lại
• Khoảng giá trị (R) = Hiệu số của Giá trị lớn nhất và Nhỏ nhất
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
35
TNNC - TKTSH
BÀI TẬP – TÍNH KHOẢNG GIÁ TRỊ
• Kết quả đo nồng độ cholesterol trên cùng bệnh nhân bằng 2
phương pháp khác nhau
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
36
TNNC - TKTSH
BÁCH PHÂN VỊ - PERCENTILES
• Giá trị trung bình và giá trị trung vị là các thông số xác định vị trí dữ liệu
trên trục hoành trên biểu đồ biểu diễn sự phân bố số liệu – tham số vị trí.
• BÁCH PHÂN VỊ THỨ P trong dãy số liệu (n số liệu) x1, x2, ..xn là giá trị X
mà p% hoặc nhỏ hơn p% < p và (100-p)% hoặc nhỏ hơn các quan sát
lớn hơn p
• Ký hiệu: Pn (Bách phân vị thứ 10 – ký hiệu P10)
• Bách phân vị thứ 50 là MEDIAN
• Bách phân vị thứ p được xác định như sau trong dãy số liệu x1, x2, ..xn:
Điểm thứ (k+1) nếu giá trị np/100 không phải là số nguyên, k là số
nguyên lớn nhất mà nhỏ hơn np/100
Giá trị trung bình của giá trị thứ (np/100) và thứ (np/100 +1) nếu giá
trị np/100 là số nguyên
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
37
TNNC - TKTSH
TỨ PHÂN VỊ
• Chia dữ liệu (n số liệu) thành 4 phần bằng nhau
• Trung vị = Tứ phân 2 (50th phần trăm)
Q1
Q2
Q3
Q4
Trung vị
Q1 Q3 Tứ phân
IQR gồm 50 % số quan sát trong dữ liệu dãy số liệu (n số liệu) x1, x2, ..xn
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
38
TNNC - TKTSH
BÁCH PHÂN VỊ – TỨ PHÂN VỊ
• Bách phân vị thứ 25, ký hiệu là P25, được gọi là tứ phân vị thứ
nhất và ký hiệu là Q1.
• Bách phân vị thứ 50 là TRUNG VỊ, ký hiệu là P50, được gọi là tứ
phân vị thứ hai, và ký hiệu là Q2.
• Bách phân vị thứ 75, ký hiệu là P75, được gọi là tứ phân vị thứ
ba, Q3.
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
39
TNNC - TKTSH
BÁCH PHÂN VỊ – TỨ PHÂN VỊ
Tứ phân vị thứ ba; bách phân vị thứ 75
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
41
TNNC - TKTSH
KHOẢNG GIỮA TỨ PHÂN VỊ (IQR)
• Khoảng giá trị có nhược điểm là chỉ tính khoảng giá trị giữa số
nhỏ nhất và lớn nhất
• Thông số để phản ảnh sự khác biệt trong khoảng ở giữa 50%
dữ liệu quan sát được gọi là Khoảng giữa tứ phân vị
• Khoảng giữa tứ phân vị (IQR) là sự khác biệt giữa tứ phân vị
thứ ba và thứ nhất
• IQR nhỏ nghĩa là các số liệu quan sát được khác biệt nhau ít.
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
42
TNNC - TKTSH
PHƯƠNG SAI CỦA MẪU
• Khi các số liệu trong dãy số liệu càng nằm gần giá trị trung bình
thì độ phân tán của dữ liệu càng ít
=> Đánh giá sự phân tán của các giá trị Xi quanh Giá trị trung
bình X bằng Thông số PHƯƠNG SAI S2 của n mẫu trong dân
số
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
43
X TNNC - TKTSH
BẬC TỰ DO
• Mẫu có n giá trị
• Bậc tự do = n-1
• Nếu áp dụng cho Dân số hữu hạn N giá trị thì
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
44
TNNC - TKTSH
ĐỘ LỆCH CHUẨN
• Đánh giá sự khác biệt trong dữ liệu
• Sử dụng thay thế Phương sai (giá trị bình phương) khi muốn
thể hiện theo đơn vị giá trị ban đầu
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
45
TNNC - TKTSH
BÀI TẬP – TÍNH PHƯƠNG SAI/ ĐỘ
LỆCH CHUẨN
• Kết quả đo nồng độ cholesterol trên cùng bệnh nhân bằng 2
phương pháp khác nhau
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
46
TNNC - TKTSH
HỆ SỐ BIẾN THIÊN – COEFFICIENT
OF VARIATION
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
47
TNNC - TKTSH
ĐẶT VẤN ĐỀ
• Phương sai và độ lệch chuẩn được dùng để đánh giá sự phân
tán của 1 bộ dữ liệu; tuy nhiên không thể dùng để so sánh giữa
2 bộ dữ liệu khác nhau vì sẽ dẫn đến sai lệch kết quả.
• Nguyên nhân có thể do khác biệt về đơn vị đo lường – vd cân
nặng, chiều cao, nồng đô cholesterol
• Tuy nhiên, ngay cả khi cùng đơn vị đo thì vẫn không thể có kết
luận phù hợp khi so sánh 2 bộ dữ liệu khác nhau. Vd không thể
so sánh độ lệch chuẩn về cân nặng của trẻ em lớp 01 và học
sinh lớp 06 vì SD của dữ liệu học sinh lớp 06 sẽ lớn hơn SD
của học sinh lớp 01 (về mặt con số thì cân năng của trẻ lớp 06
lớn hơn trẻ lớp 01)
Sử dụng C.V
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
48
TNNC - TKTSH
HỆ SỐ BIẾN THIÊN – COEFFICIENT
OF VARIATION
• So sánh sự phân tán dữ liệu trong 2 bộ dữ liệu
• Không phụ thuộc vào đơn vị đo lường của bộ dữ liệu
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
49
TNNC - TKTSH
BÀI TẬP – TÍNH PHƯƠNG SAI, ĐỘ
LỆCH CHUẨN, C.V
• Bảng bên dưới là cân nặng lúc sinh (gram) của trẻ sơ sinh tại
01 bệnh viện tư tại San Diego, California, được ghi nhận trong
1 tuần
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
50
TNNC - TKTSH
KURTOSIS
• Đánh giá mức độ mà 1 phân bố “có đỉnh” hoặc “phẳng” so với
phân bố bình thường
• Phân bố bình thường là phân bố có dạng hình chuông
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
51
TNNC - TKTSH
KURTOSIS
• Platykurtic: Phân bố có đuôi chủ yếu, không có đỉnh rõ, Kurtosis < 0
• Leptokurtic: Phân bố có đuôi, có đỉnh rõ, Kurtosis > 0
• Mesokurtic: Phân bố hình chuông, phân bố bình thường, Kurtosis = 0
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
52
TNNC - TKTSH
PHƯƠNG PHÁP ĐỒ THỊ
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
53
TNNC - TKTSH
BOX AND WHISKER PLOT
• Phương pháp hình ảnh hữu ích để mô tả bộ dữ liệu
• Tên gọi khác: Boxplot
• Chia bộ dữ liệu thành các tứ phân vị
Q2
Q1 Q3
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
54
TNNC - TKTSH
BOX AND WHISKER PLOT
• Đồ thị Box-and-Whisker cho thấy thông tin liên quan đến mức
độ phân phối, vị trí tập trung dữ liệu và tính đối xứng của dữ
liệu.
Q2
Q1 Q3
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
55
TNNC - TKTSH
1. Trục hoành: biến số quan tâm
2. Vẽ một hình hộp trên trục hoành sao cho đầu bên trái của hình
hộp thẳng hàng với tứ phân vị thứ nhất Q1 và đầu bên phải của
hình hộp thẳng hàng với tứ phân vị thứ ba Q3.
3. Chia hình hộp thành hai phần bằng một đường thẳng đứng
thẳng hàng với trung vị Q2.
4. Vẽ một đường ngang (whisker) từ đầu bên trái của hình hộp
đến điểm thẳng hàng với giá trị nhỏ nhất trong dữ liệu.
5. Vẽ một đường ngang khác (whisker) từ đầu bên phải của hình
hộp đến điểm thẳng hàng với giá trị lớn nhất trong tập dữ liệu.
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
56
TNNC - TKTSH
BÀI TẬP
• Tính Q1, Q2, Q3 và vẽ Boxplot
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
57
TNNC - TKTSH
OUTLIER – GIÁ TRỊ NGOẠI LỆ
• Là giá trị quan sát được, x, và
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
58
TNNC - TKTSH
OUTLIER – GIÁ TRỊ NGOẠI LỆ
3
Khoảng giữa tứ phân (IQR) Trung vị
1
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
59
TNNC - TKTSH
OUTLIER – GIÁ TRỊ NGOẠI LỆ
30
20
90
10
Tối đa
0 80
50.0 55.0 60.0 65.0 70.0 75.0 80.0
30
CHF
70
Trung vị
20
10 60
0
28
43
13
45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 90.0
20
50
Tối thiểu
HTN
40
10 N= 45 45 45
CHF HTN DM
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
61
TNNC - TKTSH
XÁC SUẤT – PHÂN BỐ XÁC SUẤT
• Xác suất của biến cố là tần số tương đối xảy ra biến cố trong
dân số thử nghiệm.
• Phân bố xác suất
- Phân bố xác suất biến rời rạc: Phân bố nhị phân, Phân bố
Poisson
- Phân bố xác suất biến liên tục
- Phân bố bình thường
• Khoảng tin cậy
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
Chapter TNNC
04 - TKTSH 62
PHÂN BỐ XÁC SUẤT BIẾN RỜI RẠC
• Phân bố xác suất của các biến ngẫu nhiên rời rạc có thể được
thể hiện dưới dạng bảng, đồ thị, … nhằm xác định tất cả các
giá trị có thể xuất hiện của biến số ngẫu nhiên rời rạc (x) cùng
với xác xuất tương ứng của biến (p (x))
• Nếu phân bố xác suất biến rời rạc là p(x), thì p(x) = P(X=x) là
xác suất để biến rời rạc X nhận giá trị x
• Giá trị trung bình và Phương sai:
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
63
TNNC - TKTSH
VÍ DỤ
• Tần suất sử dụng 1 chương trình hỗ trợ chăm sóc trẻ em bởi
các hộ gia đình được thể hiện ở bảng sau
• Tính xác suất sử dụng của các chương trình?
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
64
TNNC - TKTSH
ĐỒ THỊ BIỂU DIỄN
SỰ PHÂN BỐ XÁC SUẤT
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
65
TNNC - TKTSH
PHÂN BỐ NHỊ PHÂN
• Phân bố xác suất thường được sử dụng rộng rãi nhất trong
thống kê ứng dụng
• Có nguồn gốc từ Thử nghiệm Bernoulli
• Điều kiện của Thử nghiệm Bernoulli:
Mỗi thử nghiệm có 2 cơ hội: thành công, thất bại
Xác xuất thành công, ký hiệu là p, là hằng định trong tất cả
các thử nghiệm. Xác suất thất bại, 1-p, được ký hiệu là q
Các thử nghiệm độc lập với nhau
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
66
TNNC - TKTSH
PHÂN BỐ NHỊ PHÂN
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
67
TNNC - TKTSH
PHÂN BỐ POISSON
• Phân bố rời rạc
• Được sử dụng rộng rãi trong sinh học và y học
• Đặc điểm:
• Các biến cố xảy ra độc lập
• Xác suất xảy ra 1 biến cố trong 1 khoảng thời gian xác định
là tỷ lệ với thời gian
• Sử dụng Mô hình Poisson khi các biến cố phân bố ngẫu nhiên
theo thời gian và địa điểm
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
68
TNNC - TKTSH
PHÂN BỐ XÁC SUẤT BIẾN LIÊN TỤC
• Phân bố của các biến
ngẫu nhiên liên tục
• Biến liên tục: biến có thể
nhận bất kỳ giá trị nào
trong khoảng giá trị dự
đoán của biến số đó
• Khi n (giá trị ở cột Ox) tiến
về vô cực thì khoảng cách
giữa 2 giá trị liên tiếp tiến
về zero.
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
69
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG
• Tên gọi khác: phân bố Gaussian
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
70
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG
• Tên gọi khác: phân bố Gaussian
• Đặc điểm:
Đối xứng quanh giá trị trung bình, μ
MEAN = MEDIAN = MODE
Tổng diện tích dưới đường cong trên trục X: = 1 đơn vị bình
phương.
Được xác định bởi μ (GIÁ TRỊ TRUNG BÌNH) (tham số vị
trí) và σ (ĐỘ LỆCH CHUẨN) (tham số hình dạng)
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
71
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
72
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG
• Giá trị μ khác nhau sẽ dịch chuyển vị trí của đồ thị trên trục
hoành
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
73
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG
• Giá trị σ khác nhau sẽ xác định độ tù hoặc nhọn của đồ thị biểu
diễn phân bố xác suất
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
74
TNNC - TKTSH
PHÂN BỐ BÌNH THƯỜNG CHUẨN
• Giá trị trung bình = 0, Độ lệch chuẩn = 1
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
75
TNNC - TKTSH
CẢM ƠN CÁC BẠN
ThS. DS. Nguyễn Thị Đức Hạnh. Thống kê mô tả - Xác suất – Phân bố
76
TNNC - TKTSH