Professional Documents
Culture Documents
Tổng quan về thống kê: Nguyễn Thị Mộng Ngọc University of Science, VNU - HCM
Tổng quan về thống kê: Nguyễn Thị Mộng Ngọc University of Science, VNU - HCM
XSTK XSTK
XSTK XSTK
N.T. M. Ngọc Các loại thang đo N.T. M. Ngọc Phân loại dữ liệu
• Dữ liệu định tính: thu thập từ thang đo danh nghĩa
• Thang đo danh nghĩa: dùng để phân loại và thứ bậc ⇒ không tính được trị trung bình.
• Thang đo thứ bậc: phản ánh sự hơn kém; • Dữ liệu định lượng: thu thập từ thang đo khoảng
cách và tỷ lệ ⇒ tính được trị trung bình.
dùng cho biến định tính, để xếp hạng hay sắp
xếp theo thứ tự giá trị một biến theo một đậc
tính cụ thể.
• Thang đo khoảng : phản ánh mức độ hơn
kém; dùng cho biến định lượng; cung cấp mối
quan hệ thứ bậc như thang đo định hạng.
• Thang đo tỷ lệ: phản ánh mức độ hơn kém và
so sánh tỷ lệ; dùng cho biến định lượng.
XSTK XSTK
N.T. M. Ngọc Các nhánh của thống kê N.T. M. Ngọc Mô tả dữ liệu định lượng
XSTK XSTK
N.T. M. Ngọc Trung bình (tt) N.T. M. Ngọc Trung bình (tt)
XSTK Ví dụ : Lương tháng của 16 công nhân được chọn ngẫu nhiên (đv XSTK
N.T. M. Ngọc triệu đồng) trong một nhà máy như sau: N.T. M. Ngọc Trung bình (tt)
Lương tháng 0,8 1,0 1,2 1,3 1,5 1,7 2 2,3 2,5
Số công nhân 1 1 2 2 2 3 2 2 1 Trung bình bị ảnh hưởng bởi các giá trị ngoại lai
(outliers).
Lương trung bình hàng tháng của một công nhân từ mẫu gồm 16
công nhân trên là:
Pk P9
i=1 ni xi i=1 ni xi
x̄ = =
n 16
0, 8 ∗ 1 + · · · + 2, 3 ∗ 2 + 2, 5 ∗ 1
x̄ = = 1, 625
16
XSTK XSTK
XSTK XSTK
N.T. M. Ngọc So sánh trung bình, trung vị và N.T. M. Ngọc So sánh trung bình, trung vị và
mode mode (tt)
XSTK XSTK
Hình 3.1 cho thấy một phân phối dữ liệu chia thành bốn phần.
Các điểm chia đgl Tứ phân vị và được xac định như sau:
• Q1 = tứ phân vị thứ nhất, hay là phân vị thứ 25.
• Q2 = tứ phân vị thứ hai, hay là phân vị thứ 50
(Q2 cũng được gọi là trung vị ).
• Q3 = tứ phân vị thứ ba, hay là phân vị thứ 75.
XSTK XSTK
N.T. M. Ngọc Khoảng biến thiên hay N.T. M. Ngọc Độ trải giữa hay Khoảng tứ phân
Miền giá trị mẫu (sample range) vị (interquartile range - IQR)
Khoảng biến thiên = giá trị lớn nhất − giá trị nhỏ nhất.
Hay miền giá trị mẫu là khoảng cách giữa giá trị lớn nhất và Độ trải giữa (hay Khoảng tứ phân vị ) (IQR) là
giá trị nhỏ nhất trong mẫu.
Nếu n quan sát trong một mẫu được kí hiệu là x1 , x2 , . . . , xn
khoảng cách giữa tứ phân vị đầu tiên và tứ phân
thì miền giá trị mẫu là vị thứ ba; tức là, IQR = Q3 − Q1 .
r = max(xi ) − min(xi )
• Người ta thường sử dụng IQR để đo sự biến
thiên của dữ liệu khi trung vị được sử dụng
để đo trung tâm của dữ liệu.
• Tương tự trung vị, IQR không bị ảnh hưởng
bởi các điểm ngoại lai (outlier).
XSTK XSTK
XSTK XSTK
N.T. M. Ngọc Phương sai và độ lệch chuẩn (tt) N.T. M. Ngọc Hệ số biến thiên (Coefficient of
Ví dụ: Tính phương sai mẫu về dữ liệu lương khởi Variation)
điểm trong bảng 3.1
Hệ số biến thiên cho biết độ lệch chuẩn lớn bằng
bao nhiêu lần so với trung bình,
Độ lệch chuẩn
CV = × 100%.
trung bình
Hệ số biến thiên là một thống kê hữu ích để so
sánh độ phân tán của các biến có độ lệch chuẩn
khác nhau và trung bình khác nhau.
XSTK XSTK
XSTK XSTK
N.T. M. Ngọc Các đặc trưng của mẫu ngẫu nhiên N.T. M. Ngọc Phân phối mẫu
Bởi vì thống kê là một mẫu ngẫu nhiên nên nó
Nếu (X1 , X2 , . . . , Xn ) là một mẫu ngẫu nhiên kích thước n có phân phối xác suất.
thì:
1X n Định nghĩa
◦ Trung bình mẫu: X̄ = Xi
n i=1 Phân phối xác suất của một thống kê đgl một
◦ Phương sai mẫu có hiệu chỉnh: phân phối mẫu.
n n Ví dụ: Phân phối xác suất của X̄ đgl phân phối
1 X 1 X n
S2 = (Xi − X̄ )2 = Xi2 − X̄ 2 mẫu của trung bình.
n − 1 i=1 n − 1 i=1 n−1
√ Nhận xét
◦ Độ lệch chuẩn mẫu: S = S2 Phân phối xác suất của một thống kê phụ thuộc
đều là các thống kê.
vào phân phối của tổng thể, kích thước mẫu và
phương pháp chọn mẫu.
XSTK XSTK
N.T. M. Ngọc Phân phối mẫu của trung bình và N.T. M. Ngọc Phân phối mẫu của trung bình và
phương sai phương sai
Trường hợp tổng thể có phân phối xác suất chưa biết, từ định lí giới
hạn trung tâm ta suy ra rằng
và
X̄ − µ
√ ≈ N (0, 1).
S/ n
XSTK XSTK
N.T. M. Ngọc Sai số chuẩn (Standard Error) của N.T. M. Ngọc Phân phối mẫu của tỉ lệ
trung bình
Giả sử cần khảo sát đặc trưng A của tổng thể, khảo sát n
phần tử và đặt
Sai số chuẩn (Standard Error) của trung bình, kí hiệu là σX̄ (
1 nếu thỏa A
σ Xi =
σX̄ := √ 0 nếu khác
n
thu được mẫu ngẫu nhiên X1 , . . . , Xn với Xi ∼ B(1, p), p là tỉ
Nhận xét: lệ phần tử thỏa đặc trưng A.
n
• σX̄ đo độ biến thiên của X̄ xung quanh trung bình
X
Đặt X = Xi là số phần tử thỏa đặc trưng A trong mẫu
tồng thể µ. i=1
• Sai số chuẩn càng nhỏ, ước lượng tham số từ tổng thể khảo sát, thì X ∼ B(n, p).
Tỉ lệ mẫu P̂ là một ước lượng của tỉ lệ p được xác định bởi
càng tốt và độ tin cậy cao.
• Độ biến thiên của tổng thể, σ, càng lớn thì sai số X
P̂ =
chuẩn, σX̄ , càng lớn. n
XSTK XSTK
N.T. M. Ngọc Phân phối mẫu của tỉ lệ N.T. M. Ngọc Bài toán ước lượng
XSTK XSTK
N.T. M. Ngọc Bài toán ước lượng N.T. M. Ngọc Ước lượng điểm - Ước lượng
khoảng
Giả sử biến ngẫu nhiên X có tham số θ chưa
biết. Ước lượng tham số θ là dựa vào mẫu ngẫu • Một ước lượng điểm là một giá trị đơn.
nhiên W = (X1 , X2 , . . . , Xn ) ta đưa ra thống kê θ̂ • Một khoảng tin cậy cung cấp thông tin bổ
để ước lượng (dự đoán) θ. sung về sự biến thiên của một ước lượng
Ví dụ: điểm tương ứng.
◦ Ước lượng điểm: chỉ ra θ̂ = θ0 nào đó để ước
lượng θ.
◦ Ước lượng khoảng: chỉ ra một khoảng
(θ̂L , θ̂U ) chứa θ sao cho P(θ̂L < θ < θ̂U ) = 1 − α
cho trước, (1 − α đgl độ tin cậy của ước lượng).
XSTK XSTK
N.T. M. Ngọc Ước lượng điểm N.T. M. Ngọc Cùng một mẫu ngẫu nhiên ta có thể xây dựng được nhiều
thống kê θ̂ khác nhau để ước lượng cho tham số tổng thể
Định nghĩa θ. Vì vậy ta cần lựa chọn thống kê tốt nhất để ước lượng
cho tham số θ dựa vào các tiêu chuẩn sau:
Một ước lượng điểm cho tham số tổng thể θ là
a. Ước lượng không chệch
một giá trị đơn θ̂ của một thống kê Thống kê θ̂ của mẫu đgl ước lượng không chệch của tham
θ̂ = f (X1 , X2 , . . . , Xn ). số θ của biến ngẫu nhiên gốc X nếu:
XSTK XSTK
d. Ước lượng đủ
Một ước lượng θ̂ đgl ước lượng đủ nếu nó chứa
đựng toàn bộ các thông tin trong mẫu về tham
số θ của ước lượng.
XSTK XSTK
XSTK XSTK
2
N.T. M. Ngọc TH 1: σ đã biết và n ≥ 30 (hoặc N.T. M. Ngọc TH 1: σ 2 đã biết và n ≥ 30 (hoặc
n < 30 nhưng tổng thể có phân n < 30 nhưng tổng thể có phân
phối chuẩn) phối chuẩn)
XSTK XSTK
2
N.T. M. Ngọc TH 1: σ đã biết và n ≥ 30 (hoặc N.T. M. Ngọc Tìm z1−α/2
n < 30 nhưng tổng thể có phân
phối chuẩn)
XSTK XSTK
2
N.T. M. Ngọc TH 1: σ đã biết và n ≥ 30 (hoặc N.T. M. Ngọc TH 2: σ 2 chưa biết và n ≥ 30.
n < 30 nhưng tổng thể có phân
phối chuẩn)
XSTK XSTK
2
N.T. M. Ngọc TH 2: σ chưa biết và n ≥ 30. N.T. M. Ngọc TH 2: σ 2 chưa biết và n ≥ 30.
XSTK XSTK
2
N.T. M. Ngọc TH 3: σ chưa biết; n < 30 và X N.T. M. Ngọc TH 3: σ 2 chưa biết; n < 30 và X
có phân phối chuẩn. có phân phối chuẩn.
XSTK XSTK
2
N.T. M. Ngọc TH 3: σ chưa biết; n < 30 và X N.T. M. Ngọc TH 3: σ 2 chưa biết; n < 30 và X
có phân phối chuẩn. có phân phối chuẩn.
N.T. M. Ngọc N.T. M. Ngọc Ước lượng trung bình tổng thể
Ví dụ:
XSTK XSTK
XSTK XSTK
XSTK XSTK
N.T. M. Ngọc Ví dụ