Professional Documents
Culture Documents
Chude 2
Chude 2
3 Subscription Information
Thống kê
Thống kê là một khoa học liên quan đến việc thu thập, tổ chức, phân tích, giải
thích và trình bày dữ liệu.a
a Dodge, Y. (2006), "The Oxford Dictionary of Statistical Terms", Oxford
University Press.
Ví dụ:
1 Trong lĩnh vực thể thao, các nhà thống kê có thể ghi nhận số lần giữ kỷ
lục của một đội bóng trong một mùa giải.
2 Trong lĩnh vực chăm sóc sức khoẻ, bác sĩ hoặc nhà quản lý quan tâm
đến số lượng trẻ em nhiễm Virus Covid-19 hàng ngày/hàng tháng.
3 Trong lĩnh vực giáo dục, nhà giáo dục muốn biết liệu hiệu suất học tập
của sinh viên trong học kỳ hiện tại có tốt hơn học kỳ trước? hoặc thay
đổi phương án trả lời của mỗi câu hỏi trắc nghiệm 4 lựa chọn ảnh
hưởng như thế nào đến độ phân biệt của câu hỏi hay độ đoán mò của thí
sinh?
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 6 / 48
Phân lớp dữ liệu
1 Dữ liệu là các giá trị mà ở đó các biến được đo lường, được giả thiết.
2 Biến là một đặc tính hoặc thuộc tính có thể được ghi nhận với các giả
thiết khác nhau.
3 Biến ngẫu nhiên là biến (đại lượng) nhận giá trị một cách ngẫu nhiên.
Để mô tả dữ liệu qua các đại lượng số, chúng ta có thể sử dụng: đo lường xu
hướng tập trung; đo lường xu hướng phân tán và đo lường xu hướng vị trí.
1 Đo lường xu hướng tập trung: Trung bình (Mean); Trung vị (Median); Số
trội (Mode); Cực giữa (Mid-range) and Độ nhọn (Kurtosis).
2 Đo lường xu hướng phân tán: Phương sai (Variance); Độ lệch chuẩn
(Standard Deviation); Khoảng biến thiên (Range); Hệ số biến thiên
(Coefficient of Variation) and Độ xiên (Skewness).
3 Đo lường xu hướng vị trí: Bách phân vị (Percentiles); Thập phân vị
(Deciles) and Tứ phân vị (Quartiles).
4 Một số số thống kê khác: Sai số chuẩn (Standard Error); Độ trải giữa
(Interquartile range).
x = 6, 35
Lưu ý:
Trung bình cộng là số đo hướng tâm phổ biến nhất.
Không tính mean cho dữ liệu định danh.
Ảnh hưởng của giá trị ngoại lệ lên Mean.
ở đó n- cỡ mẫu; Xi - giá trị quan sát thứ i của mẫu; X-số trung bình của
mẫu; s-độ lệch chuẩn của mẫu.
3 Excess Kurtosis, cho bởi: k̃ = k − 3.
Lưu ý: Nếu hai tập dữ liệu có cùng trung bình mẫu, tập dữ liệu này có độ lệch
mẫu lớn hơn sẽ biến thiên nhiều hơn.
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 19 / 48
Phương sai, độ lệch
ở đó: n là cỡ mẫu; Xi là giá trị quan sát thứ i của mẫu; X là số trung
bình của X, s là độ lệch của X.
1 Các số đo lường xu hướng phân tán: Chỉ sử dụng cho dữ liệu định lượng.
2 Các số thống kê đo lường mức độ phân tán được sử dụng khi các xu
hướng trung tâm không có nhiều ý nghĩa (ví dụ: đối với hai dữ liệu có
cùng số trung bình, dữ liệu nào có độ lệch nhỏ hơn sẽ đo lường tốt hơn).
3 Các xu hướng đo lường phân tán được sử dụng để đo lường sự biến đổi
tồn tại trong một tập dữ liệu.
4 Phương sai (độ lệch chuẩn) càng nhỏ, dữ liệu càng nhất quán hơn, càng ít
phân tán hơn, ít biến động hơn.
Picture A: Các giá trị đo lường tập trung rất gần giá trị "đích", do đó dữ
liệu này thể hiện Accuracy cao.
Picture B: Các giá trị đo lường đứng sát nhau nhưng không gần giá trị
đích, do đó dữ liệu này thể hiện Accuracy thấp nhưng Precision cao.
Picture C: Các giá trị đo lường đứng xa nhau và không gần giá trị đích,
do đó dữ liệu này thể hiện đồng thời Accuracy và Precision thấp.
Picture D: Các giá trị đo lường đúng rất gần nhau và cùng gần giá trị
đích, do đó dữ liệu thể hiện đồng thời Accuracy và Precision cao.
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 29 / 48
Trực quan hoá dữ liệu
Trực quan hoá dữ liệu có nguồn gốc từ thống kê và do đó, thường được
coi là một nhánh của thống kê, nhằm mục đích biểu diễn dữ liệu bằng
hình ảnh. Kĩ năng này đòi hỏi sự tổng hợp của các kĩ năng: thiết kế,
thống kê và tính toán.
Trực quan hoá dữ liệu đặc biệt hiệu quả đối với dữ liệu nhiều hoặc các dữ
liệu theo chuỗi thời gian.
Về một số loại biểu đồ, đồ thị thường sử dụng trong trực quan hoá
dữ liệu
1 Dữ liệu định tính: Biểu đồ quạt (Pie chart); Biểu đồ thanh (Bar chart);
Biểu đồ cột (Column chart);...
2 Dữ liệu định lượng: Biểu đồ tần suất (Histogram); Đa giác tần suất
(Frequency Polygon plots); Biểu đồ tần suất tích luỹ (Ogive plots); Biểu
đồ thân - lá (Stem-leaf plots); Biểu đồ hộp (Box plots).
3 Dữ liệu theo thời gian: Biểu đồ đường (Line chart); Biểu đồ chuỗi thời
gian (Time Series Graph)
4 Dữ liệu kiểm soát chất lượng: Biểu đồ Pareto (Pareto chart).
5 Mối quan hệ giữa các biến: Biểu đồ phân tán (Scatter plots)
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 30 / 48
Phân tích thống kê bằng đồ thị
1 Nếu trung vị gần với trọng tâm của hộp, thì phân phối xấp xỉ đối xứng.
2 Nếu trung vị lệch về bên trái so với trọng tâm của hộp, thì phân phối có
dạng Positive skewness.
3 Nếu trung vị lệch về bên phải so với trọng tâm của hộp, thì phân phối có
dạng Negative skewness.
4 Nếu các đường thẳng nối ở hai cạnh hộp có cùng độ dài, thì phân phối
xấp xỉ đối xứng.
5 Nếu đường thẳng bên phải hộp dài hơn đường bên trái hộp, thì phân phối
có dạng Positive Skewness.
6 Nếu đường thằng bên phải hộp ngắn hơn đường bên phải hộp, thì phân
phối có dạng Negative Skewness.
7 Nếu nhiều biểu đồ hộp được thiết kế trên cùng một hệ trục, thì các phân
phối có thể được so sánh với nhau thông qua các đại lượng đo lường xu
hướng tập trung hoặc biến động, cụ thể:
So sánh độ đo tập trung, sử dụng giá trị trung vị địa phương.
So sánh độ biến động, sử dụng giá trị độ trải giữa.
Sử dụng điểm z
X −X
1 z= để tìm vị trí tương đối của các điểm số trong một phân bố
σ
đồng thời so sánh với các phân bố có phương sai (độ lệch chuẩn) khác
nhau.
X −X
2 Tính z = .
S
3 Nếu | z |> 3, thì x là giá trị ngoại biên và ngược lại.
Lưu ý: Nếu | z | càng lớn, thì dữ liệu càng xa giá trị trung bình X.
Phân phối chuẩn chính tắc N (0, 1) và chuẩn tổng quát N (µ, σ 2 )
1 x2
X ' N (0, 1) có mật độ: ϕ(x) = √ .e− 2 ; Hàm phân phối:
2π
1 R x − u2
Φ(x) = √ . e 2 du.
2π −∞
1 (x−µ)2
X ' N (µ, σ 2 ) có mật độ: f (x) = √ .e− 2σ2 .
σ. 2π
0.5
Mean ≡ Mode ≡ Median = µ. N(2, 0.9)
N(3, 0.9)
V ar(X) = σ 2 .
0.4
N(3, 1.5)
X −µ
X ' N (µ, σ 2 ) ⇐⇒ ' N (0, 1).
0.0
σ −2 0 2 4 6 8
P {µ ≤ X ≤ µ + σ} = 34.13%.
P {µ + σ ≤ X ≤ µ + 2σ} = 13.59%.
P {X ≥ µ + 2σ} = 2.28%.
Quy tắc 2σ:
P {| X − µ |< 2σ} = 95.44%.
Hình 1: The normal distribution following a Quy tắc 3σ:
zscore transformation (Frederick J. G. et all.
(2013))
P {| X − µ |< 3σ} = 99.74%.
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 42 / 48
Biểu đồ xác suất chuẩn
Có nhiều phần mềm và công cụ thống kê để kiểm định phân phối chuẩn, có
thể kể đến: Jarque-Bera test; Anderson-Darling test; Cramer–von Mises test;
Likelihood ratio test; Kolmogorov–Smirnov test; Shapiro–Wilk test;
Chi-quared test.
Có dữ liệu sau về kết quả kiểm tra giữa kỳ của hai nhóm học sinh
Nhóm 1 24 25 25 27 27 29 30 31 31 32 36 37 38 57
Nhóm 2 22 33 34 36 37 40 41 43 44 45 47 51 53 54
Học viên có thể tải dữ liệu TẠI ĐÂY. Sử dụng MS Excel, thực hành và trả
lời các yêu cầu sau:
1 Tính các số thống kê về điểm của học sinh mỗi lớp và đưa ra nhận xét.
2 Thiết lập biểu đồ Stem-Leaf và Box plots của hai lớp trên cùng một hệ
trục và đưa ra nhận xét.
3 Tính hệ số tương quan giữa hai nhóm và đưa ra nhận định.
4 Đánh giá sự khác biệt về trung bình điểm của học sinh hai lớp, mức ý
nghĩa 5%.
5 Kiểm định phân phối chuẩn của điểm học sinh hai lớp.