You are on page 1of 48

EAM3002

Nhập môn Thống kê ứng dụng trong giáo dục

TS. TRAN Xuan Quang

Trường Đại học Giáo dục, ĐHQGHN

Ngày 22 tháng 1 năm 2021

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 1 / 48
CHỦ ĐỀ 3

ỨNG DỤNG THỐNG KÊ MÔ TẢ TRONG GIÁO DỤC

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 2 / 48
Mục lục

1 Thống kê mô tả và ứng dụng

2 Thực hành ứng dụng thống kê

3 Subscription Information

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 3 / 48
PHẦN I

THỐNG KÊ MÔ TẢ VÀ ỨNG DỤNG

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 4 / 48
Mục tiêu cần đạt
Sau khi kết thúc phần I (lý thuyết và thực hành), học viên cần đạt được:
Hiểu rõ được một số công cụ thống kê cơ bản: Các loại thang đo; Các số
thống kê; Thống kê mô tả; Trực quan hoá dữ liệu thống kê; Thống kê suy
luận; Thống kê tham số; Thống kê phi tham số;...
Nhận diện được các dạng biểu đồ và đồ thị.
Nhận diện được các đặc trưng số thống kê: các thống kê đo lường độ tập
trung; các thống kê đo lường độ tập phân tán; các thống kê đo lường vị
trí.
Lựa chọn được công cụ thống kê cần sử dụng để phân tích và xử lý số liệu
trong khoa học giáo dục.
Tính được: Thống kê mô tả (Descriptive Statistics); Trực quan hoá dữ
liệu bằng biểu đồ và đồ thị (Data visualization using graph); Một số ước
lượng và kiểm định cơ bản.
Luận giải được kết quả phân tích dữ liệu bằng Thống kê mô tả; Thống kê
suy luận; Biểu đồ và đồ thị.
Thực hành được thành thạo trên Excel: Descriptive Statistics; Regression;
Pivot Table;...
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 5 / 48
Thống kê là gì (What is Statistics?)

Thống kê
Thống kê là một khoa học liên quan đến việc thu thập, tổ chức, phân tích, giải
thích và trình bày dữ liệu.a
a Dodge, Y. (2006), "The Oxford Dictionary of Statistical Terms", Oxford

University Press.

Ví dụ:
1 Trong lĩnh vực thể thao, các nhà thống kê có thể ghi nhận số lần giữ kỷ
lục của một đội bóng trong một mùa giải.
2 Trong lĩnh vực chăm sóc sức khoẻ, bác sĩ hoặc nhà quản lý quan tâm
đến số lượng trẻ em nhiễm Virus Covid-19 hàng ngày/hàng tháng.
3 Trong lĩnh vực giáo dục, nhà giáo dục muốn biết liệu hiệu suất học tập
của sinh viên trong học kỳ hiện tại có tốt hơn học kỳ trước? hoặc thay
đổi phương án trả lời của mỗi câu hỏi trắc nghiệm 4 lựa chọn ảnh
hưởng như thế nào đến độ phân biệt của câu hỏi hay độ đoán mò của thí
sinh?
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 6 / 48
Phân lớp dữ liệu

1 Dữ liệu là các giá trị mà ở đó các biến được đo lường, được giả thiết.
2 Biến là một đặc tính hoặc thuộc tính có thể được ghi nhận với các giả
thiết khác nhau.
3 Biến ngẫu nhiên là biến (đại lượng) nhận giá trị một cách ngẫu nhiên.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 7 / 48
Các loại dữ liệu

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 8 / 48
Các loại thang đo

Cấp Miêu tả Phép toán Số thống kê Ví dụ


- Phân loại dữ liệu - Giới tính
Định danh - Không có thứ tự Mode - Nghề nghiệp
- Không có xếp hạng
- Phân loại dữ liệu Mode - Điểm chữ
Thứ bậc
- Có thứ bậc* Median - Học lực
- Hạng của dữ liệu +; − Mode - IQ test
Định khoảng
- Thứ bậc cách đều Median - Nhiệt độ
nhau
- Sự khác biệt giữa Mean
các thang đo
- Số 0 không có
nghĩa
- Có đầy đủ các tính +; −; ×; : All Stats - Câng ngặng
Tỷ lệ
chất của thang định
khoảng
- Số 0 có ý nghĩa
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 9 / 48
Các đại lượng số

Để mô tả dữ liệu qua các đại lượng số, chúng ta có thể sử dụng: đo lường xu
hướng tập trung; đo lường xu hướng phân tán và đo lường xu hướng vị trí.
1 Đo lường xu hướng tập trung: Trung bình (Mean); Trung vị (Median); Số
trội (Mode); Cực giữa (Mid-range) and Độ nhọn (Kurtosis).
2 Đo lường xu hướng phân tán: Phương sai (Variance); Độ lệch chuẩn
(Standard Deviation); Khoảng biến thiên (Range); Hệ số biến thiên
(Coefficient of Variation) and Độ xiên (Skewness).
3 Đo lường xu hướng vị trí: Bách phân vị (Percentiles); Thập phân vị
(Deciles) and Tứ phân vị (Quartiles).
4 Một số số thống kê khác: Sai số chuẩn (Standard Error); Độ trải giữa
(Interquartile range).

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 10 / 48
Tần số, Tần suất

Tần số, Tần suất


1 Tần số (Frequency): Số lần xuất hiện của biểu hiện/yếu tố/giá trị nào đó
trong một mẫu.
2 Tần suất (Relative frequency): Là tỷ số giữa tần số với cỡ mẫu.
3 Bảng tần số (Frequencies table): Là bảng tổng hợp các tần số ứng với các
biểu hiện/yếu tố/giá trị.

Cách lập bảng tần số


1 Với dữ liệu định tính:
Liệt kê các biểu hiện của biến định tính, ví dụ: Giới tính (Nam, Nữ); Nghề
nghiệp (Giáo viên, Sinh viên, Cán bộ quản lý,...); ngành học;...
Đếm số quan sát có cùng 1 biểu hiện để thu được. Tần số của mỗi biểu
hiện. Tổng các tần số phải bằng cỡ mẫu.
mi
Tính tần suất: Tần suất của biểu hiện thứ i: fi = .100%.
n
2 Với dữ liệu định lượng có ít quan sát: Thực hiện tương tự như cách vẽ
bảng tần số cho dữ liệu định tính.
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 11 / 48
Tần số, Tần suất

Cách lập bảng tần số


1 Với dữ liệu định lượng có nhiều giá trị: nên nhóm dữ liệu thành các
khoảng
1 Chọn√số khoảng cần phân nhóm: Thông thường, số khoảng của dữ liệu
k = [ 3 2 × n] hoặc k = [1 + 3.3 × (log n)].a
xmax − xmin
2 Xác định độ dài h cho mỗi khoảng: h = .
k
3 Xác định cận dưới và cận trên của các tổ: Đảm bảo cận dưới của tổ đầu
tiên có giá trị x < xmin và cận trên của tổ cuối cùng phải lớn hơn xmax .
4 Tiến hành phân nhóm.
a H.A. Stugres

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 12 / 48
Số trội

Định nghĩa 1. Mode

Cách tính Mode:


Lập bảng tần số cho tập dữ liệu.
Tìm tần số lớn nhất trong bảng.
Giá trị ứng với tần số lớn nhất là mode của tập dữ liệu.
Lưu ý
Mode là thước đo tập trung duy nhất cho biến định đính/thang đo định
danh.
Một dữ liệu có thể có nhiều Mode hoặc không có Mode.
Không bị ảnh hưởng bởi giá trị ngoại biên.
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 13 / 48
Số trung vị (Median)

Định nghĩa 2. Median (Trung vị)


Là giá trị ở giữa của tập dữ liệu đã sắp thứ tự, có khoảng 50% số quan sát
nhỏ hơn hoặc bằng trung vị và khoảng 50% số quan sát lớn hơn hoặc bằng
trung vị.

Cách tính Median:


Sắp xếp tập dữ liệu theo thứ tự tăng dần.
n+1
Nếu số quan sát là lẻ thì trung vị ở vị trí .
2
Nếu số quan sát là chẵn thì trung vị bằng trung bình cộng của quan sát ở
n n+2
vị trí và .
2 2

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 14 / 48
Số trung bình

Định nghĩa 3. Trung bình cộng


1 Pn
1 Trung bình cộng đơn giản: x = xi ,
n i=1
1 P n
2 Trung bình cộng có trọng số: xw = P n w i xi .
wi i=1
i=1
1 Pn
3 Trung bình cộng của mẫu kích thước n X = mi xi .
n i=1
n
P
ở đó,mi là số lần mẫu nhận giá trị xi và mi = n.
i=1

Giả sử có 5 quan sát như hình bên, khi đó:


1+3+5+6+7
x= = 4, 4
5

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 15 / 48
Số trung bình

x = 6, 35

Lưu ý:
Trung bình cộng là số đo hướng tâm phổ biến nhất.
Không tính mean cho dữ liệu định danh.
Ảnh hưởng của giá trị ngoại lệ lên Mean.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 16 / 48
Cực giữa

Định nghĩa 4. Cực giữa


xmax + xmin
MR =
n
Nhược điểm của M R:
Hiếm khi được sử dụng trong phân tích thống kê vì M R bỏ qua các ước
tính trung gian.
Phụ thuộc rất nhiều vào các giá trị ngoại biên.
Tuy nhiên, với phân phối đều, M R là ước lượng hiệu quả cực đại.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 17 / 48
Độ nhọn (Kurtosis)

Định nghĩa 5. Độ nhọn (Kurtosis)


1 Độ nhọn là thống kê đo lường mức độ tập trung phân phối của dữ liệu,
nói cách khác Độ nhọn xác định độ nặng của đuôi phân phối.
2 Kurtoris k của X, là moment bậc 4 chuẩn hóa. Trong thực hành,
Kurtoris (k) của một mẫu được tính bởi công thức:
n
1 X
k' (Xi − X)4 ,
n.s4 i=1

ở đó n- cỡ mẫu; Xi - giá trị quan sát thứ i của mẫu; X-số trung bình của
mẫu; s-độ lệch chuẩn của mẫu.
3 Excess Kurtosis, cho bởi: k̃ = k − 3.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 18 / 48
Phương sai, độ lệch

Định nghĩa 6. Phương sai, Độ lệch


1 Phương sai (Sample variance): Là trung bình của bình phương độ lệch các
giá trị của X so với trung bình mẫu của nó.
n n
1X 1X 2
S2 = (xi − x)2 = x − x2 , (1)
n i=1 n i=1 i

2 Độ lệch (Standard Deviation): S = S2.
3 Vì S 2 là ước lượng chệch cho DX nên người ta thường sử dụng đại lượng
Ŝ 2 , ở đó:
n
1 X n 2
Ŝ 2 = (Xi − X)2 = ŝ ,
n − 1 i=1 n−1
p
4 Đại lượng Ŝ = Ŝ 2 là độ lệch chuẩn (độ lệch mẫu).

Lưu ý: Nếu hai tập dữ liệu có cùng trung bình mẫu, tập dữ liệu này có độ lệch
mẫu lớn hơn sẽ biến thiên nhiều hơn.
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 19 / 48
Phương sai, độ lệch

Tính chất của phương sai, độ lệch mẫu:


Nếu khoảng biến thiên, phương sai và độ lệch chuẩn lớn thì tập dữ liệu
càng trải rộng và ngược lại
Phương sai và độ lệch chuẩn chỉ bằng 0 khi các giá trị của tập dữ liệu là
đồng nhất bằng nhau.
Các đại lượng đo độ phân tán đều là những giá trị dương.
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 20 / 48
Độ xiên (Skewness)

Định nghĩa 7. Độ xiên


1 Độ xiên (Skewness), hay còn gọi hệ số bất đối xứng, ký hiệu sk là thống
kê đo lường mức độ bất đối xứng của phân phối của một biến.
2 Độ xiên sk của một mẫu X được định nghĩa bằng moment chuẩn hóa bậc
ba, có nghĩa:
n
1 X
sk = 3 (Xi − X)3 ,
ns i=1

ở đó: n là cỡ mẫu; Xi là giá trị quan sát thứ i của mẫu; X là số trung
bình của X, s là độ lệch của X.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 21 / 48
Hệ số biến thiên; Khoảng biến thiên

Định nghĩa 8. Hệ số biến thiên


S
CV =
X
Tính chất của hệ số biến thiên:
Hữu ích trong việc so sánh mức độ biến thiên giữa các chuỗi dữ liệu.
Nhạy cảm với giá trị ngoại biên.

Định nghĩa 9. Khoảng biến thiên


R = xmax − xmin

Nhược điểm của R:


Rất nhạy cảm với giá trị ngoại biên.
Bỏ qua thông tin về cách phân bố nội bộ của tập dữ liệu.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 22 / 48
Bách phân vị và thập phân vị

Định nghĩa 12. Bách phân vị và thập phân vị


1 Bách phân vị (Percentiles): Chia tập dữ liệu đã sắp thứ tự thành 100
phần bằng nhau.
2 Thập phân vị (Deciles): Chia tập dữ liệu đã sắp thứ tự thành 10 phần
bằng nhau.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 23 / 48
Tứ phân vị (Quartiles)

Định nghĩa 13. Tứ phân vị (Quartiles)


1 Tứ phân vị thứ nhất Q1 là giá trị quan sát tại vị trí 25%(n + 1).
2 Tứ phân vị thứ hai Q2 là giá trị Median.
3 Tứ phân vị thứ ba Q3 là giá trị quan sát tại vị trí 75%(n + 1).

Ý nghĩa của tứ phân vị:


Q1 cho biết: Không kể Q1 thì 25% số quan sát của tập dữ liệu có giá trị
bé hơn hoặc bằng Q1 và 75% số quan sát còn lại của tập dữ liệu lớn hơn
hoặc bằng Q1 .
Q3 cho biết: Không kể Q3 thì 75% số quan sát của tập dữ liệu có giá trị
bé hơn hoặc bằng Q3 và 25% số quan sát còn lại của tập dữ liệu lớn hơn
hoặc bằng Q1 .

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 24 / 48
Tứ phân vị (Quartiles)

Cách tìm Quartiles


1 Sắp xếp dữ liệu tăng dần với n là cỡ mẫu.
2 Nếu n lẻ:
Q1 là trung bình cộng của các giá trị quan sát tại vị trí [0.25 ∗ (n + 1)] và
giá trị quan sát tại vị trí [0.25 ∗ (n + 1)] + 1.
Q2 = Median.
Q3 là trung bình cộng của các giá trị quan sát tại vị trí [0.75 ∗ (n + 1)] và
giá trị quan sát tại vị trí [0.75 ∗ (n + 1)] + 1.
3 Nếu n chẵn:
Q1 = a + 0.25 ∗ (b − a)
Q2 = a+b 2
= Median.
Q3 = a + 0.75 ∗ (b − a),
ở đó a là giá trị quan sát tại vị trí [0.25 ∗ (n + 1)] và [.75 ∗ (n + 1)] tương
ứng và b là giá trị quan sát tại vị trí [0.25 ∗ (n + 1)] + 1 và
[0.75 ∗ (n + 1)] + 1 tương ứng.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 25 / 48
Tính chất của Mean, Mode, Median

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 26 / 48
Tính chất của Mean, Mode, Median

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 27 / 48
Tính chất của Variance, Standard deviation

1 Các số đo lường xu hướng phân tán: Chỉ sử dụng cho dữ liệu định lượng.
2 Các số thống kê đo lường mức độ phân tán được sử dụng khi các xu
hướng trung tâm không có nhiều ý nghĩa (ví dụ: đối với hai dữ liệu có
cùng số trung bình, dữ liệu nào có độ lệch nhỏ hơn sẽ đo lường tốt hơn).
3 Các xu hướng đo lường phân tán được sử dụng để đo lường sự biến đổi
tồn tại trong một tập dữ liệu.
4 Phương sai (độ lệch chuẩn) càng nhỏ, dữ liệu càng nhất quán hơn, càng ít
phân tán hơn, ít biến động hơn.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 28 / 48
Accuracy and Precision

Định nghĩa 14. Độ chính xác (Accuracy and Precision)


1 Accuracy là đại lượng đo lường mức độ "gần" (nhất quán) của các giá trị
đo được so với giá trị "đích".
2 Precision là đại lượng đo lường mức độ "gần" (nhất quán) giữa các giá trị
đo được với nhau.

Picture A: Các giá trị đo lường tập trung rất gần giá trị "đích", do đó dữ
liệu này thể hiện Accuracy cao.
Picture B: Các giá trị đo lường đứng sát nhau nhưng không gần giá trị
đích, do đó dữ liệu này thể hiện Accuracy thấp nhưng Precision cao.
Picture C: Các giá trị đo lường đứng xa nhau và không gần giá trị đích,
do đó dữ liệu này thể hiện đồng thời Accuracy và Precision thấp.
Picture D: Các giá trị đo lường đúng rất gần nhau và cùng gần giá trị
đích, do đó dữ liệu thể hiện đồng thời Accuracy và Precision cao.
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 29 / 48
Trực quan hoá dữ liệu
Trực quan hoá dữ liệu có nguồn gốc từ thống kê và do đó, thường được
coi là một nhánh của thống kê, nhằm mục đích biểu diễn dữ liệu bằng
hình ảnh. Kĩ năng này đòi hỏi sự tổng hợp của các kĩ năng: thiết kế,
thống kê và tính toán.
Trực quan hoá dữ liệu đặc biệt hiệu quả đối với dữ liệu nhiều hoặc các dữ
liệu theo chuỗi thời gian.

Về một số loại biểu đồ, đồ thị thường sử dụng trong trực quan hoá
dữ liệu
1 Dữ liệu định tính: Biểu đồ quạt (Pie chart); Biểu đồ thanh (Bar chart);
Biểu đồ cột (Column chart);...
2 Dữ liệu định lượng: Biểu đồ tần suất (Histogram); Đa giác tần suất
(Frequency Polygon plots); Biểu đồ tần suất tích luỹ (Ogive plots); Biểu
đồ thân - lá (Stem-leaf plots); Biểu đồ hộp (Box plots).
3 Dữ liệu theo thời gian: Biểu đồ đường (Line chart); Biểu đồ chuỗi thời
gian (Time Series Graph)
4 Dữ liệu kiểm soát chất lượng: Biểu đồ Pareto (Pareto chart).
5 Mối quan hệ giữa các biến: Biểu đồ phân tán (Scatter plots)
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 30 / 48
Phân tích thống kê bằng đồ thị

Đồ thị trong thống kê


Truyền tải dữ liệu đến người đọc dưới dạng hình ảnh và thu hút sự chú ý của
người đọc trong một ấn phẩm hoặc thuyết trình.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 31 / 48
Hình dạng phân phối qua biểu đồ tần suất

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 32 / 48
Hình dạng phân phối qua biểu đồ tần suất

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 33 / 48
Phân tích dữ liệu khám phá (EDA)

Phân tích dữ liệu khám phá


1 Là thủ tục tiếp cận phân tích dữ liệu để tóm tắt các đặc điểm chính của
dữ liệu bằng phương pháp trực quan.
2 Mô hình thống kê có thể được sử dụng hoặc không, nhưng EDA chủ yếu
nhằm mục đích để xem dữ liệu có thể cho chúng ta biết gì ngoài nhiệm vụ
mô hình hóa chính thức hoặc kiểm tra giả thuyết.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 34 / 48
Biểu đồ thân và lá

Biểu đồ thân - lá (Stem and Leaf)


1 Biểu đồ mô tả hình dáng và phân phối của tập dữ liệu định lượng.
2 Quy tắc lập đồ thị: Dữ liệu định lượng dưới dạng những con số sẽ được
tách thành hai phần: thân và lá.
3 Việc phân chia này chỉ có tính quy ước và khá linh hoạt.

Cách vẽ biểu đồ Stem and Leaf


1 Sắp xếp dữ liệu theo thứ tự tăng dần.
2 Chia hình vẽ làm hai cột: Thân/Lá.
3 Xác định và xếp phần thân.
4 Xác định và xếp phần lá.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 35 / 48
Biểu đồ thân-lá

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 36 / 48
Biểu đồ thân và lá

Lưu ý khi vẽ biểu đồ Stem-Leaf


1 Số dữ liệu có hai chữ số, phần thân: hàng chục, phần lá: hàng đơn vị.
2 Số liệu có chữ số thập phân, phần thân: số nguyên, phần lá: số thập phân.
3 Số liệu gồm các số lớn, số được làm tròn cho phù hợp rồi mới biểu diễn
vào phần thân và lá.

Ưu điểm - Hạn chế của biểu đồ Stem-Leaf


1 Ưu điểm:
Cho chúng ta biết mỗi khoảng chứa bao nhiêu điểm.
Thể hiện giá trị cụ thể của từng điểm trên biểu đồ.
Cho biết số điểm được chứa trong mỗi khoảng.
2 Hạn chế: Không phù hợp với dữ liệu có nhiều giá trị quan sát.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 37 / 48
Biểu đồ hộp

Định nghĩa 14. Biểu đồ hộp


1 Là dạng biểu đồ biểu diễn tóm tắt 5 giá trị cơ bản của dữ liệu và các giá
trị ngoại biên.
2 Các 5 giá trị cơ bản của dữ liệu bao gồm: Min; Q1; Median (Q2); Q3 và
Max.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 38 / 48
Thông tin nhận được từ biểu đồ hộp

1 Nếu trung vị gần với trọng tâm của hộp, thì phân phối xấp xỉ đối xứng.
2 Nếu trung vị lệch về bên trái so với trọng tâm của hộp, thì phân phối có
dạng Positive skewness.
3 Nếu trung vị lệch về bên phải so với trọng tâm của hộp, thì phân phối có
dạng Negative skewness.
4 Nếu các đường thẳng nối ở hai cạnh hộp có cùng độ dài, thì phân phối
xấp xỉ đối xứng.
5 Nếu đường thẳng bên phải hộp dài hơn đường bên trái hộp, thì phân phối
có dạng Positive Skewness.
6 Nếu đường thằng bên phải hộp ngắn hơn đường bên phải hộp, thì phân
phối có dạng Negative Skewness.
7 Nếu nhiều biểu đồ hộp được thiết kế trên cùng một hệ trục, thì các phân
phối có thể được so sánh với nhau thông qua các đại lượng đo lường xu
hướng tập trung hoặc biến động, cụ thể:
So sánh độ đo tập trung, sử dụng giá trị trung vị địa phương.
So sánh độ biến động, sử dụng giá trị độ trải giữa.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 39 / 48
Xác định giá trị ngoại biên

Sử dụng điểm z
X −X
1 z= để tìm vị trí tương đối của các điểm số trong một phân bố
σ
đồng thời so sánh với các phân bố có phương sai (độ lệch chuẩn) khác
nhau.
X −X
2 Tính z = .
S
3 Nếu | z |> 3, thì x là giá trị ngoại biên và ngược lại.
Lưu ý: Nếu | z | càng lớn, thì dữ liệu càng xa giá trị trung bình X.

Sử dụng Độ trải giữa (IQR)


Giá trị x là giá trị ngoại biên nếu: x < Q1 − 1.5 × IQR hoặc
x > Q3 + 1.5 × IQR, ở đó IQR = Q3 − Q1 là độ trải giữa.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 40 / 48
Phân phối chuẩn

Phân phối chuẩn chính tắc N (0, 1) và chuẩn tổng quát N (µ, σ 2 )
1 x2
X ' N (0, 1) có mật độ: ϕ(x) = √ .e− 2 ; Hàm phân phối:

1 R x − u2
Φ(x) = √ . e 2 du.
2π −∞
1 (x−µ)2
X ' N (µ, σ 2 ) có mật độ: f (x) = √ .e− 2σ2 .
σ. 2π

Đối xứng qua EX = µ;.

0.5
Mean ≡ Mode ≡ Median = µ. N(2, 0.9)
N(3, 0.9)
V ar(X) = σ 2 .

0.4
N(3, 1.5)

Probability distribution function


Thoải dần về hai phía, hai
0.3
đuôi không cắt trục hoành. 0.2
0.1

X −µ
X ' N (µ, σ 2 ) ⇐⇒ ' N (0, 1).
0.0

σ −2 0 2 4 6 8

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng
x 1 năm 2021 41 / 48
Phân phối chuẩn tổng quát N (µ, σ 2 )

Phân phối chuẩn X ' N (µ, σ 2 )


b − µ a − µ
Khi đó: P {a ≤ X ≤ b} = Φ −Φ
σ σ
X − µ
Nếu X ' N (µ, σ 2 ) ⇐⇒ ' N (0, 1), do đó: thường sử dụng
σ
X −X
zscore = để tìm vị trí tương đối của các điểm số trong một phân
σ
bố đồng thời so sánh với các phân bố có phương sai (độ lệch chuẩn) khác
nhau.

P {µ ≤ X ≤ µ + σ} = 34.13%.
P {µ + σ ≤ X ≤ µ + 2σ} = 13.59%.
P {X ≥ µ + 2σ} = 2.28%.
Quy tắc 2σ:
P {| X − µ |< 2σ} = 95.44%.
Hình 1: The normal distribution following a Quy tắc 3σ:
zscore transformation (Frederick J. G. et all.
(2013))
P {| X − µ |< 3σ} = 99.74%.
X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education
Ngày 22 tháng 1 năm 2021 42 / 48
Biểu đồ xác suất chuẩn

Biểu đồ xác suất chuẩn


Để xác định xem một mẫu có thể có từ một phân phôi chuẩn hay không.

Sắp xếp dữ liệu theo chiều


tăng dần và ký hiệu mỗi giá
trị của dữ liệu đã sắp xếp bởi
xi , (∀i = 1, 2, · · · , n) .
Đánh số các giá trị của dữ
liệu đã sắp xếp từ 1, · · · , n.
Tính các xác suất ứng với
i − 0.5
mỗi giá trị xi : pi = . Nếu các điểm mẫu nằm xấp xỉ trên
n
đường thẳng thì dữ liệu xấp xỉ có
Vẽ pi theo xi . phân phối chuẩn.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 43 / 48
Kiểm định phân phối chuẩn

Có nhiều phần mềm và công cụ thống kê để kiểm định phân phối chuẩn, có
thể kể đến: Jarque-Bera test; Anderson-Darling test; Cramer–von Mises test;
Likelihood ratio test; Kolmogorov–Smirnov test; Shapiro–Wilk test;
Chi-quared test.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 44 / 48
PHẦN II

THỰC HÀNH THỐNG KÊ MÔ TẢ

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 45 / 48
Một số phần mềm thường sử dụng

Một số phần mềm thường sử dụng


1 Phần mềm xử lý bảng tính: MS. Excel; Google Spreadsheets.
2 Các gói lệnh thống kê: R-programme; SPSS; Python; ; AMOS; SAS ...
3 Trực quan hoá dữ liệu: Power BI; JMP...

Công cụ ứng dụng phân tích dữ


liệu, phân tích CTT trong Excel
1 Graph, Chart and Pivot Table.
2 Formulas, Function in Excel.
3 Data Analysis Tools
File → Options → Add-Ins →
Analysis ToolPak → Ok →
Data → Data Analysis

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 46 / 48
Hướng dẫn thực hành

Có dữ liệu sau về kết quả kiểm tra giữa kỳ của hai nhóm học sinh

Nhóm 1 24 25 25 27 27 29 30 31 31 32 36 37 38 57
Nhóm 2 22 33 34 36 37 40 41 43 44 45 47 51 53 54

Học viên có thể tải dữ liệu TẠI ĐÂY. Sử dụng MS Excel, thực hành và trả
lời các yêu cầu sau:
1 Tính các số thống kê về điểm của học sinh mỗi lớp và đưa ra nhận xét.
2 Thiết lập biểu đồ Stem-Leaf và Box plots của hai lớp trên cùng một hệ
trục và đưa ra nhận xét.
3 Tính hệ số tương quan giữa hai nhóm và đưa ra nhận định.
4 Đánh giá sự khác biệt về trung bình điểm của học sinh hai lớp, mức ý
nghĩa 5%.
5 Kiểm định phân phối chuẩn của điểm học sinh hai lớp.

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 47 / 48
MANY THANKS FOR YOUR ATTENTION

X. Q. TRAN (QMF, UEd) Introduction of Applied Statistics in Education


Ngày 22 tháng 1 năm 2021 48 / 48

You might also like