Thống kê cho khoa học xã hội

TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN –
ĐẠI HỌC QUỐC GIA TPHCM

KHOA BÁO CHÍ VÀ TRUYỀN THÔNG
THỐNG KÊ CHO KHOA HỌC XÃ HỘI

Chủ đề: Thống kê mô tả
Giảng viên hướng dẫn: ThS. Trịnh Thị Nhài
Nhóm thực hiện: Lelet Girls
Thống kê mô tả (Descriptive statistics)
I. Tìm hiểu chung
1. Khái niệm
Thống kê mô tả là phương pháp liên quan đến việc tổ chức, tổng hợp và trình bày
số liệu thu thập được từ mẫu nghiên cứu hoặc tổng thể.
2. Mục đích
Một trong những lý do chính sử dụng phương pháp thống kê là để tổng hợp và mô
tả dữ liệu, làm cho thông tin được trình bày rõ ràng hơn.
Giải thích rõ hơn:
Tổng thể: Ta hiểu một tổng thể là toàn bộ các đối tượng mà ta nghiên cứu, mỗi đối
tượng được gọi là một phần tử của tổng thể và số các phần tử này được gọi là kích
thước của tổng thể.
Khi nghiên cứu tổng thể ta không nghiên cứu trực tiếp tổng thể đó mà thông qua
một hay nhiều dấu hiệu đặc trưng của tổng thể
II. Phương pháp thống kê mô tả dưới dạng bảng

1. Phân phối tần suất
a. Khái niệm
Phân phối tần suất: 1 bảng trình bày số lần xuất hiện của một hay nhiều giá trị
được quan sát trong mẫu hoặc tổng thể
b. Các kiểu phân phối tần suất
- Mô tả dữ liệu thô (raw)
- Phân bổ tần số: biểu diễn dưới dạng tỉ lệ (proportion) và phần trăm (percent)
- Phân bổ tần số lũy tiến (cumulative)
Ví dụ: Giả sử muốn điều tra lượng khách của công ty du lịch A trong năm 2020,
nhân viên thu thập được bảng số liệu (BSL) như sau:
Tháng 1 2 3 4 5 6 7 8 9 10 11 12
Số 43 55 43 52 55 51 55 11 52 43 55 88
Khách 0 0 0 0 0 5 0 0 0 0 0 0
- Phần hàng ngang thứ nhất thể hiện 12 tháng trong năm.
- Phần hàng ngang thứ 2 thể hiện cho số khách đón trong từng tháng.
=> Nhìn vào BSL ta thấy được những thông tin ban đầu. Tuy nhiên đây chỉ là BSL
thô, từ BSL này, ta phải phân tích, tổng hợp và tính các giá trị đặc trưng khác, từ
đó có những kết luận chính xác, cách nhìn toàn diện về dấu hiệu nào đó, kết quả
nào đó mà chúng ta điều tra.
- Giá trị của dấu hiệu: là các số liệu trong bảng: ký hiệu i
- Tần số: của giá trị là số làn xuất hiện của giá trị đó trong BSL
- Lưu ý: Trong BSL có bao nhiêu số liệu thì tổng các tần số phải bằng số đó
=> Tổng các tần số bằng số các số liệu,ký hiệu n
- Tần suất của giá trị kí hiệu fi tỉ số giữa tần số và tổng các tần số. Đơn vị %.
Ký hiệu fi
- Tổng của tần suất bằng 100%
c. Một số ký hiệu sử dụng trong tính toán phân phối tần suất
n = tổng số mẫu quan sát
X = biến
i = giá trị (thành phần) của biến X
fi = tần suất quan sát của giá trị i
d. Bảng phân phối tần suất nên bao gồm:
- Tiêu đề mô tả nội dung của bảng
- Tên biến
- Nhãn giá trị cho các thành phần biến
- Tổng các quan sát của mẫu
- Khai báo nguồn dữ liệu
2. Các dạng bảng phân phối tần suất
a. Bảng phân phối tần suất thô
Bảng phân phối tần suất thô là bảng phân phối với các dữ liệu chưa qua xử lý, tính
toán. Chưa thể hiện nhiều lượng thông tin. Bảng phân phối tần suất thô dưới đây là
một ví dụ. Các số liệu chưa qua các bước tính toán mà mới chỉ dừng lại ở thao tác
đếm đơn thuần.
Bảng 1. Loại nước ngọt ưa thích của sinh viên lớp 12A2
Loại nước ngọt Số đếm được Tần suất
thích (Tally) (Frequency)
1. Coca - Cola 4 4
2. Pepsi 2 2
3. Khác 24 24
Tổng (n) 30 30
Nguồn: Khảo sát lớp học 12A2, tháng 12, năm 2019
b. Bảng phân phối tần suất liên hệ

Đối với bảng phân phối tần suất liên hệ, chúng ta sẽ lập bảng với những thông tin
như sau:
- Cột thứ nhất liệt kê tất cả các biểu hiện có thể có của đối tượng theo đặc
điểm ta đang muốn lập bảng tần số để tóm tắt dữ liệu.
- Cột thứ hai là cột tần suất được điền số liệu bằng cách đếm xem cả bao
nhiêu quan sát có cùng 1 biểu hiện. Tổng của cột tần số phải bằng đúng số
quan sát của tập dữ liệu.
- Cột thứ ba là cột %tỉ lệ. Các % tỉ lệ được tính bằng cách lấy các tần số chia
cho tổng số quan sát của tập dữ liệu.
- Cột thứ tư là cột %tần suất. % tần suất được tính bằng cách lấy các tần số
chia cho tổng số quan sát của tập dữ liệu, đem kết quả nhân cho 100%, rồi
ghi vào cột tần suất tại vị trí tương ứng cùng hàng, nhằm so sánh xem so với
tổng số quan sát thì số đơn vị có cùng biểu hiện chiếm bao nhiêu %
Bảng 2. Loại nước ngọt ưa thích của sinh viên lớp 12A2
Nguồn: Khảo sát lớp học 12A2, tháng 12, năm 2019
Công thức:
Tần suất phần trăm: %i = fi/n * 100
Tần suất tỉ lệ: pi = fi/n
c. Bảng phân phối tần suất lũy tiến
Ngoài ra đối với dữ liệu định lượng hoặc định tính dạng thứ bậc, khi thiết lập bảng
tần số chúng ta có thể xây dựng thêm cột tần số tích lũy và cột và cột tần suất tích
lũy để cung cấp thêm thông tin cho người đọc.
- Tần số tích lũy là số liệu tổng cộng thể hiện số quan sát có giá trị bé hơn
(hoặc bằng) giới hạn trên của tổ mà nó nằm cùng hàng khi tiêu thức thống kê
quan tâm được sắp xếp theo trật tự tăng dần của giá trị). Dữ liệu của cột tần
số tích lũy được tính bằng cách cộng dồn các tần số từ trên xuống cho đến
đúng vị trí tương ứng với biểu hiện mà ta đang muốn tính tần số tích lũy.
- Tần suất tích lũy là số liệu tổng cộng thể hiện tỷ lệ % số quan sát có giá trị
bé hơn (hoặc bằng) giới hạn trên của tổ mà nó nằm cùng hàng (khi tiêu thức
thống kê quan tâm được sắp xếp theo trật tự tăng dần của giá trị). Dữ liệu
của cột tần suất tích lũy được tính bằng cách cộng dồn các tần suất từ trên
xuống cho đến đúng vị trí tương ứng với biểu hiện mà ta đang muốn tính tần
suất tích lũy. Để cảm nhận được giá trị thông tin mà cột tần số tích lũy và
tần suất tích lũy cung cấp chúng ta hãy nghiên cứu ví dụ sau.
Ví dụ: Người ta khảo sát 30 gia đình về số người trong hộ gia đình họ, số liệu thu
được là dữ liệu định lượng dạng ít biểu hiện, bảng tần số được lập với 2 cột thông
tin mới là tần số tích lũy và tần suất tích lũy.
Bảng 3: Số người trong hộ gia đình
Nguồn: Khảo sát thôn 1, tháng 12, năm 2018
Nếu muốn biết có bao nhiêu phần trăm số hộ được điều tra có dưới 10 thành viên,
chúng ta tìm hàng mang giá trị 10 tại cột thứ nhất, tham chiếu sang cột tần suất tích
lũy ta được giá trị 89,99. Như vậy gần 90% các hộ gia đình được hỏi có dưới 10
thành viên, tương ứng với con số tuyệt đối là 27 hộ gia đình.
Cột tần số và tần suất cho biết trong 30 hộ được điều tra, tình trạng phổ biến nhất
là có từ 6 đến 7 thành viên trong gia đình, hiếm khi gặp hộ chỉ có 4 người hay hiếm
khi gặp hộ có trên 10 người.
Ngoài ra ta có thể tham khảo thêm một số kiểu bảng thống kê như sau:
d. Bảng phân phối tần suất cho biến có thang đo thứ bậc
Bảng 4: Học lực của học sinh lớp 11A7
Nguồn: Khảo sát lớp học 11A7, tháng 11, 2020

e. Bảng phân phối tần suất cho biến có thang đo khoảng cách – tỉ lệ
Bảng 5: Danh sách sinh viên lớp TK04 với điểm trung bình chung năm học
Một số câu hỏi thêm:
1. Dữ liệu thô là gì?
Dữ liệu thô (raw data) hay dữ liệu sơ cấp là bảng dữ liệu được thu thập từ một
nguồn nào đó. Bạn có thể tưởng tượng, dữ liệu thô được thu thập từ một nguồn nào
đó, sẽ là một bảng tính với:
Hàng: Tên các đối tượng
Cột: Chứa các biến, mô tả thuộc tính của đối tượng đó
Đây là những dữ liệu chưa qua xử lý. Điều này có nghĩa là dữ liệu thô chưa được
“làm sạch”, bỏ qua các giá trị ngoại biên, loại bỏ các lỗi đọc và nhập dữ liệu. Nói
chung, nó chưa được thực hiện bất kỳ phân tích nào, không bị can thiệp bởi một
thao tác nào khác từ các phần mềm hay con người.
2. Ta sử dụng bảng phân phối tần suất khi nào?
Trong nhiều trường hợp, giá trị của một biến nào đó có sự lặp lại. Mặt khác khi
điều ta quan tâm không chỉ là phần tử nào có giá trị là bao nhiêu mà ta còn muốn
tìm hiểu có bao nhiêu phần tử có giá trị đã cho (phân phối của biến). Trong trường
hợp đó bảng phân phối tần số và/hay tần suất có thể được sử dụng.
III. Mô tả độ tập trung của biến (Central tendency)
1.Yếu vị (Mode): Là Giá trị xuất hiện nhiều lần nhất trong tập một dữ liệu.
-Mode có thể được sử dụng cho tất cả các loại thang đo
-Mode không chịu ảnh hưởng của những giá trị ngoại lệ (giá trị đầu cuối của
dãy phân phối).
VD: 3 6 6 9 9 9 3 6 9 6 3 9 9
mode = 9 (số 3: 3 lần, số 6: 4 lần, số 9: 5 lần)
- Mode có thể không tồn tại trong một dãy phân phối, đôi khi có thể không
tìm ra được số mode hoặc có thể có nhiều số mode.
VD:
Tập dữ liệu không có mode: 1 2 3 4 5 6 7
Tập dữ liệu có 2 mode: 1 2 2 3 3 4 5 6 7
Cách xác định mode:
Trường hợp dữ liệu không phân nhóm =>> Mode là giá trị có tần số lớn nhất
2. Trung vị (Median) – Me: là giá trị đứng giữa trong 1 tập dữ liệu
- Giá trị này chia tập quan sát thành 2 phần đều nhau, 50% số quan sát của tập
dữ liệu có giá trị bé hơn giá trị trung vị và 50% lớn hơn giá trị trung vị.
- Chú ý: Muốn xác định trung vị, các quan sát trong tập dữ liệu này trước tiên
phải được sắp xếp theo trật tự (từ nhỏ đến lớn hay ngược lại) => không tính
toán giá trị trung vị cho biến có thang đo danh nghĩa.
Công thức xác định vị trí của trung vị:
Median x: (n + 1)/2
- Nếu n là số lẻ, thì số trung vị là quan sát ở vị trí thứ (n + 1)/2 trong tập dữ
liệu
- Trong trường hợp n là số chẵn: số trung vị là giá trị trung bình cộng của 2
quan sát nằm ở vị trí chính giữa tập dữ liệu (Tức là 1 quan sát ở vị trí thứ n/2
và một quan sát pử vị trí thứ [(n + 2)/2].)
Ví dụ 1: [(6 + 1)/2]= 3.5 => Giá trị trung vị rơi vào giữa giá trị quan sát thứ 3 và
thứ 4 trong tập dữ liệu.
Ví dụ 2:
63 68 70 78 70 67 57 60 69 74 59 65 55 70 72 69 70 65 65 74 69 65 63 59 75
68 68 65 65 72
Bước 1: sắp xếp thứ tự tập dữ liệu
55 57 59 59 60 63 63 65 65 65 65 65 65 67 68 68 68 69 69 69 70 70 70 70 72
72 74 74 75 78
Bước 2: xác định vị trí trung vị
Median x: (30+1)/2 = 15,5
- Giá trị trung vị nằm ở vị trí thứ 15 (68) và thứ 16 (68) trong tập dữ liệu đã
được sắp xếp
 Giá trị trung vị = (68+68)/2 = 68
Chú ý:
- Khi xác định trung vị, nhiều người hay lẫn lộn giữa vị trí của trung vị và giá
trị của trung vị. Hãy nhớ rằng, ta xác định vị trí trung vị trước để biết trung
vị là quan sát nào, sau đó xem quan sát đó có giá trị bao nhiêu thì đó là giá
trị của trung vị.
- Đối với biến có thang đo thứ bậc: sử dụng bảng phân phối tần suất lũy tiến
để xác định giá trị trung vị.
- Giá trị trung vị chính là giá trị có phần trăm lũy tiến lớn hơn và gần kể
tỷ lệ 50 %
3. Trung bình cộng (Mean): được tính bằng cách cộng tất cả các giá trị của
mỗi quan sát trong tập dữ liệu rồi chia cho tổng số quan sát. Trung bình cộng
là một đại lượng số mô tả độ tập trung của dữ liệu được sử dụng phổ biến
nhất.
Có hai loại số trung bình cộng là:
+ Trung bình cộng đơn giản (mean)
+ Trung bình cộng có trọng số (weight mean).
a. Trung bình cộng đơn giản
∑ xi
x=
n
Trong đó: x là trung bình cộng đơn giản

n là số quan sát hay cỡ mẫu
xi là giá trị trên quan sát thứ i
Ví dụ: Điểm thi Anh văn của 10 em học sinh là: 3, 4, 2, 6, 7, 8, 9, 5, 6, 8. Ta có
trung bình cộng ( điểm thi trung bình của 10 học sinh này) là:
(3++ 4+ 2+ 6+7+ 8+9+5+6+ 8)
x= =5.8
10
b. Trung bình cộng có trọng số

Khi ta áp dụng công thức tính trung bình cộng đơn giản chúng ta giả định
mọi quan sát trong tập dữ liệu đều có tầm quan trọng ngang nhau, tuy nhiên
có tình huống các giá trị quan sát có tầm quan trọng khác nhau, lúc này
chúng ta phải dùng một trọng số thể hiện được mức độ quan trọng và áp
dụng công thức tính trung bình cộng có trọng số
∑w i x i
x w=
Σw i
Trong đó: xi là giá trị quan sát thứ i

wi là các trọng số tương ứng
xw là trung bình cộng có trọng số
Ví dụ: Điểm số trung bình của một sinh viên năm nhất khoa Báo chí sau một học
kỳ với 5 môn đại cương có tín chỉ khác nhau. Để tính điểm trung bình học tập ta
nhân điểm kết thúc môn học với số tín chỉ tương ứng, cộng các kết quả lại rồi đem
chia cho tổng số tín chỉ đã đưa ra.
Môn học Số tín chỉ (wi) Điểm (xi)
Pháp luật đại cương 2 7.5
Xã hội học 2 8.5
Tâm lý học 2 8.0
Triết học Mác-Lênin 3 7.0
Môi trường và phát triển 2 8.0
( 2∗7.5 ) + ( 2∗8.5 ) + ( 2∗8 ) + ( 3∗7 ) +(2∗8) 85

xw = = =7.73
2+2+2+3+2 11
c. Tác động của các giá trị ngoại lệ lên số trung bình cộng:
Trung bình cộng tồn tại một nhược điểm lớn đó là rất nhảy cảm với các giá trị
ngoại lệ (đột biến) – giá trị quá lớn hay quá nhỏ. Do đó, nếu trong dữ liệu của
chúng có xuất hiện giá trị ngoại lệ sẽ làm cho giá trị trung bình tính được khác đi
so với bản chất của nó, làm sai lệch cảm nhận về mức độ tập trung của tập dữ liệu.
Chẳng hạn như ví dụ sau:
Trong tình huống có giá trị ngoại lệ làm ảnh hưởng đến cảm nhận về mức độ tập
trung như vậy, một đại lượng thứ hai mô tả độ tập trung của tập dữ liệu nữa đó là
số trung vị. Để giúp “điều chỉnh” sai lệch trên chúng sẽ được sử dụng đồng thời
với số trung bình cộng.
d. Không tính đại lượng trung bình cho dữ liệu định danh:
Một nhầm lẫn thường gặp phải là tính toán các đại lượng cho dữ liệu đo
lường bằng thang định danh. Chứng minh như sau: Một nhà may điều tra
một nhóm 7 khách hàng để xác định người ta yêu thích những màu vải đen,
trắng hoặc màu khác. Dữ liệu định danh sau đó mã hóa thành:
1 = đen
2 = trắng
3 = màu khác
Thông tin phản hồi của 7 khách hàng đó là: 1, 2, 3, 2, 3, 3, 1
Σ x 1+2+3+ 2+ 3+3+1 15
x= = = = 2.14
n 7 7
Từ kết quả cho thấy khách hàng thích một màu kết hợp giữa màu trắng và một màu
khác ngoài màu đen và phần trắng chiếm nhiều hơn. Kết quả trên không đúng với
thực tế của nó bởi vì không tính được điểm trung bình cho dữ liệu thang định danh.
 Do đó, ta cần nhận thức rõ cấp bậc dữ liệu mình đang làm trước khi tính toán
các đại lượng thống kê mô tả.
e. Có nên cân nhắc việc tính trung bình cho dữ liệu định lượng đo bằng thang
đo khoảng?
Hiện nay vẫn có nhiều điểm bất đồng giữa các nhà thống kê rằng có nên tính trung
bình cho dữ liệu định lượng đo bằng thang đo khoảng hay không. Ví dụ: Ta dùng
thang đo 5 điểm để đánh giá quan điểm của khách hàng đối với các chương trình
truyền hình yêu thích, nội dung của thang đo gồm:
1. Rất thích
2. Thích
3. Bình thường
4. Không thích
5. Ghét
Điểm đánh giá trung bình được tính cần phải so sánh và ghi thông tin của hai nhóm
bởi chúng ta đang tính toán trung bình cho một biến được đo bằng thang đo
khoảng, để so sánh được chúng ta phải có hai giả định:
+ Xem khoảng cách giữa đánh giá 1 và 2 bằng với khoảng cách giữa 2 và 3,
bên tình huống của nhóm hai cũng có khoảng cách tương tự như nhóm 1.
Xét về mặt số học thì là đúng, nhưng xét về vấn đề mà thang đo đánh giá thì
điểm cách biệt giữa rất thích và thích có bằng với thích và bình thường
không? Nếu thật sự không bằng, thì việc so sánh hai trị trung bình đo lường
bằng thang đo khoảng ở đây có thật sự phù hợp?
Trên thực tế, chúng ta vẫn thấy tình huống giá trị trung bình được tính toán phục
cho việc đưa ra quyết định mặc dù vẫn còn nhiều bất cập, hạn chế. Để điều chỉnh
nó, ta vẫn có thể dùng trung vị làm con số đo lường cho mức độ tập trung của tập
dữ liệu.
4. Bài tập
Câu 1: Xạ thủ A và B thi bắn súng, mỗi người bắn 10 phát, kết quả điểm
như sau:
A 6 5 10 8 7 9 7 10 6 5
B 3 6 9 10 10 8 10 9 7 8
Tính điểm trung bình của mỗi xạ thủ và xem ai bắn tốt hơn?
Giải: Áp dụng công thức tính trung bình cộng, ta có:
6+5+10+ 8+ 7+9+7 +10+6+5

Điểm trung bình của xạ thủ A là: 10
=7.3
3+6+9+ 10+10+8+10+ 9+7+8
Điểm trung bình của xạ thủ B là: 10
=8
Qua hai kết quả trên ta xác định được xạ thủ B bắn tốt hơn xạ thủ A.
Câu 2: Cho bảng phân bố tần số: Mức thu nhập trong năm của 30 hộ gia đình
trong môn bản ở vùng núi cao
Mức thu nhập (triệu đồng) Tần số
4 1
5 1
5.5 3
6 4
6.5 5
7 8
7.5 6
12 2
Cộng 30
Tính số trung bình, số trung vị và số mode của các số liệu thống kê đã cho
Giải: Áp dụng công thức tính trung bình cộng, ta có:
( 4∗1 ) + ( 5∗1 ) + ( 5.5∗3 )+ ( 6∗4 )+ ( 6.5∗5 ) + ( 7∗8 ) + ( 7.5∗6 ) +(12∗2)
x= =6.9
30
Số trung bình mức thu nhập trong năm của 30 hộ gia đình trong môn bản ở vùng
núi cao là: 6,9 triệu đồng.
Mode: 7 triệu (8 lần)
Trung vị: xác định vị trí trung vị: Median x: (8+1)/2= 4,5
 Giá trị trung vị nằm ở vị trí thứ 4 (6 triệu) và thứ 5 (6,5 triệu)
Giá trị trxung vị = (6+6,5)/2 = 6,25
IV. Mô tả độ phân tán biến
- Khi nghiên cứu nếu chỉ dựa vào đại lượng đo lường mức độ tập trung biến
thì chưa đủ mà còn cần kết hợp với các đại lượng đo lường mức độ phân tán
biến.
- Ví dụ như trong trường hợp nghiên cứu ảnh hưởng của việc đi làm thêm đến
kết quả học tập của sinh viên, chúng ta khảo sát hai nhóm sinh viên. Nhóm
không đi làm thêm 150 người, nhóm đi làm thêm 100 người. Nếu chúng ta
muốn biết điểm trung bình của nhóm nào cao hơn, ta có thể tính trung bình
cộng của mỗi nhóm rồi so sánh với nhau. Ở đây chúng ta đang sử dụng độ
tập trung biến. Nếu chúng ta muốn biết nhóm sinh viên nào có điểm đồng
đều hơn thì không thể sử dụng phương pháp trên mà phải sử dụng phương
pháp mô tả độ phân tán biến.
3. Khoảng biến thiên – Cách độ (Range)
a. Min/Max
- Giá trị lớn nhất (max) là giá trị có điểm số cao nhất trong tập dữ liệu.
- Giá trị nhỏ nhất (min) là giá trị có điểm số thấp nhất trong tập dữ liệu.
b. Khái niệm
- Cách độ là một đại lượng đo lường mức độ phân tán một cách đơn giản và
dễ hiểu nhất.
- Cách độ được hiểu là khoảng cách giữa giá trị quan sát nhỏ nhất (xmin) và
giá trị quan sát lớn nhất (xmax)
- Công thức tính cách độ:
R = xmax– xmin
Ưu điểm Nhược điểm
Tính toán đơn giản, cho nhận xét - Cách độ chỉ phụ thuộc vào hai
nhanh về độ biến thiên của tổng thể giá trị lớn nhất và bé nhất của
tập dữ liệu nên nó sẽ phụ thuộc
rất nhiều vào các giá trị ngoại
lệ.
Ví dụ:
Dãy số: 111112222333344456
R= 6-1=5
Dãy số 1111122223333444 200
R= 200-1=199
- Cách độ chỉ được tính theo hai
giá trị min max nên bỏ qua
thông tin về cách phân bố nội
bộ tập dữ liệu.
 Vì những lý do này, cách độ được
xem là đại lượng đo lường độ
phân tán yếu nhất và ít được sử
dụng.
Lưu ý: Chỉ nên sử dụng cách độ trong phân bố không có quá nhiều điểm trống số
(trừ các tần số 0) hoặc giữa các số không quá bị trải dài.
2. Phương sai (Variance)
a. Định nghĩa
Phương sai là trung bình cộng của bình phương các độ lệch giữa các lượng
biến với số trung bình cộng của các lượng biến đó.
b. Cách tính đơn giản nhất
Lấy giá trị của từng quan sát trừ đi giá trị trung bình cộng của tất cả các quan
sát này, sau đó cộng tất cả các kết quả lại thành độ lệch trung bình (mean
deviations)
∑ ( x−x )=meandeviations
c. Nhược điểm
Vấn đề đặt ra đối với phương pháp này là tổng các độ lệch của dữ liệu luôn
bằng 0, không có ý nghĩa trong việc đo lường độ phân tán.
(Ví dụ) Bảng: thống kê số trang sách đọc trong một ngày của sinh viên
Sinh viên Trang

1 25
2 35
3 40
4 42
5 43
6 44
7 48
8 51
9 55
10 57
11 59
12 65
Tổng 564
∑ ( x−x )=( 25−47 )+ ( 35−47 ) + ( 40−47 ) + ( 42−47 ) + ( 43−47 ) + ( 44−47 ) + ( 48−47 ) + ( 51−47 ) + ( 55−47 ) + ( 57
d. Công thức
- Phương sai được tính bằng cách lấy tổng các biến thiên giữa từng quan sát
với giá trị trung bình đã được bình phương chia cho tổng số quan sát. Ta có
các công thức tính sau:
- Phương sai tổng thể (population variance)
2
2 ∑ ( x−x )
s= (1)
n
Tuy nhiên không phải lúc nào chúng ta cũng có, hoặc cần toàn bộ số liệu;
có thể ta sẽ chỉ có 1 phần của số liệu đó. (Ví dụ khi phân tích số bánh bán
được mỗi ngày ở một cửa hàng, bạn lấy mẫu sáu ngày ngẫu nhiên và có
các kết quả như sau: 38, 37, 36, 28, 18, 14, 12, 11, 10,7, 9,9. Đây là một
mẫu, không phải tổng thể, bởi bạn không có dữ liệu cho tất cả các ngày
cửa hàng mở cửa).
Phương sai mẫu (sample variance)
∑ ( x−x )2
s2= (2)
n−1
Trong đó: s là phương sai
x là biến quan sát được
x là giá trị trung bình của các giá trị quan sát được
n là tổng số quan sát
Ví dụ (Lấy lại ví dụ ở trên)
Bảng: thống kê số trang sách đọc trong một ngày của sinh viên
Sinh viên Trang
1 25
2 35
3 40
4 42
5 43
6 44
7 48
8 51
9 55
10 57
11 59
12 65
Tổng 564
564
Ta có: x= 12 =47
Ta lập bảng tính phương sai về số lỗi sai:

x-x (x - x ¿2
25-47=-22 484
35-47=-12 144
40-47=-7 49
42-47=-5 25
43-47=-4 16
44-47=-3 9
48-47=1 1
51-47=4 16
55-47=8 64
57-47=10 100
59-47=12 144
65-47=18 324
Tổng 1376
Áp dụng công thức (2)
2 ∑ ( x−x )2
s= =125.1
( n−1 )
Lưu ý:
- Mặc dù phương sai được xem như là một trong những phép tính thống kê để
đo lường độ phân tán, tuy nhiên nó không có ý nghĩa nhiều vì các đơn vị
tính được bình phương lên chứ không phải đơn vị gốc.
- Giá trị này chỉ thực sự có ý nghĩa khi nó được chuyển hóa thành một giá trị
khác gọi là độ lệch chuẩn (Standard Deviation)
3. Độ lệch chuẩn
a. Định nghĩa
Để khắc phục nhược điểm của phương sai là biểu thị một kết quả bình
phương, ta có khái niệm độ lệch chuẩn. Độ lệch chuẩn là giá trị căn bậc
hai của phương sai. Độ lệch chuẩn được dùng để đo mức độ phân tán của
một tập dữ liệu.
b. Công thức
√
2
∑ ( x−x )
s= √ s =
2
n−1
c. Công dụng
Độ lệch chuẩn đo tính biến động tập dữ liệu. Nó cho thấy sự chênh lệch
về giá trị của từng thời điểm đánh giá so với giá trị trung bình. Độ lệch
chuẩn tương ứng với các giá trị quan sát trong tập dữ liệu càng lớn thì độ
biến thiên của tập dữ liệu càng lớn.
Ví dụ: Sử dụng “Bảng thống kê số trang sách đọc trong một ngày của sinh viên”
với phương sai: S2=125,1. Ta có:
Độ lệch chuẩn: s= √ s2 =√125,1=11.18
d. Ứng dụng
Độ lệch chuẩn được áp dụng trong hoạt động đầu tư. Độ lệch chuẩn đo
lường mức độ biến động của thị trường và chứng khoán, từ đó dự đoán
hiệu quả đầu tư. Ngoài ra, độ lệch chuẩn còn là một trong những biện
pháp đo lường rủi ro cơ bản chính khi đầu tư mà các nhà phân tích, quản
lý danh mục đầu tư, cố vấn tài chính sử dụng. Độ chênh lệch càng lớn thì
mức độ rủi ro càng nhiều. Ví dụ một cổ phiếu bất ổn có độ lệch chuẩn
cao, trong khi độ lệch chuẩn của một cổ phiếu blue-chip ổn định thường
khá thấp. Các nhà đầu tư sẽ dựa vào độ lệch chuẩn, đồng thời xem xét
các yếu tố khác (ví dụ như khả năng chịu đựng biến động, mục tiêu đầu
tư) để quyết định có đầu tư hay không.
4. IQV (Index of Qualitative Variation)
a. Định nghĩa
IQV (chỉ số biến đổi định tính) là một thước đo sự thay đổi của các biến
danh nghĩa (ví dụ: chủng tộc, dân tộc, giới tính). Những loại biến số này
phân chia mọi người theo các hạng mục, không giống như một số đo biến
đổi về thu nhập hoặc học vấn, có thể được đo lường từ cao đến thấp. IQV
dựa trên tỷ lệ giữa tổng số khác biệt trong phân phối được xem xét với số
khác biệt tối đa có thể có được.
b. Công thức
k ( N 2−∑ f 2 )
IQV = 2
N ( k−1 )
Trong đó:
k = số các giá trị của biến (số hạng mục)
N = số trường hợp nghiên cứu
Σ f 2= tổng của bình phương tần suất
Ví dụ:
Bảng thống kê số lượng nam và nữ trong lớp học A
Giới tính Tần suất
Nam 10
Nữ 0
Tổng cộng 10
k ( N −∑ f ) 2(100−102 +0 2) 2(100−100−0)
2 2
IQV= 2 = = =0
N ( k −1 ) 100(2−1) 100
Bảng thống kê số lượng nam và nữ trong lớp học B

Giới tính Tần suất
Nam 5
Nữ 5
Tổng cộng 10
k ( N −∑ f )
2 2 2 2
2(100−5 −5 ) 2(100−25−25)
IQV = 2 =¿ = =1
N ( k −1 ) 100 (2−1) 100
c. Đặc điểm
Đại lượng IQV nhận các giá trị từ 0 đến 1:
+ Giá trị 0 cho thấy không có sự biến thiên trong mẫu.
+ Giá trị 1 cho thấy có sự phân bổ đều nhau giữa các giá trị.
d. Ứng dụng
Nếu chúng ta đang xem xét sự đa dạng chủng tộc, dân tộc của một thành phố
theo thời gian, chúng ta có thể kiểm tra IQV hàng năm để xem sự đa dạng đã
phát triển như thế nào. Làm điều này sẽ cho phép chúng ta biết khi nào sự đa
dạng ở mức cao nhất và ở mức thấp nhất.
+ Có 100 người, trong đó gồm 25 người gốc Tây Ban Nha, 25 người da
trắng, 25 người da đen và 25 người châu Á, phân bố của chúng ta hoàn
toàn đa dạng và IQV của chúng ta là 1,00.
+ Sự phân bố chủng tộc ở Arizona và có IQV là 0,85, điều này có nghĩa
là số lượng khác biệt chủng tộc cao.
Bài tập: Sau một học kỳ, giáo viên chủ nhiệm lớp ABC thu thập điểm các môn
học của sinh viên trong lớp để đánh giá tổng quan tình hình học tập của các em. Dữ
liệu thu thập được như sau:
Môn Triết học Mác – Lê-nin
8 5 7 6 8 6 9 10 6 5
10 8 9 7 6 5 7 6 8 4
Môn Thống kê cho Khoa học Xã hội
2 4 9 1 5 9 10 9 4 1
8 5 1 4 4 3 5 3 6 7
a. Tìm giá trị trung bình, trung vị và yếu vị của mỗi môn
b. Tìm khoảng biến thiên (range), phương sai và độ lệch chuẩn của mỗi môn
c. So sánh kết quả của 2 môn, chúng ta có thể kết luận gì về kết quả học tập của
mỗi môn?
d. Môn nào sinh viên có điểm số đồng nhất hơn?
Giải
a. Tìm giá trị trung bình, trung vị và yếu vị của mỗi môn
* Áp dụng công thức tính trung bình cộng, ta có
Điểm trung bình của Triết học Mác-Lênin là:
8+5+7+ 6+8+6+ 9+10+6+ 5+10+8+9+ 7+6+5+ 7+6+8+ 4
=7
20
Điểm trung bình của Thống Kê cho Khoa học xã hội là:
2+ 4+ 9+1+5+9+ 10+ 9+ 4+1+8+5+ 1+ 4+ 4+ 3+5+3+6+7
=5
20
Trung vị của Triết học Mác-Lênin là:
B1: sắp xếp:
4 5 5 5 6 6 6 6 6 7 7 7 8 8 8 8 9 9 10 10
n= 10
B2: xác định vị trí trung vị:
Median x: (10+1)/2= 5,5
 Giá trị trung vị nằm giữa vị trí thứ 5 (6) và thứ 6 (6) trong tập dữ liệu đã
được xếp.
 Giá trị trung vị: (6+6)/2= 6
Trung vị thống kê khoa học xã hội là:
(tương tự cách làm trên)
B1: Sắp xếp
1 1 1 2 3 3 4 4 4 4 5 5 5 6 7 8 9 9 9 10
n= 20
B2: Median x: (20+1)/2= 10,5
 Giá trị trung vị nằm giữa vị trí thứ 10 (4) và thứ 11 (5)
 Giá trị trung vị: (4+5)/2=4,5
Yếu vị Triết học Mác-Lênin: 6
Yếu vị Thống kê khoa học xã hội: 4
b. Tìm khoảng biến thiên (range), phương sai và độ lệch chuẩn của mỗi môn
- Khoảng biến thiên (range)
+ Khoảng biến thiên của môn Triết học Mác – Lê-nin: 10 – 4 = 6
+ Khoảng biến thiên của môn Thống kê cho Khoa học Xã hội: 10 – 1 = 9
- Phương sai:
√
2
+ Phương sai của môn Triết học Mác – Lê-nin: S12 = ∑ ( x− x ) = 53
n−1
√
2
+ Phương sai của môn Thống kê cho Khoa học Xã hội: S2 = ∑ ( x− x ) = 156 2
n−1
- Độ lệch chuẩn
+ Độ lệch chuẩn của môn Triết học Mác – Lê-nin: s1 =√ 53 = 7,28
+ Độ lệch chuẩn của môn Thống kê cho Khoa học Xã hội: s 2=√ 156= 12,49
c. So sánh kết quả của 2 môn, chúng ta có thể kết luận gì về kết quả học tập
của mỗi môn?
Từ các kết quả tính được ở trên, chúng ta có thể thấy nhìn chung tình hình học tập
của sinh viên lớp ABC trong môn học Triết học Mác-Lênin tốt hơn môn Thống kê
cho Khoa học xã hội, cụ thể như sau:
- Dựa vào điểm trung bình thống kê từ hai môn cho ta thấy Triết học Mác-
Lênin (ĐTB = 7), Thống kê cho Khoa học xã hội (ĐTB = 5)
- Dựa trên giá trị trung vị, ta có: Triết học Mác-Lênin có giá trị 6 và Thống kê
cho Khoa học xã hội có giá trị là 4,5.
- Dựa vào khoảng biến thiên của hai môn học: Triết học Mác-Lênin có giá trị
bằng 6 còn Thống kê cho Khoa học xã hội có giá trị bằng 9.
d. Môn nào sinh viên có điểm số đồng nhất hơn?
- Dựa vào độ lệch chuẩn, ta thấy s1 < s2 nên điểm số môn Triết học Mác – Lê-nin
có mức độ đồng nhất hơn.
Nguồn các tài liệu tham khảo

* Tài liệu giấy
(1) Hoàng Trọng - Chu Nguyễn Mộng Ngọc, THỐNG KÊ ỨNG DỤNG trong kinh
tế xã hội, NXB Thống Kê, 2008.
* Tài liệu mạng tiếng Anh
(2) Nicki Lisa Cole, Ph.D., Index of Qualitative Variation, bài đăng trên
https://www.thoughtco.com/
* Tài liệu mạng tiếng Việt
(3) Pham Thi Dieu Thuy, Hướng dẫn sử dụng phần mềm SPSS - Video 11. Kết xuất
các đại lượng thống kê mô tả, video đăng trên https://www.youtube.com/
(4) Recover Data, Dữ liệu thô là gì? Cách phục hồi khi mất dữ liệu thô, bài đăng
trên https://recoverdata.com.vn/
(5) xDuLieu, Bảng phân phối tần số, bài đăng trên http://xdulieu.com/
(6) Ly Tuan Math, ĐẠI SỐ 10 THỐNG KÊ (đầy đủ, chi tiết, có hướng dẫn bấm
máy), video đăng trên https://www.youtube.com/
(7) Hoc360.net, Số trung bình cộng. Số trung vị. Mốt – Sách bài tập toán 10 – Bài
tập Đại số, bài đăng trên https://hoc360.net/
(8) 123doc, Bài giảng thống kê trong nghiên cứu xã hội, bài đăng trên
https://text.123docz.net/trang-chu.htm
(9) Wikipedia Tiếng Việt, Độ lệch chuẩn, bài đăng trên
https://vi.wikipedia.org/wiki/Trang_Ch%C3%ADnh
(10) Lê Thảo, Độ lệch chuẩn (Standard Deviation) là gì? Công thức tính độ lệch
chuẩn, bài đăng trên https://vietnambiz.vn/
(11) wikiHow, Cách để Tính phương sai, bài đăng trên
https://www.wikihow.vn/Trang-Ch%C3%ADnh
DANH SÁCH NHÓM
1. Nguyễn Phương Hoa - 2056030013
2. Nguyễn Như Thảo - 2056030034
3. Phạm Hồng Thảo - 2056030036
4. Hoàng Thị Phương Thảo – 2056030037
5. Phan Thị Trà My - 2056030126
6. Trần Bảo Ngọc – 2056030134
7. Nguyễn Thị Bảo Trân - 2056030168

Thống kê cho khoa học xã hội

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Thống kê cho khoa học xã hội

Uploaded by

Copyright:

Available Formats

TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN –

ĐẠI HỌC QUỐC GIA TPHCM

THỐNG KÊ CHO KHOA HỌC XÃ HỘI

II. Phương pháp thống kê mô tả dưới dạng bảng

b. Bảng phân phối tần suất liên hệ

Nguồn: Khảo sát lớp học 11A7, tháng 11, 2020

Trong đó: x là trung bình cộng đơn giản

b. Trung bình cộng có trọng số

Trong đó: xi là giá trị quan sát thứ i

( 2∗7.5 ) + ( 2∗8.5 ) + ( 2∗8 ) + ( 3∗7 ) +(2∗8) 85

Giải: Áp dụng công thức tính trung bình cộng, ta có:

6+5+10+ 8+ 7+9+7 +10+6+5

Sinh viên Trang

Ta lập bảng tính phương sai về số lỗi sai:

Bảng thống kê số lượng nam và nữ trong lớp học B

Nguồn các tài liệu tham khảo

You might also like