You are on page 1of 34

2/13/2023

NHẬP MÔN XỬ
LÝ DỮ LIỆU
ĐỊNH LƯỢNG
PGS.TS HOÀNG THU HƯƠNG
TS. ĐÀO THÚY HẰNG

Học phần giúp sinh viên hiểu bản chất


của dữ liệu, quy trình xử lý dữ liệu và
biết cách vận dụng phần mềm xử lý số
Mục tiêu học liệu SPSS để tự mã hóa, nhập liệu, xử lý
phần dữ liệu cơ bản, đọc và diễn giải được dữ
liệu đã xử lý, biết cách trình bày dữ liệu
trong các báo cáo khoa học

1
2/13/2023

• Kiến thức
 Hiểu được đặc điểm, bản chất của dữ liệu và các thao
tác xử lý dữ liệu cơ bản bằng phần mềm xử lý dữ liệu
SPSS.
 Đọc, hiểu và phân tích được các bảng kết quả xử lý dữ
liệu trong SPSS.
• Biết cách trình bày và diễn giải dữ liệu trong báo cáo
Chuẩn đầu ra khoa học
• Kỹ năng
của học phần • Sử dụng được phần mềm SPSS trong xử lý dữ liệu định
lượng và kỹ năng phân tích, diễn giải, trình bày dữ liệu
trong trong báo cáo khoa học
• Phẩm chất đạo đức
• Nghiêm túc tuân thủ các chuẩn mực đạo đức nghề
nghiệp trong xử lý và phân tích thông tin thu thập được
• Mức tự chủ và trách nhiệm
• Có khả năng tự xử lý dữ liệu, hướng dẫn và giám sát
việc nhập liệu

Nội dung học phần

• Chương 1: Giới thiệu về dữ liệu và xử lý dữ liệu


• Chương 2: Giới thiệu về phần mềm xử lý dữ liệu định lượng SPSS
• Chương 3: Quản lý dữ liệu và file dữ liệu trong SPSS
• Chương 4: Làm sạch dữ liệu
• Chương 5: Một số xử lý trên biến số
• Chương 6: Thực hiện thống kê mô tả trong SPSS
• Chương 7: Thực hiện thống kê suy luận cơ bản với SPSS
• Chương 8: Trình bày và diễn giải dữ liệu trong báo cáo khoa học

2
2/13/2023

Kế hoạch và nội dung giảng dạy của


học phần
Tuần Nội dung chính Tài liệu chính cần đọc Ghi chú
Tuần 1 -Giới thiệu về học phần và quy định lớp học Q1, Q2 tài liệu bắt buộc phần Trực tiếp
nội dung về dữ liệu, các loại
-Giới thiệu về dữ liệu và xử lý dữ liệu
dữ liệu

Tuần 2 Q1, Q2 tài liệu bắt buộc, phần Trực tiếp


Giới thiệu về phần mềm xử lý dữ liệu SPSS
giới thiệu về SPSS
Tuần 3 Quản lý dữ liệu và file dữ liệu Trực tuyến

- Mã hóa biến số Q1, Q2 tài liệu bắt buộc phần


- Nhập dữ liệu mã hóa biến số

- Quản lý file dữ liệu


Tuần 4 Làm sạch dữ liệu Trực tuyến
Một số xử lý trên biến số Q1, Q2 tài liệu bắt buộc phần
- Mã hóa lại biến số làm sạch dữ liệu
- Tính toán biến số mới

Kế hoạch và nội dung giảng dạy của


học phần

Tuần Nội dung chính Tài liệu chính cần đọc Ghi chú
Tuần 5 Một số xử lý trên biến số Trực tuyến
Q1, Q2 tài liệu bắt buộc phần mã hóa biến
- Chuyển định dạng biến
số
Lựa chọn biến số thỏa mãn điều kiện
Tuần 6 Kiểm tra giữa kỳ Trực tiếp
Tuần 7 Thống kê mô tả Q1, Q2 tài liệu bắt buộc phần thống kê mô Trực tiếp
tả
- Tần suất
- Đo lường khuynh hướng trung
tâm
- Đo lường sự biến thiên
Tuần 8 Thống kê mô tả Trực tuyến

- Thực hành

3
2/13/2023

Kế hoạch và nội dung giảng dạy của


học phần
Tuần Nội dung chính Tài liệu chính cần đọc Ghi chú

Tuần 9 Thống kê suy luận Trực tiếp


- Ước lượng khoảng cho giá trị trung bình Q1, Q2 tài liệu bắt buộc phần trình
- Khái quát về kiểm định giả thuyết thống kê bày về ước lượng khoảng cho giá trị
- Thực hiện kiểm định Chi-square về mối quan trung bình và kiểm định Chi-square
hệ giữa hai biến định tính
Tuần 10 Thống kê suy luận Trực tuyến
- Thực hiện thủ tục Independent Sample T-test
để so sánh giá trị trung bình của hai mẫu Q1, Q2 tài liệu bắt buộc phần
- Thực hiện thủ tục One-way Anova để so sánh Independent Sample T-test và One-
giá trị trung bình của ba nhóm trở lên trong way Anova
một tổng thể
Trình bày và diễn giải kết quả trong báo cáo
Tuần 11 Thực hành và ôn tập Trực tuyến

Yêu cầu đối với học phần

Sinh viên cần đọc, nghiên cứu tài liệu bắt buộc, hoàn thành tất cả các bài tập cá
nhân và tham gia thảo luận trên diễn đàn của lớp học

Sinh viên tham gia tối thiểu 80% số giờ học trên lớp dưới sự hướng dẫn của
giảng viên

Các yêu cầu về tự học: sinh viên nghiên cứu các tài liệu theo yêu cầu của giảng
viên.

Dụng cụ học tập: máy tính có cài đặt phần mềm SPSS để tham gia học trực
tuyến và thực hành

4
2/13/2023

Học liệu (Sử dụng ứng dụng VNU-LIC quét QR-code này để
mượn tài liệu)

LÊ MINH TIẾN (2016), PHƯƠNG PHÁP THỐNG HOÀNG TRỌNG-CHU NGUYÊN MỘNG NGỌC
KÊ TRONG NGHIÊN CỨU XÃ HỘI. NHÀ XUẤT (2008), PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU VỚI
BẢN ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH SPSS. NHÀ XUẤT BẢN HỒNG ĐỨC, TẬP 1

Hình thức kiểm tra, đánh giá kết quả học tập

Kiểm tra, đánh giá thường xuyên: Tham gia, hoàn thành đầy đủ các bài tập và
10% thảo luận đúng thời hạn.

Bài kiểm tra trắc nghiệm trên lớp (không sử


Kiểm tra, đánh giá giữa kỳ: 30% dụng tài liệu): 60%
Điểm trung bình của các bài tập: 40%

Trắc nghiệm kết hợp với tự luận (không sử


Kiểm tra, đánh giá cuối kỳ: 60% dụng tài liệu)

10

5
2/13/2023

Chương 1

Sau khi học xong chương 1, người học sẽ:


- Nhớ và hiểu được thống kê là gì, có các loại thống kê nào
- Nhớ được định nghĩa dữ liệu và phân biệt được các loại dữ liệu
- Nhớ và hiểu được mục tiêu của phân tích dữ liệu
- Nhớ được một số khái niệm cơ bản trong thống kê như đơn vị quan sát,
biến số, các loại thang đo, quần thể và mẫu nghiên cứu
- Vận dụng được kiến thức đã học để xác định được các loại biến số và
thang đo.

11

Thống kê và dữ liệu

Chương 1: Dữ liệu

Giới thiệu
về dữ liệu Thu thập, xử lý và phân tích dữ liệu

và xử lý dữ Một số khái niệm cơ bản

liệu • Đơn vị quan sát và Biến số


• Các loại thang đo
• Quần thể và mẫu nghiên cứu

12

6
2/13/2023

Một số câu chuyện về dữ liệu


và thống kê

• Câu chuyện 1:
• Theo dữ liệu công bố về kết quả kỳ thi
THPT 2018 thì: 951 thí sinh có điểm 0
môn toán và 527 thí sinh có điểm 0
môn sử
 Dữ liệu này cho biết thông tin gì?

13

Góc nhìn • GS. Nguyễn Tuấn sử dụng thống


kê để trả lời câu hỏi: số lượng thí
sinh đạt điểm 0 các môn như vậy

của nhà
có đáng ngạc nhiên không?
• Kết quả phân tích xác suất để thí
sinh làm sai tất cả 50 câu hỏi cho

thống kê
thấy kỳ vọng có tối đa 3 thí sinh
đạt điểm 0 môn Toán  ‘951 thí
sinh đạt điểm 0 là bất thường’

14

7
2/13/2023

Câu chuyện 2:

Dựa vào dữ liệu điểm thi tốt


nghiệp THPT của các thí sinh,
GS. Nguyễn Tuấn đã thực hiện
phân tích thống kê để trả lời
câu hỏi: “phân bố điểm thi của
thí sinh Hà Giang có khác biệt
một cách đáng chú ý so với
phân bố của cả nước không?”

15

Câu chuyện 3:
• Theo khảo sát của USA Today/Gallup với thanh thiếu niên trên toàn quốc cho
thấy: 57% thanh thiếu niên đi hẹn hò nói rằng họ đã đi chơi với một người thuộc
chủng tộc hoặc dân tộc khác (Peterson, 1997)
• Bài báo cho biết: kết quả của cuộc khảo sát với 602 thanh thiếu niên được thực
hiện từ ngày 13-20/10 phản ánh sự phổ biến của việc hẹn hò giữa các chủng tộc ở
Mỹ vào thời điểm đó

Với dung lượng mẫu là 602 trong hàng triệu thanh thiếu niên ở Mỹ thì kết quả đó có đại diện cho thanh
thiếu niên ở Mỹ hay không?

Nguồn: Seaver (2007), Mind on Statistics, Thomson Learning, Inc. USA.

16

8
2/13/2023

Câu chuyện 4:

• Ngày 3/1/2019: UBND Tp Hà Nội ban hành


quyết định số 12/QĐ-UBND về Nội quy tiếp
công dân tại Trụ sở tiếp công dân Thành phố,
trong đó có quy định “không quay phim, chụp
ảnh, ghi âm khi chưa có sự đồng ý của người
tiếp công dân” đã gặp nhiều ý kiến trái chiều
của dư luận và một số báo đã thực hiện khảo
sát online về sự đồng tình của người dân với
quy định nói trên.

17

Câu hỏi
• Mẫu khảo sát này có độ tin cậy như thế nào? Kết quả
khảo sát có cho phép kết luận về sự đồng tình của
người dân Hà Nội hay không?

18

9
2/13/2023

• The New York Times ngày


30/8/1998 đưa tin “Trong
nghiên cứu tập trung về tác
động tâm lý xã hội của việc
sử dụng internet trong gia
đình, các nhà nghiên cứu
Câu chuyện 5 tại ĐH Mellon Carnegie đã
phát hiện ra rằng những
người sử dụng mạng máy
tính vài giờ một tuần có
mức độ cô đơn và trầm
cảm cao hơn so với những
người ít sử dụng mạng máy
tính thường xuyên”

Nguồn: Seaver (2007), Mind on Statistics, Thomson Learning, Inc. USA.

19

Kết quả thực tế cho thấy:

• Trung bình một giờ một tuần trên internet có liên quan
với mức tang 0,03 hoặc 1% trên thang đo trầm cảm
 mặc dù mối liên hệ của 2 biến số: thời gian sử dụng
internet và mức độ trầm cảm có mối liên hệ về mặt thống
kê song tác động của việc sử dụng internet đối với trầm
cảm, sự cô đơn và tiếp xúc xã hội thực sự khá nhỏ

Nguồn: Seaver (2007), Mind on Statistics, Thomson Learning, Inc. USA.

20

10
2/13/2023

Các phương pháp thống kê đóng vai trò hữu ích


trong quá trình khám phá tri thức

Tóm tắt dữ liệu đơn giản có thể đem lại các


thông tin thú vị và dễ hiểu

Như vậy… Mẫu đại diện có thể cung cấp thông tin chính xác
hợp lý về quần thể

Mẫu không có tính đại diện thì dù lớn cũng


không đem lại sự hiểu biết về quần thể

Phát hiện có ý nghĩa thống kê không nhất thiết


có ý nghĩa thực tế

21

Định nghĩa thống kê

Thống kê
Các loại thống kê

22

11
2/13/2023

Định nghĩa thống kê


• Adolphe Quetelet (người Bỉ) là người đầu
tiên đề xuất ứng dụng thống kê vào
nghiên cứu khoa học xã hội
• tiến hành điều tra các hành vi xã hội
như sinh, tử, tội phạm và tính toán
phân bố, giá trị trung bình của các dữ
liệu để làm rõ đặc điểm của quần thể
• xây dựng chỉ số BMI để lượng hóa
mối quan hệ giữa cân nặng và chiều
cao của con người
Nguồn: Faerstein and Warren
Winkelstein, 2012

23

• Về mặt thuật ngữ:


• Statistik (tiếng Đức) xuất hiện từ cuối thế
kỷ 18, chỉ “khoa học xử lý dữ liệu liên quan
Định nghĩa đến điều kiện của một nhà nước hay cộng
đồng”
thống kê • Statistics (tiếng Anh) do ngài John Sinclair
giới thiệu với nghĩa “dữ liệu số được thu
thập và phân loại” (Harper n.d.)
• Định nghĩa:
• Thống kê là “tập hợp các thủ tục và nguyên
tắc cho việc thu thập dữ liệu và phân tích
thông tin để giúp con người ra các quyết
định trong điều kiện không chắc chắn”
(Utts and Heckard 2007:1)

24

12
2/13/2023

Các loại thống kê

Thống kê mô tả: chỉ áp dụng cho


các thành phần của mẫu hoặc tổng
thể mà từ đó dữ liệu đã được thu
thập

Thống kê suy diễn: việc sử dụng dữ


liệu mẫu có thể có được một số kết
luận nào đó về đặc tính của một
dân số lớn hơn mà mẫu đó đại diện

25

Thống kê mô tả

• Các đại lượng thống kê: Ví dụ về thống kê mô tả


• Đại lượng tần suất (Frequencies),
phần trăm (Percent): cung cấp thông
tin về phân bố tần suất của một tệp
dữ liệu
• Các đại lượng giá trị trung bình
(Mean), độ lệch chuẩn
(Std.Deviation), trung vị (Median),
Mode: cho biết khuynh hướng trung Nguồn: Báo cáo tình hình kinh tế – xã hội tháng 01 năm 2023 – General Statistics Office of Vietnam (gso.gov.vn)

tâm của một tệp dữ liệu.


• Còn các đại lượng như khoảng biến
thiên (Range), tứ phân vị (Quartiles),
phương sai (Variance): cho biết về sự
biến thiên của tệp dữ liệu.

26

13
2/13/2023

Thống kê suy luận

• Mục tiêu của thống kê suy luận là khám phá


một số thuộc tính hoặc mô hình chung của
một quần thể dựa trên việc nghiên cứu một
nhóm nhỏ
• Ví dụ: Dựa trên mẫu nghiên cứu đại diện toàn
quốc cho trẻ em từ 6 – 16 tuổi, nghiên cứu
của Weiss và các cộng sự đã cho thấy tổng thể
vấn đề sức khỏe tâm thần của trẻ em Việt
Nam thấp hơn khoảng 1/3 độ lệch chuẩn so
với mức trung bình quốc tế, song cũng cho
thấy có khoảng 12% dân số chưa trưởng
thành (tương ứng với hơn 3 triệu trẻ em và
thanh thiếu niên) cần tới các dịch vụ chăm
sóc sức khỏe tâm thần (Weiss et al. 2014).

27

Dữ liệu
• Dữ liệu là tập hợp
các dữ kiện phản ánh
sự kiện hay một
nhóm sự kiện, tồn tại
ở nhiều dạng như số,
từ ngữ, hình ảnh, âm
thanh, các phép đo
lường, hoặc các quan
sát, mô tả về sự vật.

28

14
2/13/2023

Dữ liệu thô

• Dữ liệu thô là thuật ngữ sử dụng để chỉ các con số hay các nhãn phân loại
được thu thập nhưng chưa qua bất cứ quá trình xử lý nào (Utts and Heckard,
2007: 13)
• Ví dụ:
• Phiếu khảo sát cá nhân/hộ gia định
• Danh sách bệnh nhân nội trú tại một khoa/bệnh viện
• Danh sách khách hàng của một công ty
• Các video quảng cáo
• ….

29

Các dạng tồn tại của dữ liệu (Taylor &


Cihon, 2004:3-4)

• Dữ liệu đếm được: 1 số dữ


liệu là kết quả của việc đếm
• Dữ liệu rời rạc: là các con số
có phạm vi hữu hạn, chỉ một
vài giá trị riêng lẻ trong phạm
vi đó
• Dữ liệu liên tục: quá trình đo
lường cung cấp các dữ liệu
liên tục

30

15
2/13/2023

Dữ liệu định lượng và dữ liệu định tính

Dữ liệu định lượng Dữ liệu định tính


Nghiên cứu định lượng thường • Nghiên cứu định tính chỉ ra sự phân
tập trung vào các dữ liệu dạng loại các thuộc tính của sự vật, hiện
tượng. Các dữ liệu liên quan đến sự
số, các thông tin về số lượng mô tả này có thể được quan sát
nhưng không thể được tính toán
Dữ liệu định lượng thường có thể thu thập nhanh, • Dữ liệu định tính thường đem lại các
cho phép khái quát hóa, đưa ra kết luận về vấn đề thông tin chi tiết, phong phú và
nghiên cứu ít sai sót và chủ quan hơn, nhưng khó
có thể cho biết toàn bộ câu chuyện, khó lý giải được chuyên sâu, phù hợp với các nghiên
các thông tin khó hiểu hay có thể bỏ lỡ các thông cứu khám phá, nhưng dữ liệu lại
tin quan trọng khác khi quá tập trung vào các con thiếu tính đại diện
số

31

Ví dụ: Năm 2020, Unicef


hợp tác với Trường đại
“70,4% người tham gia nghiên cứu sống tại khu vực thành thị cho
học Y tế công cộng Hà biết con em mình ăn ít bữa trong ngày hơn, trong khi tỷ lệ này ở nông
Nội triển khai một đánh thôn là 29,6%” (Unicef 2020:15)
giá nhanh vào tháng
4/2020 để đánh giá các
tác động tích cực và tiêu
cực ngăn hạn và dài hạn
của đại dịch Covid-19 Nghiên cứu đã chỉ ra “trẻ em không được ăn uống đủ dinh dưỡng
đối với trẻ em cần thiết để phát triển tốt cả về thể chất và nhận thức” và được minh
họa qua một số thông tin thu được qua phỏng vấn sâu như:
“Công việc của ba mẹ em bị ảnh
“So với trước đại dịch khi con còn “Chất lượng bữa ăn của bé cũng
hưởng, không có thu nhập. Nhà em
đi học, chất lượng và sự đa dạng giảm hơn trước, vì chị không có thu
không có tiền để đi chợ, em phải
của các món đã giảm đi rất nhiều” nhập”,
ăn cơm hộp và ăn mì gói suốt”

32

16
2/13/2023

Thu thập dữ
liệu

33

Bảng mã và định nghĩa hành vi quan sát được thống nhất giữa
các bên

Code Definitions % Agree


Staff Behavior

Nghiên cứu của Rusby và cộng Actively connecting with students “Checks in” w/student(s); greeting, statement, question,
physical contact, gesture; not a directive
77%

sự (2013) sử dụng quan sát để Approval Verbal praise or recognition of student(s) behavior; approving 91%
physical contact or gestures
đo lường hoạt động của nhân Criticism Verbal criticism, gestural, or physical contact of disapproval of 97%
viên trường trung học, đặc điểm Tangible reinforce
student behavior; threats of punishment
Giving tangible reinforcement for student behavior (points, 99%
môi trường và hành vi của sinh objects, or privileges)

viên trong các khu vực chung Tangible punitive consequences Tangible punitive consequences for student behavior (removal
points or privileges, remove from activity, discipline referral)
97%

của trường. Average inter-rater reliability for staff behavior 92%

Student Behavior
Noncompliance Student does not follow staff directive for a behavior change (to 96%
start or stop behavior within 5 seconds).
Potentially dangerous behavior Engaged in behavior that is potentially dangerous to self or 74%
others, not safe, misuse of school equipment
Verbal aggression to peer Verbal disapproval or critical judgment of peer that is present 82%
(name calling, swearing at a peer, threats, mean spirited
teasing, angry yelling at peer, exclusion of peer)
Physical aggression to peer Aversive physical contact (e.g., hits, kicks, pushes, restrains, 75%
spits on) a peer
Average inter-rater reliability for student behavior 82%
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3866821/

34

17
2/13/2023

Kết quả quan sát Variable M SD


Staff Practices
F p

Effective behavior 2.70 .78 3.58 < .001


management
Criticism .02 .08 1.58 .07
Positive attention 2.02 .79 5.37 < .001
Approval (praise) .05 .12 3.52 < .001
Tangible reinforcer .01 .05 2.61 .001
• Differences in Staff Practices, School
Environment by School School Environment
Damaged school 1.60 2.30 2.89 .008
property
Graffiti 3.23 3.02 1.19 .33
Display of student 14.58 6.80 4.13 .001
work
Display of student 6.86 4.80 6.18 < .001
recognition
Display of rules and .10 .20 13.48 < .001
expectations

Student Behavior
Verbal aggression .06 .08 .96 .50
Physical aggression .08 .11 2.48 < .001
Potentially dangerous .14 .20 2.39 .002
behavior
Positive behavior 2.71 .62 4.33 < .001

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3866821/

35

Dữ liệu phỏng vấn

• "Mục đích ở Cổ nhuế vì gần nhà thờ thì mới ở, chứ nếu không em sẽ trọ ở trường. Vì ở
Cổ Nhuế ra trường em gần 4 cây hơn xa nhưng mục đích gần nhà thờ nên em ở đây.“
[PVS 8_Nữ_GX Co Nhue 2018]

• "Lúc đầu thì phụ thuộc nhiều yếu tố em ạ. Ai lên Hà Nội thì bản chất cũng tìm gần nhà
thờ. Có những người tìm nhà thờ nhưng bọn anh thì lúc đầu lên Hà Nội anh ở nhà
người quen. Tháng 4 năm 2009 thì anh chuyển ra Chùa Bộc gần học viện ngân hàng
hơn. Lúc đó thời gian rảnh rỗi nhiều hơn thì anh tham dự nhà thờ nhiều hơn.“ [PVS
3_Nam_30 tuoi_ Gioan Bosco - Giao xu Thai Ha]

36

18
2/13/2023

Dữ liệu khảo sát

• Penn State University đã thực hiện 1 cuộc khảo sát với câu hỏi “Bạn từng lái xe với tốc độ cao
nhất là bao nhiêu?”
• Kết quả có 87 nam và 102 nữ trả lời như sau:
• Nam: 110 109 90 140 105 150 120 110 110 90 115 95 145 140 110 105 85 95 100 115 124
95 100 125 140 85 120 115 105 125 102 85 120 110 120 115 94 125 80 85 140 120 92 130
125 110 90 110 110 95 95 110 105 80 100 110 130 105 105 120 90 100 105 100 120 100
100 80 100 120 105 60 125 120 100 115 95 110 101 80 112 120 110 115 125 55 90
• Nữ: 80 75 83 80 100 100 90 75 95 85 90 85 90 90 120 85 100 120 75 85 80 70 85 110 85
75 105 95 75 70 90 70 82 85 100 90 75 90 110 80 80 110 110 95 75 130 95 110 110 80 90
105 90 110 75 100 90 110 85 90 80 80 85 50 80 100 80 80 80 95 100 90 100 95 80 80 50
88 90 90 85 70 90 30 85 85 87 85 90 85 75 90 102 80 100 95 110 80 95 90 80 90

37

Cơ sở dữ liệu
Google Data

38

19
2/13/2023

Bản chất của phân tích dữ liệu

Phân tích Mô hình


Dữ liệu Thông tin Tri thức

Taylor & Cihon (2004: 1)

39

Xử lý dữ liệu

• Xử lý dữ liệu là
• quá trình xem xét, làm sạch, chuyển đổi, mô hình hóa dữ liệu với mục
đích khám phá các thông tin hữu ích.
• quá trình chuyển đổi từ dữ liệu thô thành dạng dữ liệu máy tính có thể
đọc được để thực hiện các thủ tục xử lý tiếp theo và biến dữ liệu thô
thành thông tin có thể sử dụng được.

40

20
2/13/2023

Các bước của quá trình xử lý dữ liệu

• Chuẩn bị dữ liệu: kiểm tra, làm sạch dữ liệu thô để loại bỏ các dữ liệu không đầy đủ,
không chính xác, đảm bảo dữ liệu có chất lượng
• Mã hóa và nhập dữ liệu: Chuyển đổi dữ liệu thô thành dạng máy tính có thể đọc
được
• Xử lý: với sự hỗ trợ của máy tính, các dữ liệu thô được xử lý theo yêu cầu, mục tiêu
của nhà nghiên cứu
• Diễn giải và trình bày dữ liệu: dữ liệu được diễn giải và trình bày, cung cấp thông tin
cho người đọc

41

Phần mềm xử lý dữ liệu

• Xử lý dữ liệu định tính


• Cung cấp công cụ giúp cho các nghiên cứu định tính như
phân tích các bản ghi chép, mã hóa và giải thích các đoạn
văn bản, phân tích nội dung, phân tích thuyết trình.
• Ví dụ: Nvivo, MaxQDA, Atlas.ti, quirkos, …

42

21
2/13/2023

Phần mềm xử lý dữ liệu

• Xử lý dữ liệu định lượng


• IBM SPSS
• Stata
• SAS
•R
•…

43

Một số khái niệm cơ bản

• Đơn vị quan sát và Biến số


• Các loại thang đo
• Quần thể và mẫu

44

22
2/13/2023

Đơn vị quan sát

• Đơn vị quan sát là thực thể được ghi nhận thông tin để tiến hành phân tích
thống kê
• Trong nghiên cứu khoa học xã hội, đơn vị quan sát thường là cá nhân hoặc
một nhóm.
• Dung lượng mẫu của một nghiên cứu cho biết tổng số đơn vị quan sát của
nghiên cứu. Trong thống kê, người ta thường sử dụng ký hiệu ‘n’ để đại
diện cho dung lượng mẫu.

45

Đơn vị quan • Đánh giá nhanh về tác động của đại dịch
Covid-19 lên doanh nghiệp và người lao

sát của nghiên


động Việt Nam đã cho biết “nghiên cứu dựa
trên hai khảo sát mẫu: khảo sát với 292 NLĐ
và 58 doanh nghiệp trong các ngành du lịch,
cứu sau là gì? dệt may, điện tử, chế biến hải sản và chế biến
gỗ trong nửa cuối tháng 4/2020” (ILO 2020)

46

23
2/13/2023

Biến số

• Biến số (Variable): một


đặc điểm có thể biến đổi
từ cá nhân này sang cá
nhân khác

47

Các kiểu đo lường đối tượng nghiên cứu

Nguồn: Taylor & Cihon (2014), Staticstical Techniques for Data Analysis, CRC Press LLC

48

24
2/13/2023

Các loại thang đo

49

• Thang đo định danh là loại thang đo


được dùng để dán nhãn cho các biến số
và không có giá trị định lượng.
Thang đo định • Việc phân tích dữ liệu đối với biến số
danh định danh sẽ được thực hiện bằng cách
sử dụng tỷ lệ phần trăm hoặc Mode.
• Các dữ liệu được đo lường bằng thang
đo định danh này có thể được thu thập
từ:
1) các câu hỏi mở trong bảng hỏi và nhà nghiên
cứu có thể gán các mã và nhãn cho các câu trả lời
thu được
2) các câu hỏi đóng lựa chọn hoặc tùy chọn mà các
phương án trả lời đã được gán nhãn

50

25
2/13/2023

Ví dụ thang đo
định danh

51

• Thang đo thứ bậc: đây cũng là một dạng


thang đo định danh, song các giá trị của
thang đo được sắp xếp theo một trật tự
Thang đo thứ nhất định và sự khác biệt giữa các giá trị
của thang đo không xác định.
bậc • Dữ liệu của thang đo này thường được
trình bày dưới dạng bảng hoặc đồ thị.

52

26
2/13/2023

Ví dụ thang đo thứ bậc

• Ông/bà hay cho biết mức độ đồng ý với “phương án tuyển sinh vào lớp 10
với 4 môn thi”
• Rất đồng ý
• Đồng ý
• Lưỡng lự
• Không đồng ý

53

Thang đo khoảng

Ngoài các thủ tục thống kê


được sử dụng cho hai loại
Thang đo khoảng: các giá
thang đo trên, thang đo
trị của thang đo này được Thang đo khoảng chứa tất
khoảng còn cho phép tính
biểu thị ở dạng thang đo cả các thuộc tính của
toán các giá trị Mean
số và vừa cho biết trật tự thang đo thứ bậc và thang
(trung bình), Median
của các giá trị vừa cho đo định danh, đồng thời
(trung vị) và Mode của dữ
biết các giá trị của biến số cho phép thực hiện các
liệu. Ngoài ra, các phân
có sự cách biệt đều. Trong thủ tục tính toán về sự
tích thống kê mô tả, phân
thang đo khoảng không có khác biệt giữa các biến số.
tích hồi quy cũng được áp
giá trị 0 thực (true zero).
dụng để phân tích biến số
khoảng.

54

27
2/13/2023

Ví dụ về thang đo khoảng

• Hãy cho biết năm nay ông/bà bao nhiêu tuổi?


• Anh/chị học hết lớp mấy?
• Lớp 1
• Lớp 2
• ….
• Lớp 12

55

Thang đo tỷ lệ

• Thang đo tỷ lệ: đây là loại thang đo xếp hạng cao nhất trong
bốn cấp độ đo lường. Thang đo tỷ lệ có tất cả các đặc trưng
của thang đo định danh, thứ bậc và khoảng.
• Thang đo này có giá trị 0 thực, có khả năng cung cấp nhiều
thông tin nhất, cho phép thực hiện tất cả các thủ tục thống kê.
• Biến số tỷ lệ có thể được cộng, trừ, nhân, chia.

56

28
2/13/2023

Ví dụ về thang đo tỷ lệ

1)Tổng thu nhập 1 tháng của ông/bà là bao nhiêu? ………………


triệu đồng
2)Ông/bà dành bao nhiêu thời gian để truy cập internet trong
một ngày? ……….. giờ
3)Hộ gia đình có bao nhiêu thành viên? ……người

57

Các mức độ đo lường

58

29
2/13/2023

CÁC KIỂU ĐỊNH DẠNG CÂU TRẢ LỜI CHO CÂU HỎI ĐÓNG TRONG
BẢNG HỎI

59

Thang đo likert: thứ bậc hay khoảng?


• Lịch sử:
• 1932, Rensis Likert đề xuất thang đo
Likert trong bài viết “Một kỹ thuật đo
lường thái độ”
• Tranh luận:
• Thang đo Likert là thang thứ bậc
• Thang đo Likert là thang khoảng
• Lưu ý:
• Khi xem từng mục Likert: lưu ý sử dụng
kỹ thuật thống kê phù hợp
• Khi xem xét thang đo Likert: là tổng hay
trung bình của các câu trả lời cho các
mục Likert

60

30
2/13/2023

Quần thể và mẫu


nghiên cứu
• Quần thể/ Tổng thể
(Population) là một cá thể hay
một nhóm biểu diễn cho tất cả
các thành viên của một nhóm
hoặc một loại nào đó đang
được quan tâm
• Mẫu là một tập con được lấy ra
từ quần thể

61

Quần thể và
mẫu nghiên
cứu

62

31
2/13/2023

Quần thể và mẫu nghiên cứu

• Các phương
pháp chọn mẫu

63

Lựa chọn loại mẫu


trong nghiên cứu
Phụ thuộc vào: mục tiêu nghiên cứu, đặc trưng
của đối tượng khảo sát, kinh nghiệm, nguồn lực
của nhà nghiên cứu

Mỗi chiến lược chọn mẫu đều có những ưu và


nhược điểm riêng, nên khi thực hiện phân tích
thống kê cần chú ý tới đặc trưng của loại mẫu
nghiên cứu để đưa ra các kết luận phù hợp.

64

32
2/13/2023

Một số nội dung cơ bản cần ghi nhớ


• Thống kê: là tập hợp các thủ tục và nguyên tắc cho việc thu thập dữ liệu và phân tích thông
tin để giúp con người ra các quyết định trong điều kiện không chắc chắn.
• Thống kê mô tả là phương pháp thống kê được sử dụng để mô tả đặc điểm của dữ liệu thu
thập được.
• Thống kê suy luận là phương pháp thống kê dựa trên dữ liệu thu thập được từ mẫu nghiên
cứu để đưa ra các suy luận về tổng thể.
• Dữ liệu là tập hợp các dữ kiện phản ánh sự kiện hay một nhóm sự kiện, tồn tại ở nhiều dạng
như số, từ ngữ, hình ảnh, âm thanh, các phép đo lường, hoặc các quan sát, mô tả về sự vật.
• Dữ liệu được thu thập bằng nhiều phương pháp khác nhau.
• Dữ liệu không đồng nhất với tri thức, để dữ liệu trở thành tri thức cần trải qua quá trình
chuyển đổi dữ liệu từ thu thập, tổ chức dữ liệu, xử lý dữ liệu tới phân tích dữ liệu, báo cáo
dữ liệu và sử dụng dữ liệu.

65

Một số nội dung cơ bản cần ghi nhớ


• Đơn vị quan sát là thực thể được ghi nhận thông tin để tiến hành phân tích thống
kê. Đơn vị quan sát thường là cá nhân hoặc một nhóm
• Dung lượng mẫu của một nghiên cứu cho biết tổng số đơn vị quan sát của nghiên
cứu.
• Biến số là một đặc trưng có thể thay đổi từ trường hợp quan sát này sang trường
hợp quan sát khác.
• Quần thể/Tổng thể là toàn bộ nhóm các đơn vị mà các suy luận sẽ được thực hiện.
• Mẫu là một nhóm các đơn vị được đo lường hoặc khảo sát thực tế

66

33
2/13/2023

Một số nội dung cơ bản cần ghi nhớ


• Thang đo định danh là loại thang đo được dùng để dán nhãn cho các biến số và
không có giá trị định lượng.
• Thang đo thứ bậc: đây cũng là một dạng thang đo định danh, song các giá trị của
thang đo được sắp xếp theo một trật tự nhất định và sự khác biệt giữa các giá trị của
thang đo không xác định.
• Thang đo khoảng: các giá trị của thang đo này được biểu thị ở dạng thang đo số và
vừa cho biết trật tự của các giá trị vừa cho biết các giá trị của biến số có sự cách biệt
đều. Trong thang đo khoảng không có giá trị 0 thực (true zero).
• Thang đo tỷ lệ có tất cả các đặc trưng của thang đo định danh, thứ bậc và khoảng.
Thang đo này có giá trị 0 thực.

67

34

You might also like