Professional Documents
Culture Documents
Chuong 1 - Giới Thiệu Về Dữ Liệu Và Xử Lý Dữ Liệu
Chuong 1 - Giới Thiệu Về Dữ Liệu Và Xử Lý Dữ Liệu
NHẬP MÔN XỬ
LÝ DỮ LIỆU
ĐỊNH LƯỢNG
PGS.TS HOÀNG THU HƯƠNG
TS. ĐÀO THÚY HẰNG
1
2/13/2023
• Kiến thức
Hiểu được đặc điểm, bản chất của dữ liệu và các thao
tác xử lý dữ liệu cơ bản bằng phần mềm xử lý dữ liệu
SPSS.
Đọc, hiểu và phân tích được các bảng kết quả xử lý dữ
liệu trong SPSS.
• Biết cách trình bày và diễn giải dữ liệu trong báo cáo
Chuẩn đầu ra khoa học
• Kỹ năng
của học phần • Sử dụng được phần mềm SPSS trong xử lý dữ liệu định
lượng và kỹ năng phân tích, diễn giải, trình bày dữ liệu
trong trong báo cáo khoa học
• Phẩm chất đạo đức
• Nghiêm túc tuân thủ các chuẩn mực đạo đức nghề
nghiệp trong xử lý và phân tích thông tin thu thập được
• Mức tự chủ và trách nhiệm
• Có khả năng tự xử lý dữ liệu, hướng dẫn và giám sát
việc nhập liệu
2
2/13/2023
Tuần Nội dung chính Tài liệu chính cần đọc Ghi chú
Tuần 5 Một số xử lý trên biến số Trực tuyến
Q1, Q2 tài liệu bắt buộc phần mã hóa biến
- Chuyển định dạng biến
số
Lựa chọn biến số thỏa mãn điều kiện
Tuần 6 Kiểm tra giữa kỳ Trực tiếp
Tuần 7 Thống kê mô tả Q1, Q2 tài liệu bắt buộc phần thống kê mô Trực tiếp
tả
- Tần suất
- Đo lường khuynh hướng trung
tâm
- Đo lường sự biến thiên
Tuần 8 Thống kê mô tả Trực tuyến
- Thực hành
3
2/13/2023
Sinh viên cần đọc, nghiên cứu tài liệu bắt buộc, hoàn thành tất cả các bài tập cá
nhân và tham gia thảo luận trên diễn đàn của lớp học
Sinh viên tham gia tối thiểu 80% số giờ học trên lớp dưới sự hướng dẫn của
giảng viên
Các yêu cầu về tự học: sinh viên nghiên cứu các tài liệu theo yêu cầu của giảng
viên.
Dụng cụ học tập: máy tính có cài đặt phần mềm SPSS để tham gia học trực
tuyến và thực hành
4
2/13/2023
Học liệu (Sử dụng ứng dụng VNU-LIC quét QR-code này để
mượn tài liệu)
LÊ MINH TIẾN (2016), PHƯƠNG PHÁP THỐNG HOÀNG TRỌNG-CHU NGUYÊN MỘNG NGỌC
KÊ TRONG NGHIÊN CỨU XÃ HỘI. NHÀ XUẤT (2008), PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU VỚI
BẢN ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH SPSS. NHÀ XUẤT BẢN HỒNG ĐỨC, TẬP 1
Hình thức kiểm tra, đánh giá kết quả học tập
Kiểm tra, đánh giá thường xuyên: Tham gia, hoàn thành đầy đủ các bài tập và
10% thảo luận đúng thời hạn.
10
5
2/13/2023
Chương 1
11
Thống kê và dữ liệu
Chương 1: Dữ liệu
Giới thiệu
về dữ liệu Thu thập, xử lý và phân tích dữ liệu
12
6
2/13/2023
• Câu chuyện 1:
• Theo dữ liệu công bố về kết quả kỳ thi
THPT 2018 thì: 951 thí sinh có điểm 0
môn toán và 527 thí sinh có điểm 0
môn sử
Dữ liệu này cho biết thông tin gì?
13
của nhà
có đáng ngạc nhiên không?
• Kết quả phân tích xác suất để thí
sinh làm sai tất cả 50 câu hỏi cho
thống kê
thấy kỳ vọng có tối đa 3 thí sinh
đạt điểm 0 môn Toán ‘951 thí
sinh đạt điểm 0 là bất thường’
14
7
2/13/2023
Câu chuyện 2:
15
Câu chuyện 3:
• Theo khảo sát của USA Today/Gallup với thanh thiếu niên trên toàn quốc cho
thấy: 57% thanh thiếu niên đi hẹn hò nói rằng họ đã đi chơi với một người thuộc
chủng tộc hoặc dân tộc khác (Peterson, 1997)
• Bài báo cho biết: kết quả của cuộc khảo sát với 602 thanh thiếu niên được thực
hiện từ ngày 13-20/10 phản ánh sự phổ biến của việc hẹn hò giữa các chủng tộc ở
Mỹ vào thời điểm đó
Với dung lượng mẫu là 602 trong hàng triệu thanh thiếu niên ở Mỹ thì kết quả đó có đại diện cho thanh
thiếu niên ở Mỹ hay không?
16
8
2/13/2023
Câu chuyện 4:
17
Câu hỏi
• Mẫu khảo sát này có độ tin cậy như thế nào? Kết quả
khảo sát có cho phép kết luận về sự đồng tình của
người dân Hà Nội hay không?
18
9
2/13/2023
19
• Trung bình một giờ một tuần trên internet có liên quan
với mức tang 0,03 hoặc 1% trên thang đo trầm cảm
mặc dù mối liên hệ của 2 biến số: thời gian sử dụng
internet và mức độ trầm cảm có mối liên hệ về mặt thống
kê song tác động của việc sử dụng internet đối với trầm
cảm, sự cô đơn và tiếp xúc xã hội thực sự khá nhỏ
20
10
2/13/2023
Như vậy… Mẫu đại diện có thể cung cấp thông tin chính xác
hợp lý về quần thể
21
Thống kê
Các loại thống kê
22
11
2/13/2023
23
24
12
2/13/2023
25
Thống kê mô tả
26
13
2/13/2023
27
Dữ liệu
• Dữ liệu là tập hợp
các dữ kiện phản ánh
sự kiện hay một
nhóm sự kiện, tồn tại
ở nhiều dạng như số,
từ ngữ, hình ảnh, âm
thanh, các phép đo
lường, hoặc các quan
sát, mô tả về sự vật.
28
14
2/13/2023
Dữ liệu thô
• Dữ liệu thô là thuật ngữ sử dụng để chỉ các con số hay các nhãn phân loại
được thu thập nhưng chưa qua bất cứ quá trình xử lý nào (Utts and Heckard,
2007: 13)
• Ví dụ:
• Phiếu khảo sát cá nhân/hộ gia định
• Danh sách bệnh nhân nội trú tại một khoa/bệnh viện
• Danh sách khách hàng của một công ty
• Các video quảng cáo
• ….
29
30
15
2/13/2023
31
32
16
2/13/2023
Thu thập dữ
liệu
33
Bảng mã và định nghĩa hành vi quan sát được thống nhất giữa
các bên
Nghiên cứu của Rusby và cộng Actively connecting with students “Checks in” w/student(s); greeting, statement, question,
physical contact, gesture; not a directive
77%
sự (2013) sử dụng quan sát để Approval Verbal praise or recognition of student(s) behavior; approving 91%
physical contact or gestures
đo lường hoạt động của nhân Criticism Verbal criticism, gestural, or physical contact of disapproval of 97%
viên trường trung học, đặc điểm Tangible reinforce
student behavior; threats of punishment
Giving tangible reinforcement for student behavior (points, 99%
môi trường và hành vi của sinh objects, or privileges)
viên trong các khu vực chung Tangible punitive consequences Tangible punitive consequences for student behavior (removal
points or privileges, remove from activity, discipline referral)
97%
Student Behavior
Noncompliance Student does not follow staff directive for a behavior change (to 96%
start or stop behavior within 5 seconds).
Potentially dangerous behavior Engaged in behavior that is potentially dangerous to self or 74%
others, not safe, misuse of school equipment
Verbal aggression to peer Verbal disapproval or critical judgment of peer that is present 82%
(name calling, swearing at a peer, threats, mean spirited
teasing, angry yelling at peer, exclusion of peer)
Physical aggression to peer Aversive physical contact (e.g., hits, kicks, pushes, restrains, 75%
spits on) a peer
Average inter-rater reliability for student behavior 82%
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3866821/
34
17
2/13/2023
Student Behavior
Verbal aggression .06 .08 .96 .50
Physical aggression .08 .11 2.48 < .001
Potentially dangerous .14 .20 2.39 .002
behavior
Positive behavior 2.71 .62 4.33 < .001
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3866821/
35
• "Mục đích ở Cổ nhuế vì gần nhà thờ thì mới ở, chứ nếu không em sẽ trọ ở trường. Vì ở
Cổ Nhuế ra trường em gần 4 cây hơn xa nhưng mục đích gần nhà thờ nên em ở đây.“
[PVS 8_Nữ_GX Co Nhue 2018]
• "Lúc đầu thì phụ thuộc nhiều yếu tố em ạ. Ai lên Hà Nội thì bản chất cũng tìm gần nhà
thờ. Có những người tìm nhà thờ nhưng bọn anh thì lúc đầu lên Hà Nội anh ở nhà
người quen. Tháng 4 năm 2009 thì anh chuyển ra Chùa Bộc gần học viện ngân hàng
hơn. Lúc đó thời gian rảnh rỗi nhiều hơn thì anh tham dự nhà thờ nhiều hơn.“ [PVS
3_Nam_30 tuoi_ Gioan Bosco - Giao xu Thai Ha]
36
18
2/13/2023
• Penn State University đã thực hiện 1 cuộc khảo sát với câu hỏi “Bạn từng lái xe với tốc độ cao
nhất là bao nhiêu?”
• Kết quả có 87 nam và 102 nữ trả lời như sau:
• Nam: 110 109 90 140 105 150 120 110 110 90 115 95 145 140 110 105 85 95 100 115 124
95 100 125 140 85 120 115 105 125 102 85 120 110 120 115 94 125 80 85 140 120 92 130
125 110 90 110 110 95 95 110 105 80 100 110 130 105 105 120 90 100 105 100 120 100
100 80 100 120 105 60 125 120 100 115 95 110 101 80 112 120 110 115 125 55 90
• Nữ: 80 75 83 80 100 100 90 75 95 85 90 85 90 90 120 85 100 120 75 85 80 70 85 110 85
75 105 95 75 70 90 70 82 85 100 90 75 90 110 80 80 110 110 95 75 130 95 110 110 80 90
105 90 110 75 100 90 110 85 90 80 80 85 50 80 100 80 80 80 95 100 90 100 95 80 80 50
88 90 90 85 70 90 30 85 85 87 85 90 85 75 90 102 80 100 95 110 80 95 90 80 90
37
Cơ sở dữ liệu
Google Data
38
19
2/13/2023
39
Xử lý dữ liệu
• Xử lý dữ liệu là
• quá trình xem xét, làm sạch, chuyển đổi, mô hình hóa dữ liệu với mục
đích khám phá các thông tin hữu ích.
• quá trình chuyển đổi từ dữ liệu thô thành dạng dữ liệu máy tính có thể
đọc được để thực hiện các thủ tục xử lý tiếp theo và biến dữ liệu thô
thành thông tin có thể sử dụng được.
40
20
2/13/2023
• Chuẩn bị dữ liệu: kiểm tra, làm sạch dữ liệu thô để loại bỏ các dữ liệu không đầy đủ,
không chính xác, đảm bảo dữ liệu có chất lượng
• Mã hóa và nhập dữ liệu: Chuyển đổi dữ liệu thô thành dạng máy tính có thể đọc
được
• Xử lý: với sự hỗ trợ của máy tính, các dữ liệu thô được xử lý theo yêu cầu, mục tiêu
của nhà nghiên cứu
• Diễn giải và trình bày dữ liệu: dữ liệu được diễn giải và trình bày, cung cấp thông tin
cho người đọc
41
42
21
2/13/2023
43
44
22
2/13/2023
• Đơn vị quan sát là thực thể được ghi nhận thông tin để tiến hành phân tích
thống kê
• Trong nghiên cứu khoa học xã hội, đơn vị quan sát thường là cá nhân hoặc
một nhóm.
• Dung lượng mẫu của một nghiên cứu cho biết tổng số đơn vị quan sát của
nghiên cứu. Trong thống kê, người ta thường sử dụng ký hiệu ‘n’ để đại
diện cho dung lượng mẫu.
45
Đơn vị quan • Đánh giá nhanh về tác động của đại dịch
Covid-19 lên doanh nghiệp và người lao
46
23
2/13/2023
Biến số
47
Nguồn: Taylor & Cihon (2014), Staticstical Techniques for Data Analysis, CRC Press LLC
48
24
2/13/2023
49
50
25
2/13/2023
Ví dụ thang đo
định danh
51
52
26
2/13/2023
• Ông/bà hay cho biết mức độ đồng ý với “phương án tuyển sinh vào lớp 10
với 4 môn thi”
• Rất đồng ý
• Đồng ý
• Lưỡng lự
• Không đồng ý
53
Thang đo khoảng
54
27
2/13/2023
Ví dụ về thang đo khoảng
55
Thang đo tỷ lệ
• Thang đo tỷ lệ: đây là loại thang đo xếp hạng cao nhất trong
bốn cấp độ đo lường. Thang đo tỷ lệ có tất cả các đặc trưng
của thang đo định danh, thứ bậc và khoảng.
• Thang đo này có giá trị 0 thực, có khả năng cung cấp nhiều
thông tin nhất, cho phép thực hiện tất cả các thủ tục thống kê.
• Biến số tỷ lệ có thể được cộng, trừ, nhân, chia.
56
28
2/13/2023
Ví dụ về thang đo tỷ lệ
57
58
29
2/13/2023
CÁC KIỂU ĐỊNH DẠNG CÂU TRẢ LỜI CHO CÂU HỎI ĐÓNG TRONG
BẢNG HỎI
59
60
30
2/13/2023
61
Quần thể và
mẫu nghiên
cứu
62
31
2/13/2023
• Các phương
pháp chọn mẫu
63
64
32
2/13/2023
65
66
33
2/13/2023
67
34