Professional Documents
Culture Documents
CHƯƠNG 7
XỬ LÝ & PHÂN TÍCH DỮ LiỆU
Báo cáo
2
1
Phân tích dữ liệu
• Phân tích dữ liệu là quá trình chuyển từ những dữ liệu rời rạc của
từng quan sát thành những thông tin, những tri thức, hiểu biết đáng
tin cậy.
Söï kieän
Thoâng tin
Döõ lieäu
2
Tổ chức dữ liệu – ma trận dữ liệu
• Quan sát (observation, case): dữ liệu thu thập được từ một đơn vị mẫu
khảo sát thực tế.
• Biến (variable): đơn vị chứa một loại dữ liệu giống nhau (ví dụ giới tính)
• Ma trận (bảng) dữ liệu: tập hợp dữ liệu của nhiều quan sát (dòng) được
sắp xếp thành từng loại rõ ràng (cột-biến).
1 Nữ 21 Sinh viên
2 Nữ 32 Nhân viên văn phòng
3 Nam 53 Về hưu
… … … …
n Nam 42 Nghề khác
1 2 21 10
2 2 32 3
3 1 53 11
… … … …
n 1 42 14
6
3
Ví dụ và thao tác
• Dùng BCH ở phần cuối sách Phân tích Dữ liệu với SPSS:
• Phân tích các câu hỏi, các dữ liệu thu thập được, xác định số biến cần
khởi tạo.
• Thực hành tạo khuôn cho BCH này, chú ý các câu hỏi có nhiều trả lời
và câu hỏi dùng thang đo thứ bậc.
Nhập liệu
• Nhập trực tiếp trong SPSS -> phổ biến trong các NCKH cỡ mẫu không
quá lớn
• Bằng chương trình Data Entry của SPSS (nặng nề, năng suất thấp)
• Nhập bằng chương trình khác (Excel, Fox, …) hay chương trình viết
riêng (không tiện lợi hay mất thời gian viết chương trình nhập) nếu số
lượng mẫu không nhiều.
• Có thể nhiều người nhập song song, rồi ghép file thủ công hay bằng
lệnh Data > Merge files
4
Làm sạch dữ liệu
• Bảng tần số đơn
• Dùng lệnh sort
• Dùng bảng phức
• Các lệnh select cases (filter)
-> Cần có kinh nghiệm, kiến thức liên quan đến đối tượng, bối cảnh, nội
dung nghiên cứu.
5
Bảng thống kê - Tables
Bảng tần số đơn biến: áp dụng cho biến định tính & định lượng -> nếu số
lượng nhóm quá nhiều -> phân tổ lại, mã hóa lại (recode)
Bảng thống kê mô tả: áp dụng cho biến định lượng, tính toán khuynh
hướng tập trung và độ phân tán
Bảng kết hợp nhiều biến:
Bảng kết hợp cho các biến định tính: tính tần số và %.
Bảng kết hợp cho biến định tính và biến định lượng: tính trung bình, median,
độ lệch chuẩn, …
Ghép biến cho dạng câu hỏi có nhiều trả lời và có nhiều biến tương ứng.
11
30
20
10
REVENUES
12
6
Biểu đồ & đồ thị - Graphs
Biểu đồ đơn biến: hình thanh, hình tròn
Nguồn nhận biết
0 20 40 60 80 100
ACB 52 46
Vietcombank 48 39 25
Quy mô các món vay
Agribank 43 42 22 < 10 trđ
> 500 trđ 32%
Incombank 49 36 21 7%
EAB 44 33 19 5
BIDV 40 32 19 11
200 - 500
Sacombank 40 18 15 6 5 18
trđ
VIBank 42 58 21%
Techcombank 35 45 25
10 - 200 trđ
Military Bank 28 28 20 13 3 15
40%
Eximbank 50 17 19 2 7
Haøng haûi 44 15 9 9 21
VP Bank 43 54
52 69 3000
Incombank 6 17 18 47
56 44
Dong A 11 32 EAB 4 17
32 38
BIDV 15 BIDV 7 21
2000
60 28
Sacombank 7 21 3 10
36 35
VIBank 05 2 11
18 53
Techcombank 04 2 28 1000
PROFITS
14 42
Military Bank 01 3 17
41 12
SCB 17 SCB 14 0
24 13
Eximbank 28 02
0 10000 20000 30000 40000
31 8
Phương Nam 17 03 REVENUES
8 9
Hàng Hải 0
0 i 12
8 28
VP Bank 01 2 12
20 7
Phương Đông 03 0
0
Habubank 04
0 % 1 11
38
%
0 20 40 60 80 100 0 20 40 60 80 100 14
7
Biểu đồ & đồ thị - Graphs
Bản đồ nhận thức (không bao gồm trong chương trình này):
.6
SACOMBANK
EAB
KhuyÕn m· i
Vèn lí n
-.6
-.7 0.0 .7
Dimension 1 15
Univariate analysis
8
Độ tập trung & phân tán
Dùng cho dữ liệu định lượng
Khuynh hướng tập trung: mức độ điển hình, mức độ đại diện
Trung bình cộng
Trung vị: ít bị ảnh hưởng bởi các giá trị bất thường
Mốt: có điểm tập trung rõ rệt
Độ phân tán: mức độ chêch lệch (hay đồng đều) giữa các phần tử
Phương sai: độ phân tán bị phóng đại
-> Độ lệch chuẩn
Hình dáng của phân phối: biểu đồ thân và lá, biểu đồ hộp
-> phân phối lệch trái: đa số các đơn vị có mức độ dưới trung bình
-> phân phối lệch phải: đa số các quan sát có mức độ trên trung bình
17
18
9
Chuẩn hóa dữ liệu
x μ xx
z z
σ s
19
Bivariate analysis
10
Liên hệ hai biến định danh
Dữ liệu dưới dạng tần số
Dùng bảng chéo khám phá mối liên hệ
Dùng kiểm định chi bình phương (kiểm định tính độc lập) để xem xét mối
liên hệ có ý nghĩa thống kê hay không
Dùng những thước đo như hệ số liên kết lamda, phi để đo lường độ mạnh
mối liên hệ
21
22
11
Liên hệ một biến định tính và một
biến định lượng
Biến nguyên nhân: biến định danh hay thứ bậc
Biến kết quả: biến định lượng
-> nếu biến nguyên nhân chỉ có 2 nhóm: dùng kiểm định trung bình (kiểm
định t)
-> nếu biến nguyên nhân có từ 3 nhóm trở lên: dùng phân tích phương
sai.
23
24
12
PHÂN TÍCH PHƯƠNG SAI
Analysis of variance
13
Phân tích sâu ANOVA
Khi kết quả kiểm định F trong ANOVA cho thấy các trung bình không bằng
nhau, cần thêm kiểm định chi tiết để phát hiện sự khác biệt giữa các
nhóm.
-> Kiểm định Tukey thường dùng trong phân tích sâu ANOVA
27
14
Hồi qui & tương quan
Tương quan đo lường độ mạnh của mối liên hệ
Hồi qui mô tả hình thức của liên hệ
Biểu đồ phân tán (Scatter) thường được dùng thăm dò mối liên hệ:
• có hay không có liên hệ,
• liên hệ tuyến tính hay phi tuyến tính.
90 90
80 80
70 70
60 60
Tuæi thä TB phô n÷
40 40
-10000 0 10000 20000 30000 2.0 2.5 3.0 3.5 4.0 4.5
29
30
15
Hồi qui & tương quan
Phương trình hồi qui tuyến tính bội:
Thăm dò mối liên hệ giữa từng biến nguyên nhân và biến kết quả bằng
biểu đồ phân tán. Biến đổi nếu mối liên hệ không phải là tuyến tính.
Tìm phương trình hồi qui bội:
• Ý nghĩa của các hệ số hồi qui
• Ý nghĩa thống kê của mô hình hồi qui:
– Kiểm định F: ý nghĩa của cả mô hình
– Kiểm định t: ý nghĩa của từng biến độc lập trong mô hình
– Hệ số xác định mô hình: khả năng biến nguyên nhân giải thích biến
thiên của biến độc lập
• Phân tích phần dư: kiểm tra sự phù hợp của mô hình
31
32
16