Professional Documents
Culture Documents
c5-8.Pp Nc Định Lượng Spss. Sv- Uef
c5-8.Pp Nc Định Lượng Spss. Sv- Uef
Email: diepntn@uel.edu.vn
NỘI DUNG
§ Cung cấp các kỹ thuật phân tích dữ Các kiến thức cơ bản
liệu cần thiết cho thực hiện NCKH 1)Kỹ thuật phân tích thống kê mô tả
và làm luận án/ luận văn tốt nghiệp. với các loại dữ liệu khác nhau;
2)Các phương pháp kiểm định;
§Học viên tiếp cận kiến nền tảng của 3)Kỹ thuật phân tích nhân tố khám
các công thức toán học cần thiết, từ phá, kiểm định độ tin cậy của
các tình huống gần gũi trong thực thang đo;
tế, mà còn dưới dạng ‘ứng dụng’, 4)Phân tích tương quan, hồi quy;
‘thực hành’ trên phần mềm Eviews, 5)Sử dụng phần mềm SPSS hoặc
SPSS… Eviews 2
TÀI LIỆU THAM KHẢO
§Gerhard Bohm, Günter Zech, Introduction to Statistics and Data
Analysis, 2010.
§Gerald Keller, Brian Warrack, Statistics for management and
economics. 6th Edition
§SPSS Programming and Data Management, 3rd Edition, SPSS Inc.
§Damodar N.Gujarati, Basic Econometrics, McGraw-Hill 2004
§TS. Phạm Cảnh Huy, Bài giảng kinh tế lượng, Nhà xuất bản Đại học
Bách khoa Hà Nội 2008.
§Hoàng Trọng- Chu Nguyễn Mộng Ngọc, Phân tích dữ liệu nghiên
cứu với SPSS , Nhà xuất bản Hồng Đức. 3
NỘI DUNG
1 Giới thiệu phân tích dữ liệu
3 Mô tả dữ liệu
6
5
1 1.1 NC và phân tích dữ liệu
§Trong kinh doanh hiện đại thì kinh nghiệm còn được gọi là "dữ liệu".
"Dữ liệu là Kinh nghiệm“
§Nếu bạn không thu thập dữ liệu bạn đang lãng phí kinh nghiệm của bạn.
§Nhưng dữ liệu là "kinh nghiệm" chỉ là/ hay chỉ được mã hoá bằng
những con số.
§Để dữ liệu giải mã hoặc để hiểu được nó chúng ta cần phải phân tích
(Phân tích dữ liệu).
6
1 1.2 Bản chất của phân tích dữ liệu
§ Thông tin
Khái niệm
§Thống kê là tập hợp các phương pháp dùng để thu thập, phân tích, trình
bày và diễn giải dữ liệu.
§Phân tích dữ liệu cung cấp kinh nghiệm thực hành để đẩy mạnh việc ứng
dụng tư duy thống kê và kỹ thuật thống kê nhằm hiểu rõ các hiện tượng
nghiên cứu làm cơ sở cho việc ra các quyết định phù hợp.
§Máy tính đóng một vai trò rất quan trọng trong phân tích dữ liệu nghiên
cứu.
8
1 1.3 Thống kê và phân tích dữ liệu
§Phương pháp biến số đơn: trong đó chỉ có một biến số duy nhất được
phân tích.
§Phương pháp biến số kép: được sử dụng để tìm hiểu sự liên hệ giữa hai
biến số.
§Phương pháp đa biến: được sử dụng để tìm hiểu sự liên hệ giữa
các biến số với nhau.
9
1 1.4 Quá trình phân tích dữ liệu
Tổng quát
Nhập dữ liệu
10
Tổng quát
Thu thập dữ liệu §Tên biến (name): Là tên đại diện cho biến
§Loại biến (type): Thể hiện dạng dữ liệu thể hiện trong biến.
Mã hóa dữ liệu §Nhãn của biến (label): Tên biến được thể hiện tóm tắt bằng ký hiệu
§Giá trị khuyết (Missing)
Thiết lập cấu trúc DL §Dạng thang đo (measures): Hiển thị dạng thang đo của biến
Kiểm tra, hiệu chỉnh Kiểm tra lỗi (min/max); Tìm lỗi ( Sort case, Edit find)
1 1.4 Quá trình phân tích dữ liệu
Tổng quát
Khám phá dữ liệu §Dữ liệu Categorical (phân loại): Tần suất
§Dữ liệu Numerical (dạng số):
Ømean
Thống kê mô tả Østandard deviation
Øminimum
Ømaximum…
§Bar charts
§Pie charts/ Line graphs
Bảng biểu, đồ thị §Table
§Histogram 12
Tổng quát
Phân tích
§Non-parametric statistics
§ T-tests
§ One-way analysis of variance ANOVA
So sánh các nhóm
§Two-way between groups ANOVA
§Multivariate analysis of variance MANOVA
§Crosstabulation/Chi Square
Mối quan hệ giữa các §Correlation
biến §Regression/Multiple regression 13
§Factor analysis
1 1.5 Các phần mềm ứng dụng
§EXCEL
§SPSS
§EVIEWS
§…………
14
NỘI DUNG (TT)
1 Giới thiệu phân tích dữ liệu
6
15
2 2.1 Phân loại dữ liệu
§Dữ liệu NC thể chia thành 2 loại chính là dữ liệu định tính và dữ liệu
định lượng, các dữ liệu này thu thập bằng 4 thang đo cơ bản như sau:
Dữ liệu
DL DL định
định tính lượng
(a) Thang đo (b) Thang đo (c) Thang đo (d) Thang đo
danh nghĩa khoảng tỷ lệ
(nominal thứ bậc
16
scale) (ordinal scale) (interval scale) (ratio scale)
2 2.1 Phân loại dữ liệu
§Ví dụ 2: Hỏi “Xin vui lòng cho biết tình trạng hôn nhân của bạn hiện
nay?”
Độc thân 1
Đang có gia đình 2
Goá bụa 3
Đã ly hôn 4
Những con số này mang tính định danh vì rõ ràng ta không
thể cộng chúng lại hoặc tính ra giá trị trung bình của tình 17
§Là thang đo được sử dụng để xếp hạng các đồ vật hay hiện tượng theo
một thứ tự nhất định với sự so sánh định tính nào đó về thứ bậc hay sự
hơn kém, nó không cho ta biết được khoảng cách giữa chúng.
§Thang đo xếp hạng theo thứ tự là thang đo biểu danh, nhưng không
phải thang đo biểu danh nào cũng đều là thang đo xếp hạng theo thứ
bậc.
§Đối với thang đo xếp hạng theo thứ tự, khuynh hướng trung tâm có thể
xem xét bằng trung vị; giá trị Mode.
20
2 2.1 Phân loại dữ liệu
• Là loại thang cung cấp định lượng về quan hệ thứ tự giữa các sự vật
và hiện tượng;
• là một dạng đặc biệt của thang đo xếp hạng theo thứ bậc;
• nó nói lên được khoảng cách giữa hai cấp bậc thứ tự (đã được lượng
hoá).
• Trong việc đo lường thái độ hay ý kiến thì thang đo khoảng cách
cung cấp nhiều thông tin hơn so với thang đo xếp hạng theo thứ tự
21
2 2.1 Phân loại dữ liệu
§Ví dụ 1: Đánh giá chất lượng đào tạo của một trường
Rất không đồng ý Rất đồng ý
22
2 2.1 Phân loại dữ liệu
§Ví dụ 2: Phát biểu ý thích về màu sắc sản phẩm nào đó bằng cách đánh
dấu vào bậc thang khoảng cách từ:
12 3 4 56 7
Không thích rất thích
Khi đó, người ta xác định thái độ của mình chính xác ở vào điểm số nào.
23
2 2.1 Phân loại dữ liệu
§Các phép toán thống kê có thể sử dụng thêm cho loại thang đo này (so
với 2 loại thang đo trên) là:
üTính khoảng biến thiên;
üSố trung bình;
üĐộ lệch chuẩn.
Cần chú ý là thang đo khoảng cách tự nó không có điểm 0 tuyệt đối, do đó
bạn chỉ có thể thực hiện được phép tính cộng hay trừ (+/-), nếu dùng phép
chia (/) thì kết quả sẽ không có ý nghĩa. 24
2 2.1 Phân loại dữ liệu
§ Đây là những loại thang đo lường cho phép đánh giá và so sánh các sự vật hiện tượng
một cách tuyệt đối, cung cấp thông tin định lượng một cách đầy đủ nhất và được áp
dụng rộng rãi nhất. Nhiều thang đo tỉ lệ cho thấy những ý nghiã sâu sắc hơn là ba loại
thang đo trước.
§ Đây là thang đo dùng cho tiêu thức số lượng.
Ví dụ: Mức độ chi tiêu cho tiền học của con cái chiếm 30% thu nhập của tôi.
§ Nói chung thang đo khoảng và thang đo tỷ lệ có thể đo lường xu hướng trung tâm
bằng bảng tần số, biểu đồ tần số, trung bình số học. Còn xu hướng phân tán được đo
bằng phương sai, độ lệch chuẩn. Do vậy SPSS gộp chung 2 thang đo này thành một
và gọi là Scale Measures. 25
2 2.1 Phân loại dữ liệu
§ Một đo lường được gọi là có giá trị (Validity) nếu nó đo lường được đúng cái cần đo
lường. Nói cách khác do lường được coi là “lý tưởng” khi Sai lệch trong đo lường
bằng 0 (єm = 0 Khi єs = 0; єr = 0). Thật vậy, nếu X là số đo được của một thuộc tính
nào đó và X0 là số đo thật của nó thì:
X = X0 + єm = X0 + єs + єr
§ Như vậy, nếu chúng ta có thể đo lường được đúng cái cần đo lường thì sự khác biệt về
số đo sẽ phản ánh sự khác nhau về thái độ, ý kiến của đối tượng nghiên cứu.
§ Khi một sự đo lường vắng mặt các sai lệch ngẫu nhiên (єr=0)thì đo lường đó có độ tin
cậy (reliability). Độ tin cậy là điều kiện cần để cho một đo lường có giá trị.
27
2 2.2 Đánh giá đo lường
Xử lý dữ liệu
§Những ghi chép quan sát hoặc các câu trả lời dưới dạng “thô” thành các
con số thống kê theo một trật tự nhất định để chuẩn bị cho việc phân tích
và diễn giải các kết quả nghiên cứu thu được.
28
2 2.2 Đánh giá đo lường
29
2 2.2 Đánh giá đo lường
§ Đây là bước kiểm tra chất lượng thông tin, VD: thông tin trong bảng câu hỏi nhằm
đảm bảo không có bảng câu hỏi nào bị thiếu hoặc chứa đựng những thông tin sai sót
theo yêu cầu thiết kế ban đầu. Người kiểm tra phải bảo đảm tính toàn vẹn và tính
chính xác của từng bảng câu hỏi. Thông thường ở bước này các nhà nghiên cứu sẽ
tiến hành kiểm tra các đặc tính cơ bản của bảng câu hỏi.
§ Quá trình kiểm tra, rà soát lại nhằm mục đích kiểm tra, phát hiện, sửa chữa và thông
báo kịp thời cho người thu thập dữ liệu để tránh những sai sót tương tự. Để xử lý các
sai sót phát hiện được qua kiểm tra, ta có thể chọn cách xử lý tuỳ thuộc vào mức độ
sai sót.
30
2 2.2 Đánh giá đo lường
§ Biến nghiên cứu là tập hợp các khái niệm có ý nghĩa mô tả (định tính, định lượng )
cho mục tiêu nghiên cứu, được thể hiện bằng các ký hiệu (mã hoá) theo một qui ước
nào đó. Biến nghiên cứu được thể hiện và là một bộ phận không thể thiếu trong mô
hình nghiên cứu.
§ Biến nghiên cứu có thể được phân loại theo kiểu dữ liệu (dạng thang đo). Biến định
tính là biến chứa các giá trị quan sát ở dạng thang đo danh nghĩa và thang đo thứ bậc.
Biến định lượng là biến chứa các giá trị quan sát ở dạng thang đo khoảng và thang
đo tỷ lệ. Ví dụ trong bảng câu hỏi, mỗi một câu hỏi thường phải nhằm một mục đích
quan sát nào đó. Do vậy, thường mỗi một câu hỏi tương ứng với một biến quan sát
31
2 2.2 Đánh giá đo lường
Khi đi sâu nghiên cứu về “ chất lượng” sản phẩm, các thuộc tính cấu thành kết luận chất
lượng sản phẩm tốt của mì ăn liền ”Hảo Hảo” gồm có:
(a1.1) Sợi mì dai (khi ăn); (a1.2) Màu sắc của mì và nước dùng tươi ngon; (a1.3) Có thành phần dinh dưỡng
cao; … Và các yếu tố còn lại cũng có các thuộc tính xác định chúng.
Ở VD trên các biến số: a1; a2; a3; a4 là các biến số trực tiếp (cấp 1) tác động đến quyết
32
Thí dụ: Với câu hỏi “ Xin vui lòng cho biết sở thích của bạn đối với sữa chua Vinamilk?
Code: 1 2 3 4 5
Rất ghét Ghét Tạm được Thích Rất thích 33
2 2.2 Đánh giá đo lường
…
2 2.2 Đánh giá đo lường
35
2 2.3 Xử lý dữ liệu
36
2 2.3 Xử lý dữ liệu
37
2 2.3 Xử lý dữ liệu
38
2 2.3 Xử lý dữ liệu
39
2 2.3 Xử lý dữ liệu
40
2 2.3 Xử lý dữ liệu
41
2 2.3 Xử lý dữ liệu
42
2 2.3 Xử lý dữ liệu
43
2 2.3 Xử lý dữ liệu
44
2 2.3 Xử lý dữ liệu
45
2 2.3 Xử lý dữ liệu
46
2 2.3 Xử lý dữ liệu
47
2 2.3 Xử lý dữ liệu
48
2 2.3 Xử lý dữ liệu
49
NỘI DUNG (TT)
1 Giới thiệu phân tích dữ liệu
3 Mô tả dữ liệu
6
50
3 3.1 Các dạng mô tả dữ liệu
51
3 3.2 Mô tả dạng thống kê
§ Nếu các giá trị x1, x2, …xk lần lượt có các tần suất n1, n2, …nk thì giá trị trung bình được tính như
sau:
§ Các đặc tính toán học của giá trị trung bình đóng vai trò rất quan trọng khi các dữ liệu của mẫu được
dùng để suy rộng ra tổng thể (ước lượng) hoặc khi được dùng trong các thí nghiệm thống kê. Phương
52
pháp trung bình số học rất thích hợp khi phân tích các dữ liệu theo khoảng cách.
3 3.2 Mô tả dạng thống kê
§Số trung vị (Median): Là giá trị của số đứng ở vị trí giữa dãy số liệu.
Trước khi xác định giá trị trung vị, cần phải sắp xếp các dữ liệu theo thứ
tự dưới lên hoặc từ trên xuống. Gọi n là số giá trị uan sát được, thì số
trung vị được xác định như sau.
§ Nếu n là số lẻ: thì số trung vị là số có số thứ tự (n+1)/2
§ Nếu n là số chẵn: thì số trung vị là số trung bình cộng của 2 số có thứ tự là n/2 và (n/2) +1
Đặc tính quan trọng của trung vị là không bị ảnh hưởng bởi các giá trị ở hai đầu mút của dãy phân
phối, vì vậy, nếu bảng phân phối có độ lệch lớn nên chọn phép tính giá trị trung vị hơn là trung bình.
§Số mốt (mode): Mốt là số có tần số xuất hiện nhiều nhất trong dãy số 53
3 3.2 Mô tả dạng thống kê
54
3 3.2 Mô tả dạng thống kê
55
3 3.2 Mô tả dạng thống kê
56
3 3.2 Mô tả dạng thống kê
57
3 3.2 Mô tả dạng thống kê
58
3 3.2 Mô tả dạng thống kê
59
3 3.2 Mô tả dạng thống kê
Sử dụng SPSS
60
3 3.2 Mô tả dạng thống kê
§Chức năng: khi có nhiều số liệu cần chia lớp để thấy rõ các nét đặc
trưng cơ bản của dãy số liệu, sau đó kiểm tra tính chuẩn của biến
nghiên cứu.
§Cách làm:
§ Để số liệu trong một cột, một hàng hay một bảng chữ nhật
§ Tìm giá trị Min, Max của miền dữ liệu, tính R = Max – Min
§ Chọn khoảng k, thực tế k: 20-30, ít số liệu k: 6-10
§ Tính khoảng cách giữa các tổ: h = R/k (làm tròn)
§ Có Max, Min, R, k, h ta tạo miền phân tổ bắt đầu từ Min, các giá trị tiếp theo cộng dồn với h, cho đên sát
h thì dừng
61
3 3.2 Mô tả dạng thống kê
62
3 3.2 Mô tả dạng thống kê
63
3 3.3 Mô tả dạng bảng/ biểu
Có 4 dạng đồ thị:
- Bar chart
- Pie chart
- Line graph
- Scatter graph
65
3 3.4 Mô tả dạng đồ thị
66
3 3.4 Mô tả dạng đồ thị
67
3 3.4 Mô tả dạng đồ thị
Cơ cấu lao động của Tp. Cần thơ phân theo trình độ năm 2004
68
3 3.4 Mô tả dạng đồ thị
69
3 3.4 Mô tả dạng đồ thị
70
NỘI DUNG (TT)
1 Giới thiệu phân tích dữ liệu
3 Mô tả dữ liệu
6
71
4 4.1 Ước lượng
72
4 4.1 Ước lượng
73
4 4.1 Ước lượng
74
4 4.1 Ước lượng
4.1.2 Ước lượng Khoảng (tt)- Khoảng tin cậy cho μ khi biết σ
75
4 4.1 Ước lượng
4.1.2 Ước lượng Khoảng (tt)- Khoảng tin cậy cho μ khi biết σ
76
4 4.1 Ước lượng
4.1.2 Ước lượng Khoảng (tt)- Khoảng tin cậy cho μ khi chưa biết σ
77
4 4.1 Ước lượng
a)Với độ tin cậy 0,95 hãy ước lượng chiều dài trung bình của loại sản phẩm nói
trên bằng khoảng tin cậy đối xứng (2 phía).
b)Nếu yêu cầu sai số của ước lượng là 0,05 và giữ nguyên độ tin cậy thì phải 78
điều tra một mẫu kích thước bao nhiêu?
4 4.1 Ước lượng
4.1.2 Ước lượng khoảng/ Khoảng tin cậy cho tỷ lệ tổng thể
§ Giả sử trong tổng thể kích thước n có m phần tử mang dấu hiệu nghiên cứu. Nếu lấy
ngẫu nhiên ra một phần tử và gọi X là số phần tử mang dấu hiệu nghiên cứu được lấy
ra thì X là một đại lượng ngẫu nhiên phân phối theo quy luật không - một với bảng
phân phối xác suất là:
79
4 4.1 Ước lượng
4.1.2 Ước lượng khoảng/ Khoảng tin cậy cho tỷ lệ tổng thể
80
4 4.1 Ước lượng
4.1.2 Ước lượng khoảng/ Khoảng tin cậy cho tỷ lệ tổng thể
§ Ví dụ: Một nghiên cứu được thực hiện nhằm ước lượng thị phần của sản phẩm nội địa
(do các công ty sản xuất trong nước) đối với mặt hàng bánh kẹo. Kết quả điều tra ngẫu
nhiên 100 khách hàng cho thấy có 34 người dùng sản phẩm nội địa. Với độ tin cậy 95%,
hãy ước lượng khoảng tin cậy cho thị phần sản phẩm nội địa.
81
4 4.2 Kiểm định tham số
(1). Kiểm định giả thiết về tham số trung bình μ của tổng thể
(2). Kiểm định sự khác nhau giữa trung bình của hai tổng thể
(3). Kiểm định giả thiết về tỷ lệ của tổng thể
(4). So sánh hai tỷ lệ
82
4 4.2 Kiểm định tham số
84
4 4.2 Kiểm định tham số
(2) Kiểm định sự khác nhau giữa trung bình của hai tổng thể
(2) Kiểm định sự khác nhau giữa trung bình của hai tổng thể (tt)
(2) Kiểm định sự khác nhau giữa trung bình của hai tổng thể (tt)
§Trường hợp chưa biết phương sai của tổng thể.
(2) Kiểm định sự khác nhau giữa trung bình của hai tổng thể (tt)
91
4 4.2 Kiểm định tham số
(3) b.Kiểm định giả thiết về tỷ lệ của 2 tổng thể (so sánh 2 tỷ lệ)
§Giả sử hai đại lượng ngẫu nhiên X và Y tuân theo quy luật phân phối
không - một với E(X) = p1, E(Y) = p2 chưa biết, song có cơ sở nào đó
giả thiết rằng p1 = p2.
§Người ta đưa ra giả thiết H0: p1 = p2. Kiểm định giả thiết:
§ Từ X và Y lập các mẫu ngẫu nhiên cỡ n và m
§ Wn = (X1, X2,…,Xn); Wm = (Y1, Y2,…,Ym)
§ Chọn lập thống kê:
93
Bác bỏ giả thuyết H0, ở mức ý nghĩa a,
Nếu: Z < - Zα/2 hoặc Z > Zα/2
4 4.3 Phân tích phương sai ANOVA
a. Khái niệm
§ANOVA là kỹ thuật thống kê được sử dụng khi chúng ta muốn so sánh
số trung bình của ≥ 3 nhóm. Kỹ thuật này chia phương sai của 1 quan
sát (observation) thành 2 phần: 1phương sai giữa các nhóm (between
groups) và 2phương sai nội nhóm (within group). Do phưong sai là độ
phân tán tương đối của các quan sát so với số trung bình nên việc phân
tích phương sai giúp so sánh các số trung bình dễ dàng (bên cạnh việc
so sánh các phương sai).
§ B1. Giả thiết trong phân tích phương sai một chiều như sau:
§ H0: µ1= µ2 =… = µk
§ H1 : Tồn tại ít nhất một giá trị trung bình của nhóm thứ i (µi) khác với ít nhất một giá trị trung bình của
nhóm còn lại. 94
95
4 4.3 Phân tích phương sai ANOVA
96
§Ví dụ: Giả sử chúng ta muốn phân tích xem có sự khác nhau về độ tuổi
trung bình giữa CBCNV nam và nữ hay không?, khi đó chúng ta sẽ xem
xét mối quan hệ giữa 2 biến:
§ Tuổi (biến định lượng)
§ Giới tính (biến định tính)
97
b. Giữa biến phụ thuộc định lượng với các biến độc lập
99
4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến
b. Giữa biến phụ thuộc định lượng với các biến độc lập (tt)
Có thể sử dụng từ bảng kết quả hồi quy trong excel, Eviews, SPSS 100
4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến
c. Giữa biến độc lập định tính (biến định danh – định danh)
§ Ví dụ: nghiên cứu mối liên hệ giữa việc mua quần áo thời trang và tình trạng hôn
nhân. Khách hàng chia hai loại cao và thấp dựa vào mức độ mua
Vấn đề đặt ra là việc mua quần áo thời trang và tình trạng hôn nhân có liên quan hay không ? 101
(Với α =0,05)
4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến
c. Giữa biến độc lập định tính (biến định danh – định danh) (tt)
§ Ví dụ: Để đánh giá hiệu quả làm tăng chất lượng của một biện pháp công nghệ mới
trên một dây chuyền sản xuất người ta thu thập được các số liệu sau:
Chất lượng Phế phẩm Chính phẩm (cái) Tổng số (cái)
(cái)
Công nghệ
Sau khi thay đổi công nghệ 8 192 200
Trước khi thay đổi công nghệ 92 708 800
Tổng số 100 900 1000
Vấn đề đặt ra là việc áp dụng công nghệ mới và chất lượng có liên quan hay 102
c. Giữa biến độc lập định tính (biến định danh – định danh) (tt)
§ Nếu các dữ kiện của biến ngẫu nhiên được xếp loại theo 2 tiêu chuẩn thì các dữ kiện
sẽ được trình bày trong bảng gồm hàng và cột gọi là bảng dữ kiện ngẫu nhiên 2 chiều.
Tổng quát, bảng ngẫu nhiên 2 chiều gồm r hàng và c cột được trình bày như sau:
103
4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến
c. Giữa biến độc lập định tính (biến định danh – định danh) (tt)
§ Để xác định các biến độc lập hay phụ thuộc, chúng ta dùng kiểm định chi bình
phương, thực hiện như sau:
104
c. Giữa biến độc lập định tính (biến định danh – định danh) (tt)
SPSS: Analyze/ Descriptives statistics / Crosstab
Bấm Statistics để thiết lập
các thống kê
105
4 4.5 Kiểm định phi tham số
c. Giữa biến độc lập định tính (biến định danh – định danh) (tt)
§ Kiểm định phi tham số là các loại kiểm định ít đòi hỏi các giả thiết về phân phối của
dữ kiện. Thông thường, kiểm định phi tham số phù hợp nhất trong các trường hợp
chúng ta không thể dùng các kiểm định tham số, ví dụ dữ liệu mà chúng ta thu thập
là loại dữ liệu định tính (biểu danh hay thứ tự) hoặc khi các dữ liệu thuộc thang đo
lường khoảng cách (interval) nhưng khi kiểm định phân phối chuẩn không thỏa mãn.
Những trường hợp như vậy, chúng ta thường sử dụng phương pháp kiểm định phi
tham số như sau.
1) Kiểm định sự bằng nhau của trung bình trong hai mẫu (Dấu-Sign test, Wilcoxon, McNemar)
2) Kiểm định sự bằng nhau của trung bình trong nhiều hơn hai mẫu (Friedman, Kendall’s W, Cochran’s Q)
3) Kiểm định cho hai mẫu độc lập (Mann-Whitney U)
4) Kiểm định nhiều hơn hai mẫu độc lập (Kruskal-Wallis H) 106
3 Mô tả dữ liệu
6
107
5 Phân tích tương quan và hồi quy
Nội dung
108
5 5.1 Khái niệm phân tích hồi quy
a. Khái niệm
§Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là
biến phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập
nhằm mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ
thuộc khi biết trước giá trị của biến độc lập.
§Ví dụ: Khi chúng ta cố gắng giải thích chi tiêu dùng của mọi người,
chúng ta có thể sử dụng các biến giải thích là thu nhập và độ tuổi. Để
dự đoán khả năng một học sinh cuối cấp trung học phổ thông vào đại
học, chúng ta có thể xem xét đến điểm các bài kiểm tra, trình độ giáo
dục của cha mẹ cũng như thu nhập của gia đình anh ta 109
5 5.1 Khái niệm phân tích hồi quy
Trong đó:
• Yˆ là ước lượng của giá trị trung bình của Y đối với biến X đã biết
•bˆ là ước lượng của β
1 1
Phương pháp bình phương nhỏ nhất- OLS (ordinary least squares).
§ Đây là phương pháp được đưa ra bởi nhà toán học Đức Carl Friedrich Gauss, ký
hiệu OLS (ordinary least squares). Tư tưởng của phương pháp này là cực tiểu tổng
bình phương các phần dư.
112
5 5.2 Mô hình hồi quy đơn
113
5 5.2 Mô hình hồi quy đơn
114
5 5.2 Mô hình hồi quy đơn
115
5 5.2 Mô hình hồi quy đơn
116
5 5.2 Mô hình hồi quy đơn
117
5 5.2 Mô hình hồi quy đơn
§ Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của
biến phụ thuộc, người ta sử dụng R2
Trong đó:
§ TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình.
§ ESS: là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu
118
và giá trị trung bình của chúng. Phần này đo độ chính xác của hàm hồi quy
§ RSS: là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.
5 5.2 Mô hình hồi quy đơn
§Tỉ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình
phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê
“good of fit”. Từ định nghĩa R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn
bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình. Khi đó
người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy; 0 ≤ R2 ≤1
§R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động
của biến phụ thuộc.
§Nếu R2 bằng 0. Nghĩa là mô hình không đưa ra thông tin nào về biến phụ thuộc và dự
đoán tốt nhất về giá trị của biến phụ thuộc là giá trị trung bình của nó. Các biến "giải
119
thích" thực sự không đưa ra được một giải thích nào.
5 5.2 Mô hình hồi quy đơn
120
5 5.2 Mô hình hồi quy đơn
121
5 5.2 Mô hình hồi quy đơn
Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏ
Hai phía βj = βj* βj ≠ βj* t >tα/2 (n-2)
Phía phải βj ≤ βj* βj > βj* t >tα (n-2)
Phía trái βj ≥ βj* βj < βj* t <-tα (n-2) 122
5 5.2 Mô hình hồi quy đơn
123
5 5.2 Mô hình hồi quy đơn
§ Standard Error : Sai số chuẩn của ước lượng hệ số § P-value : Giá trị p
5 5.2 Mô hình hồi quy đơn
Dự báo
125
5 5.2 Mô hình hồi quy đơn
Dự báo (tt)
Dự báo giá trị trung bình của biến phụ thuộc
126
5 5.3 Mô hình hồi quy đa biến (HQ bội)
§Khi chúng ta có tập hợp dữ liệu về một biến kinh tế nào đó (biến này
được gọi là biến phụ thuộc) và các nhân tố ảnh hưởng đến nó (các nhân tố
ảnh hưởng này được gọi là các biến giải thích) thì việc xét đến các ảnh
hưởng riêng biệt (hoặc đồng thời) của nhiều nhân tố đến một biến kinh tế
có thể được giải thích bằng mô hình hồi quy bội.
§Hàm hồi quy bội tổng thể có dạng
y = β1 + β2x2 + β3x3 + . . . βkxk + u PRF Trong đó:
β1: là hệ số tự do (hệ số chặn) βj: là hệ số hồi quy riêng
u: sai số ngẫu nhiên
128
5 5.3 Mô hình hồi quy đa biến (HQ bội)
129
5 5.3 Mô hình hồi quy đa biến (HQ bội)
130
5 5.3 Mô hình hồi quy đa biến (HQ bội)
Ước lượng các tham số của mô hình hồi quy đa biến (tt)
§ Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:
§ Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn. Chúng ta có thể giải k phương trình chuẩn này
để tìm k hệ số beta chưa biết. 131
§ Sự trình bày đơn giản nhất của lời giải này ở dưới dạng đại số ma trận. Tuy nhiên sử dụng phần mềm EViews hay
các phần mềm phân tích dữ liệu khác chúng ta có thể tìm dễ dàng các hệ số hồi quy.
5 5.3 Mô hình hồi quy đa biến (HQ bội)
§ 0≤ R2 ≤1. Nếu R2 =1, có nghĩa là đường hồi quy giải thích 100% thay đổi của y. Nếu
R2 =0, có nghĩa là mô hình không giải thích sự thay đổi nào của y.
§ R2 Là hàm không giảm của số biến giải thích có trong mô hình, do đó nếu tăng số
biến giải thích có trong mô hình thì R2 cũng tăng. Vấn đề cần đặt ra là khi nào cần132
đưa thêm biến giải thích mới vào trong mô hình?
5 5.3 Mô hình hồi quy đa biến (HQ bội)
§ Để ngăn chặn tình trạng “có đưa thêm biến vào mô hình” như đã nêu trên, một phép
đo khác về mức độ thích hợp được sử dụng thường xuyên hơn. Phép đo này gọi là R2
hiệu chỉnh hoặc R2 hiệu chỉnh theo bậc tự do (kết quả này luôn được in ra khi thực
hiện hồi quy bằng những phần mềm chuyên dụng). Để phát triển phép đo này, trước
hết phải nhớ là R2 đo lường tỷ số giữa phương sai của Y “được giải thích” bằng mô
hình; một cách tương đương, nó bằng 1 trừ đi tỷ số “không được giải thích” do
phương sai của sai số Var(u).
§Ta có thể biểu diễn công thức tính như sau:
133
5 5.3 Mô hình hồi quy đa biến (HQ bội)
134
5 5.3 Mô hình hồi quy đa biến (HQ bội)
135
5 5.3 Mô hình hồi quy đa biến (HQ bội)
136
5 5.3 Mô hình hồi quy đa biến (HQ bội)
Sử dụng Eviews
137
5 5.3 Mô hình hồi quy đa biến (HQ bội)
138
5 5.3 Mô hình hồi quy đa biến (HQ bội)
139
5 5.3 Mô hình hồi quy đa biến (HQ bội)
140
5 5.3 Mô hình hồi quy đa biến (HQ bội)
141
NỘI DUNG
1 Giới thiệu phân tích dữ liệu
3 Mô tả dữ liệu
§Phân tích nhân tố là tên chung của một nhóm các thủ tục được sử dụng
chủ yếu để thu nhỏ và tóm tắt các dữ liệu.
§Trong nghiên cứu, chúng ta có thể thu thập được một số lượng biến khá
lớn và hầu hết các biến này có liên hệ với nhau và số lượng của chúng
phải được giảm bớt xuống đến một số lượng mà chúng ta có thể sử dụng
được. Liên hệ giữa các nhóm biết có liên hệ qua lại lẫn nhau được xem
xét và trình bày dưới dạng một số ít các nhân tố cơ bản". Mỗi một biến
quan sát sẽ được tính một tỷ số gọi là Hệ số tải nhân tố (factor loading).
Hệ số này cho người nghiên cứu biết được mỗi biến đo lường sẽ “thuộc 145
§Các nhân tố có thể được diễn tả như những kết hợp tuyến
tính của các biến quan sát:
Fi =Wi1 X1 + Wi 2 X 2 + Wi3 X 3 +... + Wik X k
§ Fi: Ước lượng trị số của nhân tố (factor) thứ i.
§ Wik: là quyền số hay trọng số nhân tố (weight or factor score coefficient) của biến số thứ k đến
nhân tố i.
§ k: Số biến (items).
146
6 6.1. Khái niệm và ứng dụng
§Thực hiện kiểm định độ tin cậy của thang đo bằng hệ số Cronbach’s
Alpha để loại bỏ biến rác hoặc biến có tương quan thấp trong thang
đo lường, các biến quan sát Xk còn lại được đưa vào phân tích nhân tố
khám phá EFA.
§Tiêu chuẩn lựa chọn:
Hệ số Cronbatch Alpha ≥ 0.6.
147
6 6.2. Mô hình phân tích nhân tố
§Mô hình phân tích nhân tố EFA được cho là phù hợp khi các tiêu chuẩn
sau đây được thỏa điều kiện:
1)Hệ số tải nhân tố (Factor Loadings): là những hệ số tương quan đơn giữa các biến
và các nhân tố. Hệ số tải nhân tố lớn hơn 0,3.
2)Tính thích hợp của EFA (Kaiser – Meyer – Olkin): là chỉ số dùng xem xét sự thích
hợp của phân tích nhân tố nếu 0,5 ≤ KMO ≤ 1.
3)Phương sai cộng dồn (cumulative of variance): là phần trăm phương sai toàn bộ
được thích bởi các nhân tố, nghĩa là coi biến thiên 100% thì giá trị này cho biến
phân tích nhân tố cô đọng được bao nhiêu % và bị thất thoát bao nhiêu %. Tiêu
chuẩn để chấp nhận phân tích nhân tố có phương sai cộng dồn lớn hơn 50% với148
Eigenvalue phải lớn hơn 1.
6 6.2. Mô hình phân tích nhân tố
§Mô hình phân tích nhân tố EFA được cho là phù hợp khi các
tiêu chuẩn sau đây được thỏa điều kiện:
4)Trường hợp có một vài biến có hệ số lớn đối với hơn một nhân tố hoặc có nhiều nhân tố có hệ số
lớn trong cùng một biến, việc giải thích sẽ trở nên khó khăn, khi đó chúng ta phải tiến hành xoay
nhân tố. Phương pháp thường dùng là Varimax (Mỗi biến gốc nên có hệ số tải nhân tố lớn (0.4 trở
lên) đối với chỉ một nhân tố được rút ra).
5)Sau khi rút trích được các nhân tố và lưu lại thành các biến mới, chúng ta sẽ sử dụng các biến mới
này thay cho tập hợp biến gốc để đưa vào các phân tích tiếp theo như kiểm định trung bình,
ANOVA, tương quan & hồi quy …
Ví dụ: chúng ta có thể xem có khác biệt giữa nam và nữ hay không về tầm quan trọng của các
lợi ích khi mua kem đánh răng bằng một kiểm định t đối với mẫu độc lập. 149
CHÚ Ý khi chạy t test hay ANOVA không nên dùng nhân số chuẩn hóa
6 6.2. Mô hình phân tích nhân tố
150
6 6.2. Mô hình phân tích nhân tố
151
6 6.2. Mô hình phân tích nhân tố
152
6 6.2. Mô hình phân tích nhân tố
Nhấn vào ô
Descriptives…
153
6 6.2. Mô hình phân tích nhân tố
Chọn xoay
Varimax
154
6 6.2. Mô hình phân tích nhân tố
Bỏ các biến
có giá trị nhỏ hơn 0,5
155
6 6.2. Mô hình phân tích nhân tố
156
6 6.2. Mô hình phân tích nhân tố
157
6 6.2. Mô hình phân tích nhân tố
158
6 6.2. Mô hình phân tích nhân tố
159
END . 160