c5-8.Pp Nc Định Lượng Spss. Sv- Uef

PHÂN TÍCH DỮ LIỆU
TRONG NGHIÊN CỨU VÀ

KINH DOANH
TS. Nguyễn Thị Ngọc Diệp

ĐH Kinh tế - Luật – ĐH quốc gia TP.HCM
1
Email: diepntn@uel.edu.vn
NỘI DUNG
§ Cung cấp các kỹ thuật phân tích dữ Các kiến thức cơ bản
liệu cần thiết cho thực hiện NCKH 1)Kỹ thuật phân tích thống kê mô tả
và làm luận án/ luận văn tốt nghiệp. với các loại dữ liệu khác nhau;
2)Các phương pháp kiểm định;
§Học viên tiếp cận kiến nền tảng của 3)Kỹ thuật phân tích nhân tố khám
các công thức toán học cần thiết, từ phá, kiểm định độ tin cậy của
các tình huống gần gũi trong thực thang đo;
tế, mà còn dưới dạng ‘ứng dụng’, 4)Phân tích tương quan, hồi quy;
‘thực hành’ trên phần mềm Eviews, 5)Sử dụng phần mềm SPSS hoặc
SPSS… Eviews 2
TÀI LIỆU THAM KHẢO
§Gerhard Bohm, Günter Zech, Introduction to Statistics and Data
Analysis, 2010.
§Gerald Keller, Brian Warrack, Statistics for management and
economics. 6th Edition
§SPSS Programming and Data Management, 3rd Edition, SPSS Inc.
§Damodar N.Gujarati, Basic Econometrics, McGraw-Hill 2004
§TS. Phạm Cảnh Huy, Bài giảng kinh tế lượng, Nhà xuất bản Đại học
Bách khoa Hà Nội 2008.
§Hoàng Trọng- Chu Nguyễn Mộng Ngọc, Phân tích dữ liệu nghiên
cứu với SPSS , Nhà xuất bản Hồng Đức. 3
NỘI DUNG
1 Giới thiệu phân tích dữ liệu
2 Phân loại dữ liệu và một số xử lý trên biến
3 Mô tả dữ liệu
4 Phân tích diễn giải dữ liệu
5 Phân tích tương quan và hồi quy
6 Phân tích nhân tố và đánh độ tin cậy của thang đo

4
NỘI DUNG
6
5
1 1.1 NC và phân tích dữ liệu
§Trong kinh doanh hiện đại thì kinh nghiệm còn được gọi là "dữ liệu".
"Dữ liệu là Kinh nghiệm“
§Nếu bạn không thu thập dữ liệu bạn đang lãng phí kinh nghiệm của bạn.
§Nhưng dữ liệu là "kinh nghiệm" chỉ là/ hay chỉ được mã hoá bằng
những con số.
§Để dữ liệu giải mã hoặc để hiểu được nó chúng ta cần phải phân tích
(Phân tích dữ liệu).
6
1 1.2 Bản chất của phân tích dữ liệu
§Bản thân dữ liệu thô không phải là tri thức.

§Trình tự đi từ dữ liệu đến tri thức:
Mức độ Hiểu biết tri thức

chính xác
của MH
thống kê Sự kiện
§ Thông tin
§ Dữ liệu Mức độ cải thiện các quyết định

1 1.3 Thống kê và phân tích dữ liệu
Khái niệm
§Thống kê là tập hợp các phương pháp dùng để thu thập, phân tích, trình
bày và diễn giải dữ liệu.
§Phân tích dữ liệu cung cấp kinh nghiệm thực hành để đẩy mạnh việc ứng
dụng tư duy thống kê và kỹ thuật thống kê nhằm hiểu rõ các hiện tượng
nghiên cứu làm cơ sở cho việc ra các quyết định phù hợp.
§Máy tính đóng một vai trò rất quan trọng trong phân tích dữ liệu nghiên
cứu.
8
1 1.3 Thống kê và phân tích dữ liệu
Phương pháp phân tích theo các biến số
§Phương pháp biến số đơn: trong đó chỉ có một biến số duy nhất được
phân tích.
§Phương pháp biến số kép: được sử dụng để tìm hiểu sự liên hệ giữa hai
biến số.
§Phương pháp đa biến: được sử dụng để tìm hiểu sự liên hệ giữa
các biến số với nhau.
9
1 1.4 Quá trình phân tích dữ liệu
Tổng quát
Thu thập và Chuẩn bị

Khám phá dữ liệu Phân tích
dữ liệu
So sánh các nhóm

Thu thập dữ liệu Thống kê mô tả
Mối quan hệ giữa các
Mã hóa dữ liệu Bảng biểu, đồ thị
biến
Thiết lập cấu trúc DL
Nhập dữ liệu
10
Kiểm tra, hiệu chỉnh

Tổng quát
Thu thập và Chuẩn bị Từ điều tra, khảo sát ; Từ dữ liệu sẵn có

dữ liệu
Chuyển từ dữ liệu gốc sang dữ liệu được mã hóa
Thu thập dữ liệu §Tên biến (name): Là tên đại diện cho biến
§Loại biến (type): Thể hiện dạng dữ liệu thể hiện trong biến.
Mã hóa dữ liệu §Nhãn của biến (label): Tên biến được thể hiện tóm tắt bằng ký hiệu
§Giá trị khuyết (Missing)
Thiết lập cấu trúc DL §Dạng thang đo (measures): Hiển thị dạng thang đo của biến
Nhập dữ liệu Trực tiếp (Data view) hoặc từ Excell

11
Kiểm tra, hiệu chỉnh Kiểm tra lỗi (min/max); Tìm lỗi ( Sort case, Edit find)
Tổng quát
Khám phá dữ liệu §Dữ liệu Categorical (phân loại): Tần suất
§Dữ liệu Numerical (dạng số):
Ømean
Thống kê mô tả Østandard deviation
Øminimum
Ømaximum…
§Bar charts
§Pie charts/ Line graphs
Bảng biểu, đồ thị §Table
§Histogram 12
§Scatterplots ( Dạng điểm)

Tổng quát
Phân tích
§Non-parametric statistics
§ T-tests
§ One-way analysis of variance ANOVA
So sánh các nhóm
§Two-way between groups ANOVA
§Multivariate analysis of variance MANOVA
§Crosstabulation/Chi Square
Mối quan hệ giữa các §Correlation
biến §Regression/Multiple regression 13
§Factor analysis
1 1.5 Các phần mềm ứng dụng
§EXCEL
§SPSS
§EVIEWS
§…………
14
NỘI DUNG (TT)
6
15
2 2.1 Phân loại dữ liệu
§Dữ liệu NC thể chia thành 2 loại chính là dữ liệu định tính và dữ liệu
định lượng, các dữ liệu này thu thập bằng 4 thang đo cơ bản như sau:
Dữ liệu
DL DL định
định tính lượng
(a) Thang đo (b) Thang đo (c) Thang đo (d) Thang đo
danh nghĩa khoảng tỷ lệ
(nominal thứ bậc
16
scale) (ordinal scale) (interval scale) (ratio scale)
(a) Thang đo danh nghĩa (biểu danh)/ nominal scale (tt)
§Ví dụ 2: Hỏi “Xin vui lòng cho biết tình trạng hôn nhân của bạn hiện
nay?”
Độc thân ⁭1
Đang có gia đình ⁭2
Goá bụa ⁭3
Đã ly hôn ⁭4
Những con số này mang tính định danh vì rõ ràng ta không
thể cộng chúng lại hoặc tính ra giá trị trung bình của tình 17
trạng hôn nhân”.

§Những phép toán thống kê có thể sử dụng cho dạng

thang biểu danh là:
üĐếm;
üTính tần suất của một biểu hiện nào đó;
üXác định giá trị mode;
üThực hiện một số phép kiểm định. 18
§Những phép toán thống kê có thể sử dụng cho dạng

thang biểu danh là:
üĐếm;
üTính tần suất của một biểu hiện nào đó;
üXác định giá trị mode;
üThực hiện một số phép kiểm định. 19
(b) Thang đo thứ bậc/ ordinal scale
§Là thang đo được sử dụng để xếp hạng các đồ vật hay hiện tượng theo
một thứ tự nhất định với sự so sánh định tính nào đó về thứ bậc hay sự
hơn kém, nó không cho ta biết được khoảng cách giữa chúng.
§Thang đo xếp hạng theo thứ tự là thang đo biểu danh, nhưng không
phải thang đo biểu danh nào cũng đều là thang đo xếp hạng theo thứ
bậc.
§Đối với thang đo xếp hạng theo thứ tự, khuynh hướng trung tâm có thể
xem xét bằng trung vị; giá trị Mode.
20
(c) Thang đo khoảng/ interval scale
• Là loại thang cung cấp định lượng về quan hệ thứ tự giữa các sự vật
và hiện tượng;
• là một dạng đặc biệt của thang đo xếp hạng theo thứ bậc;
• nó nói lên được khoảng cách giữa hai cấp bậc thứ tự (đã được lượng
hoá).
• Trong việc đo lường thái độ hay ý kiến thì thang đo khoảng cách
cung cấp nhiều thông tin hơn so với thang đo xếp hạng theo thứ tự
21
§Ví dụ 1: Đánh giá chất lượng đào tạo của một trường
Rất không đồng ý Rất đồng ý
22
§Ví dụ 2: Phát biểu ý thích về màu sắc sản phẩm nào đó bằng cách đánh
dấu vào bậc thang khoảng cách từ:
12 3 4 56 7
Không thích rất thích
Khi đó, người ta xác định thái độ của mình chính xác ở vào điểm số nào.
23
§Các phép toán thống kê có thể sử dụng thêm cho loại thang đo này (so
với 2 loại thang đo trên) là:
üTính khoảng biến thiên;
üSố trung bình;
üĐộ lệch chuẩn.
Cần chú ý là thang đo khoảng cách tự nó không có điểm 0 tuyệt đối, do đó
bạn chỉ có thể thực hiện được phép tính cộng hay trừ (+/-), nếu dùng phép
chia (/) thì kết quả sẽ không có ý nghĩa. 24
(d) Thang đo tỷ lệ/ ratio scale
§ Đây là những loại thang đo lường cho phép đánh giá và so sánh các sự vật hiện tượng
một cách tuyệt đối, cung cấp thông tin định lượng một cách đầy đủ nhất và được áp
dụng rộng rãi nhất. Nhiều thang đo tỉ lệ cho thấy những ý nghiã sâu sắc hơn là ba loại
thang đo trước.
§ Đây là thang đo dùng cho tiêu thức số lượng.
Ví dụ: Mức độ chi tiêu cho tiền học của con cái chiếm 30% thu nhập của tôi.
§ Nói chung thang đo khoảng và thang đo tỷ lệ có thể đo lường xu hướng trung tâm
bằng bảng tần số, biểu đồ tần số, trung bình số học. Còn xu hướng phân tán được đo
bằng phương sai, độ lệch chuẩn. Do vậy SPSS gộp chung 2 thang đo này thành một
và gọi là Scale Measures. 25
(*) Sai lệch trong đo lường

§Sai lệch trong đo lường (measurement error- єm) được chia thành 2
nhóm: Sai lệch hệ thống (systematic error – єs); Sai lệch ngẫu nhiên
(Random error- єr). Và chúng ta có:
єm = єs + єr
§Sai lệch hệ thống là các sai lệch tạo nên một “chệch” cố định (constant
bias) trong đo lường. Chúng xảy ra khi ta đùng thang đo lường không cân
bằng, hay kỹ thuật phỏng vấn kém,…
§Sai lệch ngẫu nhiên là do những sai sót xảy ra trong quá trình thực hiện,
do người thực hiện gây nên như: ghi nhầm; chọn sai ô lựa chọn;… Các sai
lệch ngẫu nhiên có thể do mệt mỏi, nóng giận, buồn chán, sự hiện diện của
26
người khác,… gây ra.

2 2.2 Đánh giá đo lường
Giá trị và độ tin cậy của đo lường
§ Một đo lường được gọi là có giá trị (Validity) nếu nó đo lường được đúng cái cần đo
lường. Nói cách khác do lường được coi là “lý tưởng” khi Sai lệch trong đo lường
bằng 0 (єm = 0 Khi єs = 0; єr = 0). Thật vậy, nếu X là số đo được của một thuộc tính
nào đó và X0 là số đo thật của nó thì:
X = X0 + єm = X0 + єs + єr
§ Như vậy, nếu chúng ta có thể đo lường được đúng cái cần đo lường thì sự khác biệt về
số đo sẽ phản ánh sự khác nhau về thái độ, ý kiến của đối tượng nghiên cứu.
§ Khi một sự đo lường vắng mặt các sai lệch ngẫu nhiên (єr=0)thì đo lường đó có độ tin
cậy (reliability). Độ tin cậy là điều kiện cần để cho một đo lường có giá trị.
27
Xử lý dữ liệu
§Những ghi chép quan sát hoặc các câu trả lời dưới dạng “thô” thành các
con số thống kê theo một trật tự nhất định để chuẩn bị cho việc phân tích
và diễn giải các kết quả nghiên cứu thu được.
28
Các giai đoạn xử lý dữ liệu
Chuẩn bị dữ liệu Nhập dữ liệu và lưu trữ
• Giai đọan này gổm 3 bước: • Giai đọan này cũng

gồm 3 bước:
• Kiểm tra và hiệu chỉnh dữ
liệu; • Nhập dữ liệu vào
máy tính;
• Định biến dữ liệu;
• Làm sạch dữ liệu;
• Mã hóa dữ liệu.
• Lưu trữ dữ liệu.
29
Các giai đoạn xử lý dữ liệu/ Kiểm tra và hiệu chỉnh
§ Đây là bước kiểm tra chất lượng thông tin, VD: thông tin trong bảng câu hỏi nhằm
đảm bảo không có bảng câu hỏi nào bị thiếu hoặc chứa đựng những thông tin sai sót
theo yêu cầu thiết kế ban đầu. Người kiểm tra phải bảo đảm tính toàn vẹn và tính
chính xác của từng bảng câu hỏi. Thông thường ở bước này các nhà nghiên cứu sẽ
tiến hành kiểm tra các đặc tính cơ bản của bảng câu hỏi.
§ Quá trình kiểm tra, rà soát lại nhằm mục đích kiểm tra, phát hiện, sửa chữa và thông
báo kịp thời cho người thu thập dữ liệu để tránh những sai sót tương tự. Để xử lý các
sai sót phát hiện được qua kiểm tra, ta có thể chọn cách xử lý tuỳ thuộc vào mức độ
sai sót.
30
Các giai đoạn xử lý dữ liệu/ Định biến DL
§ Biến nghiên cứu là tập hợp các khái niệm có ý nghĩa mô tả (định tính, định lượng )
cho mục tiêu nghiên cứu, được thể hiện bằng các ký hiệu (mã hoá) theo một qui ước
nào đó. Biến nghiên cứu được thể hiện và là một bộ phận không thể thiếu trong mô
hình nghiên cứu.
§ Biến nghiên cứu có thể được phân loại theo kiểu dữ liệu (dạng thang đo). Biến định
tính là biến chứa các giá trị quan sát ở dạng thang đo danh nghĩa và thang đo thứ bậc.
Biến định lượng là biến chứa các giá trị quan sát ở dạng thang đo khoảng và thang
đo tỷ lệ. Ví dụ trong bảng câu hỏi, mỗi một câu hỏi thường phải nhằm một mục đích
quan sát nào đó. Do vậy, thường mỗi một câu hỏi tương ứng với một biến quan sát
31
Các giai đoạn xử lý dữ liệu/ Định biến DL (tt)
§Ví dụ biến nghiên cứu:

Giả sử rằng “Các yếu tố tác động đến quyết định lựa chọn (mua) mì ăn liền nhãn hiệu
“Hảo Hảo” của khách hàng trên thị trường TP.HCM” là:
(a1) Chất lượng SP; (a2) Khẩu vị phù hợp; (a3) Định lượng vừa đủ; (a4) Dễ dàng mua; (a5) Bao bì hấp dẫn.
Khi đi sâu nghiên cứu về “ chất lượng” sản phẩm, các thuộc tính cấu thành kết luận chất
lượng sản phẩm tốt của mì ăn liền ”Hảo Hảo” gồm có:
(a1.1) Sợi mì dai (khi ăn); (a1.2) Màu sắc của mì và nước dùng tươi ngon; (a1.3) Có thành phần dinh dưỡng
cao; … Và các yếu tố còn lại cũng có các thuộc tính xác định chúng.
Ở VD trên các biến số: a1; a2; a3; a4 là các biến số trực tiếp (cấp 1) tác động đến quyết
32
định lựa chọn mì ăn liến “ Hảo Hảo”.

Còn các biến số a1.1; a1.2; … là các biến số cấp 2
Các giai đoạn xử lý dữ liệu/ Mã hóa DL

§ Mã hoá giúp giảm số biểu hiện của một biến định tính chỉ còn 2 hay 3 biểu hiện cơ bản
hoặc khi biến định lượng có quá nhiều giá trị chúng ta muốn nhóm lại giúp cho việc trình
bày gọn hơn. Mã hoá dữ liệu làm cơ sở cho việc thống kê phân tích dữ liệu.
§ Mã hoá dữ liệu (Coding) là quá trình chuyển đổi thành dạng mã số để nhập và xử lý dữ liệu
§ Trong nghiên cứu Marketing, mục đích của việc mã hoá là tạo nhãn (labels) cho các câu trả
lời, thường là bằng các con số, hay ký hiệu. Một trả lời khi mã hoá thường sẽ thể hiện bằng
1ký tự chỉ số trả lời (số đo).
Thí dụ: Với câu hỏi “ Xin vui lòng cho biết sở thích của bạn đối với sữa chua Vinamilk?
Code: 1 2 3 4 5
Rất ghét Ghét Tạm được Thích Rất thích 33
Các giai đoạn xử lý dữ liệu/ Mã hóa DL (tt)

TT Câu hỏi nghiên cứu Biến quan sát Mã trả lời Trả lời
1 Vui lòng cho biết giới tính của bạn? a1:Giới tính 1 Nam
2 Nữ
2 Xin vui lòng cho biết bạn thuộc nhóm tuổi nào a2: Nhóm tuổi 1 Dưới 18 tuổi
dưới đây? 2 Từ 19- 25
3 Từ 26-35
4 Từ 36-45
5 Trên 45 tuổi
3 Xin vui lòng cho biết sở thích của bạn đối với sữa a3: Sở thích của 1 Rất ghét
chua Vinamilk? khách hàng đối 2 Ghét
với sữa chua 3 Tạm được
Vinamilk 4 Thích
5 Rất thích 34
…
Các giai đoạn xử lý dữ liệu/ Làm sạch và lưu trữ
§Các bước bao gồm :

à Nhập dữ liệu vào máy tính (Inputing data into computer)
à Làm sạch dữ liệu (Data cleaning)
à Lưu trữ dữ liệu (Data saving)
35
2 2.3 Xử lý dữ liệu
Giới thiệu về màn hình quản lý dữ liệu trên SPSS
Là nơi lưu trữ dữ liệu

nghiên cứu với một
cấu trúc cơ sở dữ liệu
bao gồm cột, hàng và
các ô giao nhau giữa
cột và hàng
36
Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)
Là nơi lưu trữ dữ liệu

nghiên cứu với một
cấu trúc cơ sở dữ liệu
bao gồm cột, hàng và
các ô giao nhau giữa
cột và hàng
37
38

Là nơi quản lý các biến
cùng với các thông số
liên quan đến biến.
Trong màn hình này
mỗi hàng trên màn
hình quản lý một biến,
và mỗi cột thể hiện các
thông số liên quan đến
biến đó
39

biến đó
40

biến đó
41
42
43
44
45
46
47
Mã hóa dữ liệu trên SPSS (tt)
Để rút gọn số biểu hiện

của một biến xuống
còn 3-4 biểu hiện,
chúng ta có thể thực
hiện mã hóa lại.
Từ thanh menu chọn:
Transform / Recode / Into Different
Variables
48
Mã hóa lại dữ liệu trên SPSS (tt)
Để rút gọn số biểu hiện

của một biến xuống
còn 3-4 biểu hiện,
chúng ta có thể thực
hiện mã hóa lại.
Từ thanh menu chọn:
Transform / Recode / Into Different
Variables
49
NỘI DUNG (TT)
6
50
3 3.1 Các dạng mô tả dữ liệu
51
3 3.2 Mô tả dạng thống kê
3.2.1 Số định tâm/ đo lường khuynh hướng hội tụ

§Số trung bình (mean): là giá trị trung bình của một dãy số liệu.
§ Nếu mẫu ngẫu nhiên w có các giá trị x = (x1, x2, …xn), thì giá trị trung bình được tính như sau:
§ Nếu các giá trị x1, x2, …xk lần lượt có các tần suất n1, n2, …nk thì giá trị trung bình được tính như
sau:
§ Các đặc tính toán học của giá trị trung bình đóng vai trò rất quan trọng khi các dữ liệu của mẫu được
dùng để suy rộng ra tổng thể (ước lượng) hoặc khi được dùng trong các thí nghiệm thống kê. Phương
52
pháp trung bình số học rất thích hợp khi phân tích các dữ liệu theo khoảng cách.
3.2.1 Số định tâm/ đo lường khuynh hướng hội tụ (tt)
§Số trung vị (Median): Là giá trị của số đứng ở vị trí giữa dãy số liệu.
Trước khi xác định giá trị trung vị, cần phải sắp xếp các dữ liệu theo thứ
tự dưới lên hoặc từ trên xuống. Gọi n là số giá trị uan sát được, thì số
trung vị được xác định như sau.
§ Nếu n là số lẻ: thì số trung vị là số có số thứ tự (n+1)/2
§ Nếu n là số chẵn: thì số trung vị là số trung bình cộng của 2 số có thứ tự là n/2 và (n/2) +1
Đặc tính quan trọng của trung vị là không bị ảnh hưởng bởi các giá trị ở hai đầu mút của dãy phân
phối, vì vậy, nếu bảng phân phối có độ lệch lớn nên chọn phép tính giá trị trung vị hơn là trung bình.
§Số mốt (mode): Mốt là số có tần số xuất hiện nhiều nhất trong dãy số 53
54
55
3.2.2 Số phân tán
Số phân tán (Measure of dispersion): Số phân tán dùng để thể hiện sự

khác biệt giữa các số trong dãy số đối với số định tâm.
§ Phương sai ( Variance) và độ lệch chuẩn (Standard deviation): Phương sai và độ lệch chuẩn dựa trên mức độ sai
lệch của các quan sát với giá trị trung bình. Phương sai được định nghĩa như là số trung bình của bình phương các
độ lệch giữa giá trị quan sát với giá trị trung bình trong dãy phân phối. Căn bậc hai của phương sai gọi là độ lệch
chuẩn.
§ Độ lệch chuẩn được tính như sau:
56
3.2.3 Số phân tán (tt)
57
58
59
Sử dụng SPSS
Analyze -> Descriptive Statistics

-> Descriptives -> Options.
60
Biểu đồ tần suất
§Chức năng: khi có nhiều số liệu cần chia lớp để thấy rõ các nét đặc
trưng cơ bản của dãy số liệu, sau đó kiểm tra tính chuẩn của biến
nghiên cứu.
§Cách làm:
§ Để số liệu trong một cột, một hàng hay một bảng chữ nhật
§ Tìm giá trị Min, Max của miền dữ liệu, tính R = Max – Min
§ Chọn khoảng k, thực tế k: 20-30, ít số liệu k: 6-10
§ Tính khoảng cách giữa các tổ: h = R/k (làm tròn)
§ Có Max, Min, R, k, h ta tạo miền phân tổ bắt đầu từ Min, các giá trị tiếp theo cộng dồn với h, cho đên sát
h thì dừng
61
Biểu đồ tần suất (tt)
62
Biểu đồ tần suất (tt)
63
3 3.3 Mô tả dạng bảng/ biểu
Bảng chéo (mẫu)

Sở thích về sữa chua Vinamilk theo giới tính.
Thang đo Giới tính Giới tính Tổng

Nam Nữ
5- Rất thích 10 30 40
4- Thích 40 60 100
3- Tạm được 24 6 30
2- Ghét 18 2 20
1- Rất ghét 8 2 10
Tổng 100 100 N= 200 64
3 3.4 Mô tả dạng đồ thị
Có 4 dạng đồ thị:
- Bar chart
- Pie chart
- Line graph
- Scatter graph
65
Đồ thị thanh (Bar chart)

Đồ thị thanh thường được sử dụng để biểu diễn số tương đối, số tuyệt đối, tần số.
Tổng sản phẩm quốc nội phân theo ngành kinh tế (giá cố định năm 1989) của vùng ĐBSCL thời kỳ 00 – 04
66
Đồ thị thanh (Bar chart) (tt)
67
Đồ thị bánh (Pie chart) (tt)

Đồ thị bánh thường được sử dụng cho các câu hỏi đơn trả lời để biểu diễn tần số tương đối – Tổng của nó bằng 100%..
Cơ cấu lao động của Tp. Cần thơ phân theo trình độ năm 2004
68
Đồ thị đường (Line graph)

Đồ thị đường (Line graph) và Đồ thị phân tán (Scatter graph) được sử dụng để biểu diễn mối
quan hệ giữa các biến.
Tốc độ tăng trưởng GDP phân theo khu vực kinh tế của Việt Nam thời kỳ 00 – 04
(ĐVT: %)
69
Đồ thị phân tán (Scatter graph)

Đồ thị đường (Line graph) và Đồ thị phân tán (Scatter graph) được sử dụng để biểu diễn mối
quan hệ giữa các biến.
Ví dụ minh họa Biểu đồ phân tán
70
NỘI DUNG (TT)
6
71
4 4.1 Ước lượng
1. Ước lượng điểm

2. Ước lượng khoảng
3. Ước lượng khoảng cho trung bình: trường hợp biết, và chưa biết
4. Ước lượng khoảng cho tỉ lệ
5. Kích thước mẫu.
72
4.1.1 Ước lượng điểm
73
4.1.2 Ước lượng Khoảng

§ Cung cấp một khoảng các giá trị
§ Có xét đến sự biến thiên (variation) về trị số giữa các mẫu khác nhau
§ Dựa trên quan sát của 1 mẫu
§ Cung cấp thông tin gần nhất (closeness) về trị số (chưa
biết) của tổng thể
§ Thể hiện dưới dạng độ tin cậy.
74
4.1.2 Ước lượng Khoảng (tt)- Khoảng tin cậy cho μ khi biết σ
75
4.1.2 Ước lượng Khoảng (tt)- Khoảng tin cậy cho μ khi biết σ
76
4.1.2 Ước lượng Khoảng (tt)- Khoảng tin cậy cho μ khi chưa biết σ
77
4.1.2 Ước lượng khoảng (VD)

§ Chiều dài của một loại sản phẩm là một đại lượng ngẫu nhiên có phân phối theo quy
luật chuẩn với độ lệch chuẩn là 0,38. Đo thử 30 sản phẩm loại này, ta thu được kết quả
sau:
Chiều dài (cm) 36 38 40 42

Số sản phẩm tương ứng 6 11 8 5
a)Với độ tin cậy 0,95 hãy ước lượng chiều dài trung bình của loại sản phẩm nói
trên bằng khoảng tin cậy đối xứng (2 phía).
b)Nếu yêu cầu sai số của ước lượng là 0,05 và giữ nguyên độ tin cậy thì phải 78
điều tra một mẫu kích thước bao nhiêu?
4.1.2 Ước lượng khoảng/ Khoảng tin cậy cho tỷ lệ tổng thể
§ Giả sử trong tổng thể kích thước n có m phần tử mang dấu hiệu nghiên cứu. Nếu lấy
ngẫu nhiên ra một phần tử và gọi X là số phần tử mang dấu hiệu nghiên cứu được lấy
ra thì X là một đại lượng ngẫu nhiên phân phối theo quy luật không - một với bảng
phân phối xác suất là:
79
80
§ Ví dụ: Một nghiên cứu được thực hiện nhằm ước lượng thị phần của sản phẩm nội địa
(do các công ty sản xuất trong nước) đối với mặt hàng bánh kẹo. Kết quả điều tra ngẫu
nhiên 100 khách hàng cho thấy có 34 người dùng sản phẩm nội địa. Với độ tin cậy 95%,
hãy ước lượng khoảng tin cậy cho thị phần sản phẩm nội địa.
81
4 4.2 Kiểm định tham số
Các phương pháp kiểm định tham số
(1). Kiểm định giả thiết về tham số trung bình μ của tổng thể
(2). Kiểm định sự khác nhau giữa trung bình của hai tổng thể
(3). Kiểm định giả thiết về tỷ lệ của tổng thể
(4). So sánh hai tỷ lệ
82
Các bước kiểm định tham số
Bước 1: Thiết lập các giả thuyết (H0; H1);

Bước 2: Chọn mức ý nghiã (α);
Bước 3: Chọn “phép” kiểm định thích hợp và tính
toán các giá trị thống kê kiểm định (Z, t,..);
Bước 4: Xác định giá trị tới hạn của phép kiểm định;
Bước 5: So sánh giá trị kiểm định với giá trị tới hạn
để ra quyết định (Chấp nhận hay bác bỏ giả
thuyết).
83
Các bước thực hiện kiểm định
84
(1) Kiểm định giả thiết về tham số trung bình μ
§Đã biết phương sai

ØGiả định:
üTổng thể phân phối chuẩn
üNếu tổng thể phân phối không chuẩn, mẫu phải lớn
üBiết σ
Bác bỏ giả thuyết H0, ở mức ý nghĩa a, nếu:

85
Z < - Zα/2 hoặc Z > Zα/2

§Chưa biết phương sai

t < - tα/2 hoặc t > tα/2
86

Compare Mean\One-Sample T Test…
Lựa chọn biến cần so sánh bằng cách di chuyển vệt đen và
chuyển đến vào hộp thoại Test Variable(s), nhập giá trị cần so
sánh vào hộp thoại Test Value
Options để xác định độ tin cậy cho kiểm nghiệm, mặc định là
95% và cách xữ lý đối với các giá trị khuyết
Exclude cases analysis by analysis. Mỗi kiểm nghiệm T sử dụng

toàn bộ các trường hợp (cases) chứa đựng giá trị có ý nghĩa đối với
biến được kiểm nghiệm. Đặc điểm là kích thước mẫu luôn thay đổi.
Exclude cases listwise. Mỗi kiểm nghiệm T sử dụng chỉ những
trường hợp có giá trị đối với toàn bộ tất cả các biến được sử dụng
87
trong bất kỳ kiểm nghiệm T test nào. Kích thước mẫu luôn không
đổi
(2) Kiểm định sự khác nhau giữa trung bình của hai tổng thể
Bác bỏ giả thuyết H0, ở mức ý nghĩa a, nếu: 88

(2) Kiểm định sự khác nhau giữa trung bình của hai tổng thể (tt)
§ Trường hợp chưa biết phương sai của tổng thể.

§ Mẫu lớn: nX và nY ³ 30

89
§Trường hợp chưa biết phương sai của tổng thể.
t < - tα/2 hoặc t > tα/2

91
(3) a.Kiểm định giả thiết về tỷ lệ của tổng thể

§Giả sử đại lượng ngẫu nhiên có phân phối không - một với tham số p.
Nếu chưa biết p song có cơ sở giả thiết rằng giá trị của p là p0, ta đưa
ra giả thiết:
H0: p = p0. Cần kiểm định giả thiết H0.
Chọn lập thống kê:

(3) b.Kiểm định giả thiết về tỷ lệ của 2 tổng thể (so sánh 2 tỷ lệ)
§Giả sử hai đại lượng ngẫu nhiên X và Y tuân theo quy luật phân phối
không - một với E(X) = p1, E(Y) = p2 chưa biết, song có cơ sở nào đó
giả thiết rằng p1 = p2.
§Người ta đưa ra giả thiết H0: p1 = p2. Kiểm định giả thiết:
§ Từ X và Y lập các mẫu ngẫu nhiên cỡ n và m
§ Wn = (X1, X2,…,Xn); Wm = (Y1, Y2,…,Ym)
§ Chọn lập thống kê:
93
Bác bỏ giả thuyết H0, ở mức ý nghĩa a,
Nếu: Z < - Zα/2 hoặc Z > Zα/2
4 4.3 Phân tích phương sai ANOVA
a. Khái niệm
§ANOVA là kỹ thuật thống kê được sử dụng khi chúng ta muốn so sánh
số trung bình của ≥ 3 nhóm. Kỹ thuật này chia phương sai của 1 quan
sát (observation) thành 2 phần: 1phương sai giữa các nhóm (between
groups) và 2phương sai nội nhóm (within group). Do phưong sai là độ
phân tán tương đối của các quan sát so với số trung bình nên việc phân
tích phương sai giúp so sánh các số trung bình dễ dàng (bên cạnh việc
so sánh các phương sai).
§ B1. Giả thiết trong phân tích phương sai một chiều như sau:
§ H0: µ1= µ2 =… = µk
§ H1 : Tồn tại ít nhất một giá trị trung bình của nhóm thứ i (µi) khác với ít nhất một giá trị trung bình của
nhóm còn lại. 94
§ B2. Lựa chọn mức ý nghĩa α

§ B3. Tính tiêu chuẩn kiểm định
b. Thực hiện phân tích

§Tính tiêu chuẩn kiểm định:
95
b. Thực hiện phân tích (tt)

§ Tính tiêu chuẩn kiểm định:
96
Chúng ta bác bỏ H0 nếu F>F(k- 1, n- k, α) ; hoặc P(F) < α

4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến
a. Giữa 2 biến: định lượng – định tính
§Ví dụ: Giả sử chúng ta muốn phân tích xem có sự khác nhau về độ tuổi
trung bình giữa CBCNV nam và nữ hay không?, khi đó chúng ta sẽ xem
xét mối quan hệ giữa 2 biến:
§ Tuổi (biến định lượng)
§ Giới tính (biến định tính)
§ Chúng ta thiết lập giả thuyết:

§ H0: Không có sự khác nhau về độ tuổi trung bình giữa CBCNV nam và nữ
§ H1: Tồn tại sự khác nhau về độ tuổi trung bình giữa CBCNV nam và nữ
§ Dùng phân tích phương sai ANOVA
97

a. Giữa 2 biến: định lượng – định tính (sử dụng SPSS)

Sử dụng Compare means trong SPSS:
Chuyển biến định lượng cần so

sánh trung bình vào hộp thoại
Test variable(s). Ta có thể chọn
nhiều biến định lượng để so sánh.
Định ra các nhóm cần so sánh với
nhau (thường là biến định danh)
di chuyển vào hộp thoại Gouping
variable.
Công cụ Define Groups… cho
phép ta định ra hai nhóm cần so
sánh với nhau 98
b. Giữa biến phụ thuộc định lượng với các biến độc lập
99
b. Giữa biến phụ thuộc định lượng với các biến độc lập (tt)
§Đặt giả thiết:

§ Giả thuyết không là H0: b2 = b3 =…= bk = 0 (biến phụ thuộc không có quan hệ với bất kỳ biến độc
lập nào)
§ Giả thuyết ngược lại là H1: có ít nhất một trong những giá trị β không bằng không.
§Thống kê kiểm định.
ESS /(k -1)
F= ~ F(a, k - m, n - k)
RSS /(n - k)
Có thể sử dụng từ bảng kết quả hồi quy trong excel, Eviews, SPSS 100
c. Giữa biến độc lập định tính (biến định danh – định danh)
§ Ví dụ: nghiên cứu mối liên hệ giữa việc mua quần áo thời trang và tình trạng hôn
nhân. Khách hàng chia hai loại cao và thấp dựa vào mức độ mua
Mức độ mua hàng Tình trạng hôn nhân

Có gia đình Chưa có gia đình
Cao (%) 31 52
Thấp (%) 69 48
Số khách hàng (người) 700 300
Vấn đề đặt ra là việc mua quần áo thời trang và tình trạng hôn nhân có liên quan hay không ? 101
(Với α =0,05)
c. Giữa biến độc lập định tính (biến định danh – định danh) (tt)
§ Ví dụ: Để đánh giá hiệu quả làm tăng chất lượng của một biện pháp công nghệ mới
trên một dây chuyền sản xuất người ta thu thập được các số liệu sau:
Chất lượng Phế phẩm Chính phẩm (cái) Tổng số (cái)
(cái)
Công nghệ
Sau khi thay đổi công nghệ 8 192 200
Trước khi thay đổi công nghệ 92 708 800
Tổng số 100 900 1000
Vấn đề đặt ra là việc áp dụng công nghệ mới và chất lượng có liên quan hay 102
không ? (Với α =0,05)

§ Nếu các dữ kiện của biến ngẫu nhiên được xếp loại theo 2 tiêu chuẩn thì các dữ kiện
sẽ được trình bày trong bảng gồm hàng và cột gọi là bảng dữ kiện ngẫu nhiên 2 chiều.
Tổng quát, bảng ngẫu nhiên 2 chiều gồm r hàng và c cột được trình bày như sau:
103
§ Để xác định các biến độc lập hay phụ thuộc, chúng ta dùng kiểm định chi bình
phương, thực hiện như sau:
104
§ Chúng ta bác bỏ H0 nếu χ2> χ2(α , ν) ; trong đó ν = (r-1)(c-1)

SPSS: Analyze/ Descriptives statistics / Crosstab
Bấm Statistics để thiết lập
các thống kê
105
4 4.5 Kiểm định phi tham số
§ Kiểm định phi tham số là các loại kiểm định ít đòi hỏi các giả thiết về phân phối của
dữ kiện. Thông thường, kiểm định phi tham số phù hợp nhất trong các trường hợp
chúng ta không thể dùng các kiểm định tham số, ví dụ dữ liệu mà chúng ta thu thập
là loại dữ liệu định tính (biểu danh hay thứ tự) hoặc khi các dữ liệu thuộc thang đo
lường khoảng cách (interval) nhưng khi kiểm định phân phối chuẩn không thỏa mãn.
Những trường hợp như vậy, chúng ta thường sử dụng phương pháp kiểm định phi
tham số như sau.
1) Kiểm định sự bằng nhau của trung bình trong hai mẫu (Dấu-Sign test, Wilcoxon, McNemar)
2) Kiểm định sự bằng nhau của trung bình trong nhiều hơn hai mẫu (Friedman, Kendall’s W, Cochran’s Q)
3) Kiểm định cho hai mẫu độc lập (Mann-Whitney U)
4) Kiểm định nhiều hơn hai mẫu độc lập (Kruskal-Wallis H) 106
§ Chúng ta sẽ xem xét cụ thể trong phần giới thiệu SPSS.

NỘI DUNG (TT)
6
107
Nội dung
1.Khái niệm phân tích hồi quy

2.Mô hình hồi quy đơn biến
3.Mô hình hồi quy đa biến
108
5 5.1 Khái niệm phân tích hồi quy
a. Khái niệm
§Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là
biến phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập
nhằm mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ
thuộc khi biết trước giá trị của biến độc lập.
§Ví dụ: Khi chúng ta cố gắng giải thích chi tiêu dùng của mọi người,
chúng ta có thể sử dụng các biến giải thích là thu nhập và độ tuổi. Để
dự đoán khả năng một học sinh cuối cấp trung học phổ thông vào đại
học, chúng ta có thể xem xét đến điểm các bài kiểm tra, trình độ giáo
dục của cha mẹ cũng như thu nhập của gia đình anh ta 109
b. Hồi quy tổng thể và hồi quy mẫu
b1) Hàm hồi quy tổng thể (PRF):

E(Y/X=Xi) = b1 + b2X
§Đối với một quan sát cụ thể thì giá trị biến phụ thuộc lệch khỏi kỳ
vọng toán, vậy:
Yi = b 1 + b 2 X i + u i
Trong đó:
• b1 và b2 là các tham số của mô hình
•ui là Sai số của hồi quy hay còn được gọi là nhiễu ngẫu nhiên. Nhiễu ngẫu nhiên hình thành có
thể do: Bỏ sót biến giải thích, Sai số khi đo lường biến phụ thuộc, Các tác động không tiên đoán
110
được hay Dạng hàm hồi quy không phù hợp.

b. Hồi quy tổng thể và hồi quy mẫu

§ b2) Hàm hồi quy mẫu (SRF):
§Trong thực tế hiếm khi chúng có số liệu của tổng thể mà chỉ có số liệu
mẫu. Chúng ta phải sử dụng dữ liệu mẫu để ước lượng hàm hồi quy
tổng thể.
§Hàm hồi quy mẫu được biểu diễn:
Trong đó:
• Yˆ là ước lượng của giá trị trung bình của Y đối với biến X đã biết
•bˆ là ước lượng của β
1 1
•bˆ2 là ước lượng của β 2 111

5 5.2 Mô hình hồi quy đơn
Phương pháp bình phương nhỏ nhất- OLS (ordinary least squares).
§ Đây là phương pháp được đưa ra bởi nhà toán học Đức Carl Friedrich Gauss, ký
hiệu OLS (ordinary least squares). Tư tưởng của phương pháp này là cực tiểu tổng
bình phương các phần dư.
112
OLS- Hồi quy đơn
113
OLS- Hồi quy đơn
114
OLS- Hồi quy đơn (tt)
115
116

Các giả thiết
§ Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước
lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thoả mãn các giả thiết. Khi
thoả mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính không
chệch có hiệu quả nhất trong các ước lượng. Vì thế phương pháp OLS đưa ra Ước Lượng
Không
chệch Tuyến Tính Tốt Nhất (BLUE). Kết quả này được gọi là Định lý Gauss–Markov,
Các giả thiết như sau.
117
Độ phù hợp của mô hình
§ Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của
biến phụ thuộc, người ta sử dụng R2
Trong đó:
§ TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình.
§ ESS: là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu
118
và giá trị trung bình của chúng. Phần này đo độ chính xác của hàm hồi quy
§ RSS: là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.
Độ phù hợp của mô hình (tt)
§Tỉ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình
phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê
“good of fit”. Từ định nghĩa R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn
bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình. Khi đó
người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy; 0 ≤ R2 ≤1
§R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động
của biến phụ thuộc.
§Nếu R2 bằng 0. Nghĩa là mô hình không đưa ra thông tin nào về biến phụ thuộc và dự
đoán tốt nhất về giá trị của biến phụ thuộc là giá trị trung bình của nó. Các biến "giải
119
thích" thực sự không đưa ra được một giải thích nào.
Ước lượng khoảng tin cậy của các bj

Với các giả thiết đã cho ở phần trước (OLS)- ui có phân bố N(0,σ2). Nếu thoả mãn thì
người ta suy ra:
§ Với độ tin cậy 1-a, ta có ước lượng 2 phía như sau:
120
Ước lượng khoảng tin cậy của các bj

§ Ước lượng 2 phía:
121
Kiểm định cho các bj

§ Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj*. Nếu giả thiết này
đúng thì:
Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏ
Hai phía βj = βj* βj ≠ βj* t >tα/2 (n-2)
Phía phải βj ≤ βj* βj > βj* t >tα (n-2)
Phía trái βj ≥ βj* βj < βj* t <-tα (n-2) 122
Kiểm định cho các bj (tt)

§ Sử dụng p-value:
123
Kết quả hồi quy trên SPSS

Thực hiện hồi quy: Data/ Data
analysis/ Regression
§ Intercept: Tung độ gốc

§ Coefficients : Hệ số hồi quy § t Stat : Trị thống kê t(n-2) 124
§ Standard Error : Sai số chuẩn của ước lượng hệ số § P-value : Giá trị p
Dự báo
125
Dự báo (tt)
Dự báo giá trị trung bình của biến phụ thuộc
126
5 5.3 Mô hình hồi quy đa biến (HQ bội)
Giới thiệu mô hình hồi quy đa biến

§ Chúng ta đã nghiên cứu mô hình hồi quy đơn. Trong lý thuyết cũng như trong thực tế,
có nhiều trường hợp mà biến kinh tế cho không thể giải thích bằng các mô hình hồi
quy đơn như vậy.
Ví dụ:
§ Lượng cầu phụ thuộc vào giá, thu nhập, giá các hàng hoá khác
v.v. Nhớ lại lý thuyết về hành vi người tiêu dùng.
QD = f(P, I, Ps, Pc,Market size, T (thị hiếu))
§ Giá nhà ở phụ thuộc vào diện tích nhà, số phòng ngủ và số phòng tắm ...
§ Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí địa lý . . .
§ Tỷ lệ tử vong trẻ em của quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục .
. 127
Giới thiệu mô hình hồi quy đa biến (tt)
§Khi chúng ta có tập hợp dữ liệu về một biến kinh tế nào đó (biến này
được gọi là biến phụ thuộc) và các nhân tố ảnh hưởng đến nó (các nhân tố
ảnh hưởng này được gọi là các biến giải thích) thì việc xét đến các ảnh
hưởng riêng biệt (hoặc đồng thời) của nhiều nhân tố đến một biến kinh tế
có thể được giải thích bằng mô hình hồi quy bội.
§Hàm hồi quy bội tổng thể có dạng
y = β1 + β2x2 + β3x3 + . . . βkxk + u PRF Trong đó:
β1: là hệ số tự do (hệ số chặn) βj: là hệ số hồi quy riêng
u: sai số ngẫu nhiên
128
Giả thiết mô hình hồi quy đa biến (tt)

§ Các giả thiết OLS cho mô hình hồi quy tuyến tính đơn được giải thích trong mô hình
hồi quy bội:
129
Ước lượng các tham số của mô hình hồi quy đa biến

§ Trong thực tế chúng ta thường chỉ có dữ liệu từ mẫu. Từ số liệu mẫu chúng ta ước
lượng hồi quy tổng thể.
130
Ước lượng các tham số của mô hình hồi quy đa biến (tt)
§ Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:
§ Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn. Chúng ta có thể giải k phương trình chuẩn này
để tìm k hệ số beta chưa biết. 131
§ Sự trình bày đơn giản nhất của lời giải này ở dưới dạng đại số ma trận. Tuy nhiên sử dụng phần mềm EViews hay
các phần mềm phân tích dữ liệu khác chúng ta có thể tìm dễ dàng các hệ số hồi quy.
Hệ số xác định bội R2 và hệ số xác định bội đã hiệu chỉnh

§ Trong mô hình hồi quy hai biến R2 đo độ thích hợp của hàm hồi quy. Nó chính
là tỷ lệ của toàn bộ sự biến đổi của biến phụ thuộc y do biến giải thích x gây ra.
Trong mô hình hồi quy bội tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả
các biến X gây ra được gọi là hệ số xác định bội, ký hiệu là R2:
§ 0≤ R2 ≤1. Nếu R2 =1, có nghĩa là đường hồi quy giải thích 100% thay đổi của y. Nếu
R2 =0, có nghĩa là mô hình không giải thích sự thay đổi nào của y.
§ R2 Là hàm không giảm của số biến giải thích có trong mô hình, do đó nếu tăng số
biến giải thích có trong mô hình thì R2 cũng tăng. Vấn đề cần đặt ra là khi nào cần132
đưa thêm biến giải thích mới vào trong mô hình?
Hệ số xác định bội R2 và hệ số xác định bội đã hiệu chỉnh (tt)
§ Để ngăn chặn tình trạng “có đưa thêm biến vào mô hình” như đã nêu trên, một phép
đo khác về mức độ thích hợp được sử dụng thường xuyên hơn. Phép đo này gọi là R2
hiệu chỉnh hoặc R2 hiệu chỉnh theo bậc tự do (kết quả này luôn được in ra khi thực
hiện hồi quy bằng những phần mềm chuyên dụng). Để phát triển phép đo này, trước
hết phải nhớ là R2 đo lường tỷ số giữa phương sai của Y “được giải thích” bằng mô
hình; một cách tương đương, nó bằng 1 trừ đi tỷ số “không được giải thích” do
phương sai của sai số Var(u).
§Ta có thể biểu diễn công thức tính như sau:
133
Ước lượng khoảng tin cậy và kiểm định cho bj
134
Kiểm định ý nghĩa của hàm hồi quy
135
Kiểm định ý nghĩa của hàm hồi quy (tt)
136
Sử dụng Eviews
137
Sử dụng Eviews (tt)

Xem một các thông số thống kê mô tả của 04 biến: View/ Descriptive Stats/ Individual Samples
138

Xem ma trận tương quan (Correlation matrix) của 04 biến (Series) ta vào: View/ Correlations/ Common Samples
139

Phân tích hồi quy: Open/ as Equation
140
141
NỘI DUNG
6 Phân tích nhân tố và đánh độ tin cậy của thang đo

142
6 6.1. Khái niệm và ứng dụng
§Phân tích nhân tố (Exploratory Factor Analysis):

à được ứng dụng rất nhiều trong các lĩnh vức nghiên cứu kinh tế và xã hội.
à Trong KD, phân tích nhân tố có thể được dùng trong nhiều trường hợp như:
à phân khúc thị trường để nhận ra các biến quan trọng để phân nhóm
người tiêu dùng,
à xác định các thuộc tính nhãn hiệu có ảnh hưởng đến sự lựa chọn của
người tiêu dùng hoặc
à để hiểu thói quen sử dụng phương tiên truyền thông của thị trường mục
tiêu…
143
Giới thiệu mô hình hồi quy đa biến (tt)
§Phân tích nhân tố (Exploratory Factor Analysis) được ứng

dụng rất nhiều trong các lĩnh vức nghiên cứu kinh tế và xã
hội. Trong kinh doanh, phân tích nhân tố có thể được dùng
trong nhiều trường hợp như: phân khúc thị trường để nhận ra
các biến quan trọng để phân nhóm người tiêu dùng, xác định
các thuộc tính nhãn hiệu có ảnh hưởng đến sự lựa chọn của
người tiêu dùng hoặc để hiểu thói quen sử dụng phương tiên
truyền thông của thị trường mục tiêu… 144
Phân tích nhân tố khám phá( EFA)
§Phân tích nhân tố là tên chung của một nhóm các thủ tục được sử dụng
chủ yếu để thu nhỏ và tóm tắt các dữ liệu.
§Trong nghiên cứu, chúng ta có thể thu thập được một số lượng biến khá
lớn và hầu hết các biến này có liên hệ với nhau và số lượng của chúng
phải được giảm bớt xuống đến một số lượng mà chúng ta có thể sử dụng
được. Liên hệ giữa các nhóm biết có liên hệ qua lại lẫn nhau được xem
xét và trình bày dưới dạng một số ít các nhân tố cơ bản". Mỗi một biến
quan sát sẽ được tính một tỷ số gọi là Hệ số tải nhân tố (factor loading).
Hệ số này cho người nghiên cứu biết được mỗi biến đo lường sẽ “thuộc 145
về” những nhân tố nào.

Phân tích nhân tố khám phá (EFA) (tt)
§Các nhân tố có thể được diễn tả như những kết hợp tuyến
tính của các biến quan sát:
Fi =Wi1 X1 + Wi 2 X 2 + Wi3 X 3 +... + Wik X k
§ Fi: Ước lượng trị số của nhân tố (factor) thứ i.
§ Wik: là quyền số hay trọng số nhân tố (weight or factor score coefficient) của biến số thứ k đến
nhân tố i.
§ k: Số biến (items).
146
Kiểm định độ tin cậy của thang đo
§Thực hiện kiểm định độ tin cậy của thang đo bằng hệ số Cronbach’s
Alpha để loại bỏ biến rác hoặc biến có tương quan thấp trong thang
đo lường, các biến quan sát Xk còn lại được đưa vào phân tích nhân tố
khám phá EFA.
§Tiêu chuẩn lựa chọn:
Hệ số Cronbatch Alpha ≥ 0.6.
147
6 6.2. Mô hình phân tích nhân tố
Kiểm định sử dụng trong phân tích nhân tố EFA
§Mô hình phân tích nhân tố EFA được cho là phù hợp khi các tiêu chuẩn
sau đây được thỏa điều kiện:
1)Hệ số tải nhân tố (Factor Loadings): là những hệ số tương quan đơn giữa các biến
và các nhân tố. Hệ số tải nhân tố lớn hơn 0,3.
2)Tính thích hợp của EFA (Kaiser – Meyer – Olkin): là chỉ số dùng xem xét sự thích
hợp của phân tích nhân tố nếu 0,5 ≤ KMO ≤ 1.
3)Phương sai cộng dồn (cumulative of variance): là phần trăm phương sai toàn bộ
được thích bởi các nhân tố, nghĩa là coi biến thiên 100% thì giá trị này cho biến
phân tích nhân tố cô đọng được bao nhiêu % và bị thất thoát bao nhiêu %. Tiêu
chuẩn để chấp nhận phân tích nhân tố có phương sai cộng dồn lớn hơn 50% với148
Eigenvalue phải lớn hơn 1.
Kiểm định sử dụng trong phân tích nhân tố EFA (tt)
§Mô hình phân tích nhân tố EFA được cho là phù hợp khi các
tiêu chuẩn sau đây được thỏa điều kiện:
4)Trường hợp có một vài biến có hệ số lớn đối với hơn một nhân tố hoặc có nhiều nhân tố có hệ số
lớn trong cùng một biến, việc giải thích sẽ trở nên khó khăn, khi đó chúng ta phải tiến hành xoay
nhân tố. Phương pháp thường dùng là Varimax (Mỗi biến gốc nên có hệ số tải nhân tố lớn (0.4 trở
lên) đối với chỉ một nhân tố được rút ra).
5)Sau khi rút trích được các nhân tố và lưu lại thành các biến mới, chúng ta sẽ sử dụng các biến mới
này thay cho tập hợp biến gốc để đưa vào các phân tích tiếp theo như kiểm định trung bình,
ANOVA, tương quan & hồi quy …
Ví dụ: chúng ta có thể xem có khác biệt giữa nam và nữ hay không về tầm quan trọng của các
lợi ích khi mua kem đánh răng bằng một kiểm định t đối với mẫu độc lập. 149
CHÚ Ý khi chạy t test hay ANOVA không nên dùng nhân số chuẩn hóa
Sơ đồ quy trình nghiên cứu ứng dụng EFA
150
Ứng dụng SPSS trong phân tích nhân tố EFA

Kiểm định Cronbach’s Alpha
151
Ứng dụng SPSS trong phân tích nhân tố EFA (tt)
Điều kiện Cronbach’s

Alpha > 0,6
152
Chọn tất cả các biến cần

phân tích nhân tố
Nhấn vào ô
Descriptives…
153
Chọn xoay
Varimax
154
Bỏ các biến
có giá trị nhỏ hơn 0,5
155
156
157

Kết quả phân tích hồi quy
158
159
END . 160

c5-8.Pp Nc Định Lượng Spss. Sv- Uef

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

c5-8.Pp Nc Định Lượng Spss. Sv- Uef

Uploaded by

Copyright:

Available Formats

PHÂN TÍCH DỮ LIỆU

TRONG NGHIÊN CỨU VÀ

TS. Nguyễn Thị Ngọc Diệp

2 Phân loại dữ liệu và một số xử lý trên biến

4 Phân tích diễn giải dữ liệu

5 Phân tích tương quan và hồi quy

6 Phân tích nhân tố và đánh độ tin cậy của thang đo

§Bản thân dữ liệu thô không phải là tri thức.

Mức độ Hiểu biết tri thức

§ Dữ liệu Mức độ cải thiện các quyết định

Phương pháp phân tích theo các biến số

Thu thập và Chuẩn bị

So sánh các nhóm

Thiết lập cấu trúc DL

Kiểm tra, hiệu chỉnh

Thu thập và Chuẩn bị Từ điều tra, khảo sát ; Từ dữ liệu sẵn có

Nhập dữ liệu Trực tiếp (Data view) hoặc từ Excell

§Scatterplots ( Dạng điểm)

2 Phân loại dữ liệu và một số xử lý trên biến

(a) Thang đo danh nghĩa (biểu danh)/ nominal scale (tt)

trạng hôn nhân”.

(a) Thang đo danh nghĩa (biểu danh)/ nominal scale (tt)

§Những phép toán thống kê có thể sử dụng cho dạng

(a) Thang đo danh nghĩa (biểu danh)/ nominal scale (tt)

§Những phép toán thống kê có thể sử dụng cho dạng

(b) Thang đo thứ bậc/ ordinal scale

(c) Thang đo khoảng/ interval scale

(c) Thang đo khoảng/ interval scale

(c) Thang đo khoảng/ interval scale

(c) Thang đo khoảng/ interval scale

(d) Thang đo tỷ lệ/ ratio scale

(*) Sai lệch trong đo lường

người khác,… gây ra.

Giá trị và độ tin cậy của đo lường

Các giai đoạn xử lý dữ liệu

Chuẩn bị dữ liệu Nhập dữ liệu và lưu trữ

• Giai đọan này gổm 3 bước: • Giai đọan này cũng

Các giai đoạn xử lý dữ liệu/ Kiểm tra và hiệu chỉnh

Các giai đoạn xử lý dữ liệu/ Định biến DL

Các giai đoạn xử lý dữ liệu/ Định biến DL (tt)

§Ví dụ biến nghiên cứu:

định lựa chọn mì ăn liến “ Hảo Hảo”.

Các giai đoạn xử lý dữ liệu/ Mã hóa DL

Các giai đoạn xử lý dữ liệu/ Mã hóa DL (tt)

Các giai đoạn xử lý dữ liệu/ Làm sạch và lưu trữ

§Các bước bao gồm :

Giới thiệu về màn hình quản lý dữ liệu trên SPSS

Là nơi lưu trữ dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Là nơi lưu trữ dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Mã hóa dữ liệu trên SPSS (tt)

Để rút gọn số biểu hiện

Mã hóa lại dữ liệu trên SPSS (tt)

Để rút gọn số biểu hiện