You are on page 1of 160

PHÂN TÍCH DỮ LIỆU

TRONG NGHIÊN CỨU VÀ


KINH DOANH

TS. Nguyễn Thị Ngọc Diệp


ĐH Kinh tế - Luật – ĐH quốc gia TP.HCM
1

Email: diepntn@uel.edu.vn
NỘI DUNG
§ Cung cấp các kỹ thuật phân tích dữ Các kiến thức cơ bản
liệu cần thiết cho thực hiện NCKH 1)Kỹ thuật phân tích thống kê mô tả
và làm luận án/ luận văn tốt nghiệp. với các loại dữ liệu khác nhau;
2)Các phương pháp kiểm định;
§Học viên tiếp cận kiến nền tảng của 3)Kỹ thuật phân tích nhân tố khám
các công thức toán học cần thiết, từ phá, kiểm định độ tin cậy của
các tình huống gần gũi trong thực thang đo;
tế, mà còn dưới dạng ‘ứng dụng’, 4)Phân tích tương quan, hồi quy;
‘thực hành’ trên phần mềm Eviews, 5)Sử dụng phần mềm SPSS hoặc
SPSS… Eviews 2
TÀI LIỆU THAM KHẢO
§Gerhard Bohm, Günter Zech, Introduction to Statistics and Data
Analysis, 2010.
§Gerald Keller, Brian Warrack, Statistics for management and
economics. 6th Edition
§SPSS Programming and Data Management, 3rd Edition, SPSS Inc.
§Damodar N.Gujarati, Basic Econometrics, McGraw-Hill 2004
§TS. Phạm Cảnh Huy, Bài giảng kinh tế lượng, Nhà xuất bản Đại học
Bách khoa Hà Nội 2008.
§Hoàng Trọng- Chu Nguyễn Mộng Ngọc, Phân tích dữ liệu nghiên
cứu với SPSS , Nhà xuất bản Hồng Đức. 3
NỘI DUNG
1 Giới thiệu phân tích dữ liệu

2 Phân loại dữ liệu và một số xử lý trên biến

3 Mô tả dữ liệu

4 Phân tích diễn giải dữ liệu

5 Phân tích tương quan và hồi quy

6 Phân tích nhân tố và đánh độ tin cậy của thang đo


4
NỘI DUNG
1 Giới thiệu phân tích dữ liệu

6
5
1 1.1 NC và phân tích dữ liệu

§Trong kinh doanh hiện đại thì kinh nghiệm còn được gọi là "dữ liệu".
"Dữ liệu là Kinh nghiệm“

§Nếu bạn không thu thập dữ liệu bạn đang lãng phí kinh nghiệm của bạn.
§Nhưng dữ liệu là "kinh nghiệm" chỉ là/ hay chỉ được mã hoá bằng
những con số.
§Để dữ liệu giải mã hoặc để hiểu được nó chúng ta cần phải phân tích
(Phân tích dữ liệu).
6
1 1.2 Bản chất của phân tích dữ liệu

§Bản thân dữ liệu thô không phải là tri thức.


§Trình tự đi từ dữ liệu đến tri thức:

Mức độ Hiểu biết tri thức


chính xác
của MH
thống kê Sự kiện

§ Thông tin

§ Dữ liệu Mức độ cải thiện các quyết định


1 1.3 Thống kê và phân tích dữ liệu

Khái niệm

§Thống kê là tập hợp các phương pháp dùng để thu thập, phân tích, trình
bày và diễn giải dữ liệu.
§Phân tích dữ liệu cung cấp kinh nghiệm thực hành để đẩy mạnh việc ứng
dụng tư duy thống kê và kỹ thuật thống kê nhằm hiểu rõ các hiện tượng
nghiên cứu làm cơ sở cho việc ra các quyết định phù hợp.
§Máy tính đóng một vai trò rất quan trọng trong phân tích dữ liệu nghiên
cứu.

8
1 1.3 Thống kê và phân tích dữ liệu

Phương pháp phân tích theo các biến số

§Phương pháp biến số đơn: trong đó chỉ có một biến số duy nhất được
phân tích.
§Phương pháp biến số kép: được sử dụng để tìm hiểu sự liên hệ giữa hai
biến số.
§Phương pháp đa biến: được sử dụng để tìm hiểu sự liên hệ giữa
các biến số với nhau.

9
1 1.4 Quá trình phân tích dữ liệu

Tổng quát

Thu thập và Chuẩn bị


Khám phá dữ liệu Phân tích
dữ liệu

So sánh các nhóm


Thu thập dữ liệu Thống kê mô tả
Mối quan hệ giữa các
Mã hóa dữ liệu Bảng biểu, đồ thị
biến

Thiết lập cấu trúc DL

Nhập dữ liệu
10

Kiểm tra, hiệu chỉnh


1 1.4 Quá trình phân tích dữ liệu

Tổng quát

Thu thập và Chuẩn bị Từ điều tra, khảo sát ; Từ dữ liệu sẵn có


dữ liệu
Chuyển từ dữ liệu gốc sang dữ liệu được mã hóa

Thu thập dữ liệu §Tên biến (name): Là tên đại diện cho biến
§Loại biến (type): Thể hiện dạng dữ liệu thể hiện trong biến.
Mã hóa dữ liệu §Nhãn của biến (label): Tên biến được thể hiện tóm tắt bằng ký hiệu
§Giá trị khuyết (Missing)
Thiết lập cấu trúc DL §Dạng thang đo (measures): Hiển thị dạng thang đo của biến

Nhập dữ liệu Trực tiếp (Data view) hoặc từ Excell


11

Kiểm tra, hiệu chỉnh Kiểm tra lỗi (min/max); Tìm lỗi ( Sort case, Edit find)
1 1.4 Quá trình phân tích dữ liệu

Tổng quát

Khám phá dữ liệu §Dữ liệu Categorical (phân loại): Tần suất
§Dữ liệu Numerical (dạng số):
Ømean
Thống kê mô tả Østandard deviation
Øminimum
Ømaximum…

§Bar charts
§Pie charts/ Line graphs
Bảng biểu, đồ thị §Table
§Histogram 12

§Scatterplots ( Dạng điểm)


1 1.4 Quá trình phân tích dữ liệu

Tổng quát

Phân tích
§Non-parametric statistics
§ T-tests
§ One-way analysis of variance ANOVA
So sánh các nhóm
§Two-way between groups ANOVA
§Multivariate analysis of variance MANOVA

§Crosstabulation/Chi Square
Mối quan hệ giữa các §Correlation
biến §Regression/Multiple regression 13
§Factor analysis
1 1.5 Các phần mềm ứng dụng

§EXCEL
§SPSS
§EVIEWS
§…………

14
NỘI DUNG (TT)
1 Giới thiệu phân tích dữ liệu

2 Phân loại dữ liệu và một số xử lý trên biến

6
15
2 2.1 Phân loại dữ liệu

§Dữ liệu NC thể chia thành 2 loại chính là dữ liệu định tính và dữ liệu
định lượng, các dữ liệu này thu thập bằng 4 thang đo cơ bản như sau:

Dữ liệu

DL DL định
định tính lượng
(a) Thang đo (b) Thang đo (c) Thang đo (d) Thang đo
danh nghĩa khoảng tỷ lệ
(nominal thứ bậc
16
scale) (ordinal scale) (interval scale) (ratio scale)
2 2.1 Phân loại dữ liệu

(a) Thang đo danh nghĩa (biểu danh)/ nominal scale (tt)

§Ví dụ 2: Hỏi “Xin vui lòng cho biết tình trạng hôn nhân của bạn hiện
nay?”
Độc thân 1
Đang có gia đình 2
Goá bụa 3
Đã ly hôn 4
Những con số này mang tính định danh vì rõ ràng ta không
thể cộng chúng lại hoặc tính ra giá trị trung bình của tình 17

trạng hôn nhân”.


2 2.1 Phân loại dữ liệu

(a) Thang đo danh nghĩa (biểu danh)/ nominal scale (tt)

§Những phép toán thống kê có thể sử dụng cho dạng


thang biểu danh là:
üĐếm;
üTính tần suất của một biểu hiện nào đó;
üXác định giá trị mode;
üThực hiện một số phép kiểm định. 18
2 2.1 Phân loại dữ liệu

(a) Thang đo danh nghĩa (biểu danh)/ nominal scale (tt)

§Những phép toán thống kê có thể sử dụng cho dạng


thang biểu danh là:
üĐếm;
üTính tần suất của một biểu hiện nào đó;
üXác định giá trị mode;
üThực hiện một số phép kiểm định. 19
2 2.1 Phân loại dữ liệu

(b) Thang đo thứ bậc/ ordinal scale

§Là thang đo được sử dụng để xếp hạng các đồ vật hay hiện tượng theo
một thứ tự nhất định với sự so sánh định tính nào đó về thứ bậc hay sự
hơn kém, nó không cho ta biết được khoảng cách giữa chúng.
§Thang đo xếp hạng theo thứ tự là thang đo biểu danh, nhưng không
phải thang đo biểu danh nào cũng đều là thang đo xếp hạng theo thứ
bậc.
§Đối với thang đo xếp hạng theo thứ tự, khuynh hướng trung tâm có thể
xem xét bằng trung vị; giá trị Mode.
20
2 2.1 Phân loại dữ liệu

(c) Thang đo khoảng/ interval scale

• Là loại thang cung cấp định lượng về quan hệ thứ tự giữa các sự vật
và hiện tượng;
• là một dạng đặc biệt của thang đo xếp hạng theo thứ bậc;
• nó nói lên được khoảng cách giữa hai cấp bậc thứ tự (đã được lượng
hoá).
• Trong việc đo lường thái độ hay ý kiến thì thang đo khoảng cách
cung cấp nhiều thông tin hơn so với thang đo xếp hạng theo thứ tự
21
2 2.1 Phân loại dữ liệu

(c) Thang đo khoảng/ interval scale

§Ví dụ 1: Đánh giá chất lượng đào tạo của một trường
Rất không đồng ý Rất đồng ý

22
2 2.1 Phân loại dữ liệu

(c) Thang đo khoảng/ interval scale

§Ví dụ 2: Phát biểu ý thích về màu sắc sản phẩm nào đó bằng cách đánh
dấu vào bậc thang khoảng cách từ:

12 3 4 56 7
Không thích rất thích

Khi đó, người ta xác định thái độ của mình chính xác ở vào điểm số nào.
23
2 2.1 Phân loại dữ liệu

(c) Thang đo khoảng/ interval scale

§Các phép toán thống kê có thể sử dụng thêm cho loại thang đo này (so
với 2 loại thang đo trên) là:
üTính khoảng biến thiên;
üSố trung bình;
üĐộ lệch chuẩn.
Cần chú ý là thang đo khoảng cách tự nó không có điểm 0 tuyệt đối, do đó
bạn chỉ có thể thực hiện được phép tính cộng hay trừ (+/-), nếu dùng phép
chia (/) thì kết quả sẽ không có ý nghĩa. 24
2 2.1 Phân loại dữ liệu

(d) Thang đo tỷ lệ/ ratio scale

§ Đây là những loại thang đo lường cho phép đánh giá và so sánh các sự vật hiện tượng
một cách tuyệt đối, cung cấp thông tin định lượng một cách đầy đủ nhất và được áp
dụng rộng rãi nhất. Nhiều thang đo tỉ lệ cho thấy những ý nghiã sâu sắc hơn là ba loại
thang đo trước.
§ Đây là thang đo dùng cho tiêu thức số lượng.
Ví dụ: Mức độ chi tiêu cho tiền học của con cái chiếm 30% thu nhập của tôi.
§ Nói chung thang đo khoảng và thang đo tỷ lệ có thể đo lường xu hướng trung tâm
bằng bảng tần số, biểu đồ tần số, trung bình số học. Còn xu hướng phân tán được đo
bằng phương sai, độ lệch chuẩn. Do vậy SPSS gộp chung 2 thang đo này thành một
và gọi là Scale Measures. 25
2 2.1 Phân loại dữ liệu

(*) Sai lệch trong đo lường


§Sai lệch trong đo lường (measurement error- єm) được chia thành 2
nhóm: Sai lệch hệ thống (systematic error – єs); Sai lệch ngẫu nhiên
(Random error- єr). Và chúng ta có:
єm = єs + єr
§Sai lệch hệ thống là các sai lệch tạo nên một “chệch” cố định (constant
bias) trong đo lường. Chúng xảy ra khi ta đùng thang đo lường không cân
bằng, hay kỹ thuật phỏng vấn kém,…
§Sai lệch ngẫu nhiên là do những sai sót xảy ra trong quá trình thực hiện,
do người thực hiện gây nên như: ghi nhầm; chọn sai ô lựa chọn;… Các sai
lệch ngẫu nhiên có thể do mệt mỏi, nóng giận, buồn chán, sự hiện diện của
26

người khác,… gây ra.


2 2.2 Đánh giá đo lường

Giá trị và độ tin cậy của đo lường

§ Một đo lường được gọi là có giá trị (Validity) nếu nó đo lường được đúng cái cần đo
lường. Nói cách khác do lường được coi là “lý tưởng” khi Sai lệch trong đo lường
bằng 0 (єm = 0 Khi єs = 0; єr = 0). Thật vậy, nếu X là số đo được của một thuộc tính
nào đó và X0 là số đo thật của nó thì:
X = X0 + єm = X0 + єs + єr
§ Như vậy, nếu chúng ta có thể đo lường được đúng cái cần đo lường thì sự khác biệt về
số đo sẽ phản ánh sự khác nhau về thái độ, ý kiến của đối tượng nghiên cứu.
§ Khi một sự đo lường vắng mặt các sai lệch ngẫu nhiên (єr=0)thì đo lường đó có độ tin
cậy (reliability). Độ tin cậy là điều kiện cần để cho một đo lường có giá trị.
27
2 2.2 Đánh giá đo lường

Xử lý dữ liệu

§Những ghi chép quan sát hoặc các câu trả lời dưới dạng “thô” thành các
con số thống kê theo một trật tự nhất định để chuẩn bị cho việc phân tích
và diễn giải các kết quả nghiên cứu thu được.

28
2 2.2 Đánh giá đo lường

Các giai đoạn xử lý dữ liệu

Chuẩn bị dữ liệu Nhập dữ liệu và lưu trữ

• Giai đọan này gổm 3 bước: • Giai đọan này cũng


gồm 3 bước:
• Kiểm tra và hiệu chỉnh dữ
liệu; • Nhập dữ liệu vào
máy tính;
• Định biến dữ liệu;
• Làm sạch dữ liệu;
• Mã hóa dữ liệu.
• Lưu trữ dữ liệu.

29
2 2.2 Đánh giá đo lường

Các giai đoạn xử lý dữ liệu/ Kiểm tra và hiệu chỉnh

§ Đây là bước kiểm tra chất lượng thông tin, VD: thông tin trong bảng câu hỏi nhằm
đảm bảo không có bảng câu hỏi nào bị thiếu hoặc chứa đựng những thông tin sai sót
theo yêu cầu thiết kế ban đầu. Người kiểm tra phải bảo đảm tính toàn vẹn và tính
chính xác của từng bảng câu hỏi. Thông thường ở bước này các nhà nghiên cứu sẽ
tiến hành kiểm tra các đặc tính cơ bản của bảng câu hỏi.
§ Quá trình kiểm tra, rà soát lại nhằm mục đích kiểm tra, phát hiện, sửa chữa và thông
báo kịp thời cho người thu thập dữ liệu để tránh những sai sót tương tự. Để xử lý các
sai sót phát hiện được qua kiểm tra, ta có thể chọn cách xử lý tuỳ thuộc vào mức độ
sai sót.
30
2 2.2 Đánh giá đo lường

Các giai đoạn xử lý dữ liệu/ Định biến DL

§ Biến nghiên cứu là tập hợp các khái niệm có ý nghĩa mô tả (định tính, định lượng )
cho mục tiêu nghiên cứu, được thể hiện bằng các ký hiệu (mã hoá) theo một qui ước
nào đó. Biến nghiên cứu được thể hiện và là một bộ phận không thể thiếu trong mô
hình nghiên cứu.
§ Biến nghiên cứu có thể được phân loại theo kiểu dữ liệu (dạng thang đo). Biến định
tính là biến chứa các giá trị quan sát ở dạng thang đo danh nghĩa và thang đo thứ bậc.
Biến định lượng là biến chứa các giá trị quan sát ở dạng thang đo khoảng và thang
đo tỷ lệ. Ví dụ trong bảng câu hỏi, mỗi một câu hỏi thường phải nhằm một mục đích
quan sát nào đó. Do vậy, thường mỗi một câu hỏi tương ứng với một biến quan sát
31
2 2.2 Đánh giá đo lường

Các giai đoạn xử lý dữ liệu/ Định biến DL (tt)

§Ví dụ biến nghiên cứu:


Giả sử rằng “Các yếu tố tác động đến quyết định lựa chọn (mua) mì ăn liền nhãn hiệu
“Hảo Hảo” của khách hàng trên thị trường TP.HCM” là:
(a1) Chất lượng SP; (a2) Khẩu vị phù hợp; (a3) Định lượng vừa đủ; (a4) Dễ dàng mua; (a5) Bao bì hấp dẫn.

Khi đi sâu nghiên cứu về “ chất lượng” sản phẩm, các thuộc tính cấu thành kết luận chất
lượng sản phẩm tốt của mì ăn liền ”Hảo Hảo” gồm có:
(a1.1) Sợi mì dai (khi ăn); (a1.2) Màu sắc của mì và nước dùng tươi ngon; (a1.3) Có thành phần dinh dưỡng
cao; … Và các yếu tố còn lại cũng có các thuộc tính xác định chúng.

Ở VD trên các biến số: a1; a2; a3; a4 là các biến số trực tiếp (cấp 1) tác động đến quyết
32

định lựa chọn mì ăn liến “ Hảo Hảo”.


Còn các biến số a1.1; a1.2; … là các biến số cấp 2
2 2.2 Đánh giá đo lường

Các giai đoạn xử lý dữ liệu/ Mã hóa DL


§ Mã hoá giúp giảm số biểu hiện của một biến định tính chỉ còn 2 hay 3 biểu hiện cơ bản
hoặc khi biến định lượng có quá nhiều giá trị chúng ta muốn nhóm lại giúp cho việc trình
bày gọn hơn. Mã hoá dữ liệu làm cơ sở cho việc thống kê phân tích dữ liệu.
§ Mã hoá dữ liệu (Coding) là quá trình chuyển đổi thành dạng mã số để nhập và xử lý dữ liệu
§ Trong nghiên cứu Marketing, mục đích của việc mã hoá là tạo nhãn (labels) cho các câu trả
lời, thường là bằng các con số, hay ký hiệu. Một trả lời khi mã hoá thường sẽ thể hiện bằng
1ký tự chỉ số trả lời (số đo).

Thí dụ: Với câu hỏi “ Xin vui lòng cho biết sở thích của bạn đối với sữa chua Vinamilk?
Code: 1 2 3 4 5
Rất ghét Ghét Tạm được Thích Rất thích 33
2 2.2 Đánh giá đo lường

Các giai đoạn xử lý dữ liệu/ Mã hóa DL (tt)


TT Câu hỏi nghiên cứu Biến quan sát Mã trả lời Trả lời
1 Vui lòng cho biết giới tính của bạn? a1:Giới tính 1 Nam
2 Nữ
2 Xin vui lòng cho biết bạn thuộc nhóm tuổi nào a2: Nhóm tuổi 1 Dưới 18 tuổi
dưới đây? 2 Từ 19- 25
3 Từ 26-35
4 Từ 36-45
5 Trên 45 tuổi
3 Xin vui lòng cho biết sở thích của bạn đối với sữa a3: Sở thích của 1 Rất ghét
chua Vinamilk? khách hàng đối 2 Ghét
với sữa chua 3 Tạm được
Vinamilk 4 Thích
5 Rất thích 34


2 2.2 Đánh giá đo lường

Các giai đoạn xử lý dữ liệu/ Làm sạch và lưu trữ

§Các bước bao gồm :


à Nhập dữ liệu vào máy tính (Inputing data into computer)
à Làm sạch dữ liệu (Data cleaning)
à Lưu trữ dữ liệu (Data saving)

35
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS

Là nơi lưu trữ dữ liệu


nghiên cứu với một
cấu trúc cơ sở dữ liệu
bao gồm cột, hàng và
các ô giao nhau giữa
cột và hàng

36
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

Là nơi lưu trữ dữ liệu


nghiên cứu với một
cấu trúc cơ sở dữ liệu
bao gồm cột, hàng và
các ô giao nhau giữa
cột và hàng

37
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

38
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)


Là nơi quản lý các biến
cùng với các thông số
liên quan đến biến.
Trong màn hình này
mỗi hàng trên màn
hình quản lý một biến,
và mỗi cột thể hiện các
thông số liên quan đến
biến đó

39
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)


Là nơi quản lý các biến
cùng với các thông số
liên quan đến biến.
Trong màn hình này
mỗi hàng trên màn
hình quản lý một biến,
và mỗi cột thể hiện các
thông số liên quan đến
biến đó

40
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)


Là nơi quản lý các biến
cùng với các thông số
liên quan đến biến.
Trong màn hình này
mỗi hàng trên màn
hình quản lý một biến,
và mỗi cột thể hiện các
thông số liên quan đến
biến đó

41
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

42
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

43
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

44
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

45
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

46
2 2.3 Xử lý dữ liệu

Giới thiệu về màn hình quản lý dữ liệu trên SPSS (tt)

47
2 2.3 Xử lý dữ liệu

Mã hóa dữ liệu trên SPSS (tt)

Để rút gọn số biểu hiện


của một biến xuống
còn 3-4 biểu hiện,
chúng ta có thể thực
hiện mã hóa lại.
Từ thanh menu chọn:
Transform / Recode / Into Different
Variables

48
2 2.3 Xử lý dữ liệu

Mã hóa lại dữ liệu trên SPSS (tt)

Để rút gọn số biểu hiện


của một biến xuống
còn 3-4 biểu hiện,
chúng ta có thể thực
hiện mã hóa lại.
Từ thanh menu chọn:
Transform / Recode / Into Different
Variables

49
NỘI DUNG (TT)
1 Giới thiệu phân tích dữ liệu

2 Phân loại dữ liệu và một số xử lý trên biến

3 Mô tả dữ liệu

6
50
3 3.1 Các dạng mô tả dữ liệu

51
3 3.2 Mô tả dạng thống kê

3.2.1 Số định tâm/ đo lường khuynh hướng hội tụ


§Số trung bình (mean): là giá trị trung bình của một dãy số liệu.
§ Nếu mẫu ngẫu nhiên w có các giá trị x = (x1, x2, …xn), thì giá trị trung bình được tính như sau:

§ Nếu các giá trị x1, x2, …xk lần lượt có các tần suất n1, n2, …nk thì giá trị trung bình được tính như
sau:

§ Các đặc tính toán học của giá trị trung bình đóng vai trò rất quan trọng khi các dữ liệu của mẫu được
dùng để suy rộng ra tổng thể (ước lượng) hoặc khi được dùng trong các thí nghiệm thống kê. Phương
52
pháp trung bình số học rất thích hợp khi phân tích các dữ liệu theo khoảng cách.
3 3.2 Mô tả dạng thống kê

3.2.1 Số định tâm/ đo lường khuynh hướng hội tụ (tt)

§Số trung vị (Median): Là giá trị của số đứng ở vị trí giữa dãy số liệu.
Trước khi xác định giá trị trung vị, cần phải sắp xếp các dữ liệu theo thứ
tự dưới lên hoặc từ trên xuống. Gọi n là số giá trị uan sát được, thì số
trung vị được xác định như sau.
§ Nếu n là số lẻ: thì số trung vị là số có số thứ tự (n+1)/2
§ Nếu n là số chẵn: thì số trung vị là số trung bình cộng của 2 số có thứ tự là n/2 và (n/2) +1

Đặc tính quan trọng của trung vị là không bị ảnh hưởng bởi các giá trị ở hai đầu mút của dãy phân
phối, vì vậy, nếu bảng phân phối có độ lệch lớn nên chọn phép tính giá trị trung vị hơn là trung bình.
§Số mốt (mode): Mốt là số có tần số xuất hiện nhiều nhất trong dãy số 53
3 3.2 Mô tả dạng thống kê

3.2.1 Số định tâm/ đo lường khuynh hướng hội tụ (tt)

54
3 3.2 Mô tả dạng thống kê

3.2.1 Số định tâm/ đo lường khuynh hướng hội tụ (tt)

55
3 3.2 Mô tả dạng thống kê

3.2.2 Số phân tán

Số phân tán (Measure of dispersion): Số phân tán dùng để thể hiện sự


khác biệt giữa các số trong dãy số đối với số định tâm.
§ Phương sai ( Variance) và độ lệch chuẩn (Standard deviation): Phương sai và độ lệch chuẩn dựa trên mức độ sai
lệch của các quan sát với giá trị trung bình. Phương sai được định nghĩa như là số trung bình của bình phương các
độ lệch giữa giá trị quan sát với giá trị trung bình trong dãy phân phối. Căn bậc hai của phương sai gọi là độ lệch
chuẩn.
§ Độ lệch chuẩn được tính như sau:

56
3 3.2 Mô tả dạng thống kê

3.2.3 Số phân tán (tt)

57
3 3.2 Mô tả dạng thống kê

3.2.3 Số phân tán (tt)

58
3 3.2 Mô tả dạng thống kê

3.2.3 Số phân tán (tt)

59
3 3.2 Mô tả dạng thống kê

Sử dụng SPSS

Analyze -> Descriptive Statistics


-> Descriptives -> Options.

60
3 3.2 Mô tả dạng thống kê

Biểu đồ tần suất

§Chức năng: khi có nhiều số liệu cần chia lớp để thấy rõ các nét đặc
trưng cơ bản của dãy số liệu, sau đó kiểm tra tính chuẩn của biến
nghiên cứu.
§Cách làm:
§ Để số liệu trong một cột, một hàng hay một bảng chữ nhật
§ Tìm giá trị Min, Max của miền dữ liệu, tính R = Max – Min
§ Chọn khoảng k, thực tế k: 20-30, ít số liệu k: 6-10
§ Tính khoảng cách giữa các tổ: h = R/k (làm tròn)
§ Có Max, Min, R, k, h ta tạo miền phân tổ bắt đầu từ Min, các giá trị tiếp theo cộng dồn với h, cho đên sát
h thì dừng
61
3 3.2 Mô tả dạng thống kê

Biểu đồ tần suất (tt)

62
3 3.2 Mô tả dạng thống kê

Biểu đồ tần suất (tt)

63
3 3.3 Mô tả dạng bảng/ biểu

Bảng chéo (mẫu)


Sở thích về sữa chua Vinamilk theo giới tính.

Thang đo Giới tính Giới tính Tổng


Nam Nữ
5- Rất thích 10 30 40
4- Thích 40 60 100
3- Tạm được 24 6 30
2- Ghét 18 2 20
1- Rất ghét 8 2 10
Tổng 100 100 N= 200 64
3 3.4 Mô tả dạng đồ thị

Có 4 dạng đồ thị:
- Bar chart
- Pie chart
- Line graph
- Scatter graph

65
3 3.4 Mô tả dạng đồ thị

Đồ thị thanh (Bar chart)


Đồ thị thanh thường được sử dụng để biểu diễn số tương đối, số tuyệt đối, tần số.
Tổng sản phẩm quốc nội phân theo ngành kinh tế (giá cố định năm 1989) của vùng ĐBSCL thời kỳ 00 – 04

66
3 3.4 Mô tả dạng đồ thị

Đồ thị thanh (Bar chart) (tt)

67
3 3.4 Mô tả dạng đồ thị

Đồ thị bánh (Pie chart) (tt)


Đồ thị bánh thường được sử dụng cho các câu hỏi đơn trả lời để biểu diễn tần số tương đối – Tổng của nó bằng 100%..

Cơ cấu lao động của Tp. Cần thơ phân theo trình độ năm 2004

68
3 3.4 Mô tả dạng đồ thị

Đồ thị đường (Line graph)


Đồ thị đường (Line graph) và Đồ thị phân tán (Scatter graph) được sử dụng để biểu diễn mối
quan hệ giữa các biến.
Tốc độ tăng trưởng GDP phân theo khu vực kinh tế của Việt Nam thời kỳ 00 – 04
(ĐVT: %)

69
3 3.4 Mô tả dạng đồ thị

Đồ thị phân tán (Scatter graph)


Đồ thị đường (Line graph) và Đồ thị phân tán (Scatter graph) được sử dụng để biểu diễn mối
quan hệ giữa các biến.
Ví dụ minh họa Biểu đồ phân tán

70
NỘI DUNG (TT)
1 Giới thiệu phân tích dữ liệu

2 Phân loại dữ liệu và một số xử lý trên biến

3 Mô tả dữ liệu

4 Phân tích diễn giải dữ liệu

6
71
4 4.1 Ước lượng

1. Ước lượng điểm


2. Ước lượng khoảng
3. Ước lượng khoảng cho trung bình: trường hợp biết, và chưa biết
4. Ước lượng khoảng cho tỉ lệ
5. Kích thước mẫu.

72
4 4.1 Ước lượng

4.1.1 Ước lượng điểm

73
4 4.1 Ước lượng

4.1.2 Ước lượng Khoảng


§ Cung cấp một khoảng các giá trị
§ Có xét đến sự biến thiên (variation) về trị số giữa các mẫu khác nhau
§ Dựa trên quan sát của 1 mẫu
§ Cung cấp thông tin gần nhất (closeness) về trị số (chưa
biết) của tổng thể
§ Thể hiện dưới dạng độ tin cậy.

74
4 4.1 Ước lượng

4.1.2 Ước lượng Khoảng (tt)- Khoảng tin cậy cho μ khi biết σ

75
4 4.1 Ước lượng

4.1.2 Ước lượng Khoảng (tt)- Khoảng tin cậy cho μ khi biết σ

76
4 4.1 Ước lượng

4.1.2 Ước lượng Khoảng (tt)- Khoảng tin cậy cho μ khi chưa biết σ

77
4 4.1 Ước lượng

4.1.2 Ước lượng khoảng (VD)


§ Chiều dài của một loại sản phẩm là một đại lượng ngẫu nhiên có phân phối theo quy
luật chuẩn với độ lệch chuẩn là 0,38. Đo thử 30 sản phẩm loại này, ta thu được kết quả
sau:

Chiều dài (cm) 36 38 40 42


Số sản phẩm tương ứng 6 11 8 5

a)Với độ tin cậy 0,95 hãy ước lượng chiều dài trung bình của loại sản phẩm nói
trên bằng khoảng tin cậy đối xứng (2 phía).
b)Nếu yêu cầu sai số của ước lượng là 0,05 và giữ nguyên độ tin cậy thì phải 78
điều tra một mẫu kích thước bao nhiêu?
4 4.1 Ước lượng

4.1.2 Ước lượng khoảng/ Khoảng tin cậy cho tỷ lệ tổng thể
§ Giả sử trong tổng thể kích thước n có m phần tử mang dấu hiệu nghiên cứu. Nếu lấy
ngẫu nhiên ra một phần tử và gọi X là số phần tử mang dấu hiệu nghiên cứu được lấy
ra thì X là một đại lượng ngẫu nhiên phân phối theo quy luật không - một với bảng
phân phối xác suất là:

79
4 4.1 Ước lượng

4.1.2 Ước lượng khoảng/ Khoảng tin cậy cho tỷ lệ tổng thể

80
4 4.1 Ước lượng

4.1.2 Ước lượng khoảng/ Khoảng tin cậy cho tỷ lệ tổng thể

§ Ví dụ: Một nghiên cứu được thực hiện nhằm ước lượng thị phần của sản phẩm nội địa
(do các công ty sản xuất trong nước) đối với mặt hàng bánh kẹo. Kết quả điều tra ngẫu
nhiên 100 khách hàng cho thấy có 34 người dùng sản phẩm nội địa. Với độ tin cậy 95%,
hãy ước lượng khoảng tin cậy cho thị phần sản phẩm nội địa.

81
4 4.2 Kiểm định tham số

Các phương pháp kiểm định tham số

(1). Kiểm định giả thiết về tham số trung bình μ của tổng thể
(2). Kiểm định sự khác nhau giữa trung bình của hai tổng thể
(3). Kiểm định giả thiết về tỷ lệ của tổng thể
(4). So sánh hai tỷ lệ

82
4 4.2 Kiểm định tham số

Các bước kiểm định tham số

Bước 1: Thiết lập các giả thuyết (H0; H1);


Bước 2: Chọn mức ý nghiã (α);
Bước 3: Chọn “phép” kiểm định thích hợp và tính
toán các giá trị thống kê kiểm định (Z, t,..);
Bước 4: Xác định giá trị tới hạn của phép kiểm định;
Bước 5: So sánh giá trị kiểm định với giá trị tới hạn
để ra quyết định (Chấp nhận hay bác bỏ giả
thuyết).
83
4 4.2 Kiểm định tham số

Các bước thực hiện kiểm định

84
4 4.2 Kiểm định tham số

(1) Kiểm định giả thiết về tham số trung bình μ

§Đã biết phương sai


ØGiả định:
üTổng thể phân phối chuẩn
üNếu tổng thể phân phối không chuẩn, mẫu phải lớn
üBiết σ

Bác bỏ giả thuyết H0, ở mức ý nghĩa a, nếu:


85

Z < - Zα/2 hoặc Z > Zα/2


4 4.2 Kiểm định tham số

(1) Kiểm định giả thiết về tham số trung bình μ

§Chưa biết phương sai

Bác bỏ giả thuyết H0, ở mức ý nghĩa a, nếu:


t < - tα/2 hoặc t > tα/2
86
4 4.2 Kiểm định tham số

(1) Kiểm định giả thiết về tham số trung bình μ


Compare Mean\One-Sample T Test…
Lựa chọn biến cần so sánh bằng cách di chuyển vệt đen và
chuyển đến vào hộp thoại Test Variable(s), nhập giá trị cần so
sánh vào hộp thoại Test Value
Options để xác định độ tin cậy cho kiểm nghiệm, mặc định là
95% và cách xữ lý đối với các giá trị khuyết

Exclude cases analysis by analysis. Mỗi kiểm nghiệm T sử dụng


toàn bộ các trường hợp (cases) chứa đựng giá trị có ý nghĩa đối với
biến được kiểm nghiệm. Đặc điểm là kích thước mẫu luôn thay đổi.
Exclude cases listwise. Mỗi kiểm nghiệm T sử dụng chỉ những
trường hợp có giá trị đối với toàn bộ tất cả các biến được sử dụng
87
trong bất kỳ kiểm nghiệm T test nào. Kích thước mẫu luôn không
đổi
4 4.2 Kiểm định tham số

(2) Kiểm định sự khác nhau giữa trung bình của hai tổng thể

Bác bỏ giả thuyết H0, ở mức ý nghĩa a, nếu: 88

Z < - Zα/2 hoặc Z > Zα/2


4 4.2 Kiểm định tham số

(2) Kiểm định sự khác nhau giữa trung bình của hai tổng thể (tt)

§ Trường hợp chưa biết phương sai của tổng thể.


§ Mẫu lớn: nX và nY ³ 30

Bác bỏ giả thuyết H0, ở mức ý nghĩa a, nếu:


Z < - Zα/2 hoặc Z > Zα/2
89
4 4.2 Kiểm định tham số

(2) Kiểm định sự khác nhau giữa trung bình của hai tổng thể (tt)
§Trường hợp chưa biết phương sai của tổng thể.

Bác bỏ giả thuyết H0, ở mức ý nghĩa a, nếu: 90

t < - tα/2 hoặc t > tα/2


4 4.2 Kiểm định tham số

(2) Kiểm định sự khác nhau giữa trung bình của hai tổng thể (tt)

91
4 4.2 Kiểm định tham số

(3) a.Kiểm định giả thiết về tỷ lệ của tổng thể


§Giả sử đại lượng ngẫu nhiên có phân phối không - một với tham số p.
Nếu chưa biết p song có cơ sở giả thiết rằng giá trị của p là p0, ta đưa
ra giả thiết:
H0: p = p0. Cần kiểm định giả thiết H0.
Chọn lập thống kê:

Bác bỏ giả thuyết H0, ở mức ý nghĩa a, nếu: 92

Z < - Zα/2 hoặc Z > Zα/2


4 4.2 Kiểm định tham số

(3) b.Kiểm định giả thiết về tỷ lệ của 2 tổng thể (so sánh 2 tỷ lệ)
§Giả sử hai đại lượng ngẫu nhiên X và Y tuân theo quy luật phân phối
không - một với E(X) = p1, E(Y) = p2 chưa biết, song có cơ sở nào đó
giả thiết rằng p1 = p2.
§Người ta đưa ra giả thiết H0: p1 = p2. Kiểm định giả thiết:
§ Từ X và Y lập các mẫu ngẫu nhiên cỡ n và m
§ Wn = (X1, X2,…,Xn); Wm = (Y1, Y2,…,Ym)
§ Chọn lập thống kê:

93
Bác bỏ giả thuyết H0, ở mức ý nghĩa a,
Nếu: Z < - Zα/2 hoặc Z > Zα/2
4 4.3 Phân tích phương sai ANOVA

a. Khái niệm
§ANOVA là kỹ thuật thống kê được sử dụng khi chúng ta muốn so sánh
số trung bình của ≥ 3 nhóm. Kỹ thuật này chia phương sai của 1 quan
sát (observation) thành 2 phần: 1phương sai giữa các nhóm (between
groups) và 2phương sai nội nhóm (within group). Do phưong sai là độ
phân tán tương đối của các quan sát so với số trung bình nên việc phân
tích phương sai giúp so sánh các số trung bình dễ dàng (bên cạnh việc
so sánh các phương sai).
§ B1. Giả thiết trong phân tích phương sai một chiều như sau:
§ H0: µ1= µ2 =… = µk
§ H1 : Tồn tại ít nhất một giá trị trung bình của nhóm thứ i (µi) khác với ít nhất một giá trị trung bình của
nhóm còn lại. 94

§ B2. Lựa chọn mức ý nghĩa α


§ B3. Tính tiêu chuẩn kiểm định
4 4.3 Phân tích phương sai ANOVA

b. Thực hiện phân tích


§Tính tiêu chuẩn kiểm định:

95
4 4.3 Phân tích phương sai ANOVA

b. Thực hiện phân tích (tt)


§ Tính tiêu chuẩn kiểm định:

96

Chúng ta bác bỏ H0 nếu F>F(k- 1, n- k, α) ; hoặc P(F) < α


4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến

a. Giữa 2 biến: định lượng – định tính

§Ví dụ: Giả sử chúng ta muốn phân tích xem có sự khác nhau về độ tuổi
trung bình giữa CBCNV nam và nữ hay không?, khi đó chúng ta sẽ xem
xét mối quan hệ giữa 2 biến:
§ Tuổi (biến định lượng)
§ Giới tính (biến định tính)

§ Chúng ta thiết lập giả thuyết:


§ H0: Không có sự khác nhau về độ tuổi trung bình giữa CBCNV nam và nữ
§ H1: Tồn tại sự khác nhau về độ tuổi trung bình giữa CBCNV nam và nữ
§ Dùng phân tích phương sai ANOVA

97

Chúng ta bác bỏ H0 nếu F>F(k- 1, n- k, α) ; hoặc P(F) < α


4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến

a. Giữa 2 biến: định lượng – định tính (sử dụng SPSS)


Sử dụng Compare means trong SPSS:

Chuyển biến định lượng cần so


sánh trung bình vào hộp thoại
Test variable(s). Ta có thể chọn
nhiều biến định lượng để so sánh.
Định ra các nhóm cần so sánh với
nhau (thường là biến định danh)
di chuyển vào hộp thoại Gouping
variable.
Công cụ Define Groups… cho
phép ta định ra hai nhóm cần so
sánh với nhau 98
4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến

b. Giữa biến phụ thuộc định lượng với các biến độc lập

99
4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến

b. Giữa biến phụ thuộc định lượng với các biến độc lập (tt)

§Đặt giả thiết:


§ Giả thuyết không là H0: b2 = b3 =…= bk = 0 (biến phụ thuộc không có quan hệ với bất kỳ biến độc
lập nào)
§ Giả thuyết ngược lại là H1: có ít nhất một trong những giá trị β không bằng không.
§Thống kê kiểm định.
ESS /(k -1)
F= ~ F(a, k - m, n - k)
RSS /(n - k)

Chúng ta bác bỏ H0 nếu F>F(k- 1, n- k, α) ; hoặc P(F) < α

Có thể sử dụng từ bảng kết quả hồi quy trong excel, Eviews, SPSS 100
4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến

c. Giữa biến độc lập định tính (biến định danh – định danh)
§ Ví dụ: nghiên cứu mối liên hệ giữa việc mua quần áo thời trang và tình trạng hôn
nhân. Khách hàng chia hai loại cao và thấp dựa vào mức độ mua

Mức độ mua hàng Tình trạng hôn nhân


Có gia đình Chưa có gia đình
Cao (%) 31 52
Thấp (%) 69 48
Số khách hàng (người) 700 300

Vấn đề đặt ra là việc mua quần áo thời trang và tình trạng hôn nhân có liên quan hay không ? 101
(Với α =0,05)
4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến

c. Giữa biến độc lập định tính (biến định danh – định danh) (tt)

§ Ví dụ: Để đánh giá hiệu quả làm tăng chất lượng của một biện pháp công nghệ mới
trên một dây chuyền sản xuất người ta thu thập được các số liệu sau:
Chất lượng Phế phẩm Chính phẩm (cái) Tổng số (cái)
(cái)
Công nghệ
Sau khi thay đổi công nghệ 8 192 200
Trước khi thay đổi công nghệ 92 708 800
Tổng số 100 900 1000

Vấn đề đặt ra là việc áp dụng công nghệ mới và chất lượng có liên quan hay 102

không ? (Với α =0,05)


4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến

c. Giữa biến độc lập định tính (biến định danh – định danh) (tt)

§ Nếu các dữ kiện của biến ngẫu nhiên được xếp loại theo 2 tiêu chuẩn thì các dữ kiện
sẽ được trình bày trong bảng gồm hàng và cột gọi là bảng dữ kiện ngẫu nhiên 2 chiều.
Tổng quát, bảng ngẫu nhiên 2 chiều gồm r hàng và c cột được trình bày như sau:

103
4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến

c. Giữa biến độc lập định tính (biến định danh – định danh) (tt)
§ Để xác định các biến độc lập hay phụ thuộc, chúng ta dùng kiểm định chi bình
phương, thực hiện như sau:

104

§ Chúng ta bác bỏ H0 nếu χ2> χ2(α , ν) ; trong đó ν = (r-1)(c-1)


4 4.4 Kiểm định tính độc lập hay phụ thuộc của các biến

c. Giữa biến độc lập định tính (biến định danh – định danh) (tt)
SPSS: Analyze/ Descriptives statistics / Crosstab
Bấm Statistics để thiết lập
các thống kê

105
4 4.5 Kiểm định phi tham số

c. Giữa biến độc lập định tính (biến định danh – định danh) (tt)

§ Kiểm định phi tham số là các loại kiểm định ít đòi hỏi các giả thiết về phân phối của
dữ kiện. Thông thường, kiểm định phi tham số phù hợp nhất trong các trường hợp
chúng ta không thể dùng các kiểm định tham số, ví dụ dữ liệu mà chúng ta thu thập
là loại dữ liệu định tính (biểu danh hay thứ tự) hoặc khi các dữ liệu thuộc thang đo
lường khoảng cách (interval) nhưng khi kiểm định phân phối chuẩn không thỏa mãn.
Những trường hợp như vậy, chúng ta thường sử dụng phương pháp kiểm định phi
tham số như sau.
1) Kiểm định sự bằng nhau của trung bình trong hai mẫu (Dấu-Sign test, Wilcoxon, McNemar)
2) Kiểm định sự bằng nhau của trung bình trong nhiều hơn hai mẫu (Friedman, Kendall’s W, Cochran’s Q)
3) Kiểm định cho hai mẫu độc lập (Mann-Whitney U)
4) Kiểm định nhiều hơn hai mẫu độc lập (Kruskal-Wallis H) 106

§ Chúng ta sẽ xem xét cụ thể trong phần giới thiệu SPSS.


NỘI DUNG (TT)
1 Giới thiệu phân tích dữ liệu

2 Phân loại dữ liệu và một số xử lý trên biến

3 Mô tả dữ liệu

4 Phân tích diễn giải dữ liệu

5 Phân tích tương quan và hồi quy

6
107
5 Phân tích tương quan và hồi quy

Nội dung

1.Khái niệm phân tích hồi quy


2.Mô hình hồi quy đơn biến
3.Mô hình hồi quy đa biến

108
5 5.1 Khái niệm phân tích hồi quy

a. Khái niệm

§Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là
biến phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập
nhằm mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ
thuộc khi biết trước giá trị của biến độc lập.
§Ví dụ: Khi chúng ta cố gắng giải thích chi tiêu dùng của mọi người,
chúng ta có thể sử dụng các biến giải thích là thu nhập và độ tuổi. Để
dự đoán khả năng một học sinh cuối cấp trung học phổ thông vào đại
học, chúng ta có thể xem xét đến điểm các bài kiểm tra, trình độ giáo
dục của cha mẹ cũng như thu nhập của gia đình anh ta 109
5 5.1 Khái niệm phân tích hồi quy

b. Hồi quy tổng thể và hồi quy mẫu

b1) Hàm hồi quy tổng thể (PRF):


E(Y/X=Xi) = b1 + b2X
§Đối với một quan sát cụ thể thì giá trị biến phụ thuộc lệch khỏi kỳ
vọng toán, vậy:
Yi = b 1 + b 2 X i + u i
Trong đó:
• b1 và b2 là các tham số của mô hình
•ui là Sai số của hồi quy hay còn được gọi là nhiễu ngẫu nhiên. Nhiễu ngẫu nhiên hình thành có
thể do: Bỏ sót biến giải thích, Sai số khi đo lường biến phụ thuộc, Các tác động không tiên đoán
110

được hay Dạng hàm hồi quy không phù hợp.


5 5.1 Khái niệm phân tích hồi quy

b. Hồi quy tổng thể và hồi quy mẫu


§ b2) Hàm hồi quy mẫu (SRF):
§Trong thực tế hiếm khi chúng có số liệu của tổng thể mà chỉ có số liệu
mẫu. Chúng ta phải sử dụng dữ liệu mẫu để ước lượng hàm hồi quy
tổng thể.
§Hàm hồi quy mẫu được biểu diễn:

Trong đó:
• Yˆ là ước lượng của giá trị trung bình của Y đối với biến X đã biết
•bˆ là ước lượng của β
1 1

•bˆ2 là ước lượng của β 2 111


5 5.2 Mô hình hồi quy đơn

Phương pháp bình phương nhỏ nhất- OLS (ordinary least squares).
§ Đây là phương pháp được đưa ra bởi nhà toán học Đức Carl Friedrich Gauss, ký
hiệu OLS (ordinary least squares). Tư tưởng của phương pháp này là cực tiểu tổng
bình phương các phần dư.

112
5 5.2 Mô hình hồi quy đơn

OLS- Hồi quy đơn

113
5 5.2 Mô hình hồi quy đơn

OLS- Hồi quy đơn

114
5 5.2 Mô hình hồi quy đơn

OLS- Hồi quy đơn (tt)

115
5 5.2 Mô hình hồi quy đơn

OLS- Hồi quy đơn (tt)

116
5 5.2 Mô hình hồi quy đơn

OLS- Hồi quy đơn (tt)


Các giả thiết
§ Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước
lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thoả mãn các giả thiết. Khi
thoả mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính không
chệch có hiệu quả nhất trong các ước lượng. Vì thế phương pháp OLS đưa ra Ước Lượng
Không
chệch Tuyến Tính Tốt Nhất (BLUE). Kết quả này được gọi là Định lý Gauss–Markov,
Các giả thiết như sau.

117
5 5.2 Mô hình hồi quy đơn

Độ phù hợp của mô hình

§ Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của
biến phụ thuộc, người ta sử dụng R2

Trong đó:
§ TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình.
§ ESS: là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu
118
và giá trị trung bình của chúng. Phần này đo độ chính xác của hàm hồi quy
§ RSS: là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.
5 5.2 Mô hình hồi quy đơn

Độ phù hợp của mô hình (tt)

§Tỉ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình
phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê
“good of fit”. Từ định nghĩa R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn
bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình. Khi đó
người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy; 0 ≤ R2 ≤1
§R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động
của biến phụ thuộc.
§Nếu R2 bằng 0. Nghĩa là mô hình không đưa ra thông tin nào về biến phụ thuộc và dự
đoán tốt nhất về giá trị của biến phụ thuộc là giá trị trung bình của nó. Các biến "giải
119
thích" thực sự không đưa ra được một giải thích nào.
5 5.2 Mô hình hồi quy đơn

Ước lượng khoảng tin cậy của các bj


Với các giả thiết đã cho ở phần trước (OLS)- ui có phân bố N(0,σ2). Nếu thoả mãn thì
người ta suy ra:

§ Với độ tin cậy 1-a, ta có ước lượng 2 phía như sau:

120
5 5.2 Mô hình hồi quy đơn

Ước lượng khoảng tin cậy của các bj


§ Ước lượng 2 phía:

121
5 5.2 Mô hình hồi quy đơn

Kiểm định cho các bj


§ Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj*. Nếu giả thiết này
đúng thì:

Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏ
Hai phía βj = βj* βj ≠ βj* t >tα/2 (n-2)
Phía phải βj ≤ βj* βj > βj* t >tα (n-2)
Phía trái βj ≥ βj* βj < βj* t <-tα (n-2) 122
5 5.2 Mô hình hồi quy đơn

Kiểm định cho các bj (tt)


§ Sử dụng p-value:

123
5 5.2 Mô hình hồi quy đơn

Kết quả hồi quy trên SPSS


Thực hiện hồi quy: Data/ Data
analysis/ Regression

§ Intercept: Tung độ gốc


§ Coefficients : Hệ số hồi quy § t Stat : Trị thống kê t(n-2) 124

§ Standard Error : Sai số chuẩn của ước lượng hệ số § P-value : Giá trị p
5 5.2 Mô hình hồi quy đơn

Dự báo

125
5 5.2 Mô hình hồi quy đơn

Dự báo (tt)
Dự báo giá trị trung bình của biến phụ thuộc

126
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Giới thiệu mô hình hồi quy đa biến


§ Chúng ta đã nghiên cứu mô hình hồi quy đơn. Trong lý thuyết cũng như trong thực tế,
có nhiều trường hợp mà biến kinh tế cho không thể giải thích bằng các mô hình hồi
quy đơn như vậy.
Ví dụ:
§ Lượng cầu phụ thuộc vào giá, thu nhập, giá các hàng hoá khác
v.v. Nhớ lại lý thuyết về hành vi người tiêu dùng.
QD = f(P, I, Ps, Pc,Market size, T (thị hiếu))
§ Giá nhà ở phụ thuộc vào diện tích nhà, số phòng ngủ và số phòng tắm ...
§ Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí địa lý . . .
§ Tỷ lệ tử vong trẻ em của quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục .
. 127
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Giới thiệu mô hình hồi quy đa biến (tt)

§Khi chúng ta có tập hợp dữ liệu về một biến kinh tế nào đó (biến này
được gọi là biến phụ thuộc) và các nhân tố ảnh hưởng đến nó (các nhân tố
ảnh hưởng này được gọi là các biến giải thích) thì việc xét đến các ảnh
hưởng riêng biệt (hoặc đồng thời) của nhiều nhân tố đến một biến kinh tế
có thể được giải thích bằng mô hình hồi quy bội.
§Hàm hồi quy bội tổng thể có dạng
y = β1 + β2x2 + β3x3 + . . . βkxk + u PRF Trong đó:
β1: là hệ số tự do (hệ số chặn) βj: là hệ số hồi quy riêng
u: sai số ngẫu nhiên
128
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Giả thiết mô hình hồi quy đa biến (tt)


§ Các giả thiết OLS cho mô hình hồi quy tuyến tính đơn được giải thích trong mô hình
hồi quy bội:

129
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Ước lượng các tham số của mô hình hồi quy đa biến


§ Trong thực tế chúng ta thường chỉ có dữ liệu từ mẫu. Từ số liệu mẫu chúng ta ước
lượng hồi quy tổng thể.

130
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Ước lượng các tham số của mô hình hồi quy đa biến (tt)
§ Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:

§ Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn. Chúng ta có thể giải k phương trình chuẩn này
để tìm k hệ số beta chưa biết. 131

§ Sự trình bày đơn giản nhất của lời giải này ở dưới dạng đại số ma trận. Tuy nhiên sử dụng phần mềm EViews hay
các phần mềm phân tích dữ liệu khác chúng ta có thể tìm dễ dàng các hệ số hồi quy.
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Hệ số xác định bội R2 và hệ số xác định bội đã hiệu chỉnh


§ Trong mô hình hồi quy hai biến R2 đo độ thích hợp của hàm hồi quy. Nó chính
là tỷ lệ của toàn bộ sự biến đổi của biến phụ thuộc y do biến giải thích x gây ra.
Trong mô hình hồi quy bội tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả
các biến X gây ra được gọi là hệ số xác định bội, ký hiệu là R2:

§ 0≤ R2 ≤1. Nếu R2 =1, có nghĩa là đường hồi quy giải thích 100% thay đổi của y. Nếu
R2 =0, có nghĩa là mô hình không giải thích sự thay đổi nào của y.
§ R2 Là hàm không giảm của số biến giải thích có trong mô hình, do đó nếu tăng số
biến giải thích có trong mô hình thì R2 cũng tăng. Vấn đề cần đặt ra là khi nào cần132
đưa thêm biến giải thích mới vào trong mô hình?
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Hệ số xác định bội R2 và hệ số xác định bội đã hiệu chỉnh (tt)

§ Để ngăn chặn tình trạng “có đưa thêm biến vào mô hình” như đã nêu trên, một phép
đo khác về mức độ thích hợp được sử dụng thường xuyên hơn. Phép đo này gọi là R2
hiệu chỉnh hoặc R2 hiệu chỉnh theo bậc tự do (kết quả này luôn được in ra khi thực
hiện hồi quy bằng những phần mềm chuyên dụng). Để phát triển phép đo này, trước
hết phải nhớ là R2 đo lường tỷ số giữa phương sai của Y “được giải thích” bằng mô
hình; một cách tương đương, nó bằng 1 trừ đi tỷ số “không được giải thích” do
phương sai của sai số Var(u).
§Ta có thể biểu diễn công thức tính như sau:

133
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Ước lượng khoảng tin cậy và kiểm định cho bj

134
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Kiểm định ý nghĩa của hàm hồi quy

135
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Kiểm định ý nghĩa của hàm hồi quy (tt)

136
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Sử dụng Eviews

137
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Sử dụng Eviews (tt)


Xem một các thông số thống kê mô tả của 04 biến: View/ Descriptive Stats/ Individual Samples

138
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Sử dụng Eviews (tt)


Xem ma trận tương quan (Correlation matrix) của 04 biến (Series) ta vào: View/ Correlations/ Common Samples

139
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Sử dụng Eviews (tt)


Phân tích hồi quy: Open/ as Equation

140
5 5.3 Mô hình hồi quy đa biến (HQ bội)

Sử dụng Eviews (tt)

141
NỘI DUNG
1 Giới thiệu phân tích dữ liệu

2 Phân loại dữ liệu và một số xử lý trên biến

3 Mô tả dữ liệu

4 Phân tích diễn giải dữ liệu

5 Phân tích tương quan và hồi quy

6 Phân tích nhân tố và đánh độ tin cậy của thang đo


142
6 6.1. Khái niệm và ứng dụng

§Phân tích nhân tố (Exploratory Factor Analysis):


à được ứng dụng rất nhiều trong các lĩnh vức nghiên cứu kinh tế và xã hội.
à Trong KD, phân tích nhân tố có thể được dùng trong nhiều trường hợp như:
à phân khúc thị trường để nhận ra các biến quan trọng để phân nhóm
người tiêu dùng,
à xác định các thuộc tính nhãn hiệu có ảnh hưởng đến sự lựa chọn của
người tiêu dùng hoặc
à để hiểu thói quen sử dụng phương tiên truyền thông của thị trường mục
tiêu…
143
6 6.1. Khái niệm và ứng dụng

Giới thiệu mô hình hồi quy đa biến (tt)

§Phân tích nhân tố (Exploratory Factor Analysis) được ứng


dụng rất nhiều trong các lĩnh vức nghiên cứu kinh tế và xã
hội. Trong kinh doanh, phân tích nhân tố có thể được dùng
trong nhiều trường hợp như: phân khúc thị trường để nhận ra
các biến quan trọng để phân nhóm người tiêu dùng, xác định
các thuộc tính nhãn hiệu có ảnh hưởng đến sự lựa chọn của
người tiêu dùng hoặc để hiểu thói quen sử dụng phương tiên
truyền thông của thị trường mục tiêu… 144
6 6.1. Khái niệm và ứng dụng

Phân tích nhân tố khám phá( EFA)

§Phân tích nhân tố là tên chung của một nhóm các thủ tục được sử dụng
chủ yếu để thu nhỏ và tóm tắt các dữ liệu.
§Trong nghiên cứu, chúng ta có thể thu thập được một số lượng biến khá
lớn và hầu hết các biến này có liên hệ với nhau và số lượng của chúng
phải được giảm bớt xuống đến một số lượng mà chúng ta có thể sử dụng
được. Liên hệ giữa các nhóm biết có liên hệ qua lại lẫn nhau được xem
xét và trình bày dưới dạng một số ít các nhân tố cơ bản". Mỗi một biến
quan sát sẽ được tính một tỷ số gọi là Hệ số tải nhân tố (factor loading).
Hệ số này cho người nghiên cứu biết được mỗi biến đo lường sẽ “thuộc 145

về” những nhân tố nào.


6 6.1. Khái niệm và ứng dụng

Phân tích nhân tố khám phá (EFA) (tt)

§Các nhân tố có thể được diễn tả như những kết hợp tuyến
tính của các biến quan sát:
Fi =Wi1 X1 + Wi 2 X 2 + Wi3 X 3 +... + Wik X k
§ Fi: Ước lượng trị số của nhân tố (factor) thứ i.
§ Wik: là quyền số hay trọng số nhân tố (weight or factor score coefficient) của biến số thứ k đến
nhân tố i.
§ k: Số biến (items).

146
6 6.1. Khái niệm và ứng dụng

Kiểm định độ tin cậy của thang đo

§Thực hiện kiểm định độ tin cậy của thang đo bằng hệ số Cronbach’s
Alpha để loại bỏ biến rác hoặc biến có tương quan thấp trong thang
đo lường, các biến quan sát Xk còn lại được đưa vào phân tích nhân tố
khám phá EFA.
§Tiêu chuẩn lựa chọn:
Hệ số Cronbatch Alpha ≥ 0.6.

147
6 6.2. Mô hình phân tích nhân tố

Kiểm định sử dụng trong phân tích nhân tố EFA

§Mô hình phân tích nhân tố EFA được cho là phù hợp khi các tiêu chuẩn
sau đây được thỏa điều kiện:
1)Hệ số tải nhân tố (Factor Loadings): là những hệ số tương quan đơn giữa các biến
và các nhân tố. Hệ số tải nhân tố lớn hơn 0,3.
2)Tính thích hợp của EFA (Kaiser – Meyer – Olkin): là chỉ số dùng xem xét sự thích
hợp của phân tích nhân tố nếu 0,5 ≤ KMO ≤ 1.
3)Phương sai cộng dồn (cumulative of variance): là phần trăm phương sai toàn bộ
được thích bởi các nhân tố, nghĩa là coi biến thiên 100% thì giá trị này cho biến
phân tích nhân tố cô đọng được bao nhiêu % và bị thất thoát bao nhiêu %. Tiêu
chuẩn để chấp nhận phân tích nhân tố có phương sai cộng dồn lớn hơn 50% với148
Eigenvalue phải lớn hơn 1.
6 6.2. Mô hình phân tích nhân tố

Kiểm định sử dụng trong phân tích nhân tố EFA (tt)

§Mô hình phân tích nhân tố EFA được cho là phù hợp khi các
tiêu chuẩn sau đây được thỏa điều kiện:
4)Trường hợp có một vài biến có hệ số lớn đối với hơn một nhân tố hoặc có nhiều nhân tố có hệ số
lớn trong cùng một biến, việc giải thích sẽ trở nên khó khăn, khi đó chúng ta phải tiến hành xoay
nhân tố. Phương pháp thường dùng là Varimax (Mỗi biến gốc nên có hệ số tải nhân tố lớn (0.4 trở
lên) đối với chỉ một nhân tố được rút ra).
5)Sau khi rút trích được các nhân tố và lưu lại thành các biến mới, chúng ta sẽ sử dụng các biến mới
này thay cho tập hợp biến gốc để đưa vào các phân tích tiếp theo như kiểm định trung bình,
ANOVA, tương quan & hồi quy …
Ví dụ: chúng ta có thể xem có khác biệt giữa nam và nữ hay không về tầm quan trọng của các
lợi ích khi mua kem đánh răng bằng một kiểm định t đối với mẫu độc lập. 149

CHÚ Ý khi chạy t test hay ANOVA không nên dùng nhân số chuẩn hóa
6 6.2. Mô hình phân tích nhân tố

Sơ đồ quy trình nghiên cứu ứng dụng EFA

150
6 6.2. Mô hình phân tích nhân tố

Ứng dụng SPSS trong phân tích nhân tố EFA


Kiểm định Cronbach’s Alpha

151
6 6.2. Mô hình phân tích nhân tố

Ứng dụng SPSS trong phân tích nhân tố EFA (tt)

Điều kiện Cronbach’s


Alpha > 0,6

152
6 6.2. Mô hình phân tích nhân tố

Ứng dụng SPSS trong phân tích nhân tố EFA (tt)

Chọn tất cả các biến cần


phân tích nhân tố

Nhấn vào ô
Descriptives…

153
6 6.2. Mô hình phân tích nhân tố

Ứng dụng SPSS trong phân tích nhân tố EFA (tt)

Chọn xoay
Varimax

154
6 6.2. Mô hình phân tích nhân tố

Ứng dụng SPSS trong phân tích nhân tố EFA (tt)

Bỏ các biến
có giá trị nhỏ hơn 0,5

155
6 6.2. Mô hình phân tích nhân tố

Ứng dụng SPSS trong phân tích nhân tố EFA (tt)

156
6 6.2. Mô hình phân tích nhân tố

Ứng dụng SPSS trong phân tích nhân tố EFA (tt)

157
6 6.2. Mô hình phân tích nhân tố

Ứng dụng SPSS trong phân tích nhân tố EFA (tt)


Kết quả phân tích hồi quy

158
6 6.2. Mô hình phân tích nhân tố

Ứng dụng SPSS trong phân tích nhân tố EFA (tt)

159
END . 160

You might also like