You are on page 1of 66

TƯƠNG QUAN VÀ HỒI QUY

CORRELATION & REGRESSION

Báo cáo viên : Hồ Minh Sánh


TƯƠNG QUAN
CORRELATION

Báo cáo viên : Hồ Minh Sánh


NỘI DUNG CHÍNH

• Tương quan tuyến tính


• Hồi quy tuyến tính
• Kiểm tra các điều kiện áp dụng mô
hình
• Số liệu sai lệch
• Hồi quy với biến giả (dummy)
• Phương pháp stepwise
TƯƠNG QUAN (CORRELATION)
• Xem xét mối quan hệ giữa hai hay nhiều biến

• Tương quan có:


- Tương quan 2 biến – Bivariate Correlations
- Tương quan riêng phần – Partial Correlations :
Nghiên cứu mối quan hệ tuyến tính của hai biến
có loại trừ ảnh hưởng của các yếu tố khác.

• Điều kiện: 2 hoặc nhiều biến định lượng


TƯƠNG QUAN (CORRELATION)

• Mục tiêu nghiên cứu: Giả định nhà nghiên cứu muốn
tìm hiểu có mối quan hệ như thế nào giữa độ tuổi và
thu nhập.

• Câu hỏi nghiên cứu: Độ tuổi và thu nhập có mối


quan hệ với nhau hay không ?

• Hai biến được chọn: Độ tuổi và thu nhập (2 biến định


lượng).

• Giả thuyết H0: Trình độ học vấn và thu nhập


không có liên hệ với nhau.
TƯƠNG QUAN (CORRELATION)
Analyze >
Correlation >
Bivariate

Đưa 2 biến định lượng cần


chạy tương quan sang ô
Variables -> OK
TƯƠNG QUAN (CORRELATION)

Vì hệ số tương quan Pearson = 0.536 và Sig. =


0.000, nên ta bác bỏ giả thuyết H0, nghĩa là có mối
quan hệ giữa Promotion và JS
TƯƠNG QUAN RIÊNG TỪNG PHẦN
(PARTIAL CORRELATION)
Nghiên cứu mối quan hệ tuyến tính của hai biến có loại trừ
ảnh hưởng của các yếu tố khác.
TƯƠNG QUAN RIÊNG TỪNG PHẦN
(PARTIAL CORRELATION)
HỒI QUY
REGRESSION

Báo cáo viên : Hồ Minh Sánh


HỒI QUY ĐƠN
• Mục đích: Tìm mối quan hệ giữa hai biến (mối quan
hệ nhân quả)

• Điều kiện : Hai biến định lượng


• Hai biến phải tuân theo quy luật phân phối chuẩn

• Mô hình lý thuyết: Yi = B0 + B1*Xi + ε


Xi: trị quan sát thứ i của biến độc lập
Yi : giá trị dự đoán thứ i của biến phụ thuộc
B0 và B1: hệ số hồi quy
DiỄN GIẢI DỮ LIỆU

• Các hệ số góc (bj)


- Sự biến đổi của giá trị trung bình của các Y khi Xj
tăng thêm 1 đơn vị, mọi yếu tố khác không đổi.
- Kiểm định: tương tự như hồi qui đơn với (n-p-1)
bậc tự do

• Hệ số chặn - hằng số (b0)


Giá trị trung bình của Y khi Xj = 0
HỒI QUY ĐƠN

• Mục tiêu nghiên cứu: Nên tác động thế nào đến
yếu tố sự thăng tiến và phát triển nghề nghiệp để
tạo ra sự hà lòng công việc của nhân viên.

• Câu hỏi nghiên cứu: Sự hài lòng của nhân viên


có phụ thuộc vào sự thăng tiến và phát triển
nghề nghiệp không ?

• Hai biến được chọn: Sự thăng tiến và phát triển


nghề nghiệp là biến độc lập và Sự hài lòng là
biến phụ thuộc.
Ứng dụng mô hình hồi qui

• Tác động của một hay nhiều biến phụ độc lập
vào một biến phụ thuộc định lượng
– Các yếu tố tác động vào lòng trung thành của nhân
viên
– Các yếu tố tác động vào xu hướng tiêu dùng thương
hiệu
– Các yếu tố tác động vào sự hài lòng của khách hàng
– .v.v.

14
Ứng dụng mô hình hồi qui
Ảnh hưởng của Sự thăng tiến và phát triển nghề
nghiệp lên Sự hài lòng của nhân viên trong công việc

Sự thăng HR Sự hài lòng


tiến và phát của nhân
triển viên

Analyze >
Regression >
Linear

15
Ứng dụng mô hình hồi qui

Chọn biến phụ thuộc ->


Dependent

Chọn biến độc lập ->


Independent

16
Ứng dụng mô hình hồi qui

Chọn Statistics

Chọn các thống kê theo hình ->


Continue
17
Ứng dụng mô hình hồi qui

Chọn Plots

Chọn các thống kê theo hình ->


Continue - > OK
18
HỒI QUY ĐƠN

1 < Di < 3

R² = 0,288 : tương
quan khá chặt; Biến
Promotion giải thích
được 28,8% biến JS

+ Nếu R = 0 => R² = 0 : Không tương quan


+ Nếu R < 0,3 => R² = 0,1 : Tương quan mức thấp
+ Nếu 0,3 ≤ R < 0,5 => 0,1 ≤ R² < 0,25 : Tương quan mức trung bình
+ Nếu 0,5 ≤ R < 0,7 => 0,25 ≤ R² < 0,5 : Tương quan khá chặt chẽ
+ Nếu 0,7 ≤ R < 0,9 => 0,5 ≤ R² < 0,8 : Tương quan chặt chẽ
+ Nếu 0,9 ≤ R < 1 => 0,8 ≤ R² < 1 : Tương quan rất chặt chẽ
+ Nếu R = 1 => R² = 1 : Tương quan hoàn toàn
HỆ SỐ XÁC ĐỊNH R²

• Tỉ lệ biến đổi của biến phụ thuộc được bằng tất


cả các biến độc lập giải thích

R² = Biến đổi được giải thích = SCR


Tổng biến đổi SCT

• Không bao giờ giảm khi các đại lượng được


thêm vào
Vấn đề khi ta so sánh các mô hình
Hệ số xác định R2
Giá trị quan sát i
Trung bình các quan sát
Giá trị qui về quan sát i
n n n

( yi  y)  ( yi  y)  ( yi  yi )
i1
2
ˆ
i1
2
ˆ
i1
2

SST  SSR  SSE


Biến thiên sai số
Biến thiên hồi qui
Tổng biến thiên

SSR
R 2

SST 21
HỆ SỐ XÁC ĐỊNH HiỆU CHỈNH R²a
KIỂM ĐỊNH MỨC Ý NGHĨA (DÙNG F)

Loại biến Biến Bậc tự Trung bình biến


F
thiên thiên do df thiên

MSg /
Giữa nhóm SSg k–1 MSg = SSg/(k-1)
MSw

Trong nhóm SSw n–k MSw = SSw/(n-k)

Tổng SSt n-1


HỒI QUY ĐƠN

Vì F = 80,751 và Sig. = 0,00 nghĩa


là bác bỏ giả thuyết H0 (hai biến
có mối quan hệ)

Phương trình dạng chưa chuẩn hoá:


JS = 1,850 + 0,515 * f1
MÔ HÌNH HỒI QUY BỘI

• Mối liên hệ giữa một biến phụ thuộc với ít nhất hai
biến độc lập là một hàm tuyến tính
ĐIỀU KIỆN VẬN DỤNG MÔ HÌNH

• Các điều kiện về dạng mô hình : MQH tuyến tính giữa các
biến độc lập với biến phụ thuộc
• Các điều kiện về sai số mô hình (error):
– Các sai số mô hình là độc lập (không tự tương quan)
Các sai số phân phối theo phân phối chuẩn
• Các điều kiện về các số dự đoán:
– Các biến độc lập không ngẫu nhiên
– Các giá trị của các biến độc lập được đo lường không
có sai số
– Các số dự đoán là độc lập theo đường thẳng, (không có
bội tương quan giữa các biến độc lập - multicollinearity)
MÔ HÌNH NGHIÊN CỨU VÀ CÁC KHÁI NIỆM
Item 1
H1
Item 2 Promoton (F1)
……….. H2
………... Payment (F2)
H3
Supervisor (F3)

JOB
SATISFATION
H4 (F)
Work itselt (F4)
H5
Co-work (F5)
H6
Benefit (F6)

Phát triển mô hình để giải thích mối quan hệ của F1, F2, F3, F4, F5,
F6 và F (sự hài lòng của nhân viên trong công việc).
VÍ DỤ VỀ HỒI QUY BỘI (PP. ENTER)

Analyze >
Regression >
Linear

Chọn biến phụ thuộc ->


Dependent

Chọn biến độc lập->


Independent
Ứng dụng mô hình hồi qui

Chọn Statistics

Chọn các thống kê theo hình ->


Continue
29
Ứng dụng mô hình hồi qui

Chọn Plots

Chọn các thống kê theo hình ->


Continue - > OK
30
GIẢI THÍCH KẾT QUẢ
1 < Di < 3

R² = 0,48 : tương
quan khá chặt; Các
Biến giải thích được
48% biến JS

Vì F = 30,042 và Sig. = 0,00 nghĩa


là bác bỏ giả thuyết H0 (các biến
có mối quan hệ)
VẤN ĐỀ ĐA CỘNG TUYẾN VÀ TỰ TƯƠNG QUAN

• Đa cộng tuyến là trạng thái các biến độc lập trong mô


hình có tương quan chặt chẽ với nhau.

• Để kiểm tra hiện tượng đa cộng tuyến, có thể sử


dụng bảng ma trận tương quan hoặc kiểm tra bằng
lựa chọn Collinearity Diagnostic.

• Kiểm tra tự tương quan, hệ số Durbin-Watson


VẤN ĐỀ ĐA CỘNG TUYẾN VÀ TỰ TƯƠNG QUAN

VIF : Hệ số phóng đại phương sai


VIF = 1/Tolerance

Điều kiện không tự tương quan :


1 ≤ VIF <5
GIẢI THÍCH KẾT QUẢ

Phương trình dạng chuẩn hoá:


JS = 0.149F1 + 0.253F2 + 0.195F3 + 0.256F4

Phương trình dạng chưa chuẩn hoá:


JS = 0.21+ 0.143F1 + 0.222F2 + 0.227F3 + 0.289F4
GIẢI THÍCH KẾT QUẢ
HỒI QUY BỘI VỚI PHƯƠNG PHÁP STEPWISE

• Phương pháp này là kết hợp đưa vào dần và loại trừ dần.

• Biến nào có tương quan riêng cao nhất sẽ được xem xét
đưa vào mô hình trước với xác suất là 0,05.

• Để ngăn chặn hiện tượng 1 biến được chọn vào rồi chọn
ra lặp lại thì SPSS mặc định xác suất F vào nhỏ hơn F ra.

• Thủ tục chọn biến sẽ kết thúc khi không còn biến nào thỏa
tiêu chuẩn chọn vào, chọn ra nữa.
HỒI QUY BỘI VỚI PHƯƠNG PHÁP STEPWISE

Chọn Phương
pháp chạy
Stepwise
HỒI QUY BỘI VỚI PHƯƠNG PHÁP STEPWISE

Lấy kết quả mô hình


cuối cùng

Lấy kết quả mô hình


cuối cùng
HỒI QUY BỘI VỚI PHƯƠNG PHÁP STEPWISE

Phương trình dạng chưa chuẩn hoá:


JS = 0.353F3 + 0.310F4 + 0.256F2
ĐIỀU KIỆN VẬN DỤNG MÔ HÌNH

• Các điều kiện về dạng mô hình : MQH tuyến tính giữa các
biến độc lập với biến phụ thuộc
• Các điều kiện về sai số mô hình (error):
– Các sai số mô hình là độc lập (không tự tương quan)
Các sai số phân phối theo phân phối chuẩn
• Các điều kiện về các số dự đoán:
– Các biến độc lập không ngẫu nhiên
– Các giá trị của các biến độc lập được đo lường không
có sai số
– Các số dự đoán là độc lập theo đường thẳng, (không có
bội tương quan giữa các biến độc lập - multicollinearity)
CÂU HỎI

• Nếu có một biến (độc lập) không thỏa các điều


kiện để thực hiện một phân tích tương quan thì thế
nào?
- >Có khả năng chuyển về biến đính tính không?

• Nếu muốn phân tích tương quan, trong cac biến


độc lập có một biến định tính (biến 2 hoặc nhiều
lựa chọn) thì có thể thực hiện được không?
BIẾN GIẢ (DUMMY)

• Các ví dụ:
Biến giới tính: nam-nữ,
có mặt – vắng mặt
miền Bắc, Trung, Nam
• Được mã hóa 0 hoặc 1
• Về mặt lý thuyết, các hằng số (hệ số chặn) phải khác
nhau.

• Số các biến giả cần thiết bằng số lựa chọn (của biến
định tính) - 1
BIẾN GIẢ (DUMMY)
BIẾN GIẢ (DUMMY)
MÃ HÓA BIẾN GIẢ (DUMMY)

• Biến cũ

Giới tính 1: Nam, 2: Nữ

• Chúng ta phải chuyển thành

Giới tính 1: Nam, 0: Nữ

trước khi thực hiện phân tích !!!


TRÌNH TỰ THỰC HIỆN
TRÌNH TỰ THỰC HIỆN
KẾT QUẢ
KẾT QUẢ
ĐIỀU KIỆN PHÂN TÍCH NHÂN TỐ

• Biến cũ: ĐIAĐIEM


– Miền Bắc :1
– Miền Trung : 2
– Miền Nam : 3

• Chúng ta phải chuyển thành


– ĐIAĐIEM1 Miền Bắc 1 Khác 0
– ĐIAĐIEM2 Miền Trung 1 Khác 0

-> Diễn giải dữ liệu cho phù hợp!!!


TÁC ĐỘNG CỦA MÃ HÓA BIẾN

• Sự mã hóa riêng biệt các biến giả cốt là thay thế các dòng
lấy giá trị 0 đối với tất cả các biến giả liên quan đến một
biến cụ thể bằng một giá trị -1.
TÁC ĐỘNG CỦA MÃ HÓA BIẾN
TÁC ĐỘNG CỦA MÃ HÓA BIẾN
ĐIỀU KIỆN VẬN DỤNG MÔ HÌNH

• Các điều kiện về dạng mô hình : MQH tuyến tính giữa các
biến độc lập với biến phụ thuộc
• Các điều kiện về sai số mô hình (error):
– Các sai số mô hình là độc lập (không tự tương quan)
Các sai số phân phối theo phân phối chuẩn
• Các điều kiện về các số dự đoán:
– Các biến độc lập không ngẫu nhiên
– Các giá trị của các biến độc lập được đo lường không
có sai số
– Các số dự đoán là độc lập theo đường thẳng, (không có
bội tương quan giữa các biến độc lập - multicollinearity)
KIỂM TRA 1
KIỂM TRA 2
HAI KIỂM ĐỊNH PHÂN PHỐI CHUẨN
Nhờ vào hệ số mất cấn đối (Skewness)

Nhờ vào Kurtose


ĐIỀU KIỆN VẬN DỤNG MÔ HÌNH

• Câu hỏi: Nếu các điều kiện không đạt thì thế nào?

• Các điều kiện vận dụng mô hình thường xuyên


không đạt được:
– Tuyến tính
– Phương sai không đổi của các sai số (errors)
của mô hình

• Một mô hình là tuyến tính nếu các tham số hiện


diện trong mô hình là tuyến tính, ngay cả khi các
biến độc lập không tuyến tính
BIẾN ĐỔI BIẾN
1. Dùng Lệnh Analysis/Regression / Cure regression để định
dạng và tìm các thông số b0, b1, b2, b3…của hàm (nguyên tắc
giá trị F càng lớn là càng phù hợp).

2. Dùng lệnh Compute Transform để tính lại giá trị tuyến tính của
biến bằng cách thế các thông số b0, b1, b2, b3…vào công thức
tính.

3. Chạy hồi quy bằng SPSS dạng tuyến tính.

4. Viết phương trình hồi quy dạng đổi biến và dạng gốc.
CÁC HÀM ĐỔI BIẾN

1. Linear. Model whose equation is Y = b0 + (b1 * t). The series


values are modeled as a linear function of time.

2. Logarithmic. Model whose equation is Y = b0 + (b1 * ln(t)).

3. Inverse. Model whose equation is Y = b0 + (b1 / t).

4. Quadratic. Model whose equation is Y = b0 + (b1 * t) + (b2 *


t**2). The quadratic model can be used to model a series which
"takes off" or a series which dampens.

5. Cubic. Model defined by the equation


Y = b0 + (b1 * t) + (b2 * t**2) + (b3 * t**3).

6. Power. Model whose equation is Y = b0 * (t**b1)


or ln(Y) = ln(b0) + (b1 * ln(t)).
CÁC HÀM ĐỔI BIẾN
7. Compound. Model whose equation is Y = b0 * (b1**t)
or ln(Y) = ln(b0) + (ln(b1) * t).

8. S-curve. Model whose equation is Y = e**(b0 + (b1/t))


or ln(Y) = b0 + (b1/t).

9. Logistic. Model whose equation is Y = 1 / (1/u + (b0 * (b1**t)))


or ln(1/y-1/u)= ln (b0) + (ln(b1)*t)

where u is the upper boundary value. After selecting Logistic, specify the upper
boundary value to use in the regression equation. The value must be a positive
number, greater than the largest dependent variable value.

10. Growth. Model whose equation is Y = e**(b0 + (b1 * t))


or ln(Y) = b0 + (b1 * t).

11. Exponential. Model whose equation is Y = b0 * (e**(b1 * t))


or ln(Y) = ln(b0) + (b1 * t).
BIẾN ĐỔI MÔ HÌNH
BIẾN ĐỔI MÔ HÌNH
BIẾN ĐỔI MÔ HÌNH
BIẾN ĐỔI MÔ HÌNH
BIẾN ĐỔI MÔ HÌNH

You might also like