You are on page 1of 40

Nguyễn Thị Duy Phụng - 87222020147

BT24/153. In the Excel file Weddings, determine the correlation between the wedding costs
and attendance.

Correlations

Wedding cost Attendance

Wedding cost Pearson Correlation 1 .733**

Sig. (2-tailed) .000

N 25 25

Attendance Pearson Correlation .733** 1

Sig. (2-tailed) .000

N 25 25

**. Correlation is significant at the 0.01 level (2-tailed).

r = 0.733 ***

p < 0.001

 Tương quan mạnh


BT25/153. For the data in the Excel file Rin’s Gym, find the covariances and correlations
among height, weight, and BMI calculation.

Correlations

BMI Calculation Weight Height (inches)

BMI Calculation Pearson Correlation 1 .933** .488*

Sig. (2-tailed) .000 .018

Sum of Squares and Cross- 442.047 3698.593 178.128


products

Covariance 20.093 168.118 8.097

N 23 23 23

Weight Pearson Correlation .933** 1 .766**

Sig. (2-tailed) .000 .000

Sum of Squares and Cross- 3698.593 35560.609 2507.304


products

Covariance 168.118 1616.391 113.968

N 23 23 23

Height (inches) Pearson Correlation .488* .766** 1

Sig. (2-tailed) .018 .000

Sum of Squares and Cross- 178.128 2507.304 301.652


products

Covariance 8.097 113.968 13.711

N 23 23 23

**. Correlation is significant at the 0.01 level (2-tailed).

*. Correlation is significant at the 0.05 level (2-tailed).

- Hiệp phương sai


Hiệp phương sai BMI Calculation là: 20.093

Hiệp phương sai Weight là: 1616.391

Hiệp phương sai Height (inches) là: 13.711

- Độ tương quan

Độ tương quan giữa BMI Calculation và Weight: r=0.933*** ; p< 0.001 => tương quan
mạnh

Độ tương quan giữa BMI Calculation và Height (inches) : r=0.488* ; p< 0.018 => tương
quan yếu

Độ tương quan giữa Weight và Height (inches): r=0.766** ; p < 0.001 => tương quan trung
bình

BT27/154. The Excel file Beverage Sales lists a sample of weekday sales at a convenience
store, along with the daily high temperature. Compute the covariance and correlation
between temperature and sales.
- Hiệp phương sai
Hiệp phương sai của 2 biến Temperature and Sales được thể hiện ở bảng sau:

Correlations

Temperature Sales

Temperature Pearson Correlation 1 ,922**

Sig. (2-tailed) ,000

Sum of Squares and Cross- 702,952 287228,190


products

Covariance 35,148 14361,410

N 21 21
Sales Pearson Correlation ,922 **
1

Sig. (2-tailed) ,000

Sum of Squares and Cross- 287228,190 1,380E8


products

Covariance 14361,410 6897720,162

N 21 21
Hiệp phương sai Temperature là: 35,148

Hiệp phương sai Sales là: 6897720,162

- Tính tương quan

Mối tương quan giữa 2 biến Temperature and Sales được thể hiện như bảng sau:

Correlations

Temperature Sales

Temperature Pearson Correlation 1 ,922**

Sig. (2-tailed) ,000

N 21 21
Sales Pearson Correlation ,922** 1

Sig. (2-tailed) ,000

N 21 21

r = 0,922***

p<0,001

 tương quan mạnh

BT29/154. In the Excel file Call Center Data, how strongly is length of service correlated
with starting age?

Mối tương quan giữa 2 biến Length of Service and Starting Age được thể hiện như bảng sau:
Correlations

Length of
Starting Age Service (years)

Starting Age Pearson Correlation 1 -,608**

Sig. (2-tailed) ,000

N 70 70
Length of Service (years) Pearson Correlation -,608 **
1

Sig. (2-tailed) ,000

N 70 70

r = -0,608***

p<0,001

 Tuong quan manh

Như vậy, 2 biến này có tương quan thuộc dạng là âm trong đó thời gian phục vụ càng cao thì độ
tuổi càng thấp và thời gian phục vụ càng thấp thì độ tuổi càng cao

Chương 7: KIỂM ĐỊNH GIẢ THIẾT (H)


- H(0): là trạng thái tồn tại vốn có – không có mối quan hệ
- H(1): giả thiết thay thế - bổ sung cho H0
- Không thể bác bỏ được H0

Vd: Bevegare sales

Bước 1:
H0: Không có mối quan hệ giữa imcome và employ
H1: Có tương quan imcome và employ
Bước 2: Dùng phương pháp Correlation
Bước 3: Data Collection
Bước 4: Kết luận cách thức

Giải:
Bước 1:
H0: không có mối tương quan giữa biến income và employ
H1: có mối tương quan giữa biến income và employ
Bước 2: kiểm định giả thiết bằng tương quan Pearson

Correlations

Years with Household


current income in
employer thousands

Years with current employer Pearson Correlation 1 .579**

Sig. (2-tailed) .000

Sum of Squares and Cross- 605121.910 2837088.166


products

Covariance 94.565 443.364

N 6400 6400

Household income in Pearson Correlation .579** 1


thousands
Sig. (2-tailed) .000

Sum of Squares and Cross- 2837088.166 3.965E7


products

Covariance 443.364 6196.612

N 6400 6400

**. Correlation is significant at the 0.01 level (2-tailed).

r=.579*** (có ý nghĩa thống kê)

p<0.001

 bác bỏ H0 và chấp nhận H1: có mối tương quan mạnh giữa biến income vvaf
employ (với mức ý nghĩa 0.001)

One sample T-test: so sánh biến với giá trị cố định

H1: không có sự khác biệt

H0: có sự khác biệt giữa mean income và 75

Analyze => compare means => one number t-test


Kết luận:

Mean = 69k, std. dev = 78k

Kq. 1 sample t test t >= 1.96 => đạt yêu cầu có sự khác biệt

P<= 0.05 => có ý nghĩa

khác biệt = -5.5k so với 75k => có ý nghĩ thống kê với mức ý nghĩa là 0.001

 bác bỏ giả thiết H0

p <0.05 => có sự khác biệt, có ý nghĩa thống kê

p <0.001 => có 1/1000 cơ hội kết luận sai

p < 0.01

SO SÁNH GIÁ TRỊ TRUNG BÌNH GIỮA 2 NHÓM

Vd: file DEMO (kiểm tra sự khác biệt giũa gender và jobsas)

H0: không có sự khác biệt về sự hài lòng khác biệt giữa nam và nữ

H1: có sự khác biệt về sự hài lòng khác biệt giữa nam và nữ

Analyze – compare means – independent samples t test


Mean M = 308 ± 1.381

Mean F =303 ± 1.355

ItI < 1.96, p > 0.05

 Không có sự khác biệt

Vd: file DEMO (kiểm tra sự khác biệt giũa wireless và income)
H0:

H1:
M0 = 62.9735, Std = 67

M1 = 79.3098 , Std = 92.812

ItI = 7.66 >1.96

P< 0.001

Có sự khác biệt giữa thu nhập gia đình với việc sử dụng di động. Trong đó, những người
có sử dụng dịch vụ di động lớn hơn những người không sử dụng dịch vụ di động là 16.33
 Paired samples t test
- So sánh 2 mean Mean(L1) vs Mean(L2) cùng 1 sự vật hiện tượng
 Anova – so sánh 3 nhóm (trở lên) khác nhau cùng 1 vấn đề
Vd: file demo // Carcat – income
H0: không có sự khác biệt về thu nhập giữa 3 nhóm người đi 3 loại xe khác nhau
H1: có sự khác biệt về thu nhập giữa 3 nhóm người đi 3 loại xe khác nhau
Phương pháp Anova
Mean = ….., std =

Kết quả ANOVA

+ F= 2056.246

+ P<=0.05 *

‘* dựa vào p để đưa ra kết quả, không cần quan tâm F


 Có tồn tại sự khác biệt giữa nhưng người có thu nhập khác nhau sẽ đi xe khác
nhau

Kết quả Post hoc (sau khi làm anova)


Nếu p>0.05 => không cần quan tâm

So sánh từng cặp: Mean difference, p<=0.05

Sự khác biệt giữa ECO với Standard là -20.6722; p<0.001

………………….ECO với LUX là -112.75; p<0.001

………………….STA với LUX là 92.08; p< 0.001

 Những người đi xe Eco thì ít tiền hơn STA, nhưng người đi STA thì thu nhập ít
tiền hơn LUX
 NOTE:
- P<=0.05 lấy LSD ở dưới, p>0.05 lấy LSD trên

Vd: demo // edu – income

H0: trình độ học vấn khác nhau không ảnh hưởng đến thu nhập hộ gia đình

H1: trình độ học vấn khác nhau có ảnh hưởng đến thu nhập hộ gia đình
Mean = ….; std của 5 nhóm

Kết luận ANOVA

F = 15.309
P<0.001

 Có sự khác biệt giữa những người có trình độ học vấn khác nhau sẽ có mức thu
nhập khác nhau

Post hoc test

Bảng Tamhane

5 biến=> so sánh ít nhất 10 lần (n(n-1))/2

Chưa học hết cấp 2 vs cao đẳng chênh lệch 10.268, p<0.05 => có ý nghĩa thống kê

Note: welch - ANOVA


1. Levene’s Test
 P>0.05 => variane equal : mẫu đồng nhất => kết quả ANOVA tin cậy
+ F,p
+ posthoc: LSD

 P<=0.05 => variane NOT equal: mẫu không đồng nhất => kết quả ANOVA không
tin cậy => Robus test welch
+ p của Welch
+ posthoc Tamhane

ANOVA 2 WAY
Vd: empcat – > income < – gender (M,F)

Analyze -

H0: không có sứ =j khác Sự tương tác của giới tính với số năm làm việc với ông chủ
hiện tại
M F
<5 35.5 35.6 35.58
5-15 54.02 54.72 54.37
>15 130.34 130.35 130.35
70.16 68.77
Empcat: p<0.001 => có sự khác biệt

Gender: p>0.05 => không có sự khác biệt

Gender & empcat: p>0.05 => không có sự tương tác


Note: nếu có sự tương tác thì biểu đồ sẽ cắt nhau

Vd: retire -> income <- wireless

*lưu ý: retire + wireless có 2 biến nên không cần chạy posthoc


Wireless No wireless total
Retire 37.08 20.75 25.25
No retire 80.7 65.6 71.7
Total 79.3 62.9

P (retire) <0.001

P (wireless) < 0.01

Retire & wireless: p > 0.05 => không có sự tương tác


Biểu đồ không cắt nhau => không có sự tương tác

Hồi quy

- Chứng minh sự hài lòng với sự trung thành

X-> Y Satifaction (sự hài lòng - X) -> Loyalty (sự trung thành - Y)

Y = C + * X

 : hệ số gốc
Y

(Hồi quy tuyến tính)

Mục tiêu là dựng được 1 đường thẳng tập hợp được nhiều điểm nhất trên phương trình

Note: R2 <0.1 => độ tương quan phù hợp rất thấp

Hồi quy đơn giản (sample) Y = C + * X

Hồi quy bội Multiple Y = C + X + N

Vd: home market value

Mục tiêu: chứng minh diện tích (SF) có ảnh hưởng đến giá trị ngôi nhà (MV)

Analyze -> Regression -> Linear


R2 = 0.535 (>0.1) => độ tương quan phù hợp
P < 0.05 => có tồn tại đường hồi quy

Note: ANOVA: kiểm tra sự tồn tại của đường hồi quy

- P<0.05 => có tồn tại hệ số 


- P>0.05 => không cần tìm  => không tồn tại phương trình hồi quy

Phương trình hồi quy:

- chưa chuẩn hóa: MV = 32673 + 35.036 * SF (x)  DÙNG ĐỂ DỰ BÁO


- đã chuẩn hóa: MV = 0.731 *SF(x) (đã chuẩn hóa thì không còn C)  ĐỂ BIẾT
ĐƯỢC MỐI QUAN HỆ
(t = 6.7, p <0.001=> hệ số  có ý nghĩa thống kê)

Vd: tuổi thọ của ngôi nhà ảnh hưởng thế nào đến giá trị thị trường
R2 = 0.131

P< 0.05 => có tồn tại hệ số 

- chưa chuẩn hóa: MV = 45217 + 1570 * HA


- đã chuẩn hóa: MV = 0.361 *HA

đánh giá giá trị thị trường (MV) dựa vào 2 biến

MV = C + 1*SF + 2*HA
R2 = 0.556

P< 0.05 => có tồn tại hệ số 

Chỉ cần 1 trong 2  khác 0 thì sẽ tồn tại phương trình hồi quy

Chưa chuẩn hóa MV = 47331 + 40.911*SF - 825.161* HA => tuổi nhà càng cao giá trị
nhà càng giảm

Đã chuẩn hóa MV = 0.854 *SF - 0.19 *HA

(t HA = 1.3, p HA =0.182 > 0.05 => không có ý nghĩa thống kê)

(t SF = 6.1, p SF <0.001 => có ý nghĩa thống kê)

t là giá trị tuyệt đối


vd: file demo – chứng minh tác động của thu nhập hộ gđ với số năm làm việc với ông chủ
hiện tại ảnh hưởng thế nào đến giá trị xe mua được

giả định các biến đều phải liên tục

independent: continuas / binary

dependent: continuas
V = 0.731 * SF
MARKET VALUE

X MODEL 1 MODEL 2 MODEL 3 (chạy 1


biến)
SF 0.731*** (t=6.78) 0.854 *** (t = -
6.109)
HA - -0.190 (t=1.359) 0.361* (t=2.452)
R2 0.535 0.556 0.131
 quan tâm đến diện tích thì chọn mô hình 1
 quan tâm đến độ tuổi ngôi nhà thì chọn 2
 quan tâm đến cả 2 thì chọn mô hình 2

vd: file demo

income + car + employ => jobsat

Enter: chạy ra mô hình đầy đủ


Stepwise: bắt đầu từ những biến có ý nghĩa thống kê trước

 Phương pháp stepwise

JOB SAT

MODEL 1 MODEL 2 MODEL 3


EMPLOY 0.484 0.436 *** 0.443 ***
***(t=44.258) (t=30.706) (t=30.898)
CAR - 0.076 *** (t=5.538) 0.121 *** (t=6.303)
IMCOME - - -0.63 *** (t=3.473)
R 2
0.2344 0.238 0.239
F, p (ANOVA) 1958.761, p<0.001 997.974, p<0.001 670.485, p<0.001
 Biến ảnh hưởng nhiều nhất là số năm làm việc với ông chủ hiện tại
 Biến CAR ảnh hưởng đến sự hài lòng trong công việc giúp tăng sự phù hợp lên
0.004
 Biến thu nhập có tác động ít nhất (thu nhập cao-> stress)
 Cả 3 biến đều có ý nghĩa thống kê

Multicollinearity: đa cộng tuyến dựa vào correlation (r >0.7) và VIF (>2.5)


Biến định danh không phân biệt được lớn nhỏ (male, female) sẽ không được đưa vào
phương trình hồi quy

Biến định danh đưa vào phương trình hồi quy chỉ có 2 giá trị

Transform – record into different


29/03 – Interactions (tương tác)

Vd: đánh giá khoảng cách và giá cả liệu có tác động đến overall

B1: Tính giá trị tiêu chuẩn zcore: analyze – descriptive st – descriptives

Zcore của 3 biến

Zoverall = 1*zprice + 2*zdistance + 3*zprice*zdistance


B2:

Analyze – regression – liner (enter)


Đánh giá 
 Biến distance không có ảnh hưởng lên mqh giữa biến price và overall

Vd:

You might also like