Professional Documents
Culture Documents
File Hướng Dẫn Chạy SPSS
File Hướng Dẫn Chạy SPSS
Chi-Square Tests
Value df Asymp. Sig. (2-
sided)
Pearson Chi-Square 48.420a 8 .000
Likelihood Ratio 47.660 8 .000
Linear-by-Linear Association 39.792 1 .000
N of Valid Cases 400
a. 0 cells (0.0%) have expected count less than 5. The minimum expected count is
7.41.
Kiểm định thống kê Chi-Square giữa 2 biến định tính STU và ANXIETY_LEVEL. Kết quả cho thấy.
1/ Không có giá mong đợi <5
2/ Các quan sát độc lập với nhau
3/ Chỉ số Pearson Chi-Square : 48.420, p-value rất nhỏ (nhỏ hơn 0.05)
Vì vậy bác bỏ giả thuyết Ho: không có mối liên hệ giữa 2 biến
Chấp nhận giả thuyết H1: có sự liên hệ có ý nghĩa thống kê giữa các nhóm sinh viên có mức độ yêu cầu
trong học tập khác nhau và có mức độ lo lắng khác nhau.
2/ One-sample t-test: kiểm định trung bình
tổng thể
Giả định:
- Biến định lượng có xấp xỉ phân phối chuẩn (normal distribution)
- Không có giá trị ngoại lệ đặc biệt (no significant outlier)
- Các quan sát độc lập với nhau
Giả thuyết:
Ho: giá trị trung bình tổng thể bằng với giá trị kiểm tra
H1: giá trị trung bình tổng thể khác với giá trị kiểm tra
Ví dụ: Kiểm tra trung bình mức độ stress của nhân viên công ty so với mức độ stress bình quân của
ngành:
Kiểm tra giả định:
- Dựa vào biểu đồ boxplot: không có giá trị ngoại lệ đặc biệt
- Dựa vào biểu đồ Q-Q plot: biến định lượng có xấp xỉ phân phối chuẩn
- Các quan sát độc lập với nhau
One-Sample Statistics
N Mean Std. Deviation Std. Error
Mean
dep_score 40 3.7225 .73709 .11654
One-Sample Test
Test Value = 4
t df Sig. (2-tailed) Mean 95% Confidence Interval of the
Difference Difference
Lower Upper
dep_score -2.381 39 .022 -.27750 -.5132 -.0418
Không có giá trị ngoại lệ đặc biệt thông qua biểu đồ boxplot
Cả 2 nhóm đều xấp xỉ phân phối chuẩn thông qua biểu đồ Q-Q Plot, các giá trị của 2 nhóm phân
bố xung quanh đường tiêu chuẩn.
Group Statistics
gender N Mean Std. Deviation Std. Error Mean
Male 20 5.5589 .29190 .06527
engagement
Female 20 5.2999 .39339 .08797
Dựa vào bảng kết quả, không bị vi phạm giả định đồng nhất phương sai thông qua Levene's Test
for Equality of Variances (F=1.922, p-value =0.174)
Chỉ số t = 2.365, p-value = 0.023 nhỏ hơn 0.05 vì vậy bác bỏ giả thuyết Ho 2 nhóm không có sự khác
biệt giá trị trung bình. Chấp nhận giả thuyết H1: 2 nhóm có khác biệt giá trị trung bình với Mean
Difference = 0.259 (khoảng tin cậy 95% 0.03726 – 0.48074)
4/ Paired Samples T-test: mẫu từng cặp
(kiểm định trước sau)
Giả định
- 2 biến xấp xỉ phân phối chuẩn
- Không có giá trị ngoại lệ đặc biệt
Giả thuyết:
H0: Không có sự khác biệt
H1: Có sự khác biệt
Ví dụ: Kiểm định trung bình mẫu phối hợp từng cặp được thực hiện dựa trên thành tích của nhóm
vận động viên trước và sau khi tăng cường protein.
Kiểm tra giả định:
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Distance run in km for
.129 20 .200 *
.973 20 .810
carbohydrate only trial
Distance run in km for
.111 20 .200* .967 20 .691
carbohydrate-protein trial
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
Dựa vào bảng kết quả cho thấy cả 2 biến Carb và carb_protein đều có xấp xỉ phân phối chuẩn
( Shapiro-Wilk’s test)
Cả 2 biến carb và carb protein đều không có giá trị ngoại lệ đặc biệt thông qua biểu đồ
boxplot
Chỉ số t= -6.352, p-value rất nhỏ. Vì vậy bác bỏ giả thuyết Ho, không có sự khác biệt về giá trị trung
bình trước và sau khi sử dụng protein. Chấp nhận giả thuyết H1, có sự khác biệt về giá trị trung
bình có ý nghĩa thống kê trước và sau khi sử dụng protein.
Với khác biệt trung bình Mean = -0.1355 (khoảng tin cậy 95% -.18015 - -.09085)
5/ Phân tích phương sai ANOVA: kiểm định
khác biệt giữa các nhóm
Giả định:
a/ 01 biến định lượng
b/ 01 biến định tính (có từ 2 nhóm trở lên)
c/ Các quan sát độc lập với nhau
d/ Không có giá trị ngoại lệ quá cao
c/ Giá trị trong các nhóm có phân phối chuẩn
d/ Đồng nhất phương sai
Giả thuyết:
Ho: Trung bình các nhóm không có sự khác biệt (đều bằng nhau)
H1: Có ít nhất giá trị trung bình của một nhóm khác biệt
Ví dụ:
Dữ liệu gồm 2 biến: coping_stress và biến group. Câu hỏi đặt ra: có sự khác biệt có ý nghĩa thống kê giá
trị trung bình giữa các nhóm hay không?
Các nhóm đều có xấp xỉ phân phối chuẩn thông qua kiểm định Shapiro- Wilk
Không có giá trị ngoại lệ quá cao hay quá thâp, thông qua biểu đồ BOX PLOT.
Phân tích phương sai ANOVA và hậu định POSTHOC được thực hiện giữa các nhóm:
Trường hợp 1: Có sự đồng nhất về phương sai (đọc giá trị bảng ANOVA và dữ liệu POST HOC của
TUKEY)
Có sự đồng nhất về phương sai giữa các nhóm thông qua kiểm định LEVENE ‘s test (Levene statistic :
2.219, p-value:0.120)
Phân tích ANOVA 1 chiều được thực hiện nhằm xác định có hay không sự khác biệt về mức độ chịu
đựng stress giữa các nhóm có mức độ luyện tập thể thao khác nhau.
Kết quả cho thấy: Chỉ số p-value rất nhỏ, bác bỏ Ho: các nhóm không có sự khác biệt, chấp nhận H1: có
ít nhất 01 nhóm có sự khác biệt có ý nghĩa thông kê. Có nghĩa rằng mức độ chịu đựng stress trung bình
của các nhóm là khác nhau và có ý nghĩa thống kê.
Trường hợp 2: Không có sự đồng nhất về phương sai (đọc giá trị bảng WELCH và dữ liệu POST HOC
của GAMES-HOWELL)
Kết quả cho thấy: Chỉ số p-value rất nhỏ, bác bỏ Ho: các nhóm không có sự khác biệt, chấp nhận H1: các
nhóm có sự khác biệt có ý nghĩa thông kê.
6/ Phân tích phương sai 2 nhân tố: two-way
ANOVA
Giả định:
a/ 01 biếnliên tục
b/ 02 phân loại (có từ 2 nhóm trở lên)
c/ Các quan sát độc lập với nhau
d/ Không có giá trị ngoại lệ quá cao
c/ Giá trị trong các nhóm có phân phối chuẩn
d/ Đồng nhất phương sai
Giả thuyết:
Ho: Trung bình các nhóm không có sự khác biệt (đều bằng nhau)
H1: Có ít nhất giá trị trung bình của một nhóm khác biệt
Kiễm tra giả định:
(nhớ sử dụng tính năng slipt file)
Các nhóm đều có xấp xỉ phân phối chuẩn thông qua kiểm định Shapiro Wilk
Không có giá trị ngoại lệ thông qua biểu đồ BOX PLOT
Phân tích ANOVA 2 nhân tố được thực hiện với biến political_interest và 2 biến định tính
education_level và gender
Có sự đồng nhất phương sai giữa các nhóm thông qua Levene’s test (Levene statistic: 2.269, p-value
= 0.061)
Kết quả cho thấy có sự khác biệt có ý nghĩa thống kê giữa các nhóm thông qua phân tích ANOVA 2
nhân tố với F=7.315, p-value=0.02.
7/ CORRELATION:
PEARSON: tương quan tuyến tính, mối liên hệ giữa 2 biến định lượng có thể biểu diễn bằng 1
phương trình tuyến tính dạng y=ax+b
Kiểm định tương quan tuyến tính, có hay không sự tương quan tuyến tính giữa 2 biến định lượng.
Giả định
- 02 biến định lượng có xấp xỉ phân phối chuẩn
- Có dấu hiệu tuyến tính thông qua biểu đồ phân tán (scatter plot)
- Không có outliers đáng kể
Giả thuyết:
Ho: hệ số tương quan bằng 0
H1: hệ số tương quan khác 0
Ví dụ:
Kiểm định tương quan tuyến tính Pearson được thực hiện để đánh giá mối quan hệ giữa lượng Cholesterol
và thời gian xem tivi của những người nam từ 45 tới 65 tuổi.
+ Cả 02 biến đều có xấp xỉ phân phối chuẩn thông qua kiểm định của Shapiro-Wilk (p>0.05)
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Time spent watching TV
.106 100 .007 .980 100 .130
(mins/day)
Cholesterol concentration
.083 100 .086 .976 100 .064
(mmol/L)
a. Lilliefors Significance Correction
Cò dấu hiệu tương quan tuyến tính thông qua biểu đồ phan tán
+ Không có giá trị outliers đáng kể trong 2 biến
Correlations
Time spent Cholesterol
watching TV concentration
(mins/day) (mmol/L)
Pearson Correlation 1 .371**
Time spent watching TV
Sig. (2-tailed) .000
(mins/day)
N 100 100
Pearson Correlation .371** 1
Cholesterol concentration
Sig. (2-tailed) .000
(mmol/L)
N 100 100
**. Correlation is significant at the 0.01 level (2-tailed).
+ Kiểm định Pearson cho thấy có mối quan hệ tương quan tuyến tính với độ mạnh thấp giữa 2 biến, hay
có mối quan hệ tuyến tính giữa thời gian xem tivi và lượng cholesterol của Nam từ 45 tới 65 tuổi với
Pearson Correlation=0.371, p<0.05
SPEARMAN:
Kiểm định tương quan, có hay không sự tương quan giữa 2 biến định lượng.
Giả định
- Có dấu hiệu tương quan thông qua biểu đồ phân tán (scatter plot)
- không có outliers đáng kể
Giả thuyết:
Ho: hệ số tương quan bằng 0
H1: hệ số tương quan khác 0
A Spearman correlation was run to assess the relationship between cholesterol concentration and daily
time spent watching TV in males aged 45 to 65 years.
+ Preliminary analysis showed the relationship to be monotonic, as assessed by visual inspection of a
scatterplot.
+ No significant ouliers
Correlations
Time spent Cholesterol
watching TV concentration
(mins/day) (mmol/L)
Correlation Coefficient 1.000 .729**
Time spent watching TV
Sig. (2-tailed) . .000
(mins/day)
N 100 100
Spearman's rho
Correlation Coefficient .729** 1.000
Cholesterol concentration
Sig. (2-tailed) .000 .
(mmol/L)
N 100 100
**. Correlation is significant at the 0.01 level (2-tailed).
+ There was a strong positive correlation between daily time spent watching TV and cholesterol
concentration, SpearmanCorrelation = .729, p < .005.
8/ SIMPLE LINEAR REGRESSION
Đưa ra phương trình tổng quát: Phương trình hồi quy đơn biến tổng quát: y=ax+b
Chạy hồi quy
Report phương trình hồi quy
Kiểm tra giả định
Report giả định
Trong đó
+ Một biến định lượng mang ý nghĩa là biến độc lập (independent variable) (biến x)
+ Một biến định lượng mang ý nghĩa là biến phụ thuộc (dependent variable) (biến y)
Giả định:
1. Có dấu hiệu tuyến tính giữa 2 biến(scatter plot)
2. Không có giá trị ngoại lệ đặc biệt
3. Sự độc lập của phần dư (Independence of errors (residuals)) -> kiểm tra bằng Durbin-Watson
test
4. Phương sai phần dư không đổi (Homoscedasticity of residuals (equal error variances))
5. Phần dư có xấp xỉ phân phối chuẩn (Errors (residuals) are normally distributed)
+ Phương trình hồi quy đơn biến
Phương pháp hồi quy đơn biến được thực hiện giữa 2 biến định lượng time_tv(biến độc lập) và
cholesterol (biến phụ thuộc)
Coefficientsa
Model Unstandardized Coefficients Standardized t Sig.
Coefficients
B Std. Error Beta
(Constant) -2.135 1.813 -1.177 .242
1 Time in minutes spent
.044 .011 .389 4.180 .000
watching TV (mins)
a. Dependent Variable: Cholesterol concentration (mmol/L)
Model Summaryb
Mo R R Adjusted Std. Error Change Statistics Durbin
del Square R Square of the R Square F Change df1 d Sig. F -
Estimate Change f Chang Watso
2 e n
.38 9
1 .151 .143 .53759 .151 17.471 1 .000 1.957
9a 8
a. Predictors: (Constant), Time in minutes spent watching TV
b. Dependent Variable: Cholesterol concentration
ANOVAa
Model Sum of Squares df Mean Square F Sig.
Regression 5.049 1 5.049 17.471 .000b
1 Residual 28.322 98 .289
Total 33.371 99
a. Dependent Variable: Cholesterol concentration
b. Predictors: (Constant), Time in minutes spent watching TV
+ Phương trình hồi quy đơn biến có dạng Y=ax+b (cholesterol= a*time_tv+b)
+ Kết quả phương trình tuyến tính sau khi thực hiện được trình bày trên bảng.
+ Phương trình tuyến tính: cholesterol concentration = 0.044*time_tv - 2.135
+ Với: p.value(contanst) = .242 ; p.value(time_tv) rất nhỏ-> có ý nghĩa thống kê
+ R Square = 0.151 cho thấy 15,1% sự dao động của cholesterol được giải thích thông qua biến time_tv
+ Kiểm định ANOVA với f=17.471, p.value <0.05 cho thấy mô hình phù hợp dùng để tiên lượng.
Correlations
Time in minutes
Cholesterol spent watching
concentration TV
Pearson Correlation Cholesterol concentration 1.000 .389
Time in minutes spent
.389 1.000
watching TV
Sig. (1-tailed) Cholesterol concentration . .000
Time in minutes spent
.000 .
watching TV
N Cholesterol concentration 100 100
Time in minutes spent
100 100
watching TV
+ Kiểm tra giả định độc lập của phần dư (Independence of residual) (Càng gần bằng
2 là càng tốt)
Durbin-Watson
1.957
Có sự độc lập của phần dư thông qua kiểm định thống kê Durbin-Watson.
+ Testing for homoscedasticity : Giả định phương sai phần dư không đổi
Phương sai của phần dư không đổi, được đánh giá thông qua biểu đồ phân tán giữa standardized
residuals và standardized predicted values.
+ Checking for normality of residuals (errors): Giả định phân phối chuẩn phần dư
Phần dư có xấp xỉ phân phối chuẩn bằng biểu đồ P-P plot của phần dư.
9/ MULTIPLE LINEAR REGRESSION
Phương trình hồi quy đa biến tổng quát: y=a1x1+ a2x2+a3x3…anxn+b
Chạy hồi quy
Report phương trình hồi quy
Kiểm tra giả định
Report giả định
Trong đó
+ It nhất 01 biến định lượng và các biến khác mang ý nghĩa là biến độc lập (independent
variables)
+ Một biến định lượng mang ý nghĩa là biến phụ thuộc (dependent variable)
Giả định:
1. Có dấu hiệu tuyến tính giữa biến phụ thuộc và các biến độc lập
2. Không có giá trị ngoại lệ đặc biệt
3. Sự độc lập của phần dư (Independence of errors (residuals)) -> kiểm tra bằng Durbin-Watson
test
4. Phương sai phần dư không đổi (Homoscedasticity of residuals (equal error variances))
5. Phần dư có xấp xỉ phân phối chuẩn (Errors (residuals) are normally distributed)
6. Không có hiện tượng đa cộng tuyến (No multicollinearity)
1/ Phương trình hồi quy:
Model Summary
.76
1 .577 .559 5.69097 .577 32.393 4 95 .000 1.910
0a
a. Predictors: (Constant), Gender, Age, Heart Rate, Weight
b. Dependent Variable: VO2max
ANOVAa
Model Sum df Mean F Sig.
of Squar
Squar e
es
Regre 4196. 1049. 32.39
4 .000b
ssion 483 121 3
Resid 3076. 32.38
1 95
ual 778 7
7273.
Total 99
261
a. Dependent Variable: VO2max
b. Predictors: (Constant), Gender, Age, Heart Rate, Weight
Coefficientsa
Model Unstand Standar t Sig. 95.0% Correlat Collinearity Statistics
ardized dized Confide ions
Coeffici Coeffici nce
ents ents Interval
for B
B Std. Beta Lower Bound Upper Zero-order Parti Part Toleran VIF
Error Bound al ce
(Consta 87.83 13.75
6.385 .000 75.155 100.506
nt) 0 6
Age -.165 .063 -.176 -2.633 .010 -.290 -.041 -.191 -.261 -.176 .995 1.005
Weight -.385 .043 -.677 -8.877 .000 -.471 -.299 -.307 -.673 -.592 .765 1.306
1
Heart
-.118 .032 -.252 -3.667 .000 -.182 -.054 -.072 -.352 -.245 .945 1.058
Rate
13.20
Gender 1.344 .748 9.824 .000 10.539 15.877 .424 .710 .656 .769 1.301
8
a. Dependent Variable: VO2max
Phương pháp hồi quy được thực hiện với biến phụ thuộc VO2max và 4 biến độc lập
gender, age, weight and heart_rate
+ Phương trình hồi quy đa biến có dạng Y =a1x1+ a2x2+…+anxn+b
+ Dựa theo bảng kết quả ta có phương trình hồi quy:
VO2max= 87.830-0.165*Age-0.385*Weight-0.118*Heart_rate+13.208*Gender
VO2max(male)=101.038- 0.165*Age-0.385*Weight-0.118*Heart_rate
VO2max(female)= 87.830-0.165*Age-0.385*Weight-0.118*Heart_rate
+Tất cả 4 hệ số hồi quy đều có ý nghĩa thống kê với p.value <0.05
+ Dựa vào bảng ANOVA cho thấy mô hình kết quả có thể sử dụng để tiên lượng với giá
trị VO2max, F(4, 95) = 32.393, p.value < .005.
+ Mô hình giải thích được 57,7% sự biến động của VO2max (R Square)
Có sự độc lập của phần dư thông qua giá trị thống kê Durbin-Watson = 1.845.
Phần dư có xấp xỉ phân phối chuẩn thông qua biểu đồ P-P Plot
+ Kiểm tra dấu hiệu hiện tượng đa cộng tuyến (Checking for multicollinearity)
Collinearity Statistics
Tolerance VIF
.995 1.005
.765 1.306
.945 1.058
.769 1.301