Professional Documents
Culture Documents
PTKD
PTKD
- p<0.001
- p<0.01
-p< 0.05
=> có sự khác biệt
- p> 0.05 => không có sự khác biêt
Correlations
N 6400 6400
Years with current employer Pearson Correlation .579** 1
N 6400 6400
Theo kết quả Correlations, ta có tương quan giữa Income (thu nhập) và Employ (năm
làm việc) là 0.579.
=> Có ý nghĩa thống kê với p<0.001, r = 0.579***
Vì vậy, có mối tương quan trung bình giữa Income (thu nhập) và Employ (năm làm
việc).
- Kết luận: Bác bỏ Ho, chấp nhận H1 , có mối tương quan trung bình giữa 2 biến trên
với mức 0.001 có ý nghĩa thống kê.
ONE-SAMPLE T TEST
(kiểm định với 1 số cố định)
13. The Excel file Sales Data provides data on a sample of customers. An industry trade
publication stated that the average profit per customer for this industry was at least
$4,500. Using a test of hypothesis, do the data support this claim or not?
- Giả thuyết:
Ho: Không có sự khác biệt giữa lợi nhuận trung bình trên mỗi khách hàng với $4,500
H1: Có sự khác biệt giữa lợi nhuận trung bình trên mỗi khách hàng với $4,500
- Kiểm định giả thuyết bằng phương pháp One Sample t-test để xem có tồn tại sư khác biệt
giữa lợi nhuận trung bình trên mỗi khách hàng với $4,500 hay không
One-Sample Statistics
N Mean Std. Std. Error
Deviation Mean
Gross
60 4239.1645 5811.72932 750.29103
Profit
One-Sample Test
Test Value = 4500
t df Sig. (2-tailed) Mean Difference 95% Confidence Interval
of the Difference
Lower Upper
Gross
-.348 59 .729 -260.83550 -1762.1644 1240.4934
Profit
Ta có kết quả:
+ One Sample Statistics: Mean = $4,239; Std. Deviation = $5811.73
+ One Sample Test: |t| = |-0.348| ≤ 1.96
p = 0.729 > 0.05 (không có ý nghĩa thống kê)
Khác biệt Mean Difference = $-260.84
- Kết luận: Không có sự khác biệt giữa lợi nhuận trung bình trên mỗi khách với $4,500
INDEPENDENT SAMPLES T TEST
(kiểm định các biến, nhóm độc lập)
17.Using the Excel file Facebook Survey, determine if the mean number of
hours spent online per week is the same for males as it is for females.
- Giả thiết:
+ H0: Không có sự khác biệt số giờ trực tuyến trung bình mỗi tuần giữa nam và nữ.
+ H1: Có sự khác biệt số giờ trực tuyến trung bình mỗi tuần giữa nam và nữ.
- Kiểm định giả thiết bằng phương pháp Independent Sample t-test để xem có sự
khác biệt số giờ trực tuyến trung bình mỗi tuần giữa nam và nữ hay không
Group Statistics
Std. Std.
Mea Deviatio Error
Gender N n n Mean
Hours female 20 6.15 3.167 .708
online/wee male 13 6.38 3.203 .888
k
- Nếu 2 giá trị t khác nhau thì so sánh trong bảng Levene's Test để lấy giá trị t và p:
+ Nếu p < 0.05 thì lấy t và p ở dưới
+ Nếu p > 0.05 thì lấy t và p ở trên
20. In the Excel file Cell Phone Survey, test the hypothesis that the mean
responses for Value for the Dollar and Customer Service do not differ by
gender.
- Giả thiết:
H0: Không có sự khác biệt các câu trả lời về giá trị đồng đô la và dịch vụ khách
hàng giữa nam và nữ
H1: Có sự khác biệt các câu trả lời về giá trị đồng đô la và dịch vụ khách hàng
giữa nam và nữ
- Kiểm định giả thiết bằng phương pháp Independent Sample t-test để xem có sự
khác biệt các câu trả lời về giá trị đồng đô la và dịch vụ khách hàng giữa nam và
nữ hay không
Group Statistics
Customer Equal 2.68 .107 1.584 50 .119 .438 .276 -.117 .993
Service variances 8
assumed
Group Statistics
sion1
F 15 3,287 ,4882 ,1261
Levene's Test
for Equality of
Variances t-test for Equality of Means
95% Confidence
Interval of the
Undergraduate Equal ,657 ,425 -,121 28 ,905 -,0200 ,1655 -,3590 ,3190
GPA variances
assumed
H0: Không có sự khác biệt về mức thu nhập của những người làm việc lâu năm
với ông chủ hiện tại
H1: Có sự khác biệt về mức thu nhập của những người làm việc lâu năm với ông
chủ hiện tại
Kiểm định giả thiết bằng phương pháp One-Way ANOVA để xem có sự khác
biêt về về mức thu nhập của những người làm việc lâu năm với ông chủ hiện tại
hay không
Descriptives
Household income in thousands
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
Less than 5 2216 35.5826 24.25752 .51530 34.5721 36.5931 9.00 335.00
5 to 15 2364 54.3769 41.06332 .84456 52.7207 56.0331 9.00 819.00
More than 15 1820 130.3522 116.13840 2.72233 125.0130 135.6914 9.00 1116.00
Total 6400 69.4748 78.71856 .98398 67.5459 71.4038 9.00 1116.00
F = 1054.203
p <0.001 (có ý nghĩa thống kê)
=> Có tồn tại sự khác biệt về mức thu nhập của những người làm việc lâu năm với
ông chủ hiện tại. Sự khác biệt có ý nghĩa thống kê với mức ý nghĩa p<0.001.
- Kết quả của POST HOC TESTS:
Multiple Comparisons
Dependent Variable:Household income in thousands
(I) Years with (J) Years with Mean 95% Confidence Interval
current employer current employer Difference (I-
J) Std. Error Sig. Lower Bound Upper Bound
5 to 15 75.97529 *
2.85032 .000 69.1642 82.7864
dimension3
*. The mean difference is significant at the 0.05 level.
HỒI QUY
The Excel file Cereal Data provides a variety of nutritional information about 67
cereals and their shelf location in a supermarket. Use regression analysis to find the best
model that explains the relationship between calories and the other variables.
Investigate the model assumptions and clearly explain your conclusions. Keep in mind
the principle of parsimony!
Bài làm:
GIẢ THIẾT: Sodium, Fiber, Carbs, Sugars có ảnh hưởng đến Calories hay không?
SODIUM + FIBER + CARBS + SUGARS => CALORIES
1. MODEL SUMMARY:
Model Summary
Model R R Square Adjusted R Std. Error of the
Square Estimate
1 .862a .742 .726 9.832
a. Predictors: (Constant), Sugars, Sodium, Fiber, Carbs
R2 = 0.742 (độ phù hợp cao)
=> Có sự phù hợp của đường hồi quy với bộ dữ liệu
2. ANOVA
ANOVAa
Model Sum of Squares df Mean Square F Sig.
Regression 17263.888 4 4315.972 44.652 .000b
Total 23256.716 66
F = 44.652
p < 0.001 (độ tin cậy cao, có ý nghĩa thống kê)
=> Có tồn tại ít nhất một phương trình hồi quy có nghĩa thống kê.
3. COEFICIENTS
Coefficientsa
Model Unstandardized Coefficients Standardized t Sig.
Coefficients
B Std. Error Beta
18. The Excel file Salary Data provides information on current salary, beginning
salary, previous experience (in months) when hired, and total years of education for a
sample of 100 employees in a firm.
a. Develop a multiple regression model for predicting current salary as a function of the
other variables.
Bài làm:
Current Salary (C), Beginning Salary (B), Previous Experience (P), Education (E)
GIẢ THIẾT: Mức lương khởi điểm, kinh nghiệm trước đây và năm học có ảnh hưởng đến
mức lương hiện tại hay không?
B + P + E => C
1. MODEL SUMMARY:
Model Summary
Model R R Square Adjusted R Std. Error of the
Square Estimate
1 .896a .803 .797 7790.875
a. Predictors: (Constant), Education (years), Previous Experience
(months), Beginning Salary
2. ANOVA:
ANOVAa
Model Sum of Squares df Mean Square F Sig.
Regression 23766951871.534 3 7922317290.511 130.521 .000b
Total 29593933724.000 99
F = 130.521
p < 0.001 (độ tin cậy cao, có ý nghĩa thống kê)
=> Có tồn tại ít nhất một phương trình hồi quy có nghĩa thống kê.
3. COEFICIENTS
Coefficientsa
Model Unstandardized Coefficients Standardized t Sig.
Coefficients
B Std. Error Beta
b. Find the best model for predicting current salary using the t-value criterion.
Giá trị t của biến nào cao nhất sẽ là yếu tố dự đoán tốt về Current Salary cho 100 nhân viên,
trong đó: Beginning có t = 15.203 và p < 0.001 (có ý nghĩa thống kê)
PHƯƠNG TRÌNH HỒI QUY:
- Phương trình chưa chuẩn hóa: C = -4139.238 + 1.73*B
- Phương trình chuẩn hóa: C = 0.835*B
========================
Distance
Price => Overall (file satisfy)
Services
Bài làm:
Vấn đề: các biến Distance, Price, Services có ảnh hưởng như thế nào đến Overall
Kiểm chứng giả thuyết bằng phương pháp Stepwise để tìm ra các biến từ biến quan trọng đến
ít quan trọng đối với biến phụ thuộc.
Model Summary
Model Adjusted R Std. Error of the
R R Square Square Estimate
dime
nsio
Coefficientsa
Model Standardized
Unstandardized Coefficients Coefficients Collinearity Statistics
Ta có kết quả:
KẾT LUẬN:
- VIF:
+ Service = 1.521 < 2.5
+ Price = 1521 < 2.5
=> Không xảy ra đa cộng tuyến giữa 2 biến Service và Price.
Có 2 biến tác động đến Overall:
Model 2: Biến Service có tác động mạnh nhất đến Overall, biến Price có ít tác động đến
Overall. Sự tác động của biến Distance đến Overall là không có ý nghĩa thống kê.
Theo phương pháp Stepwise cho biến quan trọng nhất là Service
Chất lượng dịch vụ càng tốt => càng có sự hài lòng
Sự hài lòng với giá càng cao => càng có sự hài lòng chung với cửa hàng
Overall = 0.394*Service + 0.354*Price
INTERACTIONS – TƯƠNG TÁC
ANOVAa
Total 34.000 34
Regression 33.278 3 11.093 476.098 .000c
Total 34.000 34
a. Dependent Variable: Zscore(Salary)
b. Predictors: (Constant), Zscore(MBA_binary), Zscore(Age)
c. Predictors: (Constant), Zscore(MBA_binary), Zscore(Age), Age_MBA_binary
Coefficientsa
Model 2:
Zsalary = 0.987*ZAge + 0.499*ZMBA + 0.175*ZAge*ZMBA
p của Age và MBA < 0.001 (có ý nghĩa thống kê).
=> Có sự tương tác giữa MBA với Age, sư tương tác này là dương beta = 0.175 và có ý nghĩa
thống kê với p< 0.001. Sự tương tác giữa MBA và Age có ảnh hưởng đến Salary và MBA
làm tăng mối quan hệ giữa Age và Salary.
Người có tuổi càng cao và có bằng MBA thì lương càng cao hơn là những người tuổi càng
cao mà không có bằng MBA.