You are on page 1of 202

HÀ DUY KHÁNH (Chủ biên)

NGUYỄN THANH TÚ
NGUYỄN VĂN MINH

GIÁO TRÌNH

PHÂN TÍCH THỐNG KÊ CƠ BẢN


TRONG QUẢN LÝ XÂY DỰNG
BẰNG SPSS

NHAØ XUAÁT BAÛN


ÑAÏI HOÏC QUOÁC GIA TP. HOÀ CHÍ MINH
PGS.TS. HÀ DUY KHÁNH (chủ biên)
ThS. NGUYỄN THANH TÚ, TS. NGUYỄN VĂN MINH

GIÁO TRÌNH
PHÂN TÍCH THỐNG KÊ CƠ BẢN
TRONG QUẢN LÝ XÂY DỰNG
BẰNG SPSS
Chịu trách nhiệm biên soạn và liên hệ:
PGS.TS. Hà Duy Khánh
Bộ môn Thi công và Quản lý Xây dựng
Khoa Xây dựng
Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh
Email: khanhhd@hcmute.edu.vn

2
LỜI NÓI ĐẦU

Trong những năm vừa qua, ngành Quản lý xây dựng (QLXD) đã và
đang phát triển rất mạnh mẽ ở Việt Nam. Nhiều trường đại học kỹ thuật ở
Việt Nam đã mở các chuyên ngành đào tạo về QLXD cả bậc Đại học và
Cao học. Trong thực tế, tư duy thống kê là nền tảng cho các quyết định về
thực hiện và quản lý dự án xây dựng trước, trong và sau khi triển khai dự
án. Trong đào tạo ngành QLXD, phân tích thống kê là công cụ quan trọng
giúp người học tìm ra các kết quả và kết luận cho vấn đề đặt ra.
Hiện nay, nhu cầu đào tạo ngành QLXD đang có sức hút rất mạnh
mẽ. Có thể liệt kê một số trường ở khu vực phía Nam có đào tạo ngành
QLXD (hoặc Kinh tế xây dựng) gồm Trường Đại học Bách Khoa – ĐHQG
TP.HCM, Trường Đại học Sư phạm Kỹ thuật TP.HCM, Trường Đại học
Kiến trúc TP.HCM, Trường Đại học Giao thông Vận tải TP.HCM, Trường
Đại học Mở TP.HCM và Trường Đại học Công nghệ TP.HCM
(HUTECH). Tuy nhiên, số lượng giáo trình liên quan đến phân tích thống
kê còn rất hiếm. Với mong muốn đem đến một tài liệu phục vụ công tác
nghiên cứu, dạy và học, nhóm tác giả đã dành tâm huyết và thời gian để
viết cuốn sách này. Điều khác biệt trong cuốn sách này đó là các bài toán
thực hành liên quan rất chặt chẽ đến một vài vấn đề thực tế của quản lý dự
án xây dựng. Hy vọng những nội dung trong cuốn sách sẽ đem lại nguồn
tri thức mới cho những ai đang cần, đặc biệt là sinh viên và học viên cao
học ngành QLXD.
Nhóm tác giả viết sách gồm PGS.TS. Hà Duy Khánh, ThS. Nguyễn
Thanh Tú và TS. Nguyễn Văn Minh. Vai trò của các tác giả trong cuốn
sách như sau: PGS.TS. Hà Duy Khánh, chủ biên viết tất cả các chương;
ThS. Nguyễn Thanh Tú và TS. Nguyễn Văn Minh tham gia chỉnh sửa, góp
ý và hoàn thiện cuốn sách. Đây là phiên bản đầu tiên của cuốn sách nên
nội dung có thể tồn tại những hạn chế và thiếu sót, nhóm tác giả rất mong
nhận được sự đóng góp chân thành của người đọc. Mọi thắc mắc, vui lòng
liên hệ PGS.TS. Hà Duy Khánh, Khoa Xây dựng, Trường Đại học Sư phạm
Kỹ thuật TP. Hồ Chí Minh.
Trân trọng cám ơn ./.
Nhóm tác giả

3
4
LỜI GIỚI THIỆU

Cuốn sách này cung cấp các phân tích thống kê cơ bản trong ngành
QLXD bằng sử dụng phần mềm SPSS (Statistical Package for the Social
Sciences). Có hai loại thống kê được trình bày trong cuốn sách gồm thống
kê mô tả và thống kê suy luận. Riêng thống kê suy luận chỉ tập trung vào
kiểm định mối liên hệ giữa các biến.
Cấu trúc của sách gồm 8 chương:
- Chương 1: Giới thiệu thống kê và SPSS
- Chương 2: Thu thập và xử lý số liệu
- Chương 3: Phân tích thống kê mô tả
- Chương 4: Kiểm định mối liên hệ giữa hai biến định tính
- Chương 5: Kiểm định mối liên hệ giữa biến định tính với biến
định lượng
- Chương 6: Kiểm định phi tham số
- Chương 7: Phân tích tương quan
- Chương 8: Phân tích hồi quy tuyến tính
Nội dung của từng chương được viết theo logic: giới thiệu tóm tắt lý
thuyết, sau đó trình bày thực hành với các bước phân tích (kèm hình ảnh
từ SPSS) cho một ví dụ cụ thể, và cuối cùng là diễn giải kết quả. Tổng
cộng có 11 ví dụ trong nội dung giáo trình và 6 bài tập làm thêm kèm đáp
án (số liệu được cung cấp trong đĩa CD đính kèm). Các số liệu làm ví dụ
trong cuốn sách được nhóm tác giả sưu tầm và giả định. Ngoài ra, nội dung
cuốn sách có tham khảo một vài nguồn dữ liệu trên Internet và giáo trình
khác.

5
6
MỤC LỤC
LỜI NÓI ĐẦU .......................................................................................... 3
LỜI GIỚI THIỆU ......................................................................................5
DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH ........................................ 9

CHƯƠNG 1:
GIỚI THIỆU THỐNG KÊ VÀ SPSS ...................................................... 11
1.1. Tổng quan về thống kê .................................................................. 11
1.2. Giới thiệu SPSS ............................................................................. 17
1.3. Khai báo biến và nhập liệu trong SPSS......................................... 19
1.4. Thay đổi mặc định ban đầu trong SPSS ........................................ 23
1.5. Tóm tắt chương ............................................................................. 34

CHƯƠNG 2:
THU THẬP VÀ XỬ LÝ SỐ LIỆU ......................................................... 35
2.1. Dữ liệu là gì? ................................................................................. 35
2.2. Phân loại dữ liệu ............................................................................ 36
2.3. Các loại thang đo ........................................................................... 37
2.3.1. Thang đo danh nghĩa ............................................................. 37
2.3.2. Thang đo thứ bậc ................................................................... 38
2.3.3. Thang đo khoảng cách ........................................................... 38
2.3.4. Thang đo tỷ lệ ........................................................................ 40
2.4. Xác định kích thước mẫu .............................................................. 40
2.5. Nguyên tắc mã hóa và nhập liệu ................................................... 42
2.6. Những điều bất thường của số liệu và giải pháp phòng ngừa ....... 43
2.6.1. Những điều bất thường của số liệu ........................................ 43
2.6.2. Giải pháp phòng ngừa sai sót................................................. 45
2.6.3. Các phương pháp làm sạch số liệu ........................................ 46
2.7. Tóm tắt chương ............................................................................. 49

CHƯƠNG 3:
PHÂN TÍCH THỐNG KÊ MÔ TẢ ......................................................... 50
3.1. Bảng tần suất ................................................................................. 50
3.2. Đại lượng mô tả ............................................................................. 52
3.3. Lập bảng tần suất kết hợp với các đại lượng thống kê mô tả ........ 56
3.4. Đồ thị ............................................................................................. 60
3.5. Công cụ Explore ............................................................................ 64
3.6. Tóm tắt chương ............................................................................. 67
BÀI TẬP THỰC HÀNH ......................................................................... 67
7
CHƯƠNG 4:
KIỂM ĐỊNH MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH ................ 68
4.1. Kiểm định mối liên hệ giữa hai biến: định danh-định danh,
hoặc định danh-thứ bậc ....................................................................... 70
4.1.1. Lý thuyết về kiểm định Chi-square ....................................... 70
4.1.2. Sử dụng SPSS để thực hiện kiểm định Chi-square................ 72
4.1.3. Một số trị số thống kê khác để kiểm định mối liên hệ
giữa hai biến định danh.................................................................... 77
4.2. Kiểm định mối liên hệ giữa hai biến thứ bậc ................................ 81
4.2.1. Kiểm định Gamma của Goodman và Kruskal ....................... 83
4.2.2. Kiểm định d của Somer ......................................................... 83
4.2.3. Kiểm định Tau của Kendall ................................................... 84
4.3. Tóm tắt chương ............................................................................. 86
BÀI TẬP THỰC HÀNH ......................................................................... 87

CHƯƠNG 5:
KIỂM ĐỊNH MỐI LIÊN HỆ GIỮA BIẾN ĐỊNH TÍNH VÀ BIẾN
ĐỊNH LƯỢNG ........................................................................................ 88
5.1. Kiểm định trị trung bình của tổng thể ........................................... 88
5.1.1. Trường hợp một tổng thể ....................................................... 89
5.1.2. Trường hợp có hai tổng thể trở lên ........................................ 92
5.2. Phân tích phương sai của tổng thể................................................. 99
5.2.1. Phân tích phương sai một yếu tố ......................................... 100
5.2.2. Phân tích phương sai hai yếu tố ........................................... 108
5.3. Tóm tắt chương ........................................................................... 113
BÀI TẬP THỰC HÀNH ....................................................................... 114

CHƯƠNG 6:
KIỂM ĐỊNH PHI THAM SỐ ................................................................ 115
6.1. Kiểm định dấu ............................................................................. 117
6.2. Kiểm định dấu và hạng Wilcoxon ............................................... 120
6.3. Kiểm định Mann-Whitney .......................................................... 123
6.4. Kiểm định Kruskal-Wallis .......................................................... 126
6.5. Kiểm định Chi-square ................................................................. 128
6.6. Kiểm định Kolmogorov-Smirnov ............................................... 131
6.7. Kiểm định tỷ lệ ............................................................................ 133
6.8. Tóm tắt chương ........................................................................... 136
BÀI TẬP THỰC HÀNH ....................................................................... 137

8
CHƯƠNG 7:
PHÂN TÍCH TƯƠNG QUAN .............................................................. 138
7.1. Giới thiệu chung .......................................................................... 138
7.2. Phân tích tương quan đơn biến .................................................... 139
7.2.1. Giới thiệu về tương quan Pearson ....................................... 139
7.2.2. Một số đặc điểm của hệ số tương quan ............................... 140
7.2.3. Kiểm định giả thuyết về tương quan ................................... 141
7.2.4. Thực hiện phân tích trên SPSS ............................................ 142
7.3. Phân tích tương quan xếp hạng ................................................... 145
7.4. Tóm tắt chương ........................................................................... 147
BÀI TẬP THỰC HÀNH ....................................................................... 148

CHƯƠNG 8:
PHÂN TÍCH HỒI QUY TUYẾN TÍNH ............................................... 149
8.1. Giới thiệu chung .......................................................................... 149
8.2. Hồi quy tuyến tính đơn biến ........................................................ 150
8.2.1. Các giả định của phân tích hồi quy...................................... 154
8.2.2. Sai số khi ước lượng hồi quy cho tổng thể .......................... 155
8.2.3. Đánh giá độ phù hợp của mô hình hồi quy .......................... 156
8.2.4. Kiểm tra tính hợp lệ của các giả định cần thiết ................... 163
8.3. Hồi quy tuyến tính đa biến .......................................................... 168
8.4. Tóm tắt chương ........................................................................... 174
BÀI TẬP THỰC HÀNH ....................................................................... 175

TÀI LIỆU THAM KHẢO ..................................................................... 176


PHỤ LỤC 1 ........................................................................................... 177
PHỤ LỤC 2 ........................................................................................... 178
SỐ LIỆU VÀ ĐÁP ÁN BÀI TẬP THỰC HÀNH ................................ 178
Đáp án Chương 3: Thống kê mô tả đối tượng nghiên cứu ................ 179
Đáp án Chương 4: Kiểm định mối liên hệ giữa hai biến định
tính .............................................................................................. 181
Đáp án Chương 5: Kiểm định mối liên hệ giữa biến định tính
và biến định lượng ............................................................................. 184
Đáp án Chương 6: Kiểm định phi tham số ........................................ 187
Đáp án Chương 7: Phân tích tương quan ........................................... 190
Đáp án Chương 8: Phân tích hồi quy tuyến tính ................................ 193

9
DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH
(Ngoài chương trình Excel và SPSS)

• Danh mục bảng biểu:


Bảng 1.1. Giá đất Thành phố Thủ Đức ........................................... 11
Bảng 2.1. Một số sản phẩm công nghiệp chủ yếu năm 2018 ......... 12
Bảng 6.1. Phạm vi thay thế của các kiểm định ............................ 116
Bảng 7.1. Tóm tắt các đặc điểm của phân tích tương quan .......... 138
Bảng 8.1. Một số đặc điểm của hồi quy tuyến tính ...................... 149

• Danh mục hình ảnh:


Hình 1.1. Tuổi thọ theo giới tính của Ireland và EU ...................... 13
Hình 2.1. Hai chiều hướng phân tích thống kê ............................... 35
Hình 2.2. Phân loại dữ liệu ............................................................. 37
Hình 4.1. Quy tắt bác bỏ giả thuyết rỗng ........................................ 77
Hình 5.1. Hai phân phối có hình dạng khác nhau ........................... 93
Hình 7.1. Chiều hướng bác bỏ giả thuyết rỗng .............................. 142
Hình 8.1. Đồ thị thể hiện phương pháp bình phương cực tiểu ...... 151
Hình 8.2. Giả định phương sai cân bằng ....................................... 154
Hình 8.3. Minh họa giải thích về R2 .............................................. 157

10
CHƯƠNG 1:
GIỚI THIỆU THỐNG KÊ VÀ SPSS

Chương này giúp người học hiểu được vai trò và ý nghĩa của phân tích
thống kê trong kỹ thuật và trong xã hội. Nội dung bao gồm giới thiệu
tổng quan về thống kê và các giao diện của SPSS nhằm giúp người đọc
có cái nhìn tổng quan tốt hơn trước khi bắt đầu. Kết quả phân tích thống
kê thực sự đúng và có ý nghĩa khi người nghiên cứu hiểu đúng bản chất
của vấn đề nghiên cứu, mục đích của các công cụ phân tích và ý nghĩa
của từng kết quả.

1.1. Tổng quan về thống kê


Để hiểu về thống kê, hãy đọc các ví dụ bên dưới và trả lời các câu hỏi:
Ví dụ 1: Số liệu giá đất của Thành phố Thủ Đức từ năm 2015 đến năm
2019 được trình bày như Bảng 1.1 bên dưới.
Bảng 1.1. Giá đất Thành phố Thủ Đức [1]
ĐVT: 1,000 đồng/m2
Đoạn đường
STT Tên đường Giá
Từ Đến
Đường số 5, Bà Ranh tỉnh Bình
1 Quốc lộ 1K 3,700
Giang Dương
Ranh Quân
2 Bình Chiểu Tỉnh lộ 43 3,700
đoàn 4
3 Đường số 14 Linh Trung Quốc lộ 1 3,700
4 Cây Keo Tô Ngọc Vân Cuối đường 4,800
5 Chương Dương Võ Văn Ngân Kha Vạn Cân 6,600
Dương Văn
6 Đặng Thị Rành Tô Ngọc Vân 6,600
Cam
7 Đặng Văn Bi Võ Văn Ngân Nguyễn Văn Bá 7,000
Ranh tỉnh Bình
8 Đào Trinh Nhất Kha Vạn Cân 4,400
Dương
Ngã Ba Hồ Văn
9 Đoàn Công Hớn Võ Văn Ngân
Tư 8,400
10 Đường số 19 Kha Vạn Cân Cuối đường 4,800
1. Phương pháp thu thập là gì? Công cụ nào để phân tích? Số liệu
được trình bày dưới dạng nào?

11
2. Giá đất của đường Đặng Văn Bi là bao nhiêu và có đặc điểm vị
trí gì?
3. Giá đất trung bình của 10 tuyến đường?
4. Nhận xét và diễn giải sự khác nhau giữa giá đất trung bình và giá
đất của 01 tuyến đường bất kỳ?
Gợi ý trả lời:
1. Phương pháp: khảo sát thống kê. Công cụ phân tích: giá trị trung
bình. Số liệu trình bày: dưới dạng bảng.
2. Giá đất đường Đặng Văn Bi: 7 triệu đồng/m2. Đường Đặng Văn
Bi tiếp giáp hai đầu là đường Võ Văn Ngân và đường Nguyễn
Văn Bá. Đặc điểm đường này là một trong số các đường chính
của trung tâm TP. Thủ Đức với nhiều cửa hàng, đơn vị sản xuất
kinh doanh nên có giá đất cao hơn một số tuyến đường khác.
3. Giá đất trung bình của 10 tuyến đường là: 5.08 triệu đồng/m2.
4. Giả sử chọn Đường số 19, Phường Hiệp Bình Chánh có giá đất
trung bình là 4.8 triệu đồng/m2. Đây cũng là một tuyến đường
nhánh trên Đại lộ Phạm Văn Đồng, chủ yếu phục vụ cho mục
đích ở, ít sản xuất kinh doanh nên giá đất thấp hơn các tuyến
đường khác. Tuy nhiên, tuyến đường này gần Sân bay Tân Sơn
Nhất (cách khoảng 8km) và dễ di chuyển qua các Quận khác.
Chênh lệch so với giá đất trung bình: 280,000 đồng/m2 (5.5%).
Ví dụ 2: Chỉ số tiêu thụ một số sản phẩm công nghiệp của yếu của Việt
Nam năm 2018 được thể hiện trong Bảng 2.1.
Bảng 2.1. Một số sản phẩm công nghiệp chủ yếu năm 2018 [2]
(+/-) % so
Tên sản phẩm ĐVT 2018
với 2017
Đá xây dựng các loại 1,000 m3 205.5 11.5%
Sữa hoặc kem đặc có hoặc không có
1,000 tấn 101.7 2.4%
đường
Bia chai, lon triệu lít 1,660.2 4.9%
Thuốc lá điếu triệu bao 2,119.7 10.8%
Quần áo các loại trừ quần áo thể thao triệu cái 1,662.3 6.8%
Sổ sách, vở, giấy và các sản phẩm
1,000 tấn 12.4 22.6%
bằng giấy
Bột giặt và các chế phẩm dùng để tẩy
1,000 tấn 554.2 16.0%
rửa
Xi măng 1,000 tấn 9,532.1 6.4%

12
(+/-) % so
Tên sản phẩm ĐVT 2018
với 2017
Sắt, thép các loại 1,000 tấn 455.5 28.2%
Ti vi 1,000 tấn 12,913.6 32.0%
Điện thương phẩm triệu Kwh 24,414.9 7.9%
Nước uống triệu m3 675.5 7.7%
Phân khoáng hoặc phân hóa học 1,000 tấn 243.2 -24.3%
1. Cho biết mức tiêu thụ và đơn vị tính của đá, xi măng và sắt thép
xây dựng?
2. Nhận xét về mức tiêu thụ này? Dự báo xu thế tương lai?
3. Phương pháp tính mức tiêu thụ này?
Gợi ý trả lời:
1. Mức tiêu thụ và đơn vị tính của đá, xi măng và sắt thép lần lượt
là 205,500 tấn, 9,532,100 tấn và 455,500 tấn.
2. Nhận xét về mức tiêu thụ: đá tăng 11.5%, xi măng tăng 6.4% và
sắt thép các loại tăng 28.2%. Như vậy, trong các mức tăng thì sắt
thép các loại có mức độ tiêu thụ tăng nhiều nhất. Dự báo mức
tiệu thụ trong tương lai: chưa thể dự báo được do nguồn số liệu
chỉ có 2 năm.
3. Phương pháp tính mức tiêu thụ: tính chênh lệch giữa 2 năm liền
kề 2017 và 2018, được tính dưới dạng phần trăm (%).
Ví dụ 3: Hãy xem Hình 1.1 và trả lời các câu hỏi bên dưới:

Tuổi thọ (Life expectancy)


86.0
84.0
82.0
80.0
78.0
76.0
74.0
2006 2008 2010 2012 2014 2016
EU 28 - Nam EU 28 - Nữ Ireland - Nam Ireland - Nữ

Hình 1.1. Tuổi thọ theo giới tính của Ireland và EU [3]
1. Tuổi thọ (life expectancy) giữa EU và Ireland?
13
2. Giữa nam và nữ của Ireland?
3. Năm 2017 liệu tuổi thọ có tăng lên không?
Gợi ý trả lời:
1. Tuổi thọ giữa EU và Ireland có sự tương đồng cao về nam giới,
nhưng giữa nữ giới thì có sự khác biệt rõ rệt.
2. Riêng Ireland, tuổi thọ của nữ giới cao hơn so với nam giới. Sự
khác biệt này có xu hướng giảm dần từ năm 2007 chênh lệch
khoảng 5 năm đến năm 2016 giảm xuống khoảng 3.5 năm.
3. Năm 2017, dự báo sẽ tăng vì theo số liệu quá khứ từ năm 2007
đến năm 2016 có xu hướng tăng rõ rệt. Độ tăng đối với nam giới
EU là (78.1-76)/10 = 0.21 năm và nữ giới EU là (83.5-82.2)/10
= 0.13 năm. Độ tăng đối với nam giới Ireland là (80-77.2)/10 =
0.28 năm và nữ giới Ireland giống với nữ giới EU. Nhìn nhận
chung, độ tăng về tuổi thọ của nam giới lớn hơn so với nữ giới
cho cả EU và Ireland. Tuy nhiên, độ tăng này sẽ đạt đến một
ngưỡng nhất định do tuổi thọ con người không thể nào không có
giới hạn.
Nhờ phân tích thống kê, các ví dụ trên đã cung cấp cho chúng ta các
thông tin của vấn đề nghiên cứu như giá trị trung bình, độ lệch, giá trị lớn
nhất, giá trị nhỏ nhất, phần trăm, và xu hướng liên hệ (thuận chiều hay
nghịch chiều). Cụ thể, nếu không có phân tích thống kê, chúng ta không
biết được giá trị trung bình của các tuyến đường ở Thành phố Thủ Đức ở
Ví dụ 1, hoặc không có tính phần trăm thì chúng ta đâu biết được mức tiêu
thụ của năm 2018 tăng hay giảm so với năm 2017 ở Ví dụ 2, hoặc không
có thể hiện đồ thị thì chúng ta không thể nhìn ra được xu hướng tăng của
tuổi thọ, thậm chí là không thấy được mức độ khác nhau giữa tuổi thọ của
EU và Ireland. Như vậy, thông qua các ví dụ trên, thống kê là gì?
Thống kê là một phương pháp phân tích sử dụng các công thức toán
học bên trong để xử lý và biểu diễn dữ liệu theo một thể thức khoa học
nhất định. Ngoài ra, nó cũng là một môn khoa học cơ bản trong khối kiến
thức khoa học tự nhiên và xã hội giúp tìm hiểu về dữ liệu, sau đó tính toán,
giải thích và trình bày cho một vấn đề nghiên cứu cụ thể ở cả mức độ học
thuật và thực tiễn.
Cho đến nay, phân tích thống kê đã và đang được sử dụng trong nhiều
lĩnh vực kỹ thuật và xã hội khác nhau. Nhờ có thống kê, chúng ta có thể
tìm ra các lỗ hổng và các vấn đề phức tạp trong quá trình thực hiện và vận
hành công việc. Trên cơ sở đó, chúng ta đưa ra các nghiên cứu để cải thiện
tình hình, đặc biệt là trong giai đoạn cần đưa ra các quyết định tiềm ẩn các
14
yếu tố rủi ro. Để phân tích thống kê đạt yêu cầu, chúng ta cần phải: hiểu rõ
lý do vì sao phải thực hiện thống kê trước khi thực hiện, xây dựng mô hình
thống kê gồm những biến (hay yếu tố) nào, xác định các điều kiện của
phân tích thống kê đã lựa chọn, định nghĩa và phân loại số liệu, diễn đạt
các kết quả phân tích, và cuối cùng kiểm tra độ phù hợp giữa kết quả phân
tích với thực tiễn. Có nhiều trường hợp cho thấy có sự khác biệt đáng kể,
thậm chí rất lớn, giữa kết quả thống kê và kết quả thực tế. Chúng ra cần
cẩn trọng với những sự khác biệt này. Chúng ta chỉ có thể đưa ra kết luận
có ý nghĩa về mặt thống kê nhưng không đưa ra được kết luận có ý
nghĩa thực tiễn. Từ đó, chúng ra có những kết luận đúng đắn cho vấn đề
nghiên cứu.
Thống kê gồm hai loại là thống kê mô tả (descriptive statistics) và
thống kê suy luận (inferential statistics). Thống kê mô tả là loại thống kê
giúp chúng ra có những kết luận bên ngoài cho vấn đề nghiên cứu. Những
kết luận này, chúng ra có thể cảm nhận trực quan và đo lường được. Trong
khi đó, thống kê suy luận là loại thống kê giúp chúng ta có những kết luận
bên trong cho vấn đề nghiên cứu. Những kết luận này, chúng ra không thể
cảm nhận trực quan được nhưng có thể đo lường được dựa vào những công
cụ thống kê phù hợp.
Có 4 mức thống kê cơ bản thường được sử dụng tùy theo mức độ yêu
cầu của người phân tích: (1) thu thập và xử lý số liệu, (2) phân tích và trình
bày các kết quả mô tả, (3) kiểm định các mối liên hệ (hay hiện tượng) giữa
các sự kiện (hay yếu tố), và (4) ứng dụng dự báo.
- Mức 1 "Thu thập và xử lý số liệu": Mức này thường hay được sử
dụng trong hầu hết các phân tích thống kê. Để có thể tiến hành phân
tích thống kê, chúng ta cần phải có dữ liệu của vấn đề nghiên cứu.
Dữ liệu này cần phải có tính đại diện cho tất cả đối tượng khảo sát
(hay còn gọi là quần thể). Để đảm bảo tính đại diện, việc thu thập
dữ liệu phải đảm bảo ba nguyên tắc sau: cỡ mẫu đủ lớn, lấy mẫu
ngẫu nhiên, và có tính khách quan. Tuy nhiên, khi vấn đề nghiên
cứu phức tạp hoặc ít phổ biến, rất khó để đảm bảo lấy mẫu có tính
đại diện, đặc biệt khó đảm bảo được số lượng mẫu. Một số trường
hợp, thậm chí không thu thập được số liệu, hoặc thu thập được
nhưng lại không đảm bảo được điều kiện phân tích, hoặc phân tích
được nhưng lại không đáp ứng được mục tiêu đề ra. Có hai phương
pháp lấy mẫu là lấy mẫu xác suất (probability sampling) và lấy mẫu
phi xác suất hay còn gọi là lấy mẫu thuận tiện (non-probability
sampling). Lấy mẫu xác suất là lấy mẫu đảm bảo tính ngẫu nhiên
và khách quan cho tất cả đối tượng khảo sát của quần thể. Ngược
lại, lấy mẫu phi xác suất không đảm bảo điều này. Trong điều kiện

15
ở Việt Nam cũng như nhiều nước trên thế giới, lấy mẫu phi xác
suất vẫn còn được chấp nhận vì những lý do nhất định, đặc biệt là
do sự quen biết lẫn nhau và để nhanh có số liệu. Những kết luận có
được từ phân tích số liệu trên nhóm mẫu này có thể suy luận ra cho
quần thể ở mức tin cậy thống kê cao. Tuy nhiên, do đặc điểm lấy
mẫu thuận tiện nên đôi khi kết luận chỉ phản ánh nhận định chủ
quan. Điều này gây ra hiện tượng sai lệch (bias) giữa kết luận từ
thống kê so với thực tiễn.
- Mức 2 "Phân tích và trình bày các kết quả mô tả": Từ các số liệu
có được sau khi thu thập, chúng ta có thể thấy được kết quả bằng
nhìn nhận trực quan hoặc bằng các công cụ thống kê mô tả đơn
giản. Thống kê mô tả thường được sử dụng cho dù vấn đề nghiên
cứu ít hay rất phức tạp bởi tính trực quan của kết quả. Để thực hiện
thống kê mô tả, chúng ta chỉ cần làm các phép toán khá đơn giản
như cộng, đếm, tính tần suất, phần trăm... Nhắc lại, với các kết quả
thống kê mô tả, chúng ta chỉ có thể đưa ra các kết luận bên ngoài
của vấn đề nghiên cứu.
- Mức 3 "Kiểm định mối liên hệ giữa các sự kiện (hay yếu tố)": Kiểm
định này ở mức độ chuyên sâu trong phân tích thống kê. Các sự
kiện trong thực tế thường xảy ra do chúng có tính chất liên quan
với nhau. Cụ thể, sự xảy ra của sự kiện này phụ thuộc vào sự xảy
ra hoặc tác động của sự kiện kia. Đó được gọi là mối liên hệ giữa
hai sự kiện. Nếu sự xảy ra của sự kiện này có sự tương đồng với sự
xảy ra của sự kiện kia, người ta gọi mối liên hệ này là có tính tương
quan (correlative relationship). Nếu sự xảy ra của sự kiện này bị
phụ thuộc vào sự tác động của sự kiện kia, người ta gọi mối liên hệ
này có tính nhân quả (causal relationship). Để đo lường mối liên
hệ giữa các sự kiện, người ta sử dụng hai đại lượng là mức độ
(coefficient) và chiều hướng (direction). Xác định đúng mối liên
hệ cố hữu giữa các sự kiện, sẽ cho chúng ta những kết luận thú vị
và đúng đắn.
- Mức 4 "Ứng dụng dự báo": Ở mức 3, dựa trên số liệu quá khứ, nếu
đã xác định đúng mối liên hệ giữa các sự kiện đảm bảo ở mức ý
nghĩa thống kê có kiểm chứng thực tiễn thì mối liên hệ này được
gọi là quy luật. Mối liên hệ giữa chúng càng chặt chẽ (tức ở mức
độ cao và cùng chiều hướng) thì khả năng ứng dụng để dự báo sự
xảy ra về sau của sự kiện càng cao. Một điều bắt buộc nữa để đảm
bảo dự báo phù hợp là giữa hai sự kiện phải có tính nhân quả. Trong
nhiều lĩnh vực kỹ thuật và xã hội, việc đưa ra một dự đoán chính

16
xác luôn là một nhu cầu cần thiết. Dựa vào kết quả dự đoán chúng
ta dễ dàng hơn để đưa ra những quyết sách ở tương lai.
Ngày nay, các thông tin thống kê trong lĩnh vực khoa học kỹ thuật và
khoa học xã hội gần như sẵn có bởi có sự quản lý của các cơ quan nhà
nước và doanh nghiệp bằng các công nghệ thu thập, xử lý và phân tích tiên
tiến. Tuy nhiên, để đánh giá đúng bản chất của sự vật hay hiện tượng trong
quá trình thực hiện, công tác thống kê luôn không ngừng cập nhật và đổi
mới. Đặc biệt trong thời kỳ phát triển nhanh của khoa học và công nghệ,
các vấn đề nghiên cứu có sử dụng thống kê càng trở nên phức tạp. Do đó,
các nhà nghiên cứu và quản lý cần phải có khả năng hiểu được thông tin
từ thống kê và sử dụng nó một cách hiệu quả. Từ đây có thể thấy, tư duy
thống kê kết hợp với kinh nghiệm thực hành sẽ giúp chúng ta nắm bắt
nhanh hơn các hiện tượng, từ đó dễ dàng hơn khi đưa ra các quyết định
phù hợp về sau.
1.2. Giới thiệu SPSS
SPSS (Statistical Package for the Social Sciences) là phần mềm phân
tích thống kê phổ biến của công ty IBM (2009). Giá bản quyền của SPSS
là 99$/tháng và từ 1,290$ đến 5,730$/năm (tùy phiên bản sử dụng). Bên
cạnh SPSS còn có các phần mềm phổ biến như Minitab, RStudio, JMP,
OriginPro... SPSS là một chương trình máy tính phục vụ công tác phân
tích thống kê. SPSS được tạo ra với mục đích phân tích dữ liệu khoa học
ứng dụng trong lĩnh vực khoa học xã hội. Nhưng dần về sau, SPSS không
dừng lại ở đó mà đã được ứng dụng rộng rãi trong các các nghiên cứu điều
tra xã hội học, kinh tế lượng, nghiên cứu thị trường và kỹ thuật quản lý.
Hiện nay, trên thị trường có khoảng 70 phần mềm phân tích thống kê
khác nhau chẳng hạn như Minitab, EVIEW, STATA, Base SAS,
OriginPro, AMOS... Đối với ngành QLXD nói riêng và đối với các ngành
kinh tế kỹ thuật nói chung, SPSS đã là phần mềm phân tích thống kê được
ưa chuộng nhiều vì các thao tác đơn giản và giao diện dễ nhìn. Các công
cụ phân tích thống kê trong SPSS bao gồm các phân tích từ cơ bản đến
nâng cao. Tùy vào mục đích nghiên cứu mà chọn công cụ phân tích cho
phù hợp. Ở Việt Nam, các nhà quản lý và nghiên cứu trong ngành xây
dựng thường dùng SPSS như là phần mềm hữu ích để điều tra và phân tích
các vấn đề liên quan đến dự án từ lúc hình thành, triển khai và vận hành.
Đặc biệt, đối với đào tạo sau đại học về QLXD, nó là công cụ dường như
không thể thiếu trong các luận văn và luận án. Vấn đề khó khăn nhất khi
sử dụng SPSS đó là nó đòi hỏi người sử dụng phải am hiểu tường tận các
lý thuyết về kiểm định và thống kê trước khi sử dụng.

17
SPSS có nhiều chức năng chính trong việc xử lý và phân tích dữ liệu
bao gồm:
• Nhập và làm sạch dữ liệu.
• Xử lý các biến đổi và quản lý các dữ liệu đó.
• Tổng hợp dữ liệu và trình bày chủ yếu dưới các dạng bảng và đồ
thị.
• Phân tích dữ liệu, tính toán các tham số thống kê và diễn giải kết
quả.
Khi mở chương trình SPSS lên, xuất hiện cửa sổ sau:

• Open an existing data source: mở nguồn dữ liệu sẵn có.


• Open another type of file: mở một loại file khác.
• Run the tutorial: chạy hướng dẫn sử dụng.
• Type in data: loại dữ liệu.
• Run an existing query: chạy thảo luận hiện hữu.
• Creata new query using Database Wizard: tạo một thảo luận mới
sử dụng thuật toán cơ sở dữ liệu.
Các hình thức mở file dữ liệu ở trên thuận tiện và nhanh hơn cho người
sử dụng. Tuy nhiên nó thường gây nhầm lẫn. Do đó, lời khuyên là người

18
sử dụng nên chọn Cancel nếu việc nhập dữ liệu là lần đầu. Khi đó, giao
diện mặc định khi mở SPSS ra như sau:

Mỗi cột là một biến Thanh công cụ

Dòng nhập Giao giữa cột và


dữ liệu dòng là vùng nhập
và hiển thị số liệu

• Data view: cửa sổ xem dữ liệu nhập (màn hình mở mặc định của
chương trình).
• Variable view: cửa sổ xem thông tin của tất cả các biến.
1.3. Khai báo biến và nhập liệu trong SPSS
- Chọn cửa sổ Variable View:

Các thuộc tính


của biến
Mỗi dòng tương
ứng 01 biến

- Name: tên biến, nên đặt không quá 8 ký tự, không có ký hiệu đặc
biệt, và viết liền không có khoảng trống.
- Type: kiểu biến, mặc định sau khi đặt tên xong chương trình sẽ
chọn kiểu định lượng bằng số (numberic). Nếu muốn thay đổi, click
vào ô và chọn các kiểu biến phù hợp. Comma = dấu phẩy, dot =
dấu chấm, scientific notation = ký hiệu khoa học, date = ngày,
dollar = đô-la, custom currency = đơn vị tiền tệ tự chọn, string =
chuỗi, và restricted number (integer with leading zero) = số theo
quy định (phần nguyên làm tròn).

19
- Width: độ rộng của biến, là số ký tự tối đa có thể nhập. Mặc định
là 8 ký tự.
- Decimal Places: số lẻ sau dấu chấm chia cách phần nguyên và thập
phân. Mặc định là 2. Lưu ý, theo thông lệ quốc tế, dấu cách giữa
các phần nghìn là dấu phẩy, dấu cách giữa phần nguyên và thập
phân là dấu chấm.
- Label: nhãn hiệu cho biến, nhãn cần phải đặt ngắn gọn nhằm giải
thích rõ hơn cho tên gọi biến.
- Values: Mặc định sau khi đặt xong tên là None, nhấp chuột vào ô
và chọn nút bên phải sẽ xuất hiện hộp thoại khai báo:

20
• Value: giá trị của thuộc tính.
• Lable: gtên của thuộc tính.
Ví dụ, trong hình trên: 1 = nam, 2 = nu.
Lưu ý: Ở label này, có thể đánh viết tiếng Việt, tuy nhiên, sau này
bảng kết quả phân tích kiểu chữ sẽ không đọc được.
Sau khi khai báo xong, bấm chọn Add. Nếu muốn thay đổi các giá
trị và thuộc tính, chọn từ danh mục, sau đó thay đổi lại và bấm Change.
Nếu muốn xóa, chọn từ danh mục và bấm Remove.
- Missing: các giá trị bị khuyết, mặc định là None. Tương tự như cột
Value, nó được sử dụng trong trường hợp có một thông tin trả lời
bị khuyết ở một số biến nào đó. Trình tự thực hiện như sau: ở màn
hình nhập liệu, gán một số bất kỳ (khác với số liệu dự kiến nhập)
cho ô điền thiếu đó, sau đó, trong cột Value label khai báo nhãn là
cho số bất kỳ đó với tên là khongtraloi" (hoặc tên nào tùy chọn),
tiếp đến sang cột Missing phải khai báo giá trị đó để sau này phần
mềm tính toán sẽ bỏ qua giá trị đó.
Ví dụ, người khảo sát số 10 điền thiếu thông tin của biến "a", cách
khai báo Missing như sau:

21
• No missing values: không có giá trị khuyết.
• Discrete missing values: các giá trị khuyết rời rạc, SPSS
cung cấp tối đa 3 giá trị.
• Range plus one optional discrete missing value: dãy giá trị
cộng với một giá trị khuyết rời rạc có thể. Lựa chọn này
dùng trong trường hợp giá trị có điền nhưng không phải là
một giá trị cố định.
- Column: độ rộng của cột biến khi nhập liệu, mặc định là 8.
- Align: canh lề trái, giữa và phải của dữ liệu trong cột.
- Measure: loại thang đo lường dữ liệu, với 3 loại là định danh
(norminal), thứ bậc (ordinal) và scale (mức độ).

22
- Role: vai trò của số liệu. Input = biến đầu vào, target = biến mục
tiêu, both = cả hai, none = không, partition = một phần, split = ngắt
đoạn.
Đặc biệt, nếu muốn copy thuộc tính của biến này cho biến khác, sử
dụng Control+C và sau đó Control+V vào ô tương ứng. Có thể kích chuột
phải và chọn copy sau đó paste.
- Để lưu lại file dữ liệu chọn: File > Save > Chọn nơi lưu trữ > Đặt
tên > Save. Đuôi file *.sav.

1.4. Thay đổi mặc định ban đầu trong SPSS


Để thuận tiện cho việc sử dụng chương trình và tùy theo sở thích của
người sử dụng, chúng ta có thể thay đổi các mặc định ban đầu của chương
trình trong hộp thoại options. Chọn Edit > Options.
- Thẻ General:

23
• Variable lists: danh sách các biến, thể hiện dưới dạng nhãn
(display labels) và thể hiện dưới dạng tên (display names). Sắp
xếp theo: thứ tự vần A đến Z (alphabetical), dạng file, và mức
độ đo lường (measurement level).
• Roles: tính năng. Nhằm tiết kiệm thời gian, các hộp thoại cho
phép sử dụng tính năng lĩnh vực định trước để tự động gán các
biến vào danh sách. Có hai lựa chọn: sử dụng tính năng định
trước (use predefined roles) và sử dụng cách gán của người
dùng (use custom assignment).
• Windows: màn hình khởi động. Nhìn Look and feel có các lựa
chọn: SPSS standard (SPSS chuẩn), SPSS classic (SPSS cổ
điển), và window. Mở window của SPSS khi khởi động (open
syntax window at startup) và chỉ mở một bộ dữ liệu ở một thời
điểm (open only one dataset at a time).
• Output: đầu ra kết quả. Có hai lựa chọn: không có ký hiệu khoa
học nào cho các số nhỏ trong các bảng biểu (no scientific
notation for small numbers in tables) và áp dụng các định dạng
nhóm ký tự của người sử dụng vào giá trị số (apply locale‘s
24
digit grouping format to numeric values). Hệ thống đo lường
(measurement system) có inch, centimet và điểm (points).
Language: ngôn ngữ, nên chọn tiếng Anh. Thông báo
(notification): xuất hiện trên cửa sổ đang xem (raise viewer
window) và xếp thành đầu ra mới (scroll to new output).
• Character encoding for data and syntax: mã hóa ký tự cho dữ
liệu và cú pháp. Hệ thống viết của người sử dụng (locale’s
writting system) và mã hóa có sẵn (unicode).
• User interface: giao diện người dùng. Ngôn ngữ: chọn English.
- Thẻ Viewer:

• Initial output state: trạng thái đầu ra ban đầu. Các mục (item)
gồm phân khúc (log), cảnh báo (warnings), ghi chú (notes), tiêu
đề (title), trang tiêu đề (title page), bảng trụ (pivot table), biểu
đồ (chart), đầu ra chữ (text output), mô hình cây (model model),
và mô hình người dùng (model viewer). Nội dung được hiển
thị ban đầu (shown) và ẩn đi (hidden). Canh chỉnh
(justification) có trái, giữa và phải.

25
• Title: tiêu đề. Font chữ và kích thước (size). Nên chọn Arial
hoặc Times New Roman.
• Page title: tiêu đề trang. Font chữ và kích thước (size). Nên
chọn Arial hoặc Times New Roman.
• Text output: đầu ra chữ. Font chữ và kích thước (size). Nên
chọn Arial hoặc Times New Roman.
- Thẻ Data:

• Transformation and merge options: lựa chọn nhập và chuyển


đổi. Có hai lựa chọn: tính toán các giá trị ngay lập tức (calculate
values immediately) và tính toán các giá trị trước khi dùng
(calculate values before used).
• Display format for new numeric values: hiển thị định dạng cho
các giá trị số mới. Bề rộng (width) và số chữ số thập phân
(decimal places).
• Random number generator: Phát số ngẫu nhiên. Có hai lựa
chọn: phù hợp với SPSS 12 và sau đó (compatible with SPSS

26
12 and earlier) và thuật toán Mersenne Twister chu kỳ dài (long
period Mersenne Twister).
• Set century range for 2-digit years: cài đặt khoảng thập kỷ cho
các năm 2 chữ số. Automatic từ 1950 đến 2049, và tự chỉnh
(custom).
• Customize variable view: tùy chỉnh hiển thị đặc điểm biến.

• Change dictionary: thay đổi từ điển.


• Asignning measurement level: cài đặt mức độ đo lường. Nên
chọn cut-off number (số giới hạn trong thang đo lường) tối đa
là 24.
• Rounding and truncation of numeric values: làm tròn và cắt các
giá trị số. Nên chọn làm tròn đến 6 chữ số (number of fuzz bits
used in RND and TRUNC).
- Thẻ Currency:

27
• Custom output format: định dạng đầu ra tùy chỉnh.
• Sample output: đầu ra mẫu. Positive value: số dương, negative
value: số âm.
• All values: dất cả các giá trị. Prefix: tiếp tiền tố, suffix: tiếp vị
tố. Được sử dụng khi có yêu cầu mã hóa.
• Negative values: diá trị âm. Prefix: tiếp tiền tố, suffix: tiếp vị
tố. Được sử dụng khi có yêu cầu mã hóa.
• Decimal separator: dấu chia cách thập phân. Period: dấu chấm,
comma: dấu phẩy. Theo thông lệ quốc tế nên sử dụng dấu chấm
cho các con số có thập phân.
- Thẻ Output Labels:

28
• Outline labeling: đặt nhãn khung sườn (điểm chính). Chỉ nên
chọn loại label.
• Pivot table labeling: đặt nhãn bảng trụ. Chỉ nên chọn loại label.
Khi sổ xuống chọn, cả hai loại nhãn trên đều có thể đặt giá trị biến
theo ba cách: tên, nhãn, và kết hợp tên với nhãn như hình bên dưới:

29
- Thẻ Chart:

• Chart template: biểu đồ mẫu có sẵn với sử dụng cài đặt hiện
hành (use current settings) và sử dụng tệp biểu đồ riêng (use
chart template file). Chart aspect ratio: tỷ lệ các khía cạnh biểu
đồ nên chọn là 1.0.
• Current settings: cài đặt hiện hành. Cỡ chữ (font) nên chọn
Arial, kiểu ưa thích (style cycle preference) nên chọn cycle
through colors only.
• Frame: khung sườn. Outer: bên ngoài. Inner: bên trong.
• Grid lines: đường lưới. Scale axis: trục thang đo định lượng.
Category axis: trục thang đo định tính.
• Style cycles: kiểu định dạng. Colors (màu), Lines (đường nét),
Markers (điểm dấu), Fills (điền vào).

30
- Thẻ Pivot Tables:

• TableLook: dạng nhìn của bảng. Nên chọn system default. Việc
canh chỉnh thêm (nếu có) sẽ thực hiện sau khi phân tích kết quả.
Ngoài ra, SPSS còn cho chúng ta sử dụng một dạng nhìn khác
bằng cách chọn Browse và cài đặt đường dẫn đến dạng nhìn
này (set TableLook directory).
• Sample: mẫu hiển thị. Vùng này cho chúng ta nhìn trước dạng
nhìn của bảng.
• Column width: bề rộng cột. Nên chọn "adjust for labels and
data for all tables" (điều chỉnh các nhãn và dữ liệu cho tất cả
các bảng). Không chọn "adjust for labels only" (điều chỉnh chỉ
các nhãn).
• Display blocks of rows: hiển thị các cụm dòng.
• Table rendering: Kết xuất thành các bảng bắt buộc về sau.
Không nên chọn vì sau này chúng ta sẽ khó điều chỉnh thông
tin của ô bảng. Nếu chọn, lựa chọn "adjust for labels and data
except for extremely large tables" và "display the table as
blocks of row" sẽ sáng lên. Khi đó, sẽ chọn hai lựa chọn này.

31
Tuy nhiên, số lượng dòng thể hiện (rows to display), số ô tối đa
(maximum cells), và cách dòng giữa hai bảng (window/orphan
tolerance) sẽ do người dùng tự thiết lập.
• Default editing mode: dạng điều chỉnh mặc định. Nên chọn
theo mặc định của máy là Edit all tables in viewer (được phép
điều chỉnh tất cả các bảng).
• Copying wide tables to the clipboard in rich text format: sao
chép nhiều bảng vào thẻ nhớ tạm cho nhiều định dạng chữ. Nên
chọn Wrap table (xuống dòng trong ô bảng).
- Thẻ File Locations:

Đây là các thẻ nói về nơi lưu trữ file. Nên để theo mặc định, trường
hợp muốn lưu vào thư mục chủ ý của mình, chọn đường dẫn đến bằng
cách bấm browse.
• Startup folders for open and save dialogs: thư mục khởi động
cho nhật ký mở và lưu file.
• Session Journal: tạp chí phục vụ của việc phân tích kết quả.

32
- Thẻ Scripts:

Phần này chúng ta nên để máy tự chạy theo kịch bản. Trường hợp
muốn chạy theo kịch bản (trình tự phân tích) khác, cần phải viết lại
chương trình cấu trúc bên trong. Không khuyến khích làm điều này vì
không cần thiết.
- Thẻ Multiple Imputations:

33
• Marking of imputed data: đánh dấu dữ liệu bị cắt đi/chỉnh sửa.
Cell background color: màu nền của ô. Font: cỡ chữ.
• Analysis output: Đầu ra phân tích nên chọn Results for both
observed and imputed data (kết quả cho cả dữ liệu quan sát và
bị cắt đi). Nên chọn thêm pooled results (kết quả gộp) để thể
hiện kết quả chung của cả hai dữ liệu này.
- Thẻ Syntax Editor: điều chỉnh cú pháp. Phần này nên để theo mặc
định của chương trình.

• Syntax color coding: mã hóa màu cú pháp.


• Auto-complete setting: cài đặt chế độ tự báo hoàn thành.
• Gutter: khoảng trống giữa hai trang (hoặc hai cột) liền kề trong
cùng một bảng.
• Error color coding: mã hóa màu của các lỗi.
• Panes: khung hiển thị.
1.5. Tóm tắt chương
Chương này đã trình bày các nội dung về: giới thiệu tổng quan về thống
kê thông qua một vài ví dụ; giới thiệu phần mềm SPSS; cách khai báo biến
và nhập liệu trong SPSS; và cách thay đổi các mặc định ban đầu trong
SPSS. Người học cần nắm rõ bản chất của thống kê. Còn việc cài đặt lại
giao diện của SPSS hay không phụ thuộc vào sở thích cá nhân và yêu cầu
trình bày phân tích.

34
CHƯƠNG 2:
THU THẬP VÀ XỬ LÝ SỐ LIỆU

Chương này giới thiệu cho người đọc cách thức thu thập số liệu, các
loại thang đo phổ biến, và xử lý số liệu trước khi đưa vào phân tích. Trong
thống kê, số liệu là cốt lõi để người nghiên cứu có kết quả hoặc kết luận.
Dữ liệu chỉ phù hợp khi nó đáp ứng được cho vấn đề nghiên cứu và được
thu thập đúng cách.

2.1. Dữ liệu là gì?


Dữ liệu thu thập ban đầu là các số liệu thô (raw data). Dữ liệu được
thu thập dựa theo nhiều cách khác nhau: bảng câu hỏi (questionnaire), bảng
lấy mẫu (sampling sheet), hồ sơ, tài liệu, mô phỏng, thí nghiệm... Nếu chỉ
xem xét ở dữ liệu thô, chúng ta chưa thể rút ra được kết luận gì cho vấn đề
nghiên cứu vì tính đa dạng và phức tạp của chúng. Nhờ phân tích dữ liệu,
chúng ta tìm ra các kết luận và đề xuất các giải pháp phù hợp cho vấn đề
nghiên cứu. Có hai hướng khi phân tích dữ liệu: đảm bảo độ chính xác
(hay mức ý nghĩa) của phân tích thống kê, và khả năng được áp dụng để
giải quyết vấn đề trong thực tiễn. Thông thường, nếu muốn độ chính xác
cao của mô hình thống kê thì khả năng áp dụng trong thực tiễn thấp, và
ngược lại. Từ đó, người nghiên cứu cần cân nhắc lựa chọn mức độ cho phù
hợp với mục tiêu đã đặt ra (xem Hình 2.1).

Cao Tri Cao


thức

Vừa Sự kiện Vừa


Thấp Thấp
Thông tin

Hình 2.1. Hai chiều hướng phân tích thống kê (hiệu chỉnh từ [4])
Để dữ liệu biến thành tri thức, chúng phải đi qua các bước thông tin
và kết luận. Thông tin là những điều mà người khác có thể dễ dàng nhìn ra
từ tổng hợp số liệu. Ở mức thông tin, người nghiên cứu cũng có thể đưa ra
các kết luận nhưng ở mức tin cậy thấp vì nó còn lệ thuộc vào nhận thức
chủ quan hoặc dữ liệu thu thập bị sai hoặc không phù hợp. Sự kiện là thông
tin khi thông tin này có hỗ trợ cho người nghiên cứu đưa ra quyết định. Ở
35
mức sự kiện, người nghiên cứu đưa ra kết luận ở mức tin cậy vừa vì lúc
này chưa có sự kiểm chứng. Tri thức là sự kiện khi những kết luận này là
hoàn hảo để ra quyết định và quyết định này có khả năng áp dụng thành
công rất cao. Ở mức tri thức, người nghiên cứu đưa ra kết luận ở mức tin
cậy cao vì lúc này có sự kiểm nghiệm hoặc đối chiếu với thực tiễn. Bởi
vậy, ngay từ đầu người nghiên cứu cần đặt ra mục tiêu và mức ý nghĩa phù
hợp. Đó là lý do vì sao chúng ta cần phải phân tích dữ liệu thống kê.
Một vấn đề khác về dữ liệu nữa đó là nó cần phải được thu thập có
chứng cứ và có hệ thống. Có chứng cứ nghĩa là dữ liệu được thu thập bằng
công cụ thích hợp và được lưu trữ rõ ràng. Có hệ thống có thể hiểu là việc
thu thập phải trả qua nhiều bước kiểm tra, ghi nhận và xác thực. Việc thu
thập dữ liệu phải đảm bảo ba yếu tố: xác suất, ngẫu nhiên và độc lập. Tuy
nhiên, dữ liệu có thể không đảm bảo một trong ba yếu tố này vì tính đặc
trưng của vấn đề nghiên cứu. Ngoài ra, để thu thập được dữ liệu cần phải
định nghĩa biến trước, sau đó xác định đúng đơn vị tính, và cuối cùng là
sử dụng thang đo phù hợp. Nếu các biến có liên hệ với nhau, dữ liệu cần
đảm bảo tính tương thích ngay từ đầu. Đối với những biến này, chúng ta
cần phải rất thận trọng khi thu thập số liệu.
2.2. Phân loại dữ liệu
Trong thống kê, dữ liệu được phân ra thành hai loại gồm dữ liệu định
tính (categorical data) và dữ liệu định lượng (quantitative data). Không có
dữ liệu thì không có thống kê. Nhờ có thống kê, dữ liệu mới chuyển tải
thành kết luận hay tri thức.
Dữ liệu định tính: là loại dữ liệu phản ánh bản chất và đặc điểm của
đối tượng nghiên cứu. Ví dụ: giả sử màu sắc xe ô tô trên thị trường gồm
có trắng, xanh, đen, đỏ, vàng và nâu. Lưu ý rằng, đối với dữ liệu định tính
không lấy được trị trung bình vì kết quả không có ý nghĩa. Cũng ví dụ trên,
giả sử quan sát trong garage có 20 chiếc xe màu trắng và 10 chiếc xe màu
đen. Như vậy, nếu lấy trung bình số xe trong garage là 15 xe. Tuy nhiên,
chúng ta không rõ màu của xe là gì. Mặc dù, theo lý thuyết màu sắc, màu
đen pha với màu trắng có thể ra màu xám trung tính nhưng trên thị trường
không có màu này. Đó là điều vô lý.
Dữ liệu định lượng: là loại dữ liệu phản ánh mức độ hay sự hơn kém
nhau cho đối tượng nghiên cứu. Dữ liệu này được thể hiện bằng con số cụ
thể dưới dạng liên tục hay rời rạc. Ví dụ: dữ liệu nhiệt độ trong ngày ở
TPHCM vào sẽ dao động từ 25-350C là một tập dữ liệu dạng liên tục. Cụ
thể, nhiệt độ sẽ thấp vào buổi sáng sớm nhưng sau đó sẽ tăng dần cho đến
trưa và sẽ giảm dần vào chiều tối. Một ví dụ khác: dữ liệu về số lượng sinh
viên của một trường đại học như sau năm 1 có 2000 sinh viên, năm 2 có

36
3800 sinh viên, năm 3 có 4200, và năm 4 có 2600 sinh viên. Đây là một
tập dữ liệu dạng rời rạc bởi số lượng sinh viên năm 1 sau khi hoàn thành
các nội dung học của năm 1 thì sẽ sang năm 2. Sở dĩ rời rạc là vì chúng ta
không thể trộn sinh viên năm 1 và năm 2 lẫn nhau. Tương tự sinh viên các
năm khác cũng vậy. Lưu ý, chúng ta lấy được trị trung bình của biến định
lượng. Ở ví dụ trên về nhiệt độ trong ngày, do nhiệt độ có sự tăng giảm
liên tục từ sáng cho đến tối nên chúng ta có thể đưa ra kết luận nhiệt độ
trung bình trong ngày hôm đó là bao nhiêu.
2.3. Các loại thang đo
Thang đo là một công cụ rất quan trọng dùng để đánh giá đặc điểm,
tình trạng hay mức độ của yếu tố (hay biến) được tìm hiểu. Nó phải phản
ánh được đặc trung của đối tượng nghiên cứu. Thông thường, người ta
thường phải mã hóa hay quy ước giá trị cho thang đo vì mỗi yếu tố có nội
dung và mức độ khác nhau. Đối với dữ liệu lấy theo khảo sát, có bốn loại
thang đo cơ bản được thể hiện như Hình 2.2.
Dữ liệu

Dữ liệu định tính Dữ liệu định lượng

Thang Thang Thang đo Thang đo


đo danh đo thứ khoảng tỷ lệ
nghĩa bậc cách

Hình 2.2. Phân loại dữ liệu (hiệu chỉnh từ [4])


Trong ngành QLXD, thang đo danh nghĩa thường được sử dụng để
điều tra các thông tin cá nhân của đối tượng khảo sát, và các thang đo còn
lại gồm thang đo thứ bậc, thang đo khoảng cách và thang đo tỷ lệ thường
áp dụng để thu thập số liệu cho các biến nghiên cứu. Trong đó, thang đo
khoảng cách là loại cực kỳ phổ biến.
2.3.1.Thang đo danh nghĩa
Thang đo danh nghĩa (norminal scale) còn có tên khác là thang đo định
danh hay thang đo phân loại. Trong thang đo này, các con số (hay ký tự)
chỉ dùng để phân loại các đối tượng khảo sát, chứ chúng không mang ý
nghĩa nào khác.
Ví dụ: Quy ước ký tự a, b, c hoặc d trong thang đo định danh để hỏi về
vị trí công việc của các kỹ sư tại các công trình xây dựng:

37
a. Kỹ sư hiện trường
b. Kỹ sư QA/QC
c. Kỹ sư QS
d. Kỹ sư an toàn
Chúng ta có thể hoán đổi các ký tự và các vị trí việc làm cho nhau mà
không ảnh hưởng gì đến sự trả lời của đối tượng được khảo sát. Ví dụ, "a.
Kỹ sư QA/QC" thay vì ban đầu "a. Kỹ sư hiện trường".
Do dữ liệu có tính phân loại nên những phép toán thống kê chúng ta có
thể sử dụng được gồm: đếm (count), tính tần suất (frequency), tính phần
trăm (percent), tính chênh lệch (deviation), xác định đỉnh điểm (mode), và
thực hiện một số phép kiểm định thống kê.
2.3.2.Thang đo thứ bậc
Thang đo thứ bậc (ordinal scale) cũng là một loại thang đo định danh.
Việc phân loại các đặc điểm nên sử dụng các ký hiệu (có thể bằng chữ
hoặc con số). Tuy nhiên, lúc này các ký hiệu được sắp xếp theo một quy
ước nào đó về thứ bậc nhất định thể hiện sự hơn kém nhau. Thang đo này
được sử dụng khi chúng ta không biết được khoảng cách giữa các thứ bậc
cụ thể là bao nhiêu. Khuyến khích dùng chữ để tránh gây nhầm lẫn cho
người được khảo sát.
Ví dụ: Kỹ sư xây dựng hài lòng như thế nào về chính sách phúc lợi của
công ty mình đang làm? Thang đo được sử dụng là: a = không hài lòng, b
= bình thường, và c = hài lòng. Nếu một đối tượng khảo sát chọn b sẽ có
mức độ hài lòng hơn một đối tượng khác chọn a và thấp hơn người chọn
c; tuy nhiên chúng ta không biết được người đó hài lòng gấp mấy lần so
với người chọn a và c. Còn nếu trong trường hợp này việc mã hóa bằng số
như sau: 1 = không hài lòng, 2 = bình thường, và 3 = hài lòng, rất dễ gây
nhầm lẫn vì sẽ hiểu người chọn số 2 sẽ có ý nghĩa gấp 2 lần người chọn số
1, hoặc người chọn số 3 gấp 3 lần người chọn số 1, hoặc người chọn số 3
gấp 1.5 lần người chọn số 2. Lúc này, nó là thang đo khoảng cách.
Bên cạnh các phép toán như dữ liệu định danh, dữ liệu thứ bậc còn
được xem xét thêm khuynh hướng trung tâm (central) thông qua số trung
vị (quartiles), số đỉnh điểm (mode), và độ phân tán (range) thông qua các
khoảng tứ trung vị (interquartile range).
2.3.3.Thang đo khoảng cách
Thang đo khoảng cách (interval scale) cũng là một dạng đặc biệt của
thang đo thứ bậc vì nó cho biết được khoảng cách của các thứ bậc như
trình bày ở ví dụ trên. Thông thường thang đo khoảng cách gồm một dãy
38
các chữ số liên tục hoặc đều đặn. Lời khuyên, chúng ta nên định nghĩa giá
trị của chữ số càng rõ ràng thì người được khảo sát càng dễ chọn. Khi dãy
số này có hai cực thể hiện hai trạng thái đối nghịch nhau, lúc đó gọi là
thang đo cân bằng.
Ví dụ: Mức độ ảnh hưởng của từng nhân tố gây ra phát sinh khối lượng
trong các dự án xây dựng theo thang đo bên dưới:

1 = Không
2 = Ít
3 = Trung bình
4 = Nhiều
5 = Rất nhiều
Giả sử kết quả có một người trả lời khảo sát như Bảng sau:
Mức độ ảnh hưởng đến
Tên các nhân tố tác động phát sinh khối lượng
1 2 3 4 5
Thay đổi thiết kế X
Điều kiện địa chất phức tạp X
Tính toán thiếu hạng mục công trình X
Làm thêm hoặc thay đổi kế hoạch dự án X
Tư lợi của các bên tham gia để làm phát sinh X
chi phí cho dự án
Thay đổi chính sách pháp luật Nhà nước X
Biện pháp thi công phức tạp X
Thay đổi giá nguyên vật liệu, giá ca máy, thiết X
bị
Nguồn vật liệu không ổn định X

Như vậy, khoảng cách giữa các mức chênh lệch đều nhau là 1. Điển
hình, đối với nhân tố "Thay đổi thiết kế" người được khảo sát chọn số
4, tức là ảnh hưởng nhiều theo quan điểm của người đó. Tuy nhiên, mỗi
người lại có một quan điểm và nhìn nhận riêng về vấn đề phát sinh khối
lượng. Ví dụ, có người nghĩ phát sinh khối lượng 1% là nhiều nhưng
cũng có người nghĩ phát sinh 1% là ít. Tương tự cho các nhân tố còn
lại. Do đó, thang đo được định nghĩa càng rõ ràng thì càng tốt cho việc
phân tích sau này.

39
Các phép toán thống kê thêm có thể sử dụng cho dữ liệu khoảng cách
gồm: tính khoảng cách biến thiên (interval values), giá trị trung bình (mean
value), phương sai (variance), độ lệch chuẩn (standard deviation) và một
vài phép kiểm định thống kê khác. Lưu ý, không sử dụng phép chia giữa
các con số quy ước do không có con số chuẩn, điều này dẫn đến kết quả
vô nghĩa. Chỉ có thể chia tần suất giữa các con số để lấy phần trăm trong
tổng thể số lượng mẫu thu thập.
2.3.4. Thang đo tỷ lệ
Thang đo tỷ lệ (ratio scale) là loại thang đo có tất cả các đặc tính của
thang đo khoảng cách và thang đo thứ bậc. Do số liệu được lấy dưới dạng
tỷ lệ thành một số cụ thể nên sẽ có một số chuẩn ở mẫu số. Số chuẩn này
là một trị số có thật nên chúng ta có thể thực hiện được phép chia với mục
đích so sánh mức độ với nhau.
Ví dụ: Số năm kinh nghiệm của kỹ sư xây dựng?
Cứ sau 1 năm làm việc thì kỹ sư xây dựng lại thêm 1 năm kinh nghiệm.
Do đó, người có kinh nghiệm 10 năm sẽ lớn gấp đôi so với người có kinh
nghiệm 5 năm, hoặc nói ngược lại, người có kinh nghiệm 5 năm sẽ bằng
một nửa người có kinh nghiệm 10 năm. Từ đây, dữ liệu thu thập được từ
người khảo sát hoàn toàn tính được tỷ lệ.
Các dữ liệu thu thập bằng thang đo khoảng cách và thang đo tỷ lệ
thường được đo lường xu hướng trung tâm dựa vào bảng tần suất và trị
trung bình. Ngoài ra, chúng còn thường được đo lường phân tán (scatter)
bằng độ lệch chuẩn, phương sai, khoảng và tứ trung vị. Do đặc điểm phân
tích của biến dựa trên hai loại dữ liệu này như nhau nên SPSS gộp hai
thang đo này thành thang đo mức độ (scale).
2.4. Xác định kích thước mẫu
Để có kết quả phân tích thống kê đáng tin cậy, chúng ta cần phải thu
thập số liệu mẫu có kích thước (sample size) đủ lớn có thể đại diện tốt cho
tổng thể (population). Có 4 yếu tố chính ảnh hưởng đến việc lựa chọn cỡ
mẫu như sau:
- Độ tin cậy (confidence). Tức là mức độ chắc chắn rằng các đặc
điểm của mẫu được chọn sẽ đại diện (hay khái quát) tốt cho tổng
thể;
- Sai số (error). Đó là độ chính xác cho bất kỳ ước lượng nào khi
chúng ta thực hiện các phân tích thống kê trên mẫu;
- Loại kiểm định (test) được sử dụng. Đó là kích thước mẫu yêu cầu
và sự phù hợp của dữ liệu với từng loại thống kê. Ví dụ, đối với

40
kiểm định phi tham số thường yêu cầu kích thước mẫu nhỏ hơn
kiểm định có tham số do không yêu cầu dữ liệu phải tuân theo phân
phối chuẩn. Còn thế nào là kiểm định phi tham số và có tham số sẽ
được trình bày ở các chương sau;
- Kích thước của tổng thể (population size). Tức là, mẫu nghiên cứu
cần phải đạt một tỷ lệ nhất định so với kích thước tổng thể nhằm
đạt được tính đại diện cao nhất.
Tùy theo mức độ yêu cầu của vấn đề nghiên cứu và các ràng buộc về
nguồn lực khi thực hiện nghiên cứu mà chúng ta cần chọn độ tin cậy, sai
số và loại kiểm định phù hợp. Có hai trường hợp khi thu thập số liệu đó là:
khi biết kích cỡ tổng thể và khi không biết kích cỡ tổng thể. Công thức xác
định kích thước mẫu (n) như sau [5, 6]:
- Đối với trường hợp không biết kích thước của tổng thể:
p  (1 − p)
n = Z2 
e2
Trong đó,
n: kích thước mẫu yêu cầu;
Z: giá trị của phân phối z tương ứng với độ tin cậy yêu cầu. Đối
với các nghiên cứu ứng dụng, độ tin cậy yêu cầu thông thường là
95%, từ đó tra bảng có Z = 1.96;
p: tỷ lệ cỡ mẫu so với tổng thể. Để tích số p(1-p) có giá trị lớn nhất,
tức số lượng mẫu nhiều nhất, chúng ta nên chọn p = 0.5. Tùy trường
hợp nghiên cứu, chúng ta có thể chọn giá trị p nhỏ hơn;
e: sai số cho phép của ước lượng. Để việc ước lượng đạt độ chính
xác và các kết quả phân tích đạt độ tin cậy, chúng ta cần chọn trước
mức sai số. Thông thường có 3 mức sau: ±1%, ±5% và ±10%.
Trong các mức sai số này, mức ±5% là chấp nhận hầu hết trong các
phân tích thống kê của ngành quản lý xây dựng.
Ví dụ: Chúng ta đang nghiên cứu về các đặc điểm của công nhân xây
dựng tại Thành phố Hồ Chí Minh. Rõ ràng chúng ta không biết hiện tại số
lượng chính xác công nhân làm ngành xây dựng là bao nhiêu vì một số lý
do như công nhân thay đổi nghề nghiệp liên tục, công nhân không đăng ký
nghề nghiệp, chức danh nghề nghiệp (bậc thợ) không được đào tạo rõ
ràng... Như vậy, với mức tin cậy thông thường 95%, tỷ lệ mẫu tối đa và sai
số 5%, số lượng mẫu tối thiểu là 384 người:

41
0.5  (1 − 0.5)
n = 1.962  = 384.2
0.052
- Đối với trường hợp biết kích thước của tổng thể:
N
n=
1 + N  e2
Trong đó,
n: kích thước mẫu yêu cầu;
N: kích thước tổng thể;
e: sai số cho phép của ước lượng.
Ví dụ: Cũng vấn đề trên, nếu đối tượng nghiên cứu của chúng ta bây
giờ là công nhân hiện đang làm việc tại công ty xây dựng ABC nào đó.
Đương nhiên chúng ta biết chính xác tổng số lượng hiện tại do chúng ta đã
ký hợp đồng với từng công nhân hoặc với tổ đội, hoặc chúng ta có thể hỏi
ban chỉ huy các công trường đang thi công. Chẳng hạn, phòng nhân sự của
công ty tổng hợp được hiện có 1000 công nhân đang làm. Với mức sai số
5%, cỡ mẫu tối thiểu là 286 người.
1000
n= = 285.7
1 + 1000  0.052
Trong phân tích thống kê ứng dụng, mẫu được gọi là có tính đại diện
cho quần thể khi: (1) kích thước mẫu bằng 10% kích thước của quần thể;
và (2) phương thức lấy mẫu là ngẫu nhiên và độc lập. Tuy nhiên, trong
thực tế nhiều đối tượng chúng ta không thể xác định được tổng số lượng
quần thể do những khó khăn nhất định. Hơn nữa, người nghiên cứu có xu
hướng lấy mẫu thuận tiện hay còn gọi lấy mẫu phi xác suất (non-
probability sampling). Chính vì vậy, kích thước mẫu thường lấy càng nhiều
càng tốt.
2.5. Nguyên tắc mã hóa và nhập liệu
Dữ liệu thu thập của biến thường dài dòng và phức tạp. Có khi là số,
cũng có khi là chữ, thậm chí là những ký tự. SPSS chỉ hiểu dữ liệu ở một
vài định dạng nhất định. Do đó, chúng ta cần mã hóa số liệu trước hoặc
trong khi nhập số liệu vào SPSS. Mục đích của mã hóa giúp chúng ta dễ
lưu trữ và trích xuất dễ dàng. Ngoài ra, mã hóa giúp người đọc dễ hình
dung số liệu và kết quả phân tích. Lời khuyên ở giai đoạn này, chúng ta
nên nhập và lưu số liệu thô ở Excel, cần xử lý số liệu thô trước khi nhập
vào SPSS.

42
- Một số nguyên tắc khi mã hóa dữ liệu:
• Nên dùng số thay cho chữ. Ví dụ: đỏ = 1, đen = 2.
• Gán nhãn tên cho dữ liệu (label) để dễ hiểu vì nhiều tên biến
dài dòng, khó hiểu cho người đọc. Ví dụ: tên biến đặt
"NSLD", ở label diễn giải "năng suất lao động".
• Để dễ theo dõi, truy xuất và kiểm chứng sai sót nên nhập dữ
liệu theo trình tự tương ứng giữa bảng nhập liệu ở Excel và
SPSS và số thứ tự của bảng câu hỏi. Ví dụ: nếu bảng câu hỏi
được đánh số thứ tự là 4 thì hàng 4 tương ứng trong Excel và
SPSS là nơi nhập số liệu cho bảng câu hỏi.
• Việc mã hóa cần đảm bảo tính duy nhất để tránh lẫn lộn khi
phân tích và trích xuất kết quả. Ví dụ: biến "giới tính" đã mã
hóa là GT thì biến "giao thông" không nên mã hóa là GT.
Hoặc, trong cùng một biến "màu sắc", nếu mã hóa 1 = đỏ thì
không được mã hóa 1 = đen, 2 = xanh. Nếu làm như vậy,
chương trình sẽ hiểu giá trị 1 là cho cả màu đỏ và đen.
• Đối với biến định lượng, không cần mã hóa giá trị, tuy nhiên
cần đặt tên và label cho ngắn gọn, rõ ràng.
- Một số lưu ý khi nhập số liệu vào SPSS:
• Mỗi biến cần nhập số liệu chỉ ở một cột.
• Mỗi hàng là mỗi bộ số liệu cho tất cả các biến.
• Đối với dữ liệu có nhiều đáp án (câu trả lời), chúng ta nên tạo
nhiều ô cho một cột rồi lần lượt nhập tương ứng các đáp án
đó vào mỗi ô.
• Đảm bảo theo nguyên tắc: mỗi dòng nhập từ trái qua phải cho
tất cả các cột (các biến), từ trên xuống dưới (lần lượt mỗi
bảng câu hỏi).
2.6. Những điều bất thường của số liệu và giải pháp phòng ngừa
2.6.1. Những điều bất thường của số liệu
Sau khi nhập số liệu vào Excel hoặc SPSS, chúng ta chưa thể đưa vào
phân tích ngay vì dữ liệu có thể có những sai sót. Nếu dữ liệu có những sai
sót, chúng ta vẫn đưa vào phân tích, chắc chắn kết quả phân tích sẽ không
còn đúng bản chất. Do đó, chúng ta bắt buộc phải kiểm tra và hiệu chỉnh
những sai sót này trước.
Những sai sót có thể bắt nguồn từ một trong số các lý do sau:
43
- Do người được khảo sát hiểu sai câu hỏi dẫn đến trả lời sai.
Ví dụ: Vấn đề nghiên cứu là các sai sót khi nghiệm thu giai đoạn
của dự án đầu tư xây dựng, có câu hỏi khảo sát như sau:

Câu hỏi này không rõ ràng vì có thể đối tượng khảo sát có kinh
nghiệm ở nhiều dự án, dẫn đến họ không biết chọn đáp án nào và từ
đó sẽ chọn đại một đáp án theo suy nghĩ riêng. Câu hỏi đúng phải
hỏi là dự án có quy mô lớn nhất mà anh/chị đã tham gia.
- Do người khảo sát đi thu thập dữ liệu bị sai so với mục đích
nghiên cứu.
Ví dụ: Mục đích chính của nghiên cứu là đánh giá mức độ chậm
trễ giải phóng mặt bằng của các dự án đầu tư xây dựng nhưng người
nghiên cứu lại tập trung đi điều tra nguyên nhân gây ra chậm trễ.
- Do chọn nhóm đối tượng khảo sát không phù hợp với nội dung
nghiên cứu.
Ví dụ: Chúng ta đang nghiên cứu điều tra về năng suất đổ bê
tông của dự án xây dựng nhưng đối tượng khảo sát phần lớn là các
nhân viên thiết kế thì kết quả phân tích từ số liệu sẽ không tin cậy
vì nhân viên thiết kế không trực tiếp giám sát thi công nên không
thể nhìn nhận các vấn đề liên quan đến việc đổ bê tông tốt bằng kỹ
sư nhà thầu.
- Do có sự ghi chép nhầm của người đi khảo sát.
Ví dụ: Từ tài liệu hồ sơ của dự án thể hiện rằng chi phí của việc
mua cát xây dựng ở dự án A là 280,000 đồng/m3 nhưng người khảo
sát lại ghi nhầm là 230000 đồng/m3, còn ở dự án B thì ghi đúng là
290,000 đồng/m3. Như vậy, nếu tính trung bình, số đúng sẽ là
285,000 đồng/m3, chứ không phải là 260,000 đồng/m3.
- Do số liệu được trả lời bởi đối tượng khảo sát không chú tâm,
trả lời qua loa.
Ví dụ: Có đối tượng khảo sát trả lời các câu hỏi trong bảng
bên dưới với các lựa chọn đa số ở mức 5 cho 5 câu đầu tiên và
mức 4 cho 5 câu cuối. Riêng câu 5 chọn cả 2 mức 4 và 5. Như
44
vậy, kết quả khảo sát này có thể không tin cậy do người được
khảo sát chọn qua loa. Biểu hiện của sự qua loa này nằm rất rõ ở
câu 5 vì chọn cả 2 mức.
Mức độ ảnh hưởng đến
Tên các nhân tố tác động phát sinh khối lượng
1 2 3 4 5
Thay đổi thiết kế X
Điều kiện địa chất phức tạp X
Tính toán thiếu hạng mục công trình X
Làm thêm hoặc thay đổi kế hoạch dự án X
Tư lợi của các bên tham gia để làm phát sinh X X
chi phí cho dự án
Thay đổi chính sách pháp luật Nhà nước X
Biện pháp thi công phức tạp X
Thay đổi giá nguyên vật liệu, giá ca máy, X
thiết bị
Nguồn vật liệu không ổn định X

- Do người khảo sát nhập liệu bị sai mặc dù đối tượng được khảo
sát trả lời đúng.
Ví dụ: Sau khi nhập xong thống kê số lượng 500 kỹ sư xây dựng
gồm nam (= 1) và nữ (=2) có bảng sau:
Frequency Percent Valid Cumulative
Percent Percent
Valid Nam 248 49.6 49.6 49.6
Nữ 251 50.2 50.2 99.8
12 1 .2 .2 100.0
Total 500 100 100
Nhìn Bảng trên chúng ta có thể thấy có một dòng lạ "12" (frequency =
1), vậy dòng này là gì? Câu trả lời là do chúng ta đã nhập sai. Còn sai ở bộ
số liệu nào, chúng ta quay lại bảng nhập liệu từ đầu để rà soát, và chỉnh
sửa lại số liệu cho đúng.
2.6.2. Giải pháp phòng ngừa sai sót
Để hạn chế các sai sót, chúng ta thường phải áp dụng các giải pháp
ngăn ngừa trước và sau khi thu thập số liệu, và trong khi nhập số liệu vào
bảng. Cụ thể:

45
- Ở giai đoạn thiết kế bảng câu hỏi: chúng ta cần thiết kế nó rõ
ràng, sau đó kiểm tra sự phù hợp giữa các câu hỏi và mục tiêu
nghiên cứu.
- Sau khi thiết kế bảng câu hỏi xong: chúng ta nên thực hiện khảo
sát thử (pilot test) trên một vài đối tượng (khuyến khích từ 3-5
đối tượng). Những đối tượng này nên là những người có chuyên
môn và vị trí công việc cao, có sự am hiểu về vấn đề nghiên cứu.
Chúng ta có thể định nghĩa những người này là chuyên gia trong
nghiên cứu. Họ sẽ trực tiếp trả lời bảng câu hỏi và cho các ý kiến
nhận xét liên quan đến nội dung từng câu hỏi và hình thức trình
bày. Nếu có, chúng ta cần điều chỉnh lại bảng câu hỏi trước khi
tiến hành khảo sát đại trà (massive survey).
- Ở giai đoạn nhập liệu: chúng ta cần loại trừ các bảng câu hỏi
bất thường. Ví dụ, bảng câu hỏi mà người trả lời chỉ đánh cùng
1 giá trị, hoặc giá trị đó không phù hợp với thực tiễn. Để đảm
bảo tính khoa học cho việc bỏ này, chúng ta có thể sử dụng ý
kiến của các chuyên gia ở bước khảo sát thử. Một ví dụ nữa là
bảng câu hỏi bị điền thiếu thông tin. Về nguyên tắc, chúng ta
vẫn có thể sử dụng dữ liệu ở những câu điền đủ thông tin, còn
câu điền khuyết chúng ta khai báo "missing" như đã trình bày
ở phần trước. Tuy nhiên, nếu số bộ dữ liệu của chúng ta nhiều,
lời khuyên là chúng ta nên bỏ bảng câu hỏi bị điền khuyết này
đi. Việc bỏ này giúp chúng ta khỏi mất công giải thích về sự
khác biệt của kết quả phân tích.
- Ở giai đoạn phân tích: chúng ta cần mã hóa biến rõ ràng, đánh số
thứ tự, và tiến hành các cách làm sạch sơ bộ.
2.6.3. Các phương pháp làm sạch số liệu
2.6.3.1. Sử dụng công cụ tìm kiếm
Khi phân tích dữ liệu, chúng ta phát hiện ra trong bảng kết quả có giá
trị lạ. Để soát xét giá trị lạ này nằm ở đâu trong bảng nhập liệu, chúng ta
có thể sử dụng công cụ tìm kiếm "Find". Từ đó, chúng ta rà soát lại bảng
câu hỏi tương ứng để chỉnh sửa trực tiếp giá trị này.
Để hiểu công cụ Find, chúng ta hãy làm Ví dụ 1.
- Trên cửa sổ Data View, chọn toàn bộ cột biến. Có hai cách chọn:
(1) đưa chuột lên đầu cột, click chuột trái; (2) chọn ô đầu tiên
trong vùng nhập liệu và kéo xuống dòng cuối cùng.
- Vào menu Edit > Find > nhập giá trị 12 vào cột Find > Find Next.

46
- Truy ngược lại số thứ tự của hàng đó (138) là tương ứng với
bảng câu hỏi nào đã thu thập. Từ đó, tiến hành kiểm tra và
chỉnh lý số liệu.
Ưu điểm và nhược điểm:
- Ưu điểm: đơn giản, dễ thực hiện.
- Nhược điểm: thủ công, phát hiện một lỗi trên một lần tìm, chỉ
phù hợp với các bảng câu hỏi đơn giản.
2.6.3.2. Sử dụng công cụ sắp xếp
Trong SPSS, còn có một công cụ khác giúp tìm nhanh giá trị lạ, đó là
công cụ sắp xếp (Sort Cases).
Trình tự thực hiện như sau:
- Chọn cột có giá trị bị nhập lỗi.
- Vào menu Data > Sort Case > Chọn biến Gioitinh bấm nút mũi tên
để đưa biến qua sort by.
- Có hai cách Sort Order: Ascending (tăng dần) và Descending
(giảm dần).
- Nếu muốn lưu luôn lại file sau khi đã sort chọn Save File with
Sorted Data và chọn địa chỉ lưu.

47
- Sau đó bấm OK (với ascending). Kết quả số 12 ở dòng 138 giờ trở
thành dòng 500. Đây chính là giá trị đã nhập sai.

Ưu điểm và nhược điểm:


- Ưu điểm: dễ thực hiện, dễ hiểu.
- Nhược điểm: chỉ thực hiện được cho 1 biến, số thứ tự dòng bị thay
đổi. Điều này sẽ gây khó khăn cho chúng ta khi muốn rà soát lại số
liệu theo số thứ tự ban đầu.

48
2.6.3.3. Loại bỏ luôn số liệu
Trong trường hợp chúng ta phát hiện ra dữ liệu bị sai sót hoặc bất
thường nhưng không thể sửa được do nhiều lý do khác nhau, chẳng hạn
như do không truy xuất được bảng câu hỏi gốc bởi không đánh số hoặc do
đối tượng khảo sát trả lời qua loa, chúng ta có thể phải bỏ bộ số liệu này
đi. Trường hợp phải bỏ đi, chúng ta cần xem xét lại tổng số bộ số liệu còn
lại có còn đảm bảo tính đại diện cho tổng thể hay không. Nếu còn, chúng
ta hãy tiếp tục phân tích. Nếu không, giải pháp lúc này là hãy tiến hành thu
thập thêm số liệu để bù vào, hoặc thực hiện phân tích thống kê khác thay
thế phù hợp, hoặc sử dụng giải pháp phỏng vấn chuyên gia.
2.7. Tóm tắt chương
Chương này đã trình bày các nội dung: khái niệm dữ liệu; phân loại
dữ liệu; các loại thang đo; phương pháp xác định kích thước mẫu; nguyên
tắc mã hóa và nhập liệu để đảm bảo tính chính xác; những điều bất thường
của số liệu và giải pháp phòng ngừa. Trong các nội dung trên, định nghĩa
đúng loại dữ liệu và thu thập đảm bảo số lượng mẫu là hai điều cốt lõi để
đảm bảo sự phù hợp của số liệu. Khi gặp phải sự bất thường của số liệu,
đặc biệt là các số liệu ngoại lệ, cần thêm sự đánh giá của các chuyên gia
trong lĩnh vực nghiên cứu để có sự điều chỉnh phù hợp.

49
CHƯƠNG 3:
PHÂN TÍCH THỐNG KÊ MÔ TẢ

Mục đích của chương này giúp người học có thể hiểu được nội dung
các phân tích và kiểm định cơ bản nhất trong thống kê. Đó là các thống kê
mô tả (Descriptive Statistics). Các kết luận từ thống kê mô tả có được từ
bề nổi của số liệu thông qua các phép toán khá đơn giản. Các phân tích này
chúng ta hoàn toàn có thể làm được trên Excel (trừ công cụ Explore). Do
giáo trình này tập trung chính vào thực hiện phân tích thống kê trên SPSS
nên nhóm tác giả không trình bày chương này với các phân tích bằng
Excel. Các công cụ thống kê mô tả được trình bày bao gồm: Bảng tần suất;
Đại lượng mô tả; Bảng tần số kết hợp với các đại lượng mô tả; Đồ thị, và
Công cụ Explore.

3.1. Bảng tần suất


Bảng tần suất (frequency table) là đếm số lần của tập dữ liệu đang có
cho các đặc điểm thuộc tính của biến. Trong ví dụ trên, tập dữ liệu = 500
người, đặc điểm = nam và nữ, biến = giới tính.
Các bước thực hiện:
B1. Mở menu Analysis > Descriptive Statistics > Frequencies.

50
B2. Chọn biến muốn lập bảng tần suất (trong ví dụ này là gioitinh)
bằng cách nhấp chuột chọn và bấm nút có dấu mũi tên hướng
sang phải.

B3. Nhấp OK.


Diễn giải ý nghĩa của các bảng:

Statistics
Gioitinh
Valid 500
N
Missing 0

• Dòng valid: số quan sát hợp lệ (số phiếu trả lời, số đối tượng
khảo sát).
• Dòng missing: số quan sát thiếu dữ liệu (không trả lời, điền thiếu).

Gioitinh
Frequency Percent Valid Percent Cumulative
Percent
Nam 257 51.4 51.4 51.4
Valid Nữ 243 48.6 48.6 100.0
Total 500 100.0 100.0

• Cột 1: thể hiện các đặc điểm của biến với các giá trị hợp lệ.
• Cột Frequency: số lần của từng biểu hiện được tính bằng cách cộng
đếm lại.

51
• Cột Percent: tần suất thể hiện dưới dạng % bằng cách lấy tần suất
chia cho tổng số quan sát.
• Cột Valid Percent: phần trăm hợp lệ, được tính trên số quan sát có
thông tin trả lời (số liệu) chia cho tổng số quan sát, không xét đến
số quan sát bị điền thiếu. Ví dụ, giới tính "nam" bị điền sai 1 người,
bảng sẽ như sau:
Gioitinh
Frequency Percent Valid Percent Cumulative
Percent
Nam 256 51.2 51.2 51.2
Nữ 243 48.6 48.6 99.8
Valid
12.0 1 .2 .2 100.0
Total 500 100.0 100.0

• Cột Cumulative Percent: phần trăm tích lũy cộng dồn các phần
trăm từ trên xuống dưới. Nó cho chúng ta biết có bao nhiêu phần
trăm đối tượng khảo sát ở mức độ nào đó trở lên.
Từ các bảng trên cho thấy, 100% bộ số liệu là hợp lệ (valid), không có
số liệu nào là missing. Kết quả phân tích tần suất cho thấy tỷ lệ nam và tỷ
lệ nữ trong khảo sát là gần như nhau. Cụ thể, nam có tỷ lệ là 51.4% và nữ
có tỷ lệ là 48.6%.
3.2. Đại lượng mô tả
Nhắc lại, các đại lượng thống kê mô tả chỉ được tính với biến định
lượng, đối với biến định tính sẽ không có ý nghĩa. Theo ví dụ trước, khi
lấy trung bình giới tính của mẫu 500 người là (257*1+243*2)/500 = 1.45.
Vậy giới tính của họ là gì? Điều này vô nghĩa.
Để hiểu các đại lượng mô tả, hãy làm Ví dụ 2. Ở bài thực hành này,
số liệu thu thập theo thang đo 5 điểm cho 3 yếu tố (biến) của đánh giá
hiệu quả dự án đầu tư xây dựng về môi trường – xã hội theo thang đo:
1 = 'không ảnh hưởng' đến 5 = 'ảnh hưởng rất nhiều'. Kết quả thu thập
được 151 bộ số liệu.

STT Nội dung yếu tố
hóa
1 Việc làm mới do dự án mới được tạo ra XA1
2 Cải thiện phúc lợi xã hội XA2
3 Đóng góp về kinh tế của dự án khi thực hiện đầu tư XA3

52
Các bước thực hiện:
B1. Vào menu Analyze > Descriptive Statistics > Descriptives.

B2. Chọn biến từ danh sách và bấm nút mũi tên để chuyển qua.

Save standardized values as variable: lưu giá trị chuẩn hóa như là
biến mới.
B3. Chọn tiếp Options.

53
• Mean: trung bình cộng.
• Sum: tổng cộng (cộng tất cả các giá trị trong tập dữ liệu quan
sát).
• Std. Deviation: độ lệch chuẩn.
• Minimum: giá trị nhỏ nhất.
• Maximum: giá trị lớn nhất.
• SE mean: sai số chuẩn khi ước lượng trị trung bình.
• Variance: phương sai.
• Range: khoảng cách giữa các giá trị.
• Kurtosis: thước đo độ rộng hình chóp của một phân phối. Phân
phối chuẩn có Kurtosis = 3.
• Skewness: thước đo mức độ không đối xứng của một phân phối.
Phân phối chuẩn có Skewness = 0.
• Display order: trình tự thể hiện (variable list: danh sách biến;
alphabetic: sắp xếp theo vần; ascending means: trị trung bình
tăng dần; và descending means: trị trung bình giảm dần).
B4. Bấm continue > OK. Xem kết quả.

54
Descriptive Statistics
N Minimum Maximum Mean Std.
Deviation
Statistic Statistic Statistic Statistic Statistic
XA1 500 1.00 5.00 1.9440 .93948
XA2 151 1.00 5.00 3.1192 .92323
XA3 151 1.00 5.00 3.2384 .81411
Valid N
151
(listwise)

Descriptive Statistics (tiếp theo)


Skewness Kurtosis
Statistic Std. Error Statistic Std. Error
XA1 1.102 .109 1.063 .218
XA2 .275 .197 -.465 .392
XA3 -.090 .197 -.085 .392
Valid N
(listwise)

Nếu muốn chuyển bảng sang dạng cột, làm như sau: nhấp đôi vào
bảng kết quả → chọn Pivot → Transpose Rows and Columns.

Descriptive Statistics
XA1 XA2 XA3 Valid N
(listwise)
N Statistic 151 151 151 151
Minimum Statistic 2.00 1.00 1.00

55
Maximum Statistic 5.00 5.00 5.00
Mean Statistic 2.9801 3.1192 3.2384
Std. Deviation Statistic .89793 .92323 .81411
Statistic .543 .275 -.090
Skewness
Std. Error .197 .197 .197
Statistic -.570 -.465 -.085
Kurtosis
Std. Error .392 .392 .392

Kết quả chính ở Bảng Descriptive Statistics cho thấy các giá trị ảnh
hưởng lớn nhất và giá trị ảnh hưởng nhỏ nhất của biến XA1 lần lượt là 2
và 5. Tương tự, biến XA2 là 1 và 5, còn biến XA3 cũng là 1 và 5. Giá trị
trung bình ảnh hưởng của 3 biến XA1, XA2 và XA3 lần lượt là 2.98, 3.12
và 3.24. Tuy nhiên, độ lệch chuẩn của biến XA1 và XA2 khá gần 0.9, còn
biến XA3 là 0.8. Về hình dạng phân phối, biến XA3 có hình dạng đối xứng
nhiều nhất vì Skewness gần bằng 0, trong khi đó của XA1 và XA3 là không
đối xứng. Hơn nữa, độ rộng của phân phối của biến XA3 là nhỏ nhất vì
Kurtosis gần bằng 0, còn của biến XA1 và XA2 thì rộng hơn đáng kể. Dựa
vào kết quả phân tích trị trung bình ở trên chúng ta có thể kết luận, các
biến XA1, XA2 và XA3 có ảnh hưởng đáng kể đến hiệu quả dự án đầu tư
xây dựng.
3.3. Lập bảng tần suất kết hợp với các đại lượng thống kê mô tả
Chỉ dùng cho biến định lượng. Trong thực tế khi dùng lệnh tính các đại
lượng thống kê mô tả riêng lẻ thường kết hợp vừa lập bảng tần suất và vừa
tính các đại lượng thống kê mô tả.
Các bước thực hiện như sau:
B1. Vào menu Analysis > Descriptive Statistics > Frequencies >
Statistics. Lựa chọn xong bấm Continue.
• Statistics: trị số thống kê.
• Chart: biểu đồ.
• Format: định dạng.
• Bootstrap: vòng lặp (thường không sử dụng chức năng này).

56
• Percentile values: các giá trị tứ phân vị, thập phân vị.
• Central tendency: xu hướng trung tâm.
• Values are group midpoints: chỉ quan tâm đến các giá trị vùng giữa.
• Dispersion: khuynh hướng phân tán.
• Distribution: phân phối.
B2. Bấm tiếp Chart để xuất biểu đồ, xong bấm continue. Chọn dạng
biểu đồ cần xuất .
• Bar chart: dạng thanh.
• Pie chart: dạng bánh tròn.
• Histograms: biều đồ phân phối tần suất, nên chọn thêm show
normal curve on histogram.

57
B3. Bấm Format để chỉnh sửa định dạng.

B4. Bấm OK. Xem kết quả.


Kết quả vừa xuất hiện bảng trị số thống kê mô tả, vừa xuất hiện
bảng tần suất và các đồ thị histogram. Ví dụ cho biến XA1.
Statistics
XA1
Valid 151
N
Missing 0
Mean 2.9801
Std. Error of Mean .07307
Median 3.0000
Mode 3.00
Std. Deviation .89793
Variance .806
Skewness .543

58
Std. Error of Skewness .197
Kurtosis -.570
Std. Error of Kurtosis .392
25 2.0000
Percentiles 50 3.0000
75 4.0000

Cũng là phân tích các đại lượng mô tả nên kết quả trong bảng Statistics
trên giống như ở phần trước. Chỉ có chỗ khác là thêm kết quả median,
mode và percentile. Median là điểm giá trị chia diện tích biểu đồ phân phối
thành hai vùng với tỷ lệ 50% trái và 50% phải. Mode là điểm cao nhất
(hoặc thấp nhất) trong phân phối. Trong bảng trên Median = Mode = 3, tức
là phân phối dữ liệu có đỉnh là 3 và nơi đây cũng là nơi chia phân phối
thành 2 vùng. Điều này là do ở ví dụ 2 chúng ta thu thập theo thang đo 5
điểm tương ứng từ 1 = "không ảnh hưởng" cho đến 5 = "rất nhiều", tức 3
sẽ là điểm ở giữa. Còn Percentiles là các điểm chia đồ thị phân phối thành
các vùng có diện tích tăng dần 25%, 50% và 75% từ trái sang phải. Do
thang đo 5 mức và 151 bộ số liệu đều dàn trải hết ở 5 mức này nên các
điểm chia 25%, 50% và 75% sẽ là 2, 3 và 4.

XA1
Frequency Percent Valid Percent Cumulative
Percent

2.00 53 35.1 35.1 35.1


3.00 57 37.7 37.7 72.8
Valid 4.00 32 21.2 21.2 94.0
5.00 9 6.0 6.0 100.0
Total 151 100.0 100.0

Kết quả phân tích trong bảng trên là kết quả phân tích tần suất
(frequency). Tương tự như mục trước, bảng này cho biết phần trăm theo
số lần của các giá trị trong thang đo 5 mức. Kết quả cho thấy các mức được
lựa chọn nhiều nhất là 2, 3 và 4 với số lần và phần trăm lần lượt là 53, 57
và 32 với 35.1%, 37.7% và 21.2% (tổng cộng 94%). Trong khi đó, mức 1
không có lựa chọn nào và mức 5 chỉ 9 lựa chọn chiếm 6%. Từ đây có thể
kết luận mức ảnh hưởng của XA1 đến hiệu quả dự án là ở mức ít dao động
đến nhiều. Ngoài ra, đồ thị Histogram bên dưới biểu diễn thêm tính trực
quan của kết quả phân tích.

59
Tương tự, hãy thử phân tích cho biến XA2 và XA3 và cho nhận xét
về kết quả phân tích?
3.4. Đồ thị
Đồ thị là một công cụ phân tích thống kê rất hữu ích do tính trực quan
và dễ hiểu cho người đọc. Người sử dụng có thể chỉnh sửa và định dạng
đề phù hợp với sở thích và yêu cầu của mình. Các loại đồ thị trong SPSS
(version 20) gồm 9 loại: favorite, bar, line, pie/polar, scatter/dot,
histogram, high-low, boxplot, dual axes.
Lời khuyên: các đồ thị vẽ ra từ SPSS không được bắt mắt, chúng ta có
thể sử dụng phần mềm khác để vẽ. Ngoài ra, đồ thị tạo ra bởi SPSS không
có khả năng liên kết được với file văn bản khác.
Trong tài liệu này chỉ trình bày đồ thị dạng bánh (pie), các loại còn lại
tương tự.
• Vẽ đồ thị:
Giả định chúng ta cần vẽ đồ thị dạng bánh thể hiện phần trăm nam và
nữ trong Ví dụ 2. Các bước thực hiện như sau:
B1. Vào menu Graphs > Chart Builder.

60
B2. Chọn Pie/Polar trong thẻ Gallery, sau đó nhấp chuột vào hình mẫu
kéo và thả hình mẫu này vào vùng vẽ đồ thị. Xuất hiện bảng Element
Properties.

61
B3. Chỉnh sửa các thông số của từng thành phần "Edit Properties of".
Chọn cái muốn chỉnh, sau đó thông số sẽ hiện bên dưới. Có rất nhiều
thành phần và thông số cần chỉnh. Chỉnh xong bấm Apply để gán thay
đổi đó cho đồ thị.
B4. Chọn biến gioitinh, kéo và thả vào ô "slice by?" trong màn hình
preview.
B5. Bấm OK. Kết quả như sau:

Bạn nhận xét như thế nào về: Màu sắc? Đường nét? Thông tin? Giá
trị? Kích thước?... Kết quả gần như không thể hiện được điều gì. Do đó,
chúng ta cần phải hiệu chỉnh lại đồ thị mới có thể sử dụng được.
• Hiệu chỉnh đồ thị: Giả sử cần chỉnh sửa những việc sau:
- Hiển thị giá trị phần trăm vào bên trong bánh.
- Màu của nam là vàng, màu của nữ là tím.
- Chữ trong đồ thị: font = 13 pt, loại Times New Roman.
Khi cần hiệu chỉnh lại các nội dung và định dạng của đồ thị cho phù
hợp hơn, chúng ta làm như sau: Nhấn đúp chuột vào đồ thị, một cửa sổ
mới (chart editor) sẽ xuất hiện, đồ thị sẽ bị mờ đi trong cửa sổ cũ.

62
• Để hiển thị phần trăm vào bên trong bánh → đưa chuột vào màn
hình bánh, nhấp chuột phải, chọn show data label. Bảng properties
sẽ hiện ra. Điều chỉnh kích thước và font chữ trong mục "text style".
Có thể tùy chỉnh các properties khác nếu thích. Bấm Apply.

• Để đổi màu sắc, nhấp chuột vào đồ thị của cửa sổ "Chart Editor"
sau đó chỉnh màu trên bảng Properties. Khi đã chỉnh xong, tắt cửa
sổ "Chart Editor". Nếu muốn hiệu chỉnh tỷ lệ chữ và hình trong đồ
thị, nhấp chuột vào đồ thị, đưa chuột vào góc, chọn và kéo chuột
cho phù hợp.
• Kết quả như sau:

63
3.5. Công cụ Explore
Công cụ Explore là một công cụ cao cấp khi phân tích thống kê mô tả
vì nó giúp xem xét thêm các điều kiện và hình dạng phân phối. Các phân
tích thống kê mô tả thông thường chỉ hữu dụng cho việc tổng hợp một biến
định lượng được đo lường đơn cách. Giả sử rằng, ở ví dụ trên, chúng ta
muốn biết liệu giới tính (nam và nữ) liệu có khác nhau khi trả lời cho các
biến XA1? Lúc này hãy sử dụng công cụ Explore.
Công cụ Explore sẽ giúp chúng ta những vấn đề sau:
• Tính toán các đại lượng thống kê mô tả cho tất cả các trường hợp
trong dữ liệu hoặc cho các nhóm con. Nhóm con là nhóm được
phân chia bởi các đặc điểm khác nhau của biến định tính (trong
này là biến "gioitinh").
• Nhận diện các giá trị khác biệt, bất thường, ngoại lệ (chẳng hạn
giá trị nhập bị nhầm).
• Tính toán các thập phân vị của phân phối cho các biến và các
nhóm con.
• Tạo biểu đồ, hình dáng của biểu đồ.
Các bước thực hiện như sau:
B1. Vào menu Analysis > Descriptive Statistics > Explore.

B2. Chọn biến XA1 đưa qua danh sách biến phụ thuộc (dependent list),
biến gioitinh đưa qua danh sách yếu tố phân loại (factor list). Nếu có
gán label ở cửa sổ biến (variable view) rồi thì có thể so sánh theo Label
Cases by.

64
B3. Chọn Statistic.
• Mặc định phần mềm chọn descriptives (thống kê mô tả) với khoảng
tin cậy (confidence interval) cho trị trung bình là 95%.
• M-estimator: công cụ ước tính trị số M để đo lường xu hướng
trung tâm.
• Outliers: các giá trị ngoại lệ.
• Percentiles: phân vị.

B3. Chọn Plots: biểu đồ.


• Boxplots: biểu đồ hộp theo mức độ yếu tố (factor levels) và theo
mức độ phụ thuộc (dependents).
• Descriptive: thống kê mô tả theo dạng cành và lá (stem-and-leaf)
và biểu đồ phân phối tần suất (histogram).
• Nên chọn Normality plots with tests: kiểm định phân phối chuẩn
của biểu đồ.

65
• Spread vs level with Levene test: kiểm tra tính đồng đều của
phương sai giữa các mẫu trong dữ liệu gốc hay dữ liệu đã được
biến đổi bằng kiểm định Levene.

B4. Chọn Options.


• Missing values: các giá trị bị thiếu.
• Exclude cases listwise: những trường hợp có giá trị bị thiếu ở bất
kỳ một biến nào trong các biến được đưa vào danh sách đều bị bỏ
qua trong các phép tính.
• Exclude cases pairwise: khi chọn lựa chọn này, mỗi phép toán
thống kê sẽ sử dụng luôn tất cả các giá trị bị điền thiếu. Hay nói
cách khác, các trường hợp quan sát có giá trị bị điền thiếu bởi một
biến này sẽ vẫn được sử dụng để tính toán các con số thống kê của
biến phụ thuộc khác.

66
B5. Bấm OK. Không cần làm thủ tục Bootstrap.
Kết quả gồm: Bảng tổng hợp các trường hợp phân tích (Case
Processing Summary), bảng mô tả (Descriptives), bảng phần trăm
(Percentiles), bảng giá trị cực hạn (Extreme Values), bảng kiểm định phân
phối chuẩn (Tests of Normality), biểu đồ tần suất (Histogram), biểu đồ
nhánh và cây (Stem-and-Leaf), đồ thị chuẩn Q-Q (Normal Q-Q Plots), đồ
thị xu hướng chuẩn Q-Q (Detrended Normal Q-Q Plots). Có rất nhiều kết
quả được phân tích ra từ công cụ Explore. Tuy nhiên, kết quả nâng cao
hơn là đồ thị chuẩn và xu hướng, cũng như kiểm định phân phối chuẩn.
Điều này đặc biệt quan trọng ở các kiểm định có tham số.
3.6. Tóm tắt chương
Chương này đã thực hiện các phân tích thống kê mô tả gồm: bảng tần
suất; đại lượng mô tả; lập bảng tần suất kết hợp; vẽ đồ thị; và công cụ
Explore. Kết quả của chương là các phân tích thống kê mô tả. Nó rất hữu
ích khi chúng ta chỉ cần đưa ra các kết luận từ bề nổi của số liệu. Khi thực
hiện phân tích thống kê mô tả cần phải thực hiện lập bảng kết hợp với đồ
thị để đảm bảo tính trực quan và dễ hiểu hơn.

67
BÀI TẬP THỰC HÀNH

Cho số liệu thống kê 345 công nhân có các bậc thợ (đặt tên: BACTHO) và
năng suất lắp dựng cốt thép (đặt tên: NSCT) trong bảng Excel "Bài 1_Số
liệu", hãy thực hành trên máy tính bằng phần mềm SPSS và trả lời các câu
hỏi sau:
1. Hãy tìm vị trí số liệu bị sai, ghi rõ số thứ tự (STT)? Sau khi phát
hiện nếu có, SV hãy sửa thành một giá trị bất kỳ trong khoảng từ 1
đến 5 (số chẵn).
2. Hãy lập bảng tần suất để đếm công nhân theo bậc thợ?
3. Cho biết các đại lượng mô tả cần thiết như Min, Max, trung bình
và độ lệch chuẩn của năng suất lắp dựng cốt thép?
4. Thực hiện thủ tục Explore để biết liệu các công nhân với bậc thợ
khác nhau có năng suất lắp dựng cốt thép là khác nhau?
5. Thợ bậc 5 có giá trị ngoại lệ không? Ở số thứ tự nào?
6. Vẽ đồ thị hình bánh cho bậc thợ? Thể hiện phần trăm trên đồ thị.
Xem đáp án ở Phụ lục 2

68
CHƯƠNG 4:
KIỂM ĐỊNH MỐI LIÊN HỆ GIỮA HAI BIẾN
ĐỊNH TÍNH

Ở các chương trước, chúng ta chỉ lập được bảng kết hợp hai biến định
tính và chỉ mô tả được mối quan hệ mà chúng ta nhận thấy trong mẫu. Ví
dụ ở bảng bên dưới cho hai biến định tính là "học vấn" và "lĩnh vực làm
việc" của nhân viên ngành xây dựng (xem Ví dụ 3).
Bảng tổng hợp hai biến

Trung Cao Đại Sau đại


cấp đẳng học học Tổng
Điện 17 13 11 16 57
Nước 16 17 17 19 69
Điều hòa 27 15 19 26 87
Xây dựng 23 23 22 19 87
Tổng 83 68 69 80 300
Liệu có thể đưa ra các kết luận:
1. Nhân viên có học vấn trung cấp và sau đại học thích làm lĩnh vực
điều hòa?
2. Nhân viên có học vấn từ cao đẳng và đại học thích làm lĩnh vực
xây dựng?
3. Nhân viên đều không thích làm về cả lĩnh vực điện, nước?
Như vậy có thể nghi ngờ một điều rằng: học vấn nhân viên có liên quan
đến lĩnh vực nghề mà họ làm. Tuy nhiên, mục tiêu phân tích của chúng ta
không phải là trên các mẫu mà là trên tổng thể. Do đó để biết được kết quả
trên mẫu có đủ sức mạnh để thuyết phục chúng ta rằng nó cũng đúng trên
tổng thể hay không, chúng ta phải tìm các bằng chứng thống kê thông qua
các phép kiểm định. Như ví dụ ở trên, học vấn và lĩnh vực làm việc có mối
liên hệ với nhau trong tổng thể hay không?
Trong các phép kiểm định, kiểm định về mối quan hệ giữa hai biến là
một phép kiểm định thường được sử dụng trong phân tích thống kê. Kiểm
định này còn có tên là kiểm định tính độc lập. Chương này giúp người học
hiểu về nội dung kiểm định, thực hiện phân tích, phát biểu và kiểm định
giả thuyết thống kê, và trình bày diễn giải kết quả phân tích về mối liên hệ
giữa hai biến định tính. Mối liên hệ này gồm: (1) giữa định danh-định danh

69
hoặc định danh-thứ bậc; và (2) giữa thứ bậc-thứ bậc. Chú ý rằng, biến định
lượng rời rạc với vài trị số có thể cũng được xem là biến định tính [4].
4.1. Kiểm định mối liên hệ giữa hai biến: định danh-định danh, hoặc
định danh-thứ bậc
Kiểm định Chi-square được sử dụng rất phổ biến khi kiểm định cho
hai biến nghiên cứu đều là định danh hoặc một định danh, một thứ bậc. Nó
sẽ cho chúng ta biết có tồn tại mối liên hệ giữa chúng với nhau trong tổng
thể hay không. Điều này được gọi là giả thuyết thống kê. Tuy nhiên, kiểm
định Chi-square không cho chúng ta biết độ mạnh (strength) của mối liên
hệ này [4].
Giả thuyết thống kê:
• Giả thuyết rỗng H0 (hay giả thuyết không) (Null hypothesis): là giả
thuyết mà chúng ta đưa ra nhằm phủ định về mối liên hệ hay một
nhận định nào khác giữa hai biến với nhau ở một mức ý nghĩa nào
đó;
• Ngược lại, giả thuyết thay thế HA (hay giả thuyết đối lập)
(Alternative hypothesis): là giả thuyết ngược lại và được dùng để
bác bỏ giả thuyết rỗng khi chúng ta không tìm thấy đủ chứng cứ
chứng minh H0 không tồn tại.
Cách phát biểu giả thuyết rỗng: Từ "Không có" luôn đặt ở đầu câu giả
thuyết, sau đó phát biểu vấn đề muốn kiểm định.
Cách phát biểu giả thuyết thay thế: bỏ từ "Không" trong phá biểu của
giả thuyết rỗng đi.
Trong ví dụ ở trên, giả thuyết thống kê được phát biểu như sau:
• Giả thuyết rỗng H0: Không có mối liện hệ giữa học vấn với lĩnh
vực làm việc của nhân viên ngành xây dựng.
• Giả thuyết thay thế HA: Có vấn có mối liên hệ với lĩnh vực làm việc
của nhân viên ngành xây dựng.
4.1.1. Lý thuyết về kiểm định Chi-square
Kiểm định Chi-square (hay còn gọi kiểm định Khi-bình phương) sẽ sử
dụng giá trị χ2 để kiểm định giả thuyết thống kê về mối liên hệ giữa hai
biến định tính.
Công thức của nó như sau [4, 7]:

70
(O − Eij )
2
c
2 = 
ij

j=1 Eij

Trong đó,
χ2 : đại lượng của Chi-square dùng để đánh giá kiểm định;
c : số cột của bảng (j = 1 ÷ c);
r : số hàng trong bảng (i = 1 ÷ r);
Oij: giá trị quan sát của ô có mối liên hệ với nhau (còn gọi là
tần suất quan sát) ở hàng i tại cột j trong bảng. Nó được tính
theo công thức sau:
R i xC j
Oij =
n
Ri : giá trị quan sát của hàng thứ i trong bảng;
Cj : giá trị quan sát của cột thứ j;
n : tổng số mẫu quan sát;
Eij : giá trị quan sát của ô không có mối liên hệ với nhau (hay
gọi là tần suất mong đợi) ở hàng thứ I tại cột j của bảng. Nó
được tính tương tự công thức của Oij.
Từ công thức này có thể thấy ngay một số nhận định sau [4]:
• Giá trị χ2 = 0; tức là tần suất quan sát sẽ bằng tần suất mong đợi,
nghĩa là lúc này không có mối liên hệ nào giữa các biến.
• Chắc chắn rằng giá trị χ2 không bao giờ nhận giá trị âm vì có tử số
bình phương.
• Giá trị Oij và Eij khác biệt càng nhiều; tức là giá trị χ2 tính được
càng lớn, điều này càng có khả năng hai biến có mối liên hệ với
nhau.
• Khi thay đổi vị trí giữa hàng và cột, giá trị χ2 không đổi.
Để đơn giản khi tính toán giá trị giới hạn của χ2, ký hiệu là [χ2], người
ta lập sẵn bảng tra dựa vào hai yếu tố là: ở mức ý nghĩa (significance level)
α và số bậc tự do (degree of freedom) df = (r-1)(c-1). Giá trị này chúng ta
có thể tra ở Phụ lục 1. Trong thống kê, mức ý nghĩa (α) là khả năng tối đa
cho phép kết quả kiểm định có thể phạm phải sai lầm loại I. Hay nói cách
khác, đó là khả năng chúng ta bác bỏ giả thuyết H0 mặc dù thực tế nó đúng
(dựa vào thực tiễn xảy ra của sự kiện) [5]. Ví dụ, nếu cho α = 5% nghĩa là
khi thực hiện kiểm định chúng ta chấp nhận khả năng phạm sai lầm loại I
71
tối đa là 5%. Từ đó, mức độ tin cậy (confidence level) của kiểm định được
xác định theo công thức là (1-α) = 95%. Đây cũng là mức ý nghĩa thống
kê thường được sử dụng trong lĩnh vực quản lý xây dựng cũng như nhiều
ngành nghề khác [4].
Dựa vào đại lượng χ2 chúng ta có thể chấp nhận hay bác bỏ giả thuyết
thống kê như sau [5]:
• Bác bỏ giả thuyết H0 nếu: χ2 > [χ2]
• Chấp nhận giả thuyết H0 nếu: χ2 ≤ [χ2]
4.1.2. Sử dụng SPSS để thực hiện kiểm định Chi-square
Trong SPSS, kiểm định Chi-square nằm ở bảng Crosstabs. Để nghiên
cứu mối liên hệ giữa học vấn và lĩnh vực làm việc của nhân viên ngành
xây dựng ở Ví dụ 3, cách thực hiện như sau:
Từ menu Analyze > Descriptive Statistics > Crosstabs sẽ xuất hiện
hình bên dưới. Lưu ý, chọn Row(s) và Column(s) thế nào không ảnh hưởng
đến kết quả tính. Nên chọn "Display clustered bar charts" để thể hiện các
biểu đồ dạng thanh theo cụm. Có thể hoặc không cần chọn "Suppress
tables" vì chúng là các bảng ở dạng thu gọn (dạng nén).

• Exact: Độ chính xác, trong phần này chỉ lưu ý nên chọn Asymptotic
only để chẩn đoán triệu chứng liên hệ, các lựa chọn khác gồm

72
Monte Carlo (mô phỏng Monte Carlo) với mức tin cậy (confidence
level) và số lượng mẫu (number of samples), và Exact không nên
chọn vì số lượng mẫu, mức độ tin cậy đã có và thời gian tính toán
nên để máy chạy tự động.

• Statistics: trị số thống kê, trong phần này chỉ chọn Chi-square, còn
các kiểm định khác được trình bày ở phần sau của chương này.

• Cells: các ô trong bảng. Trong phần này chỉ nên chọn Observed
trong mục Counts do số liệu chúng ta ghi nhận là do thu thập thực
tế. Z-test là kiểm định z nhằm so sánh phần thực của hai cột (không
trình bày kiểm định này). Nên chọn column trong mục Percentage
73
vì biến chúng ta đang khai báo ở dạng cột; mục phần dư (residuals)
không nên chọn vì chúng ta chỉ đang quan tâm đến phần thực
(proportion). Cuối cùng, mục trọng số của số không nguyên
(noninteger weights) không nên chọn vì số chúng ta đang thu thập
được là số nguyên. Lưu ý, cho dù là số không nguyên cũng không
nên chọn vì trọng số này khó xác định bằng khảo sát.

• Format: trình bày định dạng, có hai dạng là tăng dần (ascending)
và giảm dần (descending).

• Bootstrap: vòng lặp, không nên chọn, cứ để máy tự động lặp và


dừng lại.
Kết quả phân tích như sau:

74
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
hocvan *
300 100.0% 0 0.0% 300 100.0%
linhvuclamviec

hocvan * linhvuclamviec Crosstabulation


linhvuclamviec Total
Dien Nuoc Dieu Xay
hoa dung
Count 17 16 27 23 83
< 20 % within
29.8% 23.2% 31.0% 26.4% 27.7%
linhvuclamviec
Count 13 17 15 23 68
20-35 % within
22.8% 24.6% 17.2% 26.4% 22.7%
linhvuclamviec
hocvan
Count 11 17 19 22 69
35-50 % within
19.3% 24.6% 21.8% 25.3% 23.0%
linhvuclamviec
Count 16 19 26 19 80
> 50 % within
28.1% 27.5% 29.9% 21.8% 26.7%
linhvuclamviec
Count 57 69 87 87 300
Total % within 100.0 100.0 100.0 100.0 100.0
linhvuclamviec % % % % %

Chi-Square Tests
Value df Asymp. Sig.
(2-sided)
Pearson Chi-Square 4.623a 9 .866
Likelihood Ratio 4.758 9 .855
Linear-by-Linear
.112 1 .738
Association
N of Valid Cases 300

75
a. 0 cells (0.0%) have expected count less than 5. The minimum expected
count is 12.92.

Bảng "Case Processing Summary" là bảng nói lên tổng số mẫu hợp lệ
đã phân tích, bảng "Crosstabulation" là bảng kết hợp thống kê giữa học
vấn và lĩnh vực làm việc, và bảng Chi-square tests là bảng các trị số kiểm
định. Chúng ta thấy rằng giá trị χ2 = 4.632. Tra bảng, giá trị giới hạn ở bậc
tự do df = (4-1)*(4-1) = 9 với mức ý nghĩa α = 0.05 là 16.919; từ đó χ2 <
[χ2]: Chấp nhận giả thuyết H0, tức là học vấn và lĩnh vực làm việc không
có mối liên hệ với nhau với mức độ tin cậy kiểm định 95%.
Ngoài ra, có một nguyên tắc khác thường được sử dụng trong kiểm
định là dùng giá trị p-value (trong SPSS viết tắt là Sig. ở cột cuối cùng của
bảng). Nó có nghĩa là xác suất chúng ta sẽ mắc phải sai lầm loại I khi bác
bỏ giả thuyết rỗng H0. Quy tắc bác bỏ H0 như Hình 4.1 bên dưới.

76
Hình 4.1. Quy tắc bác bỏ giả thuyết rỗng
Trong lĩnh vực quản lý xây dựng, cũng như một số ngành khác: khi p-
value ≥ 0.05, chúng ta chấp nhận H0; và ngược lại p-value < 0.05, chúng
ta bác bỏ H0. Cụ thể trong bài ví dụ này, p-value = 0.866 > 0.05 nên chấp
nhận H0, tức là không có đủ bằng chứng để kết luận học vấn và lĩnh vực
làm việc có liên hệ với nhau.
Lưu ý, kiểm định Chi-square chỉ có ý nghĩa khi số quan sát đủ lớn. Nếu
có quá 20% số ô trong bảng chéo có giá trị tần suất mong đợi (Eij) nhỏ hơn
5 thì giá trị χ2 không có ý nghĩa. Giải pháp tốt nhất là gom các đặc điểm
của biến lại thành một biến mới.
Trong bảng "Crosstabulation" còn có một số trị số kiểm định khác:
• Likelihood Ratio: tỷ số mức độ giống nhau giữa hai biến, đây là
một dạng kiểm định tương tự Pearson Chi-square. Khi cỡ mẫu đủ
lớn thì kết quả kiểm định giữa hai kiểm định này gần giống nhau.
• Linear-by-Linear Association: đo lường mối liên hệ tuyến tính giữa
2 biến. Kiểm định này chỉ hữu ích khi chúng ta đã sắp xếp bộ số
liệu theo thứ tự từ nhỏ nhất đến lớn nhất, còn không chúng ta bỏ
qua nó.
• Number of Valid Cases: số trường hợp hợp lệ được phân tích.
4.1.3. Một số trị số thống kê khác để kiểm định mối liên hệ giữa hai
biến định danh
Kiểm định Chi-square được sử dụng phổ biến nhất trong kiểm định
giữa hai biến định tính gồm: định danh với định danh, và định danh với
biến thứ bậc. Kết quả kiểm định Chi-square chỉ giúp kết luận có hay không
mối liên hệ giữa hai biến thông qua trị số χ2. Bên cạnh đó, nhược điểm của
nó là không cho biết độ mạnh (strength) của mối liên hệ đó. Lúc này, chúng
ta có thể sử dụng thêm trị số như Contingengy coefficient (hệ số liên hợp),
Phi and Cramer's V, Lambda, và Uncertainty coefficient (hệ số không chắc
chắn) để biết độ mạnh đó [4].

77
• Hệ số liên hợp: là một trị số đánh giá mức độ tương quan giữa hai
biến định danh. Công thức tính như sau:

2
C=
2 + N
Trong đó, N là tổng số mẫu khảo sát.
Giá trị của C  [0; 1]. C = 0 nghĩa là hai biến không liên hệ, và C = 1
nghĩa là hai biến liên hệ rất chặt chẽ.
Trong Ví dụ 3 trên N = 300, χ2 = 4.623, kết quả C = 0.123.
Kết quả chạy SPSS nếu chọn thêm hệ số liên hợp:
Symmetric Measures
Value Approx. Sig.
Nominal by Contingency
.123 .866
Nominal Coefficient
N of Valid Cases 300
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.

• Phi (ΦC) and Cramer's (V): là loại kiểm định trực tiếp mối liên hệ
giữa hai biến định danh cũng được tính dựa trên giá trị χ2. Công thức tính
như sau:
2
C =
N

2
V=
N(k − 1)
Trong đó,
N là tổng số mẫu thu thập;
V có giá trị và ý nghĩa giống như hệ số C ở trên;
k là số hàng hoặc số cột trong bảng.

78
Trong ví dụ trên: N = 300, k = 4-1=3, χ2 = 4.623, từ đó ΦC = 0.124, V
= 0.072
Kết quả chạy SPSS nếu chọn thêm kiểm định này:
Symmetric Measures
Value Approx. Sig.
Phi .124 .866
Nominal by Nominal
Cramer's V .072 .866
N of Valid Cases 300

a. Not assuming the null hypothesis.


b. Using the asymptotic standard error assuming the null
hypothesis.

• Lambda: cũng là một loại kiểm định đo lường mối liên hệ giữa hai
biến định danh, ký hiệu là λ hay P. Nó cho biết liệu các trị số của một biến
có xu hướng tập trung quanh một trị số nào đó của biến kia hay không; tức
là biết được trị số của biến độc lập chúng ta có thể dự đoán được biến phụ
thuộc. Ví dụ kết quả kiểm định giữa hai biến A và B có λ = 0.45, có nghĩa
rằng biến A có thể dự đoán giá trị của biến B ở mức 45%. Công thức tính
như sau:
Sai so truoc-Sai so sau
=
Sai so truoc
Trong đó, sai số trước là số các sai lầm có thể phạm phải khi dự
đoán các trị số của biến phụ thuộc mà không xem xét đến biến độc lập, và
sai số sau là số các sai lầm có thể phạm phải khi dự đoán các trị số của
biến phụ thuộc mà có xem xét đến biến độc lập. Dự đoán tốt nhất cho các
trị số của biến phụ thuộc là số mode, và dự báo tốt nhất của biến độc lập
là số mode của từng phân nhóm.
Kết quả phân tích của ví dụ trên: λ = 0.033. Nghĩa là mức độ giải
thích chung giữa hai biến 3.3% quá thấp dẫn đến có thể đưa ra kết luận hai
biến không có liên hệ với nhau.
Directional Measures
Value Asymp. Approx. Approx.
Std. T Sig.a
Errora
Symmetric .033 .024 1.315 .189
Lambda hocvan .014 .027 .507 .612
Dependent

79
linhvuclamviec .052 .041 1.241 .215
Dependent
Nominal
Goodman hocvan .005 .005 .869c
by and Dependent
Nominal Kruskal linhvuclamviec .006 .005 .832c
tau Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Based on chi-square approximation

Kiểm định Lambda có một số vấn đề sau:


• Trị số λ phụ thuộc vào vị trí thiết lập biến phụ thuộc trong hàng hay
cột của bảng;
• Không có cách để kiểm định giá trị λ;
• Giá trị λ có thể bằng 0 ngay cả khi có mối liên hệ mạnh giữa
hai biến, điều này đặc biệt đúng với bảng ma trận 2x2 với hơn
50% quan sát trên biến độc lập có giá trị bằng với biến phụ
thuộc.
• Uncertainty coefficient: Đây là kiểm định thể hiện trạng thái
nghịch đảo của mối quan hệ giữa hai biến thông qua sự không
chắc chắn.
Kết quả phân tích của ví dụ trên như sau: Độ không chắc chắn
(uncertainty) = 0.006. Tức là, chúng ra chỉ có 0.6% để dám kết luận rằng
hai biến có mối liên hệ với nhau.
Directional Measures
Value Asymp. Approx. Approx.
Std. T Sig.a
Error a

Symmetric .006 .005 1.110 0.855


Nominal hocvan 1.110 0.855
Uncertainty .006 .005
by Dependent
Coefficient
Nominal linhvuclamviec
.006 .005 1.110 0.855
Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Likelihood ratio chi-square probability.

80
4.2. Kiểm định mối liên hệ giữa hai biến thứ bậc
Kiểm định Chi-square sử dụng được cho cả biến định danh và biến thứ
bậc như đã trình bày ở phần trên. Tuy nhiên, trong trường hợp số liệu của
các biến được thu thập từ thang đo thứ bậc (ordinal), chúng ta có thể sử
dụng một trong các điểm định sau: kiểm định gamma (), kiểm định d, và
kiểm định tau-b.
Ví dụ: Chúng ta đang phân tích và phát triển chiến lược nhân sự và
chính sách tiền lương cho công ty. Để làm điều này, chúng ta cần xem xét
mối liên hệ giữa độ tuổi của toàn bộ nhân viên và mức độ quan tâm về
lương của họ. Độ tuổi được phân 4 cấp từ 20 đến hơn 50 tuổi, và mức độ
quan tâm về lương phân thành 3 cấp: nhất, nhì và ba. Việc khảo sát và thu
thập trên 500 nhân viên (xem Ví dụ 4).
Giả thuyết thống kê (ở mức ý nghĩa 5%):
• H0: Không có mối liên hệ giữa độ tuổi và mức quan tâm đến lương
(hay nói cách khác, mức độ quan tâm đến lương không khác nhau
giữa các nhóm đối tượng).
• HA: Có mối liên hệ giữa độ tuổi và mức quan tâm đến lương (hay
nói cách khác, mức độ quan tâm đến lương khác nhau giữa các
nhóm đối tượng).
Thực hiện các bước mở bảng Crosstabs như phần trên và kết quả như
trong các bảng bên dưới. Có thể nhận xét rằng:
• Có phải độ tuổi từ 20-30 và >50 là họ quan tâm về lương nhất
không?
• Có phải độ tuổi 30-40 và 40-50 có mức quan tâm lần lượt về lương
thứ hai và ba?
• Nhìn chung, độ tuổi 20-30 có mức quan tâm về lương cao nhất?
Nếu hai biến này có mối liên hệ chặt chẽ, chúng ta sẽ nghĩ rằng người
có thứ hạng cao về tuổi tác (tức là trẻ tuổi hơn) sẽ quan tâm nhiều đến
lương hơn, và ngược lại. Thực tế sẽ diễn ra hoàn toàn không như vậy.
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
dotuoi *
500 100.0% 0 0.0% 500 100.0%
quantamluong

81
dotuoi * quantamluong Crosstabulation
Count
quantamluong Total
Nhat Nhi Ba
20-30 46 41 51 138
30-40 38 41 35 114
dotuoi
40-50 38 41 47 126
>50 47 45 30 122
Total 169 168 163 500

Kết quả kiểm định Chi-square: Asymp. Sig. = 0.345 > 0.05
Chi-Square Tests
Value df Asymp. Sig.
(2-sided)
Pearson Chi-Square 6.746a 6 .345
Likelihood Ratio 6.895 6 .331
Linear-by-Linear
1.728 1 .189
Association
N of Valid Cases 500

a. 0 cells (0.0%) have expected count less than 5. The minimum


expected count is 37.16.

82
4.2.1. Kiểm định Gamma của Goodman và Kruskal
Kiểm định Gamma () của Goodman và Kruskal sử dụng để đo lường
mối liên hệ giữa hai biến thứ bậc bất kỳ mà không xem xét đến tính phụ
thuộc và ngẫu nhiên của biến. Kiểm định này sử dụng phân phối z. Trị số
của gamma () nằm trong khoảng từ -1 (tức là hoàn toàn nghịch chiều) đến
+1 (tức là hoàn toàn thuận chiều). Giá trị này thể hiện độ mạnh của mối
liên hệ giữa hai biến [4]. Giá trị 0 nằm ở giữa thể hiện sự độc lập giữa hai
biến. Chính vì vậy, kiểm định này cũng được sử dụng để kiểm tra điều kiện
độc lập giữa hai biến trong các phân tích thống kê.
Giao diện trên SPSS và kết quả:

Symmetric Measures
Value Asymp. Approx. Approx.
Std. Tb Sig.
Errora
Ordinal by Ordinal Gamma -.072 .054 -1.321 .187
N of Valid Cases 500

a. Not assuming the null hypothesis.


b. Using the asymptotic standard error assuming the null hypothesis.

4.2.2. Kiểm định d của Somer


Kiểm định Somer (ký hiệu d) là một dạng kiểm định đo lường mối liên
hệ thứ bậc giữa hai biến có xét tính ngẫu nhiên độc lập. Giá trị của d cũng
trong khoảng từ -1 đến +1 với ý nghĩa giống giá trị . Kiểm định Somers'
d làm tăng tính đồng nhất trong bảng hai chiều (crosstab hoặc two-way

83
table) nhưng không có khuynh hướng đánh giá thấp mức độ liên hợp thực
tế trong bảng.
Kết quả thực hiện như sau:

Directional Measures
Value Asymp. Approx Approx.
Std. . Tb Sig.
Errora
Symmetric -.051 .038 -1.321 0.187
Ordinal
dotuoi Dependent -.054 .041 -1.321 0.187
by Somers' d
quantamluong 0.187
Ordinal -.048 .036 -1.321
Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.

4.2.3. Kiểm định Tau của Kendall


Kiểm định Gamma được ưu thích bởi vì nó là một kiểm định dễ hiểu
và đơn giản bởi nó không xét đến tính ngẫu nhiên độc lập của biến. Tuy
nhiên, kiểm định này có khuynh hướng chỉ sử dụng những bộ số liệu tốt
nhằm nâng cao khả năng hoàn toàn thuận chiều hoặc hoàn toàn nghịch
chiều về mối liên hệ giữa hai biến. Tức là, kiểm định Gamma sẽ xử lý,
thậm chí bỏ qua, các giá trị ngoại lệ trong quá trình phân tích. Trong trường
hợp này, người nghiên cứu có thể sử dụng các kiểm định tau (ký hiệu τ)
của Kendall gồm tau-b và tau-c.

84
Kiểm định này sử dụng được cho cả biến định lượng và thứ bậc. Khi
dữ liệu dạng thứ bậc thì kết quả kiểm định này giống với kiểm định tương
quan xếp hạng Spearman (được nói ở chương sau). Nó tận dụng hầu hết
dữ liệu nên gần như các trị số của chúng sẽ nhỏ hơn Gamma nhưng lại
đáng tin cậy hơn khi đo lường mối liên hệ. Kiểm định này xem xét mối
liên hệ giữa xu hướng giá trị của biến này với xu hướng cao hoặc thấp của
biến kia. Nếu cùng hướng gọi là cặp biến hòa hợp (concordant pairs).
Ngược lại là cặp biến bất hòa hợp (discordant pairs). Công thức tính của
kiểm định này như sau:
nc − nd
=
0.5n(n − 1)
Trong đó,
nc là số lượng cặp giá trị hòa hợp (tức cùng làm tăng thuận chiều);
nd là số lượng cặp giá trị bất hòa hợp (tức cùng làm tăng nghịch
chiều);
n là số bộ dữ liệu.
Trong thực tế, kiểm định Kendall được sử dụng để kiểm định hai biến
thứ bậc khi số lượng mẫu nhỏ và số liệu phân tán. Tau-b sử dụng cho bảng
vuông (tức số cột và số hàng bằng nhau) và tau-c sử dụng cho bảng hình
chữ nhật (tức số cột khác số hàng). Do đó, khi bảng vuông, giá trị kiểm
định tau-b và tau-c gần giống nhau, chỉ khác rất nhỏ là do tau-b có xét đến
sự phân tán của số liệu [4].
Cách thực hiện SPSS:

85
Symmetric Measures
Value Asymp. Approx. Tb Approx. Sig.
Std.
Errora

Ordinal by Kendall's tau-b -.051 .039 -1.321 .187


Ordinal Kendall's tau-c -.054 .041 -1.321 .187
N of Valid Cases 500
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.

Nhận xét: Ở Ví dụ 4, mức ý nghĩa của cả 3 kiểm định Gamma, Somer's


d và Kendall's tau đều bằng 0.187 > 0.05. Tức là, chấp nhận H0. Kết luận,
độ tuổi không liên hệ với mức quan tâm về lương của nhân viên xây dựng
ở độ tin cậy kiểm định thống kê 95%. Hay nói cách khác, ở bất kỳ độ tuổi
nào nhân viên xây dựng cũng có quan tâm đến mức lương trong công ty.
Ngoài ra, mức ý nghĩa này nhỏ hơn rất nhiều so với mức ý nghĩa của kiểm
định Chi-square 0.345.
Nhắc lại, các kiểm định vừa qua ở Chương 4 là kiểm định trên mẫu thu
thập được, do đó kết quả kiểm định chỉ đúng trên mẫu. Ở Chương 2, chúng
ta đã biết mẫu được lấy ra từ tổng thể. Nếu việc lấy mẫu không đảm bảo
tính đại diện (khách quan, ngẫu nhiên và độc lập) cho quần thể thì những
kết luận trên có thể không đúng cho tổng thể, thậm chí đưa ra các kết luận
mang tính ngộ nhận và áp đặt. Điều này dẫn đến các sai lệch (bias) giữa
mẫu và tổng thể. Như vậy, nếu chúng ta nghi ngờ kết quả này không đúng,
hoặc ngay từ đầu chúng ta xác định được việc lấy mẫu không đảm bảo tính
đại diện cho tổng thể thì chúng ta cần thực hiện các kiểm định kiểm chứng
sâu hơn cho tổng thể [4]. Như lời nói đầu, cuốn sách này chỉ thực hiện các
phân tích thống kê trên mẫu đảm bảo đại diện cho tổng thể.
4.3. Tóm tắt chương
Chương này đã trình bày các phân tích kiểm định thống kê về mối liên
hệ giữa hai biến tính gồm: định danh với định danh, và định danh với thứ
bậc. Kết quả của chương giúp cho người đọc xác định được có hay không
mối liên hệ giữa các biến. Trong các kiểm định của chương này, kiểm định
Chi-square là kiểm định rất phổ biến và áp dụng nhiều vì nó có tính chung
chung cho cả dữ liệu định danh và thứ bậc. Ngoài ra, còn có một số kiểm
định khác có thể được sử dụng thay cho Chi-square vì góc nhìn và quan
điểm đánh giá mỗi liên hệ khác nhau. Tuy nhiên, kết luận từ kiểm định
cũng sẽ giống nhau.

86
BÀI TẬP THỰC HÀNH

Có hay không mối liên hệ giữa các kỹ sư xây dựng (đặt tên: KSXD) sau
một thời gian ra trường với loại việc làm (đặt tên: LoaiViecLam)?
Cho số liệu thống kê 430 kỹ sư xây dựng trong bảng Excel "Bài 2_Số
liệu", hãy thực hành trên máy tính bằng phần mềm SPSS và trả lời các
câu hỏi sau:
1. Biến "KS Xây dựng" và biến "Loại việc làm" là biến định danh hay
biến thứ bậc?
2. Lập bảng tổng hợp hai biến này?
Cho biết SV mới ra trường (< 1 năm) thích làm việc nào nhất và ít
thích việc làm nào nhất?
Cho biết loại việc làm "Giám sát" và "QS" phù hợp với nhóm SV
nào nhất?
3. Phát biểu giả thuyết cho vấn đề nghiên cứu?
4. Thực hiện các kiểm định phù hợp để kiểm định giả thuyết trên?
Diễn giải ý nghĩa kết quả của kiểm định này.

Xem đáp án ở Phụ lục 2

87
CHƯƠNG 5:
KIỂM ĐỊNH MỐI LIÊN HỆ GIỮA BIẾN ĐỊNH
TÍNH VÀ BIẾN ĐỊNH LƯỢNG

Trong thống kê ứng dụng, ngoài kiểm định mối liên hệ giữa hai biến
định tính, chúng ta còn có mối liên hệ giữa hai biến định tính và biến định
lượng. Đối với biến định lượng, người nghiên cứu thường quan tâm nhiều
đến trị trung bình và các trị số thống kê khác để đưa ra kết luận. Chương
này giúp người học hiểu được nội dung kiểm định, thực hiện phân tích, và
diễn giải kết quả kiểm định về mối liên hệ của biến định lượng. Trong
chương này, có các kiểm định trị trung bình gồm: kiểm định t một mẫu,
kiểm định t hai mẫu, và kiểm định phương sai ANOVA.

5.1. Kiểm định trị trung bình của tổng thể


Trong thống kê có các phép kiểm định giả thuyết (hypothesis test) liên
quan đến trị trung bình của tổng thể như sau:
➢ Nếu muốn so sánh trị trung bình của một tổng thể so với một giá
trị cụ thể nào đó. Lúc này, hãy sử dụng kiểm định t một mẫu (one-
sample t-test) [4].
Ví dụ, chúng ta muốn kiểm định giả thuyết về giá trị năng suất đổ
bê tông trung bình của công nhân xây dựng trong công ty ở các dự
án so với giá trị năng suất theo định mức do Nhà nước ban hành
(cụ thể ở Định mức 1776).
➢ Nếu muốn so sánh trị trung bình của hai tổng thể riêng biệt dựa
trên hai mẫu ngẫu nhiên, độc lập rút ra từ hai tổng thể này. Lúc
này, hãy sử dụng kiểm định t mẫu độc lập (independent-sample t-
test) [4].
Ví dụ, chúng ta muốn kiểm định giả thuyết về năng suất đổ bê tông
của nhóm công nhân A và nhóm công nhân B trong quá trình làm
việc tại các dự án của công ty.
➢ Nếu muốn so sánh trị trung bình của hai tổng thể riêng biệt dựa
trên hai mẫu rút ra từ hai tổng thể này nhưng có đặc điểm là mỗi
phần tử quan sát mẫu này có sự tương đồng theo cặp (pair) với một
phần tử ở mẫu kia. Lúc này, hãy sử dụng kiểm định t mẫu phụ thuộc
hay bắt cặp (paired-sample t-test) [4].

88
Ví dụ, công ty chúng ta có tổ chức các khóa huấn luyện kỹ năng
nghề cho công nhân bê tông, do đó chúng ta cần kiểm định giả
thuyết về trị trung bình năng suất đổ bê tông của cùng một nhóm
công nhân trước và sau khi huấn luyện nhằm đánh giá hiệu quả.
➢ Nếu muốn so sánh trị trung bình của nhiều tổng thể riêng biệt dựa
trên nhiều mẫu ngẫu nhiên, độc lập rút ra từ các tổng thể này. Lúc
này, hãy phân tích phương sai ANOVA (viết tắt từ ANalysis Of
VAriance) [4].
Ví dụ, chúng ta muốn kiểm định giả thuyết về năng suất đổ bê tông
của 4 nhóm công nhân A, nhóm B, nhóm C và nhóm D trong quá
trình làm việc tại các dự án của công ty.
5.1.1. Trường hợp một tổng thể
Giả sử các lãnh đạo công ty nghi ngờ rằng năng suất thi công cốp pha
nhôm (m2/ngày) ở các dự án đang rất thấp và thậm chí nhỏ hơn định mức
quy định. Biết rằng công ty đang thực hiện tổng cộng 50 dự án dân dụng
và công nghiệp lớn nhỏ khác nhau. Chúng ta sẽ làm gì? (xem Ví dụ 5)
Việc đầu tiên, chúng ta cần thực hiện các phân tích thống kê mô tả đã
được học ở Chương 3 để diễn giải số liệu, phân tích và đưa ra một số kết
luận nhất định. Ví dụ, có thể thực hiện trình bày dưới dạng phân tích đại
lượng mô tả (Descritives) và đồ thị (Chart) như sau:
Descriptive Statistics
N Min Max Mean Std. Variance
Deviation
Nangsuatcoppha 50 .15 2.38 1.2454 .60246 .363
Valid N (listwise) 50

89
Về mặt ý nghĩa mô tả, giá trị trung bình năng suất thi công cốp pha
nhôm của các dự án gần bằng 1.25 m2/người/ngày với độ dao động 0.60
m2/người/ngày (chiếm 0.48 = 48%). Biến động của trị trung bình khá
lớn và thay đổi không theo quy luật cho các dự án và chúng khác với
năng suất theo định mức 1.65 m2/người/ngày. Ngoài ra, có dự án năng
suất thấp nhất chỉ 0.15 m2/ngày và cũng có dự án cao nhất 2.38
m2/người/ngày.
Nếu chúng ta chỉ đưa ra kết luận này, chúng ta vẫn chưa thể kết luận
được sự khác nhau giữa năng suất thực tế của các dự án với năng suất
theo định mức có ý nghĩa thế nào? Liệu kết quả có đáng tin hay không?
Do đó chúng ta cần phải kiểm định sự khác biệt này trên phương diện
thống kê. Từ đó, giả thuyết được đặt ra như sau: (ở mức ý nghĩa 5%)
• H0: Không có sự khác biệt giữa năng suất thi công cốp pha nhôm
thực tế so với định mức (tức là giống nhau).
• HA: Có sự khác biệt giữa năng suất thi công cốp pha nhôm thực tế
so với định mức.
Trình tự thực hiện trên SPSS như sau:
• Mở menu Analyze > Compare Means > One-sample T-test

• Chọn và đưa biến qua cột Test Variables (biến kiểm định).
• Mục Option: để điều chỉnh khoảng tin cậy (Confidence Interval),
mặc định của phần mềm là 95%. Nếu bộ số liệu có các giá trị
Missing thì chọn Exclude Cases Listwise để không xem xét đến
chúng. Xong bấm Continue.

90
• Dòng Test Value: giá trị cần so sánh, trong ví dụ này nhập 1.65.
Xong bấm OK.

• Kết quả như sau:


One-Sample Statistics
N Mean Std. Std. Error
Deviation Mean
Nangsuatcoppha 50 1.2454 .60246 .08520

One-Sample Test
Test Value = 1.65
t df Sig. Mean 95% 95%
(2- Difference Confidence Confidence
tailed) Interval of Interval of
the the
Difference Difference
Lower Upper
Nangsuatcoppha -4.749 49 .000 -.40460 -.5758 -.2334

91
Kết quả cho thấy giá trị p-value (sig.) = 0.000 < 0.05 dẫn đến bác bỏ
giả thuyết rỗng H0, tức là có sự khác biệt đáng kể giữa năng suất thi công
cốp pha nhôm thực tế so với định mức. Từ đây, chúng ta có thể làm báo
cáo và đưa ra các nhận định. Sỡ dĩ khác nhau là do có nhiều dự án có năng
suất thi công cốp pha nhôm quá thấp hoặc quá cao so với định mức. Đương
nhiên, nếu chỉ giá trị năng suất cao tạo nên sự khác biệt này thì cấp quản
lý lãnh đạo sẽ không bao giờ hỏi chúng ta, và chúng ta không cần làm phân
tích này.
Hãy thử làm ví dụ này với mức ý nghĩa 1% và 10% xem kết luận có gì
khác không?
5.1.2. Trường hợp có hai tổng thể trở lên
5.1.2.1. Kiểm định t mẫu độc lập
Trong trường hợp cần so sánh trị trung bình về một chỉ tiêu nào đó giữa
hai nhóm đối tượng mà chúng ta quan tâm. Lúc này chúng ta thực hiện
phép kiểm định t mẫu độc lập (independent-sample t-test).
Ví dụ, chúng ta muốn so sánh trị trung bình về thu nhập giữa hai nhóm
đối tượng nam và nữ thì kết quả kiểm định t mẫu độc lập sẽ có sai số do
thu nhập của mỗi cá nhân chịu ảnh hưởng đồng thời của nhiều yếu tố chứ
không phải chỉ yếu tố giới tính chẳng hạn như năng lực, bằng cấp, tính chất
công việc, trình độ ngoại ngữ, chức vụ đảm nhận… Tuy nhiên, kết quả
phân tích là có ý nghĩa thống kê, còn về điều tra nguyên nhân sự khác biệt
thuộc về phân tích khác [4].
Điều kiện quan trọng của biến để thực hiện kiểm định t này là mẫu
độc lập được lấy ngẫu nhiên từ hai tổng thể và tuân theo phân phối
chuẩn (normal distribution). Trường hợp, việc lấy mẫu vi phạm điều
kiện ở trên, chúng ta phải sử dụng kiểm định Mann-Whitney để thay thế
(sẽ trình bày ở chương sau). Ngoài ra, chúng ta còn cần phải kiểm định
trước về sự bằng nhau của hai phương sai tổng thể bởi vì phương sai
phản ánh mức độ đồng đều của dữ liệu quan sát. Kết quả kiểm định có
trị trung bình hai tổng thể bằng nhau nhưng phương sai không đồng nhất
cũng không phù hợp. Hình 5 minh họa hai phân phối có trị trung bình
bằng nhau nhưng phương sai (variance), sải (spread) và khoảng (range)
hoàn toàn khác nhau. Dẫn đến đôi khi chúng ta nhầm lẫn rằng chúng
bằng nhau (trị trung bình bằng nhau).

92
(1)

(2)

µ1 = µ2
Hình 5.1. Hai phân phối có hình dạng khác nhau
Trong trường hợp này, hãy sử dụng kiểm định Levene's để kiểm tra độ
đồng nhất về phương sai trước khi thực hiện kiểm định t mẫu độc lập. Giả
thuyết của kiểm định Levene:
• H0: Không có sự khác nhau về phương sai của hai tổng thể,
• HA: Có sự khác nhau về phương sai của hai tổng thể.
Dựa vào mức ý nghĩa thống kê mà chúng ta có thể bác bỏ hay chấp
nhận giả thuyết. Khi thực hiện kiểm định, SPSS tự động phân tích kiểm
định Levene test trước khi thực hiện kiểm định trị trung bình. Lưu ý quan
trọng, kiểm định Independent-samples T-test không yêu cầu số lượng mẫu
của hai nhóm phải bằng nhau.
Trở lại Ví dụ 5, giả sử trong 50 dự án chúng ta quan sát và lấy mẫu
ngẫu nhiên đối với hai nhóm công nhân: 1 = "Loại CN A" và 2 = "Loại
CN B". Chúng ta cần xem thử liệu năng suất thi công cốp pha nhôm giữa
hai nhóm công nhân này có khác nhau không? Để thực hiện việc này, có
các điều kiện sau chúng ta phải trả lời trước các câu hỏi sau:
• Lấy mẫu ngẫu nhiên? Tùy thuộc vào cách mà chúng ta quan sát,
chọn và lấy mẫu ngẫu nhiên (random) các nhóm (tổ, đội) công nhân
trên các công trường dự án để tính toán năng suất thực tế.
• Biến độc lập với nhau? Rõ ràng khi thực hiện cốp pha của dự án
này không phụ thuộc vào dự án khác, trừ trường hợp cốp pha của
công trình này chờ cốp pha của công trình khác chuyển qua. Điều
này khó xảy ra trong thực tế.
• Số liệu thu thập có tuân theo phân phối chuẩn hay không? Nên thực
hiện trước kiểm định Shapiro-Wilk test. Vào menu Analyze >
Descriptive Statistics > Explore, sau đó đưa biến qua cột
Dependent List, tiếp theo trong mục Plot chọn vào ô Normality
plots with tests. Kết quả như sau (với độ tin cậy 95%):

93
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
nangsuatcoppha .090 50 .200* .968 50 .200
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
Kết quả cho thấy Sig. = 0.200 > 0.05 chứng tỏ dữ liệu tuân theo
phân phối chuẩn. Lưu ý, kiểm định Kolmogorov-Smirnov sử dụng cho
cả kiểm định phân phối chuẩn và phân phối không chuẩn (trình bày ở
chương sau).
• Tiếp theo, vào menu Analyze > Compare Means > Independent-
samples T-test, sau đó đưa biến kiểm định vào cột Test Variable(s)
và biến phân nhóm vào cột grouping variable.

94
• Bấm Define Group để khai báo tên nhóm cho cột Grouping
Variable: trong ví dụ này, có hai nhóm là 1 = "Loại CN A" và 2 =
"Loại CN B". Giá trị này chúng ta cần quy ước trước trong mục
Label của cửa sổ Variable View. Xong bấm Continue.

• Mục Option và Bootstrap để mặc định theo phần mềm vì liên quan
đến khoảng tin cậy 95% và vòng lặp tự động. Xong bấm OK.
• Kết quả như sau:
Group Statistics
loaiduan N Mean Std. Std. Error
Deviation Mean
Loai CN A 22 1.3523 .65488 .13962
nangsuatcoppha
Loai CN B 28 1.1614 .55544 .10497

95
Independent Samples Test
nangsuatcoppha
Equal Equal
variances variances not
assumed assumed
Levene's Test F 1.561
for Equality of
Sig. .218
Variances
t 1.115 1.093
df 48 41.209
Sig. (2-tailed) .271 .281
t-test for
Mean Difference .19084 .19084
Equality of
Std. Error Difference .17122 .17468
Means
95% Confidence Lower -.15341 -.16187
Interval of the
Upper .53510 .54356
Difference
Kết quả cho thấy Sig. của kiểm định Levene Test là 0.218 > 0.05, điều
này dẫn đến chấp nhận H0, tức phương sai cân bằng. Từ đó, kết quả của
kiểm định t-test phải lấy ở cột "Equal variances assumed" là 0.271 > 0.05.
Kết luận: Không có sự khác biệt giữa năng suất thi công cốp pha nhôm
giữa nhóm CN A và nhóm CN B. Lưu ý, cột "Equal variances not
assumed" được sử dụng khi kết quả Levene's Test nhỏ hơn 0.05, tức
phương sai không cân bằng.
5.1.2.2. Kiểm định t mẫu phụ thuộc hoặc mẫu theo cặp
Đây là loại kiểm định dùng cho hai nhóm tổng thể có liên hệ với nhau.
Dữ liệu của mẫu thu thập ở dạng thang đo định lượng khoảng cách hoặc tỷ
lệ. Quá trình kiểm định sẽ bắt đầu với việc tính toán chênh lệch giá trị trên
từng cặp quan sát, sau đó kiểm nghiệm xem chênh lệch trung bình tổng thể
có khác 0 hay không. Nếu khác không tức là có khác biệt. Ưu điểm của
phép kiểm định này là nó có khả năng loại trừ được những yếu tố tác động
bên ngoài vào nhóm đang xét.
Điều kiện áp dụng kiểm định t theo cặp (paired-samples t-test): (1) kích
cỡ hai mẫu so sánh phải bằng nhau bởi vì chúng lấy mẫu theo cặp, và (2)
chệnh lệch giữa các giá trị của hai mẫu phải tuân theo phân phối chuẩn
hoặc cỡ mẫu phải đủ lớn để xem như xấp xỉ phân phối chuẩn. Nếu không
đảm bảo cỡ mẫu đủ lớn và tuân theo phân phối chuẩn, chúng ta cần phải
96
thực hiện kiểm định phi tham số (nonparametric tests) được trình bày ở
chương sau.

Với giá trị trung bình ( d ) và độ lệch chuẩn (sd) của các mẫu, kiểm định
giả thuyết về sự khác nhau về trị trung bình như sau:
• H0: Không có sự khác biệt về hai trị trung bình tổng thể.
• HA: Có sự khác biệt về hai trị trung bình tổng thể.
Giá trị kiểm định (t) được tính theo công thức sau, trong đó n là tổng
số cặp quan sát trong mẫu [5].

d
t=
sd / n
Điều kiện chấp nhận hay bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu:

−t n −1; / 2  t  t n −1; / 2
Giá trị t tra bảng phân phối student với n-1 bậc tự do ở mức ý nghĩa
α/2.
Trở lại Ví dụ 5, sau khi bạn báo cáo kết quả kiểm định có sự khác
biệt giữa năng suất thi công cốp pha nhôm thực tế và định mức, BGĐ công
ty quyết định tổ chức các khóa huấn luyện nghề cho công nhân. Sau huấn
luyện, khảo sát lại năng suất thi công cốp pha của hai nhóm công nhân này
nhằm so sánh với trước lúc huấn luyện. Liệu năng suất có khác biệt (tăng
hay giảm) so với trước? Do cùng kiểm định trên dữ liệu của cùng nhóm
công nhân trước và sau khi huấn luyện nên sử dụng kiểm định paired-
samples t-test.
Các bước thực hiện như sau:
• Vào menu Analyze > Compare Means > Paired-samples T-test, sau
đó đưa hai biến qua cột Paired Variables. Trong ví dụ này chỉ có
một cặp.

97
• Mục Option và Bootstrap để mặc định theo phần mềm vì liên quan
đến khoảng tin cậy 95% và vòng lặp tự động. Xong bấm OK.
• Kết quả như sau:
Paired Samples Statistics
Mean N Std. Std. Error
Deviation Mean
nangsuatcoppha 1.2454 50 .60246 .08520
Pair 1
nangsuatcoppha_HL 1.4682 50 .64524 .09125

Paired Samples Correlations


N Correlation Sig.
nangsuatcoppha &
Pair 1 50 .821 .000
nangsuatcoppha_HL

Paired Samples Test


Pair 1
nangsuatcoppha -
nangsuatcoppha_HL
Mean -.22280
Paired Differences Std. Deviation .37505
Std. Error Mean .05304

98
95% Confidence Lower -.32939
Interval of the
Upper -.11621
Difference
t -4.201
df 49
Sig. (2-tailed) .000

Kết quả cho thấy, mối tương quan tuyến tính giữa năng suất cốp pha
trước và sau khi huấn luyện là rất mạnh với độ lớn 0.821 do Sig. = 0.000
< 0.05 (tức là bác bỏ H0 về giả thuyết không có mối tương quan giữa hai
biến). Ngoài ra kiểm định t-test cho thấy Sig. = 0.000 < 0.05 dẫn đến bác
bỏ H0, tức là có sự khác biệt đáng kể giữa trước và sau khi huấn luyện. Độ
tăng về năng suất (%) là (1.4682-1.2454)/1.2454 = 17.9%. Lưu ý, có những
kết quả chúng ta mong muốn nó khác nhau hoặc giống nhau. Điều này tùy
thuộc mục đích nghiên cứu.
5.2. Phân tích phương sai của tổng thể
Khi mẫu có nhiều nhóm đối tượng, nếu sử dụng kiểm định
independent-samples t-test, chúng ta phải tiến hành tách riêng hai nhóm để
kiểm định với nhau. Ví dụ, mẫu có 3 nhóm, chúng ta phải tiến hành 3 lần
kiểm định cho hai nhóm 1-2, 1-3 và 2-3. Ngoài ra, chúng ta phải định nghĩa
nhóm (define group) nhiều lần. Hơn nữa, cứ mỗi lần kiểm định cho hai
nhóm chúng ta phải chấp nhận khả năng phạm sai lầm 5% (nhiều hay ít là
do độ tin cậy chúng ta mong muốn). Như vậy thực hiện kiểm định t-test
càng nhiều lần thì khả năng sai lầm trong kết luận sẽ tăng lên theo số lần
kiểm định. Để hạn chế được 3 nhược điểm trên, chúng ta nên thực hiện
phân tích phương sai ANOVA (cũng có thể gọi kiểm định ANOVA) [4].
Nhắc lại, ngoài việc xem xét trị trung bình của dữ liệu của nhóm, chúng
ta cũng có thể sử dụng các trị số khác để đánh giá, chẳng hạn như: phương
sai, độ lệch chuẩn, khoảng, dãi và tứ trung vị. Phân tích phương sai
ANOVA giống như tên gọi của nó, nó tập trung nhiều các tính toán với
phương sai, trong đó có cả trị trung bình. Do đó, có thể nói phân tích
phương sai là sự mở rộng của kiểm định t-test vì phương pháp này giúp
chúng ta kiểm định trị trung bình từ hai nhóm trở lên. Bản chất của kỹ thuật
phân tích này dựa trên cơ sở tính toán mức độ biến thiên trong nội bộ các
nhóm và biến thiên giữa các nhóm trung bình. Dựa trên hai ước lượng sự
biến thiên này, chúng ta có thể kết luận về sự khác nhau giữa trị trung bình
của các nhóm. Phân tích phương sai trong SPSS chia thành hai loại: phân
tích phương sai một yếu tố (hay một chiều) (one-way ANOVA) và phân
tích phương sai hai yếu tố (hay hai chiều) (two-way ANOVA).

99
5.2.1. Phân tích phương sai một yếu tố
Phân tích phương sai một yếu tố sử dụng khi chúng ta chỉ có một biến
để phân loại các đặc điểm quan sát thành những nhóm nhỏ khác nhau. Bốn
giả định quan trọng đối với phân tích phương sai một yếu tố giống với các
giả định của kiểm định t-test:
• Biến độc lập;
• Lấy mẫu ngẫu nhiên;
• Dữ liệu tuân theo phân phối chuẩn, hoặc cỡ mẫu đủ lớn để xấp xỉ
là phân phối chuẩn;
• Phương sai giữa các nhóm đồng nhất.
Xin được nói thêm ở đây, không phải lúc nào điều kiện dữ liệu tuân
theo phân phối chuẩn cũng đạt. Theo lý thuyết thống kê, chúng ta đã biết,
khi cỡ mẫu đủ lớn thì hình dạng phân phối của dữ liệu của mẫu có thể xấp
xỉ phân phối của tổng thể theo như quy luật số lớn (law of large numbers).
Nếu việc lấy mẫu đảm bảo tính ngẫu nhiên và độc lập thì càng có khả năng
phân phối này sẽ là phân phối chuẩn. Ở phần trước, chúng ta đã nói đến
kiểm định Shapiro-Wilk test và Kolmogorov-Smirnov test. Cả hai kiểm
định này đều là kiểm định phân phối (distribution tests). Do đó, trong
trường hợp dữ liệu có tuân theo phân phối chuẩn nhưng phương sai không
đồng nhất, chúng ta nên thực hiện kiểm định phi tham số Kruskal-Wallis
để thay thế cho ANOVA.
Giả sử một biến x có k đặc tính quan sát (hay còn gọi là nhóm) với
tổng số lượng mẫu thu thập được là n mẫu. Ký hiệu:
• xij là giá trị định lượng quan sát của biến tại đặc tính nhóm i tại
quan sát thứ j;

• 1 ,  2 , …, k là lần lượt là giá trị trung bình của các nhóm từ 1


đến k;
•  là trung bình tính chung cho toàn mẫu của biến x.
Ví dụ: Biến lương (tức là x) của kỹ sư làm việc ở công trình xây dựng
có 4 đặc tính (hay vị trí) sau: giám đốc dự án, chỉ huy trưởng, trưởng nhóm
và kỹ sư hiện trường; từ đó k = 4. Từ đây, µ1 là trung bình lương của giám
đốc dự án, µ2 là trung bình lương của chỉ huy trưởng, µ3 là trung bình lương
của trưởng nhóm, µ4 là trung bình lương của kỹ sư hiện trường, và µ là
trung bình lương của toàn bộ kỹ sư.

100
Từ đó, giả thuyết nghiên cứu về trị trung bình của k nhóm bằng nhau
được viết lại như sau:

• H0: 1 = 2 = ... = k , có nghĩa là không có sự khác biệt về trị


trung bình giữa các nhóm (tức giống nhau).

• HA: 1  2  ...  k , có nghĩa là có sự khác biệt về trị trung bình


giữa các nhóm (tức khác nhau).
Một số đại lượng của kiểm định ANOVA một yếu tố:
(1) Tổng các bình phương (Sum of Square) [4, 6]:
• Tổng các chênh lệch bình phương trong nội bộ nhóm (within-
groups sum of square): phản ánh biến thiên ngẫu nhiên nội bộ
của biến do ảnh hưởng của nhóm đang xét.

SSW =  ( x ij − i )
k n

i =1 j =1

• Tổng các chênh lệch bình phương giữa các nhóm (between-
groups sum of square): phản ánh biến thiên ngẫu nhiên của biến
do ảnh hưởng giữa các nhóm đang xét.
k
SSG = ( i −  )
2

i =1

• Tổng các chênh lệch bình phương toàn bộ (total sum of


squares): phản ánh toàn bộ biến thiên của biến trên tổng thể.

SST =  ( x ij −  )
k n
2

i =1 j=1

Như vậy: SST = SSW + SSG.


(2) Bình phương bình quân (Mean Square) [4, 6]:
• Phương sai trong nội bộ nhóm (within-groups mean squares)
SSW
MSW =
n−k
• Phương sai giữa các nhóm (between-groups mean squares)

101
SSG
MSG =
k −1
Điều kiện bác bỏ H0 với mức ý nghĩa α:
MSG
 Fk −1,n − k, 
MSW
Trong đó, Fk-1,n-k,α là giá trị sao cho P(Fk-1,n-k > Fk-1,n-k,α) = α.
Fk-1,n-k sử dụng phân phối F với bậc tự do của tử số là (k-1) và bậc tự
do của mẫu số là (n-k).
Nếu kết quả kiểm định dẫn đến việc bác bỏ H0, chúng ta nên tiến
hành tiếp kiểm định hậu nghiệm (post-hoc test) để xác định cụ thể trung
bình khác nhau ở nhóm nào, ở đâu, hướng và độ lớn của khác biệt, từ đó
đưa ra các hướng giải quyết. Nhắc lại, không phải lúc nào chúng ta cũng
muốn trị trung bình giống nhau, mà đôi khi chúng ta lại mong muốn chúng
khác nhau (xem lại kiểm định paired-samples t-test).
Ví dụ (xem Ví dụ 6): Phân tích quan điểm đánh giá của các bên tham
gia dự án gồm chủ đầu tư, tư vấn, nhà thầu thi công và nhà cung cấp bê
tông về mức độ ảnh hưởng của yếu tố điều kiện thời tiết đến năng suất lao
động của công tác đổ bê tông. Số liệu được khảo sát thông qua bảng câu
hỏi, kết quả thu thập được 300 phiếu trả lời hợp lệ.
Dữ liệu được thu thập theo thang đo và mã hóa như sau:
• Thang đo: 1 = "không ảnh hưởng" đến 5 = "ảnh hưởng rất
nhiều".
• Bên tham gia dự án: 1 = "chủ đầu tư", 2 = "tư vấn", 3 = "nhà
thầu thi công" và 4 = "nhà cung cấp bê tông".
Giả thuyết thống kê:
• H0: Không có sự khác biệt về quan điểm đánh giá giữa các
bên tham gia dự án đối với mức độ ảnh hưởng của thời tiết
đến NSLĐ đổ bê tông.
• HA: Có sự khác biệt về quan điểm đánh giá giữa các bên tham
gia dự án đối với mức độ ảnh hưởng của thời tiết đến NSLĐ
đổ bê tông.
Các bước thực hiện trên SPSS như sau:
• Từ menu Analyze > Compare Means > One-way ANOVA.

102
• Constrasts: tương phản → nên để mặc định là tuyến tính.

• Post-hoc: kiểm định hậu nghiệm, nên chọn Tukey nếu phương sai
cân bằng và Games-Howell nếu phương sai không cân bằng. Mức
ý nghĩa 0.05. Xong bấm Continue.

103
Lưu ý: Các kiểm định khác không được trình bày trong phạm vi của
cuốn sách này.
• Options: nên chọn thống kê mô tả Desctiptives (nếu trước đó chưa
thực hiện), kiểm định độ đồng nhất phương sai (homogeneity of
variance test): đây chính là mục để chạy Levene test, và biểu đồ trị
trung bình (means plot). Các lựa chọn khác không cần thiết.

104
• Bootstrap: mặc định.
• Kết quả phân tích như sau:
Descriptives

TT
Chu dau Tu van Nha thau Nha cung Total
tu thi cong cap BT

N 93 125 68 14 300

Mean 4.2258 4.3360 4.2206 3.9286 4.2567

Std. Deviation .93401 .88849 .95956 .91687 .92030

Std. Error .09685 .07947 .11636 .24505 .05313

95% Lower
4.0334 4.1787 3.9883 4.1521
Confidence Bound
Interval for Upper
4.4182 4.4933 4.4529 4.3612
Mean Bound
Minimum 2.00 2.00 1.00 3.00 1.00

Maximum 5.00 5.00 5.00 5.00 5.00

Test of Homogeneity of Variances


TT
Levene df1 df2 Sig.
Statistic
.149 3 296 .930

ANOVA

TT
Sum of df Mean F Sig.
Squares Square

Between Groups 2.471 3 .824 .972 .406


Within Groups 250.766 296 .847
Total 253.237 299

105
Multiple Comparisons
Dependent Variable: TT
Tukey HSD
(I) BTGDA (J) Mean Std. Sig. 95% 95%
BTGDA Difference Error Confidence Confidence
(I-J) Interval Interval
Lower Upper
Bound Bound
Tu van -.11019 .12604 .818 -.4358 .2155
Nha
thau thi .00522 .14686 1.000 -.3742 .3847
Chu dau tu cong
Nha
cung .29724 .26386 .673 -.3845 .9790
cap BT
Chu dau
.11019 .12604 .818 -.2155 .4358
tu
Nha
thau thi .11541 .13869 .839 -.2429 .4738
Tu van
cong
Nha
cung .40743 .25940 .397 -.2628 1.0776
cap BT
Chu dau
-.00522 .14686 1.000 -.3847 .3742
tu
Nha thau thi Tu van -.11541 .13869 .839 -.4738 .2429
cong Nha
cung .29202 .27013 .701 -.4059 .9900
cap BT
Chu dau
-.29724 .26386 .673 -.9790 .3845
tu
Nha cung Tu van -.40743 .25940 .397 -1.0776 .2628
cap BT Nha
thau thi -.29202 .27013 .701 -.9900 .4059
cong

106
TT

Tukey HSD
BTGDA N Subset for
alpha = 0.05

Nha cung cap BT 14 3.9286


Nha thau thi cong 68 4.2206
Chu dau tu 93 4.2258
Tu van 125 4.3360
Sig. .217

Means for groups in homogeneous subsets are


displayed.
a. Uses Harmonic Mean Sample Size = 38.136.
b. The group sizes are unequal. The harmonic mean
of the group sizes is used. Type I error levels are not
guaranteed.

107
Kết quả cho thấy:
• Kiểm định độ đồng nhất phương sai: sig. = 0.149 > 0.05, tức là
phương sai đồng nhất.
• Kiểm định ANOVA: sig. 0.406 > 0.05, tức là quan điểm đánh giá giữa
các bên tham gia dự án đối với vấn đề nghiên cứu là giống nhau.
• Kiểm định hậu nghiệm Tukey HSD: tất cả sig. > 0.05, tức là có sự
khác biệt thống kê cao nhất ở "chủ đầu tư-nhà thầu thi công" với
sig. = 1.000, và thấp nhất ở "tư vấn-nhà cung cấp bê tông" với sig.
= 0.397. Do đó, chúng ta cần biện luận và giải thích vì sao lại có
sự khác biệt này dựa vào thực tiễn.
• Bảng Descriptives và biểu đồ Means Plot: tư vấn đánh giá ảnh
hưởng của thời tiết đến NSLĐ cao nhất, và Nhà cung cấp BT đánh
giá thấp nhất, trong khi đó mức đánh giá của chủ đầu tư và nhà thầu
thi công là gần bằng nhau.
5.2.2. Phân tích phương sai hai yếu tố
Phân tích phương sai hai yếu tố (two-way ANOVA) được sử dụng khi
biến nghiên cứu có hai (hoặc nhiều hơn) các yếu tố quan sát tác động đến
cùng lúc. Mỗi yếu tố có thể chứa được nhiều nhóm phân loại khác nhau.
Ví dụ: con người dễ bị bệnh khi đi ngoài đường trời nắng và khói bụi. Như
vậy, sức khỏe của chúng ta có thể bị tác động đồng thời bởi hai yếu tố là
thời tiết và khói bụi. Trong thời tiết có hai nhóm là nắng và mưa. Còn khói
bụi có một nhóm. Tuy nhiên, nếu cần chi tiết hơn, chúng ta có thể phân
chia nhóm nhỏ theo mức độ khói bụi.
Cũng giống như các kiểm định trị trung bình và phương sai khác, phân
tích phương sai ANOVA hai yếu tố cũng cần phải thỏa mãn đồng thời các
điều kiện sau:
• Biến độc lập;
• Lấy mẫu ngẫu nhiên;
• Số liệu tuân theo phân phối chuẩn;
• Phương sai cân bằng.
Ví dụ (xem Ví dụ 7): Giả sử năng suất xây tường gạch (NSXTG) của
công nhân xây dựng bị phụ thuộc (tác động) bởi hai yếu tố sau: (1) mức
độ cơ giới hóa (CGH) và (2) loại công nhân (LCN). Số liệu quan sát và thu
thập bằng bảng lấy mẫu công việc (sampling work) với 30 bộ số liệu. Mức

108
độ cơ giới hóa (CGH) hỏi theo thang đo: 1 = "Thấp", 2 = "Trung bình", và
3 = "Cao". Với thang đo này, CGH có thể được hiểu là thang đo thứ bậc
hoặc thang đo khoảng cách (vì khoảng cách giữa các thứ bậc bằng nhau).
Loại công nhân có hai loại: 1 = "Loại A" và 2 = "Loại B", và là thang đo
định danh.
Giả thuyết nghiên cứu đặt ra là:
• H01: Không có sự khác biệt về năng suất xây tường gạch giữa các
nhóm CN.
• H02: Không có sự khác biệt về năng suất xây tường gạch giữa các
mức độ cơ giới hóa.
• H03: Không có sự khác biệt về ảnh hưởng của mức độ cơ giới hóa
đến năng suất xây tường gạch so với loại CN.
Các bước tiến hành phân tích ANOVA hai yếu tố trên SPSS:
• Vào menu Analyze > General Linear Model > Univariate > Two-
way ANOVA.

• Mục Model, Contrasts, Post-hoc, Plots, Save và Bootstrap để mặc


định theo chương trình.
• Mục Options: chọn các lựa chọn Descriptive statistics, Estimates
of effect size, Observed power, Homogeneity tests tương tự phân
tích phương sai ANOVA một yếu tố. Các lựa chọn khác không cần

109
chọn vì có tính chất chuyên sâu, không cần thiết đối với các nghiên
cứu khám phá.

• Các cột Random factor(s) – yếu tố ngẫu nhiên, Covariate(s) – hiệp


phương sai, WLS weight – trọng số so sánh: không thực hiện vì là
các phân tích chuyên sâu nằm ngoài phạm vi của cuốn sách này.
• Kết quả phân tích như sau:
Between-Subjects Factors
Value Label N
1.00 Thap 11
CGH 2.00 Trung binh 9
3.00 Cao 10
1.00 Loai A 15
LCN
2.00 Loai B 15

110
Descriptive Statistics

Dependent Variable: NSXTG

CGH LCN Mean Std. Deviation N

Loai A .9720 .11367 5

Thap Loai B 1.0000 .07239 6

Total .9873 .08945 11

Loai A 1.0283 .15211 6

Trung binh Loai B 1.1800 .13454 3

Total 1.0789 .15728 9

Loai A .9875 .18500 4

Cao Loai B 1.1000 .08390 6

Total 1.0550 .13673 10

Loai A .9987 .14126 15

Total Loai B 1.0760 .10960 15

Total 1.0373 .13030 30

Levene's Test of Equality of Error


Variancesa
Dependent Variable: NSXTG
F df1 df2 Sig.
1.042 5 24 .416
Tests the null hypothesis that the error variance of
the dependent variable is equal across groups. a
a. Design: Intercept + CGH + LCN + CGH * LCN

111
Tests of Between-Subjects Effects

Dependent Variable: NSXTG


Source Type III df Mean F Sig. Partial Noncent. Observed
Sum of Square Eta Parameter Power
Squares Squared

Corrected
.125a 5 .025 1.63 .191 .253 8.144a .469
Model

Intercept 30.612 1 30.612 1998.41 .000 .988 1998.416 1.000

CGH .065 2 .032 2.12 .142 .150 4.232 .391

LCN .067 1 .067 4.342 .048 .153 4.342 .516

CGH *
.019 2 .010 .630 .541 .050 1.260 .143
LCN

Error .368 24 .015

Total 32.774 30

Corrected
.492 29
Total

a. R Squared = .253 (Adjusted R Squared = .098)

b. Computed using alpha = .05

Hai bảng đầu tiên cho thấy kết quả thống kê mô tả về mẫu dữ liệu.
Bảng thứ 3 là kết quả về kiểm định sự bằng nhau của phương sai các nhóm.
Kết quả cho thấy giả định phương sai bằng nhau không bị bác bỏ do Sig.
= 0.416 > 0.05. Bảng cuối cùng là bảng kết quả kiểm định chính. Bảng này
cho thấy yếu tố "mức độ cơ giới hóa (CGH)" có ảnh hưởng giống nhau ở
các mức độ khác nhau đến năng suất do sig. = 0.142 > 0.05; ngược lại yếu
tố "loại công nhân (LCN)" lại có ảnh hưởng khác nhau đến năng suất do
sig. = 0.048 < 0.05.
Tuy nhiên, sự tương tác giữa chúng (CGH*LCN) lại có sự ảnh hưởng
khác biệt đến năng suất. Do đó, chúng ta cần phải kiểm tra hậu nghiệm cho
biến LCN đến NSXTG. Trong trường hợp này, do biến LCN chỉ có hai
nhóm là "loại A" và "loại B" do đó không thực hiện được kiểm định hậu
nghiệm. Có hai giải pháp đưa ra lúc này: (1) chấp nhận luôn kết quả phân
tích ở trên, hoặc (2) tiến hành chia nhóm công nhân thành 3 loại và thu
thập lại.

112
5.3. Tóm tắt chương
Chương này trình bày các kiểm định về trị trung bình bao gồm: kiểm
định t một mẫu; kiểm định t hai mẫu độc lập; và kiểm định t hai mẫu phụ
thuộc. Chương này cũng trình bày về kiểm định phương hai gồm: ANOVA
một chiều và ANOVA hai chiều. Lưu ý rằng cần phải kiểm tra phân phối
của dữ liệu phải tuân theo phân phối chuẩn bằng kiểm định Shapiro-Wilk
test và mức độ cân bằng của phương sai thông qua kiểm định Levene's test
trước để đảm bảo điều kiện của kiểm định tham số thỏa mãn. Nếu chỉ quan
tâm đến trị trung bình và số nhóm dưới 2, chúng ta nên sử dụng kiểm định
t-test. Còn nếu từ hai nhóm trở lên và chúng ta quan tâm thêm đến phương
sai, hãy sử dụng kiểm định ANOVA.

113
BÀI TẬP THỰC HÀNH

Có hay không mối liên hệ giữa tiến độ thi công phần thô với loại dự án xây
dựng (đặt tên: LoaiDuAn)?
Cho số liệu thống kê tiến độ thi công phần thô của 42 dự án xây dựng nhà
cao tầng trong bảng Excel "Bài 3_Số liệu ", hãy thực hành trên máy tính
bằng phần mềm SPSS và trả lời các câu hỏi sau:
1. Biến "Loại dự án" và biến "Tiến độ thi công" là loại biến gì?
2. Kiểm tra các điều kiện của kiểm định?
Giả định các điều kiện của kiểm định là thỏa mãn, hãy trả lời các câu
hỏi sau:
3. Có sự khác nhau về mặt thống kê giữa tiến độ thực tế (đặt tên:
TienDo_ThucTe) và tiến độ mong đợi (đặt tên:
TienDo_MongDoi)?
4. Có sự khác nhau về mặt thống kê giữa tiến độ thực tế theo các loại
dự án không? (sử dụng Kiểm định ANOVA)
5. Có sự khác nhau về mặt thống kê giữa tiến độ thực tế (đặt tên:
TienDo_ThucTe) và tiến độ thực tế sau khi đầu tư máy móc hiện
tại (đặt tên: TienDo_SauDauTu)?

Xem đáp án ở Phụ lục 2

114
CHƯƠNG 6:
KIỂM ĐỊNH PHI THAM SỐ

Các kiểm định đã trình bày ở các chương trước đều đòi hỏi giả định
chặt chẽ về việc tuân theo phân phối chuẩn (hoặc cỡ mẫu đủ lớn để xấp xỉ
phân phối chuẩn). Các kiểm định này được gọi là kiểm định tham số
(Parametric Tests). Tuy nhiên, trong phân tích dữ liệu không phải lúc nào
cũng thỏa mãn điều kiện này. Lúc này, hãy sử dụng kiểm định phi tham số
(Nonparametric Tests) và kết luận từ kiểm định sẽ khác.
Trong thống kê, các kiểm định phi tham số là phương pháp phân tích
thống kê không yêu cầu phân phối để đáp ứng giả định yêu cầu sẽ được
phân tích, đặc biệt nếu dữ liệu không phân phối chuẩn. Vì lý do này, chúng
được gọi là các kiểm định không cần phân phối cụ thể của dữ liệu.
Lưu ý rằng, các kiểm định phi tham số là các giải pháp kiểm định thay
thế (alternative tests) chứ không phải có ý nghĩa loại bỏ kiểm định tham
số. Hay nói cách khác, nếu dữ liệu đáp ứng giả định yêu cầu về phân phối,
hoặc trong một vài trường hợp cỡ mẫu của dữ liệu đủ lớn, để thực hiện
kiểm định tham số thì chúng ta bắt buộc phải sử dụng một kiểm định tham
số phù hợp.
Nhược điểm của kiểm định phi tham số là khả năng tìm ra được những
khác biệt của chúng kém hơn trong những trường hợp mà các giả định của
kiểm định có tham số thỏa mãn.
Tuy nhiên, ưu điểm của kiểm định phi tham số:
- Trong những trường hợp số lượng mẫu nhỏ do vi phạm giả định về
phân phối chuẩn.
- Trong trường hợp mẫu số liệu có các giá trị quan sát bất thường,
ngoại lệ (outlier) vì những giá trị này nằm xa trung tâm sẽ không
gây ảnh hưởng lớn đến kết quả.
- Trong các trường hợp dữ liệu hiện có của chúng ta là loại dữ liệu
định danh (nominal) hay dữ liệu thứ bậc (ordinal), hoặc khi dữ liệu
khoảng cách (interval) không có phân phối chuẩn rõ ràng.
- Có thể xác định các mức ý nghĩa đối với các kiểm định phi tham
số bất chấp hình dạng phân phối của tổng thể bởi vì các kiểm định
phi tham số dựa vào hạng của dữ liệu.
Chương này giúp người học có thể hiểu được các nội dung kiểm định
phi tham số, thực hiện phân tích, và trình bày kết quả về mối liên hệ phi
115
tham số giữa hai biến. Các kiểm định này có ý nghĩa thay thế cho kiểm
định tham số trong trường hợp phân phối chuẩn không thỏa mãn. Một số
kiểm định phi tham số thường gặp tương đương (alternatives) với kiểm
định tham số như trình bày trong Bảng 6.1:
Bảng 6.1. Phạm vi thay thế của các kiểm định (hiệu chỉnh từ [4])
Kiểm định phi tham số Thay thế Kiểm định tham số
1. Kiểm định mối liên hệ
Kiểm định dấu Kiểm định Paired-samples
Kiểm định dấu và hạng T-test
Wilcoxon
Kiểm định McNemar
Kiểm định Mann-Whitney Kiểm định Independent-
samples T-test
Kiểm định Kruskal-Wallis One-way ANOVA
2. Kiểm định phân phối
Kiểm định Kolmogornov- Kiểm định Shapiro-Wilk
Smirnov

Ngoài ra, trong chương này cũng trình bày thêm về kiểm định
Kolmogornov-Smirnov và Kiểm định Chi-square một mẫu để kiểm định
giả thuyết về phân phối của tổng thể. Trong chương trước, kiểm định Chi-
square cũng là một loại kiểm định phi tham số cho trường hợp kiểm định
giả thuyết về mối liên hệ (association) ở Chương 4.
Để mở các kiểm định phi tham số trong SPSS:
Vào menu Analyze > Nonparametric tests.

116
6.1. Kiểm định dấu
Kiểm định dấu (sign tests) là một thủ tục phi tham số đơn giản nhất
được sử dụng cho hai mẫu liên hệ trong tình huống so sánh sự khác nhau
của trị trung bình của hai tổng thể mà không cần giả thuyết nào về hình
dạng phân phối của dữ liệu.
Trở lại Ví dụ 5, chúng ta có thể nghi ngờ về kết quả kiểm định Paired-
samples t-test về sự khác biệt trị trung bình giữa năng suất cốp pha trước
và sau khi huấn luyện chưa chính xác do có thể giả định về phân phối
chuẩn của dữ liệu không thỏa mãn. Như vậy, giả thuyết nghiên cứu được
phát biểu là (mức ý nghĩa 5%):
• H0: Không có khuynh hướng năng suất cốp pha sau khi được huấn
luyện cao hơn trước khi huấn luyện.
• HA: Có khuynh hướng năng suất cốp pha sau khi được huấn luyện
cao hơn trước khi huấn luyện.

117
Từng cặp điểm quan sát của từng loại công nhân được so sánh với nhau
trong hai tình huống: trước huấn luyện và sau huấn luyện. Tuy nhiên, trong
kiểm định dấu (sign test), lấy năng suất cốp pha sau huấn luyện trừ đi năng
suất trước khi huấn luyện. Lúc này sẽ có 3 trường hợp: chênh lệch dương
(+), chênh lệch âm (-) và bằng 0. Kiểm định dấu không quan tâm đến độ
lớn chênh lệch mà quan tâm nhiều đến dấu. Dấu (+) có ý nghĩa tác dụng
tích cực (trong ví dụ này là hiệu quả huấn luyện tốt), và dấu (-) có ý nghĩa
tiêu cực (trong ví dụ này là hiệu quả huấn luyện xấu). Giá trị bằng 0 không
được bỏ qua trong kiểm định này.
Trình tự thực hiện kiểm định dấu trong SPSS như sau:
• Vào menu Analyze > Nonparametric > Legacy Dialogs > 2 Related
Samples Test.

• Đưa 2 biến qua cột Test Pairs, chọn Sign trong mục Test Type.

118
• Mục Exact: theo mặc định của phần mềm.
• Mục Options: chọn các giá trị thống kê mô tả (descriptives), nếu
quan tâm thêm tứ phân vị thì chọn (quartiles). Missing value theo
mặc định của phần mềm. Xong bấm Continue.

• Bấm OK và kết quả như sau:


Descriptive Statistics
N Mean Std. Minimum Maximum
Deviation

nangsuatcoppha 50 1.2454 .60246 .15 2.38


nangsuatcoppha_HL 50 1.4682 .64524 .17 2.61

Frequencies
N
Negative
7
Differencesa
Positive
nangsuatcoppha_HL - nangsuatcoppha 42
Differencesb
Tiesc 1
Total 50
a. nangsuatcoppha_HL < nangsuatcoppha
b. nangsuatcoppha_HL > nangsuatcoppha
c. nangsuatcoppha_HL = nangsuatcoppha

119
Test Statisticsa
nangsuatcoppha_HL -
nangsuatcoppha
Z -4.857
Asymp. Sig. (2-tailed) .000
a. Sign Test

Kết quả cho thấy Asymp. Sig. = 0.000 < 0.05 dẫn đến bác bỏ H0, tức
là có khuynh hướng năng suất cốp pha sau khi được huấn luyện cao hơn
trước khi huấn luyện. Kết luận này có sự thống nhất với kiểm định Paired-
samples t-test ở chương trước.
Kiểm định dấu còn có Wilcoxon (sẽ trình bày ở phần sau), McNemar
và Marginal Homogeneity (đồng nhất biên, không xem xét trong môn học
này). Trong đó, kiểm định McNemar được sử dụng cho các biến chỉ có hai
nhóm, ví dụ giới tính nam hoặc nữ, lựa chọn mua hay không mua, thái độ
thích hay không thích… Giá trị kiểm định được tính toán theo kiểu của
kiểm định Chi-square thông thường. Tuy nhiên, giả thuyết của kiểm định
McNemar khác với giả thuyết của kiểm định Chi-square (bảng Crosstabs).
Do đó, không sử dụng thay thế cho nhau được.
6.2. Kiểm định dấu và hạng Wilcoxon
Kiểm định dấu cho mẫu phối hợp từng cặp mà chúng ta đã thực hiện ở
phần trên chỉ xét chiều hướng dương (+) hay âm (-) của chênh lệch mà bỏ
qua độ lớn. Kiểm định Wilcoxon là kiểm định xét đến cả dấu (sign) và
hạng (rank). Nó khắc phục nhược điểm này do nó sử dụng luôn thông tin
độ lớn của chênh lệch với giả thuyết rằng phân phối của hai tổng thể giống
nhau.
Các bước tính toán của kiểm định này như sau:
B1. Xác định các chênh lệch và dấu.
B2. Lấy trị tuyệt đối (để không quan tâm đến dấu).
B3. Sắp xếp các giá trị tuyệt đối này từ nhỏ đến lớn (lệch Sort trong
Excel).
B4. Xác định vị trí trong hạng với nguyên tắc: vị trí sắp xếp từ nhỏ đến
lớn và bắt đầu bằng số 1. Giá trị chênh lệch bằng 0 bỏ qua.
B5. Tính điểm hạng cho từng bộ số liệu: là trung bình của các vị trí có
cùng giá trị tuyệt đối.

120
Ví dụ: (1+2+…+10)/10 = 5.5, (11+12+…+16)/6 = 13.5. Lưu ý,
điền điểm hạng này theo cột hạng (+) và hạng (-).
B6. Tính tổng điểm hạng.
B7. Tính trung bình điểm hạng.
Điều kiện bác bỏ H0: T < Tα.
Trong đó, T: giá trị tính toán từ kiểm định;
Tα: giá trị tra bảng tương ứng với mức ý nghĩa α và số bộ
số liệu có cặp chênh lệch khác 0.
Ví dụ: (Trích từ [4], trang 170)
Trước Sau Chênh Dấu Trị Vị trí Hạng Hạng
lệch tuyệt (+) (-)
đối
7 7 0 0 Bỏ qua
7 7 0 0 Bỏ qua
6 6 0 0 Bỏ qua
8 8 0 0 Bỏ qua
7 8 +1 + 1 1 5.5
8 9 +1 + 1 2 5.5
6 5 -1 - 1 3 5.5
8 9 +1 + 1 4 5.5
7 8 +1 + 1 5 5.5
6 7 +1 + 1 6 5.5
8 7 -1 - 1 7 5.5
8 9 +1 + 1 8 5.5
9 10 +1 + 1 9 5.5
8 7 -1 - 1 10 5.5
7 9 +2 + 2 11 13.5
6 8 +2 + 2 12 13.5
7 9 +2 + 2 13 13.5
7 5 -2 - 2 14 13.5
7 9 +2 + 2 15 13.5
7 9 +2 + 2 16 13.5
Tổng điểm hạng 106 30
Trung bình điểm hạng (T) 8.83 7.50

121
Từ ví dụ ở bảng này cho thấy điểm trung bình hạng T = 8.83 < Tα = 36
(tra bảng với α = 0.05, n = 16) dẫn đến bác bỏ H0.
Kết quả phân tích SPSS với ví dụ trên như sau:
Ranks
N Mean Rank Sum of Ranks
Negative Ranks 4a 7.50 30.00
Positive Ranks 12b 8.83 106.00
Sau - Truoc
Ties 4c
Total 20
a. Sau < Truoc
b. Sau > Truoc
c. Sau = Truoc

Test Statisticsa
Sau - Truoc
Z -2.034b
Asymp. Sig. (2-tailed) .042
a. Wilcoxon Signed Ranks Test
b. Based on negative ranks.

Kết quả cho thấy Asymp. Sig. = 0.042 < 0.05 dẫn đến bác bỏ H0, tương
tự ý nghĩa của giá trị kiểm định T ở trên.
Trở lại Ví dụ 5, kết quả chạy SPSS như sau:

Ranks
N Mean Rank Sum of
Ranks
Negative Ranks 7a 26.93 188.50
nangsuatcoppha_HL - Positive Ranks 42b 24.68 1036.50
nangsuatcoppha Ties 1c
Total 50

a. nangsuatcoppha_HL < nangsuatcoppha


b. nangsuatcoppha_HL > nangsuatcoppha
c. nangsuatcoppha_HL = nangsuatcoppha

122
Test Statisticsa
nangsuatcoppha_HL -
nangsuatcoppha
Z -4.218b
Asymp. Sig. (2-tailed) .000
a. Wilcoxon Signed Ranks Test
b. Based on negative ranks.

Kết quả cho thấy Asymp. Sig. = 0.000< 0.05 dẫn đến bác bỏ H0, có xu
hướng năng suất cốp pha tăng lên giữa trước và sau khi huấn luyện.
Hãy tự thực hành tính trên Excel Ví dụ 5. Trình bày kết quả và cho
biết ý nghĩa?
6.3. Kiểm định Mann-Whitney
Kiểm định Mann-Whitney là phép kiểm định phổ biến nhất để kiểm
định giả thuyết về sự bằng nhau của trung bình hai mẫu độc lập khi các giả
định của kiểm định có tham số không thỏa mãn.
Từ đó, giả thuyết thống kê được phát biểu như sau:
• H0: Trị trung bình của hai nhóm tổng thể bằng nhau;
• HA: Trị trung bình của hai nhóm tổng thể khác nhau.
Kiểm định này có giả định rằng hai phân phối của tổng thể phải có hình
dạng giống nhau (không nhất thiết phải theo phân phối chuẩn); tức là
phương sai, trị trung bình và các phân tán (độ lệch, tứ phân vị) phải giống
nhau. Do đó, có thể nói kiểm định Mann-Whitney được dùng để kiểm định
giả thuyết về sự giống nhau của hai phân phối. Ngoài ra, kiểm định này
không đòi hỏi biến nghiên cứu phải là biến khoảng cách mà chỉ cần biến
xếp hạng là đủ.
Trong phần này, chúng ta thực hành với Ví dụ 8 về thời gian bơm bê
tông giữa máy bơm cần (06 quan sát) và máy bơm ngang (05 quan sát) cho
dự án Bệnh viện tại An Giang quy mô 5-6 tầng.
Kết quả khi tính toán thủ công trên Excel: giống kiểm định Wilcoxon,
các quan sát từ hai loại máy bơm được kết hợp lại với nhau và xếp hạng từ
giá trị nhỏ đến lớn. Các quan sát đồng hạng thì lấy theo trung bình hạng.
Chú ý, tùy vào mục đích mà xếp hạng giá trị có khi từ lớn đến nhỏ,
còn thứ tự hạng thì luôn luôn từ nhỏ đến lớn và bắt đầu bằng số 1. Ví
dụ, tuổi thọ của một ti vi càng lớn thì xếp hạng 1, tuổi thọ càng ít thì
xếp hạng thấp nhất.
123
THỜI GIAN BƠM BƠM
MẪU HẠNG
(PHÚT) CẦN NGANG
9 82.00 1 1
7 87.92 2 2
4 89.50 3 3
3 90.75 4 4
6 91.00 5 5
8 91.50 6 6
5 92.00 7 7
10 93.00 8 8.5
11 93.00 9 8.5
2 93.50 10 10
1 94.50 11 11
Tổng hạng 40 26
Hạng TB 6.67 5.20
Các bước phân tích và kết quả phân tích bằng SPSS như sau:
• Vào menu Analyze > Nonparametric test > Legacy Dialogs >
2 Independent Samples Tests.

124
• Đưa biến "TGBomBT" qua cột Test Variable và biến phân loại
"Loaimay" vào cột Grouping Variable.

• Bấm Define Groups để định nghĩa nhóm. 1 = Bơm cần, 2 = Bơm


ngang. Xong bấm Continue.

• Chọn Mann-Whitney U trong cột Test Type (các kiểm định khác
được trình bày ở phần sau). Xong bấm OK.
• Kết quả như sau:
Ranks
Loaimay N Mean Rank Sum of Ranks
Bom can 6 6.67 40.00
TGBomBT Bom ngang 5 5.20 26.00
Total 11

125
Test Statisticsa
TGBomBT
Mann-Whitney U 11.000
Wilcoxon W 26.000
Z -.732
Asymp. Sig. (2-tailed) .464
Exact Sig. [2*(1-tailed
.537b
Sig.)]
a. Grouping Variable: Loaimay
b. Not corrected for ties.

Kết quả cho thấy Asymp. Sig. = 0.464 > 0.05 dẫn đến chấp nhận H0,
tức là trị trung bình thời gian đổ bê tông giữa hai máy bơm là
giống nhau.
Giải thích: U là viết tắt của "Unpaired Groups" (không có nhóm theo
cặp), W là viết tắt của Wilcoxon có ý nghĩa là giá trị nhỏ nhất trong tổng
hạng. Giá trị Exact Sig. nghĩa là mức ý nghĩa chính xác khi không hiệu
chỉnh cho các giá trị nằm vùng biên của dữ liệu đối với các cỡ mẫu nhỏ
hơn 30.
Kiểm định Mann-Whitney được sử dụng thay cho kiểm định
Independent-samples t-test khi các giả định của kiểm định t-test không
thỏa mãn. Trường hợp thỏa mãn, cần sử dụng kiểm định t-test bởi vì nó sử
dụng nhiều thông tin từ các dữ liệu quan sát hơn là chỉ quan tâm đến hạng
và giá trị trong kiểm định Mann-Whitney.
6.4. Kiểm định Kruskal-Wallis
Kiểm định Mann-Whitney được sử dụng để xem xét sự khác biệt về
phân phối giữa hai tổng thể từ các dữ liệu của hai mẫu độc lập. Khi có ba
mẫu hay nhiều hơn, chúng ta sử dụng kiểm định Mann-Whitney mở rộng,
hay còn gọi Kiểm định Kruskal-Wallis.
Kiểm định này thay thế cho kiểm định One-way ANOVA khi các giả
định tham số không thỏa mãn. Thủ tục tính toán của kiểm định Kruskal-
Wallis giống với Mann-Whitney: tất cả các quan sát của ba nhóm (hay
nhiều hơn) được gộp lại và xếp hạng với nhau, sau đó hạng của quan sát
được cộng lại, và lấy trung bình hạng.
Quay lại Ví dụ 8, giả sử thêm phương án đổ bê tông là: 3 = "thủ công",
lúc này giả thuyết thống kê như sau:

126
• H0: trị trung bình thời gian đổ bê tông của 03 phương án bằng nhau,
• HA: trị trung bình thời gian đổ bê tông của 03 phương án khác nhau.
Các bước tiến hành tương tự Kiểm định Mann-Whitney như sau:
Vào menu Analyze > Nonparametric tests > Legacy Dialogs >
K Independent Samples.

• Define Range:

• Chọn kiểm định Kruskal-Wallis, chọn Median tổng quát hơn


nhưng không mạnh bằng, chọn Jonckheere-Terpstra khi biến dạng
thứ bậc (ordinal).
• Kết quả như sau:

127
Ranks
Phuongphap N Mean Rank
Bom can 6 6.67
Bom ngang 5 5.20
TGDoBT
Thu cong 6 14.50
Total 17

Test Statisticsa,b
TGDoBT
Chi-Square 11.244
df 2
Asymp. Sig. .004
a. Kruskal Wallis Test
b. Grouping Variable:
Phuongphap
Kết quả kiểm định cho thấy, Asymp. Sig. = 0.004 < 0.05 dẫn đến bác
bỏ H0, tức là có sự khác nhau về trung bình thời gian đổ bê tông giữa các
phương pháp đổ.
Hãy tự thực hiện ví dụ này với phân tích One-way ANOVA và so sánh
kết quả. Giải thích vì sao có sự khác nhau?
6.5. Kiểm định Chi-square
Kiểm định Chi-square thường được sử dụng phổ biến cho các biến định
tính (định danh và thứ bậc). Trong chương trước, chúng ta đã ứng dụng
kiểm định Chi-square để xem xét mối liên hệ giữa hai biến định tính. Kiểm
định Chi-square còn được vận dụng để giải quyết nhiều yêu cầu nghiên
cứu khác. Trong chương này, chúng ta chỉ xem xét kiểm định Chi-square
một mẫu. Cụ thể, chúng ta sử dụng kiểm định này để kiểm tra sự phù hợp
của dữ liệu đến giả thuyết về phân phối của tổng thể. Lý thuyết tóm tắt của
kiểm định này như chương trước, chỉ khác ở chỗ chỉ còn một biến (tức j =
1 trong công thức).
Ví dụ, chúng ta muốn nghiên cứu về các vụ tai nạn lao động (TNLĐ)
có xảy ra như nhau vào các ngày trong tuần hay không. Biết rằng trong 5
năm vừa qua công ty đã xảy ra tổng cộng 32 vụ (xem Ví dụ 9). Xu hướng
xảy ra nhiều nhất vào ngày nào? Quy luật diễn ra có gì bất thường không?
Giả thuyết nghiên cứu được phát biểu như sau:

128
• H0: Khả năng xảy ra tai nạn lao động vào các ngày là như nhau,
• HA: Khả năng xảy ra tai nạn lao động vào các ngày là khác nhau.
Nên sử dụng thống kê mô tả (xem bảng tần suất bên dưới) để xem quy
luật xảy ra tai nạn lao động của các ngày trong tuần.
TNLD
Frequency Percent Valid Percent Cumulative
Percent
Thu hai 2 6.3 6.3 6.3
Thu ba 4 12.5 12.5 18.8
Thu tu 7 21.9 21.9 40.6
Valid Thu nam 7 21.9 21.9 62.5
Thu sau 7 21.9 21.9 84.4
Thu bay 5 15.6 15.6 100.0
Total 32 100.0 100.0
Như vậy, có vẻ như thứ tư, thứ năm và thứ sáu xảy ra tai nạn nhiều
nhất? Còn thứ hai là ít nhất? Kết luận này chưa thỏa đáng vì chỉ nói lên số
lần (tần suất) mà chưa xét đến khả năng nó xảy ra. Dựa vào bảng này chúng
ta chỉ có thể kết luận một điều duy nhất rằng tần suất xảy ra tai nạn ở các
ngày trong tuần là khác nhau. Cần một kiểm định thống kê để xem xét mức
ý nghĩa của sự khác nhau này.
Các bước thực hiện Kiểm định Chi-square trên SPSS như sau:
• Vào menu Analyze > Nonparametric tests > Chi-square.

129
• Đưa biến vào Test Variable List. Các mục khác để theo mặc định.

• Kết quả phân tích như sau:


Descriptive Statistics
N Mean Std. Deviation Minimum Maximum
TNLD 32 3.8750 1.47561 1.00 6.00

TNLD
Observed N Expected N Residual
Thu hai 2 5.3 -3.3
Thu ba 4 5.3 -1.3
Thu tu 7 5.3 1.7
Thu nam 7 5.3 1.7
Thu sau 7 5.3 1.7
Thu bay 5 5.3 -.3
Total 32

130
Test Statistics
TNLD
Chi-Square 4.000a
df 5
Asymp. Sig. .549

a. 0 cells (0.0%) have expected


frequencies less than 5. The minimum
expected cell frequency is 5.3.

Cột Expected N = 32/6 = 5.3, cột Observed N = tần suất các ngày.
Giá trị Asymp. Sig. = 0.549 > 0.05 dẫn đến chấp nhận H0, tức là khả
năng xảy ra tai nạn lao động vào các ngày là như nhau.
6.6. Kiểm định Kolmogorov-Smirnov
Kiểm định Kolmogorov-Smirnov được sử dụng để kiểm định giả
thuyết phân phối của dữ liệu có phù hợp với phân phối lý thuyết chọn trước
hay không. Nó xem xét các sai lệch tuyệt đối lớn nhất giữa hai đường phân
phối tích lũy thực tế và lý thuyết. Sai lệch càng lớn thì khả năng bác bỏ giả
thuyết càng cao.
Trở lại Ví dụ 5, để xem xét liệu dữ liệu của năng suất có tuân theo một
phân phối nào không? Tức là để sử dụng kiểm định có tham số hay kiểm
định phi tham số về sau.
Hãy sử dụng kiểm định Kolmogorov-Smirnov trong SPSS:
• Vào menu Analyze > Nonparametric tests > 1-Sample K-S Test.

131
• Mục Exact và Options theo mặc định của chương trình.
• Chọn các hàm phân phối lý thuyết cần kiểm định cho dữ liệu.
Normal: phân phối chuẩn, Uniform: phân phối đều, Possion = phân
phối lệch (sử dụng cho giá trị nguyên không âm), và Exponential
= phân phối mũ. Kết quả như sau:

One-Sample Kolmogorov-Smirnov Test


nangsuatcoppha
N 50
Mean 1.2454
Normal Parametersa,b
Std. Deviation .60246
Absolute .090
Most Extreme Differences Positive .090
Negative -.069
Kolmogorov-Smirnov Z .638
Asymp. Sig. (2-tailed) .810
a. Test distribution is Normal.
b. Calculated from data.

One-Sample Kolmogorov-Smirnov Test 2


nangsuatcoppha
N 50
Minimum .15
Uniform Parametersa,b
Maximum 2.38
Absolute .097
Most Extreme Differences Positive .097
Negative -.054
Kolmogorov-Smirnov Z .686
Asymp. Sig. (2-tailed) .735
a. Test distribution is Uniform.
b. Calculated from data.

132
One-Sample Kolmogorov-Smirnov Test 3
nangsuatcoppha
N 50c
Poisson Parametera,b Mean 1.2454
a. Test distribution is Poisson.
b. Calculated from data.
c. Poisson variables are non-negative integers. The
value .15 occurs in the data. One-Sample
Kolmogorov-Smirnov Test cannot be performed.

One-Sample Kolmogorov-Smirnov Test 4


nangsuatcoppha

N 50
Exponential parameter.a,b Mean 1.2454
Absolute .230
Most Extreme Differences Positive .148
Negative -.230
Kolmogorov-Smirnov Z 1.626
Asymp. Sig. (2-tailed) .010
a. Test Distribution is Exponential.
b. Calculated from data.

Kết quả cho thấy các phân phối Normal và Uniform đều phù hợp do
Asymp. Sig. lần lượt là 0.810 và 0.735 lớn hớn 0.05, tuy nhiên phân phối
dạng mũ không phù hợp do Asymp. Sig = 0.01 < 0.05. Phân phối Possion
không sử dụng được do dữ liệu không nguyên.
6.7. Kiểm định tỷ lệ
Kiểm định tỷ lệ (ratio tests) là một kiểm định đơn giản nhất, tuy nhiên
việc tiến hành kiểm định này cần phải lưu ý:
• Biến đưa vào kiểm định phải là biến nhị phân. Nếu biến có trên hai
lựa chọn, cần khai báo điểm cắt để chia dữ liệu thành hai nhóm.
• Kiểm định này không đòi hỏi giả định về phân phối chuẩn của biến
đang xét xong số liệu phải được lựa chọn ngẫu nhiên.
133
Trở lại Ví dụ 2, giả sử chúng ta nghi ngờ về tỷ lệ số nam ngẫu nhiên
trong tổng thể có thể dưới 40% trong mọi tình huống. Lúc này giả thuyết
được đặt ra:
• H0: Tỷ lệ số nam trong tổng thể ≥ 40%;
• HA: Tỷ lệ số nam trong tổng thể < 40%.
Các bước thực hiện trên SPSS như sau:
• Do kiểm định này đòi hỏi dữ liệu phải được lấy ngẫu nhiên, nên
giả sử chúng ta chọn ngẫu nhiên 50 bộ số liệu từ tổng thể 150 bộ.
SPSS cũng hỗ trợ chúng ta cách chọn ngẫu nhiên. Vào menu Data
> Select Cases. Chọn random sample of cases. Chọn Exactly 50
trong tổng số 149 trường hợp đầu tiên. Kết quả, trong màn hình
Data View sẽ xuất hiện thêm cột Fiter_$ là do chương trình tự điền
với số 0 là dữ liệu không được chọn và số 1 là dữ liệu được chọn.
Sau đó tiến hành Clear hết các bộ số liệu không được lựa chọn. Có
thể sử dụng phím Ctrl+ để chọn cùng lúc xóa cho nhanh hơn. Cuối
cùng vào Analyze và xuất bảng Frequencies.

134
• Vào menu Analyze > Nonparametric Tests > Legacy Dialogs >
Binomial test.

• Đưa biến qua Test Variable. Cột Define Dichotomy, và mục Exact,
Options theo mặc định.
• Khai báo xác suất kiểm định (Test Proportion). Trong giả thuyết là
0.4. Xong bấm OK.

135
• Kết quả như sau:
Binomial Test
Category N Observed Test Prop. Exact Sig.
Prop. (1-tailed)

Group 1 Nu 24 .5 .4 .156
gioitinh Group 2 Nam 26 .5
Total 50 1.0

Mức ý nghĩa chính xác Exact Sig. = 0.156 > 0.05 → chấp nhận H0, tức
là tỷ lệ nam lấy ngẫu nhiên ra từ tổng thể sẽ lớn hơn 40%.
6.8. Tóm tắt chương
Chương này đã trình bày các kiểm định thống kê phi tham số gồm:
kiểm định dấu; kiểm định dấu và hạng; kiểm định trị trung bình và phương
sai; kiểm định phân phối; và kiểm định tỷ lệ. Khi các điều kiện của kiểm
định tham số không thỏa mãn, đặc biệt khi số lượng mẫu thu thập nhỏ (điều
này thường dẫn đến dữ liệu không tuân theo phân phối chuẩn), hãy chuyển
sang sử dụng các kiểm định này. Ngoài ra, trong thực tế không phải lúc
nào chúng ta cũng chỉ quan tâm đến trị trung bình mà còn các giá trị định
lượng khác như tỷ lệ, hiệu số (dấu), thứ hạng… Chính vì vậy, chương này
có giá trị cho các nghiên cứu trong những trường hợp khác thông lệ như
trình bày ở trên.

136
BÀI TẬP THỰC HÀNH

Có hay không mối liên hệ giữa thời gian đổ đất lên xe ben (đặt tên:
Thoigiandodat) với loại máy đào (đặt tên: Loaimaydao) và loại đất (đặt
tên: Loaidat)?
Cho 28 bộ số liệu thống kê thời gian đổ đất của 3 loại máy đào trong bảng
Excel "Bài 4_Số liệu ", hãy thực hành trên máy tính bằng phần mềm SPSS
và trả lời các câu hỏi sau:
1. Biến "Thời gian đổ đất" và biến "Loại máy đào" là loại biến gì?
2. Kiểm tra các điều kiện của kiểm định?
3. Thực hiện kiểm định Mann-Whitney trên Excel và cho biết thời
gian đổ đất giữa máy đào B và máy đào C có khác nhau không?
Tiến hành thực hiện kiểm định phù hợp trên SPSS và trả lời:
4. Có sự khác nhau giữa thời gian đổ đất giữa máy đào B và máy
đào C không? Có sự khác nhau giữa thời gian đổ đất giữa các loại
đất không?

Xem đáp án ở Phụ lục 2

137
CHƯƠNG 7:
PHÂN TÍCH TƯƠNG QUAN

Ở các chương trước, chúng ta đã đề cập đến việc đo lường mối liên hệ
giữa hai biến định tính, nhưng trong thực tế chúng ta cũng thường gặp
nhiều tình huống phải đo lường mức độ ảnh hưởng (effect) hay liên hệ
(association) của biến định lượng này đến biến định lượng khác. Đây được
gọi là tương quan giữa hai biến. Đại lượng đặc trưng cho vấn đề này đó là
hệ số tương quan (correlation coefficient) và chiều hướng tương quan
(correlation direction). Chương này giúp người học biết được cách định
lượng mối liên hệ giữa hai biến thông qua hệ số và chiều hướng tương
quan của nó. Trong chương này có hai phân tích tương quan gồm phân tích
tương quan Pearson và phân tích tương quan hạng Spearman. Nếu hai biến
xem xét đều là biến độc lập, phân tích tương quan giúp sớm nhận định vấn
đề đa cộng tuyến (collinearity) giữa chúng, từ đó mới đưa ra quyết định là
có hay không việc loại bỏ hoặc gộp các biến độc lập lại với nhau. Nếu hai
biến xem xét là một biến độc lập và một biến phụ thuộc thì mục đích chính
của phân tích tương quan là để chọn những biến độc lập có tương quan tốt
với biến phụ thuộc để đưa vào bước cuối cùng trong phân tích dữ liệu đó
là phát triển mô hình hồi quy về sau.

7.1. Giới thiệu chung


Trong giới hạn nội dung, cuốn sách này chỉ đề cập đến tương quan
tuyến tính giữa hai biến định lượng. Tóm tắt các đặc điểm của phân tích
tương quan như Bảng 7.1 bên dưới.
Bảng 7.1. Tóm tắt các đặc điểm của phân tích tương quan [4]
Nội dung so sánh Tương quan (correlation)
Định nghĩa Tương quan là công cụ đo lường
thống kê nhằm xác định sự liên hệ
(association) của hai biến
Hiển thị Thể hiện bằng mối liên hệ tuyến
tính giữa hai biến
Điều điện biến độc lập Có
Chỉ số Hệ số tương quan, nhằm chỉ ra mức
độ di chuyển chung của hai biến
Mục đích Để tìm ra giá trị số thể hiện mối
liên hệ giữa hai biến

138
Nhìn chung, sự liên hệ giữa hai biến thường có thể rơi vào một trong
ba loại bên dưới. Các liên hệ phi tuyến (đường gấp khúc, cong, tròn…)
không xem xét trong nội dung môn học này bởi tính phức tạp và mức độ
ứng dụng hẹp trong thực tiễn.

(a) (b) (c)


Hình (a) → Tương quan thuận (hệ số trong khoảng [0-1])
Hình (b) → Không có tương quan
Hình (c) → Tương quan nghịch (hệ số trong khoảng [-1,0])
7.2. Phân tích tương quan đơn biến
7.2.1. Giới thiệu về tương quan Pearson
Phân tích tương quan Pearson (Pearson Correlation) là một phân tích
tương quan rất phổ biến trong thống kê ứng dụng. Thông thường, chúng ta
sử dụng hệ số tương quan Pearson (ký hiệu là "r") để lượng hóa mức độ
chặt chẽ của mối liên hệ tuyến tính giữa hai biến định lượng (biến khoảng
cách và biến tỷ lệ).
Công thức như sau [7]:

Trong đó, n là số quan sát (số bộ dữ liệu);


x, y là hai biến độc lập;
x , y là giá trị trung bình của 2 biến x và y;
r là hệ số tương quan, r = [-1,1].
Giá trị tuyệt đối của r thể hiện mức độ chặt chẽ của mối liên hệ tuyến
tính. Chặt chẽ nghĩa là các điểm phân tán trong đồ thị có xu thế tập trung
theo một đường thẳng. Khi đường thẳng hướng lên thì r mang dấu dương
(thuận chiều). Khi đường thẳng hướng xuống thì r mang dấu âm (nghịch
chiều), và không có liên hệ hoặc liên hệ phi tuyến thì r = 0.
139
Ví dụ: Giả sử cho 10 bộ số liệu giữa biến x và y như trong bảng bên
dưới. Hệ số tương quan Pearson r trong công thức trên được tính trên Excel
như sau:

STT x y (x - x ) (y - y ) (x - x )2 (y - y )2 (x - x )(y - y )

1 4 34 -0.8 -1.6 0.64 2.56 1.28

2 5 38 0.2 2.4 0.04 5.76 0.48

3 6 40 1.2 4.4 1.44 19.36 5.28

4 4 30 -0.8 -5.6 0.64 31.36 4.48

5 5 36 0.2 0.4 0.04 0.16 0.08

6 3 23 -1.8 -12.6 3.24 158.76 22.68

7 5 39 0.2 3.4 0.04 11.56 0.68

8 6 38 1.2 2.4 1.44 5.76 2.88

9 4 33 -0.8 -2.6 0.64 6.76 2.08

10 6 45 1.2 9.4 1.44 88.36 11.28


Trung
bình: 4.8 35.6 Tổng: 9.6 330.4 51.2

Tử số = 51.2

Mẫu số = 56.3

r= 0.909
7.2.2. Một số đặc điểm của hệ số tương quan [4, 6]
• Giá trị r cho biết không có mối liên hệ tuyến tính giữa hai biến chưa
hẳn là hai biến đó không có mối liên hệ. Tức là, nhiều khi do số
liệu thu thập sai, dẫn đến r gần bằng 0, nhưng bản chất thực tế là
chúng có mối liên hệ. Do đó, hệ số tương quan chỉ nên sử dụng để
thể hiện mức độ chặt chẽ của liên hệ tương quan tuyến tính.
• Cần xem xét đồng thời hệ số tương quan và cả đồ thị bởi vì có khi
cùng hệ số tương quan nhưng hình dạng đồ thị lại khá khác xa nhau.
• Chúng ta hay nhầm tưởng rằng khi có hệ số tương quan tức là có
mối liên hệ nhân quả. Ví dụ, lợi nhuận của một dự án xây dựng có
thể tương quan chặt chẽ với tiến độ thi công, tuy nhiên không phải
việc tăng tiến độ thi công lại chưa chắc đem lại lợi nhuận cao.

140
• Cần cảnh giác với những mối quan hệ giả. Hai biến định lượng có
thể có hệ số tương quan rất cao nhưng thực tế lại chẳng có quan hệ
gì cả. Ví dụ, khi kiểm tra tương quan giữa số lượng dự án xây dựng
và số lượng sinh viên nhập học, chúng ta bất ngờ vì có hệ số tương
quan cao, tuy nhiên đây chỉ là kết quả tình cờ do số liệu cùng tuân
theo một quy luật tuyến tính, chứ về bản chất chúng không có quan
hệ nguyên nhân-hệ quả với nhau. Cả hai hiện tượng này đều là kết
quả của nhu cầu phát triển cơ sở hạ tầng và nhà ở của người dân
trong xã hội.
• Hệ số tương quan sẽ không thay đổi khi chúng ta thay đổi vai trò
của hai biến cho nhau trong công thức.
• Hệ số tương quan không có thứ nguyên bởi thứ nguyên ở tử số đã
khử với thứ nguyên ở mẫu số.
• Hệ số tương quan không bị ảnh hưởng bởi những phép biến đổi
đơn giản như cộng, trừ, nhân và chia tất cả các giá trị của một biến
bởi một hằng số.
7.2.3. Kiểm định giả thuyết về tương quan
Hệ số tương quan "r" dùng để phản ánh mức độ chặt chẽ của hai biến
trong mẫu. Tuy nhiên, cần kiểm tra liệu nó có phản ánh được sự tương quan
thật sự trong tổng thể hay không. Hệ số tương quan tổng thể ký hiệu là .
Lúc này giả thuyết rỗng (H0): Không có mối liên hệ nào giữa hai biến
trong tổng thể, tức là  = 0.
Để kiểm định giả thuyết này, các giả định cần phải tuân theo là:
- Mẫu ngẫu nhiên độc lập được lấy ra từ một tổng thể, và
- Số liệu theo phân phối chuẩn.
Lúc này giá trị kiểm định tính theo công thức [7]:
N−2
t=r
1 − r2
Trong đó, N là số quan sát (hay số bộ số liệu);
r là hệ số tương quan.
Nếu  = 0, phân phối sẽ tuân theo phân phối t-Student's với N-2 bậc tự
do. Chúng ta có thể sử dụng kiểm định một phía (Hình 7.1a) hay hai phía
(Hình 7.1b). Nếu không biết gì về chiều hướng của mối liên hệ, chúng ta
nên thực hiện kiểm định hai phía.

141
Như vậy, chúng ta sẽ bác bỏ giả thuyết rỗng khi giá trị t tìm ra quá lớn
hoặc quá nhỏ so với giá trị tα/2 (tra bảng). Nếu chiều hướng mối liên hệ có
thể xác định được trước thi giả thuyết chỉ bị bác bỏ khi giá trị t lớn hơn tα/2.

Diện tích = α Diện tích = α/2

t tα tα/2 t tα/2
(a) (b)
Hình 7.1. Chiều hướng bác bỏ giả thuyết rỗng
7.2.4. Thực hiện phân tích trên SPSS
Thực hiện ví dụ Ví dụ 10, giả sử các yếu tố khách quan (XA1, XA2 và
XA3) ảnh hưởng đến năng suất lao động được thu thập theo thang đo: 1 =
"không ảnh hưởng" đến 5 = "ảnh hưởng rất nhiều". Tổng cộng thu được
300 bộ số liệu. Liệu các biến này có tương quan với nhau trong tổng thể
hay không?
XA1 = Thời tiết (nắng, mưa, gió…);
XA2 = Điều kiện giao thông (kẹt xe, sự cố…);
XA3 = Khả năng cung cấp điện, nước…
Các bước thực hiện trong SPSS như sau:
• Vào menu Analyze > Correlate > Bivariate.

142
• Đưa các biến cần kiểm tra tương quan qua cột Variables.
• Phần Options: Means and standard deviations là thống kê trị trung
bình và độ lệch chuẩn, Cross-production deviations and
covariances là bảng chéo giữa độ lệch và hiệp phương sai, đây
chính là giá trị trên tử số của công thức tính hệ số tương quan "r".
Mục Bootstrap để mặc định.

• Dòng Correlation Coefficients chọn: Pearson vì đây là phân tích


mặc định về tương quan. Riêng Kendall's tau-b và Spearman là
phân tích tương quan hạng. Spearman sẽ được trình bày ở mục sau,
còn Kendall's tau-b đã trình bày ở chương trước.

143
• Dòng Test of Significance: nếu thực hiện phân tích 2 đuôi (2 chiều)
chọn two-tailed, nếu phân tích 1 đuôi (1 chiều) chọn one-tailed.
Dòng Flag significant correlations dùng để đánh dấu các hệ số
tương quan đáng kể.
• Kết quả phân tích như sau:
Descriptive Statistics
Mean Std. Deviation N
XA1 4.2567 .92030 300
XA2 3.7833 .82785 300
XA3 4.0167 .96583 300

Correlations
XA1 XA2 XA3
Pearson Correlation 1 .657** .386**
Sig. (2-tailed) .000 .000
Sum of Squares and
XA1 253.237 149.683 102.717
Cross-products
Covariance .847 .501 .344
N 300 300 300
Pearson Correlation .657** 1 .540**
Sig. (2-tailed) .000 .000
Sum of Squares and
XA2 149.683 204.917 129.083
Cross-products
Covariance .501 .685 .432
N 300 300 300
Pearson Correlation .386** .540** 1
Sig. (2-tailed) .000 .000
Sum of Squares and
XA3 102.717 129.083 278.917
Cross-products
Covariance .344 .432 .933
N 300 300 300
**. Correlation is significant at the 0.01 level (2-tailed).

Kết quả cho thấy, biến XA1 có hệ số tương quan với các biến XA2 và
XA3 lần lượt là 0.657 và 0.386, và biến XA2 có hệ số tương quan với biến
XA3 là 0.540.

144
Ngoài ra, các giá trị kiểm định t cho thấy tất cả Sig. (2-tailed) đều bằng
0.000 nhỏ hơn 0.01. Điều này chứng tỏ giả thuyết H0 bị bác bỏ, tức là các
biến có mối tương quan với nhau.
Lưu ý, mặc định của phân tích Pearson trong SPSS có mức ý nghĩa
1%, nếu muốn thay đổi giá trị này vào Bootstrap chọn dòng Confidence
Interval ở mức 95%. Lúc này kết quả sẽ thêm giá trị Sig. (2-tailed) ở mức
ý nghĩa 5% tại dòng Upper và Lower tương ứng với 0.025.
7.3. Phân tích tương quan xếp hạng
Hệ số tương quan hạng Spearman cũng giống như hệ số tương quan
Pearson nhưng nó được tính dựa vào hạng của dữ liệu chứ không dựa vào
giá trị thực của quan sát. Ví dụ, chúng ta đang quan tâm về thứ tự xếp hạng
của ti vi samsung trong tổng thể các loại ti vi, sau đó trả lời cho câu hỏi
liệu xu hướng xếp hạng của nó có thay đổi gì không?
Do đó, nếu dữ liệu ban đầu của mỗi biến có giá trị không bằng nhau,
chúng sẽ được xếp hạng trước. Sau đó, hệ số tương quan Spearman giữa
các hạng được tính toán. Lưu ý, xếp hạng từ cao đến thấp hay từ thấp đến
cao không ảnh hưởng đến kết quả tính toán hệ số tương quan hạng. Khi
thực hiện trên SPSS, chương trình sẽ tự xếp hạng.
Tương tự như phân tích Pearson, phân tích Spearman cũng có hệ số
tương quan nằm trong khoảng [-1,1]. Giá trị +1 hay -1 cho thấy mức độ
liên hệ hoàn toàn thuận hay nghịch về hạng của hai biến. Do đó, hệ số
tương quan Spearman dùng để giải thích sự liên hệ giữa các hạng chứ
không phải giữa các giá trị.
Trở lại Ví dụ 10, rõ ràng chúng ta có thể nghi ngờ thêm rằng liệu 300
đối tượng khảo sát đánh giá xếp hạng mức độ ảnh hưởng biến XA1 đến
năng suất đổ bê tông có khác nhau không.
Đối tượng khảo sát gồm: 1 = "chủ đầu tư", 2 = "tư vấn", 3 = "nhà
thầu thi công" và 4 = "nhà cung cấp bê tông". Lúc này, giả thuyết rỗng
được phát biểu như sau: H0 = Không có sự khác biệt về cách xếp hạng giữa
các nhóm đối tượng.
Để thực hiện trên SPSS, chúng ta cần phải lọc (filter) dữ liệu cột đối
tượng khảo sát theo các nhóm trong Excel trước. Sau đó copy và dán vào
SPSS theo từng nhóm. Mỗi nhóm là một cột.
Các bước thực hiện phân tích giống như phân tích Pearson, nhưng
lúc này chọn Spearman.

145
Kết quả phân tích như sau:

Correlations
CDT TV NTTC NCCBT
Correlation
1.000 .007 .214 -.126
Coefficient
CDT
Sig. (2-tailed) . .944 .079 .667
N 93 93 68 14
Correlation
.007 1.000 .085 -.117
Coefficient
TV
Sig. (2-tailed) .944 . .490 .690
Spearman's N 93 125 68 14
rho Correlation
.214 .085 1.000 -.589*
Coefficient
NTTC
Sig. (2-tailed) .079 .490 . .027
N 68 68 68 14
Correlation
-.126 -.117 -.589* 1.000
Coefficient
NCCBT
Sig. (2-tailed) .667 .690 .027 .
N 14 14 14 14
*. Correlation is significant at the 0.05 level (2-tailed).

146
Dựa vào bảng này chúng ta thấy, cách xếp hạng của NTTC và NCCBT
là giống nhau do có sig. (2-tailed) = 0.027 < 0.05, tức là bác bỏ H0. Còn
lại các cặp nhóm đối tượng khác đều có sig. lớn hơn 0.05, tức là xếp hạng
của họ đối với mức độ ảnh hưởng của XA1 đến năng suất đổ bê tông khác
nhau.
Tương tự, hãy làm thêm cho các biến XA2 và XA3, sau đó nêu nhận
xét về kết quả so với biến XA1.
7.4. Tóm tắt chương
Chương này đã trình bày các phân tích về tương quan tuyến tính giữa
hai biến bao gồm: tương quan Pearson; và tương quan hạng Spearman.
Nhờ có phân tích tương quan mà chúng ta dám đưa ra các kết luận hơn về
mối liên hệ giữa hai biến vì chúng ta biết thêm chiều hướng và độ mạnh
(hệ số tương quan).

147
BÀI TẬP THỰC HÀNH

Phân tích tương quan tuyến tính giữa hai biến: điều kiện thời tiết (đặt
tên: THOITIET) và tiến độ xây dựng (đặt tên: TIENDO). Đối tượng tham
gia khảo sát với số năm kinh nghiệm (đặt tên "SNKN "): < 5 năm, 5-10
năm và > 10 năm.
Cho 60 bộ số liệu thống kê trong bảng Excel "Bài 5_Số liệu ", SV trả
lời các câu hỏi sau:
1. Biến nào là biến độc lập, biến nào là biến phụ thuộc?
2. Thực hiện tính toán hệ số tương quan Pearson-r trong file excel,
sau đó copy kết quả bảng tính paste vào bên dưới?
3. Thực hành phân tích Pearson-r trên phần mềm SPSS, trình bày các
kết quả chính, sau đó so sánh với việc tính thủ công trong Excel?
4. Việc xếp hạng của các đối tượng có số năm kinh nghiệm khác nhau
ảnh hưởng của biến thời tiết đến tiến độ liệu có khác nhau không?

Xem đáp án ở Phụ lục 2.

148
CHƯƠNG 8:
PHÂN TÍCH HỒI QUY TUYẾN TÍNH

Nếu chúng ta kết luận được hai biến có liên hệ tương quan tuyến tính
với nhau chặt chẽ qua hệ số tương quan "r" (thường r > 0.6) và xác định
được đúng mối quan hệ nhân quả giữa chúng thì chúng ta có thể mô hình
hóa mối liên hệ của chúng bằng mô hình hồi quy tuyến tính, trong đó một
biến gọi là biến độc lập (hay biến giải thích) và một biến gọi là biến phụ
thuộc (hay biến được giải thích). Chương này giúp người học lập được mô
hình định lượng cho mối liên hệ tuyến tính giữa hai biến định lượng. Ngoài
ra, chương này còn giúp người học đánh giá độ phù hợp của mô hình dựa
vào một số chỉ số nhất định.

8.1. Giới thiệu chung


Mô hình hồi quy mô tả được hình thức của mối liên hệ, và qua đó giúp
chúng ta quan sát được mức độ biến thiên của biến phụ thuộc khi biết trước
giá trị và sự biến thiên của biến độc lập. Trong giới hạn của cuốn sách này,
chỉ hồi quy tuyến tính đơn biến được trình bày. Một số đặc điểm của hồi
quy tuyến tính trong Bảng 8.1 bên dưới.
Bảng 8.1. Một số đặc điểm của hồi quy tuyến tính [4]
Nội dung so Hồi quy (regression)
sánh
Định nghĩa Hồi quy miêu tả cách biến độc lập liên hệ số
với biến phụ thuộc
Hiển thị Thể hiện bằng đường phù hợp nhất (best fitted
line) để ước tính biến này trong những điều
kiện của biến khác
Điều điện biến Không
độc lập
Chỉ số Hồi quy chỉ ra ảnh hưởng của sự thay đổi của
một đơn vị biến độc lập vào biến phụ thuộc
Mục đích Để ước tính các giá trị của biến phụ thuộc
trên các điều kiện của biến độc lập

149
Tóm lại, khi có quan hệ nhân quả thật sự (causal relationship) giữa hai
biến thì có thể tiến hành phân tích hồi quy. Dĩ nhiên rằng phân tích hồi quy
sẽ bao gồm phân tích tương quan bên trong.
Ví dụ đơn giản về quan hệ nhân quả như sau: chúng ta đi ngoài trời nắng
nhiều, chúng ta bị bệnh. Vậy, biến thời tiết (trời nắng) là biến độc lập, và biến
sức khỏe (bị bệnh) là biến phụ thuộc. Mối quan hệ nhân quả ở đây là do thời
tiết nắng nóng có ảnh hưởng rất lớn đến sức khỏe dẫn đến bị bệnh. Tuy nhiên,
nếu nói ngược lại, chúng ta bị bệnh dẫn đến hôm đó thời tiết nắng nóng là
không đúng vì việc thời tiết nắng nóng là do mặt trời, không khí, độ ẩm và
mây quyết định. Chính vì vậy, đôi khi người ta sử dụng tên biến phụ thuộc là
biến hậu quả, còn biến độc lập là biến nguyên nhân.
Khác với đặc điểm của hệ số tương quan, hệ số hồi quy không có tính
chất đối xứng. Trong phân tích tương quan không có sự phân biệt giữa vai
trò của hai biến, còn với phân tích hồi quy chúng ta cần phải xác định thực
sự biến nào ảnh hưởng đến biến còn lại thông qua quy luật phù hợp. Trong
phạm vi môn học, chúng ta chỉ xét quy luật dạng tuyến tính (đường thẳng),
còn các quy luật khác như parabol, hyperbol, mũ, logarit… (gọi chung là
phi tuyến) không được xem xét.
Khi áp dụng phân tích hồi quy cần xác định rõ bản chất (hay quy luật)
của mối quan hệ là tuyến tính hay phi tuyến vì trong đời sống thật không
phải lúc nào cũng là tuyến tính. Có hai loại hồi quy tuyến tính sau: trường
hợp chỉ có một biến độc lập ảnh hưởng biến phụ thuộc gọi là hồi quy tuyến
tính đơn biến, và trường hợp có nhiều biến độc lập cùng ảnh hưởng một
biến phụ thuộc gọi là hồi quy tuyến tính đa biến.
8.2. Hồi quy tuyến tính đơn biến
Hồi quy đơn biến có cả tuyến tính và phi tuyến. Hồi quy phi tuyến là
hồi quy theo những hình dạng không phải đường thẳng (sẽ được nói ở phần
nâng cao). Trong chương này, chúng ta chỉ xem xét mối liên hệ tuyến tính
giữa một biến phụ thuộc và một biến độc lập. Mô hình được xây dựng từ
dữ liệu mẫu có dạng như sau:
Yi = AXi + B
Trong đó:
Xi = giá trị quan sát thứ i của biến độc lập;
Yi = giá trị dự đoán thứ i của biến phụ thuộc;
A = hệ số góc của phương trình hồi quy;
B = tung độ gốc của phương trình hồi quy, và nó là hằng số
(intercept).
150
Nguyên lý xây dựng phương trình hồi quy (xem Hình 8.1 bên dưới)
như sau: dựa vào các giá trị số liệu thực tế (quan sát), chương trình sẽ
tính khoảng cách từ điểm giá trị thực tế đến phương trình. Giá trị này
được gọi là phần dư (residuals). Phương trình hồi quy tốt nhất chính là
phương trình có tổng bình phương các phần dư là nhỏ nhất. Đây chính
là phương pháp bình phương cực tiểu thông thường (ordinary least
square, OLS).

Giá trị thực tế

Phần dư

Đường hồi quy

Hình 8.1. Đồ thị thể hiện phương pháp bình phương cực tiểu
Trước khi thực hiện hồi quy, chúng ta nên vẽ biểu đồ phân tán (scatter)
để xem xét quy luật quan hệ của hai biến từ dữ liệu. Nếu các điểm trong
đồ thị có xu hướng tập trung tạo thành một đường thẳng thì mô hình hồi
quy tuyến tính đơn có khả năng được thiết lập.
Ngoài ra, giá trị của hệ số tương quan càng cao thì khả năng xây dựng
được mô hình càng lớn. Kết hợp với việc kiểm nghiệm tính nhân quả có
hay không giữa hai biến nữa thì chúng ta có thể kết luận về mô hình.
Để hiểu rõ hơn, chúng ta xem xét Ví dụ 11 về năng suất xây tường
(NSXT) gạch và thái độ làm việc (TDLV) của 30 công nhân. Rõ ràng trên
thực tế, thái độ làm việc của công nhân càng tốt thì năng suất xây tường
(m2/ngày công) sẽ càng cao; và ngược lại. Do đó, biến phụ thuộc là biến
năng suất xây tường gạch (Y) và biến độc lập là động cơ làm việc của công
nhân (X).
Phương trình viết lại:
NSXT = A x TDLV + B
Trong đó,
A thể hiện lượng tăng giảm của năng suất xây tường gạch do thái
độ làm việc của công nhân tốt hay xấu;
B là hằng số (tung độ tại vị trí giao cắt giữa đường thẳng này với
trục tung), thể hiện giá trị năng suất lý thuyết khi thái độ làm việc
của công nhân là rất xấu (tức là công nhân có làm việc nhưng không
hiệu quả).

151
Kết quả phân tích tương quan Pearson và trình bày đồ thị phân tán
Scatter thể hiện bên dưới. Kết quả cho thấy các bộ dữ liệu dường như nằm
tập trung và có xu hướng theo đường thẳng. Hệ số tương quan Pearson
bằng 0.929 là rất cao.

1.40
1.20
1.00
0.80
0.60
0.40
0.20
0.00
0.0 2.0 4.0 6.0 8.0 10.0 12.0

Correlations

TDLV NSXT

Pearson Correlation 1 .929**

TDLV Sig. (2-tailed) .000

N 30 30

Pearson Correlation .929** 1

NSXT Sig. (2-tailed) .000

N 30 30

**. Correlation is significant at the 0.01 level (2-tailed).

Dựa vào mối liên hệ nhân quả, đồ thị thể hiện xu hướng tập trung theo
đường thẳng và hệ số tương quan cao, chúng ta có thể thực hiện phân tích
hồi quy tuyến tính giữa NSXT và TDLV của công nhân. Điều này có thể
thực hiện trên Excel hoặc SPSS.
Nếu sử dụng Excel (chỉ xem xét quan hệ giữa hai biến): nhấp vào điểm
dữ liệu trong đồ thị scatter > click chuột phải > chọn "add trendline" >
chọn Linear.

152
• Nếu muốn hiển thị phương trình trong đồ thị scatter: chọn Display
Equation on chart.
• Nếu muốn hiển thị giá trị R2 trong đồ thị: chọn Display R-squared
value on chart.
1.40
1.20 y = 0.1846x - 0.6049
R² = 0.8629
1.00
0.80
0.60
0.40
0.20
0.00
0.0 2.0 4.0 6.0 8.0 10.0 12.0

153
8.2.1. Các giả định của phân tích hồi quy
Phân tích hồi quy không phải chỉ là việc mô tả các dữ liệu quan sát
được mà còn phải suy rộng kết luận cho mối liên hệ giữa các biến trong
tổng thể. Tức là, liên hệ giữa NSXT với TDLV của toàn bộ công việc xây
tường và toàn bộ công nhân hiện đang làm việc này tại công ty. Do đó, cần
có các giả định cần thiết và các chẩn đoán về sự vi phạm các giả định.
Đương nhiên nếu vi phạm các giả định thì kết quả sẽ không còn đáng tin
cậy nữa. Trong ví dụ trên, chúng ta có thể đưa ra kết luận rằng nếu TDLV
của công nhân tốt hơn 1 đơn vị (theo thang đo) thì năng suất xây tường sẽ
tăng lên 0.185 đơn vị m2/ngày. Kết luận này còn phụ thuộc mức độ thỏa
mãn với các giả định ban đầu trước, sau đó mới có thể suy diễn kết quả ra
tổng thể.
Các giả định của phân tích hồi quy [4, 7]:
• Phân phối chuẩn và phương sai bằng nhau: đối với bất kỳ giá trị
nào của biến độc lập X thì phân phối của biến phụ thuộc Y là phân
phối chuẩn với trị trung bình của Y tại một giá trị cụ thể của X là
µ(Y/X) và phương sai không đổi 2 (xem Hình 8.2 bên dưới).
Giả thuyết này cho rằng không phải ở tất cả các dự án của công
ty, công nhân có thái độ làm việc bằng nhau sẽ có năng suất xây
tường giống nhau. Thay vì vậy, sẽ có một phân phối chuẩn của
năng suất xây tường ứng với mỗi thái độ làm việc của công nhân.
Mặc dù các phân phối này có trị trung bình khác nhau nhưng
phương sai bằng nhau.

Hình 8.2. Giả định phương sai cân bằng


• Tính độc lập: các giá trị Y độc lập thống kê với nhau, tức là quan
sát này không bị ảnh hưởng bởi quan sát khác. Tức là, quan sát
năng suất xây tường ở dự án này (hoặc của nhóm thợ này) không
lệ thuộc vào quan sát năng suất của dự án khác (hoặc của nhóm thợ
154
khác). Về mặt ảnh hưởng chung thì những quy định và biện pháp
tổ chức thi công của dự án/công ty sẽ có ảnh hưởng chung, nhưng
quan sát đo lường là độc lập với nhau.
• Sự tuyến tính: tất cả giá trị trung bình µ(Y/X) gần như nằm trên
một đường thẳng (đường hồi quy tổng thể). Tức là, giả định này
mô hình hồi quy là đúng nên cho rằng các giá trị Y được ước lượng
từ mô hình tại một giá trị cụ thể của X đều nằm trên đường hồi quy
tổng thể (xem hình trên).
Khi chỉ có một biến độc lập (X), mô hình hồi quy tuyến tính của tổng
thể (Y) được viết lại như sau:
Yi = β0 + β1*Xi + ei
Trong đó,
β0 và β1 lần lượt là hằng số và độ dốc của phương trình hồi
quy của tổng thể;
ei là sai số giữa giá trị quan sát và giá trị dự báo tại dữ liệu
thứ i.
8.2.2. Sai số khi ước lượng hồi quy cho tổng thể
Các hệ số β0 và β1 được ước lượng theo phương pháp bình phương cực
tiểu thứ cấp (OLS). Tuy nhiên, chúng chỉ được tính với một mẫu số liệu
cụ thể nên sẽ khác với giá trị β0 và β1 của tổng thể. Do đó để đảm bảo tính
chính xác về dự báo, chúng ra cần phải tuân thủ nguyên tắc khi lấy mẫu về
tính ngẫu nhiên, độc lập và số lượng yêu cầu. Các giá trị β0 và β1 cũng tuân
theo phân phối chuẩn, do đó việc ước lượng chúng cũng sẽ có các sai số
như sau [4, 7]:
• Sai số chuẩn của β0:
2
1 X
0 =  +
N (N − 1)S2X
Trong đó,
N là tổng số mẫu;
X là giá trị trung bình của biến độc lập;
Sx là phương sai mẫu.
• Sai số chuẩn của β1:

155

1 =
(N − 1)S2X
Trong đó,  là sai số chuẩn.
Do chúng ta không biết về độ lệch chuẩn của tổng thể nên chúng ta cần
ước lượng (gần đúng) từ mẫu. Chính là giá trị sai số chuẩn (Std. Error)
trong bảng Coefficients ở trên.
N

(Y −  − 1Xi )
2
i 0
= i =1

N−2
8.2.3. Đánh giá độ phù hợp của mô hình hồi quy
Khi tiến hành phân tích hồi quy tuyến tính, không có đường thẳng nào
là hoàn hảo để phản ánh đúng với tập dữ liệu đã cho. Nghĩa là luôn có sự
khác biệt giữa giá trị dự báo và giá trị thực tế quan sát được. Để đánh giá
mức độ phù hợp của mô hình hồi quy, chúng ta sử dụng thước đo có tên
gọi là hệ số xác định, ký hiệu R2 (hay R-squared).
Để xác định R2, có một số đại lượng thành phần như sau [7]:
• Tổng phần dư bình phương (Residual Sum of Squares, RSS)

RSS = ( Yi _act − Yi _ pre )


N
2

i =1

• Tổng giải thích bình phương (Explained Sum of Squares, ESS)

( )
N
ESS =  Yi _ pre − Ypre
2

i =1

• Tổng bình phương (Total Sum of Squares, TSS)

( )
N
TSS =  Yi _act − Ypre
2

i =1

Trong đó:
Yi_act và Yi_pre là giá trị quan sát và giá trị dự báo ở dữ liệu thứ i;

Ypre là trung bình các giá trị dự báo.


Như vậy: RSS + ESS = TSS

156
Để dễ trực quan hơn về 3 đại lượng trên, hãy xem Hình 8.3 bên dưới:
Yi_act
Yi_pre
Residual Sum Phần dư
of Squares (residual)
(RSS)
Total Sum
of Squares
(TSS)
Explained Sum
of Squares
(ESS)
TSS Ypre

Tung độ gốc
(intercept)

Hình 8.3. Minh họa giải thích về R2


Từ đó, R2 được tính như sau:
RSS
R2 =1−
TSS
Trong thống kê, giá trị R2 càng tiến đến 1 nghĩa là mô hình hồi quy
càng có mức độ phù hợp cao giữa giá trị dự báo với giá trị thực tế. Thông
thường, mô hình được gọi là có mức độ phù hợp tốt khi có R2 ≥ 80%.
Nếu sử dụng SPSS để phân tích hồi quy ví dụ trên:
• Vào menu Analyze > Regression > Linear.

157
• Đưa biến NSXT vào dependent, biến TDLV vào independent.
Chọn Method: Enter (có nhiều phương pháp ở mục này, sẽ trình
bày ở phần sau).
• Khai báo mục Statistics:

- Regression coefficients: chọn phần ước tính (estimates),


khoảng tin cậy (confidence intervals) mặc định 95%, không
chọn ma trận hiệp phương sai (covariance matrix).
- Chọn Model fit: canh chỉnh phù hợp mô hình.
- Không chọn R-squared change: thay đổi giá trị R2.
- Chọn Descriptives: thống kê mô tả.
- Không chọn Part and partial correlations: tương quan ban đầu
và dự báo.
- Chọn Collinearity diagnotics: chẩn đoán đa cộng tuyến.
- Residuals: phần dư, nên chọn kiểm định Durbin-Waston để
xem độ phù hợp của phần dư so với đường thẳng hồi quy.
- Không chọn Casewise diagnotics: chẩn đoán giá trị bị thiếu.
• Khai báo mục Plots:

158
- Vẽ biểu đồ giá trị dự báo và các phần dư: không cần thiết.
- Chọn Standardized residual plots: biểu đồ phần dư chuẩn hóa.
- Không chọn Produce all partial plots: biểu đồ ban đầu.
• Khai báo mục Save: trong mục này chỉ nên chọn lưu các dữ liệu về
số liệu dự báo (predicted values) và phần dư (residual) của các giá
trị chuẩn hóa và chưa chuẩn hóa. Còn lưu các giá trị khác, tùy mục
đích sử dụng mà chọn.

159
• Khai báo mục Options: nên chọn sử dụng phân phối F với giá trị
nhập vào là 0.05 và loại bỏ là 0.10. Các điều khác để mặc định.

160
• Khai báo mục Bootstrap: để mặc định. Xong bấm OK.
• Không khai báo Selection Variable, Case Labels và WLS weight.
Xong bấm OK. Kết quả như sau:
Variables Entered/Removeda
Model Variables Variables Method
Entered Removed
1 TDLVb . Enter
a. Dependent Variable: NSXT
b. All requested variables entered.

Model Summaryb
Model R R Square Adjusted R Std. Error Durbin-Watson
Square of the
Estimate
1 .929a .863 .858 .04911 1.866
a. Predictors: (Constant), TDLV
b. Dependent Variable: NSXT

ANOVAa
Model Sum of df Mean F Sig.
Squares Square
Regression .425 1 .425 176.196 .000b
1 Residual .068 28 .002
Total .492 29
a. Dependent Variable: NSXT
b. Predictors: (Constant), TDLV

Coefficientsa
Model
1
(Constant) TDLV
Unstandardized B -.605 .185
Coefficients Std. Error .124 .014

161
Standardized Coefficients Beta .929
t -4.876 13.274
Sig. .000 .000
95.0% Confidence Interval Lower Bound -.859 .156
for B Upper Bound -.351 .213
Tolerance 1.000
Collinearity Statistics
VIF 1.000
a. Dependent Variable: NSXT

Collinearity Diagnosticsa
Model Dimension Eigenvalue Condition Variance Proportions
Index (Constant) TDLV
1 1.997 1.000 .00 .00
1
2 .003 27.635 1.00 1.00

a. Dependent Variable: NSXT

162
Các kết quả ở Bảng và Hình ở trên cho thấy, phương trình hồi quy được
viết lại:
• Bảng Model Sumary: R = 0.929 gần bằng 1 chứng tỏ mức độ tương
quan giữa hai biến rất chặt chẽ, R-square = 0.863 > 0.8 chứng tỏ
độ phù hợp cao (Fit of Goodness), và hệ số R-square hiệu chỉnh =
0.858 nhỏ hơn R-square chứng tỏ biến phụ thuộc cải thiện mô hình
ít hơn mong đợi.
• Bảng ANOVA: sig. = 0.000 < 0.05 dẫn đến bác bỏ H0, tức là giá
trị dự báo (predicted values) từ phương trình hồi quy phù hợp cao
với giá trị thực tế (actual values).
• Bảng Coefficients: phương trình hồi quy viết lại: NSXT =
0.185xTDLV – 0.605, giá trị VIF (variance inflation factor) = 1.0
< 10 chứng tỏ không xảy ra hiện tượng đa cộng tuyến.
• Biểu đồ Histogram và Normal P-P plot: cho thấy phân phối của dữ
liệu.
Hãy thực hiện phân tích hồi quy với phương pháp Stepwise, Remove,
Backward và Forward và nhận xét kết quả, so sánh?
8.2.4. Kiểm tra tính hợp lệ của các giả định cần thiết
• Kiểm tra giả định về liên hệ tuyến tính:
Đối với hồi quy tuyến tính đơn biến, biểu đồ phân tán (scatter) là một
phương tiện tốt để đánh giá mức độ đường thẳng phù hợp với dữ liệu quan

163
sát. Để vẽ đồ thị scatter, trước hết chúng ta cần lưu các giá trị phần dư
chuẩn hóa (standardized residual) và giá trị dự đoán chuẩn hóa
(standardized predicted value) trong hộp thoại "Linear Regression: Save";
sau đó vẽ vào menu Graph và vẽ đồ thị.
Nếu giả định tuyến tính thỏa mãn thì phần dư phải phân tán ngẫu nhiên
trong một vùng xung quanh đường đi qua tung độ 0, chứ không tạo thành
một hình dạng nào.

• Kiểm tra giả định về phương sai của sai số không đổi:
Chúng ta cũng có thể sử dụng đồ thị scatter ở trên để kiểm tra giả định
về phương sai không đổi. Nếu độ lớn của phần dư tăng hoặc giảm cùng
với các giá trị dự đoán, chúng ta có thể nghi ngờ rằng giả định về phương
sai không đổi đã bị vi phạm. Dựa vào đồ thị scatter, nếu phương sai không
đổi thì phần dư phải phân tán ngẫu nhiên quanh đường thẳng có tung độ
bằng 0 (tức quanh giá trị trung bình của phần dư) trong một phạm vi không
đổi.
Nếu phương sai của sai số thay đổi, cần phải kiểm định thêm về giả
thuyết này. Nếu giả thuyết này đúng thì hệ số tương quan hạng tổng thể
giữa phần dư và biến độc lập sẽ khác 0.
H0: Hệ số tương quan hạng tổng thể bằng 0;
HA: Hệ số tương quan hạng tổng thể khác 0.
Đối với số lượng mẫu nhỏ (<50) có thể sử dụng kiểm định Spearman,
đối với số lượng mẫu lớn, sử dụng kiểm định White hoặc Glesjer. Lưu ý,
trước khi thực hiện kiểm định, cần phải sao lưu giá trị phần dư và lấy trị
164
tuyệt đối (đặt tên biến là Residual). Kết quả phân tích tương quan hạng
Spearman cho hai biến NSXT và Residual:
Correlations
NSXT RESIDUAL
Correlation
1.000 .264
Coefficient
NSXT
Sig. (2-tailed) . .158
N 30 30
Spearman's rho
Correlation
.264 1.000
Coefficient
RESIDUAL
Sig. (2-tailed) .158 .
N 30 30
Kết quả này cho thấy chúng ta không thể bác bỏ giả thuyết hệ số tương
quan hạng tổng thể bằng 0; tức là phương sai của sai số không thay đổi.
• Kiểm tra giả định về phân phối chuẩn của phần dư:
Phần dư có thể không tuân theo phân phối chuẩn vì những lý do như:
sử dụng sai mô hình, phương sai không phải là hằng số, số lượng các phần
dư không đủ nhiều để phân tích…
Cách đơn giản nhất là xây dựng biểu đồ tần số (histogram) và biểu đồ
P-P plot.

165
• Kiểm tra giả định về tính độc lập của sai số:
Tính độc lập của sai số (hay không có tương quan giữa các phần dư)
được kiểm định bằng kiểm định Durbin-Watson (d) [7].
N

( E − Ei −1 )
2
i
d= i=2
N

E
i=2
i
2

Đại lượng d có giá trị biến thiên trong khoảng 0 đến 4. Nếu các giá trị
phần dư không có tương quan thì d gần bằng 2. Giá trị d càng gần 0 thì
tương quan càng thuận chiều. Giá trị d càng gần 4 thì tương quan nghịch
chiều.
Giả thuyết như sau:
H0: Các phần dư không có tương quan;
HA: Các phần dư có tương quan.
Trình tự thực hiện trên SPSS:

166
Kết quả như sau:
Model Summaryb
Model R R Square Adjusted R Std. Error Durbin-
Square of the Watson
Estimate
1 .929a .863 .858 .04911 1.866

a. Predictors: (Constant), TDLV


b. Dependent Variable: NSXT

Giá trị d = 1.866 rất gần 2 nên có thể kết luận là không có tương quan
giữa các phần dư.
• Kiểm tra giả định về hiện tượng đa cộng tuyến:
Hiện tượng đa cộng tuyến (collinearity) là hiện tượng các biến độc lập
có tương quan mạnh với nhau. Kết quả của hiện tượng đa cộng tuyến là
chúng cung cấp cho mô hình những thông tin rất giống nhau và rất khó
tách rời ảnh hưởng của từng biến đến biến phụ thuộc. Hiệu ứng khác của
sự tương quan khá chặt giữa các biến độc lập là nó làm tăng độ lệch chuẩn
của các hệ số hồi quy và làm giảm trị số thống kê. Chính vì vậy, ngay cả
khi kiểm định giả thuyết về hệ số hồi quy không thể bị bác bỏ, chúng ta
không nên kết luận vội vàng trước khi thực hiện các phép dò tìm sự vi
phạm giả định. Trong SPSS, giá trị VIF (Variance Inflation Factor) được
sử dụng để chẩn đoán hiện tượng đa cộng tuyến. Trong thống kê ứng dụng,
VIF thường nhỏ hơn 10 có thể kết luận không có hiện tượng đa cộng tuyến
giữa các biến.

167
Coefficientsa
Model
1
(Constant) TDLV
Unstandardized B -.605 .185
Coefficients Std. Error .124 .014
Standardized Coefficients Beta .929
t -4.876 13.274
Sig. .000 .000
Tolerance 1.000
Collinearity Statistics
VIF 1.000

a. Dependent Variable: NSXT

Giá trị VIF = 1.000 < 10: Không có hiện tượng đa cộng tuyến.
8.3. Hồi quy tuyến tính đa biến
Hồi quy tuyến tính đa biến (Multiple Linear Regression) là hồi quy mở
rộng từ hồi quy đơn biến bằng cách thêm vào một số biến độc lập khác.
Trong thực tế, một biến độc lập bị ảnh hưởng đồng thời của nhiều biến phụ
thuộc. Quay lại ví dụ trước, biến sức khỏe không chỉ bị ảnh hưởng bởi biến
thời tiết mà còn có khả năng bị ảnh hưởng thêm bởi các biến như tuổi tác,
đồ bảo hộ, khói bụi…
Mô hình hồi quy tuyến tính đa biến như sau [7]:
168
Y = 0 + 1X1 + 2X2 + ... + n Xn + e
Trong công thức này, Xn là biểu hiện giá trị của biến độc lập, β là hệ
số hồi quy riêng phần (partial regression coefficients), và giá trị e là một
biến độc lập ngẫu nhiên có phân phối chuẩn với trung bình bằng 0 và
phương sai (2) không đổi.
Trở lại Ví dụ 11, giả sử năng suất xây tường còn bị ảnh hưởng thêm
bởi hai yếu tố khác là "mức độ trang bị dụng cụ" (TBDC) và "yêu cầu kỹ
thuật" (YCKT).

Variables Entered/Removeda
Model Variables Variables Method
Entered Removed
YCKT, TDLV,
1 . Enter
TBDCb

a. Dependent Variable: NSXT


b. All requested variables entered.

Model Summaryb
Model R R Square Adjusted R Std. Error of
Square the Estimate
1 .932a .869 .854 .04981

a. Predictors: (Constant), YCKT, TDLV, TBDC


b. Dependent Variable: NSXT

ANOVAa
Model Sum of df Mean F Sig.
Squares Square
Regression .428 3 .143 57.476 .000b
1 Residual .065 26 .002
Total .492 29

a. Dependent Variable: NSXT


b. Predictors: (Constant), YCKT, TDLV, TBDC

169
Coefficientsa
Model
1
(Constant) TDLV TBDC YCKT
Unstandardized B -.474 .183 -.002 -.011
Coefficients Std. Error .195 .014 .012 .010
Standardized
Beta .920 -.014 -.080
Coefficients
t -2.432 12.837 -.200 -1.099
Sig. .022 .000 .843 .282
95.0% Confidence Lower Bound -.874 .154 -.028 -.031
Interval for B Upper Bound -.073 .212 .023 .009
Tolerance .981 .971 .961
Collinearity Statistics
VIF 1.019 1.030 1.040
a. Dependent Variable: NSXT

Residuals Statisticsa
Minimum Maximum Mean Std. N
Deviation
Predicted Value .7529 1.2499 1.0373 .12147 30
Residual -.07598 .08392 .00000 .04717 30
Std. Predicted Value -2.342 1.750 .000 1.000 30
Std. Residual -1.525 1.685 .000 .947 30
a. Dependent Variable: NSXT

170
Đánh giá độ phù hợp, kiểm định độ phù hợp, ý nghĩa của các hệ số hồi
quy riêng phần, xác định tầm quan trọng của các biến trong mô hình?
Để thấy rõ sự ảnh hưởng của các biến, nên thực hiện đưa lần lượt từng
biến độc lập vào mô hình hồi quy bằng cách: đưa vào và bấm next lựa chọn
biến tiếp theo, như vậy sẽ có 03 mô hình được xuất ra.

171
Model Summaryd
Model R R Square Adjusted R Std. Error of
Square the Estimate
1 .929a .863 .858 .04911
2 .929b .863 .853 .05001
3 .932c .869 .854 .04981

a. Predictors: (Constant), TDLV


b. Predictors: (Constant), TDLV, TBDC
c. Predictors: (Constant), TDLV, TBDC, YCKT
d. Dependent Variable: NSXT

ANOVAa
Model Sum of df Mean Square F Sig.
Squares
Regression .425 1 .425 176.196 .000b
1 Residual .068 28 .002
Total .492 29
Regression .425 2 .212 84.955 .000c
2 Residual .068 27 .003
Total .492 29
Regression .428 3 .143 57.476 .000d
3 Residual .065 26 .002
Total .492 29
a. Dependent Variable: NSXT
b. Predictors: (Constant), TDLV
c. Predictors: (Constant), TDLV, TBDC
d. Predictors: (Constant), TDLV, TBDC, YCKT

Coefficientsa
Model
1 2
(Const.) TDLV (Const.) TDLV TBDC
Unstandardized B -.605 .185 -.602 .185 .000
Coefficients Std. Error .124 .014 .157 .014 .012

172
Standardized
Beta .929 .929 -.002
Coefficients
t -4.876 13.274 -3.839 12.999 -.031
Sig. .000 .000 .001 .000 .975
Lower
95.0% -.859 .156 -.924 .155 -.025
Bound
Confidence
Upper
Interval for B -.351 .213 -.280 .214 .025
Bound
Collinearity Tolerance 1.000 .994 .994
Statistics VIF 1.000 1.006 1.006

Coefficientsa
Model
3
(Const.) TDLV TBDC YCKT
Unstandardized B -.474 .183 .002 -.011
Coefficients Std. Error .195 .014 .012 .010
Standardized
Beta .920 -.014 -.080
Coefficients
t -2.432 12.837 -.200 -1.099
Sig. .022 .000 .843 .282
Lower
95.0% -.874 .154 -.028 -.031
Bound
Confidence
Upper
Interval for B -.073 .212 .023 .009
Bound
Collinearity Tolerance .981 .971 .961
Statistics VIF 1.019 1.030 1.040
a. Dependent Variable: NSXT

Lúc này, các mô hình được viết lại như sau:


• Mô hình 1:
NSXT = 0.185 TDLV – 0.605
• Mô hình 2:
NSXT = 0.185 TDLV + 0.0004 TBDC – 0.602

173
• Mô hình 3:
NSXT = 0.183 TDLV + 0.002 TBDC – 0.011 YCKT – 0.474
Điều này có thể thấy rằng hai biến "trang bị dụng cụ" (TBDC) và "yêu
cầu kỹ thuật" (YCKT) có ảnh hưởng rất nhỏ đến biến "năng suất xây
tường" (NSXT) so với biến "thái độ làm việc" (TDLV). Ngoài ra, biến
TDLV và TBDC có ảnh hưởng thuận chiều (do hệ số đứng trước biến mang
dấu (+)) và biến YCKT có ảnh hưởng nghịch chiều (do hệ số đứng trước
biến mang dấu (-)). Điều này rất phù hợp vì yêu cầu kỹ thuật càng cao đòi
hỏi biện pháp thi công kỹ lưỡng và công nhân phải mất thời gian hơn để
thi công đạt chất lượng. Còn thái độ làm việc càng cao và mức độ trang bị
dụng cụ càng hiện đại và đầy đủ thì chắc chắn năng suất sẽ cao.
Hãy thử thực hiện với các phương pháp đưa biến khác: Stepwise,
Remove, Backward, Forward và cho nhận xét.
8.4. Tóm tắt chương
Chương này đã trình bày các phân tích hồi quy tuyến tính bao gồm: hồi
quy tuyến tính đơn biến; và hồi quy tuyến tính đa biến. Để thực hiện phân
tích hồi quy, chúng ta cần phải kiểm tra các giả định cần thiết trước.
Phương trình hồi quy thường được sử dụng để dự báo về sau cho vấn đề
nghiên cứu. Tuy nhiên, khi xây dựng phương trình, chúng ta thường xây
dựng trên mẫu. Do đó, khi ước lượng cho tổng thể sẽ có một sai số nhất
định. Sau khi xây dựng phương trình hồi quy, cần phải kiểm tra tính hợp
lệ của nó trước khi đưa ra áp dụng, đặc biệt là mức độ giải thích (R2) và
ngưỡng giá trị (cut-off) của các biến trong mô hình.

174
BÀI TẬP THỰC HÀNH

Xác định mối liên hệ tuyến tính giữa tiến độ xây dựng (TDXD) và tổng
diện tích sàn (TDTS).
Cho 44 bộ số liệu thống kê trong bảng Excel "PBL#6_Số liệu", SV trả lời
các câu hỏi sau:
1. Biến nào là biến độc lập, biến nào là biến phụ thuộc?
2. Kiểm tra các điều kiện để thực hiện phân tích hồi quy?
3. Thực hiện phân tích hồi quy thể hiện bằng đồ thị và phương trình
trong Excel giữa biến TDXD và biến TDTS, sau đó copy dán vào
bài làm bên dưới?
4. Thực hành trên phần mềm SPSS (theo phương pháp Enter) theo
yêu cầu của câu 2, trình bày và giải thích các kết quả chính, sau đó
so sánh với việc tính thủ công trong Excel?
5. Kiểm tra các giả định của phân tích hồi quy có thỏa mãn không?

Xem đáp án ở Phụ lục 2

175
TÀI LIỆU THAM KHẢO

[1] Bảng giá đất ở Quận Thủ Đức, Ban hành theo Quyết định số
51/2014/QĐ-UBND ngày 31 tháng 12 năm 2014, đăng nhập ngày
10/9/2022. Nguồn: https://qov.vn/bang-gia-dat-quan-thu-duc-tp-ho-
chi-minh-tu-nam-2015-den-2019/
[2] Cục Thống kê TP. Hồ Chí Minh, Tình hình Kinh tế xã hội TP. Hồ
Chí Minh năm 2018, đăng nhập ngày 10/9/2022. Nguồn:
https://vietdata.vn/tinh-hinh-kinh-te-xa-hoi-tpho-chi-minh-nam-
2018-561199493
[3] The Report of EU population in 2016, accessed 10 Sep. 2022,
source: https://health.gov.ie/publications-research/statistics/
[4] Hoàng Trọng & Chu Nguyễn Mộng Ngọc (2012), Phân tích dữ
liệu nghiên cứu với SPSS, NXB Hồng Đức.
[5] DeVeaux, Velleman & Bock (2008), Intro Stats, Pearson
International, 3rd Edition, ISBN-10: 0-321-55356-X.
[6] John K. Taylor & Cheryl Cihon (2020), Statistical Techniques for
Data Analysis, CRC Press, ISBN-13: 978-0367578435.
[7] R. Lyman Ott & Michael T. Longnecker (2015), An Introduction
to Statistical Methods and Data Analysis, Cengage Learning, 7th
Edition, ISBN-13: 978-1305269477.

176
PHỤ LỤC 1
BẢNG TRA GIÁ TRỊ TỚI HẠN CỦA KIỂM ĐỊNH CHI-SQUARE

177
PHỤ LỤC 2:
SỐ LIỆU VÀ ĐÁP ÁN BÀI TẬP THỰC HÀNH

Số liệu và đáp án các bài ví dụ và bài thực hành ở cuối chương được
tra cứu theo mã QR và đường link sau:
1/ Số liệu bài ví dụ trong giáo trình:
• Mã QR:

• Đường link:
https://drive.google.com/file/d/1NFvwCDdOe35PacmkThNLYf0eALDlg
9iF/view?usp=sharing
2/ Các bài thực hành ở cuối chương:
• Mã QR:

• Đường link:
https://drive.google.com/file/d/1NXM6ubw8eRIsv2mYC7c1QPpD661pv
-xe/view?usp=sharing

178
Đáp án Chương 3: Thống kê mô tả đối tượng nghiên cứu

1. Tìm vị trí số liệu bị sai:


Vị trí số liệu bị sai: 263, 316, 205.
Ý nghĩa kết quả: Có thể do sự sai sót (nhầm lẫn) trong việc khảo sát
hoặc do đối tượng khảo sát trả lời sai dẫn đến việc dữ liệu và số liệu
bị sai.
2. Bảng tần suất để đếm công nhân theo bậc thợ:
BacTho
Frequency Percent Valid Percent Cumulative
Percent
Tho Bac 1-2 59 17.1 17.1 17.1
Tho Bac 3-4 81 23.5 23.5 40.6
Tho Bac 5 65 18.8 18.8 59.4
Valid Tho bac 6 68 19.7 19.7 79.1
Tho bac 7 72 20.9 20.9 100.0
Total 345 100.0 100.0

Ý nghĩa kết quả: Bậc nghề của công nhân có sự dàn trải gần đều
nhau, mức thấp nhất là thợ bậc 1-2 với tỷ lệ 17.1%, mức cao nhất là
thợ bậc 3-4 với tỷ lệ 23.5%. Mức độ chênh lệch không lớn ~ 6.4%
cho thấy trình độ của thợ trải đều trong các bậc.
3. Bảng các đại lượng mô tả:
Descriptive Statistics
NangSuat Valid N
(listwise)
N Statistic 345 345
Range Statistic 18.99
Minimum Statistic .00
Maximum Statistic 18.99
Mean Statistic 4.8854
Std. Deviation Statistic 4.62589
Variance Statistic 21.399
Statistic 1.063
Skewness
Std. Error .131
Statistic .318
Kurtosis
Std. Error .262

179
Ý nghĩa kết quả: Từ 345 đối tượng nghiên cứu, ta có các thông số
bao gồm: năng suất cốt thép thấp nhất của thợ là 0 kg/ngày, năng
suất cốt thép cao nhất của thợ là 18.99 kg/ngày. Năng suất cốt thép
trung bình của thợ là 4.8854 kg/ngày. Độ lệch chuẩn năng suất cốt
thép của thợ là 4.62589 kg/ngày. Cho thấy độ chênh lệch năng suất
lao động của thợ cao.
4. Thủ tục Explore:

180
Ý nghĩa kết quả: Cho thấy mức độ năng suất của thợ ở các bậc khác
nhau có sự chênh lệch khác nhau. Hầu như ở các bậc thợ có mức
năng suất xấp xỉ từ 0-10 kg/ngày chiếm tỷ trọng lớn.
5. Giá trị ngoại lệ của thợ bậc 5: Không có.
6. Đồ thị hình bánh bậc thợ:

181
Đáp án Chương 4: Kiểm định mối liên hệ
giữa hai biến định tính

1. Biến "KS Xây dựng" và biến "Loại việc làm" là biến gì?
"KS Xây dựng ": biến định danh.
"Loại việc làm ": biến định danh.
2. Bảng tổng hợp hai biến:
ksxd * loaivieclam Crosstabulation
loaivieclam Total
thiet giam QS khac
ke sat
vua tot Count 36 40 23 40 139
nghiep <1 % within
nam 31.9% 35.4% 24.2% 36.7% 32.3%
loaivieclam
Count 33 46 39 38 156
tot nghiep
ksxd % within
3-5 nam 29.2% 40.7% 41.1% 34.9% 36.3%
loaivieclam
Count 44 27 33 31 135
tot nghiep
>5 nam % within
38.9% 23.9% 34.7% 28.4% 31.4%
loaivieclam
Count 113 113 95 109 430
Total % within 100.0 100.0 100.0
100.0% 100.0%
loaivieclam % % %

- SV mới ra trường (< 1 năm):


Việc làm thích nhất: Giám sát; Tần suất: 40
Việc làm ít thích nhất: QS; Tần suất: 23
- Thích làm "giám sát" nhiều nhất: Nhóm sinh viên tốt nghiệp 3-
5 năm 40.7%.
- Thích làm "QS" nhiều nhất: Nhóm sinh viên tốt nghiệp 3-5 năm
41.1%.
3. Phát biểu Giả thuyết nghiên cứu:
- Giả thuyết rỗng H0: Không có sự liên hệ giữa KS xây dựng và
loại việc làm.
- Giả thuyết thay thế HA: Có sự liên hệ giữa KS xây dựng và loại
việc làm.

182
4. Kết quả kiểm định:
Chi-Square Tests

Value df Asymp. Sig. (2-


sided)

Pearson Chi-Square 10.459a 6 .107


Likelihood Ratio 10.709 6 .098
Linear-by-Linear Association .568 1 .451
N of Valid Cases 430

a. 0 cells (0.0%) have expected count less than 5. The minimum


expected count is 29.83.

Directional Measures
Value Asymp. Approx. Approx.
Std. Tb Sig.
a
Error
Symmetric -.032 .043 -.734 .463
Ordinal by ksxd Dependent -.030 .041 -.734 .463
Somers' d
Ordinal loaivieclam
-.034 .046 -.734 .463
Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.

5. Ý nghĩa kết quả:


P-value = 0.463 > 0.05 => chấp nhận giả thuyết H0: Không có sự
liên hệ giữa KS xây dựng và loại việc làm.

183
Đáp án Chương 5: Kiểm định mối liên hệ giữa biến định tính
và biến định lượng

1. Biến "Loại dự án" và biến "Tiến độ thi công" là loại biến gì?
- Loại dự án: biến định danh.
- Tiến độ thi công: biến định lượng.
2. Kiểm tra các điều kiện của kiểm định:
- Tính độc lập: Mỗi dự án có tiến độ thi công khác nhau. Sự thực
hiện tiến độ của mỗi dự án đôi khi có chút ràng buộc lẫn nhau.
Ví dụ, vì các dự án sử dụng chung số lượng giàn giáo nên dự án
này phải đợi dự án kia xong thì mới chuyển giàn giáo qua để thi
công, vì vậy có thể làm ảnh hưởng tiến độ. Tuy nhiên, những
việc này hiếm xảy ra trong thực tế.
- Tính ngẫu nhiên: Việc lấy mẫu đo lường tiến độ trên được thực
hiện theo phương thức lấy mẫu ngẫu nhiên trong số các dự án
đang thực hiện.
- Phân phối chuẩn:
Tests of Normality

Kolmogorov-Smirnova Shapiro-Wilk

Statistic df Sig. Statistic df Sig.

TDTCTT .094 42 .200* .954 42 .088

*. This is a lower bound of the true significance.


a. Lilliefors Significance Correction

Sig = 0.088>0.05 → tuân theo phân phối chuẩn.


3. Kiểm định Sự khác nhau về mặt thống kê giữa tiến độ thực tế và
tiến độ mong đợi:
One-Sample Statistics

N Mean Std. Deviation Std. Error Mean


TDTCTT 42 71.9524 23.92565 3.69181

184
One-Sample Test

Test Value = 66

t df Sig. (2- Mean 95% Confidence Interval of the


tailed) Difference Difference

Lower Upper
TDTCTT 1.612 41 .115 5.95238 -1.5034 13.4081

Sig = 0.115>0.05 → chấp nhận giả thuyết H0: không có sự khác biệt
giữa tiến độ thực tế và tiến độ mong đợi.
4. Kiểm định Sự khác nhau về mặt thống kê giữa tiến độ thực tế và
loại dự án:
Group Statistics

Loaiduan N Mean Std. Deviation Std. Error Mean

Chung cu 25 68.96 22.334 4.467


TDTCTT
Van phong 17 76.35 26.156 6.344

Independent Samples Test

TDTCTT

Equal variances Equal variances


assumed not assumed

Levene's Test F 1.784


for Equality of
Sig. .189
Variances
t -.983 -.953

df 40 30.758

Sig. (2-tailed) .332 .348


t-test for
Mean Difference -7.393 -7.393
Equality of
Std. Error Difference 7.524 7.758
Means
95% Confidence Lower -22.601 -23.221
Interval of the
Upper 7.815 8.436
Difference

185
Dựa vào kiểm định T-test, có sig=0.332>0.05 → tức là không có sự
khác biệt giữa tiến độ thực tế và loại dự án.
5. Kiểm định Sự khác nhau về mặt thống kê giữa tiến độ thực tế và
tiến độ sau khi đầu tư máy móc hiện tại:
Paired Samples Statistics

Mean N Std. Deviation Std. Error Mean

TDTCTT 71.95 42 23.926 3.692


Pair 1
TDTCTT_DT 96.10 42 28.226 4.355

Paired Samples Correlations

N Correlation Sig.

Pair 1 TDTCTT & TDTCTT_DT 42 -.095 .551

Paired Samples Test

Pair 1

TDTCTT -
TDTCTT_DT

Mean -24.143

Std. Deviation 38.690

Paired Differences Std. Error Mean 5.970

95% Confidence Interval of Lower -36.200


the Difference Upper -12.086
t -4.044
df 41
Sig. (2-tailed) .000

Ta thấy giá trị Sig ở kiếm định T-test là 0.00<0.05 → nghĩa là có sự


khác biệt giữa tiến độ thực tế và tiến độ sau khi đầu tư máy móc hiện
đại. Độ tăng về năng suất là 33.5%.

186
Đáp án Chương 6: Kiểm định phi tham số

1. Biến "Thời gian đổ đất" và biến "Loại máy đào" là loại biến gì?
- Thời gian đổ đất là biến định lượng.
- Loại máy đào là biến định danh.
2. Kiểm tra các điều kiện của kiểm định:
- Tính độc lập và Tính ngẫu nhiên: Mỗi loại máy đào khi hoạt
động đào đất trong thực tế là độc lập với nhau. Mỗi máy được
điều khiển bởi một thợ lái máy. Do đó, nó đảm bảo tính độc lập.
Việc lấy mẫu cũng đảm bảo quan sát đo lường ngẫu nhiên giữa
các lần đo. Quan sát đo của máy này xong, sẽ quan sát tiếp máy
khác. Thời điểm đo lường cũng khác nhau cho mỗi buổi. Chính
vì vậy, điều kiện ngẫu nhiên đảm bảo.
- Kích thước mẫu theo loại máy đào: Với kích cỡ mẫu 28 là quá
nhỏ vì trên thực tế số lần đào đất của một máy đào trong một
năm hoạt động là rất nhiều.
- Phân phối chuẩn:
Tests of Normality

Kolmogorov-Smirnova Shapiro-Wilk

Statistic df Sig. Statistic df Sig.

Thoi_gian .209 28 .003 .878 28 .004

a. Lilliefors Significance Correction

Kết quả: sig. = 0.004 < 0.05 → Không tuân theo phân phối
chuẩn.
3. Kết quả thực hiện kiểm định Mann-Whitney trên Excel: (copy
bảng tính dán bên dưới và kết luận)
Loại
Thời
Mẫu máy Hạng Máy B Máy C
gian
đào
3 10 2 1 2
19 10 2 2 2
11 10 3 3 2

187
14 11 2 4 4
6 12 2 5 5.5
23 12 3 6 5.5
25 13 2 7 7.5
7 13 3 8 7.5
15 14 2 9 9.5
16 14 3 10 9.5
17 17 3 11 11
1 19 2 12 12
22 21 2 13 14
2 21 3 14 14
27 21 3 15 14
28 22 3 16 16
4 25 3 17 18
9 25 3 18 18
13 25 3 19 18
Tổng
56.5 133.5
hạng
Hạng
7.06 12.14
TB

Kết quả kiểm định trên SPSS:


4. Kiểm định sự khác nhau giữa thời gian đổ đất giữa máy đào B
và máy đào C:
Descriptive Statistics

N Mean Std. Deviation Minimum Maximum

Thoigiando 28 15.86 5.268 10 25


Loaimaydao 28 2.07 .858 1 3

Ranks

Loaimaydao N Mean Rank Sum of Ranks


May B 8 7.06 56.50

Thoigiando May C 11 12.14 133.50

Total 19

188
Test Statisticsa
Thoigiando
Mann-Whitney U 20.500
Wilcoxon W 56.500
Z -1.953
Asymp. Sig. (2-tailed) .051
Exact Sig. [2*(1-tailed Sig.)] .051b

a. Grouping Variable: Loaimaydao


b. Not corrected for ties.

Kết luận: Do giá trị Asymp. Sig=0.051>0.05 → chấp nhận giả thuyết H0:
Không có sự khác nhau về thời gian đào đất giữa máy đào B và máy đào C.
5. Kiểm định sự khác nhau giữa thời gian đổ đất giữa các loại đất:
Descriptive Statistics

N Mean Std. Deviation Minimum Maximum

Thoigiando 28 15.86 5.268 10 25


Loaidat 28 1.54 .508 1 2

Ranks

Loaidat N Mean Rank Sum of Ranks

Mem 13 13.65 177.50

Thoigiando Cung 15 15.23 228.50

Total 28

Test Statisticsa

Thoigiando

Mann-Whitney U 86.500
Wilcoxon W 177.500
Z -.510
Asymp. Sig. (2-tailed) .610
Exact Sig. [2*(1-tailed Sig.)] .618b

a. Grouping Variable: Loaidat


b. Not corrected for ties.

Kết luận: Không có sự khác nhau giữa thời gian đổ đất và các loại đất
do giá trị Sig=0.61>0.05.

189
Đáp án Chương 7: Phân tích tương quan

1. Loại biến gì?


- Biến độc lập: thời tiết.
- Biến phụ thuộc: tiến độ xây dựng.
2. Kết quả thực hiện Excel:
(xi-
xi yi xi-xtb yi-ytb xtb)*(yi- (xi- (yi-
ytb) xtb)^2 ytb)^2
Thời Tiến
STT tiết độ
1 5 1 2.0833 -1.0167 -2.1181 4.34 1.03
2 2 1 -0.9167 -1.0167 0.9319 0.84 1.03
3 1 2 -1.9167 -0.0167 0.0319 3.67 0.00
4 3 3 0.0833 0.9833 0.0819 0.01 0.97
5 4 3 1.0833 0.9833 1.0653 1.17 0.97
6 5 2 2.0833 -0.0167 -0.0347 4.34 0.00
7 3 2 0.0833 -0.0167 -0.0014 0.01 0.00
8 3 3 0.0833 0.9833 0.0819 0.01 0.97
9 1 3 -1.9167 0.9833 -1.8847 3.67 0.97
10 2 2 -0.9167 -0.0167 0.0153 0.84 0.00
11 3 3 0.0833 0.9833 0.0819 0.01 0.97
12 3 3 0.0833 0.9833 0.0819 0.01 0.97
13 2 1 -0.9167 -1.0167 0.9319 0.84 1.03
14 2 1 -0.9167 -1.0167 0.9319 0.84 1.03
15 3 1 0.0833 -1.0167 -0.0847 0.01 1.03
16 4 2 1.0833 -0.0167 -0.0181 1.17 0.00
17 5 1 2.0833 -1.0167 -2.1181 4.34 1.03
18 3 3 0.0833 0.9833 0.0819 0.01 0.97
19 2 3 -0.9167 0.9833 -0.9014 0.84 0.97
20 2 1 -0.9167 -1.0167 0.9319 0.84 1.03
21 5 1 2.0833 -1.0167 -2.1181 4.34 1.03
22 1 1 -1.9167 -1.0167 1.9486 3.67 1.03
23 3 2 0.0833 -0.0167 -0.0014 0.01 0.00

190
24 5 2 2.0833 -0.0167 -0.0347 4.34 0.00
25 1 3 -1.9167 0.9833 -1.8847 3.67 0.97
26 3 2 0.0833 -0.0167 -0.0014 0.01 0.00
27 3 3 0.0833 0.9833 0.0819 0.01 0.97
28 5 1 2.0833 -1.0167 -2.1181 4.34 1.03
29 4 1 1.0833 -1.0167 -1.1014 1.17 1.03
30 3 3 0.0833 0.9833 0.0819 0.01 0.97
31 3 3 0.0833 0.9833 0.0819 0.01 0.97
32 1 1 -1.9167 -1.0167 1.9486 3.67 1.03
33 1 2 -1.9167 -0.0167 0.0319 3.67 0.00
34 2 2 -0.9167 -0.0167 0.0153 0.84 0.00
35 2 1 -0.9167 -1.0167 0.9319 0.84 1.03
36 5 1 2.0833 -1.0167 -2.1181 4.34 1.03
37 1 2 -1.9167 -0.0167 0.0319 3.67 0.00
38 4 2 1.0833 -0.0167 -0.0181 1.17 0.00
39 2 2 -0.9167 -0.0167 0.0153 0.84 0.00
40 4 3 1.0833 0.9833 1.0653 1.17 0.97
41 2 3 -0.9167 0.9833 -0.9014 0.84 0.97
42 1 3 -1.9167 0.9833 -1.8847 3.67 0.97
43 1 2 -1.9167 -0.0167 0.0319 3.67 0.00
44 3 3 0.0833 0.9833 0.0819 0.01 0.97
45 4 2 1.0833 -0.0167 -0.0181 1.17 0.00
46 4 1 1.0833 -1.0167 -1.1014 1.17 1.03
47 2 3 -0.9167 0.9833 -0.9014 0.84 0.97
48 1 2 -1.9167 -0.0167 0.0319 3.67 0.00
49 5 2 2.0833 -0.0167 -0.0347 4.34 0.00
50 1 1 -1.9167 -1.0167 1.9486 3.67 1.03
51 5 3 2.0833 0.9833 2.0486 4.34 0.97
52 5 1 2.0833 -1.0167 -2.1181 4.34 1.03
53 1 3 -1.9167 0.9833 -1.8847 3.67 0.97
54 3 2 0.0833 -0.0167 -0.0014 0.01 0.00
55 4 3 1.0833 0.9833 1.0653 1.17 0.97
56 5 1 2.0833 -1.0167 -2.1181 4.34 1.03

191
57 2 1 -0.9167 -1.0167 0.9319 0.84 1.03
58 1 3 -1.9167 0.9833 -1.8847 3.67 0.97
59 4 1 1.0833 -1.0167 -1.1014 1.17 1.03
60 5 2 2.0833 -0.0167 -0.0347 4.34 0.00
2.9167 2.0167 -12.9167 120.58 40.98
70.299
r= -0.18

3. Kết quả thực hiện Pearson trên SPSS:


Correlations
thoitiet tiendo
Pearson Correlation 1 -.184
thoitiet Sig. (2-tailed) .160
N 60 60
Pearson Correlation -.184 1
tiendo Sig. (2-tailed) .160
N 60 60

Nhận xét: Kết quả cho thấy biến thời tiết có hệ số tương quan với
tiến độ là -0.184 (tương quan yếu). Sig. = 0.16 >0.05 => chấp nhận H0,
tức là các biến có mối tương quan với nhau.
4. Kết quả thực hiện Spearman trên SPSS:
Correlations
< 5nam 5-10nam >10nam
Correlation Coefficient 1.000 .272 -.560*
< 5nam Sig. (2-tailed) . .308 .024
N 16 16 16
Correlation Coefficient .272 1.000 -.424
Spearman's
5-10nam Sig. (2-tailed) .308 . .090
rho
N 16 17 17
Correlation Coefficient -.560* -.424 1.000
>10nam Sig. (2-tailed) .024 .090 .
N 16 17 27
*. Correlation is significant at the 0.05 level (2-tailed).

Kết quả: Cách xếp hạng của công nhân kinh nghiệm làm việc nhỏ
hơn 5 năm với lớn hơn 10 năm là khác nhau vì sig là 0.024 < 0.05 các
cặp còn lại có sig > 0.05 => xếp hạng của họ đối với mức độ ảnh hưởng
thời tiết tới tiến độ là giống nhau.

192
Đáp án Chương 8: Phân tích hồi quy tuyến tính

1. Loại biến gì?


- Biến độc lập: tổng diện tích sàn (TDTS).
- Biến phụ thuộc: tiến độ xây dựng (TDXD).
2. Kiểm tra 3 điều kiện của phân tích hồi quy: xu hướng, tương
quan và tính "nhân-quả ".

Tiến độ (ngày)
800
700
600
500
400
300
200
100
0
0 1000 2000 3000 4000 5000 6000

Nhìn qua đồ thị trên, có một số nhận xét như sau:


- Xu hướng: có xu hướng tổng diện tích sàn càng tăng thì tiến độ
càng tăng. Trong các điểm giá trị, có hai điểm cách khá xa so
với trung tâm.
- Tương quan: tương quan thuận.
- Tính "nhân quả": Khi thi công xây dựng, khối lượng sàn càng
lớn thì tiến độ sẽ phải càng lâu vì chúng ta mất thời gian để thi
công.
3. Kết quả thực hiện Excel:

193
Tiến độ (ngày)
800
y = 0.0937x + 103.43
600 R² = 0.6939
400

200

0
0 1000 2000 3000 4000 5000 6000

Giải thích:
R2 = 69.39% là khá cao → tức là, phương trình hồi quy có mức
độ giải thích tốt cho mối quan hệ giữa biến độc lập (diện tích
sàn) và biến phụ thuộc (tiến độ).
Giá trị tung độ gốc là 103.43, tức là khi diện tích sàn bằng 0,
chúng ta vẫn phải tiêu tốn 103.43 ngày. Số ngày này có thể hiểu
là ngày chúng ta mua vật tư, chuẩn bị máy móc, gia công… Nếu
chúng ta cho rằng, các việc làm trên không nằm trong tiến độ
xây dựng, thì hãy hồi quy bằng phương trình khác có tung độ
gốc bằng 0 như sau:
Tiến độ (ngày)
800
700 y = 0.1312x
600 R² = 0.9381
500
400
300
200
100
0
0 1000 2000 3000 4000 5000 6000

Lúc này giá trị R2 sẽ giảm còn 55.47%. Tuy nhiên, phương trình
hồi quy giữa diện tích sàn và tiến độ xây dựng sẽ phản ánh đúng
thực tiễn hơn.
194
4. Kết quả thực hiện SPSS:
Descriptive Statistics

Mean Std. Deviation N

TDXD 309.8182 125.96221 44


TDTS 2201.6818 1119.29789 44

Correlations

TDXD TDTS

TDXD 1.000 .833


Pearson Correlation
TDTS .833 1.000
TDXD . .000
Sig. (1-tailed)
TDTS .000 .
TDXD 44 44
N
TDTS 44 44

Variables Entered/Removeda

Model Variables Variables Method


Entered Removed

1 TDTSb . Enter

a. Dependent Variable: TDXD


b. All requested variables entered.

Model Summaryb

Model R R Square Adjusted R Std. Error of the Durbin-Watson


Square Estimate

1 .833a .694 .687 70.52057 2.481


a. Predictors: (Constant), TDTS
b. Dependent Variable: TDXD

195
ANOVAa

Model Sum of Squares df Mean Square F Sig.

Regression 473386.225 1 473386.225 95.188 .000b

1 Residual 208872.321 42 4973.150

Total 682258.545 43

a. Dependent Variable: TDXD


b. Predictors: (Constant), TDTS

Coefficientsa

Model Unstandardized Standardized t Sig.


Coefficients Coefficients

B Std. Beta
Error

(Constant) 103.431 23.675 4.369 .000


1
TDTS .094 .010 .833 9.756 .000

a. Dependent Variable: TDXD

Coefficientsa

95.0% Collinearity
Confidence Statistics
Interval for B
Lower Upper Tolerance VIF
Bound Bound

55.653 151.210
.074 .113 1.000 1.000

a. Dependent Variable: TDXD

Coefficient Correlationsa

Model TDTS

Correlations TDTS 1.000


1
Covariances TDTS 9.231E-005
a. Dependent Variable: TDXD

196
Collinearity Diagnosticsa

Model Dimension Eigenvalue Condition Index Variance Proportions

(Constant) TDTS

1 1.894 1.000 .05 .05


1
2 .106 4.217 .95 .95

a. Dependent Variable: TDXD

Residuals Statisticsa

Minimum Maximum Mean Std. N


Deviation

Predicted Value 152.8324 633.3469 309.8182 104.92370 44

Residual -122.39278 185.30145 .00000 69.69574 44

Std. Predicted
-1.496 3.083 .000 1.000 44
Value

Std. Residual -1.736 2.628 .000 .988 44

a. Dependent Variable: TDXD

Nhận xét về các kết quả chính:


- Trị trung bình: tiến độ xây dựng gần 310 ngày với tổng diện tích
sàn khoảng 2200 m2.
- Tương quan: hệ số tương quan rất cao (r = 0.833) chứng tỏ mối
quan hệ rất chặt chẽ và thuận chiều;
- Phương pháp đưa số liệu: enter (hãy thử thực hiện với các
phương pháp khác và so sánh sự khác nhau);
- Mức độ giải thích: R2 = 0.694.
- Sig. ANOVA = 0, tức là có sự khác nhau giữa giá trị dự báo và
giá trị quan sát, điều này không ảnh hưởng đến kết quả vì chúng
ta không quan tâm đến sự khác nhau này;
- Phương trình hồi quy được viết lại: TDXD = 0.094 x TDTS +
103.431.

197
5. Kiểm tra 5 giả định: liên hệ tuyến tính, phương sai của sai số
không đổi, phân phối chuẩn của phần dư, tính độc lập của sai số,
và hiện tượng đa cộng tuyến.
- Các giá trị trong đồ thị có xu hướng liên hệ tuyến tính. Có
quan hệ rất chặt chẽ do có r = 0.833. Ngoài ra, các phần dư
không có xu hướng liên hệ tuyến tính cũng là một minh chứng
tốt cho điều này.

- Mức độ xếp hạng của phần dư với biến phụ thuộc TDXD có sig.
= 0.001 < 0.01 tức là có sự khác nhau của các sai số. Giả thuyết
này bị vi phạm.
- Phân phối chuẩn của phần dư:

198
- Kiểm tra tính độc lập của sai số: Giá trị d của kiểm định Durbin-
Watson bằng 2.481 cũng khá gần 2 nên có thể thấy không có
mối tương quan giữa các phần dư.
- Kiểm tra hiện tượng đa cộng tuyến: Giá trị VIF = 1 < 10, chứng
tỏ không xảy ra hiện tượng đa cộng tuyến.

199
Giáo trình phân tích thống kê cơ bản
trong quản lý xây dựng bằng SPSS

Hà Duy Khánh, Nguyễn Thanh Tú, Nguyễn Văn Minh


Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh

NHÀ XUẤT BẢN ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

Trụ sở:
Phòng 501, Nhà Điều hành ĐHQG-HCM, P. Linh Trung, TP Thủ Đức, TP.HCM.
ĐT: 028 62726361
E-mail: vnuhp@vnuhcm.edu.vn

Chịu trách nhiệm xuất bản và nội dung


TS ĐỖ VĂN BIÊN
Biên tập
TRẦN THỊ ĐỨC LINH
Sửa bản in
ÁI NHẬT
Trình bày bìa
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỒ HỒ CHÍ MINH
Đối tác liên kết
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỒ HỒ CHÍ MINH

Xuất bản lần thứ 1. Số lượng in: 250 cuốn, khổ 16 x 24cm. Số
XNĐKXB: 324-2023/CXBIPH/1-04/ĐHQGTPHCM. QĐXB số: 41/QĐ-NXB
cấp ngày 10/4/2023. In tại: Công ty TNHH In & Bao bì Hưng Phú. Địa chỉ:
162A/1, KP1A, phường An Phú, TP Thuận An, tỉnh Bình Dương. Nộp lưu
chiểu: Năm 2023. ISBN: 978-604-73-9627-6.
Bản quyền tác phẩm đã được bảo hộ bởi Luật Xuất bản và Luật Sở hữu
trí tuệ Việt Nam. Nghiêm cấm mọi hình thức xuất bản, sao chụp, phát tán nội
dung khi chưa có sự đồng ý của tác giả và Nhà xuất bản.

ĐỂ CÓ SÁCH HAY, CẦN CHUNG TAY BẢO VỆ TÁC QUYỀN!


ISBN: 978-604-73-9627-6
NXB ĐHQG-HCM

9 7 86047 39 6276
ISBN: 978-604-73-9627-6
NXB ĐHQG-HCM

9 786047 396276

You might also like