Professional Documents
Culture Documents
MỤC LỤC
6.1.2. Các loại sai lầm trong kiểm định giả thuyết .................................................... 92
6.1.3. Quy trình tổng quát trong kiểm định giả thuyết .............................................. 92
6.2. Kiểm định trung bình tổng thể................................................................................ 94
6.2.1. Kiểm định Z ..................................................................................................... 94
6.2.2. Kiểm định t ...................................................................................................... 95
6.3. Kiểm định giả thuyết về sự bằng nhau giữa hai trung bình tổng thể ...................... 96
6.3.1. Kiểm định dựa trên phối hợp từng cặp ............................................................ 96
6.3.2. Kiểm định dựa trên mẫu độc lập ..................................................................... 99
6.4. Kiểm định phương sai của hai tổng thể ................................................................ 105
6.5. Phân tích phương sai (ANOVA) .......................................................................... 107
6.5.1. Phân tích phương sai một nhân tố ................................................................. 107
6.5.2. Phân tích phương sai hai nhân tố ................................................................... 110
6.6. Sử dụng SPSS để kiểm định trung bình tổng thể ................................................. 116
6.6.1. Kiểm định trung bình tổng thể so với một giá trị cho trước .......................... 117
6.6.2. Kiểm định trung bình giữa hai nhóm độc lập ................................................ 118
6.6.3. Kiểm định trung bình nhiều hơn hai nhóm.................................................... 120
TÓM TẮT CHƯƠNG 6 .............................................................................................. 126
CÂU HỎI ÔN TẬP CHƯƠNG 6 ................................................................................ 129
BÀI TẬP THỰC HÀNH CHƯƠNG 6 ........................................................................ 129
TÀI LIỆU THAM KHẢO ............................................................................................... 133
PHỤ LỤC ........................................................................................................................ 134
Chương 1.
Mục tiêu
1. Trình bày được một số phần mềm dùng để xử lý thống kê.
2. Khởi động và nhập dữ liệu được với phần mềm SPSS.
3. Trình bày được các bước để mã hóa biến, tính toán biến và lập bảng tần suất
với SPSS.
4. Trình bày được các lỗi nhập liệu và cách khắc phục.
5. Cài được bộ công cụ Data Analysis ToolPak vào Excel.
Chương này giới thiệu hai phần mềm xử lý thống kê phổ biến hiện nay là Excel và SPSS.
Nội dung chương tập trung vào giới thiệu các thao tác với phần mềm SPSS như các thao tác với
tập tin, tìm hiểu cửa sổ biến và cửa sổ dữ liệu, nhập biến và nhập dữ liệu, mã hóa, tính toán biến,
lập bảng thống kê mô tả các đặc trưng của biến. Đồng thời, chương này cũng giới thiệu bộ công
cụ thống kê trong Excel, đó là Data Analysis ToolPak.
Trang 1
- Alt + F4
Các thao tác trên file:
- Tạo file mới: File → New
- Mở file: File→ Open
- Để mở một file dữ liệu từ Excel, chọn kiểu tập tin Excel trong hộp chọn Files of Type.
Hình 1.2. Hộp thoại lựa chọn vùng dữ liệu Excel cần lấy
Dòng Worksheet cho biết là trong tập tin BANG THONG KE.XLS có bao nhiêu Sheet
chứa dữ liệu và mức độ dàn trải của dữ liệu. Nếu chọn dòng chữ Read variable names from the
Trang 2
fisrt row of data, thì SPSS sẽ lấy tên biến giống như tên đã được nhập sẵn trong Excel. Nếu muốn
lấy hết toàn bộ nội dung của Sheet [A1:J18] trong minh hoạ trên thì nhấn Continue. Nếu chỉ
muốn lấy một phần nội dung trong sheet thì nhập thông tin vào Range. Chẳng hạn, nếu không lấy
cột A thì gõ vào Range là B1:J18 rồi nhấn Continue.
- Lưu file: File → Save
- Tương tự như khi mở file, có thể lưu file dữ liệu sang kiểu tập tin Excel bằng cách lựa
chọn kiểu tập tin (Save of type) là Excel.
- Đóng file: File → Close
Trang 3
Trang 4
+ Tên phải bắt đầu bằng một chữ. Các ký tự còn lại có thể là bất kỳ chữ nào, bất kỳ số
nào, hoặc các biểu tượng như @, #, _, hoặc $.
+ Tên biến không được kết thúc bằng một dấu chấm.
+ Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (để tránh xung đột với các
biến được tự động lập bởi một vài thủ tục).
+ Độ dài của tên biến có thể dài đến 64 ký tự.
+ Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) không được sử dụng.
+ Từng tên biến phải đơn chiếc/duy nhất; không được phép trùng lặp. Các tên
NEWVAR, NewVar, và newvar được xem là giống nhau.
- Loại dữ liệu {Type}
Trang 5
Hình 1.5. Hộp thoại khai báo giá trị khuyết thiếu
- Độ rộng của cột {Columns}
- Căn lề {Align}
- Thang đo {Measure}:
Trang 6
+ Scale: Nhập các con số liên tục, ví dụ như chiều cao (cm), cân nặng (kg), tuổi thọ
của con người (năm). Các phép tính số học như cộng, trừ, bình quân hoặc phương sai
là có ý nghĩa với các biến được đo đạc bằng thang đo này. Thang đo này được dùng
cho biến định lượng.
+ Nominal (thang đo định danh): Là đánh số hoặc gán chuỗi dạng ngắn cho các biểu
hiện của một biến được gọi là biến định danh (nominal variable). Các trị số của biến
định danh chỉ biểu hiện các nhóm không có thứ bậc hơn kém. Nếu biến định danh
được đo bằng các con số thì giữa các con số ở đây không có quan hệ hơn kém, do vậy
mọi phép tính đại số với chúng đều vô nghĩa. Ví dụ, hai biểu hiện của biến giới tính
có thể được biểu hiện như sau: 1 = nam và 0 = nữ.
+ Ordinal (thang đo thứ bậc): Là thang đo định danh nhưng các giá trị của biến lại
có quan hệ thứ bậc hơn kém. Ví dụ học lực có thể xác định bằng 4 biểu hiện: 1 = giỏi,
2 = khá, 3 = trung bình, 4 = kém. Các thang đo Nominal, Ordinal được dùng cho biến
định tính.
Trang 7
Để Recode lại chính X, thực hiện lệnh Transform → Recode into Same Variables. Để
Recode qua một biến khác, thực hiện lệnh Transform → Recode into Different Variables. Hộp
thoại xuất hiện như sau.
- Chọn biến X cần mã hóa, ví dụ biến tuoi, kích nút để chuyển biến này vào Input
Variable.
Trang 8
Hình 1.7. Hộp thoại khai báo biến cần mã hóa (X), biến mã hóa (Y)
- Chọn Old and New Values để xuất hiện hộp thoại khai báo các giá trị sau.
Hình 1.8. Hộp thoại khai báo vùng giá trị cần mã hóa và giá trị mã hóa
- Kích Add để thêm vùng giá trị mã hóa vào hộp Old → New. Tiếp tục thực hiện để nhóm
tuổi từ 31→40: nhóm 2, từ 41 trở lên → 3.
Trang 9
Hình 1.9. Hộp thoại khai báo vùng giá trị cần mã hóa và giá trị mã hóa
1.1.4. Lệnh Compute Variable
Trong trường hợp cần tạo ra các biến mới dựa trên dữ liệu của một hay nhiều biến cũ,
nhưng giá trị mới là một biểu thức phức tạp thì không dùng Recode mà phải dùng Compute.
Ví dụ, cần tạo ra biến mới là BMI (Body Mass Index) dựa trên Cân nặng và Chiều cao
của mỗi đối tượng nghiên cứu, BMI = cân nặng (kg)/chiều cao(m)* chiều cao(m). Thao tác thực
hiện như sau.
- Vào Transform → Compute Variable, hộp thoại xuất hiện như sau.
Trang 10
Hình 1.11. Hộp thoại khai báo biến đích và biểu thức tính toán
Trang 11
Hình 1.12. Minh họa thao tác tạo bảng tần suất
- Chọn biến cần tính tần suất, kích chọn để chuyển sang cột Variable(s)
Hình 1.13. Hộp thoại tính tần suất (thao tác chọn biến)
- Kích nút Statistics để xuất hiên hộp thoại như sau:
Trang 12
Hình 1.14. Hộp thoại tính tần suất (các tùy chọn thống kê)
- Đánh dấu chọn như hình minh họa, kích nút Continue, chọn tiếp OK để xuất hiện bảng
thống kê như hình dưới.
Bảng 1.1a. Bảng kết quả thống kê cho biến cnss
Statistics
cnss
N Valid 26
Missing 0
Mean 2820.19
Std. Error of Mean 70.820
Median 2750.00
Mode 2500
Std. Deviation 361.111
Variance 1.304E5
Skewness .401
Std. Error of Skewness .456
Kurtosis -.474
Std. Error of Kurtosis .887
Range 1450
Minimum 2200
Maximum 3650
Sum 73325
Trang 13
Bảng 1. 2b. Bảng kết quả tính tần suất cho biến cnss
Cnss
Cumulative
Frequency Percent Valid Percent Percent
Valid 2200 1 3.8 3.8 3.8
2350 1 3.8 3.8 7.7
2400 1 3.8 3.8 11.5
2500 5 19.2 19.2 30.8
2600 2 7.7 7.7 38.5
2700 3 11.5 11.5 50.0
2800 2 7.7 7.7 57.7
3000 3 11.5 11.5 69.2
3100 3 11.5 11.5 80.8
3125 1 3.8 3.8 84.6
3200 1 3.8 3.8 88.5
3300 1 3.8 3.8 92.3
3400 1 3.8 3.8 96.2
3650 1 3.8 3.8 100.0
Total 26 100.0 100.0
Trang 14
Trang 15
Để có được kết quả điều tra và xử lý thống kê chính xác thì việc có được một file dữ liệu
chính xác là cần thiết. Vì vậy, người xử lý thông tin cần phải biết được các lỗi có thể xảy ra đối
với file dữ liệu để tìm cách khắc phục. Có thể sử dụng các cách sau:
- Lập bảng phân bố tần số - bảng phân bố tần suất để tìm các ID (Mã) trùng nhau.
- Dùng hàm, công thức để tìm các giá trị bất thường (ví dụ dùng hàm IF, có thể kết hợp
các hàm khác)
Ngoài hai phần mềm khá phổ biến đã giới thiệu trên thì phần mềm R cũng ngày càng
được biết đến và sử dụng rộng rãi bởi đây là một phần mềm miễn phí và hỗ trợ tốt cho xử lý,
phân tích dữ liệu.
Phân tích số liệu và biểu đồ thường được tiến hành bằng các phần mềm thông
dụng như SAS, SPSS, Stata, Statistica và S-Plus. Đây là những phần mềm được
các công ty phần mềm phát triển và giới thiệu trên thị trường khoảng bốn thập niên
qua, và đã được các trường đại học, các trung tâm nghiên cứu và công ty kỹ nghệ trên
Trang 16
toàn thế giới sử dụng cho giảng dạy và nghiên cứu. Nhưng vì chi phí để sử dụng các
phần mềm này tuơng đối đắt tiền (có khi lên đến hàng trăm ngàn đô-la mỗi năm), một
số trường đại học ở các nước đang phát triển (và ngay cả ở một số nước đã phát triển)
không có khả năng tài chính để sử dụng chúng một cách lâu dài. Do đó, các nhà
nghiên cứu thống kê trên thế giới đã hợp tác với nhau để phát triển một phần mềm
mới, với chủ trương mã nguồn mở, sao cho tất cả các thành viên trong ngành thống
kê học và toán học trên thế giới có thể sử dụng một cách thống nhất và hoàn toàn
miễn phí.
Năm 1996, trong một bài báo quan trọng về tính toán thống kê, hai nhà thống
kê học Ross Ihaka và Robert Gentleman (lúc đó) thuộc Trường đại học Auckland,
New Zealand phát hoạ một ngôn ngữ mới cho phân tích thống kê mà họ đặt tên là R.
Sáng kiến này được rất nhiều nhà thống kê học trên thế giới tán thành và tham gia
vào việc phát triển R.
Vậy R là gì? Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân
tích thống kê và vẽ biểu đồ. Thật ra, về bản chất, R là ngôn ngữ máy tính đa năng,
có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí
(recreational mathematics), tính toán ma trận (matrix), đến các phân tích thống kê
phức tạp. Vì là một ngôn ngữ, cho nên người ta có thể sử dụng R để phát triển thành
các phần mềm chuyên môn cho một vấn đề tính toán cá biệt. [4]
Trang 17
Trang 18
Câu 1. Khởi động SPSS, tạo tập tin mới. Mở cửa sổ biến (Variable view) và nhập thông
tin như hình minh họa sau.
Hướng dẫn thao tác mã hóa biến: Tại dòng biến hocvan, vị trí cột Value, kích chọn
nút như hình minh họa dưới đây, hộp thoại Value Labels xuất hiện. Nhập giá trị
như hình minh họa rồi kích nút Add (lần lượt cho các giá trị từ 0 đến 4), kết thúc việc
nhập dữ liệu, nhấn OK.
Trang 19
Trang 20
Lưu tập tin với tên cssk bame treem.sav. Chú ý lưu file này (có thể dùng dịch vụ
lưu trữ trực tuyến như Dropbox, Google Driver,…) để vận dụng cho bài tập các
chương sau.
Thực hiện lệnh mã hóa biến để tạo biến nhecan1 theo quy định sau:
1: nếu cnss<2500 gram
2: nếu cnss>=2500 gram
Quan sát kết quả và so sánh giá trị hai biến nhecan và nhecan1
Trang 21
Mã hóa biến tuoi thành nhomtuoi theo quy định từ 21 đến 30: nhóm 1, từ 31 đến 35:
nhóm 2, trên 35: nhóm 3.
Tạo biến mới BMI để tính chỉ số khối của cơ thể
với BMI = (cân nặng-kg)/(chiều cao-mét)2
Trang 22
Câu 2. Mở file bame treem.xlsx và tiến hành kiểm tra, làm sạch dữ liệu:
a. Kiểm tra sự tương quan giữa cnss và nhecan (ví dụ cnss >2500 mà nhecan là 1):
dùng hàm IF và AND
=IF(AND(…>2500,…=1),”SAI”,”ĐÚNG”)
b. Kiểm tra có các giá trị bất thường không, ví dụ tuoithai > 42, tuoi = 0, …
c. Kiểm tra sự không phù hợp giữa trình độ học vấn và nghề, ví dụ hocvan là mù chữ
mà nghe là công nhân viên, …
Trang 23
Chương 2.
Mục tiêu
1. Thực hiện được thao tác sắp xếp dữ liệu với Excel.
2. Trình bày được các yếu tố cơ bản để lọc dữ liệu.
3. Trình bày được các thao tác để lọc dữ liệu.
Các nhu cầu đối với bộ dữ liệu bao gồm việc sắp xếp, trình bày dữ liệu, trích xuất và lọc
dữ liệu theo một hoặc nhiều điều kiện. Chương này trình bày các thao tác trên bộ dữ liệu của
Excel như:
- Bước 2. Chọn menu Data → Sort, hộp thoại xuất hiện như hình dưới.
Trang 24
- Sort by: Chọn khóa sắp xếp đầu tiên (ưu tiên sắp xếp trước)
Nếu muốn sắp xếp theo nhiều khóa (điều kiện) tiếp theo thì chọn Add Level. Lúc này trên
hộp thoại sẽ xuất hiện thêm dòng Then by cho phép chọn khóa sắp xếp tiếp theo.
- Order: sắp xếp tăng dần (A to Z) hoặc sắp xếp giảm dần (Z to A)
- My data has headers: đánh dấu ô này nếu miền dữ liệu chứa dòng tiêu đề.
- Option:
Case Sensitive: phân biệt chữ hoa với chữ thường
Orientation: Sort Top To Bottom: sắp xếp các dòng trong vùng dữ liệu
Sort Left To Right: sắp xếp các cột trong vùng dữ liệu
-Bước 3: chọn OK để sắp xếp.
Trang 25
✓ Vùng tiêu chuẩn so sánh trực tiếp (TCSSTT): cho phép đưa vào các tiêu chuẩn để so
sánh dữ liệu trong một trường với một giá trị nào đó. TCSSTT được tạo ra theo nguyên
tắc sau.
- Hàng đầu tiên ghi tiêu đề cho các tiêu chuẩn, lấy tên trường làm tiêu đề.
- Hàng thứ hai trở đi để ghi các tiêu chuẩn so sánh , trước các giá trị đó có thể thêm các
toán tử so sánh như <, >=,<, <=. Các tiêu chuẩn trên cùng hàng (được gọi là điều kiện và
– and) được thực hiện đông thời. Các tiêu chuẩn trên các hàng khác nhau (được gọi là
điều kiện hoặc – or)được thực hiện không đồng thời.
Sau đây là các ví dụ về TCSSTT.
TÊN
Lọc ra những trường hợp có TÊN là Hùng
Hùng
H
- Nếu muốn kết hợp nhiều điều kiện, nghĩa là các mẫu tin phải thỏa mãn tất cả các điều
kiện lọc (AND) mới được hiển thị, đặt điều kiện trên các cột của cùng một dòng.
Trang 26
- Nếu muốn lọc theo một trong các điều kiện, nghĩa là các mẫu tin chỉ cần thỏa mãn một
trong các điều kiện (OR), đặt điều kiện liên tiếp nhau trên các dòng bên dưới tiêu đề vùng tiêu
chuẩn.
TOÁN LÝ
Toán >7 hoặc Lý <5
>7
<5
✓ Vùng tiêu chuẩn so sánh gián tiếp (TCSSGT) hay còn gọi là tiêu chuẩn công thức: cho
phép đưa vào các tiêu chuẩn để so sánh dữ liệu hoặc một phần dữ liệu trong một trường
với một giá trị nào đó. TTSSGT được tạo ra theo nguyên tắc sau.
- Hàng đầu tiên ghi tiêu đề cho các tiêu chuẩn. Tiêu đề này có thể đặt bất kỳ nhưng không
được trùng với tên trường nào.
- Hàng thứ hai trở đi ghi các tiêu chuẩn so sánh , mỗi tiêu chuẩn là một công thức. Công
thức này phải chứa địa chỉ của bản ghi đầu tiên của vùng cơ sở dữ liệu. Kết quả thực
hiện công thức này là một giá trị Logic (True hoặc False).
Sau đây là các ví dụ.
✓ Vùng Copy to (vùng trích) : Vùng trống trên bảng tính, dùng để chứa các bản
ghi thỏa mãn điều kiện của vùng tiêu chuẩn.
Trang 27
Cơ sở dữ liệu được hiển thị với nút điều khiển ở bên phải mỗi trường. Muốn tiến hành lọc
dữ liệu dựa vào điều kiện của trường nào, phải kích chuột vào nút điều khiển của trường đó để
xuất hiện menu đứng.
Trang 28
Chọn Data → Advanced (Filter), hộp thoại Advanced Filter xuất hiện như sau.
Trang 29
Lưu ý: Các địa chỉ trong cửa sổ Advanced Filter có thể được khai báo bằng cách gõ trực
tiếp từ bàn phím hoặc đặt chuột vào trong khung, kích chuột tại hộp mũi tên ở cuối khung để thu
nhỏ cửa sổ Advanced Filter, sau đó kéo lê chuột trên vùng muốn chọn. Địa chỉ vùng sẽ tự động
xuất hiện trong khung. Để hiển thị đầy đủ các mẫu tin của cơ sở dữ liệu, chọn Data → Clear.
Trang 30
Trang 31
Sau khi hoàn thành bài thực hành này, sinh viên tự đánh giá các nội dung đã hoàn thành
bằng cách đánh dấu vào dòng tương ứng.
STT Nội dung Đánh dấu
1 Sắp xếp dữ liệu
2 Trích lọc dữ liệu cơ bản
3 Lập vùng tiêu chuẩn trực tiếp
4 Lập vùng tiêu chuẩn gián tiếp
5 Trích lọc dữ liệu nâng cao
Cho bảng tính sau. Lưu bảng tính với tên BAI2.XLSX.
Sinh viên chú ý nhập dữ liệu kiểu ngày tháng năm theo đúng định dạng của máy tính. Định dạng
kiểu ngày tháng năm trong bảng tính hiện tại là dd/mm/yyyy.
Trang 32
Trang 33
Chương 3.
Mục tiêu
1. Trình bày được các bước để tổng hợp dữ liệu theo nhóm (Subtotal).
2. Trình bày được các bước để tạo bảng tổng hợp từ các dữ liệu chi tiết (Consolidate).
3. Trình bày được các bước để tạo bảng tổng hợp – Pivot Table.
Chương này trình bày các lệnh thường dùng để tạo các bảng tổng hợp từ các dữ liệu đã
có, cụ thể là:
Subtotal: cho phép thống kê dữ liệu theo từng nhóm trong cơ sở dữ liệu.
PivotTable: cho phép thống kê dữ liệu theo nhiều cấp độ khác nhau, với nhiều hình
thức đa dạng từ một bảng dữ liệu chính.
Consolidate: cho phép hợp nhất dữ liệu từ nhiều vùng dữ liệu nguồn (Sources) và
hiển thị kết quả trong vùng dữ liệu đích (Destination).
Bây giờ cần tổng hợp cột Số lượng theo từng cửa hàng (số 1, số 2, số 3) với kết qủa như
sau (dùng chức năng SubTotal).
Trang 34
Bảng 3.2. Bảng tổng hợp số lượng theo từng cửa hàng
Hình 3.1. Hộp thoại tổng hợp số lượng theo từng cửa hàng
Chức năng Subtotal dùng để nhóm dữ liệu theo từng nhóm của trường dữ liệu được chọn,
đồng thời chèn vào cuối mỗi nhóm những dòng thống kê tính toán (gọi là các bộ phận - Subtotals)
và một dòng tổng kết ở cuối phạm vi (gọi là toàn bộ - GrandTotal). Sau đây là các bước thực hiện.
Trang 35
Bước 1. Sắp xếp dữ liệu theo trường làm khóa (muốn nhóm theo trường nào thì chọn
trường đó làm khóa, theo minh họa là trường Cửa hàng).
Bước 2. Chọn Data, Subtotal, xuất hiện hộp thoại Subtotal. Trong đó:
- At each change in: Chọn trường mà theo trường này, tại mỗi vị trí thay đổi, Excel sẽ chèn
vào một dòng tổng kết-tức là dòng thực hiện các phép tính (ở minh họa trên là trường Cửa
hàng).
- Use function: Chọn hàm để tính toán tổng kết dữ liệu. Hàm mặc định là SUM (có thể
chọn hàm khác tùy vào yêu cầu cần tổng kết).
- Add Subtotal to: Chọn các trường cần tính toán (ở minh họa trên là tính tổng trường Số
lượng)
Các tùy chọn khác:
- Replace current subtotals: Dòng tổng kết mới sẽ thay thế dòng tổng kết cũ. Theo mặc
định các dòng tổng kết sẽ nối tiếp nhau.
- Page break between groups: chèn dấu ngắt trang tại mỗi vị trí có dòng SubTotal (đưa
mỗi nhóm sang một trang riêng biệt).
- Summary below data: Đặt dòng tổng kết ở cuối mỗi nhóm. Nếu bỏ dấu , dòng tổng
kết sẽ được đưa lên trước mỗi nhóm.
- Remove All: Hủy bỏ mọi SubTotal đã thực hiện.
Bước 3. Chọn OK để bắt đầu tạo.
Trang 36
- Reference: Nhập địa chỉ vùng dữ liệu → kích chọn Add để đưa vùng dữ liệu vào hộp
All References (chọn Delete để xóa vùng dữ liệu ra khỏi hộp All References) → Tiếp tục nhập
địa chỉ vùng dữ liệu vào ô Reference rồi chọn Add để khai báo các vùng dữ liệu tiếp theo.
- Top Row: Đánh dấu ô này nếu vùng dữ liệu có chứa dòng tiêu đề (dòng đầu tiên).
- Left Column: Đánh dấu ô này nếu vùng dữ liệu có chứa cột tiêu đề (cột đầu tiên).
- Create link to source data: Tạo mối liên kết từ bảng tổng hợp đến các bảng chi tiết
nhằm mục đích nếu có sự thay đổi trong các bảng dữ liệu chi tiết thì các dữ liệu liên quan trong
bảng tổng hợp cũng tự thay đổi theo.
- Cuối cùng, kích nút OK để xem kết quả.
Sau đây là các minh họa cho các trường hợp sử dụng Consolidate.
Trang 37
Bảng 3.3. Bảng số liệu ban đầu các năm 2011, 2012, 2013
Yêu cầu: Tổng hợp hàng bán sau 3 năm theo mẫu sau.
Bảng 3.4. Bảng số liệu tổng hợp
Trang 38
Hình 3.3. Minh họa các vùng địa chỉ tham chiếu trong hộp thoại Consolidate
Bước 5: Chọn OK sẽ được kết quả tổng hợp bảng 3.4.
3.2.2. Ví dụ 2 (tổng hợp theo hàng và theo cột)
Tổng hợp theo hàng và theo cột được sử dụng khi cấu trúc dữ liệu khác nhau. Excel
dựa trên hàng và cột để tổng hợp dữ liệu.
Trang 39
Trang 40
Hình 3.4. Minh họa các vùng địa chỉ tham chiếu
Bước 5: Chọn OK và thực hiện định dạng kẻ khung, định dạng chữ đậm, … để được kết
quả tổng hợp như bảng sau.
Trang 41
Từ CSDL trên, tổng hợp theo từng năm, từng cửa hàng và từng nhân viên cho bảng tổng
hợp sau.
Trang 42
Bảng 3.9. Bảng tổng hợp CSDL theo từng năm, từng cửa hàng và từng nhân viên
Năm (All)
Trang 43
Row Labels: Mỗi nhóm dữ liệu của trường này được tổng kết trên một dòng, vì vậy được
gọi là “Row”. Nếu số trường nhiều hơn 1, PivotTable sẽ tổng kết các trường này theo kiểu lồng
nhau theo thứ tự từ trên xuống dưới. Trong ví dụ này, có 2 trường là Cửa hàng và Nhân viên,
trường Cửa hàng được tổng kết trước rồi đến trường Nhân viên.
Column Labels: Mỗi nhóm dữ liệu của trường này được tổng kết trên một cột, vì vậy
được gọi là “Column”. Nếu số nhóm này nhiều hơn 1, PivotTable sẽ tổng kết các nhóm này theo
thứ tự từ trái qua phải. Trong ví dụ này, các nhóm được tổng kết thành các cột (trường) theo thứ
tự ABC của tên nhóm.
Value: vùng chính của bảng tổng hợp ghi kết quả của một phép toán. Trong ví dụ này, số
liệu của trường Số lượng(tạ) được đưa vào và phép toán tổng kết là lấy tổng (SUM).
Thao tác tạo mới một bảng tổng hợp:
- Bước 1. Chọn miền dữ liệu kể cả tiêu đề của các cột.
- Bước 2. Chọn Insert, PivotTable, xuất hiện hộp thoại và thực hiện các thiết lập.
Trang 44
Trang 45
hàm khác, kích chuột vào nút mở rộng trong vùng Value để xuất hiện hộp thoại
như sau rồi chọn phép toán phù hợp.
Hình 3.8. Thiết lập hàm tính toán cho trường Số lượng
- Hiệu chỉnh cách trình bày bảng tổng hợp: Công cụ hiệu chỉnh bảng tổng hợp (PivotTable
Tools) gồm hai thẻ Design và Options sẽ xuất hiện khi đặt con trỏ vào bảng tổng hợp. Sau đây là
một số tùy chọn.
Đặt tên cho Sắp xếp dữ liệu Điều chỉnh bảng Chuyển bảng tổng
bảng tổng hợp trong bảng tổng tổng hợp khi dữ hợp sang dạng biểu
hợp liệu thay đổi đồ
Hình 3.9. Hiệu chỉnh cách thức trình bày bảng tổng hợp
Trang 46
Trang 47
B2. Chọn vùng dữ liệu cần tổng hợp để Add (thêm vào).
Tạo bảng tổng hợp với PivotTable
B2.
Chọn cột (trường) để tổng hợp theo nhóm ở mức cao nhất (Report Filter)
Chọn cột (trường) để tổng hợp nhóm theo hàng (Row Labels)
Chọn cột (trường) để tổng hợp nhóm theo hàng (Column Labels)
Chọn cột (trường) để tiến hành tính toán và lựa chọn phép toán.
Trang 48
Trang 49
Bảng 1.
NgayCT (All)
Sum of Column
XuatKho Labels
Grand
Row Labels 1 2 3 Total
Bông 261 141 402
Đan Sâm 202 111 313
Gạc 16 24 40
Hà Thủ Ô 203 153 356
Trà Linh Chi 281 102 383
Grand Total 682 458 354 1494
Hãy xóa bảng PivotTable vừa tạo.
Hướng dẫn: Click con trỏ chuột vào vùng PivotTable vừa tạo, sẽ xuất hiện thêm hai thẻ
lệnh như minh họa sau. Vào thẻ ANALYZE, chọn Clear, chọn Clear All.
Bảng 2.
NgayCT (All)
Sum of Column
XuatKho Labels
Đan Hà Trà Linh Grand
Row Labels Bông Sâm Gạc Thủ Ô Chi Total
1 261 202 16 203 682
2 24 153 281 458
3 141 111 102 354
Grand Total 402 313 40 356 383 1494
Trang 50
NgayCT (All)
Max of Column
NhapKho Labels
Đan Hà Trà Linh Grand
Row Labels Bông Sâm Gạc Thủ Ô Chi Total
1 871 263 381 401 871
2 851 507 405 851
3 639 681 896 896
Grand Total 871 681 851 507 896 896
Hãy so sánh bảng 2 và bảng 3.
Bảng 4.
NgayCT (All)
Column
Labels
Total Total
Sum of Sum of
1 2 3 NhapKho XuatKho
Sum of Sum of Sum of Sum of Sum of Sum of
Row Labels NhapKho XuatKho NhapKho XuatKho NhapKho XuatKho
Bông 871 261 639 141 1510 402
Đan Sâm 263 202 681 111 944 313
Gạc 381 16 851 24 1232 40
Hà Thủ Ô 401 203 507 153 908 356
Trà Linh Chi 405 281 896 102 1301 383
Grand
Total 1916 682 1763 458 2216 354 5895 1494
Hãy so sánh bảng 4 và bảng 1.
b. Thực hiện lệnh Subtotal để tạo các bảng tổng hợp như sau.
Lưu ý thực hiện việc sắp xếp theo cột đươc tổng hợp trước khi thực hiện Subtotal.
Trang 51
Bảng 5.
Trang 52
Hướng dẫn tạo bảng 6 từ bảng 5: Bỏ dấu Check “Summary below data” từ hộp thoại
Subtotal.
Trang 53
Bảng 7.
Hãy hiệu chỉnh bảng 6 thành bảng 7.
Bảng 8.
Hãy hiệu chỉnh bảng 7 thành bảng 8.
Trang 54
c. Thực hiện thao tác tạo bảng tổng hợp với lệnh Consolidate
Bảng 9.
(Xem hướng dẫn tại câu 3, có thể thực hiện câu 3 trước, rồi tạo bảng 9 sau)
Trang 55
Trang 56
Chương 4.
Mục tiêu
Trình bày được cú pháp và ý nghĩa các hàm thống kê trong Excel:
1. Hàm tính trung bình (AVERAGE, AVERAGEIF, AVERAGEIFS).
2. Hàm đếm (COUNT, COUNTIF, COUNTIFS).
3. Hàm tính tổng (SUM, SUMSQ, SUMPRODUCT, SUMIF, SUMIFS) và
PRODUCT
4. Hàm tính giá trị lớn nhất (MAX, LARGE).
5. Hàm tính giá trị bé nhất (MIN, SMALL).
6. Hàm MEDIAN, MODE, VAR.
7. Hàm DAVERAGE, DSUM, DCOUNT, DMAX, DMIN.
Sau khi đã có dữ liệu thì việc phân tích, tổng hợp dữ liệu là điều cần thiết. Chương 3 đã
trình bày các thao tác để tạo bảng tổng hợp. Chương này sẽ trình bày các hàm để tạo kết quả
thống kê và tổng hợp từ mẫu dữ liệu đã có.
Trang 57
Ví dụ:
Dùng hàm AVERAGEIF(F2:F8,”Khá”,E2:E8) để tính trung bình cộng điểm Tổng kết của
các sinh viên xếp loại Khá
Dùng hàm AVERAGEIF(E2:E8,”>=7”,E2:E8) để tính trung bình cộng điểm Tổng kết cho
các trường hợp >=7.
AVERAGEIFS(average_range,criteria_range1,criteria1,criteria_range2,
criteria2,… ): Trả về giá trị trung bình cộng của các ô trong vùng average_range thỏa mãn các
điều kiện criteria1 tại criteria_range1, criteria2 tại criteria_range2,…
- Ví dụ 1: dùng hàm AVERAGEIFS(E2:E8,F2:F8,”TB”,B2:B8,”>=6”) để tính trung bình
cộng của cột điểm Tổng kết cho các trường hợp Xếp loại là TB và có điểm Môn 1 >=6.
- Ví dụ 2: Tính trung bình điểm Môn 1 cho các trường hợp thỏa mãn điểm Môn 1 và Môn
2 đều lớn hon7.
Trang 58
Trang 59
Hàm này dùng để tính tổng điểm tổng kết các trường hợp thỏa mãn cả hai điều kiện điểm
Môn 1>=6 và Xếp loại là TB.
Trang 60
Phương sai (Variance; ký hiệu là s2 đối với mẫu và ký hiệu là σ2 đối với tổng thể) là trung
bình tổng các sai số bình phương giữa các giá trị của các quan sát và giá trị trung bình.
Độ lệch chuẩn (Standard deviation; ký hiệu là s hoặc SD đối với mẫu và ký hiệu là σ đối
với tổng thể) đo lường mức độ phân tán của số liệu xung quanh giá trị trung bình.
Sai số chuẩn của giá trị trung bình (Standard error of the mean; s.e.) đo lường phạm vi mà
giá trị trung bình (μ) của quần thể có thể xuất hiện với một xác suất cho trước dựa trên giá trị
trung bình của mẫu (mean).
Trang 61
DCOUNT(database, field, criteria): đếm giá trị kiểu số trên một cột (field) của bảng cơ
sở dữ liệu (database) thỏa mãn điều kiện trong vùng tiêu chuẩn (criteria).
Lưu ý rằng hàm DCOUNT đếm dữ liệu dạng số. Xem ví dụ sau để hiểu rõ hơn về hàm
DCOUNT.
Ví dụ: DCOUNT(A1:F8,1,F1:F2) → 0; DCOUNT(A1:F8,2,F1:F2) → 3;
Sinh viên tự tìm hiểu về hàm DCOUNTA.
DSUM(database, field, criteria): tính giá trị tổng cộng trên một cột (field) của bảng cơ
sở dữ liệu (database) thỏa mãn điều kiện trong vùng tiêu chuẩn (criteria).
DMAX(database, field, criteria): tính giá trị lớn nhất trên một cột (field) của bảng cơ
sở dữ liệu (database) thỏa mãn điều kiện trong vùng tiêu chuẩn (criteria).
DMIN(database, field, criteria): tính giá trị bé nhất trên một cột (field) của bảng cơ sở
dữ liệu (database) thỏa mãn điều kiện trong vùng tiêu chuẩn (criteria).
Trang 62
Trang 63
Trang 64
Câu 1. Cho bảng dữ liệu như phần lý thuyết vừa trình bày, lưu bảng này với tên bài 41.XLSX
Trang 65
Câu 2. Tạo bảng dữ liệu như sau, lưu tập tin với tên BAI42.XLSX
Trang 66
Trang 67
50
40
30 Giỏi
Khá
20
TB
10
0
Dao Kinh Mông Tày
Trang 68
g. Tính trung bình điểm thi của các trường hợp tốt nghiệp loại TB và dân tộc Tày hoặc Dao.
h. Đếm số trường hợp có loại Khá hoặc TB và thuộc khu vực 1 hoặc 2. Thực hiện thao tác lọc
(nâng cao) để lọc đến vị trí khác các trường hợp thỏa mãn điều kiện này.
i. Thực hiện lệnh Advanced Filter để lọc ra các trường hợp thỏa mãn: Loại Giỏi, Khu vực 1, 2
và có tổng điểm từ 17 đến 20.
Câu 3. Tạo bảng dữ liệu như sau, lưu tập tin với tên BAI43.XLSX
DANH SÁCH NHÂN VIÊN
MÃ NV TÊN NHÂN VIÊN HỆ SỐ LƯƠNG MÃ PB NGÀY VÀO LÀM
001 Nguyễn Thị Lan 4.65 PKT 25/12/1985
003 Trần Văn Nam 5.31 BGĐ 10/10/1980
004 Phạm Cát Tường 3.99 PTC 20/6/1997
007 Lê Thị Hoa 3.66 PHC 1/3/2000
002 Trần Văn Hòa 4.65 PHC 15/10/1994
009 Đặng Thị Huệ 4.32 PHC 16/7/2000
Hãy hoàn thành các bảng thống kê sau:
Trang 69
Trang 70
Chương 5.
Mục tiêu
Sau khi học xong bài này, sinh viên thực hiện được:
1. Lập bảng phân phối tần số.
2. Lập bảng tính đặc trưng mẫu.
3. Ước lượng trung bình tổng thể.
4. Vẽ đồ thị.
5. Tạo bảng tổng hợp dữ liệu
Các công cụ cơ bản để tóm tắt và trình bày dữ liệu được trình bày trong chương này là:
Trang 71
Hãy lập bảng phân phối tần số cho dữ liệu là danh sách chỉ số tuổi bệnh nhân nêu trên.
Các bước tiến hành như sau:
o Nhập số liệu về tuổi bệnh nhân theo hàng hoặc theo cột như minh họa dưới.
Để loại bỏ các chỉ số tuổi trùng nhau trong khi lọc, thao tác thực hiện:
Cách 1: Dùng lệnh Remove Duplicate từ thẻ lệnh Data (nhóm Data Tools) để loại bỏ các
mẫu tin trùng nhau: (1) Quét chọn vùng dữ liệu gốc → (2) chuyển thành dạng cột (Paste →
Transpose) → (3) thực hiên lệnh Remove Duplicate từ thẻ lệnh Data.
Cách 2: (1) Quét chọn vùng dữ liệu gốc → (2) chuyển thành dạng cột (Paste →
Transpose) → (3) vào thẻ Data\Filter\Advanced Filter → (4) trong cửa sổ Advanced Filter, chọn
Trang 72
mục "Copy to another location" → (5) Nhấp chuột vào khung "Copy to" rồi dùng chuột chọn 1 ô
trên bảng tính là nơi đặt dữ liệu sau khi lọc → (6) Đánh dấu Unique Records Only để loại bỏ các
mẫu tin trùng nhau → (7) OK.
Trang 73
▪ Bước vẽ biểu đồ
- Chọn Data → Data Analysis → Histogram và khai báo các mục:
• Input range: Miền dữ liệu
• Input Bin: Miền phân nhóm (nếu để chương trình tự chia nhóm thì
bỏ qua mục này)
• Labels: Nhãn ở dòng đầu nếu có
• Output range: Miền kết quả
• Pareto: Tần số sắp xếp trong tổ chức đồ là giảm dần
• Cumulative Percentage: Hiển thị đường tần suất cộng dồn %
• Chart output: Hiển thị biểu đồ
Trang 74
Histogram
9 120.00%
8
100.00%
7
6 80.00%
Frequency 5
60.00%
4
3 40.00% Frequency
2 Cumulative %
20.00%
1
0 0.00%
18
22
26
30
34
38
42
46
50
More
Bin
Đặc trưng mẫu là các số đặc trưng của mẫu số liệu như trung bình, độ lệch chuẩn, trung
vị, mode, … Các đại lượng này cho phép thể hiện một cách tổng quát đối tượng nghiên cứu. Các
đại lượng này chỉ được tính đối với các biến định lượng.
Trong Excel, để tính đặc trưng mẫu, có thể dùng:
- Lệnh Descriptive Statistics
- Hàm
Giả sử cần tính đặc trưng mẫu của dữ liệu là danh sách chỉ số tuổi của các bệnh nhân
được điều tra như trong ví dụ trên: 18; 25; 26; 27; 30; 19; 25; 45; 30; 46; 50; 45; 40; 36; 48; 35;
42; 35; 32; 36; 37; 42; 39; 33; 45; 38; 30; 37; 38; 41.
Bước 1. Nhập dữ liệu trong dòng A2:AE2 như minh họa trên.
Bước 2. Vào thẻ Data, chọn Data Analysis, chọn Descriptive Statistics, nhấn OK.
Bước 3. Nhập các mục:
Input Range: địa chỉ tuyệt đối chứa dữ liệu $B$2:$AE$2
Output Range: địa chỉ xuất kết quả
Confidence Level for Mean: Độ tin cậy của giá trị trung bình
Bước 4. Chọn OK để kết thúc.
Trang 75
Trang 76
- Standard Error: cho biết tỷ số độ lệch chuẩn mẫu/căn bậc hai của n.
1
Phương sai 𝑠 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
Độ lệch chuẩn: s= √𝑠 2
𝑆
Sai số chuẩn: 𝑆𝐸 =
√𝑛
- Median: cho biết điểm giữa của dãy số liệu (Nếu 2 giá trị Mean và Median xấp xỉ nhau cho
thấy số liệu cân đối không bị lệch).
- Mode: cho biết giá trị xảy ra nhiều lần nhất.
- Độ lệch chuẩn và phương sai mẫu: cho biết mức độ phân tán của số liệu quanh giá trị trung bình,
các giá trị này càng nhỏ chứng tỏ số liệu càng tập trung.
- Kurtosis: chỉ tiêu Kurtosis đo luờng độ nhọn của phân phối; nếu đại lượng ngẫu nhiên X có
phân phối chuẩn thì độ nhọn bằng 0. Ở đây, độ nhọn đánh giá đường mật độ phân phối của dãy
số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn tắc (dương là nhọn hơn, âm là tù hơn).
Trang 77
Hình 5.5. Kurtosis > 0 (đường trên cùng), Kurtosis < 0 (đường dưới cùng), Kurtosis=0 (đường
ở giữa (chuẩn))
- Skewness: chỉ tiêu Skewness đo luờng độ cân xứng của phân phối. Phân phối cân xứng khi
Skewness=0, phân phối lệch phải khi Skewness>0, phân phối lệch trái khi Skewness<0.
- Confidence Level: được hiểu là một nửa độ dài khoảng tin cậy. Giá trị này được dùng để ước
lượng khoảng tin cậy trung bình của một tổng thể. Giả sử giá trị tại Confidence Level là m thì
khoảng tin cậy của trung bình tổng thể là Mean ± m. Trong ví dụ trên, khoảng tin cậy 95% của
trung bình tuổi của nhóm đối tượng nghiên cứu là 35.67±3.0875.
Trang 78
Với tn-1,α/2 là hệ số khoảng tin cậy có thể tìm được trong bảng phân phối t với n-1 độ tự
do (ví dụ hệ số khoảng tin cậy 90% là 1.833 nếu như mẫu có 10 quan sát) hoặc có thể dùng hàm
TINV trong Excel, cú pháp dạng TINV(α,n-1). Tương tự Zα/2 được tính với công thức Zα/2=
NORMSINV(1- α/2).
Ví dụ, tiến hành xem trong một tháng trung bình một sinh viên tiêu hết bao nhiêu tiền sinh
hoạt (tiền ăn, tiền điện thoại, …). Khảo sát ngẫu nhiên 60 sinh viên thu được kết quả như sau
(đơn vị nghìn đồng).
1500 1700 1550 1600 1650 1750 1855 2000 2150 2155 2250 1950 1955 255 3000
1750 1855 1955 2150 2155 2550 2620 1750 1755 1850 1950 2550 1950 2550 2555
1775 1800 1825 1850 1875 1900 1925 1950 1975 2000 2025 2050 2075 2100 2125
1250 1350 1450 1550 1650 1750 1850 1950 2050 2150 2250 2350 2450 2550 2650
Trang 79
Hãy ước lượng khoảng tin cậy của số tiền sinh hoạt hàng tháng của một sinh viên (bao
gồm tiền ăn, ở, quỹ lớp, photo tài liệu học tập) với độ tin cậy 95%.
Thực hiện lệnh Descriptive Statistics, kết quả minh họa như sau.
Hình 5.2. Bảng thống kê mô tả và tính khoảng ước lượng số tiền sinh hoạt hàng tháng
Như vậy với bảng kết quả trên, với độ tin cậy 95% thì một tháng, trung bình một sinh viên
tiêu tiền trong khoảng từ 1910.404 đến 2091.596 (đơn vị nghìn đồng).
Lưu ý rằng, giá trị tại dòng Confidence Level (95%) dùng phân bố student để ước lượng
khoảng tin cậy của giá trị trung bình, thường được áp dụng đối với cỡ mẫu nhỏ (<30) như công
thức minh họa tại (3). Ví dụ nêu trên đây cỡ mẫu lớn (≥30) thì có thể dùng hàm Confidence để
tính khoảng tin cậy cho giá trị trung bình như công thức minh họa tại (2) được trình bày trên.
Sinh viên sử dụng công thức tại (2) để ước lượng khoảng tin cậy của giá trị trung bình, sau
đó so sánh với kết quả tại (3) và so sánh với kết quả khi sử dụng hàm Confidence.
5.3. Đồ thị
Biểu đồ/ đồ thị là một dạng biểu diễn dữ liệu trực quan, sinh động giúp người xem dễ
dàng quan sát dữ liệu.
Trang 80
…
Ví dụ: Trong một điều tra có 5 câu hỏi, mà mỗi câu đều có lựa chọn trả lời từ 1 đến 4 (1-
Rất không đồng ý, 2- Không đồng ý, 3- Đồng ý, 4- Rất đồng ý). Sau khi thu thập, dữ liệu được
mô tả trong Excel như sau.
Vẽ đồ thị kiểu Stacked Column (Insert → Chart → Column → Stacked Column), kết quả
như sau:
Trang 81
60%
50% 25
35 4
40% 35 15
20
30% 25 3
20%
25 30 30 2
10% 15 20
0%
Câu 1 Câu 2 Câu 3 Câu 4 Câu 5 1
4 35 30 20 20 15
3 25 15 35 35 20
2 25 35 20 15 35
1 15 20 25 30 30
Trang 82
Trang 83
Có thể thực hiện theo cách khác: Chọn đồ thị, trên đồ thị xuất hiện các nút nắm tại 4
góc và giữa 4 cạnh Chart Area → rê chuột vào nút nắm khi con trỏ chuột xuất hiện
mũi tên hai chiều → nhấn giữ và kéo ra, kéo vào để phóng to hoặc thu nhỏ đồ thị (thao
tác tương tự như hiệu chỉnh kích thước hình ảnh).
Trang 84
Trang 85
- Tính giá trị trung bình (Mean), một nửa khoảng tin cậy của giá trị trung bình theo
công thức (1), (2) hoặc (3) (có thể theo cách dùng hàm Confidence hoặc giá trị tại
Confidence Level (95%)).
Vẽ đồ thị
- Vẽ đồ thị
- Hiệu chỉnh đồ thị
Lập bảng tổng hợp
- Sắp xếp dữ liệu
- Trích lọc dữ liệu
- Dùng hàm trong Excel để tổng hợp, thống kê dữ liệu
- Lệnh SubTotal
- Lệnh Consolidate
- Lệnh PivotTable
Câu 1. Trình bày cú pháp, ý nghĩa hàm FREQUENCY? Trình bày các bước để lập bảng phân
phối tần số?
Câu 2. Trình bày các bước vẽ biểu đồ tần suất Histogram?
Câu 3. Trình bày thao tác tính đặc trưng mẫu? Các giá trị đặc trưng mẫu tìm được có ý nghĩa gì?
Câu 4. Trình bày các bước ước lượng trung bình tổng thể?
Câu 5. Công thức ước tính khoảng tin cậy trung bình tổng thể:
𝑆
• Cỡ mẫu lớn (n>=30): 𝑥̅ ± 𝑧∝/2 (2)
√𝑛
𝑆
• Cỡ mẫu nhỏ (n<30): 𝑥̅ ± 𝑡𝑛−1,∝/2 (3)
√𝑛
Giả sử các giá trị 𝑥̅ , 𝑠, √𝑛 là như nhau, thì công thức nào cho kết quả khoảng tin cậy rộng
hơn.
Câu 6. Trình bày thao tác hiệu chỉnh kiểu đồ thị, thêm vào số liệu trên đồ thị?
Câu 7. Bảng tổng hợp có thể tạo ra theo những cách nào?
Trang 86
Hướng dẫn: Danh sách Bins_array lúc này sẽ như minh họa dưới, từ E10:E13.
Câu 2. Hãy thử điều tra về số tiền sinh hoạt hàng tháng của khoảng 30 sinh viên. Sau đó, tiến
hành ước lượng khoảng tin cậy của số tiền sinh hoạt hàng tháng của một sinh viên trong
lớp/trường với độ tin cậy 95%.
Câu 3. Hiệu chỉnh đồ thị trong phần lý thuyết như minh họa sau.
Trang 87
Câu 4. Cho bảng dữ liệu từ chương 3, hãy tạo các bảng tổng hợp và đồ thị như minh họa sau
(bảng 1, bảng 2 và đồ thị dùng lệnh PivotTable, bảng 3 dùng lệnh SubTotal, bảng 4 dùng lệnh
Consolidate). Dùng lệnh Switch Row/Column để hiệu chỉnh đồ thị.
Bảng 1
Cửa hàng Nhân viên Năm Loại hàng Số lượng Sum of Số lượng
Số 1 Anh 2010 Mouse 26 Keyboard Mouse RAM Grand Total
Số 1 Anh 2012 Keyboard 15 Số 1 15 26 14 55
Số 1 Hoa 2013 RAM 14 Anh 15 26 41
Số 2 Anh 2010 Keyboard 16 Hoa 14 14
Số 2 Mai 2011 Mouse 12 Số 2 31 12 16 59
Số 2 Mai 2012 Keyboard 15 Anh 16 16
Số 2 Hương 2013 RAM 16 Hương 16 16
Số 3 Hoa 2013 Mouse 15 Mai 15 12 27
Số 3 Anh 2011 RAM 14 Số 3 12 15 14 41
Số 3 Hoa 2012 Keyboard 12 Anh 14 14
Hoa 12 15 27
Grand Total 58 53 44 155
Trang 88
Bảng 2 Đồ thị
Sum of Số lượng 80
Số 1 Số 2 Số 3 Grand Total 60
Số 3
Keyboard 15 31 12 58
40
Số 2
Mouse 26 12 15 53
20 Số 1
RAM 14 16 14 44
0
Grand Total 55 59 41 155
Keyboard Mouse RAM
Bảng 3 Bảng 4
Cửa Nhân Số
hàng viên Năm Loại hàng lượng
Số 1 Anh 2012 Keyboard 15
Số 2 Anh 2010 Keyboard 16
Số 2 Mai 2012 Keyboard 15
Số 3 Hoa 2012 Keyboard 12
Keyboard Total 58
Số 1 Anh 2010 Mouse 26
Số 2 Mai 2011 Mouse 12
Số 3 Hoa 2013 Mouse 15
Số lượng
Mouse Total 53
Số 1 Hoa 2013 RAM 14 Mouse 53
Số 2 Hương 2013 RAM 16 Keyboard 58
Số 3 Anh 2011 RAM 14 RAM 44
RAM Total 44
Grand Total 155
Câu 5. Hãy hiệu chỉnh đồ thị ở câu 4 thành các dạng đồ thị sau.
35
30
25
20 Số 1
15 Số 2
10 Số 3
5
0
Keyboard Mouse RAM
Trang 89
RAM
Số 3
Mouse
Số 2
Số 1
Keyboard
0 10 20 30 40
CHART TITLE
40
31
30 26
Số 1
20 15
12 12
15 14 16 14 Số 2
10
Số 3
0
Keyboard Mouse RAM
Trang 90
Chương 6.
Mục tiêu
Sau khi học xong bài này, sinh viên biết cách:
1. Kiểm định giả thuyết về trị trung bình của một tổng thể.
2. Kiểm định giả thuyết về sự bằng nhau giữa hai trung bình tổng thể.
3. Kiểm định giả thuyết sự bằng nhau giữa hai phương sai tổng thể.
4. Phân tích phương sai (ANOVA)
5. Đọc kết quả kiểm định
Bên cạnh mô tả, tóm tắt dữ liệu như đã trình bày ở bài trước, các dữ liệu thu thập được từ
mẫu còn dùng để đánh giá bác bỏ hay không bác bỏ giả thuyết đặt ra, gọi là kiểm định giả thuyết.
Nói cách khác, kiểm định giả thuyết là dựa vào các thông tin của mẫu để đưa ra kết luận bác bỏ
hay không bác bỏ giả thuyết về tổng thể. Việc không bác bỏ hay bác bỏ giả thuyết phải hiểu theo
nghĩa xác suất.
Có hai nhóm kiểm định: kiểm định tham số và kiểm định phi tham số. Kiểm định tham số
thường được sử dụng cho các biến định lượng có phân phối chuẩn, kiểm định phi tham số thường
được sử dụng cho các biến không phải là biến định lượng hoặc biến định lượng không có phân
phối chuẩn.
Nội dung chương này trình bày các kiểm định tham số về:
Trang 91
6.1.2. Các loại sai lầm trong kiểm định giả thuyết
Sai lầm loại 1: Bác bỏ giả thuyết Ho trong khi giả thuyết Ho là đúng.
Sai lầm loại 2: Không bác bỏ giả thuyết Ho trong khi giả thuyết Ho sai.
Do vậy, khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết Ho, nhà nghiên cứu có thể
bị sai lầm (sai lầm loại một - với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ giả
thuyết H0, nhà nghiên cứu cũng có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào
đó).
Những quyết định dựa trên giả thuyết H0 được tóm tắt như sau:
6.1.3. Quy trình tổng quát trong kiểm định giả thuyết
Bước 1. Xây dựng giả thuyết
Để bắt đầu kiểm định giả thuyết, cần đưa ra giả định về một vài tham số tổng thể và sử
dụng dữ liệu mẫu để kiểm tra tính logic của giả định đó. Cần nhớ rằng sự thất bại trong việc loại
Trang 92
H0 không đồng nghĩa với việc đã chứng minh được H0 đúng, mà chỉ là không đủ bằng chứng
thống kê để loại bỏ mà thôi.
Bước 2. Chọn mức ý nghĩa mong muốn
Khả năng phạm sai lầm loại 1 như đã trình bày được gọi là mức ý nghĩa và được ký hiệu
là α. Trên thưc tế, có 3 mức ý nghĩa thường dùng nhất là 0.1, 0.05 và 0.01 tương ứng với độ tin
cậy là 0.90, 0.95, 0.99. Viêc lựa chọn α là bao nhiêu phụ thuộc vào tính chủ quan của người
nghiên cứu chấp nhận rủi ro ở mức nào. Có một vài ý có tính chất kinh nghiệm để tham khảo:
- Nếu nội dung nghiên cứu đòi hỏi độ chính xác cao thì nên chọn mức α nhỏ, thông thường
là 1%.
- Nếu nội dung nghiên cứu số liệu biến động lớn, thu thập thông tin khó chính xác thì nên
chọn α lớn, tuy nhiên không nên tăng α quá lớn sẽ làm tăng khả năng bị sai lầm loại 2 và thông
thường theo sự thống nhất chung của các nhà thống kê, mức ý nghĩa tối đa là 10%.
- Nếu không quá quan tâm quá nhiều đến mức ý nghĩa thì nên chọn theo mức thông thường
là 5%.
Bước 3. Tính trị số thống kê hay giá trị thực tế của kiểm định
Trong bước này, dựa vào các lý thuyết thống kê để lựa chọn công thức phù hợp để quy
phân phối mẫu về phân phối nào đó. Một số phân phối thường gặp là phân phối chuẩn, phân phối
Student, phân phối Chi bình phương, phân phối Fisher, … Giá trị thực tế của kiểm định là cơ sở
để quyết định không bác bỏ hay bác bỏ giả thuyết không.
Bước 4. Rút ra kết luận liên quan đến giả thuyết không
Tương ứng với mức ý nghĩa α và phân phối được xác định ở bước 3 sẽ tìm được giá trị lý
thuyết của kiểm định, thông thường là tra bảng hoặc sử dụng phần mềm máy tính để tìm được
(Zα, tdf,α, …). Tiếp theo, so sánh giá trị thực tế và giá trị lý thuyết của kiểm định để có kết luận
phù hợp với giả thuyết không.
Nếu như H0 bị bác bỏ, tức là H1 được chấp nhận, khi đó kết luận sẽ như giả thuyết H1.
Tuy nhiên, nếu H0 không bị bác bỏ, chúng ta không nhất thiết cho rằng H0 là đúng mà nên nói
rằng chưa đủ cơ sở để chấp nhận đối thuyết H1.
Bước 5. Kết luận (Diễn giải kết quả kiểm định)
Tùy thuộc vào nội dung nghiên cứu để đưa ra kết luận phù hợp với mục đích và yêu cầu
của vấn đề đặt ra.
Trang 93
Trong đó, Z là giá trị kiểm định lý thuyết được tìm thấy trong bảng Z. Trong Excel, có
thể sử dụng hàm NORMSINV(1-/2) để tìm giá trị Z/2.
Xét ví dụ trong mục 5.3 về việc khảo sát số tiền sinh hoạt hàng tháng của sinh viên. Mục
tiêu ở đây là tiến hành kiểm định giả thuyết H0 nào đó, ví dụ trong trường hợp này sẽ kiểm định
giả thuyết là trị trung bình của biến Tien (tiền sinh hoạt) so với giá trị 2000 (đơn vị nghìn đồng).
Giả thuyết:
Trang 94
H0: μ = 2000
H1: μ ≠ 2000
Nhập dữ liệu: Nhập theo số liệu trong mục 5.3 vào bảng tính Excel
Các bước thực hiện:
Đây là trường hợp kiểm định giả thuyết về trung bình tổng thể với mẫu lớn và chưa biết
phương sai tổng thể. Vì vậy, cần phải tìm phương sai mẫu (có thể bằng cách sử dụng lệnh trong
Excel) để thay thế cho phương sai tổng thể.
Bước 1. Chọn Tool, sau đó chọn Data Analysis, chọn Descriptive statistics, bảng kết
quả xuất hiện như sau.
Bảng 6.2. Bảng kết quả tính đặc trưng mẫu
Trang 95
Bảng 6.3. Bảng kiểm định giả thuyết về trung bình tổng thể ( mẫu bé)
3. Quyết định bác bỏ H0 khi t > tn-1, t < -tn-1, |t| > tn-1,/2
Tương tự như đối với kiểm định Z, nhưng trường hợp này sử dụng kiểm định Student
(kiểm định t). Trong đó, tn-1, là giá trị kiểm định lý thuyết được tìm thấy trong bảng t. Trong
Excel, có thể sử dụng hàm TINV(, n-1) để tìm giá trị tn-1,/2. Có thể tóm tắt nguyên tắc bác bỏ
H0 như sau:
6.3. Kiểm định giả thuyết về sự bằng nhau giữa hai trung bình tổng thể
Trang 96
khác nhau của n cặp (xi - yi). D0 là một giá trị cụ thể nào đó để kiểm định và kiểm định ở mức ý
nghĩa α, có ba trường hợp kiểm định tổng quát như bảng sau (đây là trường hợp tổng quát, thông
thường thì D0=0). Nội dung trình bày tập trung vào kiểm định hai phía.
Bảng 6. 4. Bảng kiểm định sự khác biệt của hai trung bình tổng thể
(dựa trên phối hợp từng cặp)
Ví dụ, để nghiên cứu tác dụng của một loại thuốc ngủ, người ta cho 15 bệnh nhân
uống thuốc. Lần khác họ cũng cho bệnh nhân uống thuốc nhưng là thuốc giả (thuốc không
có tác dụng). Kết quả thí nghiệm như sau.
Bệnh nhân 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Số giờ ngủ
có thuốc 6 6.5 7 7.5 8.2 7 7.5 6.7 8.2 7.8 7 6 7.5 7.6 5.9
Số giờ ngủ
với thuốc giả 5 6 6.1 6.5 6 5.3 6 5.7 6.7 6 7 5 6 8 5
Giả sử hiệu số giờ ngủ của các bệnh nhân có phân phối chuẩn. Với mức ý nghĩa α=0.05,
hãy kết luận về ảnh hưởng của loại thuốc ngủ trên?
Dựa vào thông trên, giả thuyết được đặt ra như sau.
Giả thuyết H0: 1 = 2 “Thuốc ngủ trên không có tác dụng đến số giờ ngủ”
Trang 97
Hình 6.1. Hộp thoại t-Test: Paired Two Sample for Means
Bước 2. Đưa thông tin vào hộp thoại
Trang 98
Variable 1 Variable 2
Mean Trung bình mẫu 7.1 6
Variance Phương sai mẫu 0.6 0.7
Observations Số quan sát 15 15
Pearson Correlation Hệ số tương quan 0.6
Hypothesized Mean Giả thuyết về hiệu số trung bình
Difference 0
Df Bậc tư do (n-1) 14
t Stat Giá trị t thực nghiệm 6.1
P(T<=t) one-tail Giá trị P một phía 0
t Critical one-tail Giá trị t lý thuyết (một phía) 1.8
P(T<=t) two-tail Giá trị P hai phía 0
t Critical two-tail Giá trị t lý thuyết (hai phía) 2.1
Trang 99
( 𝑥̅ −𝑦̅ )−𝐷0
𝑍= (chưa biết phương sai tổng thể)
2
𝑆2 𝑆
√ 𝑥+ 𝑦
𝑛𝑥 𝑛𝑦
Ví dụ, Có số liệu về kết quả học tập của hai nhóm sinh viên, một nhóm sinh viên có đi
làm thêm trong quá trình học và một nhóm sinh viên không tham gia làm thêm trong quá trình
học. Kiểm định ở mức ý nghĩa 5% giả thuyết cho rằng kết quả học tập của sinh viên có đi làm
thêm trong quá trình học không khác so với các sinh viên không đi làm thêm.
SV làm thêm: 6; 6; 6; 6; 6; 6; 6; 6.5; 6.5; 6.5; 6.5; 6.5; 6.5; 7; 7; 7; 7; 7; 7; 7; 7.5; 7.5;
7.5; 7.5; 7.5; 7.5; 8; 8; 8; 8; 8;8;8;8.5;8.5;8.5;8.5
SV không làm thêm: 6; 6.5; 6.5; 6.5; 6.5; 6.5; 7; 7; 7; 7; 7; 7.5; 7.5; 7.5; 7.5; 7.5; 7.5; 8;
8; 8; 8; 8; 8; 8; 8.5; 8.5; 8.5; 8.5; 8.5; 8.5; 9; 9
Giả thuyết:
H0: μ1 = μ2 (điểm trung bình của sinh viên làm thêm bằng điểm trung bình của sinh viên
không làm thêm)
H1: μ1 ≠ μ2 (điểm trung bình của sinh viên làm thêm khác điểm trung bình của các sinh
viên làm thêm)
Để tiến hành kiểm định cần tính toán phương sai của hai dãy số liệu và thực hiện lệnh z-
Test để kiểm định. Sử dụng hàm VAR để tính phương sai.
Trang 100
Để tiến hành kiểm định giả thuyết về chênh lệch trung bình giữa hai tổng thể, Excel có
công cụ hỗ trợ được trình bày cụ thể theo các bước sau.
Bước 1. Chọn Tools, chọn Data Analysis.
Bước 2. Khi hộp thoại Data Analysis xuất hiện, chọn z-Test: Two Sample for Means,
và chọn OK.
Hình 6.2. Minh họa khai báo dữ liệu trong hộp thoại z-Test: Two Sample for Means
Bước 3. Khi hộp thoại z-Test: Two Samples for Means xuất hiện, điền thông tin như
sau.
- Variable 1 Range: Địa chỉ vùng dữ liệu thứ nhất
- Variable 2 Range: Địa chỉ vùng dữ liệu thứ hai
- Hypothesized Mean Difference: giá trị D0, trong trường hợp này là 0
- Variable 1 Variance: Phương sai mẫu 1
- Variable 2 Variance: Phương sai mẫu 2
- Labes: Sử dụng dòng đầu tiên trong vùng dữ liệu làm nhãn.
Trang 101
Vậy kết quả học tập của các sinh viên không làm thêm khác với kết quả học tập của các
sinh viên có làm thêm ở mức ý nghĩa α=0.05. Kết luận rằng: việc đi làm thêm có ảnh hưởng đến
kết quả học tập của sinh viên (làm giảm kết quả học tập).
Trang 102
Bảng 6.7. Bảng kiểm định sự khác biệt của hai trung bình tổng thể (dựa trên mẫu độc lập) khi
mẫu bé (nx hoặc ny < 30), giả thiết phương sai bằng nhau
3. Quyết định bác t > tnx+ny-2, t < -tnx+ny-2, |t| > tnx+ny-2,/2
bỏ H0 khi
Bảng 6.8. Bảng kiểm định sự khác biệt của hai trung bình tổng thể (dựa trên mẫu độc lập) khi
mẫu bé (nx hoặc ny < 30), giả thiết phương sai không bằng nhau
3. Quyết định bác t > tn, t < -tn, |t| > tn,/2
bỏ H0 khi
Ví dụ, để so sánh thu nhập của sinh viên sau khi tốt nghiệp khối ngành Y với khối ngành
Dược, người ta điều tra ngẫu nhiên 15 sinh viên tốt nghiệp mỗi ngành vào công tác tại các doanh
nghiệp khác nhau. Số liệu về thu nhập của họ trong bảng sau (đơn vị tính triệu đồng /tháng)
Trang 103
Excel có công cụ hỗ trợ để kiểm định cho trường hợp này, được trình bày cụ thể theo các
bước sau.
Bước 1. Chọn Tool, chọn Data Analysis.
Bước 2. Khi hộp thoại Data Analysis xuất hiện, chọn t-Test: Two-Sample Assuming
Equal Variances (giả sử hai mẫu có phương sai bằng nhau), tiếp theo kích OK.
Hình 6.3. Minh họa khai báo dữ liệu trong hộp thoại t-test
Bước 3. Khi hộp thoại t-Test: Two-Sample Assuming Equal Variances xuất hiện, đưa
thông tin vào hộp thoại như sau:
- Variable 1 Range: địa chỉ vùng dữ liệu 1
- Variable 2 Range: địa chỉ vùng dữ liệu 2
- Hypothesis mean difference: thông thường là 0 (nếu muốn kiểm định với một
giá trị khác, ví dụ như μ1-μ2=2, thì có thể điền giá trị 2 vào ô này)
- Labels: dòng trên cùng của hai cột dữ liệu (vùng 1, vùng 2) có phải là số liệu dùng
để tính toán hay là nhãn (tên biến)
- Alpha: mức ý nghĩa α (0.05 là mức vẫn thường được sử dụng)
- Output Range: địa chỉ để xuất kết quả
Bước 4. Bấm OK, bảng kết quả xuất hiện như sau.
Trang 104
Bảng 6.9. Kết quả kiểm định giả thuyết với t-Test: Two-Sample Assuming Equal Variances
Y Dược
Mean 7.1 7.43333
Variance 0.43571 0.35238
Observations 15 15
Pooled Variance 0.39405
Hypothesized Mean Difference 0
Df 28
t Stat -1.4542
P(T<=t) one-tail 0.0785
t Critical one-tail 1.70113
P(T<=t) two-tail 0.157
t Critical two-tail 2.04841
Bước 5. Đọc kết quả và đưa ra kết luận
Việc giả định 𝑠𝑥2 > 𝑠𝑦2 không làm mất tính tổng quát của bài toán, vì có thể chọn X làm
tổng thể có phương sai lớn.
Trở lại ví dụ về so sánh thu nhập của sinh viên tốt nghiệp khối ngành Y với sinh tốt nghiệp
khối ngành Dược. Ta có nx=15, ny=15, sx= √0.44 , sy= √0.35, α=5% (X: thu nhập sinh viên ngành
Trang 105
Y, Y: thu nhập sinh viên ngành Dược). Giả định X, Y có phân phối chuẩn, các bước thực hiện
với Excel như sau:
Bước 1. Vào thẻ Data, chọn Data Analysis, chọn F-Test Two-Sample for Variances.
Hình 6.4. Minh họa cách nhập dữ liệu trong hộp thoại F- Test Two-Sample for Variances
Bước 2. Hộp thoại xuất hiện, đưa vào các thông tin như mịnh họa trên. Nhấn OK.
Kết quả xuất hiện như sau.
Bảng 6.10. Kết quả kiểm định với lệnh F- Test Two-Sample for Variances
Y Dược
Mean 7.1 7.433
Variance 0.436 0.352
Observations 15 15
Df 14 14
F 1.236
P(F<=f) one-tail 0.348
F Critical one-tail 2.484
Bước 3. Kết luận
Cách 1: Ftn (F thực nghiệm) = F = 1.236 < Flt (F lý thuyết) = F Critical one-tail =2.484 →
Không bác bỏ H0
Trang 106
Mô hình:
i j 1 2 … k
1 x11 x21 xk1
… … … …
n = nj x1n x2n xkn
𝑛
T1 T2 … Tn
∑ 𝑥𝑗𝑖 = 𝑇𝑗
𝑖=1
𝑇
𝑥̅𝑗 =𝑛𝑗 𝑥1
̅̅̅ 𝑥2
̅̅̅ 𝑥𝑛
̅̅̅
𝑗
𝑁 = ∑ 𝑛𝑗 ; 𝑇 = ∑ 𝑇𝑗
Trang 107
H0 (1 = 2 = …= k): Các giá trị trung bình tương đương nhau.
Biện luận:
Ftn > Flt=F,k-1,N-k = Fcritical: bác bỏ giả thuyết H0 (Flt: F lý thuyết)
Xét ví dụ tiếp theo đây để làm rõ hơn về phân tích phương sai. Ví dụ hàm lượng alcaloid
(mg) trong một loại dược liệu được thu hái từ 3 vùng khác nhau được trình bày trong bảng sau:
Vùng 1 6.5 6.8 7.0 7.6 7.1 6.7
Vùng 2 5.7 6.0 5.9 6.1
Vùng 3 6.2 6.8 6.5 6.3 6.7
Hãy cho nhận xét về hàm lượng alcaloid theo vùng, với mức ý nghĩa =5%.
Trang 108
Có thể áp dụng các công thức trên để thực hiện kiểm định này, tuy nhiên điều này sẽ mất
khá nhiều thời gian, đặc biệt là khi số lượng quan sát lớn. Người dùng có thể sử dụng phần mềm
Excel để giải quyết rất đơn giản bằng lệnh Data → Data Analysis → Anova: Single Factor.
Để tiến hành các bước phân tích phương sai, đầu tiên phải nhập dữ liệu trên vào bảng tính
như minh họa sau.
Bảng 6.11. Bảng dữ liệu theo 3 vùng
Giả thuyết: có thể được trình bày theo một trong 3 cách sau:
H0: Hàm lượng alcaloid trung bình của các vùng giống nhau.
H0: 1= 2 = 3
H0: Hàm lượng alcaloid không phụ thuộc vào vùng.
Các bước thực hiện:
Bước 1. Chọn Tool, chọn Data Analysis.
Bước 2. Khi cửa sổ Data Analysis xuất hiện, chọn Anova: Single Factor, tiếp theo kích
OK, hộp thoại xuất hiện như sau.
Trang 109
Bước 3. Đưa vào các thông tin như hình minh họa.
- Input Range: địa chỉ vùng dữ liệu;
- Grouped By: dữ liệu được tổ chức theo cột (Columns) hay theo hàng (Rows);
- Labels in first column: Lấy cột đầu tiên làm nhãn (tiêu đề);
- Output Range: địa chỉ xuất kết quả
Bước 4. Kích nút OK. Kết quả cho ra như sau.
Bảng 6.12. Kết quả kiểm định với lệnh Anove: Single Factor
Giá trị kiểm định: Ftn = F = 14.00554 > Flt = F crit =3.88529 → bác bỏ H0.
Vậy hàm lượng trung bình alcaloid khác nhau theo vùng. Nghĩa là yếu tố vùng có ảnh
hưởng đến hàm lượng alcaloid.
Trang 110
Kết quả chọn mẫu được lập thành bảng kết hợp 2 yếu tố như sau:
Trang 111
Hình 6.6. Minh họa vùng số liệu và hộp thoại Anova:Two-Factor Without Replication
Bước 3. Chọn OK. Kết quả xuất hiện như sau.
Bảng 6.13. Kết qủa kiểm định với Anova:Two-Factor Without Replication
ANOVA
Source of
Variation SS df MS F P-value F crit
Rows 216.6667 4 54.16667 0.369318 0.824288 3.837853
Columns 11710 2 5855 39.92045 6.88E-05 4.45897
Error 1173.333 8 146.6667
Total 13100 14
Để giải thích kết quả, có thể trình bày bài toán thành hai bài toán kiểm định như sau.
Trang 112
(2). Quyết định: Ftn=F= 39.92 > Flt=Fcrit=4.46 (P-value=0.0000688 <α=0.05) bác bỏ
H0
(3). Kết luận: Chiết xuất chất X phụ thuộc vào phương pháp.
• Kiểm định theo hàng:
(1). Giả thuyết: Chiết xuất chất X không phụ thuộc và dung môi
(2). Quyết định: Ftn=F= 0.369 < Flt=Fcrit=3.838 (P-value=0.824 >α=0.05) Không bác
bỏ H0.
(3). Kết luận: Không đủ cơ sở để kết luận chiết xuất chất X phụ thuộc vào dung môi.
Trang 113
Ở đây, chỉ trình bày các bước kiểm định trong Excel với ví dụ minh họa như sau.
Ví dụ, hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái trong 2 mùa
(khô và mưa: trong mỗi mùa lấy mẫu 3 lần - đầu mùa, giữa mùa, cuối mùa) và từ 3 miền (Nam,
Trung, Bắc) thu được kết quả sau:
Hình 6.7. Minh họa vùng số liệu và hộp thoại Anova: Two-Factor With Replication
Bước 3. Chọn OK. Kết quả xuất hiện như sau.
Trang 114
Bảng 6.14. Kết quả kiểm định với Anova: Two-Factor With Replication
Mưa
Count 3 3 3 9
Sum 7 7.6 9.3 23.9
Average 2.333333 2.533333 3.1 2.655556
Variance 0.003333 0.003333 0.01 0.122778
Total
Count 6 6 6
Sum 13.5 14.8 18
Average 2.25 2.466667 3
Variance 0.011 0.010667 0.02
ANOVA
Source of
Variation SS df MS F P-value F crit
Sample 0.125 1 0.125 18.75 0.000978 4.747225
Columns 1.787778 2 0.893889 134.0833 6.17E-09 3.885294
Interaction 0.003333 2 0.001667 0.25 0.782758 3.885294
Within 0.08 12 0.006667
Total 1.996111 17
Để giải thích kết quả, có thể trình bày bài toán này thành ba bài toán kiểm định như sau.
Trang 115
(3). Kết luận: hàm lượng saponin khác nhau theo miền (có sự ảnh hưởng của yếu
tố miền đến hàm lượng saponin)
• Kiểm định theo hàng:
(1). Giả thuyết: hàm lượng saponin như nhau giữa các mùa.
(2). Quyết định: Ftn=F= 18.75 < Flt=Fcrit=4.75 (P-value=0.000978 <α=0.05) Bác
bỏ H0.
(3). Kết luận: hàm lượng saponin khác nhau theo mùa (có sự ảnh hưởng của yếu
tố mùa đến hàm lượng saponin).
(2). Quyết định: Ftn=F= 0.25 < Flt=Fcrit=3.89 (P-value=0.78> α=0.05) Không
bác bỏ H0.
(3). Kết luận: Không đủ cơ sở để kết luận có sự tương tác giữa mùa và miền đến
hàm lượng saponin.
Trang 116
6.6.1. Kiểm định trung bình tổng thể so với một giá trị cho trước
Với file dữ liệu cnss tại chương 1, thực hiện kiểm định giả thuyết cho rằng trung bình cân
nặng sơ sinh (cnss) là 2500 gam, với độ tin cậy 95% (có thể tải file dữ liệu từ trang hỗ trợ học
tập trực tuyến của môn học).
Giả định rằng cnss (cân nặng sơ sinh) là có phân bố chuẩn, thực hiện thao tác như sau.
1. Vào menu Analyze → Compare Means → One-Sample Ttest
2. Chọn biến cnss đưa vào ô Test Variable(s) và nhập giá trị 2500 như minh họa sau.
3. Click nút lệnh Option để thiết lập độ tin cậy (giá trị mặc định là 95%).
4. Click OK để thực hiện lệnh
One-Sample Statistics
One-Sample Test
Trang 117
Nếu Sig. (2-tailed) của kiểm định t < α (mức ý nghĩa), có sự phác biệt có ý nghĩa với giá
trị so sánh. Nếu Sig. (2-tailed) ≥ α (mức ý nghĩa), không có sự khác biệt có ý nghĩa với giá trị so
sánh.
Trong minh họa trên, sig. (2-tailed) < 0.05, có sự khác biệt có ý nghĩa về trung bình của
cnss với 2500g.
Kết luận: Cân nặng sơ sinh trung bình của trẻ không phải 2500 gam, với độ tin cậy 95%.
6.6.2. Kiểm định trung bình giữa hai nhóm độc lập
Với file dữ liệu cnss cũng tại chương 1, thực hiện kiểm định trung bình cân nặng sơ sinh
(cnss) của hai nhóm trẻ giới tính nam và nữ với độ tin cậy 95% (có thể tải file dữ liệu từ trang hỗ
trợ học tập trực tuyến của môn học).
Giả định rằng cnss (cân nặng sơ sinh) trên hai nhóm giới tính là có phân bố chuẩn, tiến
hành kiểm định t trên hai mẫu độc lập như sau.
Trang 118
Trong kiểm định Independent-Samples T Test, cần có kiểm định sự bằng nhau của 2
phương sai tổng thể (kiểm định Levene). SPSS tự động thực hiện kiểm định này và cho kết quả
như sau.
Bảng 6. 16. Kết quả kiểm định với Independent-Sample T Test
Group Statistics
Levene's Test
for Equality of
Variances t-test for Equality of Means
cnss Equal
variances .121 .731 -1.891 23 .071 -356.597 188.537 -746.615 33.421
assumed
Equal
variances not -1.774 13.864 .098 -356.597 200.957 -788.005 74.811
assumed
Nếu giá trị Sig. trong kiểm định Levene (kiểm định F) < 0.05 thì phương sai của 2 tổng
thể khác nhau, sử dụng kết quả kiểm định t ở dòng Equal variances not assumed. Nếu Sig. ≥ 0.05
thì phương sai của 2 tổng thể không khác nhau, sử dụng kết quả kiểm định t ở dòng Equal
variances assumed.
Trong minh họa trên, Sig. của kiểm định F = 0.731 > 0.05, không bác bỏ giả thuyết H0
(không có sự khác nhau về phương sai của 2 tổng thể), sử dụng kết quả ở dòng Equal variances
assumed.
Nếu Sig.(2-tailed) trong kiểm định t < α (mức ý nghĩa), có sự phác biệt có ý nghĩa về
trung bình của 2 tổng thể. Nếu Sig.(2-tailed) ≥ α (mức ý nghĩa), không có sự khác biệt có ý nghĩa
về trung bình của 2 tổng thể.
Trang 119
Trong minh họa trên, Sig. (2-tailed) = 0.071 > 0.05, không có sự khác biệt có ý nghĩa về
trung bình của 2 tổng thể.
Hãy chuyển dữ liệu trên sang Excel, sắp xếp lại số liệu cho phù hợp để tiến hành kiểm
định cân nặng sơ sinh giữa hai nhóm giới tính nam và nữ. So sánh kết quả với kiểm định dùng
SPSS.
6.6.3. Kiểm định trung bình nhiều hơn hai nhóm
Với file dữ liệu cnss cũng tại chương 1, thực hiện kiểm định trung bình cân nặng trẻ sơ
sinh (cnss) theo nghề nghiệp của mẹ (có thể tải file dữ liệu từ trang hỗ trợ học tập trực tuyến của
môn học).
Lưu ý:
Đây là trường hợp phân tích phương sai một nhân tố. Cần lưu ý một số giả định đối với
phân tích phương sai một nhân tố như sau:
- Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên.
1. Từ menu Analyze → Compare Means → One-Way ANOVA, xuất hiện hộp thoại sau:
Trang 120
3. Click vào nút Option để mở hộp thoại One-Way ANOVA Options. Trong hộp thoại
One-way ANOVA Options:
- Click chọn ô Descriptive để tính đại lượng thống kê mô tả (tính trị trung bình) theo
từng nhóm so sánh.
- Click chọn ô Homogeneity of variance test để kiểm định sự bằng nhau của các phương
sai nhóm (thực hiện kiểm định Levene).
5. Dựa vào kết quả kiểm định ANOVA, nếu không bác bỏ H0 thì kết luận không có sự
khác biệt có ý nghĩa giữa các nhóm với nhau. Nếu H0 bị bác bỏ → có sự khác biệt có
ý nghĩa giữa các nhóm → trở lại hộp thoại One – Way ANOVA để thực hiện kiểm
định sâu ANOVA nhằm xác định cụ thể trung bình của nhóm nào khác với nhóm nào,
nghĩa là tìm xem sự khác biệt của các nhóm xảy ra ở đâu.
6. Tuy nhiên có thể thực hiện kiểm định ANOVA và sâu ANOVA cùng lúc với nhau.
Dựa vào sự không bác bỏ hay bác bỏ giả thuyết H0 để quan tâm hay không quan tâm
đến kết quả kiểm định sâu ANOVA.
Trang 121
Các phương pháp kiểm định thống kê của Post-Hoc test thường được sử dụng:
- LSD: đây là phép kiểm định dùng kiểm định t lần lượt cho từng cặp trung bình nhóm,
do vậy nhược điểm của nó là độ tin cậy không cao vì làm gia tăng mức độ phạm sai
lầm tương ứng với việc so sánh nhiều nhóm cùng một lúc.
- Bonferroni: giống quy tắc của LSD nhưng điều chỉnh được mức ý nghĩa khi tiến hành
so sánh bội dựa trên số lần tiến hành so sánh. Đây là một trong những thủ tục kiểm
định đơn giản nhất và hay được sử dụng cho mục tiêu này.
- Tukey: cũng được sử dụng phổ biến cho việc tìm kiếm các trung bình các nhóm khác
biệt. Nó sử dụng bảng phân phối Studentizze range distribution. Tukey hiệu quả hơn
Bonferroni khi số lượng các cặp trung bình cần so sánh khá nhiều.
- R-E-G-W: thực hiện 2 bước kiểm định, đầu tiên tiến hành kiểm định lại toàn bộ các
giá trị trung bình nhóm xem có bằng nhau không; nếu không bằng thì bước kế tiếp nó
sẽ kiểm định để tìm các nhóm nào khác biệt thật sự với nhau về trị trung bình. Nhưng
kiểm định này không phù hợp khi kích cỡ các nhóm mẫu không bằng nhau.
- Dunnett: là thủ tục cho phép chọn so sánh các trị trung bình của các nhóm mẫu còn
lại với trị trung bình của một nhóm mẫu cụ thể nào đó được chọn ra so sánh (nhóm
điều khiển), SPSS mặc định chọn nhóm cuối (last) để làm nhóm điều khiển.
Sử dụng kiểm định nào là tuỳ thuộc vào mục đích của nhà nghiên cứu và tình hình thực
tế nghiên cứu. Minh họa sau đây dùng kiểm định LSD cho trường hợp phương sai bằng nhau và
kiểm định Dunnett’s T3 cho trường hợp phương sai không bằng nhau.
Trang 122
Descriptives
Cnss
95% Confidence
Interval for Mean
nong dan 330 3008.71 401.245 22.088 2965.26 3052.16 1700 4300
cong nhan 110 2989.55 412.093 39.292 2911.67 3067.42 1800 4350
nghe khac 131 3047.33 393.178 34.352 2979.37 3115.29 2000 4000
2. Bảng thứ 2 thể hiện kết quả kiểm định Levene. Ở đây, Sig. = 0.930 > mức ý nghĩa 0.05
→ không bác bỏ giả thuyết H0 → phương sai các nhóm không khác nhau → sử dụng kết
quả phân tích ANOVA ở bảng tiếp theo.
Trang 123
Cnss
3. Bảng thứ 3 thể hiện kết quả kiểm định ANOVA. Ở đây, sig. = 0.501 > mức ý nghĩa 0.05
→ không bác bỏ giả thuyết H0 → không có sự khác biệt có ý nghĩa về giá trị trung bình
của cân nặng sơ sinh của các nhóm nghề nghiệp của mẹ.
ANOVA
Cnss
4. Bảng thứ 4 thể hiện kết quả kiểm định sâu ANOVA (dùng kiểm định LSD) để kiểm tra
sự khác biệt theo hai nhóm (từng đôi một). Tuy nhiên, trong trường hợp này, bảng thứ 4
không cần thiết nữa, bởi vì kết quả tại bảng thứ 3 cho biết rằng không có sự khác biệt giá
trị trung bình giữa các nhóm.
Trang 124
Multiple Comparisons
Dependent Variable:cnss
(I) nghe (J) nghe Mean 95% Confidence Interval
nghiep cua nghiep cua Difference
me me (I-J) Std. Error Sig. Lower Bound Upper Bound
LSD nong dan cong nhan 19.167 43.927 .663 -67.08 105.41
tho may 51.894 87.854 .555 -120.60 224.39
buon ban -91.288 86.045 .289 -260.23 77.65
Cnv -61.876 48.531 .203 -157.16 33.41
nghe khac -38.616 41.202 .349 -119.51 42.28
cong nhan nong dan -19.167 43.927 .663 -105.41 67.08
tho may 32.727 93.184 .726 -150.23 215.68
buon ban -110.455 91.480 .228 -290.06 69.16
Cnv -81.043 57.620 .160 -194.17 32.09
nghe khac -57.783 51.598 .263 -159.09 43.52
tho may nong dan -51.894 87.854 .555 -224.39 120.60
cong nhan -32.727 93.184 .726 -215.68 150.23
buon ban -143.182 118.985 .229 -376.79 90.43
Cnv -113.770 95.440 .234 -301.16 73.62
nghe khac -90.510 91.930 .325 -271.00 89.98
buon ban nong dan 91.288 86.045 .289 -77.65 260.23
cong nhan 110.455 91.480 .228 -69.16 290.06
tho may 143.182 118.985 .229 -90.43 376.79
Cnv 29.412 93.777 .754 -154.71 213.53
nghe khac 52.672 90.203 .559 -124.43 229.77
cnv nong dan 61.876 48.531 .203 -33.41 157.16
cong nhan 81.043 57.620 .160 -32.09 194.17
tho may 113.770 95.440 .234 -73.62 301.16
buon ban -29.412 93.777 .754 -213.53 154.71
nghe khac 23.260 55.570 .676 -85.85 132.37
nghe khac nong dan 38.616 41.202 .349 -42.28 119.51
cong nhan 57.783 51.598 .263 -43.52 159.09
tho may 90.510 91.930 .325 -89.98 271.00
buon ban -52.672 90.203 .559 -229.77 124.43
Cnv -23.260 55.570 .676 -132.37 85.85
Cnv -23.260 52.683 1.000 -179.39 132.87
Có thể đọc kết quả bảng 4 như sau: Dựa vào kết quả kiểm định LSD này, không thấy có
sự khác biệt giữa hai nhóm bất kỳ (tất cả các giá trị tại .sig đều lớn hơn 0.05).
Trang 125
t-Test:
Z t Paired … Z Phương sai = Phương sai ANOVA
Trang 126
+ Dùng lệnh Data → Data Analysis → t-Test: Paired Two Sample for
Means;
- Kiểm định dựa trên mẫu độc lập, mẫu lớn
+ Giả định: tổng thể có phân phối chuẩn
+ Đặt giả thuyết H0: x = y
+ Dùng kiểm định Z;
+ Quyết định bác bỏ H0 khi |Z| > Z/2 (hoặc P-value < α)
+ Dùng lệnh Data → Data Analysis → z-Test: Two Sample for Means
- Kiểm định dựa trên mẫu độc lập, mẫu bé (giả thiết tổng thể có hai phương sai bằng
nhau).
+ Giả định: tổng thể có phân phối chuẩn
+ Đặt giả thuyết H0 : x = y
+ Dùng kiểm định t;
+ Quyết định bác bỏ H0 khi |t| > tnx+ny-2,/2 (hoặc P-value < α)
+ Dùng lệnh Data → Data Analysis → t-Test: Two-Sample Assuming
Equal Variances
- Kiểm định dựa trên mẫu độc lập, mẫu bé (giả thiết tổng thể có hai phương sai
không bằng nhau).
+ Giả định: tổng thể có phân phối chuẩn
+ Đặt giả thuyết H0 : x = y
+ Dùng kiểm định t;
+ Quyết định bác bỏ H0 khi |t| = |t Stat| > tlt = t Critical two-tail (hoặc P-
value < α)
+ Dùng lệnh Data → Data Analysis → t-Test: Two - Samples Assuming
Unequal Variances
Kiểm định phương sai của hai tổng thể
- Giả định:
+ Tổng thể có phân phối chuẩn
𝐻0 : 𝜎𝑥2 = 𝜎𝑦2
+ 𝑠𝑥2 > 𝑠𝑦2 , giả thuyết đặt ra: {
𝐻1 : 𝜎𝑥2 > 𝜎𝑦2
- Dùng kiểm định F;
Trang 127
𝑠2
- Bác bỏ giả thuyết H0 nếu: 𝐹 = 𝑠𝑥2 > 𝐹𝑛𝑥 −1,𝑛𝑦 −1,𝛼 (hoặc P-value < α)
𝑦
Trang 128
Sau khi hoàn thành bài thực hành này, sinh viên tự đánh giá các nội dung đã hoàn thành
bằng cách đánh dấu vào dòng tương ứng.
STT Nội dung Đánh dấu
1 Kiểm định giả thuyết về trị trung bình của một tổng thể.
2 Kiểm định giả thuyết về sự bằng nhau giữa hai trung bình
tổng thể.
3 Kiểm định giả thuyết sự bằng nhau giữa hai phương sai tổng
thể.
4 Phân tích phương sai (ANOVA)
5 Đọc kết quả kiểm định
6 Sử dụng SPSS để kiểm định trung bình tổng thể
Trang 129
c. Đọc kết quả như thế nào? Bác bỏ hay không bác bỏ H0? Nên trao đổi cách đọc
kết quả với các bạn để kiểm tra xem kết quả mình đưa ra đã chính xác chưa.
3. Kết luận vấn đề dựa vào kết quả đã đọc được (ví dụ, kết luận có sự ảnh hưởng của yếu
tố… đến đối tượng nghiên cứu…).
Phút 94 87 35 55 70 89 89 88 103 86 82 83 36 42 81
a. Cho biết rằng thời gian trả kết quả xét nghiệm có phân phối chuẩn, với mức ý nghĩa 1%
có đủ cơ sở kết luận thông báo trên phiếu hẹn với khách hàng của Trung tâm là đáng tin cậy
không ?
b. Ước lượng thời gian trung bình trả kết quả xét nghiệm của trung tâm trên với độ tin cậy
95%.
Câu 4. Bài toán so sánh hai trung bình với phương sai đã biết (hoặc mẫu lớn).
Nhà máy A muốn khảo sát khả năng hoàn thành công việc của hai lô máy I và II có giống
nhau hay không. Người ta chọn 2 mẫu, mỗi mẫu 10 máy, từ hai lô (I và II được sản xuất với
phương sai biết trước tương ứng là 1 và 0.97) để khảo sát thời gian hoàn thành công việc
(phút) của chúng:
I 6 7 9 10 6 15 12 11 13 14
II 5 4 6 3 9 6 12 15 17 14
Trang 130
Hỏi khả năng hoàn thành công việc của hai máy có khác nhau hay không? Giả thiết thời gian
hoàn thành công việc của hai lô máy I và II có phân phối chuẩn. α =0.05
Giả thuyết H0: a1=a2 “Khả năng hoàn thành công việc của 2 máy như nhau”
H1: a1≠a2 “Khả năng hoàn thành công việc của 2 máy khác nhau”
Nhập và xử lý dữ liệu
• Variable 1 Range, Variable 2 Range: địa chỉ tuyệt đối của vùng dữ liệu của I, II
• Variable 1 Variance (known), Variable 2 Variance (known): phương sai của I,II
• Labels: chọn khi có tên biến ở đầu cột hoặc hàng
• Alpha: mức ý nghĩa α
• Output options: chọn cách xuất kết quả
Kết quả:
Variable 1 Variable 2
Mean 10.3 9.1 Trung bình mẫu
Known Variance 1 0.97 Phương sai đã biết
Observations 10 10 Số quan sát
Hypothesized Mean Giả thuyết về hiệu số trung bình
Difference 0
Z 2.70363545 Tiêu chuẩn kiểm định
Trang 131
Vậy: “Khả năng hoàn thành công việc của 2 máy khác nhau”
XNDP I 62 72 69 74 71 70 69 74
XNDP II 63 71 65 66 71 72 68 74
Hỏi thời gian tan rã của viên bao thuộc hai XNDP có giống nhau không? α =0.05
Câu 6. Bài toán về kết quả tăng trọng lượng với các loại thuốc bổ
So sánh 3 loại thuốc bổ A, B, C trên 3 nhóm, người ta được kết quả tăng trọng (kg) như
sau:
A: 1.0 1.2 1.4 1.1 0.8 0.6
B: 2.0 1.8 1.9 1.2 1.4 1.0 1.5 1.8
C: 0.4 0.6 0.7 0.2 0.3 0.1 0.2
Hãy so sánh kết quả tăng trọng của 3 loại thuốc bổ trên với a= 0.01
Câu 7. Bài toán về hiệu quả giảm đau với các loại thuốc khác nhau
So sánh hiệu quả giảm đau của 4 loại thuốc A, B, C, D bằng cách chia 20 bệnh nhân
thành 4 nhóm, mỗi nhóm dùng một loại thuốc giảm đau trên. Kết quả mức độ giảm đau là:
A: 82 89 77 72 92
B: 80 70 72 90 68
C: 77 69 67 65 57
D: 65 75 67 55 63
Hỏi hiệu quả giảm đau của 4 loại thuốc có khác nhau không? Cho = 0,05.
Câu 8. Ðiều tra mức tăng truởng chiều cao của 1 loại cây trồng theo loại đất trồng và loại phân
bón có kết quả:
Trang 132
Loại đất
1 2 3
Phân bón
5 4 3
A 5 4 4
6 4 3
6 5 4
B 7 6 5
7 5 4
Hỏi có sự khác nhau của mức tăng truởng chiều cao theo loại đất và loại phân bón với
=0.05 ?
Câu 9. Với file dữ liệu cnss.sav ở chương 1, để kiểm định giả thuyết và sự bằng nhau giữa trung
bình cnss 3 ngày và cnss 10 ngày thì dùng loại kiểm định nào? Hãy thực hiện kiểm định này trong
SPSS.
Trang 133
PHỤ LỤC
SPSS hỗ trợ công cụ kiểm định Kolmogorov Smirnov để kiểm định về phân phối của một
bộ dữ liệu, bao gồm phân phối chuẩn, Poisson, nhị thức và phân phối mũ. Ví dụ, kiểm định giả
thuyết H0: Tổng thể của biến cnss tuân theo quy luật phân phối chuẩn. Các bước thực hiện như
sau:
Bước 1. Trên thanh công cụ, chọn Analyze → Nonparametric Tests → Legacy Dialogs
→ 1-Sample K-S
Bước 2. Đưa biến cần kiểm định phân phối vào ô Test Variable List, và chọn phân phối
muốn kiểm định trong ô Test Distribution.
Trang 134
cnss
N 181
Normal Parametersa,b Mean 3004.01
Std. Deviation 407.415
Most Extreme Differences Absolute .078
Positive .078
Negative -.060
Kolmogorov-Smirnov Z 1.045
Asymp. Sig. (2-tailed) .225
Với giá trị Sig. = 0.225, lớn hơn cả mức ý nghĩa 0.1 nên kết luận biến cnss tuân theo phân
phối chuẩn (không bác bỏ giả thuyết không).
Trang 135