Giáo Trình Tin Học

lOMoARcPSD|18200505
GT TIN HOC UNG DUNG 2021 (Gui SV)
Khoa Y (Trường Đại học Y khoa Phạm Ngọc Thạch)
StuDocu is not sponsored or endorsed by any college or university

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)
lOMoARcPSD|18200505
MỤC LỤC
Chương 1.GIỚI THIỆU MỘT SỐ PHẦN MỀM XỬ LÝ THỐNG KÊ .............................. 1

1.1. Giới thiệu phần mềm SPSS ...................................................................................... 1
1.1.1. Khởi động và thoát khỏi phần mềm SPSS ........................................................ 1
1.1.2. Cửa số biến và cửa sổ dữ liệu ............................................................................ 3
1.1.3. Lệnh Recode (Mã hóa lại) ................................................................................. 7
1.1.4. Lệnh Compute Variable................................................................................... 10
1.1.5. Lệnh Frequencies ............................................................................................. 12
1.2. Giới thiệu phần mềm MS Excel ............................................................................. 14
1.2.1. Nhập dữ liệu trong Excel ................................................................................. 14
1.2.2. Các lỗi nhập dữ liệu ......................................................................................... 15
1.2.3. Bộ công cụ Data Analysis ToolPak ................................................................. 16
TÓM TẮT CHƯƠNG 1 ................................................................................................ 18
CÂU HỎI ÔN TẬP CHƯƠNG 1 .................................................................................. 18
BÀI TẬP THỰC HÀNH CHƯƠNG 1 .......................................................................... 19
Chương 2.SẮP XẾP VÀ LỌC DỮ LIỆU ......................................................................... 24
2.1. Sắp xếp dữ liệu ....................................................................................................... 24
2.2. Lọc dữ liệu .............................................................................................................. 25
2.2.1. Các yếu tố cơ bản ............................................................................................ 25
2.2.2. Lọc tự động ..................................................................................................... 27
2.2.3. Lọc nâng cao ................................................................................................... 29
TÓM TẮT CHƯƠNG 2 ................................................................................................ 31
Chương 3.TỔNG HỢP DỮ LIỆU ..................................................................................... 34
3.1. Tạo bảng tổng hợp với Subtotal ............................................................................ 34
3.2. Tạo bảng tổng hợp dùng Consolidate ..................................................................... 36
3.2.1. Ví dụ 1 (tổng hợp theo vị trí) ........................................................................... 37
3.2.2. Ví dụ 2 (tổng hợp theo hàng và theo cột) ........................................................ 39
3.3. Tạo bảng tổng hợp với PivotTable ........................................................................ 42
TÓM TẮT CHƯƠNG 3 ................................................................................................ 48

lOMoARcPSD|18200505
Chương 4.CÁC HÀM THỐNG KÊ .................................................................................. 57

4.1. Hàm AVERAGE, AVERAGEIF, AVERAGEIFS ................................................. 57
4.2. Hàm COUNT, COUNTIF, COUNTIFS ................................................................. 59
4.3. Hàm SUM, SUMSQ, PRODUCT, SUMPRODUCT ............................................. 59
4.4. Hàm SUMIF, SUMIFS ........................................................................................... 59
4.5. Hàm MAX, LARGE ............................................................................................... 60
4.6. Hàm MIN, SMALL ................................................................................................ 60
4.7. Hàm MEDIAN ....................................................................................................... 60
4.8. Hàm MODE ............................................................................................................ 60
4.9. Hàm VAR ............................................................................................................... 60
4.10. Hàm DAVERAGE, DSUM, DCOUNT, DMAX, DMIN .................................... 61
TÓM TẮT CHƯƠNG 4 ................................................................................................ 63
Chương 5.TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU .......................................................... 71
5.1. Bảng tần số ............................................................................................................. 71
5.1.1. Hàm FREQUENCY ........................................................................................ 71
5.1.2. Lệnh Histogram ............................................................................................... 73
5.2. Đặc trưng mẫu ........................................................................................................ 75
5.2.1. Dùng lệnh Descriptive Statistics ..................................................................... 75
5.2.2. Dùng hàm trong Excel ..................................................................................... 76
5.2.3. Phân tích kết quả thu được .............................................................................. 77
5.2.4. Nhận xét ........................................................................................................... 78
5.2.5. Ước lượng trung bình của một tổng thể .......................................................... 79
5.3. Đồ thị ...................................................................................................................... 80
5.3.1. Các bước vẽ đồ thị ........................................................................................... 81
5.3.2. Hiệu chỉnh đồ thị ............................................................................................. 82
5.4. Bảng tổng hợp ........................................................................................................ 84
TÓM TẮT CHƯƠNG 5 ................................................................................................ 85
Chương 6.KIỂM ĐỊNH TRUNG BÌNH TỔNG THỂ....................................................... 91
6.1. Kiểm định giả thuyết .............................................................................................. 92
6.1.1. Giả thuyết không ............................................................................................ 92

lOMoARcPSD|18200505
6.1.2. Các loại sai lầm trong kiểm định giả thuyết .................................................... 92
6.1.3. Quy trình tổng quát trong kiểm định giả thuyết .............................................. 92
6.2. Kiểm định trung bình tổng thể................................................................................ 94
6.2.1. Kiểm định Z ..................................................................................................... 94
6.2.2. Kiểm định t ...................................................................................................... 95
6.3. Kiểm định giả thuyết về sự bằng nhau giữa hai trung bình tổng thể ...................... 96
6.3.1. Kiểm định dựa trên phối hợp từng cặp ............................................................ 96
6.3.2. Kiểm định dựa trên mẫu độc lập ..................................................................... 99
6.4. Kiểm định phương sai của hai tổng thể ................................................................ 105
6.5. Phân tích phương sai (ANOVA) .......................................................................... 107
6.5.1. Phân tích phương sai một nhân tố ................................................................. 107
6.5.2. Phân tích phương sai hai nhân tố ................................................................... 110
6.6. Sử dụng SPSS để kiểm định trung bình tổng thể ................................................. 116
6.6.1. Kiểm định trung bình tổng thể so với một giá trị cho trước .......................... 117
6.6.2. Kiểm định trung bình giữa hai nhóm độc lập ................................................ 118
6.6.3. Kiểm định trung bình nhiều hơn hai nhóm.................................................... 120
TÓM TẮT CHƯƠNG 6 .............................................................................................. 126
CÂU HỎI ÔN TẬP CHƯƠNG 6 ................................................................................ 129
BÀI TẬP THỰC HÀNH CHƯƠNG 6 ........................................................................ 129
TÀI LIỆU THAM KHẢO ............................................................................................... 133
PHỤ LỤC ........................................................................................................................ 134

lOMoARcPSD|18200505

lOMoARcPSD|18200505
Chương 1.
GIỚI THIỆU MỘT SỐ PHẦN MỀM XỬ LÝ THỐNG KÊ
Mục tiêu
1. Trình bày được một số phần mềm dùng để xử lý thống kê.
2. Khởi động và nhập dữ liệu được với phần mềm SPSS.
3. Trình bày được các bước để mã hóa biến, tính toán biến và lập bảng tần suất
với SPSS.
4. Trình bày được các lỗi nhập liệu và cách khắc phục.
5. Cài được bộ công cụ Data Analysis ToolPak vào Excel.
Chương này giới thiệu hai phần mềm xử lý thống kê phổ biến hiện nay là Excel và SPSS.
Nội dung chương tập trung vào giới thiệu các thao tác với phần mềm SPSS như các thao tác với
tập tin, tìm hiểu cửa sổ biến và cửa sổ dữ liệu, nhập biến và nhập dữ liệu, mã hóa, tính toán biến,
lập bảng thống kê mô tả các đặc trưng của biến. Đồng thời, chương này cũng giới thiệu bộ công
cụ thống kê trong Excel, đó là Data Analysis ToolPak.
1.1. Giới thiệu phần mềm SPSS

SPSS (Statistical Package for Social Sciences) for Windows cung cấp một hệ thống quản
lý dữ liệu và phân tích thống kê trong một môi trường đồ hoạ, sử dụng các trình đơn mô tả {menu}
và các hộp thoại {dialogue box} đơn giản để thực hiện hầu hết các công việc. Phần lớn các nhiệm
vụ có thể được hoàn thành chỉ bằng cách rê và nhắp chuột.
1.1.1. Khởi động và thoát khỏi phần mềm SPSS

Như hầu hết các phần mềm khác, để khởi động SPSS, thực hiện tuần tự thao tác: kích hoạt
nút lệnh Start, chọn All Pragrams, chọn SPSS Inc, chọn SPSS 16.0 (ở đây minh họa phiên bản
SPSS 16.0). Có thể kích đôi chuột vào biểu tượng SPSS trên màn hình nền để khởi động phần
mềm.
Để thoát khỏi chương trình, có thể thực hiện theo một trong các cách sau:
- Kích chuột vào biểu tượng close

- File → Exit
Trang 1

lOMoARcPSD|18200505
- Alt + F4
Các thao tác trên file:
- Tạo file mới: File → New
- Mở file: File→ Open
- Để mở một file dữ liệu từ Excel, chọn kiểu tập tin Excel trong hộp chọn Files of Type.
Hình 1.1. Mở tập tin Excel trong SPSS

Chọn tập tin Excel cần sử dụng (cần phải đóng tập tin Excel trước khi thực hiện thao tác
mở với SPSS). Hộp thoại xuất hiện như sau.
Hình 1.2. Hộp thoại lựa chọn vùng dữ liệu Excel cần lấy
Dòng Worksheet cho biết là trong tập tin BANG THONG KE.XLS có bao nhiêu Sheet
chứa dữ liệu và mức độ dàn trải của dữ liệu. Nếu chọn dòng chữ Read variable names from the
Trang 2

lOMoARcPSD|18200505
fisrt row of data, thì SPSS sẽ lấy tên biến giống như tên đã được nhập sẵn trong Excel. Nếu muốn
lấy hết toàn bộ nội dung của Sheet [A1:J18] trong minh hoạ trên thì nhấn Continue. Nếu chỉ
muốn lấy một phần nội dung trong sheet thì nhập thông tin vào Range. Chẳng hạn, nếu không lấy
cột A thì gõ vào Range là B1:J18 rồi nhấn Continue.
- Lưu file: File → Save
- Tương tự như khi mở file, có thể lưu file dữ liệu sang kiểu tập tin Excel bằng cách lựa
chọn kiểu tập tin (Save of type) là Excel.
- Đóng file: File → Close
1.1.2. Cửa số biến và cửa sổ dữ liệu

Cửa sổ Data Editor cung cấp một phương pháp giống như bảng tính, thuận tiện để lập và
hiệu chỉnh các file dữ liệu. Cửa sổ Data Editor tự động mở khi khởi động SPSS. Cửa sổ Data
Editor cung cấp hai loại bảng xem dữ liệu:
- Data View (Cửa sổ dữ liệu): Thể hiện trị số dữ liệu thực hoặc các nhãn trị số được
xác định.
- Variable View (Cửa số biến): Thể hiện các thông tin định nghĩa về biến, bao gồm
các nhãn biến và nhãn trị số biến được xác định, loại dữ liệu (ví dụ như dạng chuỗi,
dạng ngày tháng, và dạng số), thang đo (liên tục, danh mục, thứ hạng), và các trị số
khuyết thiếu.
Trang 3

lOMoARcPSD|18200505
Hình 1.3. Cửa sổ Data View

Rất nhiều thuộc tính của Data View cũng giống như những gì được tìm thấy trong các
phần mềm sử dụng bảng tính (ví dụ như Excel). Tuy nhiên cũng có một số sự khác biệt quan
trọng:
Các hàng là các bản ghi/đối tượng/trường hợp {case}. Từng hàng đại diện cho một đối
tượng hoặc một quan sát. Ví dụ từng người trả lời đối với một bảng hỏi/phiếu điều tra là một đối
tượng.
Các cột là các biến. Từng cột đại diện cho một biến hoặc thuộc tính được đo đạc. Ví dụ
từng mục trong một bảng hỏi là một biến.
Các ô chứa các trị số. Từng ô chứa một trị số của một biến cho một đối tượng. Ô là sự kết
hợp của đối tượng và biến. Các ô chỉ chứa các trị số biến. Không giống như các phần mềm sử
dụng bảng tính, các ô trong Data Editor không thể chứa đựng các công thức.
Trang 4

lOMoARcPSD|18200505
Hình 1.4. Cửa số Variable View

Bảng Variable View chứa đựng các thông tin về các thuộc tính của từng biến trong file
dữ liệu. Trong một bảng Variable view, các hàng là các biến, các cột là các thuộc tính của biến,
bao gồm:
- Tên biến {Name}
Các qui tắc dưới đây được áp dụng cho tên biến:
+ Tên phải bắt đầu bằng một chữ. Các ký tự còn lại có thể là bất kỳ chữ nào, bất kỳ số
nào, hoặc các biểu tượng như @, #, _, hoặc $.
+ Tên biến không được kết thúc bằng một dấu chấm.
+ Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (để tránh xung đột với các
biến được tự động lập bởi một vài thủ tục).
+ Độ dài của tên biến có thể dài đến 64 ký tự.
+ Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) không được sử dụng.
+ Từng tên biến phải đơn chiếc/duy nhất; không được phép trùng lặp. Các tên
NEWVAR, NewVar, và newvar được xem là giống nhau.
- Loại dữ liệu {Type}
Trang 5

lOMoARcPSD|18200505
- Số lượng con số hoặc chữ {Width}

- Số lượng chữ số thập phân {Decimals}
- Mô tả biến/nhãn biến {Label} và nhãn trị số biến {Values}
- Các trị số khuyết thiếu do người sử dụng thiết lập {Missing}
Missing Value định nghĩa các trị số như là khuyết thiếu – của người sử dụng. Có
thể phân biệt giữa trị số khuyết thiếu do một đối tượng điều tra từ chối trả lời một câu hỏi và trị
số khuyết thiếu do câu hỏi đó không áp dụng đối với người này. Các trị số được chỉ định
là khuyết thiếu của người sử dụng được đánh dấu để được SPSS đối xử đặc biệt trong hầu
hết các tính toán. Hộp thoại Missing Values cho phép nhập đến 3 trị số khuyết thiếu riêng
biệt, một phạm vi khoảng cách trị số khuyết thiếu hoặc một phạm vi cộng với một trị số khuyết
thiếu riêng biệt. Các phạm vi có thể được chỉ định cho các biến dạng số. Mọi dữ liệu dạng chuỗi,
bao gồm cả giá trị rỗng, được chuyển đổi thành các giá trị bình thường (không phải là
khuyết thiếu) trừ phi được định nghĩa một cách trực tiếp như là các giá trị khuyết thiếu.
Để định nghĩa giá trị rỗng như là giá trị khuyết thiếu đối với biến dạng chuỗi, hãy nhập
một dấu cách vào một trong những ô tại mục chọn Discrete missing values.
Hình 1.5. Hộp thoại khai báo giá trị khuyết thiếu
- Độ rộng của cột {Columns}
- Căn lề {Align}
- Thang đo {Measure}:
Trang 6

lOMoARcPSD|18200505
+ Scale: Nhập các con số liên tục, ví dụ như chiều cao (cm), cân nặng (kg), tuổi thọ
của con người (năm). Các phép tính số học như cộng, trừ, bình quân hoặc phương sai
là có ý nghĩa với các biến được đo đạc bằng thang đo này. Thang đo này được dùng
cho biến định lượng.
+ Nominal (thang đo định danh): Là đánh số hoặc gán chuỗi dạng ngắn cho các biểu
hiện của một biến được gọi là biến định danh (nominal variable). Các trị số của biến
định danh chỉ biểu hiện các nhóm không có thứ bậc hơn kém. Nếu biến định danh
được đo bằng các con số thì giữa các con số ở đây không có quan hệ hơn kém, do vậy
mọi phép tính đại số với chúng đều vô nghĩa. Ví dụ, hai biểu hiện của biến giới tính
có thể được biểu hiện như sau: 1 = nam và 0 = nữ.
+ Ordinal (thang đo thứ bậc): Là thang đo định danh nhưng các giá trị của biến lại
có quan hệ thứ bậc hơn kém. Ví dụ học lực có thể xác định bằng 4 biểu hiện: 1 = giỏi,
2 = khá, 3 = trung bình, 4 = kém. Các thang đo Nominal, Ordinal được dùng cho biến
định tính.
1.1.3. Lệnh Recode (Mã hóa lại)

Recode là công đoạn cần làm sau khi nhập dữ liệu, vì các lý do sau:
- Dữ liệu nhập bị nhầm.
- Nhóm các dữ liệu thành các nhóm, ví dụ quy định các nhóm tuổi dựa vào tuổi cụ thể của
mỗi người (21→30 tuổi: nhóm 1, 31→40 tuổi: nhóm 2, …)
Khi Recode một biến X thì có thể:
- Recode lại chính X: Thay đổi luôn dữ liệu của biến X. Trường hợp này có thể xem
Recode là thao tác thay đổi dữ liệu hàng loạt.
- Recode và đưa dữ liệu đã mã hóa vào biến mới Y (X vẫn như cũ). Nên sử dụng cách này
vì 2 lý do:
1. Giữ lại dữ liệu gốc. Nếu Recode nhầm X thì có nguy cơ không truy lại
được dữ liệu gốc.
2. Recode chỉ có mục đích phân nhóm, cần giữ lại các giá trị chi tiết để sử
dụng phân tích sau này (chẳng hạn tính tuổi trung bình, lớn nhất, nhỏ nhất,
…)
Trang 7

lOMoARcPSD|18200505
Để Recode lại chính X, thực hiện lệnh Transform → Recode into Same Variables. Để
Recode qua một biến khác, thực hiện lệnh Transform → Recode into Different Variables. Hộp
thoại xuất hiện như sau.
- Chọn biến X cần mã hóa, ví dụ biến tuoi, kích nút để chuyển biến này vào Input
Variable.
Hình 1.6. Hộp thoại mã hóa biến thành biến khác

- Gõ tên biến (name), nhãn biến (Label) cho biến Y (Output Variable).
Trang 8

lOMoARcPSD|18200505
Hình 1.7. Hộp thoại khai báo biến cần mã hóa (X), biến mã hóa (Y)
- Chọn Old and New Values để xuất hiện hộp thoại khai báo các giá trị sau.
Hình 1.8. Hộp thoại khai báo vùng giá trị cần mã hóa và giá trị mã hóa
- Kích Add để thêm vùng giá trị mã hóa vào hộp Old → New. Tiếp tục thực hiện để nhóm
tuổi từ 31→40: nhóm 2, từ 41 trở lên → 3.
Trang 9

lOMoARcPSD|18200505
Hình 1.9. Hộp thoại khai báo vùng giá trị cần mã hóa và giá trị mã hóa
1.1.4. Lệnh Compute Variable
Trong trường hợp cần tạo ra các biến mới dựa trên dữ liệu của một hay nhiều biến cũ,
nhưng giá trị mới là một biểu thức phức tạp thì không dùng Recode mà phải dùng Compute.
Ví dụ, cần tạo ra biến mới là BMI (Body Mass Index) dựa trên Cân nặng và Chiều cao
của mỗi đối tượng nghiên cứu, BMI = cân nặng (kg)/chiều cao(m)* chiều cao(m). Thao tác thực
hiện như sau.
- Vào Transform → Compute Variable, hộp thoại xuất hiện như sau.
Trang 10

lOMoARcPSD|18200505
Hình 1.10. Hộp thoại tính toán biến (Compute Variable)

- Gõ tên biến mới vào Target Variable. Trong khung Numeric Expression, gõ công
thức để đưa vào biến BMI. Kích nút để hoàn tất.
Hình 1.11. Hộp thoại khai báo biến đích và biểu thức tính toán
Trang 11

lOMoARcPSD|18200505
1.1.5. Lệnh Frequencies

Để lập bảng tần số, tần suất của các giá trị trong biến, thao tác thực hiện như sau.
- Vào menu Analyze, chọn Descriptive Statistics, chọn Frequencies…
Hình 1.12. Minh họa thao tác tạo bảng tần suất
- Chọn biến cần tính tần suất, kích chọn để chuyển sang cột Variable(s)
Hình 1.13. Hộp thoại tính tần suất (thao tác chọn biến)
- Kích nút Statistics để xuất hiên hộp thoại như sau:
Trang 12

lOMoARcPSD|18200505
Hình 1.14. Hộp thoại tính tần suất (các tùy chọn thống kê)
- Đánh dấu chọn như hình minh họa, kích nút Continue, chọn tiếp OK để xuất hiện bảng
thống kê như hình dưới.
Bảng 1.1a. Bảng kết quả thống kê cho biến cnss
Statistics
cnss
N Valid 26
Missing 0
Mean 2820.19
Std. Error of Mean 70.820
Median 2750.00
Mode 2500
Std. Deviation 361.111
Variance 1.304E5
Skewness .401
Std. Error of Skewness .456
Kurtosis -.474
Std. Error of Kurtosis .887
Range 1450
Minimum 2200
Maximum 3650
Sum 73325
Trang 13

lOMoARcPSD|18200505
Bảng 1. 2b. Bảng kết quả tính tần suất cho biến cnss
Cnss
Cumulative
Frequency Percent Valid Percent Percent
Valid 2200 1 3.8 3.8 3.8
2350 1 3.8 3.8 7.7
2400 1 3.8 3.8 11.5
2500 5 19.2 19.2 30.8
2600 2 7.7 7.7 38.5
2700 3 11.5 11.5 50.0
2800 2 7.7 7.7 57.7
3000 3 11.5 11.5 69.2
3100 3 11.5 11.5 80.8
3125 1 3.8 3.8 84.6
3200 1 3.8 3.8 88.5
3300 1 3.8 3.8 92.3
3400 1 3.8 3.8 96.2
3650 1 3.8 3.8 100.0
Total 26 100.0 100.0
1.2. Giới thiệu phần mềm MS Excel

EXCEL là một chương trình bảng tính do Microsoft phát triển. Đây là một chương trình
bảng tính được sử dụng rộng rãi. Phần này sẽ giới thiệu Microsoft Excel 2013. Trong EXCEL có
bộ công cụ cho phép người sử dụng tiến hành phân tích dữ liệu thống kê. EXCEL có thể được sử
dụng để tổ chức sắp xếp dữ liệu, trình bày dữ liệu, lập bảng, vẽ đồ thị và phân tích thống kê. Để
thực hiện các phân tích thống kê phức tạp hơn, cần thiết phải sử dụng các phần mềm thống kê
chuyên dụng khác như SPSS, SAS, Splus, R, STATA, GAUSS…
1.2.1. Nhập dữ liệu trong Excel

Để tạo file dữ liệu (Data) trong SPSS, người sử dụng cần phải khai báo biến và các thuộc
tính của biến tại cửa sổ Variable View, sau đó tiến hành nhập dữ liệu trong cửa sổ Data View.
Việc tạo biến và nhập dữ liệu trong Excel được thực hiện trong cùng cửa sổ_ WorkSheet của phần
mềm Excel. Dòng trên cùng cho người sử dụng biết tên các biến. Mỗi dòng trong bảng số liệu
gọi là một quan sát thể hiện các thông tin về một đối tượng. Dữ liệu không nhất thiết phải ở dạng
con số (numerics), mà có thể ở dạng chữ (string), giá trị logic (True/False), công thức (Formula).
Trang 14

lOMoARcPSD|18200505
Tên biến Số liệu
Hình 1.15. Cửa số dữ liệu trong Excel

1.2.2. Các lỗi nhập dữ liệu
Trong quá trình thu thập dữ liệu/thông tin và đưa dữ liệu vào chương trình để xử lý thì dữ
liệu có thể có lỗi trong một số trường hợp như sau.
- Lỗi do người điền thông tin:
o Điền thông tin không đầy đủ (bỏ sót).
o Thông tin không nhất quán (trả lời những câu hỏi không liên quan, không thuộc
phạm vi điều tra, ví dụ: tại câu thứ n, nếu câu trả lời là “Không” thì vui lòng
bỏ qua câu thứ n+1, nhưng người điền thông tin không thực hiện đúng yêu cầu
đưa ra).
- Lỗi do người nhập dữ liệu/thông tin:
o Nhập ID (Mã) trùng nhau (có thể một thông tin của cùng một đối tượng điều
tra được nhập nhiều lần)
o Nhập thông tin không đầy đủ (bỏ sót)
o Nhập thông tin không đúng
Trang 15

lOMoARcPSD|18200505
Để có được kết quả điều tra và xử lý thống kê chính xác thì việc có được một file dữ liệu
chính xác là cần thiết. Vì vậy, người xử lý thông tin cần phải biết được các lỗi có thể xảy ra đối
với file dữ liệu để tìm cách khắc phục. Có thể sử dụng các cách sau:
- Lập bảng phân bố tần số - bảng phân bố tần suất để tìm các ID (Mã) trùng nhau.
- Dùng hàm, công thức để tìm các giá trị bất thường (ví dụ dùng hàm IF, có thể kết hợp
các hàm khác)
1.2.3. Bộ công cụ Data Analysis ToolPak
Hình 1.16. Hình ảnh bộ công cụ Data Analysis

Microsoft Excel có một bộ công cụ có thể dùng để phân tích dữ liệu được gọi là Analysis
ToolPak. Nếu như lệnh Data Analysis đã hiển thị tại thẻ Data thì bộ công cụ Analysis ToolPak
đã được cài trên hệ thống. Nếu không, có thể tiến hành cài bộ công cụ này như sau.
- Vào thẻ lệnh File, chọn Options, chọn Add-Ins;
- Chọn Analysis ToolPak (tập tin Analys32.xll thường ở tại Program Files\Microsoft
Office\Office\ Library\Analysis) trong danh sách hiển thị trong cửa sổ Add-Ins rồi
bấm nút Go;
- Cửa sổ Add-Ins tiếp theo hiện ra, đánh dấu Check () vào ô Analysis ToolPak rồi
bấm OK.
Sau khi thực hiện các thao tác này, bộ công cụ Analysis ToolPak được cài đặt thành công
và có thể sử dụng.
Ngoài hai phần mềm khá phổ biến đã giới thiệu trên thì phần mềm R cũng ngày càng
được biết đến và sử dụng rộng rãi bởi đây là một phần mềm miễn phí và hỗ trợ tốt cho xử lý,
phân tích dữ liệu.
Phân tích số liệu và biểu đồ thường được tiến hành bằng các phần mềm thông
dụng như SAS, SPSS, Stata, Statistica và S-Plus. Đây là những phần mềm được
các công ty phần mềm phát triển và giới thiệu trên thị trường khoảng bốn thập niên
qua, và đã được các trường đại học, các trung tâm nghiên cứu và công ty kỹ nghệ trên
Trang 16

lOMoARcPSD|18200505
toàn thế giới sử dụng cho giảng dạy và nghiên cứu. Nhưng vì chi phí để sử dụng các
phần mềm này tuơng đối đắt tiền (có khi lên đến hàng trăm ngàn đô-la mỗi năm), một
số trường đại học ở các nước đang phát triển (và ngay cả ở một số nước đã phát triển)
không có khả năng tài chính để sử dụng chúng một cách lâu dài. Do đó, các nhà
nghiên cứu thống kê trên thế giới đã hợp tác với nhau để phát triển một phần mềm
mới, với chủ trương mã nguồn mở, sao cho tất cả các thành viên trong ngành thống
kê học và toán học trên thế giới có thể sử dụng một cách thống nhất và hoàn toàn
miễn phí.
Năm 1996, trong một bài báo quan trọng về tính toán thống kê, hai nhà thống
kê học Ross Ihaka và Robert Gentleman (lúc đó) thuộc Trường đại học Auckland,
New Zealand phát hoạ một ngôn ngữ mới cho phân tích thống kê mà họ đặt tên là R.
Sáng kiến này được rất nhiều nhà thống kê học trên thế giới tán thành và tham gia
vào việc phát triển R.
Vậy R là gì? Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân
tích thống kê và vẽ biểu đồ. Thật ra, về bản chất, R là ngôn ngữ máy tính đa năng,
có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí
(recreational mathematics), tính toán ma trận (matrix), đến các phân tích thống kê
phức tạp. Vì là một ngôn ngữ, cho nên người ta có thể sử dụng R để phát triển thành
các phần mềm chuyên môn cho một vấn đề tính toán cá biệt. [4]
Trang 17

lOMoARcPSD|18200505
TÓM TẮT CHƯƠNG 1

 Phần mềm SPSS
- Khởi động và thoát khỏi phần mềm
- Các thao tác với file SPSS
- Cửa sổ biến (Variable view) và cửa sổ dữ liệu (Data view)
- Các thông tin khi khai báo biến: tên biến (Name), loại dữ liệu (Type), độ dài con
số hoặc chữ (Width), số lượng chữ số thập phân (Decimals), nhãn biến (Label) và
nhãn trị số biến (Values), các trị số khuyết thiếu do người sử dụng thiết lập
(Missing), độ rộng cột (Columns), căn lề (Align), thang đo (Measure).
- Qui tắc đặt tên biến
- Mã hóa (Recode), tính toán (Compute Variable) biến.
- Lập bảng tính tần suất và mô tả các đại lượng đặc trưng của biến (Analyze →
Descriptive Statistics → Frequencies)
 Phần mềm Excel
- Nhập dữ liệu trong Excel
- Các lỗi có thể xảy ra đối với bộ dữ liệu
- Giới thiệu bộ công cụ Data Analysis ToolPak
 Giới thiệu phần mềm R
- Phần mềm mã nguồn mở
- Được sử dụng miễn phí
CÂU HỎI ÔN TẬP CHƯƠNG 1

Câu 1. Thao tác khởi động phần phềm SPSS?
Câu 2. Cửa sổ biến và cửa sổ dữ liệu trong SPSS cho phép thực hiện công việc gì?
Câu 3. Các thuộc tính của biến và quy tắc đặt tên biến trong SPSS?
Câu 4. Trình bày thao tác mã hóa biến, tính toán biến và tính tần suất biến (bao gồm cả
tính các đại lượng đặc trưng của biến)?
Câu 5. Các lỗi có thể xảy ra trong quá trình nhập liệu và cách khắc phục?
Câu 6. Để cài bộ công cụ Data Analysis ToolPak vào Excel, thực hiện lệnh gì?
Trang 18

lOMoARcPSD|18200505
BÀI TẬP THỰC HÀNH CHƯƠNG 1

Sau khi hoàn thành bài thực hành này, sinh viên tự đánh giá các nội dung đã hoàn thành
bằng cách đánh dấu  vào dòng tương ứng.
STT Nôi dung Đánh dấu 
1 Khai báo biến với SPSS
2 Nhập dữ liệu với SPSS
3 Mã hóa biến
4 Tính toán toán
5 Lập bảng tần suất
6 Phát hiện các lỗi khi nhập dữ liệu và cách khắc phục
7 Cài được bộ công cụ Data Analysis ToolPak vào Excel
Câu 1. Khởi động SPSS, tạo tập tin mới. Mở cửa sổ biến (Variable view) và nhập thông
tin như hình minh họa sau.
 Hướng dẫn thao tác mã hóa biến: Tại dòng biến hocvan, vị trí cột Value, kích chọn
nút như hình minh họa dưới đây, hộp thoại Value Labels xuất hiện. Nhập giá trị
như hình minh họa rồi kích nút Add (lần lượt cho các giá trị từ 0 đến 4), kết thúc việc
nhập dữ liệu, nhấn OK.
Trang 19

lOMoARcPSD|18200505
 Thực hiện thao tác mã hóa biến cho biến nghe
 Thực hiện thao tác mã hóa biến cho biến nhecan

Có thể bỏ qua, không nhập dữ liệu cho biến này. Sau khi nhập dữ liệu cho biến cnss,
sẽ sử dụng lệnh mã hóa biến (Transform → Recode into Different Variables… ) để
tạo biến này.
 Thực hiện thao tác mã hóa biến cho biến gtinhtre
 Thực hiện thao tác mã hóa biến cho biến thieuthang

 (Có thể bỏ qua biến này, sau khi nhập dữ liệu, sẽ sử dụng lệnh mã hóa biến –
Transform → Recode into Different Variables… để tạo biến này)
 Thực hiện thao tác mã hóa biến cho biến benhme
Trang 20

lOMoARcPSD|18200505
 Chuyển sang cửa sổ Data View và nhập dữ liệu như sau.
 Lưu tập tin với tên cssk bame treem.sav. Chú ý lưu file này (có thể dùng dịch vụ
lưu trữ trực tuyến như Dropbox, Google Driver,…) để vận dụng cho bài tập các
chương sau.
 Thực hiện lệnh mã hóa biến để tạo biến nhecan1 theo quy định sau:
1: nếu cnss<2500 gram
2: nếu cnss>=2500 gram
Quan sát kết quả và so sánh giá trị hai biến nhecan và nhecan1
Trang 21

lOMoARcPSD|18200505
 Mã hóa biến tuoi thành nhomtuoi theo quy định từ 21 đến 30: nhóm 1, từ 31 đến 35:
nhóm 2, trên 35: nhóm 3.
 Tạo biến mới BMI để tính chỉ số khối của cơ thể
với BMI = (cân nặng-kg)/(chiều cao-mét)2
Trang 22

lOMoARcPSD|18200505
(Lưu ý chuyển đơn vị đo chiều cao từ cm sang m)

 Lập bảng thống kê và tính tần suất cho biến cnss.
 Lập bảng phân phối tần số cho biến maso để kiểm tra xem có trường hợp nào nhập
thừa, thiếu.
 Lưu tập tin chuyển sang định dạng Excel (File → Save as →file of Type→ Excel) với
tên bame treem.xlsx và quan sát kết quả.
Câu 2. Mở file bame treem.xlsx và tiến hành kiểm tra, làm sạch dữ liệu:
a. Kiểm tra sự tương quan giữa cnss và nhecan (ví dụ cnss >2500 mà nhecan là 1):
dùng hàm IF và AND
=IF(AND(…>2500,…=1),”SAI”,”ĐÚNG”)
b. Kiểm tra có các giá trị bất thường không, ví dụ tuoithai > 42, tuoi = 0, …
c. Kiểm tra sự không phù hợp giữa trình độ học vấn và nghề, ví dụ hocvan là mù chữ
mà nghe là công nhân viên, …
Trang 23

lOMoARcPSD|18200505
Chương 2.
SẮP XẾP VÀ LỌC DỮ LIỆU
Mục tiêu
1. Thực hiện được thao tác sắp xếp dữ liệu với Excel.
2. Trình bày được các yếu tố cơ bản để lọc dữ liệu.
3. Trình bày được các thao tác để lọc dữ liệu.
Các nhu cầu đối với bộ dữ liệu bao gồm việc sắp xếp, trình bày dữ liệu, trích xuất và lọc
dữ liệu theo một hoặc nhiều điều kiện. Chương này trình bày các thao tác trên bộ dữ liệu của
Excel như:
 Sắp xếp dữ liệu;

 Lọc dữ liệu: lọc tự động (Auto Filter), lọc nâng cao (Advance Filter) và các dạng vủng
điều kiện/ vùng tiêu chuẩn.
2.1. Sắp xếp dữ liệu

- Bước 1. Chọn vùng dữ liệu cần sắp xếp (thường không chọn cột thứ tự và dòng đầu tiên
chứa tiêu đề; Các tiêu đề này được gọi là các trường - Field; Từ dòng thứ 2 trở đi, mỗi dòng là
một bản ghi - Record ).
- Bước 2. Chọn menu Data → Sort, hộp thoại xuất hiện như hình dưới.
Hình 2.1. Sắp xếp dữ liệu

Sau đây là ý nghĩa các mục trong hộp thoại.
Trang 24

lOMoARcPSD|18200505
- Sort by: Chọn khóa sắp xếp đầu tiên (ưu tiên sắp xếp trước)
Nếu muốn sắp xếp theo nhiều khóa (điều kiện) tiếp theo thì chọn Add Level. Lúc này trên
hộp thoại sẽ xuất hiện thêm dòng Then by cho phép chọn khóa sắp xếp tiếp theo.
- Order: sắp xếp tăng dần (A to Z) hoặc sắp xếp giảm dần (Z to A)
- My data has headers: đánh dấu ô này nếu miền dữ liệu chứa dòng tiêu đề.
- Option:
Case Sensitive: phân biệt chữ hoa với chữ thường
Orientation: Sort Top To Bottom: sắp xếp các dòng trong vùng dữ liệu
Sort Left To Right: sắp xếp các cột trong vùng dữ liệu
-Bước 3: chọn OK để sắp xếp.
2.2. Lọc dữ liệu
2.2.1. Các yếu tố cơ bản

Thông thường, dữ liệu sẽ được xuất hiện đầy đủ trong mỗi cơ sở dữ liệu. Trong một số
trường hợp, nếu chỉ muốn hiển thị lên màn hình những mẫu tin thỏa mãn một hoặc một số điều
kiện nào đó. Các mẫu tin không thỏa mãn điều kiện đặt ra vẫn tồn tại trong cơ sở dữ liệu nhưng
tạm thời không hiển thị lên màn hình. Excel cung cấp các lệnh để lọc hoặc trích xuất dữ liệu. Sau
đây là các khái niệm cơ bản trước khi đi vào thao tác thực hiện.
Vùng Database (vùng cơ sở dữ liệu)
Vùng chứa dữ liệu ban đầu để tiến hành lọc dữ liệu hoặc trích xuất trên đó. Vùng này có
hai phần:
- Dòng đầu tiên chứa tiêu đề cột hay còn gọi là tên trường (Field name). Mỗi cột được
hiểu là một trường (Field).
- Các dòng chứa dữ liệu còn lại gọi là các bản ghi / mẫu tin (Record). Mỗi Record chứa
nhiều trường.
Vùng Criteria (vùng tiêu chuẩn)
Vùng chứa các điều kiện để lọc, trích dữ liệu. Vùng này gồm ít nhất hai dòng: dòng đầu
tiên chứa tiêu đề và dòng còn lại chứa điều kiện lọc.
Lưu ý: Cần tạo ra vùng này trước khi thực hiện thao tác lọc.
Các dạng vùng tiêu chuẩn:
Trang 25

lOMoARcPSD|18200505
✓ Vùng tiêu chuẩn so sánh trực tiếp (TCSSTT): cho phép đưa vào các tiêu chuẩn để so
sánh dữ liệu trong một trường với một giá trị nào đó. TCSSTT được tạo ra theo nguyên
tắc sau.
- Hàng đầu tiên ghi tiêu đề cho các tiêu chuẩn, lấy tên trường làm tiêu đề.
- Hàng thứ hai trở đi để ghi các tiêu chuẩn so sánh , trước các giá trị đó có thể thêm các
toán tử so sánh như <, >=,<, <=. Các tiêu chuẩn trên cùng hàng (được gọi là điều kiện và
– and) được thực hiện đông thời. Các tiêu chuẩn trên các hàng khác nhau (được gọi là
điều kiện hoặc – or)được thực hiện không đồng thời.
Sau đây là các ví dụ về TCSSTT.
1TIẾT Lọc ra những trường hợp có 1TIẾT = 8

8
TÊN
Lọc ra những trường hợp có TÊN là Hùng
Hùng
Lưu ý: Trong ô điều kiện có thể chứa những ký tự đại diện  và ?
TÊN Lọc ra những trường hợp có TÊN bắt đầu bằng H
H
ĐTB Lọc ra những trường hợp có ĐTB >= 5

>=5
- Nếu muốn kết hợp nhiều điều kiện, nghĩa là các mẫu tin phải thỏa mãn tất cả các điều
kiện lọc (AND) mới được hiển thị, đặt điều kiện trên các cột của cùng một dòng.
Tên Học bổng

Tên bắt đầu bằng H và Học bổng khác 0
H* < >0
Trang 26

lOMoARcPSD|18200505
- Nếu muốn lọc theo một trong các điều kiện, nghĩa là các mẫu tin chỉ cần thỏa mãn một
trong các điều kiện (OR), đặt điều kiện liên tiếp nhau trên các dòng bên dưới tiêu đề vùng tiêu
chuẩn.
TOÁN LÝ
Toán >7 hoặc Lý <5
>7
<5
✓ Vùng tiêu chuẩn so sánh gián tiếp (TCSSGT) hay còn gọi là tiêu chuẩn công thức: cho
phép đưa vào các tiêu chuẩn để so sánh dữ liệu hoặc một phần dữ liệu trong một trường
với một giá trị nào đó. TTSSGT được tạo ra theo nguyên tắc sau.
- Hàng đầu tiên ghi tiêu đề cho các tiêu chuẩn. Tiêu đề này có thể đặt bất kỳ nhưng không
được trùng với tên trường nào.
- Hàng thứ hai trở đi ghi các tiêu chuẩn so sánh , mỗi tiêu chuẩn là một công thức. Công
thức này phải chứa địa chỉ của bản ghi đầu tiên của vùng cơ sở dữ liệu. Kết quả thực
hiện công thức này là một giá trị Logic (True hoặc False).
Sau đây là các ví dụ.
NĂM SINH Năm sinh sau 1980

=YEAR(D3)>=1980
Ngày sinh chẵn Sinh vào ngày chẵn

=MOD(DATE(C3),2)=0
✓ Vùng Copy to (vùng trích) : Vùng trống trên bảng tính, dùng để chứa các bản
ghi thỏa mãn điều kiện của vùng tiêu chuẩn.
2.2.2. Lọc tự động

Thao tác thực hiện như sau:
- Chọn vùng cơ sở dữ liệu
- Chọn Data → Filter
Trang 27

lOMoARcPSD|18200505
Cơ sở dữ liệu được hiển thị với nút điều khiển ở bên phải mỗi trường. Muốn tiến hành lọc
dữ liệu dựa vào điều kiện của trường nào, phải kích chuột vào nút điều khiển của trường đó để
xuất hiện menu đứng.
Hình 2.2. Lọc dữ liệu tự động

Ý nghĩa các mục chọn:
- Select All: Cho hiển thị tất cả các mẫu tin trong cơ sở dữ liệu.
- Các giá trị: Đây là các giá trị chọn lọc duy nhất trong cột hiện hành. Chọn một giá trị sẽ
cho xuất hiện những bản ghi/mẫu tin có giá trị như đã chọn.
- Chọn Text Filter để xuất hiện một Menu đứng, cho phép thiết lập các điều kiện nâng cao
hơn. Chọn Custom Filter để xuất hiện hộp thoại như hình bên. Trong cửa sổ Custom,
chọn toán tử so sánh trong khung bên trái và khai báo trị so sánh trong khung bên phải.
Chọn AND nếu muốn lọc những mẫu tin thỏa mãn đồng thời cả hai điều kiện. Chọn OR
nếu muốn lọc những mẫu tin thỏa mãn một trong hai điều kiện.
Hình 2.3. Thiết lập điều kiện lọc tự động
Trang 28

lOMoARcPSD|18200505
2.2.3. Lọc nâng cao

Thao tác lọc nâng cao được sử dụng trong trường hợp muốn lọc dữ liệu theo nhiều điều
kiện liên quan đến nhiều trường khác nhau trong cơ sở dữ liệu, hoặc muốn trích những mẫu tin
thỏa mãn điều kiện lọc đến nơi khác trong bảng tính.
Vùng C9:D10 trong hình minh họa sau thiết lập vùng tiêu chuẩn thể hiện điều kiện Năm
sinh là 1996 và có điểm TH1>7.
Hình 2.4. Vùng cơ sở dữ liệu và vùng tiêu chuẩn

Thao tác thực hiện:
 Chuẩn bị vùng cơ sở dữ liệu và vùng tiêu chuẩn.
 Chọn vùng cơ sở dữ liệu.
 Chọn Data → Advanced (Filter), hộp thoại Advanced Filter xuất hiện như sau.
Filter the list, in-place: các mẫu

tin trong cơ sở dữ liệu sẽ được lọc
theo điều kiện qui định bằng cách
ẩn giấu các mẫu tin không thỏa
mãn điều kiện lọc.
Copy to Another Location: các

mẫu tin thỏa mãn điều kiện lọc
được sao chép đến địa chỉ khác
trong cơ sở dữ liệu (được chỉ định
trong khung Copy to).
Trang 29

lOMoARcPSD|18200505
Hình 2.5. Lọc dữ liệu nâng cao

- Khai báo địa chỉ vùng cơ sở dữ liệu vào
khung List range.
- Khai báo địa chỉ vùng tiêu chuẩn vào khung Criteria range.
- Khai báo địa chỉ vùng trích (chọn ô bất kỳ nằm ngoài vùng cơ sở dữ liệu) vào khung Copy
to (chỉ thực hiện được khi chọn Copy to Another Location).
- Unique records only: loại những mẫu tin trùng trong vùng trích.
- Chọn <OK>
Bảng 2.1. Dữ liệu được trích ra
TT Mă SV Ngày sinh LT1 LT2 TH1 TH2

3 1414010007 3/12/1996 9 6 9 5
Lưu ý: Các địa chỉ trong cửa sổ Advanced Filter có thể được khai báo bằng cách gõ trực
tiếp từ bàn phím hoặc đặt chuột vào trong khung, kích chuột tại hộp mũi tên ở cuối khung để thu
nhỏ cửa sổ Advanced Filter, sau đó kéo lê chuột trên vùng muốn chọn. Địa chỉ vùng sẽ tự động
xuất hiện trong khung. Để hiển thị đầy đủ các mẫu tin của cơ sở dữ liệu, chọn Data → Clear.
Trang 30

lOMoARcPSD|18200505
 Sắp xếp dữ liệu (Data → Sort)

 Lọc dữ liệu
 Các dạng vùng tiên chuẩn
- Tiêu chuẩn so sánh trực tiếp (tiêu chuẩn dạng số, dạng chuỗi, dạng so
sánh, kết hợp nhiều điều kiện). Tiêu đề của vùng tiêu chuẩn này phải
trùng với tất cả tiêu đề của một trường/cột trong vùng cơ sở dữ liệu.
- Tiêu chuẩn so sánh gián tiếp (tiêu chuẩn dạng công thức). Tiêu đề của
vùng tiêu chuẩn này phải khác với tất cả các tiêu đề của vùng cơ sở dữ
liệu.
 Lọc tự động (Data → Filter)
 Lọc nâng cao (Data → Advanced)

1. Trình bày thao tác sắp xếp dữ liệu?
2. Trình bày thao tác lọc dữ liệu tự động?
3. Trình bày thao tác lọc nâng cao? Trong trường hợp nào thì cần sử dụng thao tác lọc
nâng cao (mà không thể dùng lọc tự động)?
4. Có những dạng vùng tiêu chuẩn nào? Trình bày cụ thể?
Trang 31

lOMoARcPSD|18200505
STT Nội dung Đánh dấu 
1 Sắp xếp dữ liệu
2 Trích lọc dữ liệu cơ bản
3 Lập vùng tiêu chuẩn trực tiếp
4 Lập vùng tiêu chuẩn gián tiếp
5 Trích lọc dữ liệu nâng cao
Cho bảng tính sau. Lưu bảng tính với tên BAI2.XLSX.
Sinh viên chú ý nhập dữ liệu kiểu ngày tháng năm theo đúng định dạng của máy tính. Định dạng
kiểu ngày tháng năm trong bảng tính hiện tại là dd/mm/yyyy.
NgayCT MaHang TenHang Loai NhapKho XuatKho TonKho

12/10/2015 B-1 Bông 1 871 261 610
04/07/2015 G-2 Gạc 2 851 24 827
01/02/2015 D-1 Đan Sâm 1 263 202 61
31/05/2015 D-3 Đan Sâm 3 681 111 570
03/10/2015 T-2 Trà Linh Chi 2 405 281 124
05/10/2015 H-1 Hà Thủ Ô 1 401 203 198
14/07/2015 B-3 Bông 3 639 141 498
05/11/2015 T-3 Trà Linh Chi 3 896 102 794
20/05/2015 H-2 Hà Thủ Ô 2 507 153 354
08/10/2015 G-1 Gạc 1 381 16 365
* Thực hiện các yêu cầu sau:
* Sắp xếp lại bảng dữ liệu theo các yêu cầu sau:
1. Tăng dần theo NgayCT
2. Giảm dần theo TenHang
3. Giảm dần theo Loai, nếu trung Loai thì tăng dần theo TonKho
4. Tăng dần theo TenHang, nếu trùng TenHang thì giảm dần theo NhapKho
5. Giảm dần theo Loai, nếu trùng Loai thì tăng dần TenHang, nếu trùng TenHang thì
giảm dần theo NgayCT
* Sử dụng chức năng lọc bằng Filter (lọc tự động), hãy lọc ra danh sách:
Trang 32

lOMoARcPSD|18200505
6. Các mặt hàng có mã hàng bắt đầu bằng “B”

7. Các mặt hàng có mã hàng kết thúc với “1”
8. Các mặt hàng có NhapKho <=500
10. Các mặt hàng Loai 1 và có XuatKho>200
11. Các mặt hàng là Trà Linh Chi hoặc Bông
12. Các mặt hàng có XuatKho > 150 sau ngày 01/06/2015.
* Sử dụng chức năng lọc bằng Advanced Filter (lọc nâng cao), hãy lọc ra danh sách:
11. Các mặt hàng có mã hàng kết thúc với “1” (dùng hàm RIGHT)
12. Các mặt hàng có mã hàng bắt đầu bằng “B” (dùng hàm LEFT)
13. Các mặt hàng có NgayCT là ngày chẵn (dùng hàm MOD, tìm hiểu thêm hàm DIV).
14. Các mặt hàng có NgayCT là ngày lẻ (dùng hàm MOD).
15. Các mặt hàng Loai 3 và có XuatKho < 300
16. Các mặt hàng có XuatKho >=250 trong tháng 10
17. Các mặt hàng có NhapKho, XuatKho, TonKho>100 trong khoảng thời gian từ
ngày 1 đến ngày 15 (Dùng hàm DAY, tìm hiểu thêm hàm MONTH, YEAR).
* Sử dụng lệnh định dạng có điều kiện Conditional Formatting, hãy đánh dấu các
trường hợp sau:
18. Các dòng có Ngày (cột NgayCT) lớn hơn 15 của sẽ được đánh dấu tô nền màu cam.
19. Hủy bỏ định dạng nền vừa tạo ra ở câu 16
20. Đánh dấu nền màu hồng cho 5 ô có lượng TonKho lớn nhất
21. Tô nền màu tím cho các dòng có NhapKho lớn hơn 500
22. Tô nền màu xanh cho các trường hợp: Loai là 1 và TonKho >300.
Trang 33

lOMoARcPSD|18200505
Chương 3.
TỔNG HỢP DỮ LIỆU
Mục tiêu
1. Trình bày được các bước để tổng hợp dữ liệu theo nhóm (Subtotal).
2. Trình bày được các bước để tạo bảng tổng hợp từ các dữ liệu chi tiết (Consolidate).
3. Trình bày được các bước để tạo bảng tổng hợp – Pivot Table.
Chương này trình bày các lệnh thường dùng để tạo các bảng tổng hợp từ các dữ liệu đã
có, cụ thể là:
 Subtotal: cho phép thống kê dữ liệu theo từng nhóm trong cơ sở dữ liệu.
 PivotTable: cho phép thống kê dữ liệu theo nhiều cấp độ khác nhau, với nhiều hình
thức đa dạng từ một bảng dữ liệu chính.
 Consolidate: cho phép hợp nhất dữ liệu từ nhiều vùng dữ liệu nguồn (Sources) và
hiển thị kết quả trong vùng dữ liệu đích (Destination).
3.1. Tạo bảng tổng hợp với Subtotal

Cho bảng cơ sở dữ liệu như sau.
Bảng 3.1. Bảng cơ sở dữ liệu ban đầu
Cửa hàng Năm Loại hàng Số lượng (tạ)

Số 1 2010 Mouse 26
Số 1 2012 Keyboard 15
Số 1 2013 RAM 14
Số 2 2011 Mouse 12
Số 2 2013 RAM 16
Số 3 2013 Mouse 15
Số 3 2011 RAM 14
Bây giờ cần tổng hợp cột Số lượng theo từng cửa hàng (số 1, số 2, số 3) với kết qủa như
sau (dùng chức năng SubTotal).
Trang 34

lOMoARcPSD|18200505
Bảng 3.2. Bảng tổng hợp số lượng theo từng cửa hàng
Hình 3.1. Hộp thoại tổng hợp số lượng theo từng cửa hàng
Chức năng Subtotal dùng để nhóm dữ liệu theo từng nhóm của trường dữ liệu được chọn,
đồng thời chèn vào cuối mỗi nhóm những dòng thống kê tính toán (gọi là các bộ phận - Subtotals)
và một dòng tổng kết ở cuối phạm vi (gọi là toàn bộ - GrandTotal). Sau đây là các bước thực hiện.
Trang 35

lOMoARcPSD|18200505
Bước 1. Sắp xếp dữ liệu theo trường làm khóa (muốn nhóm theo trường nào thì chọn
trường đó làm khóa, theo minh họa là trường Cửa hàng).
Bước 2. Chọn Data, Subtotal, xuất hiện hộp thoại Subtotal. Trong đó:
- At each change in: Chọn trường mà theo trường này, tại mỗi vị trí thay đổi, Excel sẽ chèn
vào một dòng tổng kết-tức là dòng thực hiện các phép tính (ở minh họa trên là trường Cửa
hàng).
- Use function: Chọn hàm để tính toán tổng kết dữ liệu. Hàm mặc định là SUM (có thể
chọn hàm khác tùy vào yêu cầu cần tổng kết).
- Add Subtotal to: Chọn các trường cần tính toán (ở minh họa trên là tính tổng trường Số
lượng)
Các tùy chọn khác:
- Replace current subtotals: Dòng tổng kết mới sẽ thay thế dòng tổng kết cũ. Theo mặc
định các dòng tổng kết sẽ nối tiếp nhau.
- Page break between groups: chèn dấu ngắt trang tại mỗi vị trí có dòng SubTotal (đưa
mỗi nhóm sang một trang riêng biệt).
- Summary below data: Đặt dòng tổng kết ở cuối mỗi nhóm. Nếu bỏ dấu  , dòng tổng
kết sẽ được đưa lên trước mỗi nhóm.
- Remove All: Hủy bỏ mọi SubTotal đã thực hiện.
Bước 3. Chọn OK để bắt đầu tạo.
3.2. Tạo bảng tổng hợp dùng Consolidate

Chức năng Consolidate được sử dụng để tạo bảng dữ liệu tổng hợp từ một hoặc nhiều
bảng dữ liệu chi tiết (trên cùng tập tin hoặc trên nhiều tập tin khác nhau).Các bước thực hiện như
sau:
Bước 1: Chọn vị trí để tổng hợp dữ liệu.
Bước 2: Chọn thẻ Data, chọn Consolidate. Xuất hiện hộp thoại như sau.
Trang 36

lOMoARcPSD|18200505
Hình 3.2. Hộp thoại Consolidate

Bước 3. Lần lượt chọn hàm, nhập vùng dữ liệu cần tổng hợp vào hộp thoại
- Function: Chọn hàm cần dùng để tổng hợp.
- Reference: Nhập địa chỉ vùng dữ liệu → kích chọn Add để đưa vùng dữ liệu vào hộp
All References (chọn Delete để xóa vùng dữ liệu ra khỏi hộp All References) → Tiếp tục nhập
địa chỉ vùng dữ liệu vào ô Reference rồi chọn Add để khai báo các vùng dữ liệu tiếp theo.
- Top Row: Đánh dấu ô này nếu vùng dữ liệu có chứa dòng tiêu đề (dòng đầu tiên).
- Left Column: Đánh dấu ô này nếu vùng dữ liệu có chứa cột tiêu đề (cột đầu tiên).
- Create link to source data: Tạo mối liên kết từ bảng tổng hợp đến các bảng chi tiết
nhằm mục đích nếu có sự thay đổi trong các bảng dữ liệu chi tiết thì các dữ liệu liên quan trong
bảng tổng hợp cũng tự thay đổi theo.
- Cuối cùng, kích nút OK để xem kết quả.
Sau đây là các minh họa cho các trường hợp sử dụng Consolidate.
3.2.1. Ví dụ 1 (tổng hợp theo vị trí)

Tổng hợp theo vị trí được sử dụng khi dữ liệu bảng tính giống hệt nhau về cấu trúc, bao
gồm cả số hàng, số cột. Để thực hiện tổng hợp dữ liệu, cần tạo ra một Bảng trống (có đầy đủ tiêu
đề hàng, cột, chỉ chưa có số liệu) có cấu trúc tương tự như các Bảng gốc.
Ví dụ:
Có số liệu chi tiết về hàng bán của 3 năm như sau.
Trang 37

lOMoARcPSD|18200505
Bảng 3.3. Bảng số liệu ban đầu các năm 2011, 2012, 2013
Yêu cầu: Tổng hợp hàng bán sau 3 năm theo mẫu sau.
Bảng 3.4. Bảng số liệu tổng hợp
Các bước thực hiện:

Bước 1: Tạo bảng tổng hợp theo mẫu
Trang 38

lOMoARcPSD|18200505
Bảng 3.5. Tạo mẫu bảng tổng hợp
Bước 2: Đặt con trỏ tại ô B3

Bước 3: Chọn lệnh Data; chọn Consolidate. Xuất hiện hộp thoại (như hình 3.2)
Bước 4: Tại ô Reference nhập địa chỉ: NAM 2011!$B$3:$E$5 (chọn vùng địa chỉ B3:E5
tại sheet NAM 2011), rồi chọn Add
Tương tự, tại ô Reference nhập tiếp địa chỉ: NAM 2012!$B$3:$E$5, rồi chọn Add; nhập
tiếp địa chỉ: NAM 2013!$B$3:$E$5, rồi chọn Add
Lúc này hộp thoại xuất hiện như hình sau:
Hình 3.3. Minh họa các vùng địa chỉ tham chiếu trong hộp thoại Consolidate
Bước 5: Chọn OK sẽ được kết quả tổng hợp bảng 3.4.
3.2.2. Ví dụ 2 (tổng hợp theo hàng và theo cột)
Tổng hợp theo hàng và theo cột được sử dụng khi cấu trúc dữ liệu khác nhau. Excel
dựa trên hàng và cột để tổng hợp dữ liệu.
Trang 39

lOMoARcPSD|18200505
Thao tác thực hiện:

Trong trường hợp này, không tạo trước mẫu bảng tổng hợp, mà sẽ đặt con trỏ ô ở vị trí
cần tạo bảng tổng hợp, sau đó thực hiện lệnh Data → Consolidate.
Chú ý rằng khi chọn các vùng dữ liệu cần tổng hợp thì chọn cả tiêu đề dòng, tiêu đề cột
và đánh dấu vào mục Top Row & Left Column.
Ví dụ:
Cho bảng số liệu chi tiết về hàng bán của 3 tháng (tháng 1, 2 và 3 trong năm 2014) như
sau:
Bảng 3.6. Bảng số liệu ban đầu các tháng 1, 2 và 3
Trang 40

lOMoARcPSD|18200505
Các bước thực hiện tạo bảng tổng hợp:

Nhận xét ban đầu: Các bảng dữ liệu có cấu trúc không giống nhau, số lượng hàng
của mỗi bảng cũng không giống nhau.
Bước 1: Đưa con trỏ ô đến vị trí cần tạo bảng tổng hợp.
Bước 2: Chọn lệnh Data, trong nhóm công cụ Data Tools, chọn Consolidate. Xuất hiện
hộp thoại như hình 3.2
Bước 3: Tại ô Reference lần lượt đưa vào các vùng địa chỉ (THANG1!$A$2:$E$5,
THANG2!$A$2:$D$5,THANG3!$A$2:$E$8). Lưu ý chọn Top row và Left column cho từng
vùng địa chỉ đưa vào, rồi chọn Add. Hộp thoại lúc này như sau.
Hình 3.4. Minh họa các vùng địa chỉ tham chiếu
Bước 5: Chọn OK và thực hiện định dạng kẻ khung, định dạng chữ đậm, … để được kết
quả tổng hợp như bảng sau.
Trang 41

lOMoARcPSD|18200505
Bảng 3.7. Bảng tổng hợp các tháng 1, 2 và 3
3.3. Tạo bảng tổng hợp với PivotTable

Cho bảng CSDL về thông tin hàng bán được của các cửa hàng số 1, số 2 và số 3 của một
chi nhánh bán hàng các năm từ 2010, 2011, 2012, 2013 như sau.
Bảng 3. 8. Bảng cơ sở dữ liệu ban đầu
Cửa hàng Nhân viên Năm Loại hàng Số lượng

Số 1 Anh 2010 Mouse 26
Số 1 Anh 2012 Keyboard 15
Số 1 Hoa 2013 RAM 14
Số 2 Mai 2011 Mouse 12
Số 2 Mai 2012 Keyboard 15
Số 2 Hương 2013 RAM 16
Số 3 Hoa 2013 Mouse 15
Số 3 Anh 2011 RAM 14
Số 3 Hoa 2012 Keyboard 12
Từ CSDL trên, tổng hợp theo từng năm, từng cửa hàng và từng nhân viên cho bảng tổng
hợp sau.
Trang 42

lOMoARcPSD|18200505
Bảng 3.9. Bảng tổng hợp CSDL theo từng năm, từng cửa hàng và từng nhân viên
Năm (All)
Sum of Số lượng Column Labels

Row Labels Keyboard Mouse RAM Grand Total
Số 1 15 26 14 55
Anh 15 26 41
Hoa 14 14
Số 2 31 12 16 59
Anh 16 16
Hương 16 16
Mai 15 12 27
Số 3 12 15 14 41
Anh 14 14
Hoa 12 15 27
Grand Total 58 53 44 155
Các thông tin cơ bản:
Ở bảng CSDL trên, tiêu đề của các cột là các trường – Field: Cửa hàng, Năm, Nhân viên,
Loại hàng, Số lượng (tạ). Các trường này sẽ tham gia vào việc xây dựng bảng tổng hợp này. Bảng
tổng hợp được chia thành 4 vùng:
Hình 3.5. Bốn vùng/thành phần trong bảng tổng hợp

Report Filter: Toàn bộ dữ liệu được tổng kết thành từng nhóm của trường này. Trường
này luôn nằm ở phía trên của bảng tổng hợp. Trong ví dụ trên, Report Filter là Năm gồm có 4
nhóm 2010, 2011, 2012 và 2013.
Trang 43

lOMoARcPSD|18200505
Row Labels: Mỗi nhóm dữ liệu của trường này được tổng kết trên một dòng, vì vậy được
gọi là “Row”. Nếu số trường nhiều hơn 1, PivotTable sẽ tổng kết các trường này theo kiểu lồng
nhau theo thứ tự từ trên xuống dưới. Trong ví dụ này, có 2 trường là Cửa hàng và Nhân viên,
trường Cửa hàng được tổng kết trước rồi đến trường Nhân viên.
Column Labels: Mỗi nhóm dữ liệu của trường này được tổng kết trên một cột, vì vậy
được gọi là “Column”. Nếu số nhóm này nhiều hơn 1, PivotTable sẽ tổng kết các nhóm này theo
thứ tự từ trái qua phải. Trong ví dụ này, các nhóm được tổng kết thành các cột (trường) theo thứ
tự ABC của tên nhóm.
Value: vùng chính của bảng tổng hợp ghi kết quả của một phép toán. Trong ví dụ này, số
liệu của trường Số lượng(tạ) được đưa vào và phép toán tổng kết là lấy tổng (SUM).
Thao tác tạo mới một bảng tổng hợp:
- Bước 1. Chọn miền dữ liệu kể cả tiêu đề của các cột.
- Bước 2. Chọn Insert, PivotTable, xuất hiện hộp thoại và thực hiện các thiết lập.
Hình 3.6. Hộp thoại tạo bảng tổng hợp

- Bước 3. Nhấn OK để xuất hiện hộp thoại PivotTable Field List.
Trang 44

lOMoARcPSD|18200505
Hình 3.7. Đưa các trường vào vùng thích hợp

- Bước 4. Chọn các trường để đưa vào các vùng của bảng bằng cách kéo và thả tên trường
ở phần trên của hộp thoại tới các vùng được ấn định (Report Filter, Row Labels, Column Labels,
Value) bên dưới của hộp thoại.
✓ Report Filter: Cấp lọc dữ liệu cao nhất
✓ Row Labels: Tổng hợp theo dòng cho trường được chọn vào ô này
✓ Column Labels: Tổng hợp theo cột cho trường được chọn vào ô này
✓ Value: Field tính toán
Trong ví dụ này, kéo các trường thả vào các vùng cụ thể như sau:
Kéo trường thả tại vùng
Năm Report Filter
Cửa hàng Row Labels
Nhân viên Row Labels
Loại hàng Column Labels
Số lượng (tạ) Value
Sau bước này, bảng tổng hợp đã được tạo ra tại vị trí được thiết lập (New Worksheet hay
Existing Workshheet) như hình ảnh tại bảng 3.4.
Trang 45

lOMoARcPSD|18200505
Thao tác hiệu chỉnh bảng:

- Hiệu chỉnh hàm tính toán: Hàm tính toán mặc định cho vùng Value là SUM, muốn chọn
hàm khác, kích chuột vào nút mở rộng trong vùng Value để xuất hiện hộp thoại
như sau rồi chọn phép toán phù hợp.
Hình 3.8. Thiết lập hàm tính toán cho trường Số lượng
- Hiệu chỉnh cách trình bày bảng tổng hợp: Công cụ hiệu chỉnh bảng tổng hợp (PivotTable
Tools) gồm hai thẻ Design và Options sẽ xuất hiện khi đặt con trỏ vào bảng tổng hợp. Sau đây là
một số tùy chọn.
Đặt tên cho Sắp xếp dữ liệu Điều chỉnh bảng Chuyển bảng tổng
bảng tổng hợp trong bảng tổng tổng hợp khi dữ hợp sang dạng biểu
hợp liệu thay đổi đồ
Hình 3.9. Hiệu chỉnh cách thức trình bày bảng tổng hợp
Trang 46

lOMoARcPSD|18200505
Đặt vị trí dòng Thay đổi kiểu

tổng hợp nhóm trình bày bảng
Hình 3.10. Hiệu chỉnh kiểu thiết kế bảng tổng hợp
Trang 47

lOMoARcPSD|18200505

 Tạo bảng tổng hợp với SubTotal
B1. Sắp xếp dữ liệu theo cột (trường) cần tạo nhóm
B2. Dùng lệnh Data → SubTotal
 Chọn cột (trường) để tạo nhóm

 Chọn cột (trường) để tổng hợp theo nhóm
 Chọn hàm để thực hiện việc tổng hợp dữ liệu
 Tạo bảng tổng hợp với Consolidate
B1. Thực hiện lệnh Data → Consolidate
B2. Chọn vùng dữ liệu cần tổng hợp để Add (thêm vào).
 Tạo bảng tổng hợp với PivotTable
B1. Thực hiện lệnh Insert → PivotTable
B2.
 Chọn cột (trường) để tổng hợp theo nhóm ở mức cao nhất (Report Filter)
 Chọn cột (trường) để tổng hợp nhóm theo hàng (Row Labels)
 Chọn cột (trường) để tổng hợp nhóm theo hàng (Column Labels)
 Chọn cột (trường) để tiến hành tính toán và lựa chọn phép toán.

1. Trình bày các bước để tạo bảng tổng hợp dùng lệnh SubTotal? Khi thực hiện lệnh này,
cần đưa vào hộp thoại những thông tin gì?
2. Trình bày các bước tạo bảng tổng hợp dùng Consolidate?
3. Trình bày các bước để tạo bảng tổng hợp với Pivot Table? Khi thực hiện lệnh này,
cần đưa vào hộp thoại những thông tin gì?
4. Trình bày một số thao tác hiệu chỉnh bảng?
Trang 48

lOMoARcPSD|18200505

1 Tổng hợp dữ liệu theo nhóm (Subtotal).
2 Tổng hợp từ các dữ liệu chi tiết (Consolidate).
3 Tổng hợp dạng Pivot Table
Câu 1. Thực hành các ví dụ đặt ra trong phần lý thuyết.

Câu 2. Lấy dữ liệu từ bảng dữ liệu câu 2, chương 2 như sau:

12/10/2015 B-1 Bông 1 871 261 610
04/07/2015 G-2 Gạc 2 851 24 827
01/02/2015 D-1 Đan Sâm 1 263 202 61
31/05/2015 D-3 Đan Sâm 3 681 111 570
03/10/2015 T-2 Trà Linh Chi 2 405 281 124
05/10/2015 H-1 Hà Thủ Ô 1 401 203 198
14/07/2015 B-3 Bông 3 639 141 498
05/11/2015 T-3 Trà Linh Chi 3 896 102 794
20/05/2015 H-2 Hà Thủ Ô 2 507 153 354
08/10/2015 G-1 Gạc 1 381 16 365
a. Thực hiện lệnh PivotTable để tạo các bảng tổng hợp như sau:
Trang 49

lOMoARcPSD|18200505
Bảng 1.
NgayCT (All)
Sum of Column
XuatKho Labels
Grand
Row Labels 1 2 3 Total
Bông 261 141 402
Đan Sâm 202 111 313
Gạc 16 24 40
Hà Thủ Ô 203 153 356
Trà Linh Chi 281 102 383
Grand Total 682 458 354 1494
Hãy xóa bảng PivotTable vừa tạo.
Hướng dẫn: Click con trỏ chuột vào vùng PivotTable vừa tạo, sẽ xuất hiện thêm hai thẻ
lệnh như minh họa sau. Vào thẻ ANALYZE, chọn Clear, chọn Clear All.
Thực hiện lại thao tác tạo bảng 1.
Bảng 2.
NgayCT (All)
Sum of Column
XuatKho Labels
Đan Hà Trà Linh Grand
Row Labels Bông Sâm Gạc Thủ Ô Chi Total
1 261 202 16 203 682
2 24 153 281 458
3 141 111 102 354
Grand Total 402 313 40 356 383 1494
Trang 50

lOMoARcPSD|18200505
Hãy so sánh bảng 1 và bảng 2.

Bảng 3.
NgayCT (All)
Max of Column
NhapKho Labels
Đan Hà Trà Linh Grand
Row Labels Bông Sâm Gạc Thủ Ô Chi Total
1 871 263 381 401 871
2 851 507 405 851
3 639 681 896 896
Grand Total 871 681 851 507 896 896
Bảng 4.
NgayCT (All)
Column
Labels
Total Total
Sum of Sum of
1 2 3 NhapKho XuatKho
Sum of Sum of Sum of Sum of Sum of Sum of
Row Labels NhapKho XuatKho NhapKho XuatKho NhapKho XuatKho
Bông 871 261 639 141 1510 402
Đan Sâm 263 202 681 111 944 313
Gạc 381 16 851 24 1232 40
Hà Thủ Ô 401 203 507 153 908 356
Trà Linh Chi 405 281 896 102 1301 383
Grand
Total 1916 682 1763 458 2216 354 5895 1494
b. Thực hiện lệnh Subtotal để tạo các bảng tổng hợp như sau.
Lưu ý thực hiện việc sắp xếp theo cột đươc tổng hợp trước khi thực hiện Subtotal.
Trang 51

lOMoARcPSD|18200505
Bảng 5.

12/10/2015 B-1 Bông 1 871 261 610
01/02/2015 D-1 Đan Sâm 1 263 202 61
05/10/2015 H-1 Hà Thủ Ô 1 401 203 198
08/10/2015 G-1 Gạc 1 381 16 365
1 Total 1234
04/07/2015 G-2 Gạc 2 851 24 827
03/10/2015 T-2 Trà Linh Chi 2 405 281 124
20/05/2015 H-2 Hà Thủ Ô 2 507 153 354
2 Total 1305
31/05/2015 D-3 Đan Sâm 3 681 111 570
14/07/2015 B-3 Bông 3 639 141 498
05/11/2015 T-3 Trà Linh Chi 3 896 102 794
3 Total 1862
Grand
4401
Total
Hãy hủy bỏ bảng 5 bằng cách Click chuột vào nút lệnh Subtotal, chọn Remove All.
Sau đó, thực hiện việc tạo lại bảng 5.
Bảng 6.
Hãy hiệu chỉnh bảng 5 thành bảng 6 như sau.
Trang 52

lOMoARcPSD|18200505

Grand
4401
Total
1 Total 1234
12/10/2015 B-1 Bông 1 871 261 610
01/02/2015 D-1 Đan Sâm 1 263 202 61
05/10/2015 H-1 Hà Thủ Ô 1 401 203 198
08/10/2015 G-1 Gạc 1 381 16 365
2 Total 1305
04/07/2015 G-2 Gạc 2 851 24 827
03/10/2015 T-2 Trà Linh Chi 2 405 281 124
20/05/2015 H-2 Hà Thủ Ô 2 507 153 354
3 Total 1862
31/05/2015 D-3 Đan Sâm 3 681 111 570
14/07/2015 B-3 Bông 3 639 141 498
05/11/2015 T-3 Trà Linh Chi 3 896 102 794
Hướng dẫn tạo bảng 6 từ bảng 5: Bỏ dấu Check “Summary below data” từ hộp thoại
Subtotal.
Trang 53

lOMoARcPSD|18200505
Bảng 7.
Hãy hiệu chỉnh bảng 6 thành bảng 7.

12/10/2015 B-1 Bông 1 871 261 610
01/02/2015 D-1 Đan Sâm 1 263 202 61
05/10/2015 H-1 Hà Thủ Ô 1 401 203 198
08/10/2015 G-1 Gạc 1 381 16 365
1 Count 4 4
04/07/2015 G-2 Gạc 2 851 24 827
Trà Linh
03/10/2015 T-2 2 405 281 124
Chi
20/05/2015 H-2 Hà Thủ Ô 2 507 153 354
2 Count 3 3
31/05/2015 D-3 Đan Sâm 3 681 111 570
14/07/2015 B-3 Bông 3 639 141 498
Trà Linh
05/11/2015 T-3 3 896 102 794
Chi
3 Count 3 3
Grand
10 10
Count
Bảng 8.
Hãy hiệu chỉnh bảng 7 thành bảng 8.
Trang 54

lOMoARcPSD|18200505

12/10/2015 B-1 Bông 1 871 261 610
01/02/2015 D-1 Đan Sâm 1 263 202 61
05/10/2015 H-1 Hà Thủ Ô 1 401 203 198
08/10/2015 G-1 Gạc 1 381 16 365
1 Max 610
04/07/2015 G-2 Gạc 2 851 24 827
Trà Linh
03/10/2015 T-2 2 405 281 124
Chi
20/05/2015 H-2 Hà Thủ Ô 2 507 153 354
2 Max 827
31/05/2015 D-3 Đan Sâm 3 681 111 570
14/07/2015 B-3 Bông 3 639 141 498
Trà Linh
05/11/2015 T-3 3 896 102 794
Chi
3 Max 794
Grand
827
Max
c. Thực hiện thao tác tạo bảng tổng hợp với lệnh Consolidate
Bảng 9.
(Xem hướng dẫn tại câu 3, có thể thực hiện câu 3 trước, rồi tạo bảng 9 sau)
NhapKho XuatKho TonKho

Bông 1510 402 1108
Đan Sâm 944 313 631
Hà Thủ Ô 908 356 552
Gạc 1232 40 1192
Trà Linh Chi 1301 383 918
Trang 55

lOMoARcPSD|18200505
Câu 3. Cho bảng số liệu sau:
NGÀY BÁN SẢN PHẨM SỐ LƯỢNG THÀNH TIỀN

10/01/2015 A 2 4000
11/01/2015 B 4 10000
12/01/2015 C 6 18000
13/01/2015 A 2 4000
14/01/2015 B 4 10000
15/01/2015 C 5 15000
Hãy sử dụng lệnh Consolidate để tạo tổng hợp như sau:
SẢN PHẨM SỐ LƯỢNG THÀNH TIỀN

A 4 8000
B 8 20000
C 11 33000
Hướng dẫn: đặt con trỏ tại vị trí muốn tạo bảng tổng hợp, thực hiện lệnh Consolidate và nhập
vào một địa chỉ vùng tham chiếu gồm cả ba cột SẢN PHẨM, SỐ LƯỢNG, THÀNH TIỀN
(Trong khung nhập địa chỉ tham chiếu, quét chọn cả ba cột này rồi kích nút Add).
Trang 56

lOMoARcPSD|18200505
Chương 4.
CÁC HÀM THỐNG KÊ
Mục tiêu
Trình bày được cú pháp và ý nghĩa các hàm thống kê trong Excel:
1. Hàm tính trung bình (AVERAGE, AVERAGEIF, AVERAGEIFS).
2. Hàm đếm (COUNT, COUNTIF, COUNTIFS).
3. Hàm tính tổng (SUM, SUMSQ, SUMPRODUCT, SUMIF, SUMIFS) và
PRODUCT
4. Hàm tính giá trị lớn nhất (MAX, LARGE).
5. Hàm tính giá trị bé nhất (MIN, SMALL).
6. Hàm MEDIAN, MODE, VAR.
7. Hàm DAVERAGE, DSUM, DCOUNT, DMAX, DMIN.
Sau khi đã có dữ liệu thì việc phân tích, tổng hợp dữ liệu là điều cần thiết. Chương 3 đã
trình bày các thao tác để tạo bảng tổng hợp. Chương này sẽ trình bày các hàm để tạo kết quả
thống kê và tổng hợp từ mẫu dữ liệu đã có.
4.1. Hàm AVERAGE, AVERAGEIF, AVERAGEIFS

AVERAGE(number1, [number2], …): Trả về giá trị trung bình cộng của các giá trị số
number1, number2,…
AVERAGEIF(range, criteria, average_range): Trả về giá trị trung bình cộng của các
ô trong vùng average_range thỏa mãn điều kiện (criteria) tại range. Cụ thể:
- Range: vùng chứa điều kiện.
- Criteria: điều kiện. Điều kiện có thể số, chữ hoặc biểu thức.
- Average_range: vùng để tính giá trị trung bình cộng.
Trang 57

lOMoARcPSD|18200505
Bảng 4.1. Bảng cơ sở dữ liệu 1
Ví dụ:
Dùng hàm AVERAGEIF(F2:F8,”Khá”,E2:E8) để tính trung bình cộng điểm Tổng kết của
các sinh viên xếp loại Khá
Dùng hàm AVERAGEIF(E2:E8,”>=7”,E2:E8) để tính trung bình cộng điểm Tổng kết cho
các trường hợp >=7.
AVERAGEIFS(average_range,criteria_range1,criteria1,criteria_range2,
criteria2,… ): Trả về giá trị trung bình cộng của các ô trong vùng average_range thỏa mãn các
điều kiện criteria1 tại criteria_range1, criteria2 tại criteria_range2,…
- Ví dụ 1: dùng hàm AVERAGEIFS(E2:E8,F2:F8,”TB”,B2:B8,”>=6”) để tính trung bình
cộng của cột điểm Tổng kết cho các trường hợp Xếp loại là TB và có điểm Môn 1 >=6.
- Ví dụ 2: Tính trung bình điểm Môn 1 cho các trường hợp thỏa mãn điểm Môn 1 và Môn
2 đều lớn hon7.
Hình 4.1. Minh họa hàm AVERAGEIFS
Trang 58

lOMoARcPSD|18200505
4.2. Hàm COUNT, COUNTIF, COUNTIFS

COUNT(range): đếm số ô trong vùng có dữ liệu dạng số
COUNT(value1, [value2],..): đếm các giá trị dạng số
COUNTIF(range, criteria): đếm số ô trong vùng range thỏa điều kiện criteria.
COUNTIFS(range1, criteria1, range2, criteria2,…): đếm số ô trong vùng range1,
range2 thỏa mãn các điều kiện đặt ra. Tìm điều kiện criteria1 trong range1, criteria2 trong range2.
Ví dụ: dùng hàm COUNTIFS(B2:B8,”>=6”,F2:F8,”TB”) để đếm số trường hợp thỏa mãn
cả hai điều kiện điểm Môn 1>= 6 và Xếp loại là TB.
4.3. Hàm SUM, SUMSQ, PRODUCT, SUMPRODUCT

SUM(number1, [number2],…): Tính tổng các số number1, number2,…
SUMSQ(number1, [number2],…): Tính tổng bình phương các số number1, number2,…
PRODUCT(number1, [number2],…): Tính tích các số number1, number2,…
SUMPRODUCT(array1,[array2],[array3],…): Tính tổng của tích các bộ tương ứng
trong mảng (array1, array2, array3, …).
Bảng 4.2. Bảng cơ sở dữ liệu 2
Ví dụ: Dùng công thức = SUMPRODUCT(B2:B5,C2:C5,D2:D5) để tính tổng của tích

các bộ giá trị tương ứng (trả về kết quả tại ô E6 _TỔNG TIỀN).
4.4. Hàm SUMIF, SUMIFS

SUMIF(range, criteria, [sum_range]): Tính tổng trong vùng tính tổng (sum_range) thỏa
điều kiện (criteria) đặt ra cho vùng điều kiện (range).
SUMIFS(sum_range, criteria_range1, criteria1,…): Tính tổng trong vùng tính tổng
(sum_range) thỏa các điều kiện đặt ra: điều kiện 1 (criteria1) đặt ra cho vùng điều kiện 1 (range1),
điều kiện 2 (criteria2) đặt ra cho vùng điều kiện 2 (range2), …
Ví dụ: SUMIFS(E2:E8, B2:B8,”>=6”,F2:F8,”TB”)
Trang 59

lOMoARcPSD|18200505
Hàm này dùng để tính tổng điểm tổng kết các trường hợp thỏa mãn cả hai điều kiện điểm
Môn 1>=6 và Xếp loại là TB.
4.5. Hàm MAX, LARGE

MAX(number1, number2,…); MAX(range): tìm giá trị lớn nhất.
LARGE(array,k): trả về giá trị lớn thứ k trong danh sách array
Ví dụ: LARGE(E2:E8,3) trả về giá trị lớn thứ 3 trong danh sách E2:E8 → 7.7
4.6. Hàm MIN, SMALL

MIN(number1, number2,…); MIN(range): tìm giá trị bé nhất.
SMALL((array,k): trả về giá trị bé thứ k trong danh sách array
Ví dụ: SMALL(E2:E8,2) trả về giá trị bé thứ 2 trong danh sách E2:E8 → 6.3
4.7. Hàm MEDIAN

MEDIAN(number1, number2,…): Trả về số trung vị của các số đã cho.
Trung vị (median) là giá trị của số liệu có vị trí nằm giữa bộ số liệu sắp xếp theo trật tự.
Đây chính là điểm giữa của phân phối. Khi số quan sát là chẵn, trung vị là giá trị trung bình của
hai quan sát ở vị trí trung tâm.
Trung bình là trung bình số học, được tính bằng cách cộng một nhóm các số rồi chia cho
số lượng các số. Ví dụ, trung bình của 2, 3, 3, 5, 7 và 10 là 30 chia cho 6, ra kết quả là 5. Trung
vị là số nằm ở giữa một nhóm các số; có nghĩa là, phân nửa các số có giá trị lớn hơn số trung vị,
còn phân nửa các số có giá trị bé hơn số trung vị. Ví dụ, số trung vị của 2, 3, 3, 5, 7 và 10 là 4.
Mode là số xuất hiện nhiều nhất trong một nhóm các số. Ví dụ, mode của 2, 3, 3, 5, 7 và 10 là 3.
4.8. Hàm MODE

MODE(number1, number2, …): trả về giá trị xuất hiện nhiều nhất trong danh sách các
giá trị.
Ví dụ: MODE(2,3,3,5,7,10) → 3
4.9. Hàm VAR

VAR(number1, number2,…): trả về phương sai dựa trên mẫu.
Trang 60

lOMoARcPSD|18200505
Phương sai (Variance; ký hiệu là s2 đối với mẫu và ký hiệu là σ2 đối với tổng thể) là trung
bình tổng các sai số bình phương giữa các giá trị của các quan sát và giá trị trung bình.
Độ lệch chuẩn (Standard deviation; ký hiệu là s hoặc SD đối với mẫu và ký hiệu là σ đối
với tổng thể) đo lường mức độ phân tán của số liệu xung quanh giá trị trung bình.
Sai số chuẩn của giá trị trung bình (Standard error of the mean; s.e.) đo lường phạm vi mà
giá trị trung bình (μ) của quần thể có thể xuất hiện với một xác suất cho trước dựa trên giá trị
trung bình của mẫu (mean).
4.10. Hàm DAVERAGE, DSUM, DCOUNT, DMAX, DMIN

DAVERAGE(database, field, criteria): tính giá trị trung bình cộng trên một cột (field)
của bảng cơ sở dữ liệu (database) thỏa mãn điều kiện trong vùng tiêu chuẩn (criteria).
Ví dụ 1: DAVERAGE(A1:F8,2,F1:F2) → 6
F1:F2 được xem như là vùng điều kiện Xếp loại là TB (giả sử đây là tiêu chuẩn so sánh
trực tiếp), cách lập vùng tiêu chuẩn tương tự như trong phần trích lọc dữ liệu đã học ở bài trước.
Lưu ý rằng đối với tiêu chuẩn so sánh gián tiếp (tiêu chuẩn dạng công thức) thì tiêu đề của vùng
tiêu chuẩn (criteria) phải khác với tất cả các tiêu đề của vùng dữ liệu (database).
Có thể thay cột 2 trong công thức trên thành B1 hoặc “Môn 1” như sau:
DAVERAGE(A1:F8,B1,F1:F2) hoặc DAVERAGE(A1:F8,”Môn 1”,F1:F2)
Như vậy, giá trị tại field có thể nhận giá trị là số thứ tự cột, tiêu đề cột, hoặc địa chỉ tiêu
đề cột cần tính.
Ví dụ 2: Tính trung bình điểm Môn 1 đối với các trường hợp thỏa mãn điểm Môn 1 và
Môn 2 đều lớn hơn hoặc bằng 8.
Hình 4.2. Minh họa hàm DAVERAGE
Trang 61

lOMoARcPSD|18200505
DCOUNT(database, field, criteria): đếm giá trị kiểu số trên một cột (field) của bảng cơ
sở dữ liệu (database) thỏa mãn điều kiện trong vùng tiêu chuẩn (criteria).
Lưu ý rằng hàm DCOUNT đếm dữ liệu dạng số. Xem ví dụ sau để hiểu rõ hơn về hàm
DCOUNT.
Ví dụ: DCOUNT(A1:F8,1,F1:F2) → 0; DCOUNT(A1:F8,2,F1:F2) → 3;
Sinh viên tự tìm hiểu về hàm DCOUNTA.
DSUM(database, field, criteria): tính giá trị tổng cộng trên một cột (field) của bảng cơ
DMAX(database, field, criteria): tính giá trị lớn nhất trên một cột (field) của bảng cơ
DMIN(database, field, criteria): tính giá trị bé nhất trên một cột (field) của bảng cơ sở
dữ liệu (database) thỏa mãn điều kiện trong vùng tiêu chuẩn (criteria).
Trang 62

lOMoARcPSD|18200505

 Hàm tính giá trị trung bình:
- AVERAGE(number1, number2, …)
- AVERAGEIF(range, criteria, average_range)
- AVERAGEIFS(average_range, criteria_range1, criteria1, criteria_range2,
criteria2,… )
 Hàm đếm:
- COUNT(range)
- COUNT(value1, value2,..)
- COUNTIF(range, criteria)
- COUNTIFS(range1, criteria1, range2, criteria2,…)
 Hàm tính tổng, tích
- SUM(number1, [number2],…)
- SUMSQ(number1, [number2],…)
- PRODUCT(number1, [number2],…)
- SUMPRODUCT(array1,[array2],[array3],…)
- SUMIF(range, criteria, [sum_range])
- SUMIFS(sum_range, criteria_range1, criteria1,…)
 Hàm tính giá trị lớn
- MAX(range)
- LARGE(array, k)
 Hàm tính giá trị bé
- MIN(range)
- SMALL((array,k)
 Hàm tính các đặc trưng mẫu
- MEDIAN(number1, number2,…)
- MODE(number1, number2, …)
- VAR(number1, number2,…)
 Hàm thống kê dữ liệu theo vùng điều kiện
- DAVERAGE(database, field, criteria)
- DCOUNT(database, field, criteria)
- DSUM(database, field, criteria)
Trang 63

lOMoARcPSD|18200505
- DMAX(database, field, criteria)

- DMIN(database, field, criteria)
Cần thiết lập vùng tiêu chuẩn/vùng điều kiện trước khi thực hiện các hàm này.

1. Hàm tính giá trị trung bình gồm những hàm nào? Cú pháp và ý nghĩa các hàm này?
2. Hàm đếm gồm những hàm nào? Cú pháp và ý nghĩa các hàm này?
3. Hàm tính tổng gồm những hàm nào? Cú pháp và ý nghĩa các hàm này?
4. Hàm tính giá trị lớn nhất, bé nhất gồm những hàm nào? Cú pháp và ý nghĩa các hàm này?
Muốn tính giá trị lớn thứ k trong dãy số cho trước thì dùng hàm gì? Nêu rõ cú pháp hàm.
5. Trình bày cú pháp, ý nghĩa các hàm MEDIAN, MODE, VAR?
6. Trình bày cú pháp, ý nghĩa các hàm DAVERAGE, DSUM, DCOUNT, DMAX, DMIN? Các
hàm này có điểm nào giống nhau?
Trang 64

lOMoARcPSD|18200505

1 Sử dụng hàm tính trung bình (AVERAGE, AVERAGEIF,
AVERAGEIFS).
2 Sử dụng hàm đếm (COUNT, COUNTIF, COUNTIFS).
3 Sử dụng hàm tính tổng (SUM, SUMSQ, SUMPRODUCT,
SUMIF, SUMIFS) và PRODUCT.
4 Sử dụng hàm tính giá trị lớn nhất (MAX, LARGE).
5 Sử dụng hàm tính giá trị bé nhất (MIN, SMALL).
6 Sử dụng hàm MEDIAN, MODE, VAR.
7 Sử dụng hàm DAVERAGE, DSUM, DCOUNT, DMAX,
DMIN.
Câu 1. Cho bảng dữ liệu như phần lý thuyết vừa trình bày, lưu bảng này với tên bài 41.XLSX
Thực hiện các yêu cầu sau:
 Hàm AVERAGE, AVERAGEIF, AVERAGEIFS

- Dùng hàm AVERAGE(number1, number2, …) để tính giá trị cho cột TỔNG KẾT
- TỔNG KẾT = (Môn 1 + Môn 2 + Môn 3)/3
- Dùng hàm AVERAGEIF(F2:F8,”Khá”,E2:E8) để tính trung bình cộng điểm Tổng
kết của các sinh viên xếp loại Khá. Tương tự, hãy dùng AVERAGEIF để tính điểm
trung bình Môn 1 của các sinh viên xếp loại TB.
Trang 65

lOMoARcPSD|18200505
- Dùng hàm AVERAGEIF(E2:E8,”>=7”,E2:E8) để tính trung bình cộng điểm Tổng

kết cho các trường hợp >=7.
- Dùng hàm AVERAGEIFS(E2:28,F2:F8,”TB”,B2:B8,”>=6”) để tính trung bình cộng
của cột điểm Tổng kết cho các trường hợp Xếp loại là TB và có điểm Môn 1 >=6.
Tương tự, hãy dùng hàm AVERAGEIFS để tính trung bình cộng của cột điểm Tổng
kết cho các trường hợp Xếp loại là TB và có điểm Môn 2<=6.
 Hàm COUNT, COUNTIF, COUNTIFS

- Dùng hàm COUNTIF để đếm số trường hợp thỏa mãn Môn 1 >= 6.
- Dùng hàm COUNTIFS để đếm số trường hợp thỏa mãn cả hai điều kiện điểm Môn
1>=6 và Xếp loại là TB.
 Hàm SUM, SUMIF, SUMIFS

- Dùng hàm SUMIF để tinh tổng điểm tổng kết các trường hợp thỏa mãn Môn 1>=6.
- Dùng hàm SUMIFS để tính tổng điểm tổng kết các trường hợp thỏa mãn cả hai điều
kiện điểm Môn 1>=6 và Xếp loại là TB.
 Hàm MAX, LARGE

Dùng hàm LARGE trả về giá trị lớn thứ 3 trong danh sách E2:E8
 Hàm MIN, SMALL
Dùng hàm SMALL trả về giá trị bé thứ 2 trong danh sách E2:E8
 Hàm DAVERAGE, DSUM, DCOUNT, DMAX, DMIN
- Dùng hàm DAVERAGE để tính giá trị trung bình cộng lần lượt điểm môn 1, môn 2,
môn 3 cho các trường hợp xếp loại Khá.
- Dùng hàm DSUM để tính tổng điểm môn 1 cho các trường hợp xếp loại giỏi.
- Dùng hàm DMAX để tính giá trị lớn nhất của cột điểm tổng kết cho các sinh viên xếp
loại Khá.
- Dùng hàm DMIN để tính giá trị bé nhất của cột điểm tổng kết cho các sinh viên xếp
loại Khá.
Câu 2. Tạo bảng dữ liệu như sau, lưu tập tin với tên BAI42.XLSX
Trang 66

lOMoARcPSD|18200505
Điểm Dân Khu Tổng

STT Họ và Tên thi Loại tộc vực ƯT1 ƯT2 điểm Kết quả
1 Nguyễn Hòa 22 Giỏi Kinh 3
2 Trần Thị Hoa 14 Khá Dao 2
3 Lê Thị Thanh 18 TB Tày 2
4 Đặng Thị Thương 16 TB Dao 3
5 Trần Văn Nam 9 Khá Kinh 2
6 Lê Thanh Ân 11 Khá Dao 2
7 Nguyễn Quốc Ca 21 Giỏi Kinh 3
8 Nguyễn Hinh 18.5 TB Mông 2
9 Trần Phong 17.5 Khá Mông 1
10 Trần Thành 17 Khá Dao 1
11 Mai Hương 18.5 TB Mông 2
Bảng tính điểm ƯT1

Bảng tính điểm ƯT2
Dân tộc ƯT1
Khu vực ƯT2
Kinh 0
1 0
Giao 1
2 0.5
Tày 1
3 1
Mông 1.5
Thực hiện các yêu cầu sau:

a. Dùng hàm IF để tính điểm ƯT1, ƯT2
ƯT1 = IF(…= “Kinh”,0, IF(…= “Giao”,1, IF(…= “Tày”,1,1.5)))
ƯT2 = IF(…= 1,0, IF(…=2, 0.5,1))
Lưu ý: thay dấu … thành địa chỉ ô cần so sánh.
b. Tổng điểm = Điểm thi + ƯT1 + ƯT2
c. Thiết lập vùng tiêu chuẩn để lọc ra các trường hợp thỏa các điểu kiện sau:
Loại Giỏi, Điểm thi lớn hơn 17, thuộc khu vực 1 hoặc 2
d. Thực hiện chức năng Subtotal (dùng hàm SUM) cho trường Điểm thi và Tổng điểm,
nhóm theo Loại (phải sắp xếp dữ liệu theo trường Loại trước khi thực hiện (Subtotal).
e. Thực hiện chức năng Subtotal để tạo bảng sau.
Trang 67

lOMoARcPSD|18200505
Điểm Khu Tổng Kết

STT Họ và Tên thi Loại Dân tộc vực ƯT1 ƯT2 điểm quả
Trần Phong 17.5 Khá Mông 1
Trần Thành 17 Khá Dao 1
1 Count 2
Trần Thị Hoa 14 Khá Dao 2
Lê Thị Thanh 18 TB Tày 2
Trần Văn Nam 9 Khá Kinh 2
Lê Thanh Ân 11 Khá Dao 2
Nguyễn Hinh 18.5 TB Mông 2
Mai Hương 18.5 TB Mông 2
2 Count 6
Nguyễn Hòa 22 Giỏi Kinh 3
Đặng Thị Thương 16 TB Dao 3
Nguyễn Quốc Ca 21 Giỏi Kinh 3
3 Count 3
Grand
Count 11
f. Thực hiện lệnh PivotTable để tạo bảng thống kê và biểu đồ sau.
Khu vực (All)
Sum of Điểm thi Loại

Dân tộc Giỏi Khá TB Grand Total
Dao 42 16 58
Kinh 43 9 52
Mông 17.5 37 54.5
Tày 18 18
Grand Total 43 68.5 71 182.5
50
40
30 Giỏi
Khá
20
TB
10
0
Dao Kinh Mông Tày
Trang 68

lOMoARcPSD|18200505
g. Tính trung bình điểm thi của các trường hợp tốt nghiệp loại TB và dân tộc Tày hoặc Dao.
h. Đếm số trường hợp có loại Khá hoặc TB và thuộc khu vực 1 hoặc 2. Thực hiện thao tác lọc
(nâng cao) để lọc đến vị trí khác các trường hợp thỏa mãn điều kiện này.
i. Thực hiện lệnh Advanced Filter để lọc ra các trường hợp thỏa mãn: Loại Giỏi, Khu vực 1, 2
và có tổng điểm từ 17 đến 20.
Câu 3. Tạo bảng dữ liệu như sau, lưu tập tin với tên BAI43.XLSX
DANH SÁCH NHÂN VIÊN
MÃ NV TÊN NHÂN VIÊN HỆ SỐ LƯƠNG MÃ PB NGÀY VÀO LÀM
001 Nguyễn Thị Lan 4.65 PKT 25/12/1985
003 Trần Văn Nam 5.31 BGĐ 10/10/1980
004 Phạm Cát Tường 3.99 PTC 20/6/1997
007 Lê Thị Hoa 3.66 PHC 1/3/2000
002 Trần Văn Hòa 4.65 PHC 15/10/1994
009 Đặng Thị Huệ 4.32 PHC 16/7/2000
Hãy hoàn thành các bảng thống kê sau:
BẢNG THỐNG KÊ (BẢNG 1)

MÃ HỆ SỐ TỔNG SỐ NHÂN VIÊN HỆ SỐ LƯƠNG LỚN
PB LƯƠNG NHẤT
PHC <4.5
BẢNG THỐNG KÊ (BẢNG 2)
MÃ PB NĂM VÀO LÀM TỔNG SỐ NHÂN VIÊN TỔNG HỆ SỐ LƯƠNG
PHC 2000
Câu 4. Lấy dữ liệu từ bảng dữ liệu câu 2, chương 2 như sau:

12/10/2015 B-1 Bông 1 871 261 610
04/07/2015 G-2 Gạc 2 851 24 827
01/02/2015 D-1 Đan Sâm 1 263 202 61
31/05/2015 D-3 Đan Sâm 3 681 111 570
03/10/2015 T-2 Trà Linh Chi 2 405 281 124
05/10/2015 H-1 Hà Thủ Ô 1 401 203 198
14/07/2015 B-3 Bông 3 639 141 498
05/11/2015 T-3 Trà Linh Chi 3 896 102 794
20/05/2015 H-2 Hà Thủ Ô 2 507 153 354
08/10/2015 G-1 Gạc 1 381 16 365
Trang 69

lOMoARcPSD|18200505
* Hoàn thành các thống kê sau:

1. Có bao nhiêu mặt hàng có MaHang bắt đầu bằng chữ T?
2. Có bao nhiêu mặt hàng Loai 2?
3. Tổng NhapKho của các mặt hàng Loai 3 ?
4. Tổng XuatKho của các mặt hàng Bông ?
5. Giá trị nhỏ nhất TonKho của các mặt hàng Loai 2 ?
6. Giá trị lớn nhất XuatKho của mặt hàng Đan sâm ?
7. Tổng TonKho của các mặt hàng Loai 1 và Loai 2 là bao nhiêu?
8. Tính tổng NhapKho và XuatKho của các mặt hàng Loai 3 ?
9. Tính tổng TonKho của mặt hàng Trà Linh Chi và Hà Thủ Ô ?
10. Tỷ lệ phần trăm giữa XuatKho và NhapKho của mặt hàng Gạc ?
11. Tính tổng XuatKho của mặt hàng Tôm Loai 1 và Mực Loai 3 ?
12. Tính tổng NhapKho của Hà Thủ Ô và Trà Linh Chi loại 2 ?
13. Tỷ lệ phần trăm TonKho giữa mặt hàng Đan Sâm và Gạc là bao nhiêu?
14. Giá trị NhapKho nhỏ nhất của các mặt hàng có TonKho >=500 ?
15. Tổng TonKho của các mặt hàng có NhapKho <500 hoặc XuatKho >=200?
16. Giá trị NhapKho nhỏ nhất trong tháng 7?
17. Tổng XuatKho của các mặt hàng Loai 1 trong tháng 10 ?
18. Giá trị TonKho lớn nhất từ ngày 1 đến ngày 15 ?
19. Tổng NhapKho của Quý 4 (gồm các tháng 10,11 và 12)?
20. Tổng NhapKho và XuatKho của các mặt hàng trong ngày Thứ Bảy và Chủ Nhật?
Trang 70

lOMoARcPSD|18200505
Chương 5.
TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU
Mục tiêu
Sau khi học xong bài này, sinh viên thực hiện được:
1. Lập bảng phân phối tần số.
2. Lập bảng tính đặc trưng mẫu.
3. Ước lượng trung bình tổng thể.
4. Vẽ đồ thị.
5. Tạo bảng tổng hợp dữ liệu
Các công cụ cơ bản để tóm tắt và trình bày dữ liệu được trình bày trong chương này là:
 Bảng tần số;

 Bảng tính đặc trưng mẫu;
 Vẽ đồ thị;
 Bảng tổng hợp.
5.1. Bảng tần số

Chương này trình bày hai cách để tạo bảng tần số, đó là:
- Dùng hàm Frequency
- Dùng lệnh Histogram
5.1.1. Hàm FREQUENCY

FREQUENCY(data_array, bins_array): Lập bảng phân phối tần số của các giá trị từ
bins_array xuất hiện trong data_array.
data_array: Địa chỉ mảng dữ liệu
bins_array: Địa chỉ mảng các giá trị (hoặc các khoảng/vùng giá trị) cần lập tần số.
Ví dụ: Trong một nghiên cứu về tác dụng của thuốc A trên một nhóm nghiên cứu gồm 30
bệnh nhân trong độ tuổi từ 18 đến 50 tuổi, người ta thu được chỉ số tuổi của các bệnh nhân như
sau: 18; 25; 26; 27; 30; 19; 25; 45; 30; 46; 50; 45; 40; 36; 48; 35; 42; 35; 32; 36; 37; 42; 39; 33;
45; 38; 30; 37; 38; 41.
Trang 71

lOMoARcPSD|18200505
Hãy lập bảng phân phối tần số cho dữ liệu là danh sách chỉ số tuổi bệnh nhân nêu trên.
Các bước tiến hành như sau:
o Nhập số liệu về tuổi bệnh nhân theo hàng hoặc theo cột như minh họa dưới.
Hình 5.1. Nhập số liệu vào Excel

o Lọc danh sách tuổi bệnh nhân (loại bỏ chỉ số tuổi trùng nhau) đến một vị trí khác như
minh họa hình dưới. Đánh dấu khối cột tần số ở B5:B22, nhấn F2 nhập công thức
= frequency(B2:AE2,A5:A22) và nhấn CTRL+SHIFT +ENTER
Bảng 5.1. Bảng phân phối tần số
Để loại bỏ các chỉ số tuổi trùng nhau trong khi lọc, thao tác thực hiện:
Cách 1: Dùng lệnh Remove Duplicate từ thẻ lệnh Data (nhóm Data Tools) để loại bỏ các
mẫu tin trùng nhau: (1) Quét chọn vùng dữ liệu gốc → (2) chuyển thành dạng cột (Paste →
Transpose) → (3) thực hiên lệnh Remove Duplicate từ thẻ lệnh Data.
Cách 2: (1) Quét chọn vùng dữ liệu gốc → (2) chuyển thành dạng cột (Paste →
Transpose) → (3) vào thẻ Data\Filter\Advanced Filter → (4) trong cửa sổ Advanced Filter, chọn
Trang 72

lOMoARcPSD|18200505
mục "Copy to another location" → (5) Nhấp chuột vào khung "Copy to" rồi dùng chuột chọn 1 ô
trên bảng tính là nơi đặt dữ liệu sau khi lọc → (6) Đánh dấu Unique Records Only để loại bỏ các
mẫu tin trùng nhau → (7) OK.
5.1.2. Lệnh Histogram

Lệnh Histogram trong Excel cho phép tạo bảng tần số và tạo biểu đồ tần số Histogram.
Để vẽ biểu đồ Histogram, cần thực hiện qua 2 bước: bước chuẩn bị (có thể bỏ qua) và bước vẽ
biểu đồ. Lấy số liệu từ ví dụ trong mục 5.1. về nghiên cứu tác dụng của thuốc A trên 30 bệnh
nhân độ tưổi từ 18 đến 50.
▪ Bước Chuẩn bị:
- Để số liệu ở một cột, một hàng hay một bảng chữ nhật
- Tìm giá trị lớn nhất (hàm Max), nhỏ nhất (hàm Min)
- Tính khoảng biến thiên R (Range): R =Max-Min
- Chọn số nhóm_k (không có một tiêu chuẩn tối ưu mà chủ yếu phụ thuộc
vào kinh nghiệm). Có thể lấy bằng công thức (mang tính chất tham khảo)
là 6*log(n) trong đó n là số lượng các giá trị (lấy giá trị nguyên xấp xỉ).
- Tìm giá trị bước tăng trong nhóm h = R/k
- Xác định giá trị cận dưới và cận trên (giá trị cận dưới  Min, giá trị cận
trên  Max)
- Tạo cột Bin range.
Nếu để chương trình tự động chia nhóm thì không cần phải thực hiện các bước chuẩn bị
để tạo cột Bin range, lúc này chương trình sẽ căn cứ vào Min, Max, Range để chia thành một số
nhóm (bỏ qua thông tin cho mục Bin Range trong hộp thoại Histogram).
Bảng 5.2. Các bước chuẩn bị để tạo biểu đồ Histogram
Bước chuẩn bị Cột BIN

Max 50 18
Min 18 22
Khoảng biến thiên R 32 26
Kích thước mẫu n 30 30
Số khoảng chia k =(6*log(n)) 8.862728 9 34
Giá trị bước tăng 4 38
Cận dưới 18 42
Cận trên 50 46
50
Trang 73

lOMoARcPSD|18200505
▪ Bước vẽ biểu đồ
- Chọn Data → Data Analysis → Histogram và khai báo các mục:
• Input range: Miền dữ liệu
• Input Bin: Miền phân nhóm (nếu để chương trình tự chia nhóm thì
bỏ qua mục này)
• Labels: Nhãn ở dòng đầu nếu có
• Output range: Miền kết quả
• Pareto: Tần số sắp xếp trong tổ chức đồ là giảm dần
• Cumulative Percentage: Hiển thị đường tần suất cộng dồn %
• Chart output: Hiển thị biểu đồ
Hình 5.2. Hộp thoại tạo biểu đồ Histogram

Bảng 5. 3. Bảng thống kê tần số, tần suất tích lũy
Bin Frequency Cumulative %

18 1 3.33%
22 1 6.67%
26 3 16.67%
30 4 30.00%
34 2 36.67%
38 8 63.33%
42 5 80.00%
46 4 93.33%
50 2 100.00%
More 0 100.00%
Trang 74

lOMoARcPSD|18200505
Histogram
9 120.00%
8
100.00%
7
6 80.00%
Frequency 5
60.00%
4
3 40.00% Frequency
2 Cumulative %
20.00%
1
0 0.00%
18
22
26
30
34
38
42
46
50
More
Bin
Hình 5.3. Biểu đồ tần suất - Histogram

5.2. Đặc trưng mẫu
Đặc trưng mẫu là các số đặc trưng của mẫu số liệu như trung bình, độ lệch chuẩn, trung
vị, mode, … Các đại lượng này cho phép thể hiện một cách tổng quát đối tượng nghiên cứu. Các
đại lượng này chỉ được tính đối với các biến định lượng.
Trong Excel, để tính đặc trưng mẫu, có thể dùng:
- Lệnh Descriptive Statistics
- Hàm
5.2.1. Dùng lệnh Descriptive Statistics
Giả sử cần tính đặc trưng mẫu của dữ liệu là danh sách chỉ số tuổi của các bệnh nhân
được điều tra như trong ví dụ trên: 18; 25; 26; 27; 30; 19; 25; 45; 30; 46; 50; 45; 40; 36; 48; 35;
42; 35; 32; 36; 37; 42; 39; 33; 45; 38; 30; 37; 38; 41.
Bước 1. Nhập dữ liệu trong dòng A2:AE2 như minh họa trên.
Bước 2. Vào thẻ Data, chọn Data Analysis, chọn Descriptive Statistics, nhấn OK.
Bước 3. Nhập các mục:
Input Range: địa chỉ tuyệt đối chứa dữ liệu $B$2:$AE$2
Output Range: địa chỉ xuất kết quả
Confidence Level for Mean: Độ tin cậy của giá trị trung bình
Bước 4. Chọn OK để kết thúc.
Trang 75

lOMoARcPSD|18200505
Hình 5.4. Hộp thoại tính đặc trưng mẫu

- Input Range: Miền dữ liệu.
- Grouped By: Miền dữ liệu theo hàng dọc hay hàng ngang.
- Labels in First Column: Đánh dấu ô này trong trường hợp miền dữ liệu khai báo trong
Input Range bao gồm cả nhãn.
- Output Range: Vùng hiển thị kết quả.
- Confidence Level for Mean: 95% (độ tin cậy 95%). Giá trị khai báo ở đây được sử dụng
để ước tính khoảng tin cậy trung bình tổng thể.
- Kth Largest: 1 (1 số lớn nhất, 2 số lớn nhì).
- Kth Smallest: 1 (1 số nhỏ nhất, 2 số nhỏ nhì).
5.2.2. Dùng hàm trong Excel

Sau đây là kết quả tính đặc trưng mẫu dùng lệnh Descriptive Statistics như đã trình bày ở
trên. Excel cũng hỗ trợ các hàm để tính các giá trị đặc trưng mẫu.
Tuổi Tính theo các hàm

Mean 𝑥̅ =35.67 Giá trị trung bình AVERAGE(B2:AE2)
s
Standard Error =1.51 Sai số chuẩn
√𝑛
Median 36.5 Trung vị MEDIAN(B2:AE2)
Trang 76

lOMoARcPSD|18200505
Mode 30 Mode MODE(B2:AE2)

Standard Deviation 𝑆 = 8.27 Độ lệch chuẩn STDEV(B2:AE2)
Sample Variance 68.37 Phương sai mẫu VAR(B2:AE2)
Kurtosis -0.4129 Độ nhọn của đỉnh KURT(B2:AE2)
Skewness -0.3639 Độ nghiêng SKEW(B2:AE2)
Range 32 Khoảng biến thiên MAX()-MIN()
Minimum 18 Tối thiểu MIN(B2:AE2)
Maximum 50 Tối đa MAX(B2:AE2)
Sum 1070 Tổng SUM(B2:AE2)
Count 30 Số lượng mẫu COUNT(B2:AE2)
Confidence Level
(95.0%) 3.0875 Độ tin cậy 95% CONFIDENCE(0.05,S,n)
5.2.3. Phân tích kết quả thu được

1
- Mean: cho biết độ tuổi trung bình của nhóm nghiên cứu (𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖 ).
𝑛
- Standard Error: cho biết tỷ số độ lệch chuẩn mẫu/căn bậc hai của n.
1
Phương sai 𝑠 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
Độ lệch chuẩn: s= √𝑠 2
𝑆
Sai số chuẩn: 𝑆𝐸 =
√𝑛
- Median: cho biết điểm giữa của dãy số liệu (Nếu 2 giá trị Mean và Median xấp xỉ nhau cho
thấy số liệu cân đối không bị lệch).
- Mode: cho biết giá trị xảy ra nhiều lần nhất.
- Độ lệch chuẩn và phương sai mẫu: cho biết mức độ phân tán của số liệu quanh giá trị trung bình,
các giá trị này càng nhỏ chứng tỏ số liệu càng tập trung.
- Kurtosis: chỉ tiêu Kurtosis đo luờng độ nhọn của phân phối; nếu đại lượng ngẫu nhiên X có
phân phối chuẩn thì độ nhọn bằng 0. Ở đây, độ nhọn đánh giá đường mật độ phân phối của dãy
số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn tắc (dương là nhọn hơn, âm là tù hơn).
Trang 77

lOMoARcPSD|18200505
Hình 5.5. Kurtosis > 0 (đường trên cùng), Kurtosis < 0 (đường dưới cùng), Kurtosis=0 (đường
ở giữa (chuẩn))
- Skewness: chỉ tiêu Skewness đo luờng độ cân xứng của phân phối. Phân phối cân xứng khi
Skewness=0, phân phối lệch phải khi Skewness>0, phân phối lệch trái khi Skewness<0.
- Confidence Level: được hiểu là một nửa độ dài khoảng tin cậy. Giá trị này được dùng để ước
lượng khoảng tin cậy trung bình của một tổng thể. Giả sử giá trị tại Confidence Level là m thì
khoảng tin cậy của trung bình tổng thể là Mean ± m. Trong ví dụ trên, khoảng tin cậy 95% của
trung bình tuổi của nhóm đối tượng nghiên cứu là 35.67±3.0875.
5.2.4. Nhận xét

Các kết quả tính toán về thống kê bằng cách dùng Descriptive Statistics và dùng hàm
thống kê cho kết quả như nhau. Riêng việc xác định khoảng tin cậy (Confidence Level) cho kết
quả khác nhau là do Descriptive Statistics dùng phân bố Student, còn hàm thống kê dùng phân
bố chuẩn.
Các chỉ tiêu thống kê mô tả (định lượng):
- Đo lường xu hướng trung tâm/xu hướng tập trung của số liệu: trung bình (mean), trung
vị (median), mode, tổng (sum).
- Đo lường tính biến thiên/độ phân tán của số liệu: phương sai (variance), độ lệch chuẩn
(Standard deviation), khoảng biến thiên (range), sai số chuẩn của giá trị trung bình
(standard error of the mean), giá trị lớn nhất (Max), giá trị bé nhất (Min).
- Đo lường hình dạng của phân phối: độ nhọn (Kurtosis), độ lệch (Skewness).
Trang 78

lOMoARcPSD|18200505
5.2.5. Ước lượng trung bình của một tổng thể

Qúa trình ước lượng bao gồm việc tính toán từ các số liệu của một mẫu, để đưa ra một số
giá trị thống kê được coi là xấp xỉ với tham số của tổng thể mà mẫu đó được chọn ra. Trong các
khoa học về sức khỏe, người ta đặc biệt quan tâm tới hai tham số là trung bình và tỷ lệ.
Ví dụ, người quản lý một bệnh viện quan tâm đến tuổi trung bình của các bệnh nhân đến
điều trị tại bệnh viện đó trong vòng một năm. Người quản lý biết rằng sẽ không khả thi nếu hỏi
và tính tuổi của tất cả các bệnh nhân đến điều trị trong năm đó. Nếu chỉ chọn ra một mẫu các bệnh
nhân để hỏi và tính tuổi thì sẽ tiện hơn. Từ các kết quả tính được (trung bình mẫu, độ lệch chuẩn,
…) của mẫu này, người quản lý sẽ tiến hành suy luận thống kê để có thể ước lượng tuổi trung
bình của các bệnh nhân điều trị trong năm đó (Suy luận thống kê là quá trình trong đó người ta
suy luận về tổng thể dựa trên những kết quả thu được từ một mẫu rút ra từ tổng thể đó).
Sau đây là các công thức có thể được áp dụng để tìm khoảng ước lượng trung bình tổng
thể từ một mẫu ngẫu nhiên n quan sát x1, x2, …, xn của tổng thể X có phân phối chuẩn, có trung
bình là , phương sai 2, trung bình mẫu là 𝑥̅ , phương sai mẫu là s2, độ tin cậy (1-α):
+ Trường hợp đã biết phương sai tổng thể:


𝑥̅ ± 𝑧∝/2 (1)
√𝑛
+ Trường hợp chưa biết phương sai tổng thể

𝑆
• Cỡ mẫu lớn (n>=30): 𝑥̅ ± 𝑧∝/2 (2)
√𝑛
𝑆
• Cỡ mẫu nhỏ (n<30): 𝑥̅ ± 𝑡𝑛−1,∝/2 (3)
√𝑛
Với tn-1,α/2 là hệ số khoảng tin cậy có thể tìm được trong bảng phân phối t với n-1 độ tự
do (ví dụ hệ số khoảng tin cậy 90% là 1.833 nếu như mẫu có 10 quan sát) hoặc có thể dùng hàm
TINV trong Excel, cú pháp dạng TINV(α,n-1). Tương tự Zα/2 được tính với công thức Zα/2=
NORMSINV(1- α/2).
Ví dụ, tiến hành xem trong một tháng trung bình một sinh viên tiêu hết bao nhiêu tiền sinh
hoạt (tiền ăn, tiền điện thoại, …). Khảo sát ngẫu nhiên 60 sinh viên thu được kết quả như sau
(đơn vị nghìn đồng).
1500 1700 1550 1600 1650 1750 1855 2000 2150 2155 2250 1950 1955 255 3000
1750 1855 1955 2150 2155 2550 2620 1750 1755 1850 1950 2550 1950 2550 2555
1775 1800 1825 1850 1875 1900 1925 1950 1975 2000 2025 2050 2075 2100 2125
1250 1350 1450 1550 1650 1750 1850 1950 2050 2150 2250 2350 2450 2550 2650
Trang 79

lOMoARcPSD|18200505
Hãy ước lượng khoảng tin cậy của số tiền sinh hoạt hàng tháng của một sinh viên (bao
gồm tiền ăn, ở, quỹ lớp, photo tài liệu học tập) với độ tin cậy 95%.
Thực hiện lệnh Descriptive Statistics, kết quả minh họa như sau.
Hình 5.2. Bảng thống kê mô tả và tính khoảng ước lượng số tiền sinh hoạt hàng tháng
Như vậy với bảng kết quả trên, với độ tin cậy 95% thì một tháng, trung bình một sinh viên
tiêu tiền trong khoảng từ 1910.404 đến 2091.596 (đơn vị nghìn đồng).
Lưu ý rằng, giá trị tại dòng Confidence Level (95%) dùng phân bố student để ước lượng
khoảng tin cậy của giá trị trung bình, thường được áp dụng đối với cỡ mẫu nhỏ (<30) như công
thức minh họa tại (3). Ví dụ nêu trên đây cỡ mẫu lớn (≥30) thì có thể dùng hàm Confidence để
tính khoảng tin cậy cho giá trị trung bình như công thức minh họa tại (2) được trình bày trên.
Sinh viên sử dụng công thức tại (2) để ước lượng khoảng tin cậy của giá trị trung bình, sau
đó so sánh với kết quả tại (3) và so sánh với kết quả khi sử dụng hàm Confidence.
5.3. Đồ thị
Biểu đồ/ đồ thị là một dạng biểu diễn dữ liệu trực quan, sinh động giúp người xem dễ
dàng quan sát dữ liệu.
Trang 80

lOMoARcPSD|18200505
5.3.1. Các bước vẽ đồ thị

Bước 1. Chọn vùng dữ liệu cần biểu diễn đồ thị.
Bước 2. Vào thẻ Insert, chọn kiểu/loại đồ thị trong nhóm Charts. Mỗi nhóm đồ thị sẽ có
nhiều kiểu dáng khác nhau.
Các kiểu đồ thị Excel hỗ trợ:
Hình 5.3. Các kiểu đồ thị

o Column: biểu đồ cột.
o Line: biểu đồ đường.
o Pie: biểu đồ hình tròn và vành khuyên bị cắt.
o Bar: biểu đồ thanh.
o Area: biểu đồ vùng.
o XY(Scatter): biểu đồ phân tán.
…
Ví dụ: Trong một điều tra có 5 câu hỏi, mà mỗi câu đều có lựa chọn trả lời từ 1 đến 4 (1-
Rất không đồng ý, 2- Không đồng ý, 3- Đồng ý, 4- Rất đồng ý). Sau khi thu thập, dữ liệu được
mô tả trong Excel như sau.
Câu 1 Câu 2 Câu 3 Câu 4 Câu 5

1 15 20 25 30 30
2 25 35 20 15 35
3 25 15 35 35 20
4 35 30 20 20 15
Vẽ đồ thị kiểu Stacked Column (Insert → Chart → Column → Stacked Column), kết quả
như sau:
Trang 81

lOMoARcPSD|18200505
Hình 5.4. Đồ thị kiểu Stacked Column
Thống kê Tình huống 1-4

100%
90% 20 20 15
35 30
80%
20
70%
15 35 35
SỐ LƯỢT
60%
50% 25
35 4
40% 35 15
20
30% 25 3
20%
25 30 30 2
10% 15 20
0%
Câu 1 Câu 2 Câu 3 Câu 4 Câu 5 1
4 35 30 20 20 15
3 25 15 35 35 20
2 25 35 20 15 35
1 15 20 25 30 30
Hình 5.5. Đồ thị sau khi hiệu chỉnh

5.3.2. Hiệu chỉnh đồ thị
Excel hỗ trợ thẻ Chart Tools để hiệu chỉnh đồ thị với hai chức năng chính là: Design và
Format.
Trang 82

lOMoARcPSD|18200505
Hình 5.6. Thẻ Design

➔ Thẻ Design hỗ trợ các chức năng:
1. Add Chart Element: Thêm và hiệu chỉnh các thành phần trên đồ thị như: tiêu đề đồ
thị, tiêu đề trục, nhãn giá trị, chú giải, …
2. Quick Layout: Hiệu chỉnh cách bố trí các thành phần trong đồ thị.
3. Change Colors: Hiệu chỉnh màu sắc đồ thị.
4. Chart Styles: hiệu chỉnh kiểu dáng đồ thị.
5. Switch Row/Column: Hiệu chỉnh chuỗi hiển thị dữ liệu từ dòng sang cột và ngược lại.
6. Select Data: chọn vùng dữ liệu vẽ đồ thị.
7. Change Chart Type: Hiệu chỉnh kiểu/loại đồ thị.
8. Move Chart: Di chuyển đồ thị sang sheet khác.
➔ Thẻ Format hỗ trợ các chức năng:
Hình 5.7. Thẻ Format

1. Format Selection: Định dạng các thành phần được chọn trong đồ thị
2. Insert Shapes: Chèn các Shape vào đồ thị
3. Shape Style: định dạng kiểu/màu sắc đường viền, màu nền cho các shape trong đồ thị
4. WordArt Styles: Định dạng kiểu chữ trong đồ thị
5. Size: điều chỉnh kích cỡ đồ thị.
Trang 83

lOMoARcPSD|18200505
Có thể thực hiện theo cách khác: Chọn đồ thị, trên đồ thị xuất hiện các nút nắm tại 4
góc và giữa 4 cạnh Chart Area → rê chuột vào nút nắm khi con trỏ chuột xuất hiện
mũi tên hai chiều → nhấn giữ và kéo ra, kéo vào để phóng to hoặc thu nhỏ đồ thị (thao
tác tương tự như hiệu chỉnh kích thước hình ảnh).
5.4. Bảng tổng hợp

Bảng tổng hợp trong Excel có thể được tạo ra theo nhiều cách như đã giới thiệu ở các
chương 2, chương 3 và chương 4:
- Sắp xếp dữ liệu
- Trích lọc dữ liệu
- Dùng hàm trong Excel để tổng hợp, thống kê dữ liệu
- Lệnh SubTotal
- Lệnh Consolidate
- Lệnh PivotTable
Trang 84

lOMoARcPSD|18200505
 Lập bảng phân phối tần số:

- Dùng hàm FREQUENCY, cần lưu ý trước khi dùng hàm:
+ Lập vùng dữ liệu;
+ Lập vùng các giá trị khác nhau của dữ liệu;
- Vẽ biểu đồ tần suất Histgram:
+ Bước chuẩn bị (nếu để cho phần mềm tự động chia nhóm thì có thể bỏ qua
bước này)
• Tìm giá trị Max, Min, khoảng biến thiên R = Max – Min;
• Chọn số nhóm k;
• Tìm giá trị bước tăng h = R/k;
• Xác định giá trị cận dưới, cận trên và tính cột Bin.
+ Bước vẽ biểu đồ
• Thực hiện lệnh Data → Data Analysis → Histogram;
• Đưa các thông tin vào hộp thoại Histogram (Input Range, Bin
Range, Output Range, Chart Output, …)
 Lập bảng tính đặc trưng mẫu:
- Lập vùng dữ liệu;
- Thực hiện lệnh Data → Data Analysis → Descriptive Statistics;
- Các chỉ tiêu thống kê mô tả (định lượng):
+ Đo lường xu hướng trung tâm: trung bình (mean), trung vị (median), mode,
khoảng cách (range).
+ Đo lường tính biến thiên: phương sai (variance), độ lệch chuẩn (Standard
deviation), sai số chuẩn của giá trị trung bình (standard error of the mean,
s.e.).
+ Đo lường dạng hình của phân phối: độ nhọn (Kurtosis), Độ lệch
(Skewness).
 Ước lượng tham số trung bình cho biến ngẫu nhiên phân phối chuẩn:
- Lập vùng dữ liệu;
Trang 85

lOMoARcPSD|18200505
- Tính giá trị trung bình (Mean), một nửa khoảng tin cậy của giá trị trung bình theo
công thức (1), (2) hoặc (3) (có thể theo cách dùng hàm Confidence hoặc giá trị tại
Confidence Level (95%)).
 Vẽ đồ thị
- Vẽ đồ thị
- Hiệu chỉnh đồ thị
 Lập bảng tổng hợp
- Sắp xếp dữ liệu
- Trích lọc dữ liệu
- Dùng hàm trong Excel để tổng hợp, thống kê dữ liệu
- Lệnh SubTotal
- Lệnh Consolidate
- Lệnh PivotTable
Câu 1. Trình bày cú pháp, ý nghĩa hàm FREQUENCY? Trình bày các bước để lập bảng phân
phối tần số?
Câu 2. Trình bày các bước vẽ biểu đồ tần suất Histogram?
Câu 3. Trình bày thao tác tính đặc trưng mẫu? Các giá trị đặc trưng mẫu tìm được có ý nghĩa gì?
Câu 4. Trình bày các bước ước lượng trung bình tổng thể?
Câu 5. Công thức ước tính khoảng tin cậy trung bình tổng thể:
𝑆
• Cỡ mẫu lớn (n>=30): 𝑥̅ ± 𝑧∝/2 (2)
√𝑛
𝑆
• Cỡ mẫu nhỏ (n<30): 𝑥̅ ± 𝑡𝑛−1,∝/2 (3)
√𝑛
Giả sử các giá trị 𝑥̅ , 𝑠, √𝑛 là như nhau, thì công thức nào cho kết quả khoảng tin cậy rộng
hơn.
Câu 6. Trình bày thao tác hiệu chỉnh kiểu đồ thị, thêm vào số liệu trên đồ thị?
Câu 7. Bảng tổng hợp có thể tạo ra theo những cách nào?
Trang 86

lOMoARcPSD|18200505

1 Lập bảng phân phối tần số.
2 Lập bảng tính đặc trưng mẫu.
3 Ước lượng trung bình tổng thể.
4 Vẽ đồ thị.
5 Tạo bảng tổng hợp
Câu 1. Thực hành các ví dụ đặt ra trong phần lý thuyết.

Phần mở rộng: Trong bài ví dụ mục 5.1, nghiên cứu về tác dụng của thuốc A trên một nhóm
nghiên cứu gồm 30 bệnh nhân trong độ tuổi từ 18 đến 50 tuổi. Hãy lập bảng phân phối tần
số cho nhóm tuổi: 20; 21-30; 31-40; >40.
Hướng dẫn: Danh sách Bins_array lúc này sẽ như minh họa dưới, từ E10:E13.
Câu 2. Hãy thử điều tra về số tiền sinh hoạt hàng tháng của khoảng 30 sinh viên. Sau đó, tiến
hành ước lượng khoảng tin cậy của số tiền sinh hoạt hàng tháng của một sinh viên trong
lớp/trường với độ tin cậy 95%.
Câu 3. Hiệu chỉnh đồ thị trong phần lý thuyết như minh họa sau.
Trang 87

lOMoARcPSD|18200505
Thống kê Tình huống 1-4

100%
90% 20 20 15
35 30
80%
20
70%
SỐ LƯỢT
60% 15 35 35
50% 25
35 4
40% 35 15
20
30% 25 3
20%
25 30 30 2
10% 15 20
0%
Câu 1 Câu 2 Câu 3 Câu 4 Câu 5 1
4 35 30 20 20 15
3 25 15 35 35 20
2 25 35 20 15 35
1 15 20 25 30 30
Câu 4. Cho bảng dữ liệu từ chương 3, hãy tạo các bảng tổng hợp và đồ thị như minh họa sau
(bảng 1, bảng 2 và đồ thị dùng lệnh PivotTable, bảng 3 dùng lệnh SubTotal, bảng 4 dùng lệnh
Consolidate). Dùng lệnh Switch Row/Column để hiệu chỉnh đồ thị.
Bảng 1
Cửa hàng Nhân viên Năm Loại hàng Số lượng Sum of Số lượng
Số 1 Anh 2010 Mouse 26 Keyboard Mouse RAM Grand Total
Số 1 Anh 2012 Keyboard 15 Số 1 15 26 14 55
Số 1 Hoa 2013 RAM 14 Anh 15 26 41
Số 2 Anh 2010 Keyboard 16 Hoa 14 14
Số 2 Mai 2011 Mouse 12 Số 2 31 12 16 59
Số 2 Mai 2012 Keyboard 15 Anh 16 16
Số 2 Hương 2013 RAM 16 Hương 16 16
Số 3 Hoa 2013 Mouse 15 Mai 15 12 27
Số 3 Anh 2011 RAM 14 Số 3 12 15 14 41
Số 3 Hoa 2012 Keyboard 12 Anh 14 14
Hoa 12 15 27
Trang 88

lOMoARcPSD|18200505
Bảng 2 Đồ thị
Sum of Số lượng 80
Số 1 Số 2 Số 3 Grand Total 60
Số 3
Keyboard 15 31 12 58
40
Số 2
Mouse 26 12 15 53
20 Số 1
RAM 14 16 14 44
0
Keyboard Mouse RAM
Bảng 3 Bảng 4
Cửa Nhân Số
hàng viên Năm Loại hàng lượng
Số 2 Mai 2012 Keyboard 15
Số 3 Hoa 2012 Keyboard 12
Keyboard Total 58
Số 1 Anh 2010 Mouse 26
Số 2 Mai 2011 Mouse 12
Số 3 Hoa 2013 Mouse 15
Số lượng
Mouse Total 53
Số 1 Hoa 2013 RAM 14 Mouse 53
Số 2 Hương 2013 RAM 16 Keyboard 58
Số 3 Anh 2011 RAM 14 RAM 44
RAM Total 44
Grand Total 155
Câu 5. Hãy hiệu chỉnh đồ thị ở câu 4 thành các dạng đồ thị sau.
35
30
25
20 Số 1
15 Số 2
10 Số 3
5
0
Keyboard Mouse RAM
Trang 89

lOMoARcPSD|18200505
RAM
Số 3
Mouse
Số 2
Số 1
Keyboard
0 10 20 30 40
CHART TITLE
40
31
30 26
Số 1
20 15
12 12
15 14 16 14 Số 2
10
Số 3
0
Keyboard Mouse RAM
Trang 90

lOMoARcPSD|18200505
Chương 6.
KIỂM ĐỊNH TRUNG BÌNH TỔNG THỂ
Mục tiêu
Sau khi học xong bài này, sinh viên biết cách:
1. Kiểm định giả thuyết về trị trung bình của một tổng thể.
2. Kiểm định giả thuyết về sự bằng nhau giữa hai trung bình tổng thể.
3. Kiểm định giả thuyết sự bằng nhau giữa hai phương sai tổng thể.
4. Phân tích phương sai (ANOVA)
5. Đọc kết quả kiểm định
Bên cạnh mô tả, tóm tắt dữ liệu như đã trình bày ở bài trước, các dữ liệu thu thập được từ
mẫu còn dùng để đánh giá bác bỏ hay không bác bỏ giả thuyết đặt ra, gọi là kiểm định giả thuyết.
Nói cách khác, kiểm định giả thuyết là dựa vào các thông tin của mẫu để đưa ra kết luận bác bỏ
hay không bác bỏ giả thuyết về tổng thể. Việc không bác bỏ hay bác bỏ giả thuyết phải hiểu theo
nghĩa xác suất.
Có hai nhóm kiểm định: kiểm định tham số và kiểm định phi tham số. Kiểm định tham số
thường được sử dụng cho các biến định lượng có phân phối chuẩn, kiểm định phi tham số thường
được sử dụng cho các biến không phải là biến định lượng hoặc biến định lượng không có phân
phối chuẩn.
Nội dung chương này trình bày các kiểm định tham số về:
 Trung bình tổng thể

 Sự khác biệt của hai trung bình tổng thể
 Sự khác biệt của nhiều trung bình tổng thể (phân tích phương sai - ANOVA)
 Sự khác biệt phương sai của hai tổng thể
Nội dung bài học không đi sâu vào lý thuyết xác suất thống kê, mà thiên về huớng ứng
dụng đơn giản, dễ hiểu, kèm theo các ví dụ minh họa để sinh viên có thể thực hành các chức năng
xử lý, phân tích dữ liệu một cách nhanh chóng, thuận tiện.
Trang 91

lOMoARcPSD|18200505
6.1. Kiểm định giả thuyết
6.1.1. Giả thuyết không

Trong một kiểm định, cặp giả thuyết được đặt ra rất rõ ràng:
- Giả thuyết không, ký hiệu là H0 là giả thuyết sẽ được kiểm định, người ta còn gọi giả
thuyết này là giả thuyết của sự không khác biệt. Trong một kiểm định nhằm khẳng định sự khác
biệt giữa hai nhóm đối tượng thì mục đích của việc kiểm định là tìm ra bằng chứng để bác bỏ H0.
- Giả thuyết nghiên cứu, hoặc đối thuyết H1 là giả thuyết đối lập với giả thuyết không (tạo
thành cặp giả thuyết). Nếu H0 bị bác bỏ có nghĩa là H1 được chấp nhận.
6.1.2. Các loại sai lầm trong kiểm định giả thuyết
Sai lầm loại 1: Bác bỏ giả thuyết Ho trong khi giả thuyết Ho là đúng.
Sai lầm loại 2: Không bác bỏ giả thuyết Ho trong khi giả thuyết Ho sai.
Do vậy, khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết Ho, nhà nghiên cứu có thể
bị sai lầm (sai lầm loại một - với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ giả
thuyết H0, nhà nghiên cứu cũng có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào
đó).
Những quyết định dựa trên giả thuyết H0 được tóm tắt như sau:
Quyết định về giả Bản chất của H0

thuyết không (H0)
H0 đúng H0 sai
Không bác bỏ Quyết định đúng Sai lầm loại II
Probability =1 – α Probability = β
Bác bỏ Sai lầm loại I Quyết định đúng
Probability = α Probability = 1 - β
(α = mức ý nghĩa của kiểm định)
Tùy theo quan điểm và tính chất mà người ta cho rằng sai lầm loại 1 hoặc loại 2 là nghiêm
trọng hơn. Tuy nhiên, thông thường thì sai lầm loại 1 là nghiêm trọng hơn mà thống kê cần tránh.
6.1.3. Quy trình tổng quát trong kiểm định giả thuyết
Bước 1. Xây dựng giả thuyết
Để bắt đầu kiểm định giả thuyết, cần đưa ra giả định về một vài tham số tổng thể và sử
dụng dữ liệu mẫu để kiểm tra tính logic của giả định đó. Cần nhớ rằng sự thất bại trong việc loại
Trang 92

lOMoARcPSD|18200505
H0 không đồng nghĩa với việc đã chứng minh được H0 đúng, mà chỉ là không đủ bằng chứng
thống kê để loại bỏ mà thôi.
Bước 2. Chọn mức ý nghĩa mong muốn
Khả năng phạm sai lầm loại 1 như đã trình bày được gọi là mức ý nghĩa và được ký hiệu
là α. Trên thưc tế, có 3 mức ý nghĩa thường dùng nhất là 0.1, 0.05 và 0.01 tương ứng với độ tin
cậy là 0.90, 0.95, 0.99. Viêc lựa chọn α là bao nhiêu phụ thuộc vào tính chủ quan của người
nghiên cứu chấp nhận rủi ro ở mức nào. Có một vài ý có tính chất kinh nghiệm để tham khảo:
- Nếu nội dung nghiên cứu đòi hỏi độ chính xác cao thì nên chọn mức α nhỏ, thông thường
là 1%.
- Nếu nội dung nghiên cứu số liệu biến động lớn, thu thập thông tin khó chính xác thì nên
chọn α lớn, tuy nhiên không nên tăng α quá lớn sẽ làm tăng khả năng bị sai lầm loại 2 và thông
thường theo sự thống nhất chung của các nhà thống kê, mức ý nghĩa tối đa là 10%.
- Nếu không quá quan tâm quá nhiều đến mức ý nghĩa thì nên chọn theo mức thông thường
là 5%.
Bước 3. Tính trị số thống kê hay giá trị thực tế của kiểm định
Trong bước này, dựa vào các lý thuyết thống kê để lựa chọn công thức phù hợp để quy
phân phối mẫu về phân phối nào đó. Một số phân phối thường gặp là phân phối chuẩn, phân phối
Student, phân phối Chi bình phương, phân phối Fisher, … Giá trị thực tế của kiểm định là cơ sở
để quyết định không bác bỏ hay bác bỏ giả thuyết không.
Bước 4. Rút ra kết luận liên quan đến giả thuyết không
Tương ứng với mức ý nghĩa α và phân phối được xác định ở bước 3 sẽ tìm được giá trị lý
thuyết của kiểm định, thông thường là tra bảng hoặc sử dụng phần mềm máy tính để tìm được
(Zα, tdf,α, …). Tiếp theo, so sánh giá trị thực tế và giá trị lý thuyết của kiểm định để có kết luận
phù hợp với giả thuyết không.
Nếu như H0 bị bác bỏ, tức là H1 được chấp nhận, khi đó kết luận sẽ như giả thuyết H1.
Tuy nhiên, nếu H0 không bị bác bỏ, chúng ta không nhất thiết cho rằng H0 là đúng mà nên nói
rằng chưa đủ cơ sở để chấp nhận đối thuyết H1.
Bước 5. Kết luận (Diễn giải kết quả kiểm định)
Tùy thuộc vào nội dung nghiên cứu để đưa ra kết luận phù hợp với mục đích và yêu cầu
của vấn đề đặt ra.
Trang 93

lOMoARcPSD|18200505
6.2. Kiểm định trung bình tổng thể

Cho một mẫu ngẫu nhiên với n quan sát x1, x2, …, xn từ tổng thể X (phân phối chuẩn).
Gọi  và 2 lần lượt là trung bình và phương sai của tổng thể X; 𝑥̅ và s2 lần lượt là trung bình và
phương sai mẫu. Với mức ý nghĩa kiểm định  và giá trị cho trước là 0, để kiểm định giả thuyết
về trung bình tổng thể, cần phân biệt các trường hợp như sau.
 Kiểm định Z cho trường hợp:
- Đã biết phương sai tổng thể
- Chưa biết phương sai tổng thể (điều kiện cỡ mẫu lớn n≥30).
 Kiểm định t cho trường hợp:
Chưa biết phương sai tổng thể, cỡ mẫu nhỏ (n<30).
6.2.1. Kiểm định Z

Các bước kiểm định được trình bày cụ thể trong bảng sau. Nội dung trình bày tập trung
vào kiểm định hai phía.
Bảng 6. 1. Bảng kiểm định Z
Một phía phải Một phía trái Hai phía

1. Đặt giả thuyết H0:   0 H0:   0 H0:  = 0
H1:  > 0 H1:  < 0 H1:   0
2. Giá trị kiểm định 𝑧=
𝑥̅ −𝜇0
(dùng phương sai tổng thể)

⁄ 𝑛
√
𝑥̅ −𝜇
𝑧 = 𝑠 0 (dùng phương sai mẫu)
⁄ 𝑛
√
3. Quyết định bác bỏ H0 khi Z > Z Z < -Z |Z| > Z/2
Có thể trình bày lại nguyên tắc bác bỏ H0 trong kiểm định Z như sau.
- Bác bỏ H0 một phía nếu |Z| > Z

- Bác bỏ H0 hai phía nếu |Z| > Z/2
Trong đó, Z là giá trị kiểm định lý thuyết được tìm thấy trong bảng Z. Trong Excel, có
thể sử dụng hàm NORMSINV(1-/2) để tìm giá trị Z/2.
Xét ví dụ trong mục 5.3 về việc khảo sát số tiền sinh hoạt hàng tháng của sinh viên. Mục
tiêu ở đây là tiến hành kiểm định giả thuyết H0 nào đó, ví dụ trong trường hợp này sẽ kiểm định
giả thuyết là trị trung bình của biến Tien (tiền sinh hoạt) so với giá trị 2000 (đơn vị nghìn đồng).
Giả thuyết:
Trang 94

lOMoARcPSD|18200505
H0: μ = 2000
H1: μ ≠ 2000
Nhập dữ liệu: Nhập theo số liệu trong mục 5.3 vào bảng tính Excel
Đây là trường hợp kiểm định giả thuyết về trung bình tổng thể với mẫu lớn và chưa biết
phương sai tổng thể. Vì vậy, cần phải tìm phương sai mẫu (có thể bằng cách sử dụng lệnh trong
Excel) để thay thế cho phương sai tổng thể.
Bước 1. Chọn Tool, sau đó chọn Data Analysis, chọn Descriptive statistics, bảng kết
quả xuất hiện như sau.
Bảng 6.2. Bảng kết quả tính đặc trưng mẫu
Bước 2. Tính Z = (mean - 0 )/Standard Error = (𝑥̅ - 0 )/Standard Error

Standard Error = Standard Deviation/√𝑛 = 𝑆𝑥 /√𝑛
Z = (B10-2000)/B11= 0.02
Z/2 = Z0.025 = 1.96
Bước 3. Kết quả Z < Z/2 → không bác bỏ giả thuyết H0.
6.2.2. Kiểm định t

Kiểm định t được sử dụng cho trường hợp cỡ mẫu nhỏ, phân phối chuẩn. Các bước kiểm
định được trình bày cụ thể trong bảng sau. Nội dung trình bày tập trung vào kiểm định hai phía.
Trang 95

lOMoARcPSD|18200505
Bảng 6.3. Bảng kiểm định giả thuyết về trung bình tổng thể ( mẫu bé)

1. Đặt giả thuyết H0:   0 H0:   0 H0:  = 0
H1:  > 0 H1:  < 0 H1:   0
2. Giá trị kiểm định 𝑡=
𝑥̅ −𝜇0
𝑠
⁄ 𝑛
√
3. Quyết định bác bỏ H0 khi t > tn-1, t < -tn-1, |t| > tn-1,/2
Tương tự như đối với kiểm định Z, nhưng trường hợp này sử dụng kiểm định Student
(kiểm định t). Trong đó, tn-1, là giá trị kiểm định lý thuyết được tìm thấy trong bảng t. Trong
Excel, có thể sử dụng hàm TINV(, n-1) để tìm giá trị tn-1,/2. Có thể tóm tắt nguyên tắc bác bỏ
H0 như sau:
- Bác bỏ H0 một phía nếu |t| > tn-1,

- Bác bỏ H0 hai phía nếu |t| > tn-1,/2
-
Cú pháp hàm TINV: TINV(probability; deg_freedom)
Trong đó: Probability: xác suất của phân phối student
Deg_freedom: bậc tự do của phân phối student
Chú ý: Hàm TINV trong Excel được thiết kế cho kiểm định hai phía (two-tailed
test). Nói cách khác hàm TINV trả về giá trị t sao cho P(|X| >t) = probability. Vì vậy khi
sử dụng TINV để kiểm định hai phía, nhập tham số probability bằng mức ý nghĩa α. Khi
sử dụng kiểm định một phía (one-tailed test) nhập probability bằng hai lần mức ý nghĩa
α.
6.3. Kiểm định giả thuyết về sự bằng nhau giữa hai trung bình tổng thể
6.3.1. Kiểm định dựa trên phối hợp từng cặp

Kiểm định dựa trên phối hợp từng cặp thường được ứng dụng cho các nghiên cứu mà một
nhóm đối tượng được theo dõi theo thời gian (ví dụ, cùng một đối tượng được đo trước và sau
khi can thiệp). Giả định khi tiến hành kiểm định này là các giá trị chênh lệch (theo từng cặp quan
sát) là một mẫu ngẫu nhiên mà tổng thể của chúng có phân phối chuẩn.
Cho một mẫu ngẫu nhiên gồm n cặp quan sát (xi ,yi) từ hai tổng thể X, Y có phân phối
chuẩn, có trung bình lần lượt là x và y . Đặt 𝑑̅ và 𝑆𝑑 là trung bình và độ lệch chuẩn cho sự
Trang 96

lOMoARcPSD|18200505
khác nhau của n cặp (xi - yi). D0 là một giá trị cụ thể nào đó để kiểm định và kiểm định ở mức ý
nghĩa α, có ba trường hợp kiểm định tổng quát như bảng sau (đây là trường hợp tổng quát, thông
thường thì D0=0). Nội dung trình bày tập trung vào kiểm định hai phía.
Bảng 6. 4. Bảng kiểm định sự khác biệt của hai trung bình tổng thể
(dựa trên phối hợp từng cặp)

1. Đặt giả thuyết H0: x -y  D0 H0: x -y  D0 H0: x -y = D0
H1: x -y > D0 H1: x -y < D0 H1: x -y  D0
2. Giá trị kiểm định 𝑑̅ − 𝐷0
𝑡=
𝑆𝑑
⁄
√𝑛
3. Quyết định bác bỏ t > tn-1, t < -tn-1, |t| > tn-1,/2
H0 khi
Trong đó:
𝑛 𝑛 𝑛 2 𝑛 2 2
∑ 𝑑 ∑ (𝑥 −𝑦 ) ∑ (𝑑 −𝑑̅ ) ∑ 𝑑 −𝑛.𝑑̅
𝑑̅ = 𝑖=1 𝑖 = 𝑖=1 𝑖 𝑖 ; 𝑆𝑑2 = 𝑖=1 𝑖 = 𝑖=1 𝑖
𝑛 𝑛 𝑛−1 𝑛−1
Ví dụ, để nghiên cứu tác dụng của một loại thuốc ngủ, người ta cho 15 bệnh nhân
uống thuốc. Lần khác họ cũng cho bệnh nhân uống thuốc nhưng là thuốc giả (thuốc không
có tác dụng). Kết quả thí nghiệm như sau.
Bệnh nhân 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Số giờ ngủ
có thuốc 6 6.5 7 7.5 8.2 7 7.5 6.7 8.2 7.8 7 6 7.5 7.6 5.9
Số giờ ngủ
với thuốc giả 5 6 6.1 6.5 6 5.3 6 5.7 6.7 6 7 5 6 8 5
Giả sử hiệu số giờ ngủ của các bệnh nhân có phân phối chuẩn. Với mức ý nghĩa α=0.05,
hãy kết luận về ảnh hưởng của loại thuốc ngủ trên?
Dựa vào thông trên, giả thuyết được đặt ra như sau.
Giả thuyết H0: 1 = 2 “Thuốc ngủ trên không có tác dụng đến số giờ ngủ”
H1: 1 ≠ 2 “Thuốc ngủ trên có tác dụng đến số giờ ngủ”
Với n = 15, D0 = 0, α = 0.05

Nhập dữ liệu
Trang 97

lOMoARcPSD|18200505
Các bước thực hiện

Thay vì thực hiện các công thức như trong bảng 6.4 để tìm giá trị kiểm định t, người
dùng có thể sử dụng lệnh trong Excel để đưa ra giá trị kiểm định t. Các bước thực hiện như sau.
Bước 1. Vào thẻ Data, chọn Data Analysis, chọn t-Test: Paired Two Sample for Means,
hộp thoại xuất hiện như sau.
Hình 6.1. Hộp thoại t-Test: Paired Two Sample for Means
Bước 2. Đưa thông tin vào hộp thoại
 Variable 1 Range: chọn vùng xử lý của mẫu 1

 Variable 2 Range: chọn vùng xử lý của mẫu 2
 Hypthesized Mean Difference: giá trị D0 (=0)
 Labels: Vùng xử lý có nhãn (tên biến) không.
 Output Range: địa chỉ ô đầu tiên cho vùng xuất kết quả
Bước 3. Kích nút OK để xuất hiện bảng kết quả sau.
t-Test: Paired Two Sample for Means
Trang 98

lOMoARcPSD|18200505
Variable 1 Variable 2
Mean Trung bình mẫu 7.1 6
Variance Phương sai mẫu 0.6 0.7
Observations Số quan sát 15 15
Pearson Correlation Hệ số tương quan 0.6
Hypothesized Mean Giả thuyết về hiệu số trung bình
Difference 0
Df Bậc tư do (n-1) 14
t Stat Giá trị t thực nghiệm 6.1
P(T<=t) one-tail Giá trị P một phía 0
t Critical one-tail Giá trị t lý thuyết (một phía) 1.8
P(T<=t) two-tail Giá trị P hai phía 0
t Critical two-tail Giá trị t lý thuyết (hai phía) 2.1
Bước 4. Đọc kết quả và đưa ra kết luận.

Cách 1: Giá trị t có được: t = t Stat = 6.1 > tn-1,α/2 = 2.1 → bác bỏ H0
Cách 2: Giá trị P hai phía <0.05 → bác bỏ H0
Vậy loại thuốc trên có ảnh hưởng làm tăng số giờ ngủ trung bình.
6.3.2. Kiểm định dựa trên mẫu độc lập

Gọi nx, ny lần lượt là số quan sát của các mẫu ngẫu nhiên độc lập x1, x2, …, xn và y1, y2,
…, yn từ hai tổng thể X và Y có phân phối chuẩn. Gọi x và 𝜎𝑥2 lần lượt là trung bình và phương
sai của tổng thể X; y và 𝜎𝑦2 lần lượt là trung bình và phương sai của tổng thể Y. Các giá trị
trung bình mẫu lần lượt là 𝑥̅ và 𝑦̅, phương sai mẫu lần lượt là 𝑆𝑥2 và 𝑆𝑦2 . Với mức ý nghĩa kiểm
định , để kiểm định giả thuyết dựa trên hai mẫu độc lập, cần phải phân biệt các trường hợp như
sau.
 Kiểm định Z cho trường hợp:
- Đã biết phương sai tổng thể
- Chưa biết phương sai tổng thể, cỡ mẫu lớn (nx, ny  30).
 Kiểm định t cho trường hợp:
Chưa biết phương sai tổng thể, mẫu nhỏ (nx < 30 hoặc ny < 30)
Trang 99

lOMoARcPSD|18200505
6.3.2.1. Kiểm định Z

Các bước kiểm định được trình bày cụ thể trong bảng sau. Nội dung trình bày tập trung
vào kiểm định hai phía.
Bảng 6.5. Bảng kiểm định sự khác biệt của hai trung bình tổng thể (dựa trên mẫu độc lập)

H1: x -y > D0 H1: x -y < D0 H1: x -y  D0
2. Giá trị kiểm định 𝑍=
( 𝑥̅ −𝑦̅ )−𝐷0
(đã biết phương sai tổng thể)
2
𝜎2 𝜎
√ 𝑥+ 𝑦
𝑛𝑥 𝑛𝑦
( 𝑥̅ −𝑦̅ )−𝐷0
𝑍= (chưa biết phương sai tổng thể)
2
𝑆2 𝑆
√ 𝑥+ 𝑦
𝑛𝑥 𝑛𝑦
3. Quyết định bác bỏ Z > Z Z < -Z |Z| > Z/2

H0 khi
Ví dụ, Có số liệu về kết quả học tập của hai nhóm sinh viên, một nhóm sinh viên có đi
làm thêm trong quá trình học và một nhóm sinh viên không tham gia làm thêm trong quá trình
học. Kiểm định ở mức ý nghĩa 5% giả thuyết cho rằng kết quả học tập của sinh viên có đi làm
thêm trong quá trình học không khác so với các sinh viên không đi làm thêm.
SV làm thêm: 6; 6; 6; 6; 6; 6; 6; 6.5; 6.5; 6.5; 6.5; 6.5; 6.5; 7; 7; 7; 7; 7; 7; 7; 7.5; 7.5;
7.5; 7.5; 7.5; 7.5; 8; 8; 8; 8; 8;8;8;8.5;8.5;8.5;8.5
SV không làm thêm: 6; 6.5; 6.5; 6.5; 6.5; 6.5; 7; 7; 7; 7; 7; 7.5; 7.5; 7.5; 7.5; 7.5; 7.5; 8;
8; 8; 8; 8; 8; 8; 8.5; 8.5; 8.5; 8.5; 8.5; 8.5; 9; 9
Giả thuyết:
H0: μ1 = μ2 (điểm trung bình của sinh viên làm thêm bằng điểm trung bình của sinh viên
không làm thêm)
H1: μ1 ≠ μ2 (điểm trung bình của sinh viên làm thêm khác điểm trung bình của các sinh
viên làm thêm)
Để tiến hành kiểm định cần tính toán phương sai của hai dãy số liệu và thực hiện lệnh z-
Test để kiểm định. Sử dụng hàm VAR để tính phương sai.
Trang 100

lOMoARcPSD|18200505
Để tiến hành kiểm định giả thuyết về chênh lệch trung bình giữa hai tổng thể, Excel có
công cụ hỗ trợ được trình bày cụ thể theo các bước sau.
Bước 1. Chọn Tools, chọn Data Analysis.
Bước 2. Khi hộp thoại Data Analysis xuất hiện, chọn z-Test: Two Sample for Means,
và chọn OK.
Hình 6.2. Minh họa khai báo dữ liệu trong hộp thoại z-Test: Two Sample for Means
Bước 3. Khi hộp thoại z-Test: Two Samples for Means xuất hiện, điền thông tin như
sau.
- Variable 1 Range: Địa chỉ vùng dữ liệu thứ nhất
- Variable 2 Range: Địa chỉ vùng dữ liệu thứ hai
- Hypothesized Mean Difference: giá trị D0, trong trường hợp này là 0
- Variable 1 Variance: Phương sai mẫu 1
- Variable 2 Variance: Phương sai mẫu 2
- Labes: Sử dụng dòng đầu tiên trong vùng dữ liệu làm nhãn.
Trang 101

lOMoARcPSD|18200505
- Alpha: mức ý nghĩa α

- Output Range: vị trí để Excel xuất kết quả.
Bước 4. Chọn OK. Kết quả xuất hiện như hình sau.
Bảng 6.6. Bảng kết quả kiểm định điểm trung bình hai nhóm sinh viên (mẫu lớn)
z-Test: Two Sample for Means

Làm thêm Không làm thêm
Mean 7 7.636363636
Known Variance 0.531 0.661
Observations 33 33
Hypothesized Mean Difference 0
Z -3.348299
P(Z<=z) one-tail 0.0004065
z Critical one-tail 1.6448536
P(Z<=z) two-tail 0.0008131
z Critical two-tail 1.959964
Bước 5. Đọc kết quả và đưa ra kết luận.
Cách 1: Z= -3.348299 < - Z/2 = -Z Critical two-tail = -1.959964 → bác bỏ H0.
Cách 2: Giá trị P(Z<=z) two-tail < 0.05 → bác bỏ H0
Vậy kết quả học tập của các sinh viên không làm thêm khác với kết quả học tập của các
sinh viên có làm thêm ở mức ý nghĩa α=0.05. Kết luận rằng: việc đi làm thêm có ảnh hưởng đến
kết quả học tập của sinh viên (làm giảm kết quả học tập).
6.3.2.2. Kiểm định t

Điều kiện cả hai tổng thể X và Y đều có phân phối chuẩn, các bước kiểm định tương tự
như trên nhưng tiêu chuẩn kiểm định lúc này theo phân phối Student khi mẫu bé. Sau đây là bảng
kiểm định sự khác biệt của hai trung bình tổng thể (dựa trên mẫu độc lập) khi mẫu bé. Nội dung
trình bày tập trung vào kiểm định hai phía.
Trang 102

lOMoARcPSD|18200505
Bảng 6.7. Bảng kiểm định sự khác biệt của hai trung bình tổng thể (dựa trên mẫu độc lập) khi
mẫu bé (nx hoặc ny < 30), giả thiết phương sai bằng nhau

H1: x -y > D0 H1: x -y < D0 H1: x -y  D0
2. Giá trị kiểm ( 𝑥̅ −𝑦̅ )−𝐷0 (𝑛𝑥 −1).𝑆𝑥2 +(𝑛𝑦 −1).𝑆𝑦2
𝑡= , với 𝑆 2 =
định 1
√𝑆 2 (𝑛 +𝑛 )
1 𝑛𝑥 +𝑛𝑦 −2
𝑥 𝑦
3. Quyết định bác t > tnx+ny-2, t < -tnx+ny-2, |t| > tnx+ny-2,/2
bỏ H0 khi
Bảng 6.8. Bảng kiểm định sự khác biệt của hai trung bình tổng thể (dựa trên mẫu độc lập) khi
mẫu bé (nx hoặc ny < 30), giả thiết phương sai không bằng nhau

H1: x -y > D0 H1: x -y < D0 H1: x -y  D0
2
2. Giá trị kiểm ( 𝑥̅ −𝑦̅ )−𝐷0 (𝑆𝑥2 /𝑛𝑥 +𝑆𝑦2 /𝑛𝑦 )
định 𝑡= , Bậc tự do 𝑛 = 2 2
2 𝑠 2 (𝑆2 (𝑆2
𝑦 /𝑛𝑦 )
𝑠 𝑥 /𝑛𝑥 )
√( 𝑥 + 𝑦 ) +
𝑛𝑥 𝑛𝑦 𝑛𝑥 −1 𝑛𝑦 −1
3. Quyết định bác t > tn, t < -tn, |t| > tn,/2
bỏ H0 khi
Ví dụ, để so sánh thu nhập của sinh viên sau khi tốt nghiệp khối ngành Y với khối ngành
Dược, người ta điều tra ngẫu nhiên 15 sinh viên tốt nghiệp mỗi ngành vào công tác tại các doanh
nghiệp khác nhau. Số liệu về thu nhập của họ trong bảng sau (đơn vị tính triệu đồng /tháng)
Y 7 7.5 8 6 6.5 7 7 7.5 8 6 6.5 7 7 7.5 8

Dược 7 7 7.5 8 6.5 7 7.5 7.5 8 8.5 6.5 7 7.5 8 8
Giả sử rằng thu nhập của sinh viên cả hai ngành có phân phối chuẩn, ở mức ý nghĩa 5%
hãy kiểm định giả thuyết cho rằng thu nhập của người tốt nghiệp ngành Y không khác so với thu
nhập của người tốt nghiệp ngành Dược.
Giả thuyết:
H0: μ1=μ2 (thu nhập của sinh viên tốt nghiệp hai ngành là như nhau)
H1: μ1 ≠ μ2 (thu nhập của sinh viên tốt nghiệp hai ngành là khác nhau)
Trang 103

lOMoARcPSD|18200505
Excel có công cụ hỗ trợ để kiểm định cho trường hợp này, được trình bày cụ thể theo các
bước sau.
Bước 1. Chọn Tool, chọn Data Analysis.
Bước 2. Khi hộp thoại Data Analysis xuất hiện, chọn t-Test: Two-Sample Assuming
Equal Variances (giả sử hai mẫu có phương sai bằng nhau), tiếp theo kích OK.
Hình 6.3. Minh họa khai báo dữ liệu trong hộp thoại t-test
Bước 3. Khi hộp thoại t-Test: Two-Sample Assuming Equal Variances xuất hiện, đưa
thông tin vào hộp thoại như sau:
- Variable 1 Range: địa chỉ vùng dữ liệu 1
- Variable 2 Range: địa chỉ vùng dữ liệu 2
- Hypothesis mean difference: thông thường là 0 (nếu muốn kiểm định với một
giá trị khác, ví dụ như μ1-μ2=2, thì có thể điền giá trị 2 vào ô này)
- Labels: dòng trên cùng của hai cột dữ liệu (vùng 1, vùng 2) có phải là số liệu dùng
để tính toán hay là nhãn (tên biến)
- Alpha: mức ý nghĩa α (0.05 là mức vẫn thường được sử dụng)
- Output Range: địa chỉ để xuất kết quả
Bước 4. Bấm OK, bảng kết quả xuất hiện như sau.
Trang 104

lOMoARcPSD|18200505
Bảng 6.9. Kết quả kiểm định giả thuyết với t-Test: Two-Sample Assuming Equal Variances
t-Test: Two-Sample Assuming Equal Variances
Y Dược
Mean 7.1 7.43333
Variance 0.43571 0.35238
Observations 15 15
Pooled Variance 0.39405
Hypothesized Mean Difference 0
Df 28
t Stat -1.4542
P(T<=t) one-tail 0.0785
t Critical one-tail 1.70113
P(T<=t) two-tail 0.157
t Critical two-tail 2.04841
Bước 5. Đọc kết quả và đưa ra kết luận
Cách 1: t = t Stat = -1.4542>- tnA+nB-2,/2 = -t28,0.25= -t Critical two-tail = -2.04807
Cách 2: P(T<=t) two-tail > 0.05

Kết luận: không đủ cơ sở để kết luận rằng sinh viên ngành Y có thu nhập khác sinh viên
ngành Dược. Nghĩa là yếu tố ngành nghề không ảnh hưởng đến kết quả thu nhập.
Lưu ý: Nếu hai tổng thể có phương sai không bằng nhau, thực hiện lệnh t-Test: Two -
Samples Assuming Unequal Variances. Trong trường hợp này, cần thực hiện kiểm định phương
sai của hai tổng thể trước khi tiến hành kiểm định trung bình hai tổng thể.
6.4. Kiểm định phương sai của hai tổng thể

Chọn 2 mẫu ngẫu nhiên độc lập có nx, ny quan sát từ 2 tổng thể X, Y có phân phối chuẩn.
Giả định 𝑠𝑥2 > 𝑠𝑦2 , giả thuyết đặt ra như sau:
𝐻0 : 𝜎𝑥2 = 𝜎𝑦2
{
𝐻1 : 𝜎𝑥2 > 𝜎𝑦2
𝑠2
Bác bỏ giả thuyết H0 nếu: 𝐹 = 𝑠𝑥2 > 𝐹𝑛𝑥 −1,𝑛𝑦 −1,𝛼
𝑦
Việc giả định 𝑠𝑥2 > 𝑠𝑦2 không làm mất tính tổng quát của bài toán, vì có thể chọn X làm
tổng thể có phương sai lớn.
Trở lại ví dụ về so sánh thu nhập của sinh viên tốt nghiệp khối ngành Y với sinh tốt nghiệp
khối ngành Dược. Ta có nx=15, ny=15, sx= √0.44 , sy= √0.35, α=5% (X: thu nhập sinh viên ngành
Trang 105

lOMoARcPSD|18200505
Y, Y: thu nhập sinh viên ngành Dược). Giả định X, Y có phân phối chuẩn, các bước thực hiện
với Excel như sau:
Bước 1. Vào thẻ Data, chọn Data Analysis, chọn F-Test Two-Sample for Variances.
Hình 6.4. Minh họa cách nhập dữ liệu trong hộp thoại F- Test Two-Sample for Variances
Bước 2. Hộp thoại xuất hiện, đưa vào các thông tin như mịnh họa trên. Nhấn OK.
Kết quả xuất hiện như sau.
Bảng 6.10. Kết quả kiểm định với lệnh F- Test Two-Sample for Variances
F-Test Two-Sample for Variances
Y Dược
Mean 7.1 7.433
Variance 0.436 0.352
Observations 15 15
Df 14 14
F 1.236
P(F<=f) one-tail 0.348
F Critical one-tail 2.484
Bước 3. Kết luận
Cách 1: Ftn (F thực nghiệm) = F = 1.236 < Flt (F lý thuyết) = F Critical one-tail =2.484 →
Không bác bỏ H0
Trang 106

lOMoARcPSD|18200505
Cách 2: P(F<=f) one-tail > 0.05 → Không bác bỏ H0

Như vậy, trong trường hợp này, sử dụng lệnh t-Test: Two-Sample Assuming Equal
Variances để kiểm định.
Lưu ý: Chọn vùng địa chỉ cho Variable 1 Range là vùng có phương sai lớn hơn.
6.5. Phân tích phương sai (ANOVA)

Phân tích phương sai (Analysis of Variance, gọi tắt là ANOVA) thực chất là bài toán kiểm
định về sự bằng nhau của nhiều trung bình tổng thể, từ đó đánh giá sự ảnh hưởng của yếu tố
cơ bản lên các giá trị trung bình. Bài toán này được gọi là phân tích phương sai bởi vì khi giải
quyết vấn đề này, phương pháp chủ yếu là dựa vào phân tích phương sai.
6.5.1. Phân tích phương sai một nhân tố

Phân tích phương sai một nhân tố là phân tích dựa trên sự ảnh hưởng của một nhân tố.
Giả thuyết có k nhóm quan sát được chọn ngẫu nhiên độc lập từ k tổng thể phân phối
chuẩn và phương sai bằng nhau, được trình bày như sau.
 Mô hình:
i j 1 2 … k
1 x11 x21 xk1
… … … …
n = nj x1n x2n xkn
𝑛
T1 T2 … Tn
∑ 𝑥𝑗𝑖 = 𝑇𝑗
𝑖=1
𝑇
𝑥̅𝑗 =𝑛𝑗 𝑥1
̅̅̅ 𝑥2
̅̅̅ 𝑥𝑛
̅̅̅
𝑗
𝑁 = ∑ 𝑛𝑗 ; 𝑇 = ∑ 𝑇𝑗
Trang 107

lOMoARcPSD|18200505
 Bảng ANOVA (Analysis of Variances):

Nguồn biến thiên Tổng bình Bậc tự do Trung bình bình Kiểm định F
(source of variantion) phương (sum (degrees of phương (mean
of squares) freedom – df) square
Giữa các nhóm SSB k–1 𝑆𝑆𝐵 𝑀𝑆𝐵
𝑀𝑆𝐵 = 𝐹=
(Between Groups) 𝑘−1 𝑀𝑆𝑊
Trong nội bộ nhóm SSW N–k 𝑆𝑆𝑊
𝑀𝑆𝑊 =
(Within Groups) 𝑁−𝑘
Tổng cộng (Total) SST N–1
- Tổng độ lệch bình phương được sinh ra bởi yếu tố cột:
𝑘
2 𝑇𝑗2 𝑇 2
𝑆𝑆𝐵 = ∑ 𝑛𝑗 (𝑥̅𝑗 − 𝑥̅ ) = ∑ −
𝑛𝑗 𝑁
𝐽=1
- Tổng độ lệch bình phương sai số:

𝑛𝑗
+ Tổng độ lệch bình phương từng cột: 𝑆𝑆𝑗 = ∑𝑖=1(𝑥𝑗𝑖 − 𝑥̅𝑗 )2
+ Tổng độ lệch bình phương của k cột: 𝑆𝑆𝑊 = ∑𝑘𝑗=1 𝑆𝑆𝑗
𝑛𝑗
- Tổng độ lệch bình phương chung: 𝑆𝑆𝑇 = ∑𝑘𝑗=1 ∑𝑖=1(𝑥𝑗𝑖 − 𝑥̅ )2
SST = SSW + SSB
 Giả thuyết thống kê:
H0 (1 = 2 = …= k): Các giá trị trung bình tương đương nhau.
H1: Có ít nhất 2 giá trị trung bình khác nhau.
 Giá trị kiểm định:

𝑀𝑆𝐵
𝐹𝑡𝑛 = 𝐹 = (𝐹𝑡𝑛 : 𝐹 𝑡ℎự𝑐 𝑛𝑔ℎ𝑖ệ𝑚)
𝑀𝑆𝑊
 Biện luận:
Ftn > Flt=F,k-1,N-k = Fcritical: bác bỏ giả thuyết H0 (Flt: F lý thuyết)
Xét ví dụ tiếp theo đây để làm rõ hơn về phân tích phương sai. Ví dụ hàm lượng alcaloid
(mg) trong một loại dược liệu được thu hái từ 3 vùng khác nhau được trình bày trong bảng sau:
Vùng 1 6.5 6.8 7.0 7.6 7.1 6.7
Vùng 2 5.7 6.0 5.9 6.1
Vùng 3 6.2 6.8 6.5 6.3 6.7
Hãy cho nhận xét về hàm lượng alcaloid theo vùng, với mức ý nghĩa =5%.
Trang 108

lOMoARcPSD|18200505
Có thể áp dụng các công thức trên để thực hiện kiểm định này, tuy nhiên điều này sẽ mất
khá nhiều thời gian, đặc biệt là khi số lượng quan sát lớn. Người dùng có thể sử dụng phần mềm
Excel để giải quyết rất đơn giản bằng lệnh Data → Data Analysis → Anova: Single Factor.
Để tiến hành các bước phân tích phương sai, đầu tiên phải nhập dữ liệu trên vào bảng tính
như minh họa sau.
Bảng 6.11. Bảng dữ liệu theo 3 vùng
Giả thuyết: có thể được trình bày theo một trong 3 cách sau:
H0: Hàm lượng alcaloid trung bình của các vùng giống nhau.
H0: 1= 2 = 3
H0: Hàm lượng alcaloid không phụ thuộc vào vùng.
Bước 1. Chọn Tool, chọn Data Analysis.
Bước 2. Khi cửa sổ Data Analysis xuất hiện, chọn Anova: Single Factor, tiếp theo kích
OK, hộp thoại xuất hiện như sau.
Hình 6.5. Hộp thoại Anove: Single Factor
Trang 109

lOMoARcPSD|18200505
Bước 3. Đưa vào các thông tin như hình minh họa.
- Input Range: địa chỉ vùng dữ liệu;
- Grouped By: dữ liệu được tổ chức theo cột (Columns) hay theo hàng (Rows);
- Labels in first column: Lấy cột đầu tiên làm nhãn (tiêu đề);
- Output Range: địa chỉ xuất kết quả
Bước 4. Kích nút OK. Kết quả cho ra như sau.
Bảng 6.12. Kết quả kiểm định với lệnh Anove: Single Factor
Bước 5. Đọc kết quả và đưa ra kết luận
Giá trị kiểm định: Ftn = F = 14.00554 > Flt = F crit =3.88529 → bác bỏ H0.
Vậy hàm lượng trung bình alcaloid khác nhau theo vùng. Nghĩa là yếu tố vùng có ảnh
hưởng đến hàm lượng alcaloid.
6.5.2. Phân tích phương sai hai nhân tố

Phân tích phương sai hai nhân tố là xét đến hai nhân tố ảnh hưởng đến hiện tượng nghiên
cứu.
a. Phân tích phương sai hai nhân tố không lặp

Trường hợp này tương ứng với sự tác động của yếu tốt cột và yếu tố hàng, chọn một quan
sát để phân tích. Đây là trường hợp mở rộng của phân tích phương sai một nhân tố, có nghĩa là
vừa kiểm định giả thuyết trung bình theo cột bằng nhau vừa kiểm định trung bình theo hàng bằng
nhau.
Trang 110

lOMoARcPSD|18200505
Kết quả chọn mẫu được lập thành bảng kết hợp 2 yếu tố như sau:
Yếu tố thứ hai Yếu tố thứ nhất (cột)

(hàng)
1 2 … K
1 x1,1 x2,1 … xk,1
… …
H x1,h x2,h … xk,h
Giả thuyết H0: - Trung bình của tổng thể theo chỉ tiêu cột bằng nhau,
- Trung bình của tổng thể theo chỉ tiêu hàng bằng nhau.
Ở đây, chỉ trình bày các bước kiểm định trong Excel với ví dụ minh họa như sau.
Ví dụ, chiết xuất chất X từ một loại dược liệu bằng 3 phương pháp và 5 loại dung môi,
kết quả như sau.
Dung môi (A) Phương pháp chiết xuất (B)

b1 b2 b3
a1 110 80 60
a2 120 70 55
a3 130 70 60
a4 150 60 65
a5 110 75 60
Hãy xét ảnh hưởng của phương pháp chiết xuất và dung môi đến kết quả chiết xuất chất
X với α=0.01.
Tiến hành kiểm định như sau.
Đặt giả thuyết H0:
- Trung bình của 3 phương pháp chiết xuất bằng nhau (chiết xuất chất X không phụ thuộc
vào phương pháp).
- Trung bình của 5 dung môi bằng nhau (chiết xuất chất X không phụ thuộc vào dung
môi).
Nhập số liệu vào Excel: Nhập số liệu, nếu vùng số liệu có tiêu đề thì phải có đủ cho cả
hàng và cột.
Các bước tiến hành kiểm định với Exel như sau.
Trang 111

lOMoARcPSD|18200505
Bước 1. Thực hiện lệnh Data → Data Analysis → Anova:Two-Factor Without

Replication.
Bước 2. Hộp thoại xuất hiện, đưa thông tin vào như sau.
Hình 6.6. Minh họa vùng số liệu và hộp thoại Anova:Two-Factor Without Replication
Bước 3. Chọn OK. Kết quả xuất hiện như sau.
Bảng 6.13. Kết qủa kiểm định với Anova:Two-Factor Without Replication
SUMMARY Count Sum Average Variance

a1 3 250 83.33333 633.3333
a2 3 245 81.66667 1158.333
a3 3 260 86.66667 1433.333
a4 3 275 91.66667 2558.333
a5 3 245 81.66667 658.3333
b1 5 620 124 280

b2 5 355 71 55
b3 5 300 60 12.5
ANOVA
Source of
Variation SS df MS F P-value F crit
Rows 216.6667 4 54.16667 0.369318 0.824288 3.837853
Columns 11710 2 5855 39.92045 6.88E-05 4.45897
Error 1173.333 8 146.6667
Total 13100 14
Để giải thích kết quả, có thể trình bày bài toán thành hai bài toán kiểm định như sau.
• Kiểm định theo cột:

(1). Giả thuyết: Chiết xuất chất X không phụ thuộc vào phương pháp.
Trang 112

lOMoARcPSD|18200505
(2). Quyết định: Ftn=F= 39.92 > Flt=Fcrit=4.46 (P-value=0.0000688 <α=0.05)  bác bỏ
H0
(3). Kết luận: Chiết xuất chất X phụ thuộc vào phương pháp.
• Kiểm định theo hàng:
(1). Giả thuyết: Chiết xuất chất X không phụ thuộc và dung môi
(2). Quyết định: Ftn=F= 0.369 < Flt=Fcrit=3.838 (P-value=0.824 >α=0.05)  Không bác
bỏ H0.
(3). Kết luận: Không đủ cơ sở để kết luận chiết xuất chất X phụ thuộc vào dung môi.
b. Phân tích phương sai hai nhân tố có lặp

Trong trường hợp này, tương ứng với mỗi yếu tố cột và yếu tố hàng, chọn nhiều quan sát
để phân tích (các thí nghiệm được lặp lại n lần, mỗi thí nghiệm cho một kết quả quan sát). Trong
bài toán này, ngoài việc kiểm định giả thuyết về trung bình theo cột bằng nhau, trung bình theo
hàng bằng nhau, ta còn xem xét sự tương tác giữa yếu tố hàng và yếu tố cột có ảnh hưởng đến
hiện tượng nghiên cứu hay không.
Kết quả chọn mẫu được lập thành bảng kết hợp 2 yếu tố như sau:
Yếu tố thứ hai Yếu tố thứ nhất (k cột)

(h hàng) 1 2 … k
1 x111 x211 … xk11
x112 x212 xk12
… … …
x11n x21n xk1n
… …
h x1h1 x2h1 … xkh1
x1h2 x2h2 xkh2
… … …
x1hn x2hn xkhn
Giả thuyết H0: - Trung bình của tổng thể theo chỉ tiêu cột bằng nhau,
- Trung bình của tổng thể theo chỉ tiêu hàng bằng nhau,
- Không có sự tương tác giữa yếu tố cột và hàng.
Trang 113

lOMoARcPSD|18200505
Ở đây, chỉ trình bày các bước kiểm định trong Excel với ví dụ minh họa như sau.
Ví dụ, hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái trong 2 mùa
(khô và mưa: trong mỗi mùa lấy mẫu 3 lần - đầu mùa, giữa mùa, cuối mùa) và từ 3 miền (Nam,
Trung, Bắc) thu được kết quả sau:
Mùa Thời điểm Miền

Nam Trung Bắc
Khô Đầu mùa 2.1 2.3 2.8
Giữa mùa 2.2 2.4 2.9
Cuối mùa 2.2 2.5 3.0
Mưa Đầu mùa 2.3 2.5 3.0
Giữa mùa 2.3 2.5 3.1
Cuối mùa 2.4 2.6 3.2
Hãy cho biết hàm lượng saponin có khác nhau theo mùa hay miền không? Nếu có thì 2
yếu tố mùa và miền có sự tương tác với nhau hay không? Chọn α = 0,05.
Tiến hành nhập số liệu vào Excel: Nhập số liệu cũng như phân tích phương sai hai nhân
tố không lặp nhưng phải nhập số liệu theo cột và phải có tiêu đề hàng, cột.
Các bước kiểm định với Excel được trình bày như sau.
Bước 1. Thực hiện lệnh Data → Data Analysis → Anova:Two-Factor With
Replication.
Bước 2. Hộp thoại Anova:Two-Factor With Replication xuất hiện, đưa thông tin vào
như minh họa sau.
Hình 6.7. Minh họa vùng số liệu và hộp thoại Anova: Two-Factor With Replication
Bước 3. Chọn OK. Kết quả xuất hiện như sau.
Trang 114

lOMoARcPSD|18200505
Bảng 6.14. Kết quả kiểm định với Anova: Two-Factor With Replication
Anova: Two-Factor With Replication
SUMMARY Nam Trung Bắc Total

Khô
Count 3 3 3 9
Sum 6.5 7.2 8.7 22.4
Average 2.166667 2.4 2.9 2.488889
Variance 0.003333 0.01 0.01 0.111111
Mưa
Count 3 3 3 9
Sum 7 7.6 9.3 23.9
Average 2.333333 2.533333 3.1 2.655556
Variance 0.003333 0.003333 0.01 0.122778
Total
Count 6 6 6
Sum 13.5 14.8 18
Average 2.25 2.466667 3
Variance 0.011 0.010667 0.02
ANOVA
Source of
Variation SS df MS F P-value F crit
Sample 0.125 1 0.125 18.75 0.000978 4.747225
Columns 1.787778 2 0.893889 134.0833 6.17E-09 3.885294
Interaction 0.003333 2 0.001667 0.25 0.782758 3.885294
Within 0.08 12 0.006667
Total 1.996111 17
Để giải thích kết quả, có thể trình bày bài toán này thành ba bài toán kiểm định như sau.
• Kiểm định theo cột:

(1). Giả thuyết: hàm lượng saponin như nhau giữa các miền.
(2). Quyết định: Ftn=F= 134.08 > Flt=Fcrit=3.89 (P-value=6.17E-09 <α=0.05) 
bác bỏ H0
Trang 115

lOMoARcPSD|18200505
(3). Kết luận: hàm lượng saponin khác nhau theo miền (có sự ảnh hưởng của yếu
tố miền đến hàm lượng saponin)
• Kiểm định theo hàng:
(1). Giả thuyết: hàm lượng saponin như nhau giữa các mùa.
(2). Quyết định: Ftn=F= 18.75 < Flt=Fcrit=4.75 (P-value=0.000978 <α=0.05)  Bác
bỏ H0.
(3). Kết luận: hàm lượng saponin khác nhau theo mùa (có sự ảnh hưởng của yếu
tố mùa đến hàm lượng saponin).
• Kiểm định về sự tương tác:

(1). Giả thuyết: Không có sự tương tác giữa yếu tố miền và mùa đến hàm lượng
saponin.
(2). Quyết định: Ftn=F= 0.25 < Flt=Fcrit=3.89 (P-value=0.78> α=0.05)  Không
bác bỏ H0.
(3). Kết luận: Không đủ cơ sở để kết luận có sự tương tác giữa mùa và miền đến
hàm lượng saponin.
6.6. Sử dụng SPSS để kiểm định trung bình tổng thể

Các phép kiểm định về trị trung bình của tổng thể đã được trình bày ở trên với thao tác
lệnh trong Excel. Mục này trình bày cách kiểm định với phần mềm SPSS cụ thể như sau.
• So sánh trị trung bình của một tổng thể với một giá trị cụ thể, thực hiện lệnh: vào
menu Analyze → Compare Means → One-Sample T Test.
• So sánh hai trị trung bình của hai nhóm tổng thể độc lập, thực hiện lệnh: vào menu
Analyze → Compare Means → Independent-Samples T Test.
• So sánh hai trị trung bình của hai nhóm tổng thể có sự tương đồng theo cặp (mỗi phần
tử quan sát trong tổng thể này có sự tương đồng theo cặp với một phần tử tổng thể bên
kia), thực hiện lệnh: vào menu Analyze → Compare Means → Paired-Samples T Test.
• So sánh trị trung bình của nhiều nhóm tổng thể độc lập, thực hiện lệnh: vào menu
Analyze → Compare Means → One-way ANOVA.
Trang 116

lOMoARcPSD|18200505
6.6.1. Kiểm định trung bình tổng thể so với một giá trị cho trước
Với file dữ liệu cnss tại chương 1, thực hiện kiểm định giả thuyết cho rằng trung bình cân
nặng sơ sinh (cnss) là 2500 gam, với độ tin cậy 95% (có thể tải file dữ liệu từ trang hỗ trợ học
tập trực tuyến của môn học).
Giả định rằng cnss (cân nặng sơ sinh) là có phân bố chuẩn, thực hiện thao tác như sau.
1. Vào menu Analyze → Compare Means → One-Sample Ttest
2. Chọn biến cnss đưa vào ô Test Variable(s) và nhập giá trị 2500 như minh họa sau.
3. Click nút lệnh Option để thiết lập độ tin cậy (giá trị mặc định là 95%).
4. Click OK để thực hiện lệnh
Hình 6.8. Cửa sổ lệnh One-Sample T Test

Kết quả như sau.
Bảng 6.15. Kết quả kiểm định với One-Sample T Test
One-Sample Statistics
N Mean Std. Deviation Std. Error Mean
cnss 26 2820,19 361,111 70,820
One-Sample Test
Test Value = 2500
95% Confidence Interval of the

Difference
t df Sig. (2-tailed) Mean Difference Lower Upper
cnss 4,521 25 ,000 320,192 174,34 466,05
Trang 117

lOMoARcPSD|18200505
Nếu Sig. (2-tailed) của kiểm định t < α (mức ý nghĩa), có sự phác biệt có ý nghĩa với giá
trị so sánh. Nếu Sig. (2-tailed) ≥ α (mức ý nghĩa), không có sự khác biệt có ý nghĩa với giá trị so
sánh.
Trong minh họa trên, sig. (2-tailed) < 0.05, có sự khác biệt có ý nghĩa về trung bình của
cnss với 2500g.
Kết luận: Cân nặng sơ sinh trung bình của trẻ không phải 2500 gam, với độ tin cậy 95%.
6.6.2. Kiểm định trung bình giữa hai nhóm độc lập
Với file dữ liệu cnss cũng tại chương 1, thực hiện kiểm định trung bình cân nặng sơ sinh
(cnss) của hai nhóm trẻ giới tính nam và nữ với độ tin cậy 95% (có thể tải file dữ liệu từ trang hỗ
trợ học tập trực tuyến của môn học).
Giả định rằng cnss (cân nặng sơ sinh) trên hai nhóm giới tính là có phân bố chuẩn, tiến
hành kiểm định t trên hai mẫu độc lập như sau.
1. Vào menu Analyze → Compare Means → Independent-samples T-test

2. Chọn biến định lượng cần kiểm định trị trung bình đưa vào khung Test Variable(s). Chọn
biến định tính chia số quan sát thành 2 nhóm mẫu để so sánh giữa 2 nhóm này với nhau
đưa vào khung Grouping Variable.
3. Click nút lệnh Option để thiết lập độ tin cậy (giá trị mặc định là 95%).
4. Chọn Define Groups… để nhập mã số của 2 nhóm. Click Continue để trở lại hộp thoại
chính → Click OK để thực hiện lệnh
Hình 6.9. Cửa sổ lệnh Independent-Sample T Test
Trang 118

lOMoARcPSD|18200505
Trong kiểm định Independent-Samples T Test, cần có kiểm định sự bằng nhau của 2
phương sai tổng thể (kiểm định Levene). SPSS tự động thực hiện kiểm định này và cho kết quả
như sau.
Bảng 6. 16. Kết quả kiểm định với Independent-Sample T Test
Group Statistics
Gioi N Mean Std. Deviation Std. Error Mean
cnss Gai 16 2665.62 414.214 103.553
Trai 9 3022.22 516.667 172.222
Independent Samples Test
Levene's Test
for Equality of
Variances t-test for Equality of Means
95% Confidence Interval of the

Difference
Sig. (2- Mean Std. Error
F Sig. t df tailed) Difference Difference Lower Upper
cnss Equal
variances .121 .731 -1.891 23 .071 -356.597 188.537 -746.615 33.421
assumed
Equal
variances not -1.774 13.864 .098 -356.597 200.957 -788.005 74.811
assumed
Nếu giá trị Sig. trong kiểm định Levene (kiểm định F) < 0.05 thì phương sai của 2 tổng
thể khác nhau, sử dụng kết quả kiểm định t ở dòng Equal variances not assumed. Nếu Sig. ≥ 0.05
thì phương sai của 2 tổng thể không khác nhau, sử dụng kết quả kiểm định t ở dòng Equal
variances assumed.
Trong minh họa trên, Sig. của kiểm định F = 0.731 > 0.05, không bác bỏ giả thuyết H0
(không có sự khác nhau về phương sai của 2 tổng thể), sử dụng kết quả ở dòng Equal variances
assumed.
Nếu Sig.(2-tailed) trong kiểm định t < α (mức ý nghĩa), có sự phác biệt có ý nghĩa về
trung bình của 2 tổng thể. Nếu Sig.(2-tailed) ≥ α (mức ý nghĩa), không có sự khác biệt có ý nghĩa
về trung bình của 2 tổng thể.
Trang 119

lOMoARcPSD|18200505
Trong minh họa trên, Sig. (2-tailed) = 0.071 > 0.05, không có sự khác biệt có ý nghĩa về
trung bình của 2 tổng thể.
Hãy chuyển dữ liệu trên sang Excel, sắp xếp lại số liệu cho phù hợp để tiến hành kiểm
định cân nặng sơ sinh giữa hai nhóm giới tính nam và nữ. So sánh kết quả với kiểm định dùng
SPSS.
6.6.3. Kiểm định trung bình nhiều hơn hai nhóm
Với file dữ liệu cnss cũng tại chương 1, thực hiện kiểm định trung bình cân nặng trẻ sơ
sinh (cnss) theo nghề nghiệp của mẹ (có thể tải file dữ liệu từ trang hỗ trợ học tập trực tuyến của
môn học).
Lưu ý:
Đây là trường hợp phân tích phương sai một nhân tố. Cần lưu ý một số giả định đối với
phân tích phương sai một nhân tố như sau:
- Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên.
- Các nhóm so sánh phải có phân phối chuẩn
- Phương sai của các nhóm so sánh phải đồng nhất.
Thao tác thực hiện với SPSS như sau.
1. Từ menu Analyze → Compare Means → One-Way ANOVA, xuất hiện hộp thoại sau:
Hình 6.10. Cửa sổ One-Way ANOVA

2. Đưa biến định lượng (trị trung bình) vào khung Dependent list; Đưa biến phân loại
xác định các nhóm cần so sánh với nhau vào khung Factor.
Trang 120

lOMoARcPSD|18200505
3. Click vào nút Option để mở hộp thoại One-Way ANOVA Options. Trong hộp thoại
One-way ANOVA Options:
- Click chọn ô Descriptive để tính đại lượng thống kê mô tả (tính trị trung bình) theo
từng nhóm so sánh.
- Click chọn ô Homogeneity of variance test để kiểm định sự bằng nhau của các phương
sai nhóm (thực hiện kiểm định Levene).
Hình 6.11. Hộp tùy chọn Option

4. Click chọn Continue để trở lại hộp thoại ban đầu, tiếp tục nhấn OK để thực hiện lệnh.
5. Dựa vào kết quả kiểm định ANOVA, nếu không bác bỏ H0 thì kết luận không có sự
khác biệt có ý nghĩa giữa các nhóm với nhau. Nếu H0 bị bác bỏ → có sự khác biệt có
ý nghĩa giữa các nhóm → trở lại hộp thoại One – Way ANOVA để thực hiện kiểm
định sâu ANOVA nhằm xác định cụ thể trung bình của nhóm nào khác với nhóm nào,
nghĩa là tìm xem sự khác biệt của các nhóm xảy ra ở đâu.
6. Tuy nhiên có thể thực hiện kiểm định ANOVA và sâu ANOVA cùng lúc với nhau.
Dựa vào sự không bác bỏ hay bác bỏ giả thuyết H0 để quan tâm hay không quan tâm
đến kết quả kiểm định sâu ANOVA.
Phân tích sâu ANOVA – Xác định chỗ khác biệt

Có 2 phương pháp để phân tích sâu ANOVA, đó là kiểm định “trước” (kiểm định Priori
Contrasts) và kiểm định “sau” (kiểm định Post-Hoc test). Phương pháp kiểm định gần với phương
pháp nghiên cứu thực là Post-Hoc test. Nên ở đây sẽ sử dụng Post-Hoc test để thực hiện kiểm
định sâu ANOVA nhằm tìm ra chỗ khác biệt.
Trang 121

lOMoARcPSD|18200505
Các phương pháp kiểm định thống kê của Post-Hoc test thường được sử dụng:
- LSD: đây là phép kiểm định dùng kiểm định t lần lượt cho từng cặp trung bình nhóm,
do vậy nhược điểm của nó là độ tin cậy không cao vì làm gia tăng mức độ phạm sai
lầm tương ứng với việc so sánh nhiều nhóm cùng một lúc.
- Bonferroni: giống quy tắc của LSD nhưng điều chỉnh được mức ý nghĩa khi tiến hành
so sánh bội dựa trên số lần tiến hành so sánh. Đây là một trong những thủ tục kiểm
định đơn giản nhất và hay được sử dụng cho mục tiêu này.
- Tukey: cũng được sử dụng phổ biến cho việc tìm kiếm các trung bình các nhóm khác
biệt. Nó sử dụng bảng phân phối Studentizze range distribution. Tukey hiệu quả hơn
Bonferroni khi số lượng các cặp trung bình cần so sánh khá nhiều.
- R-E-G-W: thực hiện 2 bước kiểm định, đầu tiên tiến hành kiểm định lại toàn bộ các
giá trị trung bình nhóm xem có bằng nhau không; nếu không bằng thì bước kế tiếp nó
sẽ kiểm định để tìm các nhóm nào khác biệt thật sự với nhau về trị trung bình. Nhưng
kiểm định này không phù hợp khi kích cỡ các nhóm mẫu không bằng nhau.
- Dunnett: là thủ tục cho phép chọn so sánh các trị trung bình của các nhóm mẫu còn
lại với trị trung bình của một nhóm mẫu cụ thể nào đó được chọn ra so sánh (nhóm
điều khiển), SPSS mặc định chọn nhóm cuối (last) để làm nhóm điều khiển.
Sử dụng kiểm định nào là tuỳ thuộc vào mục đích của nhà nghiên cứu và tình hình thực
tế nghiên cứu. Minh họa sau đây dùng kiểm định LSD cho trường hợp phương sai bằng nhau và
kiểm định Dunnett’s T3 cho trường hợp phương sai không bằng nhau.
Trang 122

lOMoARcPSD|18200505
Hình 6.12. Phân tích sâu ANOVA

Đọc kết quả phân tích phương sai
1. Bảng đầu tiên thể hiện các đại lượng thống kê mô tả
Descriptives
Cnss
95% Confidence
Interval for Mean
Std. Lower Upper

N Mean Deviation Std. Error Bound Bound Minimum Maximum
nong dan 330 3008.71 401.245 22.088 2965.26 3052.16 1700 4300
cong nhan 110 2989.55 412.093 39.292 2911.67 3067.42 1800 4350
tho may 22 2956.82 470.131 100.232 2748.37 3165.26 1700 3500
buon ban 23 3100.00 371.116 77.383 2939.52 3260.48 2400 4000
Cnv 85 3070.59 368.256 39.943 2991.16 3150.02 2100 3800
nghe khac 131 3047.33 393.178 34.352 2979.37 3115.29 2000 4000
Total 701 3021.79 398.802 15.063 2992.22 3051.36 1700 4350
2. Bảng thứ 2 thể hiện kết quả kiểm định Levene. Ở đây, Sig. = 0.930 > mức ý nghĩa 0.05
→ không bác bỏ giả thuyết H0 → phương sai các nhóm không khác nhau → sử dụng kết
quả phân tích ANOVA ở bảng tiếp theo.
Trang 123

lOMoARcPSD|18200505
Test of Homogeneity of Variances
Cnss
Levene Statistic df1 df2 Sig.
.270 5 695 .930
3. Bảng thứ 3 thể hiện kết quả kiểm định ANOVA. Ở đây, sig. = 0.501 > mức ý nghĩa 0.05
→ không bác bỏ giả thuyết H0 → không có sự khác biệt có ý nghĩa về giá trị trung bình
của cân nặng sơ sinh của các nhóm nghề nghiệp của mẹ.
ANOVA
Cnss
Sum of Squares df Mean Square F Sig.
Between Groups 692210.503 5 138442.101 .870 .501
Within Groups 1.106E8 695 159191.464
Total 1.113E8 700
4. Bảng thứ 4 thể hiện kết quả kiểm định sâu ANOVA (dùng kiểm định LSD) để kiểm tra
sự khác biệt theo hai nhóm (từng đôi một). Tuy nhiên, trong trường hợp này, bảng thứ 4
không cần thiết nữa, bởi vì kết quả tại bảng thứ 3 cho biết rằng không có sự khác biệt giá
trị trung bình giữa các nhóm.
Trang 124

lOMoARcPSD|18200505
Multiple Comparisons
Dependent Variable:cnss
(I) nghe (J) nghe Mean 95% Confidence Interval
nghiep cua nghiep cua Difference
me me (I-J) Std. Error Sig. Lower Bound Upper Bound
LSD nong dan cong nhan 19.167 43.927 .663 -67.08 105.41
tho may 51.894 87.854 .555 -120.60 224.39
buon ban -91.288 86.045 .289 -260.23 77.65
Cnv -61.876 48.531 .203 -157.16 33.41
nghe khac -38.616 41.202 .349 -119.51 42.28
cong nhan nong dan -19.167 43.927 .663 -105.41 67.08
tho may 32.727 93.184 .726 -150.23 215.68
buon ban -110.455 91.480 .228 -290.06 69.16
Cnv -81.043 57.620 .160 -194.17 32.09
nghe khac -57.783 51.598 .263 -159.09 43.52
tho may nong dan -51.894 87.854 .555 -224.39 120.60
cong nhan -32.727 93.184 .726 -215.68 150.23
buon ban -143.182 118.985 .229 -376.79 90.43
Cnv -113.770 95.440 .234 -301.16 73.62
nghe khac -90.510 91.930 .325 -271.00 89.98
buon ban nong dan 91.288 86.045 .289 -77.65 260.23
cong nhan 110.455 91.480 .228 -69.16 290.06
tho may 143.182 118.985 .229 -90.43 376.79
Cnv 29.412 93.777 .754 -154.71 213.53
nghe khac 52.672 90.203 .559 -124.43 229.77
cnv nong dan 61.876 48.531 .203 -33.41 157.16
cong nhan 81.043 57.620 .160 -32.09 194.17
tho may 113.770 95.440 .234 -73.62 301.16
buon ban -29.412 93.777 .754 -213.53 154.71
nghe khac 23.260 55.570 .676 -85.85 132.37
nghe khac nong dan 38.616 41.202 .349 -42.28 119.51
cong nhan 57.783 51.598 .263 -43.52 159.09
tho may 90.510 91.930 .325 -89.98 271.00
buon ban -52.672 90.203 .559 -229.77 124.43
Cnv -23.260 55.570 .676 -132.37 85.85
Cnv -23.260 52.683 1.000 -179.39 132.87
Có thể đọc kết quả bảng 4 như sau: Dựa vào kết quả kiểm định LSD này, không thấy có
sự khác biệt giữa hai nhóm bất kỳ (tất cả các giá trị tại .sig đều lớn hơn 0.05).
Trang 125

lOMoARcPSD|18200505
CÁC TRƯỜNG HỢP KIỂM ĐỊNH TRUNG BÌNH
1 MẪU 2 MẪU >=3 MẪU

Hai mẫu độc lập
Lớn Nhỏ Theo cặp
Lớn Nhỏ
t-Test:
Z t Paired … Z Phương sai = Phương sai  ANOVA
t-Test: Equal t-Test: Unequal

Variances Variances
 Kiểm định giả thuyết về trung bình tổng thể

- Giả định: Tổng thể có phần phối chuẩn
- Đặt giả thuyết H0:  = 0
- Mức ý nghĩa =?
- Mẫu lớn (n>30) hoặc khi mẫu nhỏ và đã biết phương sai tổng thể:
+ dùng kiểm định Z
+ Quyết định bác bỏ H0 khi |Z| > Z/2
- Mẫu nhỏ (n <30), chưa biết phương sai tổng thể:
+ dùng kiểm định t
+ Quyết định bác bỏ H0 khi |t| > tn-1,/2
 Kiểm định sự bằng nhau của hai trung bình tổng thể
- Kiểm định dựa trên phối hợp từng cặp
+ Giả định: tổng thể sự khác biệt có phân phối chuẩn
+ Đặt giả thuyết H0 : x = y
+ Dùng kiểm định t;
+ Quyết định bác bỏ H0 khi |t| > tn-1,/2 (hoặc P-value < α; Giaù trò p (P-value)
laø möùc yù nghóa α nhoû nhaát maø taïi ñoù giaû thuyeát H0 baét ñaàu bò baùc boû;
trong SPSS, P-value được ghi là Sig.)
Trang 126

lOMoARcPSD|18200505
+ Dùng lệnh Data → Data Analysis → t-Test: Paired Two Sample for
Means;
- Kiểm định dựa trên mẫu độc lập, mẫu lớn
+ Giả định: tổng thể có phân phối chuẩn
+ Đặt giả thuyết H0: x = y
+ Dùng kiểm định Z;
+ Quyết định bác bỏ H0 khi |Z| > Z/2 (hoặc P-value < α)
+ Dùng lệnh Data → Data Analysis → z-Test: Two Sample for Means
- Kiểm định dựa trên mẫu độc lập, mẫu bé (giả thiết tổng thể có hai phương sai bằng
nhau).
+ Quyết định bác bỏ H0 khi |t| > tnx+ny-2,/2 (hoặc P-value < α)
+ Dùng lệnh Data → Data Analysis → t-Test: Two-Sample Assuming
Equal Variances
- Kiểm định dựa trên mẫu độc lập, mẫu bé (giả thiết tổng thể có hai phương sai
không bằng nhau).
+ Quyết định bác bỏ H0 khi |t| = |t Stat| > tlt = t Critical two-tail (hoặc P-
value < α)
+ Dùng lệnh Data → Data Analysis → t-Test: Two - Samples Assuming
Unequal Variances
 Kiểm định phương sai của hai tổng thể
- Giả định:
+ Tổng thể có phân phối chuẩn
𝐻0 : 𝜎𝑥2 = 𝜎𝑦2
+ 𝑠𝑥2 > 𝑠𝑦2 , giả thuyết đặt ra: {
𝐻1 : 𝜎𝑥2 > 𝜎𝑦2
- Dùng kiểm định F;
Trang 127

lOMoARcPSD|18200505
𝑠2
- Bác bỏ giả thuyết H0 nếu: 𝐹 = 𝑠𝑥2 > 𝐹𝑛𝑥 −1,𝑛𝑦 −1,𝛼 (hoặc P-value < α)
𝑦
- Dùng lệnh Data → Data Analysis → F-Test Two-Sample for Variances.

 Phân tích phương sai (kiểm định sự khác biệt của nhiều trung bình tổng thể)
- Giả định: tổng thể có phân phối chuẩn, phương sai bằng nhau.
- Đặt giả thuyết H0 : 1 = 2 = …= k
- Dùng kiểm định F;
- Quyết định bác bỏ H0 khi Ftn > Flt=F,k-1,N-k = Fcritical (hoặc P-value < α)
- Phân tích phương sai một nhân tố
Dùng lệnh Data → Data Analysis → Anova: Single Factor
- Phân tích phương sai hai nhân tố

+ Trường hợp phân tích phương sai hai nhân tố không lặp
Dùng lệnh: Data → Data Analysis → Anova:Two-Factor Without
Replication
+ Trường hợp phân tích phương sai hai nhân tố có lặp

Dùng lệnh: Data → Data Analysis → Anova:Two-Factor With Replication
 Kiểm định trung bình tổng thể với SPSS
CÁC TRƯỜNG HỢP KIỂM ĐỊNH TRUNG BÌNH VỚI SPSS

>=3 MẪU
2 MẪU
1 MẪU
Theo cặp
Hai mẫu độc lập
One-way
One-Sample T Test Paired-Samples T Test Independent-Samples T Test ANOVA
− Kiểm định trung bình của một tổng thể với một giá trị cụ thể, dùng lệnh: Analyze →
Compare Means → One-Sample T Test.
− Kiểm định trung bình của hai nhóm tổng thể độc lập, dùng lệnh: Analyze → Compare
Means → Independent-Samples T Test.
− Kiểm định trung bình của hai nhóm tổng thể có sự tương đồng theo cặp, dùng lệnh:
vào menu Analyze → Compare Means → Paired-Samples T Test.
− Kiểm định trung bình của nhiều nhóm tổng thể độc lập, dùng lệnh: vào menu Analyze
→ Compare Means → One-way ANOVA.
Trang 128

lOMoARcPSD|18200505

Câu 1. Kiểm định giả thuyết về trung bình tổng thể gồm có những trường hợp cụ thể nào? Trình
bày các bước để kiểm định giả thuyết về trung bình tổng thể cho từng trường hợp.
Câu 2. Kiểm định sự khác biệt của hai trung bình tổng thể gồm những trường hợp nào? Trình bày
các bước để kiểm định sự khác biệt về trung bình tổng thể cho từng trường hợp.
Câu 3. Phân tích phương sai là gì? Có mấy trường hợp phân tích phương sai? Trình bày các bước
phân tích phương sai theo từng trường hợp để kiểm định sự khác nhau của nhiều trung bình
tổng thể?
1 Kiểm định giả thuyết về trị trung bình của một tổng thể.
2 Kiểm định giả thuyết về sự bằng nhau giữa hai trung bình
tổng thể.
3 Kiểm định giả thuyết sự bằng nhau giữa hai phương sai tổng
thể.
4 Phân tích phương sai (ANOVA)
5 Đọc kết quả kiểm định
6 Sử dụng SPSS để kiểm định trung bình tổng thể
Sinh viên cần lưu ý trước khi thực hành:

1. Đây là kiểm định gì ?
a. Trung bình tổng thể (một mẫu, hai mẫu, nhiều mẫu); kiểm định trong trường hợp
nào (mẫu lớn, mẫu bé, …)
b. Kiểm định phương sai
2. Tiến hành kiểm định?
a. Giả thuyết H0 là gì?
b. Mức ý nghĩa α là bao nhiêu?
Trang 129

lOMoARcPSD|18200505
c. Đọc kết quả như thế nào? Bác bỏ hay không bác bỏ H0? Nên trao đổi cách đọc
kết quả với các bạn để kiểm tra xem kết quả mình đưa ra đã chính xác chưa.
3. Kết luận vấn đề dựa vào kết quả đã đọc được (ví dụ, kết luận có sự ảnh hưởng của yếu
tố… đến đối tượng nghiên cứu…).
Câu 1. Thực hành các ví dụ nêu trong phần lý thuyết.

Câu 2. Tự lập bảng số liệu bất kỳ rồi tiến hành kiểm định sự khác biệt của hai trung bình tổng
thể. Ví dụ nhập điểm tổng kết môn học cho sinh viên hai lớp rồi tiến hành kiểm định. Chú ý
phân biệt hai trường hợp là mẫu lớn và mẫu nhỏ. Cho biết kết quả kiểm định sự khác biệt hai
trung bình tổng thể.
Câu 3. Trung tâm chẩn đoán y khoa A thông báo trên phiếu hẹn với khách hàng là thời gian trả
kết quả xét nghiệm là 120 phút sau khi trung tâm nhận mẫu xét nghiệm của khách hàng. Để
kiểm định, người ta chọn ngẫu nhiên 30 lượt bệnh nhân đến xét nghiệm, thời gian khách hàng
nhận kết quả sau khi được lấy máu là (với điều kiện máy móc, nhân sự hoạt động bình thường):
STT bệnh nhân 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Phút 103 104 102 100 91 10 22 97 91 88 106 98 98 99 97
STT bệnh nhân 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Phút 94 87 35 55 70 89 89 88 103 86 82 83 36 42 81
a. Cho biết rằng thời gian trả kết quả xét nghiệm có phân phối chuẩn, với mức ý nghĩa 1%
có đủ cơ sở kết luận thông báo trên phiếu hẹn với khách hàng của Trung tâm là đáng tin cậy
không ?
b. Ước lượng thời gian trung bình trả kết quả xét nghiệm của trung tâm trên với độ tin cậy
95%.
Câu 4. Bài toán so sánh hai trung bình với phương sai đã biết (hoặc mẫu lớn).
Nhà máy A muốn khảo sát khả năng hoàn thành công việc của hai lô máy I và II có giống
nhau hay không. Người ta chọn 2 mẫu, mỗi mẫu 10 máy, từ hai lô (I và II được sản xuất với
phương sai biết trước tương ứng là 1 và 0.97) để khảo sát thời gian hoàn thành công việc
(phút) của chúng:
I 6 7 9 10 6 15 12 11 13 14
II 5 4 6 3 9 6 12 15 17 14
Trang 130

lOMoARcPSD|18200505
Hỏi khả năng hoàn thành công việc của hai máy có khác nhau hay không? Giả thiết thời gian
hoàn thành công việc của hai lô máy I và II có phân phối chuẩn. α =0.05
Giả thuyết H0: a1=a2 “Khả năng hoàn thành công việc của 2 máy như nhau”
H1: a1≠a2 “Khả năng hoàn thành công việc của 2 máy khác nhau”
Nhập và xử lý dữ liệu
• Variable 1 Range, Variable 2 Range: địa chỉ tuyệt đối của vùng dữ liệu của I, II
• Variable 1 Variance (known), Variable 2 Variance (known): phương sai của I,II
• Labels: chọn khi có tên biến ở đầu cột hoặc hàng
• Alpha: mức ý nghĩa α
• Output options: chọn cách xuất kết quả
Kết quả:
z-Test: Two Sample for Means
Variable 1 Variable 2
Mean 10.3 9.1  Trung bình mẫu
Known Variance 1 0.97  Phương sai đã biết
Observations 10 10  Số quan sát
Hypothesized Mean  Giả thuyết về hiệu số trung bình
Difference 0
Z 2.70363545  Tiêu chuẩn kiểm định
Trang 131

lOMoARcPSD|18200505
P(Z<=z) one-tail 0.00342927  Giá trị P một phía

z Critical one-tail 1.64485363  Giá trị z lý thuyết (một phía)
P(Z<=z) two-tail 0.00685855  Giá trị P hai phía
z Critical two-tail 1.95996398  Giá trị z lý thuyết (hai phía)
 |z| = 2.70363545 >zα/2=1.95996398 nên bác bỏ H0, chấp nhận H1
Vậy: “Khả năng hoàn thành công việc của 2 máy khác nhau”
Câu 5. Bài toán so sánh hai trung bình với mẫu bé

Thời gian tan rã (phút) của một loại viên bao từ 2 xí nghiệp dược phẩm (XNDP) khác
nhau được kiểm nghiệm như sau:
XNDP I 62 72 69 74 71 70 69 74
XNDP II 63 71 65 66 71 72 68 74
Hỏi thời gian tan rã của viên bao thuộc hai XNDP có giống nhau không? α =0.05
Câu 6. Bài toán về kết quả tăng trọng lượng với các loại thuốc bổ
So sánh 3 loại thuốc bổ A, B, C trên 3 nhóm, người ta được kết quả tăng trọng (kg) như
sau:
A: 1.0 1.2 1.4 1.1 0.8 0.6
B: 2.0 1.8 1.9 1.2 1.4 1.0 1.5 1.8
C: 0.4 0.6 0.7 0.2 0.3 0.1 0.2
Hãy so sánh kết quả tăng trọng của 3 loại thuốc bổ trên với a= 0.01
Câu 7. Bài toán về hiệu quả giảm đau với các loại thuốc khác nhau
So sánh hiệu quả giảm đau của 4 loại thuốc A, B, C, D bằng cách chia 20 bệnh nhân
thành 4 nhóm, mỗi nhóm dùng một loại thuốc giảm đau trên. Kết quả mức độ giảm đau là:
A: 82 89 77 72 92
B: 80 70 72 90 68
C: 77 69 67 65 57
D: 65 75 67 55 63
Hỏi hiệu quả giảm đau của 4 loại thuốc có khác nhau không? Cho  = 0,05.
Câu 8. Ðiều tra mức tăng truởng chiều cao của 1 loại cây trồng theo loại đất trồng và loại phân
bón có kết quả:
Trang 132

lOMoARcPSD|18200505
Loại đất
1 2 3
Phân bón
5 4 3
A 5 4 4
6 4 3
6 5 4
B 7 6 5
7 5 4
Hỏi có sự khác nhau của mức tăng truởng chiều cao theo loại đất và loại phân bón với
=0.05 ?
Câu 9. Với file dữ liệu cnss.sav ở chương 1, để kiểm định giả thuyết và sự bằng nhau giữa trung
bình cnss 3 ngày và cnss 10 ngày thì dùng loại kiểm định nào? Hãy thực hiện kiểm định này trong
SPSS.
TÀI LIỆU THAM KHẢO
1. Lê Cự Linh (2005), Giáo trình thống kê Y tế công cộng, NXB Y học.

2. Mai Văn Nam (2011), Giáo trình Nguyên lý thống kê kinh tế, NXB Văn hóa thông tin.
3. Hoàng Trọng – Chu Nguyễn Mộng Ngọc (2008), Phân tích dữ liệu nghiên cứu với SPSS,
NXB Hồng Đức.
4. Nguyễn Văn Tuấn (2007), Phân tích số liệu và tạo biểu đồ bằng R, NXB Khoa học kỹ
thuật.
Trang 133

lOMoARcPSD|18200505
PHỤ LỤC
KIỂM ĐỊNH PHÂN PHỐI CHUẨN
SPSS hỗ trợ công cụ kiểm định Kolmogorov Smirnov để kiểm định về phân phối của một
bộ dữ liệu, bao gồm phân phối chuẩn, Poisson, nhị thức và phân phối mũ. Ví dụ, kiểm định giả
thuyết H0: Tổng thể của biến cnss tuân theo quy luật phân phối chuẩn. Các bước thực hiện như
sau:
Bước 1. Trên thanh công cụ, chọn Analyze → Nonparametric Tests → Legacy Dialogs
→ 1-Sample K-S
Bước 2. Đưa biến cần kiểm định phân phối vào ô Test Variable List, và chọn phân phối
muốn kiểm định trong ô Test Distribution.
Trang 134

lOMoARcPSD|18200505
Bước 3. Nhấn OK để nhận kết quả
One-Sample Kolmogorov-Smirnov Test
cnss
N 181
Normal Parametersa,b Mean 3004.01
Std. Deviation 407.415
Most Extreme Differences Absolute .078
Positive .078
Negative -.060
Kolmogorov-Smirnov Z 1.045
Asymp. Sig. (2-tailed) .225
a. Test distribution is Normal.

b. Calculated from data.
Với giá trị Sig. = 0.225, lớn hơn cả mức ý nghĩa 0.1 nên kết luận biến cnss tuân theo phân
phối chuẩn (không bác bỏ giả thuyết không).
Trang 135

Giáo Trình Tin Học

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Giáo Trình Tin Học

Uploaded by

Copyright:

Available Formats

lOMoARcPSD|18200505

GT TIN HOC UNG DUNG 2021 (Gui SV)

Khoa Y (Trường Đại học Y khoa Phạm Ngọc Thạch)

StuDocu is not sponsored or endorsed by any college or university

Chương 1.GIỚI THIỆU MỘT SỐ PHẦN MỀM XỬ LÝ THỐNG KÊ .............................. 1

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Chương 4.CÁC HÀM THỐNG KÊ .................................................................................. 57

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

GIỚI THIỆU MỘT SỐ PHẦN MỀM XỬ LÝ THỐNG KÊ

1.1. Giới thiệu phần mềm SPSS

1.1.1. Khởi động và thoát khỏi phần mềm SPSS

- Kích chuột vào biểu tượng close

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Hình 1.1. Mở tập tin Excel trong SPSS

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

1.1.2. Cửa số biến và cửa sổ dữ liệu

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Hình 1.3. Cửa sổ Data View

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Hình 1.4. Cửa số Variable View

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

- Số lượng con số hoặc chữ {Width}

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

1.1.3. Lệnh Recode (Mã hóa lại)

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Hình 1.6. Hộp thoại mã hóa biến thành biến khác

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Hình 1.10. Hộp thoại tính toán biến (Compute Variable)

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

1.1.5. Lệnh Frequencies

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

1.2. Giới thiệu phần mềm MS Excel

1.2.1. Nhập dữ liệu trong Excel

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Tên biến Số liệu

Hình 1.15. Cửa số dữ liệu trong Excel

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

1.2.3. Bộ công cụ Data Analysis ToolPak

Hình 1.16. Hình ảnh bộ công cụ Data Analysis

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

TÓM TẮT CHƯƠNG 1

CÂU HỎI ÔN TẬP CHƯƠNG 1

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

BÀI TẬP THỰC HÀNH CHƯƠNG 1

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

 Thực hiện thao tác mã hóa biến cho biến nghe

 Thực hiện thao tác mã hóa biến cho biến nhecan

 Thực hiện thao tác mã hóa biến cho biến gtinhtre

 Thực hiện thao tác mã hóa biến cho biến thieuthang

 Thực hiện thao tác mã hóa biến cho biến benhme

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

 Chuyển sang cửa sổ Data View và nhập dữ liệu như sau.

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

(Lưu ý chuyển đơn vị đo chiều cao từ cm sang m)

Downloaded by H?i Trung (linhtrunghaiforwork@gmail.com)

SẮP XẾP VÀ LỌC DỮ LIỆU

 Sắp xếp dữ liệu;