You are on page 1of 39

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA




BÁO CÁO BÀI TẬP LỚN


MÔN HỌC XÁC SUẤT THỐNG KÊ HỌC KỲ 222
ĐỀ TÀI 03
LỚP L03 – NHÓM 03 – HK222
GIẢNG VIÊN HƯỚNG DẪN: HOÀNG VĂN HÀ

STT Họ và tên MSSV Lớp/tổ Ngành học Ký tên


1 Lê Trát Minh 2013763 L03 Kỹ thuật Xây dựng
2 Đoàn Minh Quân 2114533 L03 Kỹ thuật Vật liệu
3 Phạm Mỹ Hoa 2013199 L03 Kỹ thuật Xây dựng
4 Nguyễn An Bình 2012694 L03
5 Đặng Quốc Nghị 2114192 L03
Thành phố Hồ Chí Minh – 2023
PHÂN CÔNG LÀM VIỆC
STT Họ và tên Nội dung Nhiệm vụ
1 Lê Trát Minh Nhóm trưởng Phân công công việc, thực hiện hoạt động 2
2 Đoàn Minh Quân 2114533 Thực hiện hoạt động 1
3 Phạm Mỹ Hoa 2013199 Thực hiện hoạt động 1
4 Nguyễn An Bình 2012694 Tạo powerpoint cho phần thuyết trình
5 Đặng Quốc Nghị 2114192 Tổng hợp word, thuyết trình

3
LỜI CÁM ƠN
Thống kê là một phần toán học của khoa học, gắn liền với tập hợp dữ liệu, phân tích, giải
thích hoặc thảo luận về một vấn đề nào đó, và trình bày dữ liệu hay là một nhánh của toán
học. Còn xác suất là độ đo của toán học để đo tính phi chắc chắn của khả năng xảy ra một
sự kiện (biến cố).
Xác xuất thống kê là nền tảng quan trọng của các mô hình học máy và phân tích dữ liệu.
Thống kê đóng vai trò là một công cụ quan trọng. Nó được sử dụng để hiểu hệ thống đo
lường biến động, kiểm soát quá trình (như trong kiểm soát quá trình thống kê hoặc thông
qua hệ thống), cho dữ liệu tóm tắt và đưa ra quyết định dựa trên dữ liệu.
Và đó cũng là lý do việc thực hiện Bài tập lớn mà thầy cô đã mang đến giúp sinh viên có
thể hiểu hơn và ứng dụng kiến thức đã học để phân tích các dữ liệu trong cuộc sống.
Trong suất quá trình học tập và thực hiện vừa qua, chúng em đã nhận được sự quan tâm,
dạy dỗ rất tận tình từ quý thầy cô bộ môn khoa Khoa học ứng dụng.
Đặc biệt, chúng em xin bày tỏ lòng biết ơn sâu sắc đến thầy – người thầy hướng dẫn:
Hoàng Văn Hà đã trang bị cho chúng em những kiến thức bổ ích cũng như những kỹ
năng cơ bản để có thể hoàn thành đề tài Bài tập lớn này.
Trong quá trình tiến hành thực hiện đề tài, có thể do kiến thức chuyên ngành còn nhiều
hạn chế nên sẽ tránh khỏi việc mắc những sai sót khi tìm hiểu, trình bày và đánh giá kết
quả. Chúng em rất mong nhận được sự quan tâm, đánh giá và góp ý của thầy cô bộ môn
để đề tài của chúng em đầy đủ và hoàn thiện hơn.
Xin chân thành cảm ơn!

4
MỤC LỤC
Phân công làm việc
Lời cám ơn
Danh sách hình vẽ
A. HOẠT ĐỘNG 1........................................................................................................2
I. Chú thích các biến....................................................................................................2

II. Giới thiệu bộ dữ liệu “AirQualityUCI”...................................................................2

III. Các bước thực hiện................................................................................................3

1. Đọc dữ liệu (Import data).....................................................................................3


2. Làm sạch dữ liệu (Data cleaning) ........................................................................4
3. Làm rõ dữ liệu (Data visualization)......................................................................4
4. Trình bày biểu đồ biểu đồ khám phá mối quan hệ giữa biến phụ thuộc và biến giải
thích/dự báo; tính ma trận hệ số tương quan giữa các biến trong tập dữ liệu. Nhận xét
..................................................................................................................................5
5. Xây dựng mô hình hồi quy.................................................................................13
6. Đánh giá sự tác động của các biến lên độ ẩm tương đối RH, thông qua các hệ số
hồi quy p-value tương ứng với các hệ sộ hồi quy ứng với các biến.......................19
7. Vẽ đồ thị sai số hồi quy và sai số dự báo...........................................................20
B. HOẠT ĐỘNG 2......................................................................................................22
I. Đọc file dữ liệu, làm sạch dữ liệu khuyết và thực hiện kiểm định thống kê mô tả 22

1. Đọc dữ liệu, làm sạch dữ liệu.............................................................................22


2. Thực hiện kiểm định thống kê mô tả..................................................................28
II. Xây dựng biểu đồ thể hiện mối quan hệ giữa biến ‘mpg’ với các biến còn lại.....28

1. Vẽ biểu đồ histogram thể hiện phân phối chuẩn................................................28


2. Vẽ biểu đồ boxplot của biến ‘mpg’ cho nhóm phân loại của biến ‘cylinders’...29
III. Phân tích phương sai 1 nhân tố............................................................................33

5
C. TÀI LIỆU THAM KHẢO.....................................................................................36

A. HOẠT ĐỘNG 1
I. Chú thích các biến

 Date: ngày/tháng/năm
 Time: giờ
 CO (GT): Nồng độ CO trung bình thực theo giờ tính bằng mg/m3 (số liệu tham
chiếu)
 PT08.S1 (CO): Phản ứng cảm biến trung bình hang giờ (chọn mục tiêu là CO)
 NMHC (GT): Nồng độ HydroCarbons phi kim tổng thể trung bình thực hàng giờ
tính bằng microg/ m3 (số liệu tham chiếu)
 C6H6 (GT): Nồng độ benzen trung bình hàng giờ thực tính bằng microg/m3 (số liệu
tham chiếu)
 PT08.S2 (NMHC): (titania) phản ứng cảm biến trung bình hàng giờ (chọn mục
tiêu là NMHC)
 NOx (GT): Nồng độ NOx trung bình thực theo giờ tính bằng ppb (số liệu tham
chiếu)
 PT08.S3 (NOx): (vonfram oxit) phản ứng cảm biến trung bình hàng giờ (chọn
mục tiêu là NOx)
 NO2 (GT): Nồng độ NO2 trung bình thực theo giờ tính bằng microg/ m3 (chọn NO2
là mục tiêu)
 PTO8.S4 (NO2): (vonfram oxit) phản ứng cảm biến trung bình hàng giờ (chọn
mục tiêu là NO2)
 PT08.S5 (O3): (Indium oxit) phản ứng cảm biến trung bình hàng giờ (chọn mục
tiêu là O3)
 T: Nhiệt độ tính bằng °C
 RH: Độ ẩm tương đối (%)
 AH: Độ ẩm tuyệt đối

II. Giới thiệu bộ dữ liệu “AirQualityUCI”


Bộ dữ liệu chứa 9358 trường hợp phản hồi trung bình hàng giờ từ một dãy 5 cảm biến
hóa học oxit kim loại được nhúng trong Thiết bị đa cảm biến hóa chất chất lượng không
khí. Thiết bị này được đặt trên cánh đồng trong một khu vực bị ô nhiễm đáng kể, ở cấp
độ đường bộ, trong một thành phố của Ý. Dữ liệu được ghi lại từ tháng 3 năm 2004 đến
tháng 2 năm 2005 (gần một năm) đại diện cho các bản dữ liệu miễn phí dài nhất hiện có

6
sẵn về phản ứng của các thiết bị cảm biến hóa học chất lượng không khí được triển khai
tại hiện trường. Ground Truth - nồng độ trung bình hàng giờ đối với CO, Hydrocacbon
phi kim, Benzen, Tổng Nitơ Oxit (NOx) và Nitrogen Dioxide (NO2) và được cung cấp bởi
một máy phân tích tham chiếu được chứng nhận đặt cùng địa điểm. Bằng chứng về độ
nhạy chéo cũng như cả khái niệm và độ lệch của cảm biến đều có mặt như được mô tả
trong De Vito et al., Sens. And Act. B, Tập. 129,2,2008 (yêu cầu trích dẫn) cuối cùng ảnh
hưởng đến khả năng ước tính nồng độ của cảm biến. Các giá trị bị thiếu được gắn thẻ với
giá trị -200.
Bộ dữ liệu này có thể được sử dụng riêng cho mục đích nghiên cứu. Mục đích thương
mại được loại trừ hoàn toàn.
III. Các bước thực hiện

1. Đọc dữ liệu (Import data)


Đọc tập tin “AirQualityUCI”

7
2. Làm sạch dữ liệu (Data cleaning)
Input:

Output:
CO.GT. PT08.S1.CO. NMHC.GT. C6H6.GT.
1 2.6 1360 150 11.9
2 2.0 1292 112 9.4
3 2.2 1402 88 9.0
4 2.2 1376 80 9.2
5 1.6 1272 51 6.5
6 1.2 1197 38 4.7
7 1.2 1185 31 3.6
8 1.0 1136 31 3.3
9 0.9 1094 24 2.3
12 0.7 1066 8 1.1
PT08.S2.NMHC. NOx.GT. PT08.S3.NOx. NO2.GT.
1 1046 166 1056 113
2 955 103 1174 92
3 939 131 1140 114
4 948 172 1092 122
5 836 131 1205 116
6 750 89 1337 96
7 690 62 1462 77
8 672 62 1453 76
9 609 45 1579 60
12 512 16 1918 28
PT08.S4.NO2. PT08.S5.O3. T RH AH
1 1692 1268 13.6 48.9 0.7578
2 1559 972 13.3 47.7 0.7255
3 1555 1074 11.9 54.0 0.7502
4 1584 1203 11.0 60.0 0.7867
5 1490 1110 11.2 59.6 0.7888
6 1393 949 11.2 59.2 0.7848
7 1333 733 11.3 56.8 0.7603
8 1333 730 10.7 60.0 0.7702
9 1276 620 10.7 59.7 0.7648
12 1182 422 11.0 56.2 0.7366

3. Làm rõ dữ liệu (Data visualization)


Input:

8
Output:
CO.GT. PT08.S1.CO. NMHC.GT. C6H6.GT. PT08.S2.NMHC. NOx.GT.
mean 2.353567 1207.879 231.0254 10.771100 966.1161 143.50181
var 1.986679 58475.460 43456.3686 55.028716 70982.0446 6696.10260
sd 1.409496 241.817 208.4619 7.418134 266.4246 81.82972
min 0.300000 753.000 7.0000 0.500000 448.0000 12.00000
max 8.100000 2040.000 1189.0000 39.200000 1754.0000 478.00000
PT08.S3.NOx. NO2.GT. PT08.S4.NO2. PT08.S5.O3. T RH
mean 963.2975 100.25998 1600.6203 1045.8126 15.601451 49.05018
var 70710.3448 991.86090 91380.3278 160107.7481 23.283557 233.07354
sd 265.9142 31.49382 302.2918 400.1347 4.825304 15.26675
min 461.0000 19.00000 955.0000 263.0000 6.300000 14.90000
max 1935.0000 196.00000 2679.0000 2359.0000 30.000000 83.20000
AH
mean 0.83185260
var 0.03186435
sd 0.17850587
min 0.40230000
max 1.48520000

4. Trình bày biểu đồ


4.1. Trình bày biểu đồ histogram thể hiện phân phối cho biến RH
Input:
hist(AirQualityUCI$RH,xlab = "RH", main = "Histogram of RH", label = T, col =
"5") #ve bieu do histogram
Output:

9
4.2. Vẽ biểu đồ Boxplot thể hiện phân phối của RH theo phân loại biến T
Input:
boxplot(RH~T,AirQualityUCI,xlab= "T",main="Boxplot of RH for T",col=c(2,3,4,5,6))
Output:

4.3. Vẽ biểu đồ phân tán thể hiện phân phối của RH theo biến PT08.S1(CO),
PT08.S2(NMHC), PT08.S3(NOx), PT08.S4(NO2), PT08.S5(O3)
Input:
+ plot(RH~PT08.S1.CO., AirQualityUCI,xlab="PT08.S1.CO.",main= "Plot of
RH and PT08.S1.CO.",col=3)
+ abline(lm(RH~PT08.S1.CO.),col="red",lwd=2)
+ plot(RH~PT08.S2.NMHC., AirQualityUCI,xlab="PT08.S2.NMHC.",main= "Plot
of RH and PT08.S2.NMHC.",col=4)
+ abline(lm(RH~PT08.S2.NMHC.),col="red",lwd=2)
+ plot(RH~PT08.S3.NOx., AirQualityUCI,xlab="PT08.S3.NOx.",main= "Plot
of RH and PT08.S3.NOx.",col=5)
+ abline(lm(RH~PT08.S3.NOx.),col="red",lwd=2)
+ plot(RH~PT08.S4.NO2., AirQualityUCI,xlab="PT08.S4.NO2.",main= "Plot
of RH and PT08.S4.NO2.",col=6)
+ abline(lm(RH~PT08.S4.NO2.),col="red",lwd=2)
+ plot(RH~PT08.S5.O3., AirQualityUCI,xlab="PT08.S5.O3.",main= "Plot of
RH and PT08.S5.O3.",col=7)
+ abline(lm(RH~PT08.S5.O3.),col="red",lwd=2)

10
Output

Nhận xét: Dựa trên các đồ thị


phân tán, ta thấy RH không có mối quan hệ tuyến tính với các biến PT08.S1(CO),
PT08.S2(NMHC), PT08.S3(NOx), PT08.S4(NO2), PT08.S5(O3). Ta có thể đoán
PT08.S1(CO), PT08.S2(NMHC), PT08.S3(NOx), PT08.S4(NO2), PT08.S5(O3) là các
4.4. Kiểm định ý nghĩa thống kê của 1 vài cặp biến
Input:

11
Output:
cor.test(PT08.S1.CO.,CO.GT.)

Pearson's product-moment correlation

data: PT08.S1.CO. and CO.GT.


t = 76.549, df = 825, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9272735 0.9441695
sample estimates:
cor
0.9362607

> cor.test(PT08.S1.CO.,NMHC.GT.)

Pearson's product-moment correlation

data: PT08.S1.CO. and NMHC.GT.


t = 36.007, df = 825, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.7537440 0.8069159
sample estimates:
cor
0.7817468

> cor.test(PT08.S1.CO.,C6H6.GT.)

Pearson's product-moment correlation

data: PT08.S1.CO. and C6H6.GT.


t = 73.477, df = 825, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9217186 0.9398649
sample estimates:
cor
0.9313679

> cor.test(PT08.S1.CO.,PT08.S2.NMHC.)

Pearson's product-moment correlation

data: PT08.S1.CO. and PT08.S2.NMHC.


t = 76.605, df = 825, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9273699 0.9442442
sample estimates:
cor
0.9363456

> cor.test(PT08.S1.CO.,NOx.GT.)

Pearson's product-moment correlation

data: PT08.S1.CO. and NOx.GT.


t = 68.838, df = 825, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9120970 0.9323951
sample estimates:

12
cor
0.9228846

> cor.test(PT08.S1.CO.,PT08.S3.NOx.)

Pearson's product-moment correlation

data: PT08.S1.CO. and PT08.S3.NOx.


t = -42.672, df = 825, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.8496954 -0.8070462
sample estimates:
cor
-0.8295768

> cor.test(PT08.S1.CO.,NO2.GT.)

Pearson's product-moment correlation

data: PT08.S1.CO. and NO2.GT.


t = 49.877, df = 825, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8485358 0.8826101
sample estimates:
cor
0.8665794

> cor.test(PT08.S1.CO.,PT08.S4.NO2.)

Pearson's product-moment correlation

data: PT08.S1.CO. and PT08.S4.NO2.


t = 83.005, df = 825, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9372283 0.9518694
sample estimates:
cor
0.9450205

> cor.test(PT08.S1.CO.,PT08.S5.O3.)

Pearson's product-moment correlation

data: PT08.S1.CO. and PT08.S5.O3.


t = 75.732, df = 825, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.925854 0.943070
sample estimates:
cor
0.9350107

> cor.test(PT08.S1.CO.,T)

Pearson's product-moment correlation

data: PT08.S1.CO. and T


t = 9.8645, df = 825, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.2624543 0.3844744

13
sample estimates:
cor
0.3248153

> cor.test(PT08.S1.CO.,RH)

Pearson's product-moment correlation

data: PT08.S1.CO. and RH


t = -1.1375, df = 825, p-value = 0.2557
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.1074528 0.0286800
sample estimates:
cor
-0.03957004

> cor.test(PT08.S1.CO.,AH)

Pearson's product-moment correlation

data: PT08.S1.CO. and AH


t = 12.8, df = 825, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3485369 0.4623802
sample estimates:
cor
0.407038
Nhận xét: Tất cả các biến đều có ý nghĩa thống kê, ngoại trừ biến RH
4.5. Ma trận hệ số tương quan
Input:

Output:

14
Nhận xét: Tất cả các biến đều có ý nghĩa thống kê, ngoại trừ biến RH. Khi các biến
CO(GT), PT08.S1(CO), NMHC(GT), C6H6(GT), PT08.S2(NMHC), NOx(GT) bắt cặp
với biến PT08.S3(NOx) xảy ra hiện tượng nghịch biến.
5. Xây dựng mô hình hồi quy
- Biến phụ thuộc: RH
- Biến độc lập: PT08.S2(NMHC); PT08.S1(CO); PT08.S3(NOx); PT08.S4(NO2);
PT08.S5(O3); CO(GT); NMHC(GT); C6H6(GT); NOx(GT); NO2(GT); T; AH.
Ta sử dụng lệnh lm để xây dựng mô hình quy tuyến tính

Dựa vào kết quả của mô hình hồi quy tuyến tính trên, ta đặt giả thiết

15
- Giả thiết H0: Các hệ số hồi quy ứng với các biến không có ý nghĩa thống kê.
- Giả thiết H1: Các hệ số hồi quy ứng với các biến cố có ý nghĩa thống kê.
- Vì Pr ứng với các biến PT08.S1(CO), PT08.S4(NO2), NMHC(GT), C6H6(GT),
NO2(GT) đều lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0. Do đó các hệ số
biến trên không có ý nghĩa thống kê, ta sẽ loại bỏ các biến này ra khỏi mô hình.
- Các hệ số ứng với các biến còn lại đều có Pr bé hơn mức ý nghĩa bé hơn 5% nên ta sẽ
bác bỏ giả thiết H0, chấp nhận H1, tức hệ số hồi quy ứng với các biến tương ứng với các
biến còn lại có ý nghĩa thống kê. Do đó, ta không cần loại bỏ những biến còn lại ra khỏi
mô hình.
* Xét 6 mô hình hồi quy tuyến tính bao gồm biến RH là biến phụ thuộc nhưng:
 Mô hình M1 chứa tất cả các biến còn lại là biến độc lập
 Mô hình M2 là loại bỏ biến PT08.S1(CO) từ M1
 Mô hình M3 là loại bỏ biến PT08.S4(NO2) từ M2
 Mô hình M4 là loại bỏ biến NMHC(GT) từ M3
 Mô hình M5 là loại bỏ biến C6H6(GT) từ M4
 Mô hình M6 là loại bỏ biến NO2(GT) từ M5
Ta xây dựng mô hình 2 là loại biến PT08.S1(CO) từ M1

16
Ta xây dựng mô hình 3 là loại biến PT08.S4(NO2) từ M2

Ta xây dựng mô hình 4 là loại biến NMHC(GT) từ M3

17
Ta xây dựng mô hình 5 là loại biến C6H6(GT) từ M4

Ta xây dựng mô hình 6 là loại biến NO2(GT) từ M5

18
Sử dụng lệnh anova để so sánh mô hình 1 và mô hình 2:

Nhận xét:
Giả thiết H0: Hai mô hình 1,2 hiệu quả như nhau
Giả thiết H1: Hai mô hình 1,2 hiệu quả khác nhau
Vì xác suất quan sát Pr = 0.06191 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0.
Vậy mô hình 1,2 hiệu quả như nhau. Mặc khác ta dựa vào R2 hiệu chỉnh ở mô hình 2 =
0.9638 thấp hơn R2 ở mô hình 1 = 0.9639. Do vậy ta chọn mô hình 1 hiệu quả hơn mô
hình 2.
Sử dụng lệnh anova để so sánh mô hình 1 và mô hình 3:

Giả thiết H0: Hai mô hình 1,3 hiệu quả như nhau
Giả thiết H1: Hai mô hình 1,3 hiệu quả khác nhau
Vì xác suất quan sát Pr = 0.1702 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0.
Vậy mô hình 1,3 hiệu quả như nhau. Mặc khác ta dựa vào R2 hiệu chỉnh ở mô hình 3 =
0.9638 thấp hơn R2 ở mô hình 1 = 0.9639. Do vậy ta chọn mô hình 1 hiệu quả hơn mô
hình 3.

19
Sử dụng lệnh anova để so sánh mô hình 1 và mô hình 4:

Giả thiết H0: Hai mô hình 1,4 hiệu quả như nhau
Giả thiết H1: Hai mô hình 1,4 hiệu quả khác nhau
Vì xác suất quan sát Pr = 0.2957 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0.
Vậy mô hình 1,4 hiệu quả như nhau. Mặc khác ta dựa vào Multiple R2 ở mô hình 4 =
0.9643 thấp hơn Multiple R2 ở mô hình 1 = 0.9644. Do vậy ta chọn mô hình 1 hiệu quả
hơn mô hình 4.
Sử dụng lệnh anova để so sánh mô hình 1 và mô hình 5:

Giả thiết H0: Hai mô hình 1,5 hiệu quả như nhau
Giả thiết H1: Hai mô hình 1,5 hiệu quả khác nhau
Vì xác suất quan sát Pr = 0.1545 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0.
Vậy mô hình 1,5 hiệu quả như nhau. Mặc khác ta dựa vào R2 hiệu chỉnh ở mô hình 5 =
0.9638 thấp hơn R2 ở mô hình 1 = 0.9639. Do vậy ta chọn mô hình 1 hiệu quả hơn mô
hình 5.
Sử dụng lệnh anova để so sánh mô hình 1 và mô hình 6:

20
Giả thiết H0: Hai mô hình 1,6 hiệu quả như nhau
Giả thiết H1: Hai mô hình 1,6 hiệu quả khác nhau
Vì xác suất quan sát Pr = 0.01291 bé hơn mức ý nghĩa 5% nên ta bác bỏ giả thiết H0,
chấp nhận giả thiết H1. Vậy mô hình 1,6 hiệu quả khác nhau, tức trong hai mô hình sẽ có
1 mô hình hiệu quả hơn. Mặc khác ta dựa vào R2 hiệu chỉnh ở mô hình 6 = 0.9635 thấp
hơn R2 ở mô hình 1 = 0.9639. Do vậy ta chọn mô hình 1 hiệu quả hơn mô hình 6.
Kết luận: Từ việc so sánh các mô hình, mô hình 1 là mô hình hợp lý nhất trong 6 mô
hình.
6. Đánh giá sự tác động của các biến lên độ ẩm tương đối RH, thông qua
các hệ số hồi quy p-value tương ứng với các hệ sộ hồi quy ứng với các
biến.
Ta thấy rằng p-value tương ứng với T,AH < 2.10-6 , điều này nói lên rằng ảnh
hưởng T,AH có ý nghĩa rất lớn lên lên biến độ ẩm tương đối RH. Ta còn nhận thấy sự
ảnh hưởng PT08.S2(NMHC), PT08.S3(NOx), PT08.S5(O3), CO(GT), NOx(GT) lên
độ ẩm tương đối RH, ít ảnh hưởng hơn so với AH,T. Các biến PT08.S1(CO),
PT08.S4(NO2), NMHC(GT), C6H6(GT), NO2(GT).
Mặt khác các hệ số hồi quy của 1 biến dự báo cũng được xem như ảnh hưởng
trung bình lên biến phụ thuộc là độ ẩm tương đối khi tăng 1 đơn vị của biến dự báo đó,
giả sử khi các biến dự báo khác không đổi. Cụ thể hơn, hệ số hồi quy ứng với T,AH lần
lượt là -2.7641, 56.745 thì ứng với nhiệt độ T, độ ẩm tuyệt đối AH sẽ lần lượt giảm 1oC,
1g/cm3 thì ta có thể kỳ vọng nhiệt độ trung bình T, độ ẩm tương đối trung bình có thể
giảm 2.7641% hoặc tăng 56.745% (giả sử rằng các biến dự báo còn lại không đổi).
Tương tự với hệ số hồi quy ứng với PT08.S2(NMHC)= 0.0216 thì ứng với với
phản ứng cảm biến trung bình hàng giờ PT08.S2(NMHC) tăng 1 microg/ m3 thì ta có thể

21
kỳ vọng độ ẩm tương đối trung bình tăng 0.0216% (giả sử rằng các biến dự báo còn lại
không đổi).
Tương tự đối với các biến còn lại.
7. Vẽ đồ thị sai số hồi quy và sai số dự báo

Nhận xét: Đường màu đó trên đồ thị là đường thẳng nằm ngang, tức là mối quan
hệ giữa biến dự báo X và biến phụ thuộc Y được xem như tuyến tính, thỏa mản giả định
tuyến tính dữ liệu. Ngoài ra các giá trị thặng dư phân tán tương đối đều xug quanh đường
thẳng y = 0 (ngoại trừ một số giá trị ngoại lai), chứng tỏ phương sai của các sai số là hằng
số.
Dự báo:
Từ mô hình đã chọn, ta dùng lệnh predict() để dự báo độ ẩm tương đối qua hai
thuộc tính như sau:
+X1=PT08.S1(CO)=mean(PT08.S1(CO)),PT08.S2(NMHC)=mean(PT08.S2(NM
HC)),PT08.S3(NOx)=mean(PT08.S3(NOx)),PT08.S4(NO2)=mean(PT08.S4(NO2)),PT0
8.S5(O3)=mean(PT08.S5(O3)),CO(GT)=mean(CO(GT)),NMHC(GT)=mean(NMHC(GT
)),C6H6(GT)=mean(C6H6(GT)),NO2(GT)=mean(NO2(GT)),NOx(GT)=mean(NOx(GT)
),T=2,AH=3)
+X2=PT08.S1(CO)=max(PT08.S1(CO)),PT08.S2(NMHC)=max(PT08.S2(NMHC
)),PT08.S3(NOx)=max(PT08.S3(NOx)),PT08.S4(NO2)=max(PT08.S4(NO2)),PT08.S5(
O3)=max(PT08.S5(O3)),CO(GT)=max(CO(GT)),NMHC(GT)=max(NMHC(GT)),C6H6

22
(GT)=max(C6H6(GT)),NO2(GT)=max(NO2(GT)),NOx(GT)=max(NOx(GT)),T=2,AH=
3)
- Input:
X1=
data.frame(PT08.S1.CO.=mean(AirQualityUCI$PT08.S1.CO.),PT08.S2.NMHC.=mean(Air
QualityUCI$PT08.S2.NMHC.),PT08.S3.NOx.=mean(AirQualityUCI$PT08.S3.NOx.),PT08.
S4.NO2=mean(AirQualityUCI$PT08.S4.NO2.),PT08.S5.O3.=mean(AirQualityUCI$PT08.S
5.O3.),CO.GT.=mean(AirQualityUCI$CO.GT.),NMHC.GT.=mean(AirQualityUCI$NMHC.GT.
),C6H6.GT.=mean(AirQualityUCI$C6H6.GT.),NO2.GT.=mean(AirQualityUCI$NO2.GT.),N
Ox.GT.=mean(AirQualityUCI$NOx.GT.),T=2,AH=3)
# Tạo thuộc tính X1

# Dự báo thuộc tính X1.


- Output:

- Input:
X2=
data.frame(PT08.S1.CO.=max(AirQualityUCI$PT08.S1.CO.),PT08.S2.NMHC.=max(AirQu
alityUCI$PT08.S2.NMHC.),PT08.S3.NOx.=max(AirQualityUCI$PT08.S3.NOx.),PT08.S4.
NO2=max(AirQualityUCI$PT08.S4.NO2.),PT08.S5.O3.=max(AirQualityUCI$PT08.S5.O3.
),CO.GT.=max(AirQualityUCI$CO.GT.),NMHC.GT.=max(AirQualityUCI$NMHC.GT.),C6H6.
GT.=max(AirQualityUCI$C6H6.GT.),NO2.GT.=max(AirQualityUCI$NO2.GT.),NOx.GT.=ma
x(AirQualityUCI$NOx.GT.),T=2,AH=3)
# Tạo thuộc tính X2

# Dự báo thuộc tính X2.


Output:

Input:

# Tạo bảng thể hiện dự báo độ ẩm tương đối ở 2 thuộc tính X1, X2.

# Đổi tên thành dòng X1, X2.


23
# Tính khoảng tin cậy.
- Output:

Nhận xét: Với khoảng tin cậy 95%, ta thấy được dài khoảng tin cậy giá trị dự báo của
X1<X2 nên ta có thể kết luận với tập dữ liệu X1, ta có thu được một giá trị dự báo chính
xác hơn so với X2.

B. HOẠT ĐỘNG 2
Sinh viên tự tìm một bộ dữ liệu phù hợp cho việc phân tích ANOVA 1 hoặc 2 nhân tố.
Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án,
. . . trong chuyên ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những
nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin
"kho_du_lieu_BTL_xstk.xlsx".
I. Đọc file dữ liệu, làm sạch dữ liệu khuyết và thực hiện kiểm định thống kê mô
tả
1. Đọc dữ liệu, làm sạch dữ liệu khuyết
CODE R

24
- Đổi tên file từ “auto.mpg” thành “new_DF”

- Tìm dữ liệu khuyết

25
- Tìm các dòng có NA

- Xuất dữ liệu NA trong data

26
- Xác định số lượng NA trong data

- Xác định tỷ lệ NA trong data

27
- Xóa các quan trắc chứa dữ liệu của NA

- Kiểm tra xem ‘horsepower’ có ở dạng numeric hay không ?

- Xuất các giá trị là outliers

- Xuất vị trí outliers

- Xác định outliers trong data

28
- Chuyển các outliers thành NA

- Xoá các quan trắc của dữ liệu nếu chứa NA

29
2. Thực hiện kiểm định thống kê mô tả

Nhận xét:
Từ bảng thống kê ta có thể biết được:
 Mức tiêu thụ nhiên liệu trung bình tính theo dặm trên galon là 21.641100
(miles/gallon)
 Mức tiêu thụ tối thiểu và tối đa nhiên liệu lần lượt là 9.0; 44.30
II. Xây dựng biểu đồ thể hiện mối quan hệ giữa biến mpg với các biến còn lại
1. Vẽ biểu đồ histogram thể hiện phân phối chuẩn

Nhận xét:
Đây là bản phân phối tần số cho biến ‘mpg’. Dựa trên biểu đồ ta nhận thấy:

30
 Mức tiêu thụ nhiên liệu có số lượng các loại xe cao nhất là: 15-20 (miles/gallon)
 Mức tiêu thụ nhiên liệu có số lượng các loại xe thấp nhất là: 5-10 (miles/gallon)
2. Vẽ biểu đồ boxplot của biến ‘mpg’ cho nhóm phân loại của biến
‘cylinders’

Nhận xét:
- Đối với nhóm xe có số xy-lanh thuộc nhóm 4
+ Mức tiêu thụ nhiên liệu cao nhất là khoảng 45(miles/gallon)
+ Khoảng 25% xe có mức tiêu thụ khoảng dưới 25(miles/gallon)
+ Khoảng 50% xe có mức tiêu thụ khoảng dưới 27.5(miles/gallon)
+ Khoảng 75% xe có mức tiêu thụ khoảng dưới 30(miles/gallon)
- Đối với nhóm xe có số xy-lanh thuộc nhóm 6
+ Mức tiêu thụ nhiên liệu cao nhất là khoảng 37.5(miles/gallon)
+ Có 3 xe có mức tiêu thụ dưới khoảng 32.5(miles/gallon)
+ Khoảng 25% xe có mức tiêu thụ nhiên liệu dưới khoảng 17.5(miles/gallon)
+ Khoảng 50% xe có mức tiêu thụ nhiên liệu dưới khoảng 18(miles/gallon)
+ Khoảng 75% xe có mức tiêu thụ nhiên liệu dưới khoảng 22(miles/gallon)

31
- Đối với nhóm xe có số xy-lanh thuộc nhóm 8
+ Mức tiêu thụ nhiên liệu cao nhất khoảng 27.5(miles/gallon)
+ Có 2 xe có mức tiêu thụ dưới khoảng 25(miles/gallon)
+ Khoảng 25% xe có mức tiêu thụ nhiên liệu dưới khoảng 13(miles/gallon)
+ Khoảng 50% xe có mức tiêu thụ nhiên liệu dưới khoảng 14(miles/gallon)
+ Khoảng 75% xe có mức tiêu thụ nhiên liệu dưới khoảng 17(miles/gallon)
Kết luận: Dựa vào hình biểu đồ boxplot thể hiện phân phối của biến ‘mgp’ theo biến
‘cylinders’ ta thấy được sự khác biết nhiều phân phối ‘mgp’ ở các nhóm ‘cylinders’ . Ta
dự đoán rằng biến ‘cylinders’ ảnh hưởng nhiều đến biến ‘mgp’.
- Kiểm định Shapiro-Wilk:
+ Nhóm 4

H0: Tiêu thụ nhiên liệu ở các xe nhóm 4 tuân theo phân phối chuẩn
H1: Tiêu thụ nhiên liệu ở các xe nhóm 4 không tuân theo phân phối chuẩn
Với giá trị p-value= 0.0001226 <0.05, nên ta bác bỏ giả thiết H0. Ta kết luận tiêu thụ
nhiên ở các xe nhóm 4 không tuân theo phân phối chuẩn.
+ Nhóm 6

32
H0: Tiêu thụ nhiên liệu ở các xe nhóm 6 tuân theo phân phối chuẩn
H1: Tiêu thụ nhiên liệu ở các xe nhóm 6 không tuân theo phân phối chuẩn
Với giá trị p-value= 0.0001226 <0.05, nên ta bác bỏ giả thiết H0. Ta kết luận tiêu thụ
nhiên ở các xe nhóm 6 không tuân theo phân phối chuẩn.
+ Nhóm 8

H0: Tiêu thụ nhiên liệu ở các xe nhóm 8 tuân theo phân phối chuẩn
H1: Tiêu thụ nhiên liệu ở các xe nhóm 8 không tuân theo phân phối chuẩn
Với giá trị p-value= 0.0001226 <0.05, nên ta bác bỏ giả thiết H0. Ta kết luận tiêu thụ
nhiên ở các xe nhóm 8 không tuân theo phân phối chuẩn.
- Kiểm định Q-Q plot của residual:

Nhận xét: Do các dữ liệu hầu như không nằm trên 1 đường thẳng nên ta thấy được rằng
không tuân theo quy luật phân phối chuẩn.

33
- Kiểm định Shapiro – Wilk cho residual:

Nhận xét:
Đặt giả thiết:
H0: Tiêu thụ nhiên liệu ở các nhóm xe tuân theo phân phối chuẩn
H1: Tiêu thụ nhiên liệu ở các nhóm xe không tuân theo phân phối chuẩn
Với giá trị p-value = 1.538 x 10-11 < 0.05 nên ta bác bỏ H0. Kết luận tiêu thụ nhiên liệu ở
các nhóm xe không tuân theo quy luật phân phối chuẩn.
- Các nhóm phương sai đồng nhất:

Đặt giả thiết:


H0: phương sai tiêu thụ nhiên liệu ở các nhóm xe là bằng nhau
H1: phương sai tiêu thụ nhiên liệu ở các nhóm xe là khác nhau
Vì p-value = 6.502 x 10-7 < 0.05, nên ta bác bỏ giả thiết H0. Vậy phương sai tiêu thụ
nhiên liệu ở các nhóm xe là khác nhau.

34
III. Phân tích phương sai 1 nhân tố

Nhận xét:
Dựa trên kết quả ANOVA cho thấy:
- SSTr = 10213, bậc tự do là I – 1 =2 (I =3)
- SSE = 5593, bậc tự do là N – I = 309 – 3 = 306 (N là tổng số phần tử khảo sát ở tất cả
các nhóm)
- MSTr = SSTr/(I – 1)= 5107
- MSE = SSE/(N – I)= 18
Tiêu chuẩn kiểm định: F = MSTr/MSE = 279.4
Mức ý nghĩa quan sát: p-value = < 2.10-16 . Dựa vào p-value= < 2.10-16 bé hơn mức ý
nghĩa = 0.05 nên ta bác bỏ được giả thiệt H0 ở phần trên.

35
Vậy, ta kết luận khả năng tiêu thụ nhiên liệu ở 3 nhóm xe là khác nhau.

36
- Phân tích post hoc

Nhận xét:
Sự khác nhau về tiêu thụ nhiên liệu giữa các xe nhóm 6 và nhóm 4 :
- Giả thiết H0: Trung bình tiêu thụ nhiên liệu của các xe ở nhóm 6 và nhóm 4 là như nhau
- Giả thiết H1: Trung bình tiêu thụ nhiên liệu của các xe ở nhóm 6 và nhóm 4 là khác
nhau
- Ta nhận thấy với giá trị p-adj = 0 < 0.05, nên ta đủ cơ sở để bác bỏ H0. Vậy nên trung
bình tiêu thụ nhiên liệu của các xe ở nhóm 6 và nhóm 4 là khác nhau.
- Mặt khác, ta dựa vào giá trị diff = -8.3881 < 0 nên ta có thể kết luận khà năng tiêu thụ
nhiên liệu ở xe nhóm 4 cao hơn xe nhóm 6.
Sự khác nhau về tiêu thụ nhiên liệu giữa các xe nhóm 8 và nhóm 4 :
- Giả thiết H0: Trung bình tiêu thụ nhiên liệu của các xe ở nhóm 8 và nhóm 4 là như nhau
- Giả thiết H1: Trung bình tiêu thụ nhiên liệu của các xe ở nhóm 8 và nhóm 4 là khác
nhau
- Ta nhận thấy với giá trị p-adj = 0 < 0.05, nên ta đủ cơ sở để bác bỏ H0. Vậy nên trung
bình tiêu thụ nhiên liệu của các xe ở nhóm 8 và nhóm 4 là khác nhau.
Mặt khác, ta dựa vào giá trị diff = -13.103982 < 0 nên ta có thể kết luận khà năng tiêu thụ
nhiên liệu ở xe nhóm 4 cao hơn xe nhóm 8.
Sự khác nhau về tiêu thụ nhiên liệu giữa các xe nhóm 8 và nhóm 6 :
- Giả thiết H0: Trung bình tiêu thụ nhiên liệu của các xe ở nhóm 8 và nhóm 6 là như nhau

37
- Giả thiết H1: Trung bình tiêu thụ nhiên liệu của các xe ở nhóm 8 và nhóm 6 là khác
nhau
- Ta nhận thấy với giá trị p-adj = 0 < 0.05, nên ta đủ cơ sở để bác bỏ H0. Vậy nên trung
bình tiêu thụ nhiên liệu của các xe ở nhóm 8 và nhóm 8 là khác nhau.
Mặt khác, ta dựa vào giá trị diff = -4.716 < 0 nên ta có thể kết luận khà năng tiêu thụ
nhiên liệu ở xe nhóm 6 cao hơn xe nhóm 8.
=> Vậy xe ở nhóm 4 là nhóm xe tiêu tốn nhiều nhiên liệu nhất.

C. TÀI LIỆU THAM KHẢO


1. 11 Factors https://epirhandbook.com/vn/factors.html
2. 19 hồi quy đơn và đa tính https://epirhandbook.com/vn/regression.html
3. 30 ggplot cơ bản https://epirhandbook.com/vn/ggplot-basics.html
4. 31 Các tios với ggplot https://epirhandbook.com/vn/ggplot-tips.html
5. 8 làm sạch số liệu và các hàm quan trọng
https://epirhandbook.com/vn/cleaning.html

38
6. Các gói thư viện hữu ích trên R
https://rstudio-pubs-static.s3.amazonaws.com/39518_824a4efc929d4d28aa9c5e75
41bf49e5.html
7. Intro tho R Vietnamese
https://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf
8. Một số lệnh thông dụng trong R https://tailieu.vn/doc/mot-so-lenh-thong-dung-
trong-r-632585.html
9. Thống kê và tóm tắt trong R https://websitehcm.com/thong-ke-va-tom-tat-trong-r/

39

You might also like