You are on page 1of 41

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA


----

BÁO CÁO BÀI TẬP LỚN


MÔN XÁC SUẤT VÀ THỐNG KÊ

ĐỀ TÀI:
SỬ DỤNG MÔ HÌNH HỒI QUY ĐỂ
CHUẨN ĐOÁN CHẤT LƯỢNG NGUỒN NƯỚC

Khoa Kỹ thuật hóa học


Lớp L11 - Nhóm 11 – HK 232
GVHD: TS. Nguyễn Bá Thi

STT Họ và tên MSSV


1 Phan Nguyễn Tuyết Hân 2210947
2 Nguyễn Hữu Lâm 2113881
3 Lý Khánh Linh 2211852
4 Bùi Nhật Long 2211870
5 Phan Thành Long 2211891

Thành phố Hồ Chí Minh, tháng 4 năm 2024


BÁO CÁO KẾT QUẢ LÀM VIỆC NHÓM

ST Nhiệm vụ Tỷ lệ %
Họ và tên MSSV được phân thành viên Ký tên Điểm
T
công nhóm

Phan Nguyễn
1 2210947 Chương 4 100%
Tuyết Hân 0.5

2 Nguyễn Hữu Lâm 2113881 Chương 1


100% 0
Chương 2

Chương 6
3 Lý Khánh Linh 2211852 Tổng hợp 100% 0
file Word

4 Bùi Nhật Long 2211870 Chương 5 100% 0

5 Phan Thành Long 2211891 Chương 3 100% -0.5

Nhận xét của GV:


............................................................................................................................................................
............................................................................................................................................................
............................................................................................................................................................

GIẢNG VIÊN NHÓM TRƯỞNG


(Ký và ghi rõ họ, tên) (Ký và ghi rõ họ, tên)

TS. Nguyễn Bá Thi Phan Thành Long


MỤC LỤC
CHƯƠNG 1: TỔNG QUAN DỮ LIỆU...................................................................................1
1. Ngữ cảnh dữ liệu...................................................................................................................1
2. Thu thập dữ liệu....................................................................................................................1
3. Các biến trong dữ liệu..........................................................................................................1
CHƯƠNG 2: KIẾN THỨC NỀN............................................................................................3
1. Hồi quy logistic......................................................................................................................3
1.1 Khái
niệm..............................................................................................................................3
1.2 Giải thích mô hình hồi quy logistic.....................................................................................3
1.3 Phân loại các mô hình hồi quy logistic..............................................................................5
1.4 Mô hình tối ưu.....................................................................................................................6
2. Mô hình ANOVA..................................................................................................................8
2.1 Khái
niệm..............................................................................................................................8
2.2 Giải thích mô hình ANOVA................................................................................................8
2.3 Phân loại mô hình ANOVA................................................................................................9
CHƯƠNG 3: TIỀN XỬ LÝ SỐ LIỆU..................................................................................10
1. Đọc dữ liệu...........................................................................................................................10
2. Làm sạch dữ liệu (Data cleaning)......................................................................................10
CHƯƠNG 4: THỐNG KÊ MÔ TẢ.......................................................................................13
1. Làm rõ dữ liệu.....................................................................................................................13
2. Tạo bảng tần số và vẽ biểu đồ thống kê tần số cho biến “Potability”............................13
3. Vẽ biểu đồ cho các biến liên tục.........................................................................................14
3.1 Biểu đồ Histogram.............................................................................................................14
3.2 Biểu đồ hộp Boxplot..........................................................................................................19
3.3 Thực hiện vẽ ma trận tương quan cho các yếu tố............................................................23
CHƯƠNG 5: THỐNG KÊ SUY DIỄN.................................................................................25
1. Mô hình hồi quy logistic.....................................................................................................25
2. Mô hình ANOVA một nhân tố...........................................................................................31
2.1 Kiểm định tính phân phối chuẩn......................................................................................31
2.2 Kiểm định tính đồng nhất của phương sai.......................................................................31
CHƯƠNG 6: THẢO LUẬN VÀ MỞ RỘNG.......................................................................33
TÀI LIỆU THAM KHẢO......................................................................................................35
DANH MỤC HÌNH ẢNH
Hình 3.1 Kết quả khi đọc dữ liệu và xem 10 dòng đầu tiên của dữ liệu...................................11
Hình 3.2 Code R và kết quả khi kiểm tra dữ liệu khuyết trong water......................................12
Hình 3.3 Code R và kết quả khi kiểm tra lại dữ liệu khuyết hay không...................................12
Hình 3.4 Code R và kiểm tra các cột số có âm hay không.......................................................13
Hình 4.1 Code R khi phân loại biến..........................................................................................14
Hình 4.2 Code R và kết quả sau khi tính các giá trị thống kê mô tả.........................................14
Hình 4.3 Code R và kết quả sau khi tạo bảng tần số.................................................................14
Hình 4.4 Code R và biểu đồ thống kê tần số cho biến Potability.............................................15
Hình 4.5 Biểu đồ histogram thể hiện phân phối của biến pH...................................................16
Hình 4.6 Biểu đồ histogram thể hiện phân phối của biến Hardness.........................................16
Hình 4.7 Biểu đồ histogram thể hiện phân phối của biến Solids..............................................17
Hình 4.8 Biểu đồ histogram thể hiện phân phối của biến Chloramines....................................17
Hình 4.9 Biểu đồ histogram thể hiện phân phối của biến Sulfate.............................................18
Hình 4.10 Biểu đồ histogram thể hiện phân phối của biến Conductivity.................................18
Hình 4.11 Biểu đồ histogram thể hiện phân phối của biến Organic_carbon............................19
Hình 4.12 Biểu đồ histogram thể hiện phân phối của biến Trihalomethanes...........................19
Hình 4.13 Biểu đồ histogram thể hiện phân phối của biến Turbidity.......................................20
Hình 4.14 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “ph” vào biến “Potability”...........21
Hình 4.15 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Hardness” vào biến “Potability” 21
Hình 4.16 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Solids” vào biến “Potability”.....22
Hình 4.17 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Chloramines” vào biến
“Potability”................................................................................................................................22
Hình 4.18 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Sulfate” vào biến “Potability”. . .22
Hình 4.19 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Conductivity” vào biến
“Potability”................................................................................................................................23
Hình 4.20 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Organic_carbon” vào biến
“Potability”................................................................................................................................23
Hình 4.21 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Trihalomethanes” vào biến
“Potability”................................................................................................................................23
Hình 4.22 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Turbidity” vào biến “Potability”24
Hình 4.23 Kết quả kiểm tra ma trận tương quan giữa các yếu tố.............................................24
Hình 4.24 Đồ thị ma trận tương quan giữa các yếu tố..............................................................25
Hình 5.1: Code R và tập dữ liệu train_data...............................................................................26
Hình 5.2: Code R và tập dữ liệu test_data................................................................................26
Hình 5.3: Kết quả của mô hình hồi quy logistic......................................................................28
Hình 5.4 : Kết quả tổng quan của mô hình hồi quy logistic.....................................................28
Hình 5.5 : Kết quả khoảng tin cậy cho βi..................................................................................29
Hình 5.6: Kết quả tỷ lệ chênh lệch và khoảng tin cậy cho tỷ lệ chênh lệch..............................29
Hình 5.7: Kết quả tập dự đoán Test_data..................................................................................30
Hình 5.8: Kết quả đồ thị ROC dự đoán.....................................................................................31
Hình 5.9: Kết quả kiểm định tính phân phối chuẩn độ pH bằng Shapiro-Wilk........................32
CHƯƠNG 1 : TỔNG QUAN DỮ LIỆU
1. Ngữ cảnh dữ liệu
Hiện nay, môi trường nước trên toàn cầu đang phải đối mặt với nhiều vấn đề
nghiêm trọng. Sự ô nhiễm nước từ các nguồn gốc khác nhau như công nghiệp, nông
nghiệp và sinh hoạt đô thị đã ngày càng trở thành vấn đề quan tâm lớn. Các chất ô
nhiễm như hóa chất độc hại, thuốc trừ sâu, phân bón hóa học thường xuyên được xả
thải vào các dòng sông, hồ và biển, gây ảnh hưởng đến hệ sinh thái nước. Sự thải ra
môi trường của chất thải nhựa cũng đang tạo ra một vấn đề khác biệt lớn, ảnh hưởng
đến sinh vật biển và cả con người. Ngoài ra, sự mất rừng và biến đổi đất đai cũng làm
giảm chất lượng và lượng nước ngầm, ảnh hưởng đến nguồn cung cấp nước sạch cho
cộng đồng. Biến đổi khí hậu, với tác động của nó đến tăng mực nước biển và mưa lớn,
cũng đang tạo ra sự biến đổi nghiêm trọng trong môi trường nước.
2. Thu thập dữ liệu
Bằng hai phương pháp hồi quy logistic và ANOVA để phân tích “Chất lượng
nước - Khả năng uống nước uống” (Water Quality - Drinking water potability).
3. Các biến trong dữ liệu
- ph: pH là một thông số quan trọng trong việc đánh giá cân bằng axit-bazơ của
nước. WHO đã khuyến nghị giới hạn pH tối đa cho phép là từ 6,5 đến 8,5. Phạm vi
điều tra hiện tại là 6,52–6,83, nằm trong phạm vi tiêu chuẩn của WHO.
- Hardness: Độ cứng ban đầu được định nghĩa là khả năng của nước làm kết tủa
xà phòng do Canxi và Magiê gây ra. Tính bằng lượng miligram trên lít (mg/L).
- Solids (Total dissolved solids - TDS): Đây là thông số quan trọng cho việc sử
dụng nước. Nước có giá trị TDS cao chứng tỏ nước có độ khoáng hóa cao. Giới hạn
mong muốn đối với TDS là 500 mg/l và giới hạn tối đa là 1000 mg/l được quy định
cho mục đích uống.
- Chloramines: Mức clo lên tới 4 miligam mỗi lít (mg/L hoặc 4 phần triệu (ppm))
được coi là an toàn trong nước uống. Lượng Chloramines có trong nước, tính bằng
ppm.
- Sulfate: Nồng độ sunfat trong nước biển là khoảng 2.700mg/L. Nó dao động từ
3 đến 30 mg/L trong hầu hết các nguồn cung cấp nước ngọt, mặc dù nồng độ cao hơn

1
nhiều (1000 mg/L) được tìm thấy ở một số vị trí địa lý. Lượng lưu huỳnh hòa tan, tính
bằng mg/L.
- Conductivity: Lượng chất rắn hòa tan trong nước quyết định độ dẫn điện. Độ
dẫn điện (EC) thực sự đo quá trình ion của dung dịch cho phép nó truyền dòng điện.
Theo tiêu chuẩn của WHO, giá trị EC không được vượt quá 400 μS/cm.
- Organic_carbon: Tổng lượng cacbon hữu cơ (TOC) là thước đo tổng lượng
carbon trong các hợp chất hữu cơ trong nước tinh khiết. Theo US EPA < 2 mg/L dưới
dạng TOC trong nước đã qua xử lý/nước uống và < 4 mg/Lít trong nguồn nước được
sử dụng để xử lý.
- Trihalomethanes (THM): THM là những hóa chất có thể tìm thấy trong nước
được xử lý bằng clo. Nồng độ THM trong nước uống thay đổi tùy theo mức độ chất
hữu cơ trong nước, lượng clo cần thiết để xử lý nước và nhiệt độ của nước đang được
xử lý. Mức THM lên tới 80 ppm được coi là an toàn trong nước uống.
- Turbidity: Độ đục của nước phụ thuộc vào lượng chất rắn có ở trạng thái lơ
lửng. Nó là thước đo đặc tính phát sáng của nước và thử nghiệm được sử dụng để chỉ
ra chất lượng xả thải đối với chất keo. Thước đo đặc tính phát quang của nước đo bằng
NTU (Nephelometric Turbidity Units). Giá trị độ đục trung bình thu được tại Cơ sở
Wondo Genet (0,98 NTU) thấp hơn giá trị khuyến nghị của WHO là 5,00 NTU.
- Potability: Cho biết nước có an toàn cho con người hay không với uống được là
1 và không uống được là 0.

2
CHƯƠNG 2 : KIẾN THỨC NỀN
1. Hồi quy logistic
1.1 Khái niệm
Phương pháp hồi quy logistic là một phương pháp trong thống kê được sử dụng
khi biến phụ thuộc (dependent variable) là một biến phân loại (categorical variable)
hoặc biến đo lường ở mức độ thứ bậc (ordinal variable). Phương pháp này thường
được sử dụng để dự đoán xác suất xảy ra của một sự kiện, dựa trên các biến độc lập
(independent variables).
Cụ thể, hồi quy logistic thường được sử dụng khi chúng ta muốn dự đoán xác
suất của một sự kiện như "có" hoặc "không có", "thành công" hoặc "không thành
công", "được phân loại vào nhóm A" hoặc "nhóm B", v.v…
Ví dụ:
- Dự đoán xác suất một học sinh đậu (1) hoặc trượt (0) kỳ thi dựa vào số giờ
học.
- Dự đoán xác suất một khách hàng mua sản phẩm (1) hoặc không mua (0) dựa
vào độ tuổi, thu nhập, v.v.
Kết quả của mô hình hồi quy logistic thường là xác suất của biến phụ thuộc
thuộc vào các giá trị của biến độc lập. Mô hình này được sử dụng rộng rãi trong nghiên
cứu y học, khoa học xã hội, kinh tế, và nhiều lĩnh vực khác để phân tích và dự đoán
các sự kiện nhị phân, ví dụ như dự đoán bệnh lý, quyết định tín dụng, hoặc đánh giá
tác động của các biến độc lập lên kết quả cụ thể.
Trong hồi quy logistic, phép biến đổi logit được áp dụng theo tỷ lệ cược
(odds) - tức là xác suất thành công chia cho xác suất thất bại. Đây còn được gọi là tỷ lệ
log odds hoặc logarit tự nhiên của tỷ lệ cược (odds) và hàm logistic này được biểu thị
bằng các công thức sau:
1
logit ( p )=
1+exp ⁡(− p)

ln ( 1 −p p )=β + β ∗ X + …+ β ∗ K
0 1 1 k k

1.2 Giải thích mô hình hồi quy logistic


Tỷ lệ log odds có thể khó hiểu trong quá trình phân tích dữ liệu hồi quy logistic.
Do đó, việc lũy thừa ước tính β là phổ biến để chuyển đổi kết quả thành tỷ lệ chênh

3
lệch (odds ratio_OR), giúp dễ dàng giải thích kết quả. OR biểu thị tỷ lệ cược (odds)
rằng một kết quả sẽ xảy ra trong một sự kiện cụ thể, so với tỷ lệ cược(odds) xảy ra khi
không có sự kiện đó.
Nếu OR > 1 thì sự kiện đó có tỷ lệ tạo ra kết quả cụ thể cao hơn.
Ngược lại, nếu OR < 1 thì sự kiện đó có tỷ lệ xảy ra kết quả đó thấp hơn.
Dựa trên phương trình ở trên, việc giải thích tỷ lệ chênh lệch(odds ratio) có thể
được biểu thị như sau: tỷ lệ thành công thay đổi theo exp(cB_1) lần cho mỗi lần tăng
c-đơn vị trong x.
- Uớc tính khả năng tối đa (maximum likelihood estimation MLE) với
Likelihood:
+ Xét mô hình hồi quy logictis dạng tổng quát: y i=E ( yi ) + ε i. Trong đó y i là biến
độc lập phân phối Bernoulli với tham số pi
'
exp ⁡(x i β )
E ( y i ) =p i= i
1+ exp ⁡(x i β)
+ Theo phân phối Bernoulli:
y 1− y
p= f i ( y i ) = pi (1− pi) , i=1 ,2 , 3 … . n , y i =0 ℎoặc 1
i i

+ Hàm Likelihood:
n
L( y 1 , y 2 , … , y n ; β 1 , β 2 , … , β k ¿=L=∏ p i (1 − pi )
y i 1−y i

i=1

n
Hay L(p)= ∏ p iy (1− p i)1 − y = p∑
i
i
yi
∗¿ i

i=1

Lấy ln hai vế và rút gọn biểu thức:


n n
lnL=∑ yi x i β − ∑ ln [ 1+ exp ( x i β ) ]
' '

i=1 i=1

n n
Hay lnL( x 'i β )= ∑ yi ln ⁡(x 'i β )− ∑ ln ⁡[1+exp ( x 'i β ) ]
i=1 i=1

Lấy đạo hàm hai vế và xác định x 'i β sao cho đạo hàm bằng 0.
Theo ước lượng cực đại để xác định ^ ' '
x i β sao cho hàm số L( x i β ¿ đạt giá trị cực

đại.

^
x 'i β=
∑ yi
n

4
Theo phân phối chuẩn: Giả sử biến ngẫu nhiên X 1 , X 2 , … , X n tuân theo quy luận
2
( X−μ)

phân phối chuẩn N( μ , σ ¿ . f(X|μ , σ ) = 1 e


2 2
2 2σ

√2 π
2
n (X i −μ )

+Hàm Likelihood: L( μ , σ ¿=L=∏ 1 e


2 2

i=1 √ 2 π

Lấy ln hai vế và rút gọn biểu thức:

( )
2 2
n
( Xi − μ) n
( Xi − μ)
lnL=∑ − ln 2 π −lnσ − 2
=− nln 2 π − nlnσ − ∑ 2
i=1 2σ i=1 2σ

Lấy đạo hàm hai vế theo μ , σ 2 và xác định sao cho đạo hàm bằng 0. Theo ước
lượng cực đại để xác định μ , σ 2 sao cho hàm số L đạt giá trị cực đại.
^μ= X
n
1
σ 2= ∑ ( X − X )2
n i=1 i
- Nhận xét: Không có công thức tường minh cho ước lượng β như hồi quy tuyến
tính. Ước lượng sử dụng các thuật toán tối ưu hóa(Gradient Descent, Phương pháp
Newton-Raphson, Solyer của Excel...)
- Ước tính hệ số β i :
+Hệ số chặn (Intercept) β 0 tỉ lệ log odds khi tất các yếu tố dự đoán là 0.
odds i+1
+ β i chênh lệch trong tỉ lệ log odds (odds ratio): β i=log =logOR
oddsi
Về mặt toán học:
p
- Tỉ số odds về mặt xác xuất của bạn là
1− p
p
- In của tỷ số odds là ln ( )
1− p
Với hàm hồi quy Logistic:
1
P ( y=1 )= − ( β 0+ β1 x 1+ β2 x2 +… βn x n)
1+e
Ta có thể viết lại tỉ số Odds như sau:
P ( y=1 ) ( β + β x + β x 2+… βn x n)
Odds= =e 0 1 1 2

P ( y=0 )
ln ( Odds ) =β 0+ β 1 x1 + β 2 x 2 +… β n xn
Tỉ số Odds càng lớn, xác suất để y =1 càng lớn.
Diễn giải của hệ số β ứng với biến x:

5
- Khi biến x tăng 1 đơn vị thì giá trị log(Odds) tăng β đơn vị
- Khi x tăng 1 đơn vị thì tỉ số Odds tang lên exp(β) lần
- β > 0: x càng lớn, xác suất để y =1 càng lớn
- β < 0: x càng lớn, xác suất để y = 1 càng nhỏ
1.3 Phân loại các mô hình hồi quy logistic
Có 3 loại mô hình hồi quy logistic, bao gồm:
Hồi quy logistic nhị phân (Binary Logistic Regression): là một phương pháp
sử dụng để dự đoán xác suất của một biến phụ thuộc nhị phân (categorical variable có
hai nhóm), dựa trên các biến độc lập (independent variables). Tức là nó chỉ có 2 kết
quả “có” hoặc “không”, “0” hoặc “1”.
Ví dụ như dự đoán xem một cái bánh có bị hỏng hay không hay dự đoán xem
một người có bị tiểu đường hay không. Trong hồi quy logistic, đây là cách tiếp cận
được sử dụng phổ biến nhất và nói chung hơn, nó là một trong những cách phân loại
phổ biến nhất để phân loại nhị phân.
Hồi quy logistic đa thức (Multinomial Logistic Regression): Là một phương
pháp được sử dụng khi biến phụ thuộc là biến phân loại (categorical variable) có ba
hoặc nhiều hơn hai nhóm (categories), không chỉ là biến nhị phân như trong hồi quy
logistic nhị phân. Mục tiêu của loại hồi quy này để dự đoán xác suất của mỗi nhóm
(category) của biến phụ thuộc, dựa trên các biến độc lập, hay xác định mức độ ảnh
hưởng của các biến độc lập đến xác suất của từng nhóm.
Ví dụ: Giả sử chúng ta muốn dự đoán xác suất của mỗi loại sản phẩm (A, B, C)
một khách hàng có thể mua dựa vào độ tuổi và thu nhập. Chúng ta sử dụng mô hình
hồi quy logistic đa thức để dự đoán xác suất mỗi loại sản phẩm mà khách hàng có thể
mua. Sau đó, chúng ta có thể đánh giá hiệu suất của mô hình bằng các phương pháp
như đã nêu ở trên.
Hồi quy logistic theo thứ tự (Ordinal Logistic Regression): Là một phương
pháp được sử dụng khi biến phụ thuộc là biến phân loại ở mức độ thứ bậc (ordinal
variable), có thứ tự như "thấp", "trung bình", "cao" hoặc "rất không hài lòng", "không
hài lòng", "hài lòng", "rất hài lòng". Hồi quy logistic thứ tự dùng để dự đoán xác suất
của mỗi mức độ thứ bậc của biến phụ thuộc, dựa trên các biến độc lập hoặc xác định
mức độ ảnh hưởng của các biến độc lập đến xác suất của từng mức độ.

6
Ví dụ: Giả sử chúng ta muốn dự đoán mức độ hài lòng về một sản phẩm từ khách
hàng, với các mức độ "rất không hài lòng", "không hài lòng", "hài lòng", "rất hài
lòng". Chúng ta sử dụng mô hình hồi quy logistic thứ tự để dự đoán xác suất của mỗi
mức độ dựa vào các biến độc lập như giá sản phẩm, chất lượng, v.v... Sau đó, chúng ta
có thể đánh giá hiệu suất của mô hình để hiểu rõ hơn về mức độ ảnh hưởng của các
biến độc lập đến mức độ hài lòng của khách hàng.
1.4 Mô hình tối ưu
Một trong những vấn đề khó khăn và có khi khá nan giải trong việc phân tích hồi
qui logistic đa biến là chọn một mô hình để có thể mô tả đầy đủ dữ liệu. Một nghiên
cứu với một biến phụ thuộc y và 3 biến độc lập x 1, x2 và x3, chúng ta có thể có những
mô hình sau đây để tiên đoán y:
y=f ( x 1 ) , y =f ( x 2 ) , y =f ( x 3 ) , y=f ( x 1 , x 2 ) , y=f ( x1 , x 3 ) , y=f ( x 2 , x 3 ) ,
và y=f ( x 1 , x 2 , x3 )

trong đó f là hàm số. Nói chung với k biến độc lập x1, x2, x3, . . . , xk, chúng ta
có rất nhiều mô hình (2k) để tiên đoán y. Một mô hình tối ưu phải đáp ứng ba tiêu
chuẩn sau đây:
Đơn giản: Một mô hình nên được thiết kế sao cho đơn giản nhất có thể mà vẫn
giải quyết được vấn đề cụ thể. Lý do chính là để tránh overfitting (quá khớp) và làm
cho mô hình tổng quát hóa tốt hơn trên dữ liệu mới, không được sử dụng trong quá
trình huấn luyện.
Trang bị quá mức: Đây là hiện tượng khi mô hình quá phức tạp và "học nhớ" cụ
thể từng điểm dữ liệu trong tập huấn luyện mà không tổng quát hóa được cho dữ liệu
mới. Điều này có thể dẫn đến kết quả dự đoán không chính xác khi áp dụng mô hình
vào dữ liệu thực tế. Một mô hình đơn giản có thể giúp giảm overfitting và cải thiện khả
năng tổng quát hóa của mô hình.
Đầy đủ: Mô hình cần phải đủ mạnh để có khả năng giải quyết vấn đề được đặt ra.
Điều này có nghĩa là mô hình cần phải chứa đựng đủ thông tin và biến động của dữ
liệu để có thể dự đoán và giải thích được kết quả một cách hiệu quả.
Trang bị đầy đủ: Ngược với trang bị quá mức, trang bị đầy đủ xảy ra khi mô hình
quá đơn giản và không có đủ khả năng biểu diễn sự biến động trong dữ liệu. Kết quả là
mô hình không thể dự đoán và giải thích được dữ liệu. Một mô hình đủ mạnh sẽ giúp

7
chúng ta tránh tình trạng underfitting và đảm bảo mô hình có khả năng giải quyết vấn
đề được đặt ra.
Thực tế: Mô hình cần phải phản ánh một cách chân thực nhất có thể mối quan hệ
giữa các biến và kết quả của mô hình trong thực tế. Điều này đảm bảo rằng mô hình có
thể được sử dụng để đưa ra dự đoán và quyết định hợp lý dựa trên những thông tin có
sẵn.
Khả năng giải thích: Một mô hình thực tế cũng nên có khả năng giải thích được
dự đoán của mình. Điều này giúp người sử dụng hiểu được lý do vì sao mô hình đưa ra
dự đoán cụ thể và cách các biến độc lập ảnh hưởng đến kết quả. Khi một mô hình đơn
giản, đầy đủ và thực tế, chúng ta có được một công cụ mạnh mẽ và hiệu quả để dự
đoán, giải thích và đưa ra quyết định từ dữ liệu. Điều này đồng thời cũng giúp tăng
tính ứng dụng và tin cậy của mô hình trong thực tế.
2. Mô hình ANOVA
2.1 Khái niệm
Phương pháp ANOVA (Analysis of Variance) là một phương pháp thống kê
được sử dụng để kiểm tra sự khác biệt trung bình giữa ba hoặc nhiều nhóm. Nó cho
phép chúng ta xác định xem liệu có sự khác biệt ý nghĩa giữa các nhóm này không,
thông qua việc so sánh phương sai (variance) của các nhóm. Với mục tiêu xác định
xem có sự khác biệt ý nghĩa giữa ít nhất hai nhóm trung bình hay không hay Phát hiện
và đánh giá ảnh hưởng của các biến độc lập đến biến phụ thuộc.
2.2 Giải thích mô hình ANOVA
Đầu tiên, cấu trúc của mô hình ANOVA bao gồm: Biến phụ thuộc, biến độc lập,
các nhóm.
Biến Phụ Thuộc (Dependent Variable): Đây là biến mà chúng ta quan tâm đến sự
khác biệt giữa các nhóm. Ví dụ: điểm số, chiều cao, hoặc lượng chất lượng sản phẩm.
Biến Độc Lập (Independent Variable): Đây là biến mà chúng ta muốn kiểm tra
ảnh hưởng đến biến phụ thuộc. Ví dụ: loại phương pháp điều trị, loại phân loại, hoặc
nhóm đối tượng.
Các Nhóm (Groups): Là các phân loại, nhóm của biến độc lập mà chúng ta muốn
so sánh. Ví dụ: nhóm A, nhóm B, nhóm C.

8
Giả thiết trong ANOVA bao gồm 2 giả thiết: Giả thiết không có sự khác biệt và
giả thiết có sự khác biệt. Trong giả thiết không có sự khác biệt được thể hiện dưới
dạng sau: H 0 : μ1 ¿ μ3 =…=μ k Vậy trong giả thiết không có sự khác biệt này thì trung
bình tất cả các nhóm bằng nhau. Tiếp đến, trong giả thiết có sự khác biệt: H 1 được hiểu
là ít nhất một cặp trung bình khác nhau
Cách thức thực hiện phân tích phương sai (Variance Analysis): Tính toán
phương sai giữa các nhóm (SSB) và phương sai bên trong các nhóm (SSW).
Trong đó:
SSB: Độ biến động giữa các nhóm.
SSW: Độ biến động bên trong từng nhóm.
F-Statistic: Sử dụng kiểm định F để so sánh tỉ lệ giữa SSB và SSW. Giá trị
F lớn đồng nghĩa với sự khác biệt ý nghĩa giữa các nhóm.
G-Giá Trị p (p-value):Giá trị p được sử dụng để xác định xem có đủ bằng
chứng để bác bỏ giả thiết không có sự khác biệt hay không. Nếu p-value nhỏ hơn mức
ý nghĩa α đã chọn, ta bác bỏ giả thiết H 0 và kết luận rằng có sự khác biệt trung bình
giữa ít nhất hai nhóm.
2.3 Phân loại mô hình ANOVA
Có 3 loại mô hình ANOVA chính: ANOVA một nhân tố, ANOVA hai nhân tố,
ANOVA MANOVA:
- Mô hình ANOVA một nhân tố: là một loại thử nghiệm thống kê so sánh
phương sai trong nhóm có nghĩa là trong một mẫu trong khi chỉ xem xét một yếu tố
hoặc một biến độc lập. Phương sai một yếu tố so sánh ba hoặc nhiều hơn ba nhóm
phân loại để xác định xem có sự khác biệt giữa chúng hay không. Trong mỗi nhóm nên
có ba hoặc nhiều quan sát và phương tiện của các mẫu được so sánh.
Ví dụ như: Bạn có thể sử dụng phân tích phương sai một yếu tố để tìm hiểu liệu
hiệu suất kiểm tra có khác nhau hay không dựa trên mức độ lo lắng giữa các học sinh
(chia học sinh thành ba nhóm độc lập: học sinh thấp, trung bình và cao bị căng thẳng).
- Mô hình ANOVA hai nhân tố: là một phần mở rộng của phân tích phương sai
một yếu tố. Với một yếu tố, bạn có một biến độc lập ảnh hưởng đến biến phụ thuộc.
Còn với hai nhân tố ANOVA, sẽ có 2 biến độc lập.
Ví dụ: bạn có thể sử dụng phân tích ANOVA hai yếu tố để tìm hiểu liệu có sự
tương tác giữa giới tính và trình độ học vấn đối với sự lo lắng kiểm tra giữa các sinh
9
viên đại học. Trong đó giới tính (nam / nữ) và trình độ học vấn (đại học / sau đại học)
là các biến độc lập của bạn, và kiểm tra lo lắng là biến phụ thuộc của bạn.
- Mô hình ANOVA MANOVA (Multivariate Analysis of Variance) là một
phương pháp thống kê mở rộng của ANOVA, được sử dụng khi có hai hoặc nhiều biến
phụ thuộc (dependent variables) mà chúng ta muốn kiểm tra sự khác biệt trung bình
giữa các nhóm. Điều này có ý nghĩa rằng MANOVA cho phép chúng ta đánh giá sự
ảnh hưởng của các biến độc lập đến nhiều biến phụ thuộc cùng một lúc. Mục tiêu của
mô hình này là xác định xem có sự khác biệt trung bình giữa các nhóm đối với tất cả
các biến phụ thuộc hay không. Đánh giá tác động đồng thời của các biến độc lập lên
nhiều biến phụ thuộc. Và tối ưu hóa sức mạnh thống kê và giảm độ biến thiên không
cần thiết.

10
CHƯƠNG 3 : TIỀN XỬ LÝ SỐ LIỆU
1. Đọc dữ liệu
Đọc dữ liệu “water_potability.csv”. Sau đó kiểm tra thử 10 dòng đầu tiên của
dữ liệu
water = read.csv(“D:/HK232/SXTK/water_potability.csv”)
head(water,10)

Hình 3.1 Kết quả khi đọc dữ liệu và xem 10 dòng đầu tiên của dữ liệu
2. Làm sạch dữ liệu (Data cleaning)
Tạo một dữ liệu mới, giữ lại các biến và thay thế dữ liệu water cũ. Kiểm
tra dữ liệu khuyết trong water.
# làm sạch dữ liệu, giữ lại các biến chính cần thiết
water <-
water[,c("ph","Hardness","Solids","Chloramines","Su
lfate","Conductivity","Organic_carbon","Trihalometh
anes","Turbidity","Potability")]
# thong ke vi tri dong chua du lieu khuyet
apply(is.na(water),2,which)
#Thống kê số lượng dữ liệu khuyết của các biến
apply(is.na(water),2,sum)
#Thống kê tỉ lệ dữ liệu khuyết trong các biến
apply(is.na(water),2,mean)
11
Hình 3.2 Code R và kết quả khi kiểm tra dữ liệu khuyết trong water
Nhận xét: Dựa vào kết quả thu được khi kiểm tra dữ liệu khuyết trong water, ta
nhận thấy có 491 dữ liệu khuyết tại biến ph và có 781 dữ liệu khuyết tại biến Sulfate.
Vậy nên ta cần xử lý các dữ liệu khuyết đó.
Phương pháp xử lí được đề xuất là thay thế các dữ liệu bị khuyết bằng giá trị
trung bình.
#thay thế các giá trị NA của dữ liệu khuyết
water$ph[is.na(water$ph)] = mean(water$ph,na.rm =
T)
water$Sulfate[is.na(water$Sulfate)]=
mean(water$Sulfate,na.rm = T)
water$Trihalomethanes[is.na(water$Trihalomethanes
)] = mean(water$Trihalomethanes,na.rm= T)
head(water,10)

Kiểm tra lại xem còn dữ liệu khuyết hay không.

Hình 3.3 Code R và kết quả khi kiểm tra lại dữ liệu khuyết hay không.

12
Cần kiểm tra để đảm bảo các cột số không âm

Hình 3.4 Code R và kiểm tra các cột số có âm hay không


Nhận xét: Ta nhận thấy sau khi xử lí, không còn dữ liệu khuyết.

13
CHƯƠNG 4 : THỐNG KÊ MÔ TẢ
1. Làm rõ dữ liệu
Đối với biến phân loại: biến “Potability” biểu thị khả năng uống được của nước
mang giá trị “0” và “1”. Trong đó “0” là không uống được và “1” là uống được.
water$Potability = as.factor(water$Potability)
Hình 4.5 Code R khi phân loại biến
Đối với biến liên tục: bao gồm các biến: “ph”, “Hardness”, “Solids”,
“Chloramines”, “Sulfate”, “Conductivity”, “Organic_carbon”, “Trihalomethanes”,
“Turbidity”.
# Tìm số liệu thống kê mô tả cho các biến liên tục
summary(water)

Hình 4.6 Code R và kết quả sau khi tính các giá trị thống kê mô tả
2. Tạo bảng tần số và vẽ biểu đồ thống kê tần số cho biến “Potability”
#Tạo bảng tần số cho biến phân loại
table(water$Potability)

Hình 4.3 Code R và kết quả sau khi tạo bảng tần số
#biểu đồ thống kê tần số cho biến “Potability”
barplot(table(water$Potability),xlab = "Potability", ylab = "Frequency",main =
"Barplot of Potability", col = c("lightblue","lightpink"),ylim = c (0,2000))

14
Hình 4.4 Code R và biểu đồ thống kê tần số cho biến Potability
Nhận xét: Số mẫu nước không uống được là 1998 chiếm tần suất cao hơn
khoảng 1.5 lần so với số mẫu nước uống được là 1278.
3. Vẽ biểu đồ cho các biến liên tục
3.1 Biểu đồ Histogram
hist(water$ph,xlab="pH",main="Histogram of pH",col="purple",labels=T,ylim=c(0,1200))
hist(water$Hardness,xlab="Hardness",main="Histogram of
Hardness",col="purple",labels=T,ylim=c(0,1000))
hist(water$Solids,xlab="Solids",main="Histogram of
Solids",col="purple",labels=T,ylim=c(0,800))
hist(water$Chloramines,xlab="Chloramines",main="Histogram of
Chloramines",col="purple",labels=T,ylim=c(0,1000))
hist(water$Sulfate,xlab="Sulfate",main="Histogram of
Sulfate",col="purple",labels=T,ylim=c(0,1400))
hist(water$Conductivity,xlab="Conductivity",main="Histogram of
Conductivity",col="purple",labels=T,ylim=c(0,800))
hist(water$Organic_carbon,xlab="Organic_carbon",main="Histogram of
Organic_carbon",col="purple",labels=T,ylim=c(0,800))
hist(water$Trihalomethanes,xlab="Trihalomethanes",main="Histogram of
Trihalomethanes",col="purple",labels=T,ylim=c(0,1000))
hist(water$Sulfate,xlab="Sulfate",main="Histogram of
Sulfate",col="purple",labels=T,ylim=c(0,1400))
hist(water$Turbidity,xlab="Turbidity",main="Histogram of
Turbidity",col="purple",labels=T,ylim=c(0,1000))

15
Kết quả

Hình 4.5 Biểu đồ histogram thể hiện phân phối của biến pH
Nhận xét: Nhìn tổng quan, ta thấy đồ thị tương đối tuân theo phân phối chuẩn có
hình chuông. Khoảng pH từ 7-8 có tần số xuất hiện nhiều nhất, khoảng hơn 1000 lần.

Hình 4.6 Biểu đồ histogram thể hiện phân phối của biến Hardness
Nhận xét: Nhìn tổng quan, ta thấy đồ thị tương đối tuân theo phân phối chuẩn
có hình chuông. Khoảng 180-200mg/L có tần số xuất hiện nhiều nhất, khoảng hơn 800
lần.

16
Hình 4.7 Biểu đồ histogram thể hiện phân phối của biến Solids
Nhận xét: Nhìn tổng quan, ta thấy đồ thị tương đối tuân theo phân phối chuẩn có
hình chuông. Phần lớn độ cứng có giá trị tập trung vào khoảng 15000-20000ppm với
hơn 700 lần.

Hình 4.8 Biểu đồ histogram thể hiện phân phối của biến Chloramines
Nhận xét: Nhìn tổng quan, ta thấy đồ thị tương đối tuân theo phân phối chuẩn
có hình chuông. Khoảng từ 7-8ppm có tần số xuất hiện nhiều nhất, khoảng hơn 800
lần.

17
Hình 4.9 Biểu đồ histogram thể hiện phân phối của biến Sulfate
Nhận xét: Nhìn tổng quan, ta thấy đồ thị tương đối tuân theo phân phối chuẩn
có hình chuông. Khoảng từ 320-340mg/L có tần số xuất hiện nhiều nhất, khoảng hơn
1300 lần.

Hình 4.10 Biểu đồ histogram thể hiện phân phối của biến Conductivity
Nhận xét: Nhìn tổng quan, ta thấy đồ thị tương đối tuân theo phân phối chuẩn
có hình chuông. Khoảng từ 400-450μS/cm có tần số xuất hiện nhiều nhất.

18
Hình 4.7 Biểu đồ histogram thể hiện phân phối của biến Organic_carbon
Nhận xét: Nhìn tổng quan, ta thấy đồ thị tương đối tuân theo phân phối chuẩn
có hình chuông. Khoảng từ 12-16ppm có tần số xuất hiện nhiều nhất với hơn 700 lần.

Hình 4.8 Biểu đồ histogram thể hiện phân phối của biến Trihalomethanes
Nhận xét: Nhìn tổng quan, ta thấy đồ thị tương đối tuân theo phân phối chuẩn
có hình chuông. Khoảng từ 60-70μg/L có tần số xuất hiện nhiều nhất, gần 1000 lần

19
Hình 4.9 Biểu đồ histogram thể hiện phân phối của biến Turbidity
Nhận xét: Nhìn tổng quan, ta thấy đồ thị tương đối tuân theo phân phối chuẩn
có hình chuông. Khoảng từ 3,5 - 4 NTU có tần số xuất hiện nhiều nhất, khoảng hơn
800 lần.
Kết luận: Ta thấy dạng đồ thị Histogram của các biến “ph”, “Hardness”,
“Solids”, “Chloramines”, “Sulfate”, “Conductivity”, “Organic_carbon”,
“Trihalomethanes”, “Turbidity” đều có dạng tương đối tuân theo phân phối chuẩn.
3.2 Biểu đồ hộp Boxplot
boxplot(water$ph~water$Potability, xlab = "Potability", ylab = "pH",main="Boxplot
of pH",col=c(2,3))
boxplot(water$Hardness~water$Potability, xlab = "Potability", ylab =
"Hardness",main="Boxplot of Hardness", col=c(4,5))
boxplot(water$Solids~water$Potability, xlab = "Potability", ylab =
"Solids",main="Boxplot of Solids", col=c(6,7))
boxplot(water$Chloramines~water$Potability, xlab = "Potability", ylab =
"Chloramines",main="Boxplot of Chloramines", col=c(8,10))
boxplot(water$Sulfate~water$Potability, xlab = "Potability", ylab =
"Sulfate",main="Boxplot of Sulfate", col=c(11,12))
boxplot(water$Conductivity~water$Potability, xlab = "Potability", ylab =
"Conductivity",main="Boxplot of Conductivity", col=c(13,14))
boxplot(water$Organic_carbon~water$Potability, xlab = "Potability", ylab =
20
"Organic_carbon",main="Boxplot of Organic_carbon", col=c(15,16))
boxplot(water$Trihalomethanes~water$Potability, xlab = "Potability", ylab
="Trihalomethanes",main="Boxplot of Trihalomethanes", col=c(7,10))
boxplot(water$Turbidity~water$Potability, xlab = "Potability", ylab =
"Turbidity",main="Boxplot of Turbidity", col=c(2,16))

Hình 4.10 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “ph” vào biến
“Potability”

Hình 4.15 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Hardness” vào biến
“Potability”

21
Hình 4.11 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Solids” vào biến
“Potability”

Hình 4.17 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Chloramines” vào
biến “Potability”

Hình 4.18 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Sulfate” vào biến
“Potability”

22
Hình 4.19 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Conductivity” vào
biến “Potability”

Hình 4.12 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Organic_carbon” vào
biến “Potability”

Hình 4.13 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Trihalomethanes” vào
biến “Potability”

23
Hình 4.14 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Turbidity” vào biến
“Potability”
Nhận xét: Nhìn tổng quát các đồ thị thì ta thấy đường trung bình của các biến sẽ
không gây ảnh hướng lớn đến độ uống được hay không uống được của nước.
3.3 Thực hiện vẽ ma trận tương quan cho các yếu tố
round(cor(water[,1:9]),3)

Hình 4.23 Kết quả kiểm tra ma trận tương quan giữa các yếu tố
library(corrplot)
M=cor(water[,1:9])
corrplot(M, method="circle")

24
Hình 4.24 Đồ thị ma trận tương quan giữa các yếu tố
Nhận xét: Các biến có tương quan yếu, dự đoán các biến độc lập, không xảy ra
hiện tượng đa cộng tuyến.

25
CHƯƠNG 5 : THỐNG KÊ SUY DIỄN
1. Mô hình hồi quy logistic
Nhằm kiểm tra kết quả của dự đoán, chúng ta sẽ chia tập dữ liệu làm hai phần:
“train_data” để train data và “test_data” để test data đã được train, với tỉ lệ 80%
“train_data” và 20% “test_data”.

set.seed(8)
train.rows <- sample(rownames(water), dim(water)[1]*0.8)
train_data <- water[train.rows, ]
test.rows <- setdiff(rownames(water), train.rows)
test_data <- water[test.rows, ]
head(train_data, 10)
head(test_data, 10)

Hình 5.1: Code R và tập dữ liệu train_data

Hình 5.2: Code R và tập dữ liệu test_data


Mô hình Logistic
logistic <- glm(Potability~., family="binomial", data=train_data)

26
logistic_step <-step(logistic)

27
Hình 5.3: Kết quả của mô hình hồi quy logistic
summary(logistic_step)

28
Hình 5.4 : Kết quả tổng quan của mô hình hồi quy logistic
Nhận xét:
Mô hình tối ưu là:

ln(odds)=ln ( 1−p p )=β +β .Solids+β .Chloramines+β .Organic_carbon+ϵ


0 1 2 3

Ước tính các hệ số βi:


β0=-7,353e-01, β1=1,423e-05, β2=3,884e-02, β3=-2,283e-02
Trong mô hình này, chỉ Solids có tác động đến Potability (Pr=0,00187 <0,05 ).
Các biến khác không có ý nghĩa thống kê đáng kể. Vì vậy, mô hình ước tính là:

ln(odds) = ln ( 1 −p p )= -7,353e-01 + 1,423e-05.Solids


Khoảng tin cậy 95% cho βi:

confint(logistic_step)

Hình 5.5 : Kết quả khoảng tin cậy cho βi


29
Ngoài ra, chúng ta có thể thực hiện lũy thừa các hệ số và diễn giải chúng dưới
dạng tỷ lệ chênh lệch và tìm khoảng tin cậy cho tỷ lệ chênh lệch.
exp(cbind(OR=coef(logistic_step),confint(logistic_step)))

Hình 5.6: Kết quả tỷ lệ chênh lệch và khoảng tin cậy cho tỷ lệ chênh lệch
Nhận xét tác động của Solids lên Potability:
- Hệ số ước tính của biến Solids là 1.423e-05 là giá trị dương. Điều này có nghĩa
là sự gia tăng Solids có liên quan đến việc tăng khả năng đạt được chất lượng.
- Hệ số hồi quy cho Solids là 1.423e-05. Điều này cho thấy việc tăng Solids thêm
một đơn vị sẽ tăng khả năng đạt tiêu chuẩn kiểm soát chất lượng lên exp(1.423e-05 ) =
0,0000142 lần.
Đưa ra dự đoán dựa trên test_data
predicted <- predict(logistic_step,test_data, type="response")
test_data$predicted<-round(predicted)
head(test_data,10)

Hình 5.7: Kết quả tập dự đoán Test_data


test_data$Potability <- as.factor(test_data$Potability)
test_data$predicted <- as.factor(test_data$predicted)
levels(test_data$Potability)
levels(test_data$predicted)

30
levels(test_data$predicted) <- levels(test_data$Potability)
library(caret)
confusionMatrix(test_data$Potability, test_data$predicted)
predicted_numeric <- as.numeric(as.character(test_data$predicted))
roc_curve <- roc(test_data$Potability, predicted_numeric)
plot(roc_curve, main = "ROC Curve", col = "blue")

Hình 5.8: Kết quả đồ thị ROC dự đoán

31
Nhận xét đồ thị ROC:
Dựa vào đồ thị ROC ở trên, với TPR là số mẫu nước uống được được dự đoán
đúng trên số mẫu nước uống được và FPR là số các mẫu nước không uống được được
dự đoán uống được trên hết số mẫu nước không uống được. Ta có AUROC (Xác suất
rằng một mẫu nước uống được được lấy ngẫu nhiên sẽ được xếp hạng cao hơn một
mẫu không uống được được lấy ngẫu nhiên) là 0.503, lẫn việc AIC của mô hình trên
quá cao nên hiệu suất phân loại rất tệ. Ta có thể kết luận rằng việc dự đoán bằng phép
hồi quy Logistic không có giá trị cao.
2. Mô hình ANOVA một nhân tố
2.1 Kiểm định tính phân phối chuẩn
Ta sử dụng kiểm định Shapiro-Wilk để kiểm định tính phân phối chuẩn độ pH
lên 2 trạng thái của nước.
Sử dụng thư viện : library(stats)
Lệnh kiểm định Shapiro-Wilk: shapiro.test (x)
library("dplyr")
shapiro.test(water$ph[water$Potability == 0])
shapiro.test(water$ph[water$Potability == 1])

Hình 5.9: Kết quả kiểm định tính phân phối chuẩn độ pH bằng Shapiro-Wilk
Nhận xét: Thấy rằng p-value ở 2 trạng thái đều nhỏ hơn mức ý nghĩa 5%, ta có
thể kết luận độ pH không tuân theo phân phối chuẩn.
2.2 Kiểm định tính đồng nhất của phương sai
Ta sử dụng kiểm định Levene's test để kiểm định tính đồng nhất phương sai.
Giả thuyết:
H0: Phương sai về độ pH ở 2 trạng thái nước bằng nhau.
32
H1: Phương sai về độ pH ở 2 trạng thái nước khác nhau.
> mode_1 <- aov(ph~Potability,data=water)
> summary(mode_1)

Hình 5.9: Kết quả kiểm định độ ph trung bình ở nước uống được
Nhận xét:
Vì p-value = 0.851 > 0.05 nên ta chưa bác bỏ được giả thuyết H0. Vì vậy trung
bình độ ph ở 2 trạng thái nước bằng nhau.

33
CHƯƠNG 6 : THẢO LUẬN VÀ MỞ RỘNG
Qua việc sử dụng bộ dữ liệu "Water Quality" của Aditya Kadiwal kết hợp với
kiến thức từ bộ môn Xác Suất Thống Kê và sự trợ giúp của phần mềm R, nhóm đã
thực hiện phân tích dữ liệu thông qua phân tích mô hình hồi quy logistic và mô hình
anova một cách thuận lợi. Từ đó đưa ra thống kê mô tả, trình bày kết quả của quá trình
chạy dữ liệu cùng các hình ảnh, bảng mẫu để giúp hiểu rõ hơn, và từ dữ liệu đó đưa
nhóm đã có những nhận xét như sau:
- Đối với mô hình hồi quy logistic
+ Ưu điểm:
 Mô hình này đầu ra xác suất, làm cho nó thích hợp khi ta quan tâm đến
mức độ chắc chắn của dự đoán.
 Các tham số của mô hình (hệ số hồi quy) có thể được diễn giải dễ
dàng. Điều này giúp hiểu được tác động của từng biến đầu vào đối với
xác suất dự đoán.
+ Hạn chế:
 Độ chính xác chưa cao.
 Còn hạn chế trong những hướng giải quyết vấn đề.
- Đối với mô hình anova:
+ Ưu điểm:
 Kiểm tra được sự tương tác giữa hai biến độc lập và ảnh hưởng của
chúng đến một biến phụ thuộc.
 Xác định được biến độc lập nào có tác động mạnh hơn đến biến phụ
thuộc.
 Xác định được có sự tương tác giữa hai biến độc lập hay không.
 Xác định được mỗi biến độc lập có tác dụng chính hay không.
+ Nhược điểm:
 Việc thực hiện có thể khó khăn và tốn thời gian.
 Cần cỡ mẫu lớn để đảm bảo kết quả đáng tin cậy.
 Giả định rằng dữ liệu có phân phối chuẩn và phương sai của các nhóm
là bằng nhau.
 Có thể khó diễn giải kết quả nếu có sự tương tác đáng kể giữa hai biến
độc lập.

34
Việc áp dụng các kiến thức từ Xác Suất Thống Kê không chỉ giúp nhóm hiểu sâu
hơn về phân phối của các biến trong bộ dữ liệu mà còn dự đoán và mô hình hóa trạng
thái của chất lượng nước dựa trên các yếu tố khác nhau. Việc sử dụng phần mềm R đã
giúp thực hiện các phân tích phức tạp trở nên hiệu quả và linh hoạt hơn.
Tóm lại, việc kết hợp kiến thức từ Xác Suất Thống Kê và sử dụng phần mềm R
để phân tích bộ dữ liệu "Water Quality" là một bước tiến quan trọng trong việc hiểu và
cải thiện chất lượng nước. Nhóm đã nhập và xử lý dữ liệu, cũng như kiểm tra các giá
trị ngoại lai và nêu nhận xét về cách xử lý chúng trong data “water_potability.csv”.
Đồng thời, nhóm cũng đã lập được thêm dữ liệu, từ đó thực hiện các kiểm định trên
các mẫu quan sát nhằm tìm kiếm và đưa ra những nhận xét dựa trên các cơ sở ấy.
Kết luận: Đưa ra được nhận xét về tính dự đoán của dữ liệu đầu vào theo mô hình
hồi quy Logistic.
Đề xuất: Sử dụng các mô hình dự đoán khác có hiệu quả hơn.

35
TÀI LIỆU THAM KHẢO
1. Aditya Kadiwal, (2021), Water Quality - Drinking water potability, Truy cập
từ: https://www.kaggle.com/datasets/adityakadiwal/water-potability
2. Nguyễn Văn Tuấn, (2015), Phân tích dữ liệu với R, Nhà xuất bản tổng hợp
thành phố Hồ Chí Minh.
3. Nguyễn Tiến Dũng và Nguyễn Đình Huy, (2019), Xác suất - Thống kê & Phân
tích số liệu, NXB Đại Học Quốc Gia 2019.
4. Taiyun Wei, (18/11/2021), rdocumentation, Truy cập từ:
https://www.rdocumentation.org/packages/corrplot/versions/0.92
5. Slideshare, Suy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô
phỏng, Truy cập từ: https://s.net.vn/gpl7
6. Tự học R, Tài liệu hướng dẫn code R cơ bản, Truy cập từ: https://www.tuhocr.com/

36

You might also like