You are on page 1of 39

Phân tích thăm dò

và mô hình hóa cho dữ liệu cháy rừng

Hoàng Gia Phú, Nguyễn Hiếu Nghĩa,


Võ Trần Đông Dương, Nguyễn Đình Quốc Bảo, Đỗ Trọng Hợp
{19520215, 19520178, 19520483, 19520402}@gm.uit.edu.vn, hopdt@uit.edu.vn

Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh,
TP. Hồ Chí Minh, Việt Nam

Tóm tắt nội dung Cháy rừng là dạng thiên tai rất nguy hại đối với
sinh quyển trên Trái Đất, đe dọa trực tiếp và gián tiếp đến mọi dạng
sinh vật và gây thiệt hại nặng nề đối với tài nguyên thiên nhiên cũng
như sinh kế của con người. Tài nguyên rừng là nguồn tài nguyên quý giá
và quan trọng nhất, đòi hỏi chúng ta phải bảo vệ nghiêm ngặt và nâng
cao cảnh giác đối với những dấu hiệu có thể gây ra tổn hại đến nguồn
tài nguyên này. Để có thể nhận diện các dấu hiệu có liên hệ trực tiếp tới
những vụ cháy rừng, đề tài này sẽ phân tích và làm rõ những thông số
được ghi nhận trong các vụ cháy rừng đã xảy ra ở một vườn quốc gia.
Chúng em sẽ phân tích ảnh hưởng của các yếu tố tự nhiên tới diện tích
lan rộng của một vụ cháy, cũng như kiểm tra tương tác giữa các yếu tố
này. Sau cùng, chúng em sẽ đưa ra các phương pháp mô hình hóa đi kèm
với các phân tích trên nhằm đưa ra dự đoán về quy mô của một vụ cháy
có thể xảy ra trong tương lai dựa trên những thông số đo đạc được.

1 Giới thiệu

1.1 Đặt vấn đề

Cháy rừng là sự kiện phát sinh ngọn lửa từ các điều kiện thuận lợi trong một
khu rừng, ngọn lửa bùng phát và phá huỷ một hoặc toàn bộ thành phần cấu
tạo nên khu rừng đó. Cháy rừng là mối đe doạ đáng lo ngại bởi nó ảnh hưởng
trực tiếp đến môi trường, từ đó kéo theo các thiệt hại đến đời sống của mọi sinh
vật trong hệ sinh thái xung quanh. Những tác nhân gây ra cháy rừng được ghi
nhận thông qua chỉ số Canadian Fire Weather Index (FWI), chỉ số này là một hệ
thống có bốn yếu tố cơ bản cấu thành bao gồm nhiệt độ không khí, độ ẩm tương
đối, tốc độ gió và lượng mưa [5]. Và FWI sẽ có những chỉ số tổng hợp từ các
yếu tố trên có thể kể đến như Fine Fuel Moisture Code (FFMC), Duff Moisture
Code (DMC), Drought Code (DC), Initial Spread Index (ISI) và còn nhiều chỉ
số khác được thu thập bằng những phương pháp nghiệp vụ khác nhau để qua
đó đánh giá điều kiện nào sẽ là tác nhân chính dẫn đến cháy rừng và quy mô
của vụ cháy. Từ đó bộ dữ liệu Forest Fires [3] này được sinh ra phục vụ cho mục
đích nghiên cứu các yếu tố gây nên cháy rừng và sự lan rộng của các đám cháy.
2

Trong nhiều năm trở lại đây, với sự phát triển vũ bão của công nghệ thông
tin nói chung và trí tuệ nhân tạo nói riêng thì nhiều vấn đề nan giải hoặc phải
giải quyết thủ công trước đây đã tìm ra lời giải một cách khoa học và dễ dàng,
và bài toán cháy rừng này cũng không ngoại lệ. Các thiết bị đo đạc công nghệ
cao đã được sử dụng, các công cụ thống kê và toán ứng dụng đã được huy động
để hỗ trợ giải quyết cho bài toán trên.
Và trong nghiên cứu này, chúng tôi thực hiện nhiều phương pháp trực quan
hoá dữ liệu và phân tích dữ liệu để đưa ra được cách hiểu sâu sắc bộ dữ liệu, và
kiểm định những giả thuyết các yếu tố là tác nhân gây nên cháy rừng từ đó xây
dựng nên các mô hình hồi quy.

1.2 Các công trình liên quan

Phân tích và dự đoán dữ liệu cháy rừng là một hướng nghiên cứu nhỏ. Tuy nhiên
vẫn có khá nhiều công trình nghiên cứu ứng dụng các kỹ thuật khai phá dữ liệu
hay kỹ thuật học máy hoặc học sâu đã được thực hiện bởi nhiều nhóm nghiên
cứu. Có thể kể đến là công trình A Data Mining Approach to Predict Forest Fires
using Meteorological Data [3] đã thực hiện các kỹ thuật khai phá dữ liệu nhằm
mục đích dự đoán khu vực cháy rừng. Hay công trình Assessing the suitability of
soft computing approaches for forest fires prediction [2] đã sử dụng các kỹ thuật
phân tích dữ liệu như PCA, PSO để phân tích đặc điểm dữ liệu và phân vùng dữ
liệu trước khi thực hiện các kỹ thuật khác để dự đoán khu vực nào cháy rừng. Và
công trình Neural Network Approach to Predict Forest Fires using Meteorological
Data [1] sau khi xử lý dữ liệu đã sử dụng kỹ thuật Just Neural Network để dự
đoán khu vực nào xảy ra cháy.

1.3 Giới thiệu bộ dữ liệu

Bộ dữ liệu Forest Fires được thu thập trong một nghiên cứu về số liệu cháy
rừng của Cortez và cộng sự [3] ở đại học Minho, Bồ Đào Nha. Các số liệu được
thu thập từ những vụ cháy rừng lớn nhỏ xảy ra trong phạm vi rừng quốc gia
Montesinho rộng 74,225 hecta ở biên giới Đông Bắc của Bồ Đào Nha. Bản đồ
vườn quốc gia này được phân hoạch theo một mạng lưới tọa độ như hình 1, theo
đó các ô sẽ là vị trí ghi nhận của các đám cháy. Bên cạnh các yếu tố đo đạc tự
nhiên như nhiệt độ, gió, độ ẩm và lượng mưa thì còn có cả các chỉ số đánh giá
FWI (FFMC, DMC, DC, ISI) được tổng hợp và tính toán từ các yếu tố khảo sát
tự nhiên [4].
Sau đây là thông tin chi tiết bộ dữ liệu Forest Fires.
• Tên bộ dữ liệu: Forest Fires.
• Thông tin tác giả: P. Cortez and A. Morais.
• Số thuộc tính: 13 (12 thuộc tính phân loại + 1 thuộc tính đầu ra).
• Thông tin các thuộc tính:

– X - (int64) Toạ độ không gian ứng với trục X trên bản đồ công viên Mon-
tesinho với các giá trị từ 1 đến 9.
3

– Y - (int64) Toạ độ không gian ứng với trục X trên bản đồ công viên
Montesinho với các giá trị từ 2 đến 9.
– month - (string) các tháng trong năm.
– day - (string) các ngày trong tuần.
– FFMC - (float64) viết tắt cho Fine Fuel Moisture code, chỉ số độ ẩm của
các thành phần khô dễ gây cháy trên mặt đấy thường thấy kể đến như lá
khô, cành khô. Trong bộ dữ liệu này, giá trị của FFMC trải từ 18.7 (ướt) đến
96.20 (khô).
– DMC - (float64) viết tắt cho Duff Moisture Code, chỉ số độ ẩm tầng hữu cơ
của mặt đất thường bị che phủ bởi vật liệu gây cháy. Trong bộ dữ liệu này,
giá trị của DMC trải từ 1.1 (ướt) đến 291.3 (khô).
– DC - (float64) viết tắt cho Drought Code, chỉ số độ ẩm của lòng đất. Trong
bộ dữ liệu này, giá trị của DC trải từ từ 7.9 (ướt) đến 860.6 (khô).
– ISI - (float64) viết tắt cho Initial Spread Index, chỉ số độ ẩm của các vật
chất gây cháy trên bề mặt (FFMC) và tốc độ gió bề mặt (wind). Trong bộ
dữ liệu này, giá trị của DC trải từ từ 0.0 đến 56.1.
– temp - (float64) nhiệt độ trên thang đo Celsius với giá trị từ 2.2 đến 33.30.
– RH - (float64) chỉ số độ ẩm tương đối (%) với giá trị từ 15.0 đến 100.
– wind - (float64) tốc độ gió (km/h) với giá trị từ 0.40 đến 9.40.
– rain - (float64) lượng mưa (mm/m2) với giá trị từ 0.0 đến 6.4.
– area - (float64) diện tích rừng bị cháy (ha) với giá trị từ 0.00 đến 1090.84.

Hình 1: Bản đồ của vườn quốc gia Montesinho.


4

2 Phân tích và trực quan hóa dữ liệu

Trong phần này, chúng tôi sẽ thực hiện nhiều phương pháp trực quan hoá trên
từng trường dữ liệu và trên các quan hệ giữa các trường dữ liệu trước khi tiến
hành phân tích chúng. Qua đó, chúng ta có cái nhìn sâu sắc hơn về bộ dữ liệu
cháy rừng này.

2.1 Phân tích và trực quan các trường dữ liệu

Hình 2: Biểu đồ tổng số điểm dữ liệu tại các ô toạ độ (X,Y) thuộc bộ dữ liệu
Forest Fires.

Từ Hình 2 có thể thấy, số lượng dữ liệu thu thập tại các toạ độ không đồng đều.
Những khu vực có toạ độ (X,Y) như (8,6), (6,5), và (7,4) có số lượng dữ liệu áp
đảo lần lượt là 52, 49, và 45 điểm dữ liệu. Trong khi rất nhiều các khu vực chỉ
ghi nhận một điểm dữ liệu.
5

Hình 3: Các biểu đồ tần suất của các trường dữ liệu month, day của bộ dữ liệu.

Hình 3 bao gồm bốn biểu đồ tần suất của các trường dữ liệu month, day theo
thứ tự từ trái sang phải. Và các điểm đặc biệt của các phân phối dữ liệu trên
như sau:

• Trường month: Số lượng dữ liệu được thu thập không đồng đều ở các
tháng trong khi một số lượng lớn dữ liệu tập trung vào tháng 8 và tháng 9 với
lần lượt là 184 và 172 điểm dữ liệu, chiếm lần lượt là 35.60% và 33.26% trên
tổng số điểm dữ liệu. Hơn nữa, số điểm dữ liệu tại tháng 1 và tháng 11 lần lượt
chỉ có 2 và 1 điểm dữ liệu.

• Trường day: mặt khác, số điểm dữ liệu lại được thu thập khá đồng đều
với các thứ trong tuần. Trong đó, dữ liệu vào ngày chủ nhật là cao nhất với 95
điểm dữ liệu, chiếm 18.37 % và dữ liệu vào thứ ba thấp nhất với 64 điểm dữ liệu,
chiếm 12.37 %.
6

Hình 4: Các biểu đồ tần suất và KDE của các thông số FWI của bộ dữ liệu.

Hình 4 là các biểu đồ tần suất và KDE của các thông số FWI bao gồm FFMC,
DMC, DC, và ISI.
• FFMC: là chỉ số thể hiện độ ẩm của các thành phần dễ gây cháy bên trên
bề mặt và trải từ 0 (rất ướt) đến 101 (rất khô) theo tiêu chuẩn của FWI. Trong
bộ dữ liệu Forest Fires, chỉ số này trải từ 18.70 đến 96.20, trong đó dữ liệu tại
vùng FFMC đáng báo động là từ 80 trở lên có 505 điểm dữ liệu và chiếm 97.68
% tổng số điểm dữ liệu. Điều này cộng với đường cong phân phối của trường dữ
liệu tập trung chủ yếu từ 80 đến 100 chứng tỏ phần lớn bề mặt của các khu vực
trong bộ dữ liệu này tại thời điểm ghi nhận dữ liệu đang trong tình trạng cực kỳ
khô cằn.
• DMC: là chỉ số thể hiện độ ẩm của tầng hữu cơ ngay bên dưới bề mặt,
trải từ 0 (rất ướt) đến 350 (rất khô) theo tiêu chuẩn của FWI. Thông qua Hình
4 có thể thấy dữ liệu thuộc hai vùng DMC chính bao gồm từ 0 đến 50 chiếm
20.30 % và từ 72 tới 180 chiếm 60.54 %. Từ điều này chứng tỏ bộ dữ liệu có sự
pha trộn của cả những vùng có tầng hữu cơ dưới bề mặt cực kỳ ẩm ướt và cả
những vùng cũng tương đối khô cằn.
• DC: là chỉ số thể hiện độ ẩm của tầng đất sâu bên dưới bề mặt, trải từ
0 (rất ướt) đến 1000 (rất khô) theo tiêu chuẩn của FWI. Từ hình trên biểu thị
dữ liệu của DC cũng có hai đỉnh cũng tương ứng là hai vùng dữ liệu tập trung
chính bao gồm từ 8 đến 136 chiếm 16.63 % và từ 600 đến 800 chiếm 59.96%.
• ISI: là chỉ số kết hợp của FFMC và tốc độ gió bề mặt (wind) nhằm thể
hiện khả năng xảy ra cháy và sức cháy lan ban đầu. Dữ iệu về chỉ số ISI tập
7

trung chủ yếu từ 0 đến 20 và một số điểm dữ liệu ngoại lai trong khoảng từ 50
đến 60.

Hình 5: Biểu đồ tần suất và KDE của các trường dữ liệu Nhiệt độ (temp), Tốc
độ gió (wind), Độ ẩm tương đối (RH) của bộ dữ liệu.

Hình 5 thể hiện biểu đồ tuần suất và đường cong phân phối của các chỉ số
bao gồm Nhiệt độ (temp), Tốc độ gió (wind), và Độ ẩm tương đối (RH) của bộ
dữ liệu.

• temp: nhiệt độ tại rừng Montesinho khá mát mẻ dao động từ 2.2 độ C tại
các tháng mùa đông đến 33.30 độ C tại các tháng mùa hè. Ngoài ra phần lớn
điểm dữ liệu tập trung tại từ 15 đến 25 độ Celsius.

• wind: tốc độ gió tại các khu vực cũng trải dài từ 0.4 đến 0.9, trong đó các
điểm dữ liệu tập trung chủ yếu trong khoảng từ 2 đến 5 chiếm 63.83%.

• RH: độ ẩm tương đối tại các khu vực cũng trải dài từ 15 đến 100, trong đó
dữ liệu có xu hướng lệch phải. Điều này cho thấy khí hậu chung của vườn quốc
gia này thường khá khô.
8

Hình 6: Biểu đồ cường độ cháy tại các khu vực.

Để có một cái nhìn rõ hơn về phân bổ cháy rừng tại các khu vực, Hình 6
được sinh ra để làm điều này. Do sự ảnh hưởng của việc dữ liệu các khu vực
không được thu thập đồng đều nên tổng diện tích cháy rừng các khu vực cũng
bị ảnh hưởng theo. Các khu vực được thu thập nhiều điểm dữ liệu có xu hướng
tổng diện tích cháy cũng rất cao. Tuy nhiên, nhiều khu vực lại ghi nhận cháy
rừng không đáng kể đến mức tổng diện tích xấp xỉ bằng 0 như khu vực có tọa
độ (2,3), (3,6), và (5,5).
9

Hình 7: Biểu đồ tần suất và KDE của các trường dữ lượng mưa (rain) và diện
tích cháy (area) của bộ dữ liệu.

Hình 7 thể hiện tần suất các điểm dữ liệu và đường cong phân phối của hai
trường dữ liệu là lượng mưa (rain) và diện tích cháy (area). Cả hai dữ liệu này
có số lượng điểm dữ liệu bằng 0 cực kỳ hơn, với lần lượt là 98.45 % và 47.77%.
Do đó, yếu tố lượng mưa được đoán trước là sẽ có những kết quả không đáng
quan tâm trong các phân tích về sau cũng như ở giai đoạn mô hình hóa.

2.2 Phân tích và trực quan quan hệ giữa các trường dữ liệu

Các biểu đồ KDE ở Hình 8 và Hình 9 thể hiện tương quan về tần suất của các
chỉ số FWI (DMC, DC, FFMC, ISI) ở mỗi dòng đối với các thông số tự nhiên
(temp, RH, wind) ở mỗi cột. Ở mỗi điểm trong biểu đồ biểu thị diện tích cháy
tương ứng đã được xử lí bởi hàm ln(X + 1).

Chúng ta có thể thấy các điểm màu đậm nằm tập trung ở một khoảng giá trị
nhất định trên cả trục hoành và trục tung. Điều này cho thấy các đám cháy lớn
thường có các thông số môi trường tương đồng nhau, chỉ xảy ra trong một kiểu
cấu hình thời tiết nhất định.

Bên cạnh đó, chúng ta còn thấy một xu hướng tương quan thuận giữa giá trị
nhiệt độ (temp) với các chỉ số FWI khác. Điều này là do những yếu tố đo lường
cần có để tính các chỉ số FWI đều có sự liên quan của yếu tố nhiệt độ. Như vậy,
yếu tố nhiệt độ sẽ có thể có những tương tác nhất định đến các chỉ số FWI này.
10

Hình 8: Biểu đồ tần suất và KDE của các chỉ số FFMC, ISI tương quan với các
chỉ số tự nhiên (temp, RH, wind) và diện tích cháy (area) của bộ dữ liệu.

Hình 9: Biểu đồ tần suất và KDE của các chỉ số DMC, DC tương quan với các
chỉ số tự nhiên (temp, RH, wind) và diện tích cháy (area) của bộ dữ liệu.
11

3 Phân tích các yếu tố

3.1 Yếu tố vị trí địa lý

Có thể thấy về mặt ý nghĩa, các yếu tố nhiệt độ (temp), độ ẩm tương đối (RH),
FFMC, DC, DMC, ISI và tốc độ gió (wind) đều có ảnh hưởng nhất định đến
diện tích khu vực bị cháy. Tuy nhiên có một khía cạnh khác cũng cần được kiểm
chứng về sự ảnh hưởng của nó đến diện tích, đó là vị trí địa lý và thời gian.
Chúng ta có thể suy luận được rằng ở các tháng mùa khô, rừng dễ xảy ra cháy
hơn và diện tích rừng khi cháy đồng thời cũng lớn hơn so với các tháng mùa mưa.
Đồng thời chúng ta cũng đặt một câu hỏi rằng liệu có sự ảnh hưởng của ngày
trong tuần lên diện tích rừng hay không. Để tìm ra câu trả lời cho các câu hỏi
này, chúng tôi tiến hành kiểm định one-way ANOVA và two-way ANOVA trên
các yếu tố về mặt thời gian để (1) tìm được những yếu tố thời gian có ảnh hưởng
lên kết quả và (2) xác định những mức của yếu tố nào có thể được gom chung
thành một mức.
Theo nhận định ban đầu, vị trí địa lý tạo ra sự khác biệt về khí hậu và do đó
trực tiếp tác động đến diện tích rừng bị cháy. Ở những vị trí mà có khí hậu nóng
rõ ràng diện tích cháy rừng sẽ cao hơn so với những vị trí có khí hậu ẩm và lạnh.
Trong bộ dữ liệu, có tất cả 36/71 vùng của công viên Montesinho được thu thập
số liệu. Chúng tôi tiến hành sử dụng one-way ANOVA để kiểm định 2 giả thuyết:

– H0 : các vùng địa lý không có sự khác nhau.


– H1 : các vùng địa lý có sự khác nhau.

Hình 10: Phân phối của diện tích cháy theo vùng
12

Bảng 1: One-way ANOVA cho yếu tố khu vực.


sum_sq df F PR(>F)
Intercept 3.588393 1.0 1.91743 0.166782
C(region) 108.929585 35.0 1.66302 0.011324
Residual 900.171947 481.0 NaN NaN

Do đặc điểm của bộ dữ liệu đa số diện tích cháy được thu thập là từ các vụ
cháy nhỏ (chưa tới 1 ha) dẫn đến dữ liệu có sự chia nhóm. Như ở Bảng 1 ta có
pvalue = 0.0113 < 0.05 nên chúng ta bác bỏ H0 , chấp nhận H1 . Tuy nhiên nếu
như bỏ qua các số liệu của diện tích cháy 0 ha và kiểm định lại, chúng ta lại
được pvalue = 0.154 (Bảng 2). Từ đây có thể suy ra được rằng sự mất cân bằng
của dữ liệu đã dẫn đến sự phân nhóm của khu vực địa lý. Như vậy về mặt cơ
bản, chỉ có sự khác biệt đến từ 2 nhóm khu vực địa lý: nhóm của khu vực có
diện tích cháy nhỏ (chưa được 1 ha) và nhóm của khu vực có diện tích cháy lớn
(diện tích cháy khác 0), từ đây có thể suy ra vị trí địa lý cũng không có sự ảnh
hưởng mang tính quy luật đến diện tích cháy nên có thể bỏ qua yếu tố này khi
xây dựng mô hình hồi quy.

Bảng 2: One-way ANOVA trên các khu vực có diện tích cháy khác 0.
sum_sq df F PR(>F)
Intercept 17.044867 1.0 11.139330 0.000981
C(region) 62.644907 32.0 1.279385 0.154033
Residual 362.646001 237.0 NaN NaN

3.2 Yếu tố thời gian - tháng


Hình 11 đã cho thấy do đặc điểm thời tiết, các tháng 8 và 9 rơi vào giai đoạn
của mùa khô nên các chỉ số về temp và DC cao hơn so với các tháng trước đó.
Do vậy chúng ta có thể ngầm đoán rằng chúng ta có thể phân các tháng thành
hai nhóm rõ rệt tương ứng cho hai mùa mưa và mùa khô.

Hình 12: One-way ANOVA trên yếu tố tháng.

Hình 12 là kết quả của kiểm định ANOVA cho 2 giả thuyết:
13

Hình 11: Phân phối theo diện tích cháy của yếu tố tháng

– H0 : các tháng cùng một nhóm.

– H1 : các tháng ở các nhóm khác nhau.

Kết qủa cho thấy pvalue = 0.0572 > 0.05 do đó chấp nhận H0 ở mức ý nghĩa
0.05, tuy nhiên ở mức ý nghĩa 0.1 thì các tháng lại không cùng một nhóm.

Để phân tích kỹ hơn kết quả của kiểm định ANOVA ở mức ý nghĩa 0.1, chúng
tôi tiến thành thực hiện ANOVA trên 2 dạng dữ liệu: 1 là các điểm dữ liệu có
diện tích cháy lớn tức là các điểm dữ liệu ở tháng 8, 9 và 2 là các điểm dữ liệu
có diện tích cháy ở các tháng khác.

Hình 13: One-way ANOVA trên tháng 8 và 9.


14

Hình 14: One-way ANOVA trên các tháng 1, 2, 3, 4, 5, 6, 7, 10, 11, 12.

Với các tháng khác tháng 8 và 9, kết quả của One-way ANOVA lại một lần
nữa cho thấy các tháng khác tháng 8, 9 thuộc các nhóm khác nhau. Để tìm ra
được các cặp tháng nào thực sự có ý nghĩa thống kê, tức là sự khác biệt của các
tháng đó có ảnh hưởng đến diện tích cháy, chúng tôi sử dụng TukeyHSD để phân
tích.
15

Hình 15: TukeyHSD trên các tháng khác tháng 8, 9.

Chỉ có các cặp tháng jul-dec, jun-dec, mar-dec, oct-dec có khoản tin cậy
không chứa 0 nên sự khác biệt của các cặp tháng này là có ý nghĩa thống kê.
Do đó có thể kết luận yếu tố tháng có thể được phân thành 6 nhóm: nhóm các
tháng 8-9, nhóm tháng 12, nhóm tháng 10, nhóm tháng 7, nhóm tháng 6 và
nhóm tháng 3.
16

3.3 Yếu tố thời gian - ngày


Tương tự chúng tôi cũng tiến hành thực hiện kiểm định One-way ANOVA cho
yếu tố ngày để kiểm định 2 giả thuyết:
– H0 : yếu tố ngày không tác động khác biệt nhau lên diện tích cháy.
– H1 : yếu tố ngày tác động khác biệt nhau lên diện tích cháy.

Hình 16: Phân phối của yếu tố ngày trong tuần theo diện tích cháy

Hình 17: One-way ANOVA trên yếu tố ngày trong tuần.

Ta có pvalue = 0.906 > 0.05 do đó chúng ta chấp nhận H0 với nhận định yếu
tố ngày trong tuần không liên hệ trực tiếp lên sự biến động của diện tích cháy
rừng.

3.4 Tương tác giữa ngày trong tuần với tháng


Việc kiểm định sự ảnh hưởng của các ngày trong tuần bằng One-way ANOVA
khiến cho yếu tố ngày trong tuần bị mất đi mối tương quan giữa tháng với các
17

ngày trong tuần. Để làm rõ điều này, chúng tôi cũng đồng thời sử dụng Two-way
ANOVA để kiểm tra ảnh hưởng của tháng, ngày trong tuần và sự tương tác của
tháng và ngày trong tuần lên diện tích rừng bị cháy.
giả thuyết kiểm định:

– H0a : yếu tố ngày trong tuần không ảnh hưởng đến diện tích cháy.
– H0b : yếu tố tháng không ảnh hưởng đến diện tích cháy.
– H0c : yếu tố ngày và tháng không có tương tác với nhau.

Hình 18: Two-way ANOVA trên yếu tố ngày trong tuần và tháng.

Từ Hình 18 có thể kết luận được chỉ có yếu tố tháng là có tác động đến diện
tích cháy, ngày trong tuần và tháng không có sự tương tác lẫn nhau.

3.5 Các yếu tố về điều kiện tự nhiên

3.5.1 Tương tác giữa yếu tố tháng với các chỉ số

Hình 19: Two-way ANOVA trên yếu tố tháng và chỉ số FFMC.


18

Hình 20: Two-way ANOVA trên yếu tố tháng và chỉ số DMC.

Hình 21: Two-way ANOVA trên yếu tố tháng và chỉ số ISI.

Qua các kiểm định ANOVA có thể thấy yếu tố tháng có sự tác động đến diện
tích cháy ở mức ý nghĩa 0.1. Ngoài month ra chỉ số DMC cũng đồng thời có ảnh
hưởng đến diện tích cháy với mức ý nghĩa 0.1.

3.5.2 Tương tác giữa yếu tố tháng lên các yếu tố tự nhiên

Hình 22: Two-way ANOVA trên yếu tố tháng và yếu tố nhiệt độ.
19

Hình 23: Two-way ANOVA trên yếu tố tháng và DC.

Hình 24: Two-way ANOVA trên yếu tố tháng và mưa.

Hình 25: Two-way ANOVA trên yếu tố tháng và tốc độ gió.


20

Hình 26: Two-way ANOVA trên yếu tố tháng và độ ẩm tương đối.

Tương tự với kết quả ở mục 3.5.2, chúng ta cũng thu được kết quả là yếu
tố tháng cũng có sự ảnh hưởng đến diện tích cháy ở mức ý nghĩa 0.1. Ngoài ra
chũng ta cũng nhận được kết quả về sự ảnh hưởng của yếu tố nhiệt độ đến diện
tích cháy ở mức ý nghĩa 0.05. Do đó ở các mục sau chúng tôi tiến hành kiểm
định Two-way ANOVA cho tương tác giữa nhiệt độ với các yếu tố khác trong bộ
dữ liệu.

3.5.3 Tương tác giữa yếu tố nhiệt độ với các chỉ số

Hình 27: Two-way ANOVA trên yếu tố nhiệt độ và chỉ số FFMC.

Hình 28: Two-way ANOVA trên yếu tố nhiệt độ và chỉ số DMC.


21

Hình 29: Two-way ANOVA trên yếu tố nhiệt độ và chỉ số ISI.

Hình 30: Two-way ANOVA trên yếu tố nhiệt độ và DC.

Kết quả cho thấy có chỉ số DMC và DC là có sự tương tác với nhiệt độ ảnh
hưởng lên diện tích cháy.

3.5.4 Tương tác giữa yếu tố nhiệt độ đến các yếu tố tự nhiên khác.

Hình 31: Two-way ANOVA trên yếu tố nhiệt độ và lượng mưa.


22

Hình 32: Two-way ANOVA trên yếu tố nhiệt độ và tốc độ gió.

Hình 33: two-way ANOVA trên yếu tố nhiệt độ và độ ẩm tương đối.

Kết quả cho thấy chỉ có tốc độ gió tương tác với nhiệt độ gây ảnh hưởng lên
diện tích cháy rừng.

4 Xây dựng mô hình hồi quy

4.1 Dữ liệu huấn luyện và dữ liệu kiểm thử

Sau khi thực hiện các kiểm định One-way ANOVA và Two-way ANOVA trên các
yếu tố về địa lý, thời gian cũng như các yếu tố tự nhiên, chúng tôi tiến hành xây
dựng mô hình hồi quy tuyến tính trên các yếu tố đã được xác định là có tương
tác với nhau hoặc có ảnh hưởng đến yếu tố cháy. Thực nghiệm được tiến hành
với 4 lần chạy thử, ứng với mỗi lần thực nghiệm là một mô hình hồi quy với các
yếu tố được xử lý khác nhau.
Trong phần thực nghiệm chúng tôi sử dụng hàm logarithm tự nhiên để giảm
biên độ lệch trong khoảng giá trị của diện tích, cụ thể là hàm ln(X + 1). Sau đó
dữ liệu được chia thành 2 tập huấn luyện và kiểm thử với tỷ lệ 80:20 cố định với
tất cả các thí nghiệm.
Ở cả dữ liệu huấn luyện và dữ liệu kiểm thử, số lượng điểm dữ liệu có diện
tích cháy là 0 chiếm xấp xỉ 50% tổng số điểm dữ liệu (233/443 trên dữ liệu huấn
luyện và 37/74 trên dữ liệu kiểm thử).
23

Hình 34: Phân bố của diện tích cháy theo nhiệt độ trên dữ liệu huấn luyện.

Hình 35: Phân bố của diện tích cháy theo nhiệt độ tên dữ liệu kiểm thử.
24

4.2 Thực nghiệm 1

Ở lần thực nghiệm 1 chúng tôi xây dựng mô hình hồi quy tuyến tính dựa trên
tất cả các loại yếu tố trong bộ dữ liệu.

Hình 36: Mô hình hồi quy ở thực nghiệm 1.

4.3 Thực nghiệm 2

Ở thực nghiệm lần thứ 2 mô hình hồi quy tuyến tính được xây dựng với giả
thuyết yếu tố nhiệt độ có tương tác với chỉ số DC.

Hình 37: Mô hình hồi quy ở thực nghiệm 2.

4.4 Thực nghiệm 3

Ở thực nghiệm lần thứ 3 mô hình hồi quy tuyến tính được xây dựng với giả
thuyết yếu tố nhiệt độ có tương tác với chỉ số DMC.

Hình 38: Mô hình hồi quy ở thực nghiệm 3.

4.5 Thực nghiệm 4

Ở thực nghiệm lần thứ 4 mô hình hồi quy tuyến tính được xây dựng với giả
thuyết yếu tố nhiệt độ có tương tác với yếu tố tốc độ gió.

Hình 39: Mô hình hồi quy ở thực nghiệm 4.


25

4.6 Thực nghiệm 5

Ở thực nghiệm lần thứ 5 mô hình hồi quy tuyến tính được xây dựng với giả
thuyết yếu tố nhiệt độ có tương tác với các chỉ số FFMC, DMC và ISI.

Hình 40: Mô hình hồi quy ở thực nghiệm 5.

4.7 Thực nghiệm 6

Ở thực nghiệm lần thứ 6 mô hình hồi quy tuyến tính được xây dựng với giả
thuyết yếu tố nhiệt độ có tương tác với các yếu tố tự nhiên.

Hình 41: Mô hình hồi quy ở thực nghiệm 6.

4.8 Thực nghiệm 7

Ở thực nghiệm lần thứ 7 mô hình hồi quy tuyến tính được xây dựng với giả
thuyết yếu tố tháng và tương tác giữa nhiệt độ và 3 yếu tố DMC, DC và tốc độ
gió có ảnh hưởng lên diện tích cháy.

Hình 42: Mô hình hồi quy ở thực nghiệm 7.

4.9 Thực nghiệm 8

Ở thực nghiệm lần thứ 9 mô hình hồi quy tuyến tính được xây dựng với giả
thuyết tương tác giữa nhiệt độ và 3 yếu tố DMC, DC và tốc độ gió có ảnh hưởng
lên diện tích cháy. Trong đó các tháng đã được phân thành 6 nhóm theo kết quả
của kiểm tra TukeyHSD.

Hình 43: Mô hình hồi quy ở thực nghiệm 8.


26

4.10 Thực nghiệm 9

Ở thực nghiệm lần thứ 9 mô hình hồi quy tuyến tính được xây dựng với giả
thuyết yếu tố tháng và tương tác giữa nhiệt độ và 3 yếu tố DMC, DC và tốc độ
gió có ảnh hưởng lên diện tích cháy. Trong đó các tháng đã được phân thành 6
nhóm theo kết quả của kiểm tra TukeyHSD.

Hình 44: Mô hình hồi quy ở thực nghiệm 9.

4.11 Các kết quả

Để đánh giá tính hiệu quả của các mô hình trong các lần thực nghiệm, chúng tôi
chia dữ liệu ban đầu thành hai tập train và test với tỷ lệ 80:20. Độ đo được sử
dụng là Mean Squared Error (MSE):

n
1X
M SE = (Yi − Ŷi )2 (1)
n i=1

Bảng 3: Kết quả tổng quan của 5 thực nghiệm.


Experiments MSE on train data MSE on test data
1 1.80657 1.963994
2 1.91483 1.98413
3 1.92302 1.930793
4 1.90812 1.932398
5 1.88926 1.89422
6 1.84374 2.041336
7 1.82176 1.88545
8 1.86142 1.783106
9 1.9324 1.771

4.11.1 Kết quả thực nghiệm 1


27

Hình 45: Mô hình hồi quy tuyến tính ở thực nghiệm 1.


28

Hình 46: Kết quả thực nghiệm 1.

Qua Hình 45 chúng ta có công thức của mô hình hồi quy:


log_area = −0.6255 ∗ aug − 0.08396 ∗ dec − 0.1956 ∗ f eb − 0.2455 ∗ jan − 0.07627 ∗
jul − 0.1446 ∗ jun − 0.187 ∗ mar + 0.8707 ∗ may − 1.023 ∗ nov + 0.3011 ∗ oct +
0.4826 ∗ sep + 0.05649 ∗ mon + 0.35 ∗ sat + 0.127 ∗ sun + 0.09233 ∗ thu + 0.4208 ∗
tue + 0.2446 ∗ wed + 0.03075 ∗ temp − 0.00008797 ∗ RH − 0.0007702 ∗ DC + 0.0507 ∗
rain + 0.05423 ∗ wind + 0.008936 ∗ F F M C + 0.002959 ∗ DM C − 0.0121 ∗ ISI
Kết quả cho thấy p-value của mô hình hồi quy này cũng còn cao (pvalue =
0.1503 > 0.05) nên mô hình hồi quy này vẫn không đáng tin cậy. Điều này có
nghĩa là không phải tất cả các yếu tố đều có thể được sử dụng cho việc xây dựng
mô hình hồi quy.
29

4.11.2 Kết quả thực nghiệm 2

Hình 47: Kết quả thực nghiệm 2.

Hình 48: Mô hình hồi quy tuyến tính ở thực nghiệm 2.

Qua Hình 48 chúng ta có công thức của mô hình hồi quy:


log_area = −0.04626 ∗ temp − 0.01043 ∗ DC + 0.00009942 ∗ temp : DC
p-value của mô hình hồi quy này cũng còn cao (pvalue = 0.08178 > 0.05) nên
mô hình hồi quy này vẫn không đáng tin cậy.
30

4.11.3 Kết quả thực nghiệm 3

Hình 49: Mô hình hồi quy tuyến tính ở thực nghiệm 3.

Hình 50: Kết quả thực nghiệm 3.

Qua Hình 49 chúng ta có công thức của mô hình hồi quy:


log_area = −0.0228 ∗ temp − 0.00394 ∗ DM C + 0.0003 ∗ temp : DM C
31

4.11.4 Kết quả thực nghiệm 4

Hình 51: Kết quả thực nghiệm 4.

Hình 52: Mô hình hồi quy tuyến tính ở thực nghiệm 4.

Qua Hình 52 chúng ta có công thức của mô hình hồi quy:


log_area = 0.078 ∗ temp + 0.0.2934 ∗ wind − 0.0137 ∗ temp : wind
32

4.11.5 Kết quả thực nghiệm 5


Qua Hình 53 chúng ta có công thức của mô hình hồi quy:

log_area = −0.3553 ∗ temp + 0.01859 ∗ F F M C − 0.1025 ∗ DM C − 0.08019 ∗


ISI + 0.002651 ∗ temp : F F M C + 0.01047 ∗ temp : DM C + 0.0009177 ∗ F F M C :
DM C +0.081∗temp : ISI −0.002035∗F F M C : ISI −0.0001012∗temp : F F M C :
DM C+0.01423∗DM C : ISI−0.0007183∗temp : F F M C : ISI−0.001557∗temp :
DM C : ISI − 0.000131 ∗ F F M C : DM C : ISI + 0.00001551 ∗ temp : F F M C :
DM C : ISI

Hình 53: Mô hình hồi quy tuyến tính ở thực nghiệm 5


33

Hình 54: Kết quả thực nghiệm 5.

4.11.6 Kết quả thực nghiệm 6

Hình 55: Kết quả thực nghiệm 6.

Công thức của mô hình hồi quy:


log_area = 0.2372 ∗ temp + 0.00725 ∗ DC + 0.02721 ∗ RH + 0.9821 ∗ wind +
0.2836 ∗ rain − 0.0004368 ∗ temp : DC − 0.002053 ∗ temp : RH − 0.00009839 ∗ DC :
RH − 0.07171 ∗ temp : wind − 0.001839 ∗ DC : wind − 0.00838 ∗ RH : wind −
1.128 ∗ temp : rain − 0.02804 ∗ DC : rain − 0.2883 ∗ RH : rain + 0.7998 ∗ wind :
rain + 5.848e − 06 ∗ temp : DC : RH + 0.0001336 ∗ temp : DC : wind + 0.007164 ∗
temp : RH : wind + 2.463e − 05 ∗ DC : RH : wind + 0.001949 ∗ temp : DC :
rain − 1.758e − 06 ∗ temp : DC : RH : wind
34

Hình 56: Mô hình hồi quy tuyến tính ở thực nghiệm 6


35

Mặc dù sử dụng trực tiếp các yếu tố được đo từ tự nhiên, mô hình hồi quy ở
thực nghiệm 6 lại cho kết quả không tốt bằng mô hình hồi quy ở thực nghiệm 5
được xây dựng dựa trên các chỉ số được tính toán từ các yếu tố tự nhiên (MSE
là 2.041 trên tập test so với 1.894 của thực nghiệm 5).

4.11.7 Kết quả thực nghiệm 7

Hình 57: Kết quả thực nghiệm 7.


36

Hình 58: Mô hình hồi quy tuyến tính ở thực nghiệm 7

Công thức mô hình hồi quy:


log_area = 0.3021 ∗ aug + 1.994 ∗ dec + 0.13 ∗ f eb − 0.7 ∗ jan + 0.3632 ∗ jul +
0.1515∗jun−0.0402∗mar+1.085∗may−0.7287∗nov+0.7482∗oct+0.8869∗sep−
0.01568∗temp−0.00744∗DM C−0.001685∗DC+0.05239∗wind+0.0001956∗temp :
DM C + 4.299e − 05 ∗ temp : DC − 0.0002876 ∗ temp : wind

Ở mức ý nghĩa 0.1, yếu tố tháng vẫn có ảnh hưởng đến diện tích cháy (mục
3.5.1). Thực nghiệm 7 đã cho thấy việc thêm yếu tố tháng (chưa được phân
thành các nhóm có ý nghĩa thống kê) giúp cải thiện kết quả dự đoán (MSE trên
tập test là 1.885 so với 1.894 của thực nghiệm 5 và 2.041 của thực nghiệm 6).

4.11.8 Kết quả thực nghiệm 8


37

Hình 59: Mô hình hồi quy tuyến tính ở thực nghiệm 8

Công thức mô hình hồi quy:


log_area = 0.009216∗temp−0.008608∗DM C+0.001447∗DC+0.1784∗wind+
4.45e−04+4.45e−04∗temp : DM C −3.581e−05∗temp : DC −0.007559∗temp :
wind

Hình 60: Kết quả thực nghiệm 8.

Bằng việc giữ lại các yếu tố và tương tác có tác động đến diện tích cháy (các
yếu tố này được xác định thông qua các kiểm định Two-way ANOVA ở phần
3, cho thấy temp, temp:DMC, temp:DC và temp:wind có ảnh hưởng đến diện
tích cháy), mô hình hồi quy ở thực nghiệm 8 cho kết quả tốt hơn so với các thực
nghiệm trước đó.
38

4.11.9 Kết quả thực nghiệm 9

Hình 61: Mô hình hồi quy tuyến tính ở thực nghiệm 9

Công thức mô hình hồi quy:


log_area = 2.522 ∗ dec + 0.06393 ∗ jul − 0.1625 ∗ jun + 0.03122 ∗ mar + 0.5734 ∗
sep + 0.007005 ∗ temp − 9.703e − 05 ∗ DM C − 2.39e − 04 ∗ DC − 0.09964 ∗ wind +
0.0001637 ∗ temp : DM C − 2.777e − 05 ∗ temp : DC + 0.006993 ∗ temp : wind

Hình 62: Kết quả thực nghiệm 9.


39

Sau khi thêm vào yếu tố tháng thì so với mô hình hồi quy ở thực nghiệm 8,
mô hình hồi quy ở thực nghiệm 9 lần này cho kết quả tốt hơn: MSE trên tập
test là 1.77 so với kết quả 1.78 của mô hình ở thực nghiệm 8.

5 Kết luận
Có thể thấy rằng qua nhiều phân tich cũng như thực nghiệm khác nhau, với
nhiều yếu tố được loại ra và thêm vào, dẫu cho ở các lần kiểm định ANOVA đã
cho thấy các yếu tố này có hay không có ý nghĩa ảnh hưởng đến diện tích cháy,
nhưng khi xây dựng mô hình hồi quy tuyến tính các lần thực nghiệm đều cho
thấy các mô hình này không phù hợp để mô hình hóa cho bộ dữ liệu Forest Fires.
Các mô hình hồi quy được xây dựng có độ tin cậy rất thấp (pvalue > 0.05). Mặc
dù đã thêm vào mô hình hồi quy các tương tác của các yếu tố tự nhiên (thực
nghiệm 6) và các chỉ số (thực nghiệm 5), kết quả đã có cải thiện hơn nhưng MSE
vẫn còn cao và kết quả dự đoán hoàn toàn không có ý nghĩa thực tiễn.
Mặt khác, sau khi thực hiện TukeyHSD và phân nhóm các tháng có ý nghĩa
đối với diện tích cháy, các mô hình hồi quy được xây dựng trên tháng đã được
phân nhóm cho kết quả cải thiện hơn rất nhiều (thực nghiệm 8 và thực nghiệm
9), tuy nhiên p-value của các mô hình hồi quy này vẫn còn cao tức là độ tin cậy
của mô hình vẫn còn thấp, do đó hồi quy tuyến tính không thể mô hình hóa
được tốt cho bộ dữ liệu Forest Fires.

6 Hướng phát triển


Trong tương lai, chúng tôi có kế hoạch trong việc sử dụng nhiều phương pháp
học máy và học sâu cho bài toán này nhằm mục đích cải thiện khả năng dự đoán.
Không những vậy, chúng tôi cũng ứng dụng nhiều kỹ thuật trực quan dữ liệu và
kỹ thuật phân tích dữ liệu khác nhằm mục đích có cái nhìn sâu sắc hơn trên bộ
dữ liệu Forest Fires này.

Tài liệu
1. Mutasim Mahmoud Al-Kahlout, Ahmed Mahmoud Abu Ghaly, Donia Zaher Mu-
dawah, and Samy S Abu-Naser. Neural network approach to predict forest fires
using meteorological data. International Journal of Academic Engineering Research
(IJAER), 4(9), 2020.
2. Samaher Al_Janabi, Ibrahim Al_Shourbaji, and Mahdi A Salman. Assessing the
suitability of soft computing approaches for forest fires prediction. Applied computing
and informatics, 14(2):214–224, 2018.
3. Paulo Cortez and Aníbal de Jesus Raimundo Morais. A data mining approach to
predict forest fires using meteorological data. 2007.
4. B. D. Lawson and O. B. Armitage. Weather Guide for the Canadian Forest Fire
Danger Rating System. ISSN: 08318247.
5. CE Van Wagner, Petawawa Forest, et al. Development and structure of the canadian
forest fireweather index system. In Can. For. Serv., Forestry Tech. Rep. Citeseer,
1987.

You might also like