You are on page 1of 81

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN


---------------------

Nguyễn Hữu Quyền

NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH ARIMA ĐỂ DỰ BÁO


LƢỢNG MƢA VỤ ĐÔNG XUÂN Ở MỘT SỐ TỈNH
VÙNG ĐỒNG BẰNG BẮC BỘ

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------

Nguyễn Hữu Quyền

NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH ARIMA ĐỂ DỰ BÁO


LƢỢNG MƢA VỤ ĐÔNG XUÂN Ở MỘT SỐ TỈNH
VÙNG ĐỒNG BẰNG BẮC BỘ

Chuyên ngành: Khí tƣợng và khí hậu học


Mã số: 60.44.87

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS. TS. Dương Văn Khảm

Hà Nội – 2013
LỜI CẢM ƠN

Trước tiên học viên xin trân trọng cảm ơn các thầy cô trong Khoa Khí
tượng Thủy văn và Hải dương học đã hướng dẫn và giúp đỡ tận tình học viên
trong suốt thời gian tham gia lớp cao học.
Đặc biệt, học viên xin bày tỏ lòng biết ơn sâu sắc đến PGS. TS. Dương
Văn Khảm, người đã trực tiếp định hướng và hướng dẫn học viên trong suốt
quá trình hoàn thành luận văn. Sự hiểu biết sâu sắc về khoa học cũng như
những kinh nghiệm của thầy là tiền đề để giúp học viên mở rộng kiến thức và
hoàn thành khóa luận tốt nghiệp.
Xin trân trọng cảm ơn Lãnh đạo Viện Khoa học Khí tượng Thủy văn và
Môi trường, các bạn đồng nghiệp trong cơ quan, đã tạo điều kiện về thời gian
và quan tâm động viên tinh thần trong thời gian học viên đi học và hoàn thành
luận văn.
Cuối cùng xin cảm ơn gia đình và bạn bè đã luôn bên tôi, cỗ vũ và động
viên tôi trong suốt quá trình hoàn thành luận văn này.

Hà Nội, ngày 14 tháng 6 năm 2013

Nguyễn Hữu Quyền

ii
MỤC LỤC
MỞ ĐẦU ....................................................................................................................1
Chƣơng 1. TỔNG QUAN .........................................................................................3
1.1. Cơ sở khoa học của dự báo khí hậu mùa ......................................................3
1.2. Các nghiên cứu trên thế giới .........................................................................8
1.3. Các nghiên cứu ở trong nước ......................................................................13
Chƣơng 2. MÔ HÌNH ARIMA VÀ SỐ LIỆU SỬ DỤNG ...................................21
2.1. Giới thiệu cấu trúc của mô hình ARIMA ...................................................21
2.1.1. Mô hình tự hồi quy trung bình trượt ARIMA ...................................22
2.1.2. Mô hình động thái ARIMAX .............................................................23
2.2. Phương pháp áp dụng mô hình ARIMA và ARIMAX đối với bài toán dự
báo mưa mùa ......................................................................................................24
2.2.1. Xác định tính ổn định ngẫu nhiên của chuỗi thời gian ....................25
2.2.2. Nhận dạng cấu trúc của mô hình .....................................................28
2.2.3. Xác định các tham số của mô hình ...................................................32
2.2.4. Kiểm định mô hình ...........................................................................35
2.2.5. Phần mềm thống kê SAS đối với mô hình ARIMA và ARIMAX .......36
2.3. Các nguồn số liệu được sử dụng .................................................................36
2.3.1. Số liệu quan trắc mưa từ các trạm khí tượng ...................................37
2.3.2. Số liệu về các chỉ số khí hậu ............................................................37
2.3.3. Số liệu về số vết đen mặt trời (Sunspot Number) .............................38
2.3.4. Xử lý số liệu ......................................................................................38
Chƣơng 3. KẾT QUẢ VÀ NHẬN XÉT .................................................................41
3.1. Xây dựng mô hình dự báo mưa vụ đông xuân bằng mô hình ARIMA ......41
3.1.1. Xác định tính ổn định của chuỗi lượng mưa vụ Đông xuân.............41
3.1.2. Nhận dạng mô hình ARIMA .............................................................43
3.1.3. Xác định các thông và kiểm định mô hình ARIMA ..........................44
3.2. Xây dựng mô hình dự báo lượng mưa vụ đông xuân bằng mô hình động
thái ARIMAX ....................................................................................................46
3.2.1. Xác định tính ổn định của chuỗi nhân tố dự báo .............................46

iii
3.2.2. Khảo sát mối quan hệ giữa chỉ số lượng mưa và các biến tham ra dự
tuyển ...........................................................................................................49
3.2.3. Nhận dạng cấu trúc của mô hình động thái ARIMAX .....................53
3.2.4. Kiểm định các thông số trong mô hình động thái ARIMAX .............55
3.3. Đánh giá khả năng mô phỏng của các mô hình ARIMA ............................60
KẾT LUẬN ..............................................................................................................67
TÀI LIỆU THAM KHẢO ......................................................................................68

iv
DANH MỤC HÌNH
Hình1.1. Diễn biến về lượng mưa hàng năm và số vết đen mặt trời với các bước
trượt 11 (hình trên), 21 (hình giữa), 33 (hình dưới) ở Beijing, Trung Quốc [40] .......5
Hình 1.2. Biến trình lượng mưa tháng theo quan trắc và theo mô phỏng ...................9
Hình 1.3. Mối quan hệ giữa lượng mưa quan trắc và mô phỏng theo phương pháp
ANN và mô hình ARIMA vùng Hyderabad [35]. ....................................................11
Hình 1.4. Sơ đồ xây dựng mô hình dự báo khí hậu mùa [13] ..................................16
Hình 1.5. Sơ đồ thực hiện dự báo và cảnh báo hạn hán [14] ....................................17
Hình 1.6. Kết quả quan trắc và dự báo Tmin2m theo REG trong 4 mùa .....................18
tại trạm Láng [12]......................................................................................................18
Hình 2.1. Các thành phần trong chuỗi quan trắc khí hậu [10] .................................26
Hình 2.2. Minh họa diễn biến của chuỗi lượng mưa tháng và hàm tự tương quan
đối với trạm Hà Nội trước khí sai phân (A,A‟) và sau khi sai phân (B,B‟) ..............28
Hình 2.3 Một số dạng chính của hàm ACF và PACF tưng ứng với các dạng mô
hình ARIMA khác nhau [20] ....................................................................................30
Hình 2.4. Một số dạng chính của hàm tương quan chéo giữa biến nhập (X) và biến
phụ thuộc (Y) tưng ứng với các dạng mô hình ARIMA khác nhau [20] ..................31
Hình 2.5 [2] Vị trí nhóm nhân tố ENSO ...................................................................37
Hình 2.6. [9] Mật độ phổ của chỉ số SOI và nhiệt độ bề mặt nước biển ..................38
ở các vùng Nino. .......................................................................................................38
Hình 2.7. Sơ đồ khối xây dựng mô hình ARIMA và ARIMAX ...............................40
Hình 3.1. Diễn biến lượng mưa vụ đông xuân tại 9 trạm .........................................42
vùng Đồng bằng Bắc Bộ. ..........................................................................................42
Hình 3.2. Hàm ACF (bên trái) và hàm PACF (bên phải) của chuỗi .........................44
lượng mưa vụ đông xuân trạm Hà Nội .....................................................................44
Hình 3.3. Hàm ACF (bên trái) và hàm PACF (bên phải) của ...................................45
chuỗi sai số trong mô hình ARIMA hanoi (0, 0, [4, 5]) ..............................................45
Hình. 3.4. Hàm tự tương quan của chuỗi nhân tố dự báo thuộc nhóm chỉ số ENSO
...................................................................................................................................48
Hình 3.5. Hàm tự tương quan của chỉ số vết đen Mặt Trời trước khi sai phân ........49
Hình 3.6 . Hàm tự tương quan của chỉ số vết đen Mặt Trời sau khi sai phân...........49
v
Hình 3.7. Diễn biến hàm tương quan chéo giữa chỉ số lượng mưa vụ Đông Xuân
trạm Hà Nội và dị thường nhiệt độ bề mặt nước biển ở các vùng NINO với thời gian
trễ từ 1 đến 120 tháng so với thời gian dự báo..........................................................51
Hình 3.8. Diễn biến hàm tương quan chéo giữa chỉ số lượng mưa vụ Đông Xuân
trạm Hải Dương và dị thường nhiệt độ bề mặt nước biển ở các vùng NINO với thời
gian trễ từ 1 đến 120 tháng so với thời gian dự báo ..................................................51
Hình 3.9. Diễn biến hàm tương quan chéo giữa chỉ số lượng mưa vụ Đông Xuân
trạm Hà Nội và chỉ số SOI, vết đen Mặt Trời với thời gian trễ từ 1 đến 120 tháng so
với thời gian dự báo ..................................................................................................52
Hình 3.10. Diễn biến hàm tương quan chéo giữa chỉ số lượng mưa vụ Đông Xuân
trạm Hải Dương và chỉ số SOI, vết đen Mặt Trời với thời gian trễ từ 1 đến 120
tháng so với thời gian dự báo ....................................................................................52
Hình 3.11. Hàm tự tương quan và tự tương quan riêng phần của chuỗi sai số dự báo
trong mô hình động thái ARIMAX ...........................................................................58
Hình 3.12. Mô phỏng lượng mưa vụ đông xuân theo các mô hình được xây dựng tại
một số trạm vùng đồng bằng Bắc Bộ ........................................................................62
Hình 3.12. Mô phỏng lượng mưa vụ đông xuân theo các mô hình được xây dựng tại
một số trạm vùng đồng bằng Bắc Bộ (tiếp theo) ......................................................63
Hình 3.12. Mô phỏng lượng mưa vụ đông xuân theo các mô hình được xây dựng tại
một số trạm vùng đồng bằng Bắc Bộ (tiếp theo) ......................................................64
Hình 3.13. Kết quả dự báo lượng mưa vụ đông xuân theo các mô hình được xây
dựng tại một số trạm vùng đồng bằng Bắc Bộ ..........................................................65

vi
DANH MỤC BẢNG

Bảng 1.1. Các đặc trưng liên quan đến mô hình ARIMA tại các trạm .....................11
trên lãnh thổ Thái Lan [39]. ......................................................................................11
Bảng 1.2. Kết quả nhận dạng các mô hình ARIMA và mô hình12 động thái ARIMA
[18] ............................................................................................................................12
Bảng 1.3. So sánh sai số quân phương (RMSE) từ các mô hình được tính toán trên
số liệu phụ thuộc (In-sample) và số liệu độc lập (Out-sample)[18] .........................13
Bảng 3.1. Hệ số tự tương quan và giới hạn tin cậy của chuỗi lượng mưa vụ đông
xuân tại 9 trạm vùng Đồng bằng Bắc Bộ ..................................................................43
Bảng 3.2. Các đặc trưng thông số của mô hình ARIMA hanoi (4, 0, [4, 5]) ...............44
Bảng 3.3. Ma trận tương quan giữa các thông số của mô hình ARIMA hanoi (4, 0,
[4, 5]) .........................................................................................................................45
Bảng 3.4. Các đặc trưng thông số của mô hình ARIMA hanoi (0, 0, [4, 5]) ...............45
Bảng 3.5. Ma trận tương quan giữa các thông số của mô hình ARIMAhanoi(0,0,[4,5])
...................................................................................................................................45
Bảng 3.6. Thứ tự các bước trễ theo tháng…………………………………..…….51
Bảng 3.7. Kết quả nhận dạng cấu trúc của mô hình động thái ARIMAX đối với các
trạm vùng đồng bằng Bắc Bộ ....................................................................................54
Bảng 3.8. Các đặc trưng thống kê của các thông số trong mô hình động thái
ARIMAX ...................................................................................................................56
Bảng 3.9. Ma trận tương quan giữa các thông số trong mô hình động thái ARIMAX
...................................................................................................................................57
Bảng 3.10. Các chỉ tiêu đánh giá khả năng mô phỏng của các mô hình đối với chuỗi
phụ thuộc ...................................................................................................................66
Bảng 3.11. Các chỉ tiêu đánh giá khả năng mô phỏng của các mô hình đối với chuỗi
độc lập .......................................................................................................................66

vii
DANH MỤC CÁC KÍ HIỆU VIẾT TẮT

Ký hiệu Giải nghĩa


AGCM Mô hình hoàn lưu chung khí quyển
ACF Hàm tự tương quan (Autocorrelation function)
ANN Phương pháp mạng thần kinh
AOGCM Mô hình kết hợp (couple) đại dương khí quyển
AOL-GCM Mô hình khí quyển - đại dương – đất
ARIMA Mô hình tự hồi quy trung bình trượt
ARIMAX Mô hình động thái (Dynamic Regression)
CCF Hàm tương quan chéo (Cross correlation function)
DMI Dipole Mode Index
ECMWF Trung tâm Dự báo Thời tiết hạn vừa châu Âu
ENSO Dao động Nam về El Niño/La Nina
GCM Mô hình khí hậu toàn cầu
MAE Sai số trung bình tuyệt đối (Mean Absolute Error)
ME Sai số trung bình, hay sai số hệ thống (Mean Error)
MEI Multivariate ENSO Index
MOS Thống kê sản phẩm đầu ra mô hình (Model Output Statistics)
MSSS Điểm kỹ năng của mô hình (Mean Square Skill Score)
NCAR Trung tâm Quốc gia về Nghiên cứu Khí quyển (Hoa Kỳ)
NCEP Trung tâm Quốc gia Dự báo Môi trường (Hoa Kỳ)
NCSS National Council for the Social Studies
nnk Những người khác
NOAA Cơ quan Quản lý Khí quyển và Đại dương (Hoa Kỳ)
OGCM Mô hình hoàn lưu chung đại dương
PAFC Tự tương quan riềng phần (Part autocorrelation function)
RCM Mô hình khí hậu khu vực
RegCM Mô hình khí hậu khu vực của NCAR
RMSE Sai số quân phương
SAS Statistical Analysis System
SOI Chỉ số dao động nam (Southern Oscillation Index)
SST Nhiệt độ mặt nước biển (Sea Surface Temperature)
Chuẩn sai nhiệt độ mặt nước biển (Sea Surface Temperature
SSTA
Anomalies)
VDMT Vết đen Mặt Trời
Tổ chức Khí tượng Thế giới (World Meteorological
WMO
Organization)

viii
MỞ ĐẦU

Các thông tin dự báo khí hậu, đặc biệt là dự báo mưa mùa có ý nghĩa lớn đến
các hoạt động phát triển kinh tế xã hội như: kế hoạch sản xuất nông nghiệp, du
lịch, đánh bắt và nuôi trồng thủy sản, quản lý, khai thác có hiệu quả nguồn tài
nguyên nước... Mức độ tin cậy về dự báo mưa mùa thường thấp hơn so với các yếu
tố dự báo khác, nguyên nhân là do sự phân bố theo không gian và sự biến đổi theo
thời gian của lượng mưa phụ thuộc vào nhiều yếu tố khác. Chính vì vậy công tác
nghiên cứu dự báo mưa mùa tuy không còn mới nhưng vẫn đang rất được quan tâm
ở nhiều nước trên thế giới, trong đó có Việt Nam.
Ở vùng đồng bằng Bắc Bộ trong những năm gần đây sản xuất lúa vụ đông
xuân luôn phải đối mặt với tình trạng thiếu nước nghiêm trọng ở giai đoạn đầu vụ,
nhiều khu vực đã phải chuyển đổi diện tích trồng lúa vụ đông xuân sang trồng các
cây hoa màu. Việc dự báo được lượng mưa vụ đông xuân, đặc biệt là tổng lượng
mưa trong khoảng từ tháng 10 năm trước đến tháng 1 năm sau sẽ cho phép tính toán
được tổng lượng nước cần phải tưới đối với các cây trồng cạn trong vụ đông và
lượng nước đổ ải làm đất đối với vụ lúa đông xuân thông qua các mô hình khí tượng
nông nghiệp. Các kết quả này sẽ là cơ sở khoa học trong việc lập kế hoạch tích trữ
nước cho các hồ chứa trong vùng, bố trí hợp lý cây vụ đông và đưa ra quyết định về
thời vụ cơ cấu cây trồng. Đây là bài toán có ý nghĩa rất quan trọng trong công tác
chỉ đạo sản xuất nông nghiệp ở các tỉnh đồng bằng Bắc Bộ mà sự thành công của nó
phụ thuộc rất nhiều vào kết quả dự báo tổng lượng mưa trong giai đoạn này.
Hiện nay ở Việt Nam, các bản tin dự báo hạn mùa đã đáp ứng phần nào nhu
cầu phục vụ phát triển kinh tế xã hội và phòng tránh giảm nhẹ thiên tai, tuy nhiên để
giải quyết bài toán nêu trên, sẽ gặp phải khó khăn về nguồn dữ liệu đầu vào, các kết
quả dự báo mưa còn mang tính định tính, chưa đưa ra định lượng và hơn nữa, thời
hạn dự báo là 3 tháng liên tiếp, chưa thật sự phù hợp với yêu cầu của bài toán nông
nghiệp ở vùng này.
Hiện nay có hai cách tiếp cận để nghiên cứu dự báo mưa mùa vụ là bằng
phương pháp thống kê và phương pháp mô hình động lực. Nhìn chung, phương

1
pháp thống kê truyền thống đã đạt được những kết quả nhất định, nhiều mô hình
thống kê có đóng góp chính trong việc đưa ra bản tin dự báo tổng lượng mưa mùa.
Phương pháp mô hình động lực là hướng nghiên cứu đang rất được quan tâm phát
triển, nó có những ưu điểm vượt trội về khả năng cung cấp sản phẩm dự báo, tuy
nhiên, việc giải mô hình số rất phức tạp và tốn kém, cần phải có công cụ máy tính
cấu hình cao và hơn nữa kết quả dự báo mưa cũng chưa đạt được độ chính xác như
mong muốn.
Mô hình ARIMA là mô hình phân tích chuỗi thời gian, nó không chỉ xem xét
các chu kỳ tự vận động của chuỗi dữ liệu dự báo, các mối tương tác trong quá trình
tự vận động của các nhân tố ảnh hưởng khác mà nó còn đánh giá được các quy luật
sai số trong quá trình mô phỏng để nâng cao độ chính xác của dự báo. Mặc dù mô
hình này đã được áp dụng ở nhiều nước trên thế giới nhưng ở Việt Nam cho đến
nay vẫn còn rất ít các nghiên cứu áp dụng trong dự báo khí hậu mùa.
Xuất phát từ các nhận thức nêu trên và để góp phần đáp ứng nhu cầu thực
tiễn, chúng tôi chọn đề tài luận văn tốt nghiệp là: "Nghiên cứu ứng dụng mô hình
ARIMA để dự báo lƣợng mƣa vụ đông xuân ở một số tỉnh vùng đồng bằng Bắc
Bộ".
Các nôi dung chính của luận văn được trình bày trong 3 chương như sau:
Chương 1: Tổng quan
Chương 2: Mô hình ARIMA và số liệu sử dụng
Chương 3: Kết quả và thảo luận

2
Chƣơng 1

TỔNG QUAN

Trong chương này, sẽ trình bày cơ sở khoa học của dự báo khí hậu mùa và
tóm lược các công trình nghiên cứu tiêu biểu nhằm rút ra được những thông tin cần
khai thác, ứng dụng hoặc cải tiến trong việc thực hiện các nội dung của đề tài.
1.1. Cơ sở khoa học của dự báo khí hậu mùa
Trải qua hàng nghìn năm con người đã có kinh nghiệm tìm cánh thích ứng
với quy luật diễn biến khí hậu, biểu hiện rõ rệt nhất là sự hình thành mùa, vụ trong
nông nghiệp. Tuy nhiên trong thực tế sự dao động mang tính quy luật của các hiện
tượng thời tiết khí hậu diễn ra không ổn định, tính bất thường của nó sẽ ảnh hưởng
đến các hoạt động kinh tế - xã hội, trong đó có sản xuất nông nghiệp. Vì vậy nếu dự
báo được mức độ biến động của các yếu tố khí hậu, đặc biệt là yếu tố lượng mưa
trong từng mùa, vụ sẽ cho phép thực hiện công tác chỉ đạo sản xuất hợp lý, tiết kiệm
được nguồn nước, giảm chi phí trong sản xuất, nâng cao năng suất cây trồng… Đó
chính là một trong những yêu cầu đối với các nhà nghiên cứu dự báo khí hậu.
Trong khí tượng, công tác dự báo nghiệp vụ thường được chia thành 2 loại:
dự báo thời tiết và dự báo khí hậu. Dự báo thời tiết là dự báo trước trạng thái của
khí quyển tại một địa điểm và thời điểm cụ thể (thời điểm có thể là từng giờ, từng
ngày). Dự báo khí hậu là dự báo các đặc trưng về điều kiện khí quyển trong từng
khoảng thời gian dài như: tháng, mùa, vụ, năm, thập kỷ, thế kỷ, trong đó, được quan
tâm nhiều nhất là dự báo hạn mùa (tháng, mùa, vụ). Dự báo khí hậu hạn mùa khác
với dự báo thời tiết không chỉ ở phạm vi thời gian, mục đích mà còn khác cả sản
phẩm, cách tiếp cận và phương pháp. Nhiều thông tin mà nghiên cứu dự báo thời
tiết có thể bỏ qua, nhưng nghiên cứu dự báo mùa lại cần phải tính toán rất thận
trọng [36].
Do tính tương tác không tuyến tính của các hình thế thời tiết ở quy mô synop
nên dự báo thời tiết chỉ có thể dự báo trước được một số ngày. Theo WMO quy
định các dự báo khí tượng có hạn dự báo nhỏ hơn hoặc bằng 10 ngày được xem là
dự báo thời tiết (thời đoạn 10 ngày là cận trên của chu kỳ Synop) và hạn dự báo
trong khoảng tháng, mùa, vụ được xem là dự báo mùa [41].

3
Sản phẩm của dự báo thời tiết bao gồm nhiều yếu tố khí tượng với các mức
định lượng khác nhau, nhưng sản phẩm của dự báo hạn mùa thường là mức độ dao
động xung quanh giá trị trung bình nhiều năm của một số yếu tố khí hậu chính như
nhiệt độ và lượng mưa. Ngoài ra các hiện tượng thời tiết đặc biệt như: bão, áp thấp
nhiệt đới, mưa lớn, nắng nóng, rét đậm, rét hại, khô hạn cũng đã được nghiên cứu
trong công tác dự báo mùa để nhằm giảm thiệt hại do thiên tai gây ra đối với phát
triển kinh tế - xã hội của mỗi quốc gia.
Mục tiêu của các mô hình dự báo thời tiết là nắm bắt chính xác trạng thái của
khí quyển trong khoảng thời gian dự báo. Mức độ chính xác của mô hình dự báo
thời tiết thường phụ thuộc vào hạn dự báo, khả năng giải các phương trình biến
động ngắn hạn của các đặc trưng khí quyển và độ chính xác của điều kiện ban đầu
và điều kiện biên. Nhưng đối với các mô hình dự báo hạn mùa, cần phải nắm bắt
được dị thường của khí hậu mùa, đây là một bài toán rất phức tạp mà sự thành công
của dự báo phụ thuộc vào mức độ hiểu biết về mối quan hệ tương tác giữa khí
quyển, lục địa và đại dương [41].
Theo [36], các hoạt động tự nhiên của hệ thống khí hậu làm gia tăng biến
động của khí hậu trên tất cả quy mô thời gian. Một số các quá trình xảy ra trong
khoảng thời gian ngắn như sự phát triển của hệ thống synop trong khí quyển là một
trong những nguyên nhân dẫn đến sai số dự báo mùa. Tuy nhiên, sự thay đổi chậm
của hệ thống khí hậu là nguồn gốc cơ bản cho phép dự báo khí hậu mùa. Nguyên
nhân của sự thay đổi này bao gồm sự thay đổi trong khoảng thời gian dài của đại
dương, hệ thống tương tác đại dương-khí quyển và các thành phần khác như băng
biển, điều kiện bề mặt đất, độ che phủ của tuyết…
El Nino và Dao động Nam (SO) được xem là nhân tố tác động lớn nhất đến
dị thường khí hậu, trong đó có lượng mưa. Walker (1924) đã phát hiện ra dao động
của khí áp quy mô lớn, từ năm này qua năm khác ở 2 phía Đông và Tây của khu
vực xích đạo Thái Bình Dương (Tahiti và Darwin) và được gọi là Dao động Nam.
Hơn 40 năm sau, trong công trình nghiên cứu của Jacob Bjerknes (1969) thừa nhận
có sự quan hệ chặt chẽ giữa Dao động Nam và sự thay đổi về nhiệt độ bề mặt nước
biển trên khu vực Xích Đạo đông Thái Bình Dương. Mối quan hệ này thể hiện sự
tương tác giữa đại dương và khí quyển mà biểu hiện của nó chính là hiện tượng

4
ENSO (El Nino–Southern Oscillation). ENSO được dùng để chỉ cả 2 hai hiện tượng
El Nino, La Nina và có liên quan với Dao động Nam. ENSO là nhân tố ảnh hưởng
lớn nhất đến các dao động khí hậu hàng năm, chính sự kết hợp này là nguồn gốc
chính sinh ra dị thường về nhiệt độ và lượng mưa trên phạm vi toàn cầu [32,33].
Trong những năm gần đây đã có nhiều tác giả sử dụng các phương pháp khác
nhau để tìm quy luật dao động của ENSO cũng như đánh giá ảnh hưởng của nó đến
các yếu tố khí hậu đã làm rõ hơn về sự tương tác giữa khí quyển và đại dương, và
đặc biệt là dự báo hiện tượng ENSO theo quy mô tháng và năm đã hỗ trợ tốt hơn
cho các dự báo hạn mùa ở nhiều nơi trên thế giới [36]
Ngoài ra, nhân tố tác động bên ngoài hệ thống khí hậu như sự thay đổi số vết
đen mặt trời cũng được xem xét đến trong nghiên cứu dự báo khí hậu mùa. (Vết đen
Mặt Trời là các khu vực tối trên bề mặt Mặt Trời. Độ sáng bề mặt của vết đen vào
khoảng 1/4 độ sáng của những vùng xung quanh. Nguyên nhân xuất hiện vết đen là
do nhiệt độ của chúng thấp hơn các vùng xung quanh [42]). Tuy nhiên, tác động của
nhân tố này đến quy mô khí hậu mùa thường là không lớn và có xu hướng hoạt
động trên quy mô thời gian dài, đáng kể nhất là chu kỳ mặt trời 11 năm [40].

Hình1.1. Diễn biến về lượng mưa hàng năm và số vết đen mặt trời với các
bước trượt 11 (hình trên), 21 (hình giữa), 33 (hình dưới) ở Beijing, Trung Quốc
[40]

5
Cho đến nay, có hai cách tiếp cận để dự báo khí hậu mùa là dự báo bằng
phương pháp thống kê thực nghiệm và phương pháp động lực. Mỗi phương pháp
đều tồn tại những điểm mạnh yếu và có xu hướng bổ xung cho nhau, do vậy các
hoạt động dự báo mùa ở nhiều trung tâm thông thường phụ thuộc vào sự tổng hợp
các thông tin được cung cấp bởi các công cụ dự báo thống kê và mô hình động lực
[36].
Phương pháp thống kê thực nghiệm phụ thuộc vào mối quan hệ giữa yếu tố
dự báo với các nhân tố dự báo. Nhân tố dự báo có thể là các quan trắc hiện tại và
quá khứ hoặc các trường tái phân tích khí quyển, đại dương (SST, SOI, MEI ...),
hoặc cũng có thể là các trường dự báo của các mô hình khí hậu toàn cầu (hạ thấp
qui mô thống kê - Statistical Downscaling). Mối quan hệ giữa yếu tố dự báo với các
nhân tố dự báo được xây dựng dựa trên các tập số liệu lịch sử và giả thiết rằng mối
quan hệ đó vẫn duy trì trong tương lai. Các công cụ phân tích thống kê khác nhau
như: phân tích tương quan, hồi quy, xác suất có điều kiện, hàm phân biệt, phân tích
chuỗi thời gian …được sử dụng nhằm nắm bắt được tính chất vật lý và các quá trình
động lực trong hệ thống khí hậu. Ưu điểm của cách tiếp cận này đó là quá trình tính
toán trong các mô hình không cần công hiệu máy tính lớn, đơn giản, dễ áp dụng
trong thực tiễn, kết quả dự báo mang tính khách quan, tuân theo một quy tắc nhất
định. Ban đầu, hướng tiếp cận này không thực sự thành công, nhưng với sự gia
tăng hiểu biết về hiện tượng ENSO và các hình thế thời tiết khác đã giúp cho
phương pháp này đáng tin cậy hơn [ 36]. Tuy nhiên, cách tiếp cận này tồn tại một
số điểm như: chỉ đơn thuần dựa vào mối quan hệ tuyến tính, không biểu diễn
trực tiếp quan hệ vật lý giữa nhân tố dự báo và yếu tố dự báo, các điều kiện khí
hậu chưa từng xảy ra không được xét đến trong quá trình dự báo, và kết quả dự
báo phụ thuộc nhiều vào độ dài chuỗi số liệu.
Phương pháp động lực là hướng nghiên cứu mô phỏng khí hậu bằng mô hình
số. Để biểu diễn các quan hệ vật lý giữa các yếu tố, người ta xây dựng các mô hình
số dựa trên mối tương tác vật lý của sự chuyển động. Phát triển sớm nhất của loại
mô hình này là mô hình hoàn lưu chung khí quyển (AGCM), sau đó, do sự ảnh
hưởng quan trọng của đại dương đối với hệ thống khí hậu nên đã lồng ghép mô hình

6
hoàn lưu chung đại dương (OGCM) với mô hình hoàn lưu chung khí quyển để tạo
thành hệ thống mô hình kết hợp (couple) đại dương khí quyển (AOGCM). Mặt
khác, do nhu cầu sử dụng thông tin dự báo với độ phân giải không gian cao, các nhà
khoa học đã đưa ra các mô hình khí hậu khu vực (RCM), mô hình RCM được xây
dựng theo nguyên tắc RCM được lồng vào một GCM nào đó. Phương pháp lồng
ghép RCM vào AOGCM thường được gọi là hạ thấp qui mô động lực (Dynamical
Downscaling). Hiện nay, các mô hình hoàn lưu chung khí quyển đại dương và các
mô hình khí hậu khu vực là công cụ chủ yếu được sử dụng để xác định sự biến động
khí hậu trong quá khứ và dự báo khí hậu cho tương lai. Nếu kết quả đầu ra của mô
hình có sai số hệ thống, nó sẽ thực hiện thêm quá trình thống kê sản phẩm mô hình
(MOS) để đạt được kết quả đầu ra tốt hơn. Ngoài ra, một số các trung tâm lớn như
Trung tâm dự báo thời tiết hạn vừa châu âu (ECMWF), Cơ quan Quản lý Khí quyển
và Đại dương Hoa Kỳ (NOAA) hiện đang sử dụng các mô hình khí quyển - đại
dương – đất (AOL-GCM) để đưa ra sản phẩm dự báo mùa [30,34].
Ưu điểm chính của mô hình động lực là: mô hình động lực không bị hạn chế
bởi sự không ổn định của khí hậu, có thể nắm bắt được các giá trị cực trị hoặc
những hiện tượng bất thường có thể chưa từng xuất hiện trong khí hậu. Tuy nhiên,
mô hình còn có những nhược điểm sau: việc giải mô hình số rất phức tạp, cần phải
có công cụ máy tính lớn, đầu tư lớn về hệ thống đồng hóa dữ liệu, hơn nữa các mô
hình này cũng có thể chứa đựng nhiều sai số từ các quá trình tương tác với các nhân
tố tác động (forcing) dẫn đến sai số của các mô hình biến đổi mạnh theo vùng, theo
mùa và tùy thuộc từng yếu tố khí tượng [22].
Như đã trình bày ở trên, tác giả đã tổng quan một số các nội dung liên quan
đến cơ sở khoa học đối với dự báo khí hậu mùa, bao gồm: hạn dự báo, sản phẩm dự
báo, các nhân tố chính tác động đến khí hậu mùa và đặc biệt là các cách tiếp cận
để dự báo mùa hiện nay. Tiếp theo, sẽ tổng quan các nghiên cứu tiêu biểu liên quan
đến dự báo mưa mùa (trọng điểm là phương pháp thống kê) trên thế giới và ở Việt
Nam.

7
1.2. Các nghiên cứu trên thế giới
Từ những điểm mạnh, điểm yếu của phương pháp thống kê và phương pháp
mô hình số như đã trình bày ở trên, đã có nhiều quan điểm cho rằng cách giải quyết
tối ưu trong trường hợp này là kết hợp cả hai phương pháp để tận dụng điểm mạnh
và hạn chế yếu điểm của mỗi phương pháp. Chính vì vậy, đã có nhiều nghiên cứu
dự báo mưa mùa theo hướng tiếp cận bằng phương pháp thống kê truyền thống
hoặc kết hợp cả động lực và thống kê nhằm tăng chất lượng dự báo.
Hướng tiếp cận kết hợp cả động lực và thống kê bao gồm: 1) Thống kê sau
mô hình (MOS): Dựa trên mối quan hệ thống kê giữa sản phẩm dự báo mưa
(hindcast) của các mô hình động lực và số liệu quan trắc lượng mưa, xem sản phẩm
dự báo của mô hình động lực như là các nhân tố dự báo. 2) Hạ thấp qui mô thống
kê (Statistical Downscaling): Dựa trên mối quan hệ thống kê giữa số liệu quan trắc
mưa và các trường tái phân tích, coi dự báo của GCM là hoàn hảo và sử dụng chúng
như là nhân tố dự báo để xác định yếu tố dự báo cho tương lai. 3) So sánh sản phẩm
dự báo mưa (hindcast) của cả 2 phương pháp thống kê và động lực để chọn mô hình
phù hợp nhất phục vụ công tác dự báo nghiệp vụ. Chi tiết về các phương pháp này
được trình bày trong các nghiên cứu của Pai và CS. 2006, Lim và CS. 2010,
Rajeevan và CS. 2007, Liew và CS. 2009. Sau đây khái quát một số nghiên cứu
điển hình theo hướng động lực và thống kê.
Năm 2011, trong nghiên cứu dự báo mưa mùa cho khu vực châu Phi, Anne
Rourke đã đánh giá kỹ năng mô phỏng lượng mưa mùa bằng cả 2 phương pháp
động lực và thống kê đối với từng vùng, từng mùa. Trên cơ sở đó đã chọn được mô
hình phù hợp nhất được áp dụng đối với từng mùa và từng khu vực nhỏ trong vùng
nghiên cứu [24].
Indira Kadel năm 2012 đã sử dụng phương pháp Downscaling thống kê để dự
báo mưa mùa cho khu vực Nepal của Ấn Độ, trong đó, nhân tố dự báo được chọn từ
bộ số liệu tái phân tích của NCEP/NCAR về tham số khí quyển đại, dương thời kỳ
1970 – 2010 [23].

8
Hướng tiếp cận theo phương pháp thống kê truyền thống: Đây là hướng
nghiên cứu không mới, nhưng do tính đơn giản, dễ sử dụng, ít tốn kém, kết quả
tương đối ổn định nên cho đến nay các mô hình thống kê vẫn đang được sử dụng
khá phổ biến. Nhiều mô hình thống kê có vai trò chính trong việc dự báo tổng lượng
mưa mùa, đặc biệt là các quốc gia nằm trong vùng nhiệt đới, là nơi sự kiện ENSO
tác động mạnh đến lượng mưa [17]. Phần lớn các mô hình thống kê được xây dựng
trên cơ sở hồi quy tuyến tính giữa các nhân tố dự báo (các chỉ số ENSO) và chỉ số
lượng mưa, khái quát một cách khá toàn diện và đầy đủ được trình bày trong báo
cáo của A. Troccoli và M. Harrison (2008). Ở đây, chỉ tổng quan các nghiên cứu điển
hình liên quan đến mô hình ARIMA.
Năm 2009, P.E. Naill và nnk đã áp dụng mô hình ARIMA để dự báo lượng
mưa tháng cho khu vực Jordan thuộc vùng ven biển Địa Trung Hải. Trong nghiên
cứu này các tác giả đã sử dụng hàm tự tương quan và tự tương quan riêng phần của
chuỗi lượng mưa để xác định các tham số p,d,q trong mô hình ARIMA, từ đó chọn
được mô hình ARIMA (1, 0, 0) (0, 1, 1)12 là mô hình dự báo lượng mưa tháng cho
khu vực nghiên cứu [28]. Cũng theo hướng nghiên cứu này năm 2006, Chookait và
nnk đã áp dụng mô hình ARIMA (0, 1, 1) (0, 1, 1)12 đối với chuỗi sô liệu mưa tháng
từ năm 1996 đến 2005 để dự báo mưa cho vùng Thái Lan [21]. Diễn biến giữa kết
quả mô phỏng và số liệu quan trắc của 2 nghiên cứu này được trình bày trên hình
1.3.

Ở Jordan [28] Ở Thái Lan [21]


Hình 1.2. Biến trình lượng mưa tháng theo quan trắc và theo mô phỏng

9
Từ hình 1.2 nhận thấy kết quả quan trắc và mô phỏng là khá tương đồng đối
với các tháng có lượng mưa không lớn, tuy nhiên do chỉ xét duy nhất quá trình tự
hồi quy của chuỗi lượng mưa nên mô hình không thể nắm bắt được những dị
thường về lượng mưa, đây là điểm hạn chế lớn nhất trong các nghiên cứu này.
Cũng trong năm 2006, V.K. Somvanshi và nnk đã sử dụng phương pháp
mạng thần kinh nhân tạo (ANN) và mô hình ARIMA để dự báo tổng lượng mưa
hàng năm cho khu vực Ấn Độ phục vụ công tác quản lý tài nguyên nước. Trong
nghiên cứu này, các tác giả đã sử dụng chuỗi tổng lượng mưa hàng năm của vùng
Hyderabad thuộc Ấn Độ có độ dài chuổi là 104 năm (1901 – 2003), trong đó 93
năm đầu được dùng để xây dựng mô hình, 10 năm còn lại được sử dụng để kiểm
định mô hình. Từ kết quả tính toán, các tác giả nhận thấy việc áp dụng phương pháp
ANN và mô hình ARIMA trong dự báo hạn dài ở khu vực Hyderabad là khá phù
hợp và có thể áp dụng để phát triển cho các vùng khác thuộc Ấn Độ. Kết quả mô
phỏng mưa từ phương pháp ANN và từ mô hình ARIMA được thể hiện ở hình 1.3
[35].

ARIMA trên chuỗi phụ thuộc ARIMA trên chuỗi độc lập

ANN trên chuỗi phụ thuộc ANN trên chuỗi độc lập

10
Hình 1.3. Mối quan hệ giữa lượng mưa quan trắc và mô phỏng theo phương
pháp ANN và mô hình ARIMA vùng Hyderabad [35].
Liên quan đến dự báo tổng lượng mưa hàng năm, năm 2005, Uruya
Weesakul và nnk đã nghiên cứu áp dụng mô hình ARIMA để dự báo lượng mưa
hàng năm phục vụ công tác lập kế hoạch điều tiết nước trên toàn lãnh thổ Thái Lan.
Các kết quả dự báo trên chuỗi số liệu độc lập (1991-2003) là khá tốt, sai số tương
đối trên toàn quốc dao động từ 7.5% đến 26.9 %, Bảng …[39]
Bảng 1.1. Các đặc trưng liên quan đến mô hình ARIMA tại các trạm
trên lãnh thổ Thái Lan [39].

Ngoài việc xem xét thành thành phần tự hồi quy và trung bình trượt trong mô hình
ARIMA, năm 2009, Bambang và nnk còn xem xét tác động của các chỉ số khí hậu
khác đến lượng mưa tháng trên một số vùng của Indonesia. Mục tiêu của nghiên
cứu này là xác định được mô hình dự báo mưa tốt nhất trong số các mô hình

11
ARIMA, mô hình động thái ARIMA đơn biến và mô hình động thái ARIMA đa
biến. Số liệu sử dụng là tổng lượng mưa tháng thời kỳ 1989 - 2008 được quan trắc
tại các trạm khí tượng và số liệu về chỉ số DMI, SST tại các vùng NINO [18]. Kết
quả nhận dạng mô hình được trình bày trong bảng 1.2.
Bảng 1.2. Kết quả nhận dạng các mô hình ARIMA và mô hình
động thái ARIMA [18]
Mô hình ARIMA

Mô hình động thái ARIMA đơn biến (Single-input Transfer Function)

Mô hình động thái ARIMA đa biến (Multi-input Transfer Function models)

12
Trên cơ sở nhận dạng và xác định các tham số trong các mô hình được trình
bày ở bảng 1.2, các tác giả đã kiểm định các mô hình để chọn ra mô hình tốt nhất,
phù hợp cho mỗi vùng trong khu vực nghiên cứu. Kết quả được trình bày trong
bảng 1.3 [18].
Bảng 1.3. So sánh sai số quân phương (RMSE) từ các mô hình được tính toán trên
số liệu phụ thuộc (In-sample) và số liệu độc lập (Out-sample)[18]

Từ bảng 1.3 nhận thấy khi có sự tham gia của các biến về chỉ số ENSO ở các
vùng NINO vào mô hình động thái ARIMA thì sai số của mô hình đã giảm đáng kể
so với trường hợp chỉ xét riêng thành phần tự hồi quy và trung bình trượt trong mô
hình ARIMA.
1.3. Các nghiên cứu ở trong nƣớc
Ở Việt Nam hiện nay đang sử dụng các mô hình thống kê để dự báo mưa hạn
mùa, các thông tin dự báo được cập nhật hàng tháng trên trang Web của Viện Khoa
học Khí tượng Thủy Văn và Môi trường (http://www.imh.ac.vn) và Trung tâm Khí
tượng Thủy văn Trung Ương (http://www.nchmf.gov.vn/web/vi-
VN/70/16/Default.aspx). Bản tin dự báo tập trung vào nhận định về diễn biến của
hiện tượng ENSO, kết quả dự báo là xác suất các pha hụt chuẩn, cận chuẩn, vượt
chuẩn của lượng mưa ở quy mô cấp vùng.
Cho đến nay, thông qua các đề tài, dự án, luận văn khoa học, luận án tiến sỹ,
đã có nhiều công trình nghiên cứu liên quan đến dự báo mùa nói chung và dự báo
mưa nói riêng. Cách tiếp cận để giải quyết bài toán dự báo mùa trong các nghiên

13
cứu này đều dựa theo phương pháp thống kê hoặc phương pháp mô hình số. Có thể
chia các công trình nghiên cứu này thành 4 nhóm như sau:
1) Nhóm công trình nghiên cứu theo phương pháp thống kê truyền thống.
Trong đó, các nhân tố dự báo là số liệu quan trắc hoặc các trường tái phân tích khí
quyển, đại dương. Trong cách tiếp cận này, quan hệ thống kê giữa yếu tố dự báo với
các nhân tố dự báo được xây dựng dựa trên các tập số liệu lịch sử và giả thiết rằng
mối quan hệ đó vẫn duy trì trong tương lai. Trong số các công trình nghiên cứu
thuộc nhóm này là đề án “Nghiên cứu thử nghiệm dự báo khí hậu ở Việt Nam”
được thực hiện bởi nhóm tác giả Nguyễn Duy Chinh, Nguyễn Văn Thắng, Phan
Văn Tân... Trong nghiên cứu này, đối tượng dự báo được xác định là chuẩn sai
nhiệt độ và lượng mưa mùa (3 tháng liên tục) trên 7 vùng khí hậu Việt Nam, nhân tố
dự báo bao gồm: chuẩn sai nhiệt độ bề mặt nước biển (SSTA) của các khu vực
NINO, chỉ số SOI và số liệu về 12 thành phần trực giao đầu tiên của trường số liệu
SST toàn cầu. Về mặt phương pháp các tác giả đã thử nghiệm nhiều phương pháp
phân tích thống kê khác nhau như: phân tích tự tương quan, phân tích hồi quy nhiều
biến, phân tích hồi quy từng bước, phân tích phân biệt, phân tích mạng thần kinh
nhân tạo, phân tích tương quan Canon và từ đó đã chọn được phương pháp hồi quy
nhiều biến để xây dựng quy trình dự báo[1]. Các kết quả trong nghiên cứu này đã và
đang được sử dụng vào công tác nghiệp vụ dự báo khí hậu của Viện Khoa học Khí
tượng Thủy Văn và Môi trường.
Cũng theo hướng tiếp cận này còn có một số công trình nghiên cứu khác
như: Lương Văn Việt, năm 2006, đã dự báo mưa, nhiệt và ẩm cho khu vực Nam Bộ
[16]; Lê Đức Cương, năm 2001, đã thử nghiệm dự báo số lượng xoáy thuận nhiệt
đới hoạt động trên biển Đông và dọc bờ biển Việt Nam [2]; Phan Thị Lê Hằng năm
2008 đã thử nghiệm khả năng dự báo số đợt nắng nóng, rét đậm, rét hại cho các
trạm đại diện trên lãnh thổ Việt Nam [4]. Hầu hết các nghiên cứu này các tác giả
đều đã sử dụng nhân tố dự báo là các chỉ số giám sát ENSO.
2) Nhóm công trình nghiên cứu theo phương pháp mô hình số

14
Việc nghiên cứu sử dụng các mô hình số trị trong dự báo khí hậu mùa ở nước
ta mới bắt đầu được thực hiện từ đầu những năm 2000, đến nay đã có nhiều công
trình nghiên cứu mô phỏng mùa các trường khí hậu bằng các mô hình số trị. Nội
dung của các công trình nghiên cứu này từng bước giải quyết một số vấn đề như:
tìm hiểu về cấu trúc của mô hình; nghiên cứu ảnh hưởng của kích thước, vị trí miền
tính và độ phân giải của mô hình, ảnh hưởng của các điều kiện biên và điều kiện
ban đầu, ảnh hưởng của việc tham số hóa quá trình vật lý ... đến khả năng mô phỏng
khí hậu mùa từ các mô hình khí hậu khu vực, từ đó, đánh giá khả năng ứng dụng
mô hình khí hậu khu vực vào điều kiện Việt Nam. Chi tiết về hướng nghiên cứu này
đã được Phan Văn Tân và CS trình bày trong Báo cáo tổng kết đề tài cấp Đại học
Quốc gia (QG.TĐ.06.05) [11]. Về nhóm các công trình nghiên cứu theo phương
pháp mô hình số ở Việt Nam đã được tổng quan khá chi tiết và đầy đủ trong luận
văn thạc sỹ của Nguyễn Đăng Mậu (2012).
3) Nhóm công trình nghiên cứu theo phương pháp hạ thấp qui mô thống kê
(Statistical Downscaling), đây là hướng nghiên cứu kết hợp của cả 2 phương pháp,
thống kê và mô hình số. Trong đó nhân tố dự báo là các trường dự báo của mô hình
GCM được tổng hợp, phân tích lại và giả thiết rằng dự báo này là hoàn hảo. Một
trong những công trình nghiên cứu đi đầu theo hướng này là đề tài “Nghiên cứu xây
dựng mô hình dự báo khí hậu cho Việt Nam dựa trên kết quả của mô hình động lực
toàn cầu” của Nguyễn Văn Thắng, năm 2006. Trong nghiên cứu này, yếu tố dự báo
là chỉ số mưa, nhiệt độ mùa (12 mùa, mỗi mùa gồm 3 tháng liên tiếp) của 7 vùng
khí hậu Việt Nam) và các yếu tố khác, như số lượng các đợt không khí lạnh, mưa
lớn diện rộng, nắng nóng, xoáy thuận nhiệt đới…, nhân tố dự báo là các trường
chuẩn sai nhiệt độ mặt nước biển (SSTA), khí áp mực biển (SLPA), bức xạ sóng dài
(OLRA), tốc độ gió (U, V) ở các mức độ cao 1000 mb, 850 mb, 700 mb, 500 mb,
200 mb; (theo ô lưới). Các trường này là kết quả của các mô hình toàn cầu đã được
tổng hợp và phân tích lại tại các trung tâm khí hậu như CPC/NCEP, NCAR, IRI
(Mỹ), CPTEC/INPE (Brasil), NCC, BoM (Úc), ECMWF (EC). Trên cơ sở bản đồ

15
hệ số tương quan giữa yếu tố dự báo và giá trị tại mỗi ô lưới của các trường khí hậu
toàn cầu nêu trên, sẽ chọn được các vị trí có tương quan tốt nhất được sử dụng làm
nhân tố dự tuyển trong mô hình hồi quy từng bước để lọc nhân tố. Sơ đồ xây dựng
mô hình dự báo khí hậu mùa được trình bày trong hình 1.4 [13]. Từ kết quả của Đề
tài các tác giả cho rằng phương pháp Downscaling thống kê không chỉ áp dụng tốt
trong dự báo khí hậu mùa mà có thể áp dụng dự báo trong các lĩnh vực khác, nếu
yếu tố dự báo có liên quan mật thiết với các trường khí tượng, khí hậu, ví dụ như xu
thế các dịch bệnh của con người, động vật, năng suất cây trồng, mùa vụ,...

Hình 1.4. Sơ đồ xây dựng mô hình dự báo khí hậu mùa [13]
Cũng theo hướng nghiên cứu này, năm 2008, Nguyễn Văn Thắng và CS đã
thực hiện đề tài “Xây dựng phương án chi tiết thử nghiệm ứng dụng công nghệ dự

16
báo và cảnh báo sớm hạn hán ở Việt Nam”. Trong nghiên cứu này, trên cơ sở
phương pháp Downscalling thống kê, đã xây dựng thành công công nghệ dự báo và
cảnh báo sớm 3 loại hạn hán: hạn khí tượng, hạn thủy văn và hạn khí tượng nông
nghiệp cho 7 vùng khí hậu ở Việt Nam. Sơ đồ thực hiện dự báo và cảnh báo hạn
hán được trình bày trong hình 1.5 dưới đây [14].

Hình 1.5. Sơ đồ thực hiện dự báo và cảnh báo hạn hán [14]
Gần đây, trong đề tài cấp nhà nước KC08.29/0610 [12], tác giả Phan Văn
Tân và CS đã áp dụng phương pháp Downscaling thống kê để dự báo hạn mùa các
yếu tố và hiện tượng khí hậu cực đoan tại các điểm trạm ở Việt Nam. Trong đó: yếu
tố dự báo là nhiệt độ cực trị, số đợt mưa lớn, số đợt không khí lạnh và khả năng
xuất hiện nắng nóng và rét đậm. Nhân tố dự báo là số liệu tái phân tích của NCEP
với độ phân giản 2.50 bao gồm các biến cơ bản như: áp suất mực biển PMSL, độ
cao địa thế vị h, gió u,v, nhiệt độ T và độ ẩm RH tại các mực áp suất cơ bản 1000,
850, 700, 500mb. Đây là nghiên cứu có tính khoa học và thực tiễn cao, các bước
thực hiện như: phân tích chọn lựa nhân tố dự báo, lựa chọn phương pháp xây dựng
mô hình đối với mỗi yếu tố dự báo đều được thực hiện với nhiều phương án khác
nhau, từ đó chọn được phương án phù hợp nhất đối với mỗi yếu tố dự báo. Cụ thể
là: đã thử nghiệm hai phương pháp lựa chọn các nhân tố dự báo: 1) sử dụng các

17
biến cơ bản của ô lưới chứa điểm trạm làm nhân tố dự tuyển (21 biến); 2) sử dụng
kỹ thuật phân tích thành phần chính PCA trên một miền cho trước đối với mỗi
trường khí quyển. Mỗi yếu tố dự báo (tùy thuộc vào bản chất của từng yếu tố) được
thử nghiệm 2 trong 4 phương pháp thông kê bao gồm hồi quy tuyến tính đa biến
(MLR), mạng thần kinh nhân tạo (ANN), ước lượng hồi qui xác suất sự kiện
(REEP) và phân tích riêng biệt Fisher (FDA). Từ các kết quả nghiên cứu, một số
các mô hình dự báo về nhiệt độ cực trị, khả năng xuất hiện nắng nóng và rét đậm
được khuyến cáo có thể sử dụng trong dự báo mùa. Minh họa kết quả dự báo và
quan trắc về nhiệt độ tối thấp của nghiên cứu này trên chuỗi số liệu độc lập trạm
Láng được trình bày trên hình 1.6.

Hình 1.6. Kết quả quan trắc và dự báo Tmin2m theo REG trong 4 mùa
tại trạm Láng [12]

18
4) Nhóm công trình nghiên cứu theo phương pháp thống kê trên sản phẩm
mô hình (Model Output Statistics – MOS). Trong đó, yếu tố dự báo và nhân tố dự
báo chính là các trường khí hậu nhận được từ mô hình khí hậu khu vực. Đây là một
hướng tiếp cận khá mới mẻ, phương pháp này cần phải có kết quả mô phỏng nhiều
năm từ mô hình khí hậu khu vực. Cho đến nay ở Việt Nam vẫn còn rất ít công trình
nghiên cứu theo hướng này.
Năm 2009, tác giả Nguyễn Minh Trường đã thực hiện báo cáo chuyên đề
“Nghiên cứu xây dựng các mô hình thống kê, lựa chọn tập nhân tố dự báo, lập
chương trình tính, kiểm tra độ chính xác bằng tập số liệu mẫu”, thuộc đề tài
KC08.29/0610 [15]. Trong chuyên đề này, tác giả đã phân tích các cơ chế thời tiết,
khí hậu khu vực Việt Nam để làm cơ sở khoa học cho việc lựa chọn một số nhân tố
dự báo phù hợp được lấy từ mô hình RegCM, sau đó sẽ xây dựng MOS để dự báo
một số hiện tượng và yếu tố khí hậu cực đoan hạn mùa cho khu vực Việt Nam. Báo
cáo bước đầu đã đưa ra được cơ sở khoa học trong việc nghiên cứu phương pháp
MOS đối với dự báo hạn mùa cho khu vực Việt Nam. Có thể hướng nghiên cứu này
sẽ được phát triển mạnh trong tương lai khi có được chuỗi số liệu dự báo lại
(hindcast) của các mô hình khí hậu khu vực đủ dài.
Tóm lại: Từ tổng quan nghiên cứu trong và ngoài nước về dự báo khí hậu
hạn mùa trong đó có dự báo mưa có thể rút ra một số điểm chính sau:
Đối với nghiên cứu dự báo mưa hạn mùa, có hai cách tiếp cận là sử dụng
phương pháp thống kê (thống kê truyền thống và downscaling thống kê) và phương
pháp mô hình động lực. Nhìn chung, phương pháp thống kê truyền thống đã đạt
được những kết quả nhất định, nhiều mô hình thống kê có đóng góp chính trong
việc đưa ra bản tin dự báo tổng lượng mưa mùa. Phương pháp downscaling thống
kê phụ thuộc nhiều vào độ chính xác của sản phẩm dự báo từ các GCM, tuy nhiên
sai số của các GCM hiện nay vẫn còn khá lớn nên kết quả nhận được theo hướng
này cũng còn nhiều hạn chế. Phương pháp mô hình động lực là hướng nghiên cứu
đang rất được quan tâm, nó có những ưu điểm vượt trội về khả năng cung cấp sản
phẩm dự báo nhưng độ chính xác cũng chưa đạt được như mong muốn.

19
Dự báo mưa hạn mùa ở Việt Nam hiện mới dừng lại trong phạm vi các mô
hình thống kê, mặc dù đã có một số công trình nghiên cứu ứng dụng các mô hình số
nhưng chưa có điều kiện đưa vào nghiệp vụ, có thể do một số nguyên nhân như: khả
năng tính toán của máy tính, chưa có điều kiện biên ổn định (chưa chủ động được
sản phẩm của mô hình toàn cầu), hạn chế về độ chính xác của sản phẩm dự báo ...
Các thông tin dự báo hạn mùa, trong đó có dự báo mưa đã đáp ứng phần nào
nhu cầu phục vụ phát triển kinh tế xã hội và đời sống. Tuy nhiên, để ứng dụng có
hiệu quả thì bản tin dự báo mùa còn có những hạn chế như: 1) Đối tượng dự báo
mới giới hạn ở hai yếu tố là nhiệt độ trung bình và tổng lượng mưa, thiếu thông tin
dự báo về các yếu tố khí hậu quan trọng khác như: nhiệt độ cực trị, lượng mưa lớn
nhất, bốc hơi, độ ẩm, số giờ nắng, gió, khả năng khô hạn. 2) thông tin dự báo về 3
tháng kề nhau nhiều khi không phù hợp với yêu cầu sản xuất nông nghiệp trong
những thời kỳ sinh trưởng quan trọng của cây trồng, nhất là các thông tin dự báo
theo từng tháng và dự báo đầu vụ cùng với dự báo 3 tháng để có kế hoạch điều tiết
nước và bố trí cơ cấu cây trồng hợp lý ngay từ đầu vụ.
Hiện nay, mô hình ARIMA đã được nhiều nước trên thế giới nghiên cứu
ứng dụng trong dự báo mưa hạn mùa, trong đó có các nước gần Việt Nam như
Thái Lan, Indonesia đã sử dụng mô hình này trong hoạt động nghiệp vụ. Tuy
nhiên ở Việt Nam, hướng tiếp cận này còn rất hạn chế. Để thực hiện nhiệm vụ
luận văn thạc sỹ, tác giả nhận thấy việc nghiên cứu mô hình ARIMA đối với bài
toán dự báo mưa hạn mùa ở Việt Nam là hướng nghiên cứu có ý nghĩa khoa học
và thực tiễn. Nhằm có cơ sở khoa học và những nhận định đúng đắn về mô hình
này, bước đầu tác giả nghiên cứu cho một vùng trọng điểm về sản xuất nông
nghiêp và một vụ sản xuất thường xuyên gặp khó khăn về nguồn nước là khu vực
đồng bằng Bắc Bộ với thời gian dự báo là 4 tháng. Từ kết quả nghiên cứu này sẽ
nhân rộng cho các vùng khác, vụ sản xuất khác. Ngoài ra, có thể khai thác mô
hình này để dự báo hạn mùa với một số yếu tố khí hậu quan trọng khác, khi các
mô hình động lực chưa đạt được kết quả như mong muốn.

20
Chƣơng 2

MÔ HÌNH ARIMA VÀ SỐ LIỆU SỬ DỤNG

Trong chương này, sẽ giới thiệu về cấu trúc của các mô hình ARIMA bao
gồm mô hình tự hồi quy trung bình trượt ARIMA và mô hình động thái ARIMA,
trên cơ sở đó sẽ đưa ra phương pháp áp dụng các loại mô hình này đối với bài toán
dự báo mưa hạn mùa, và cuối cùng là phân tích các nguồn số liệu phù hợp sử dụng
làm nhân tố đầu vào cho mô hình ARIMA.
2.1. Giới thiệu cấu trúc của mô hình ARIMA

Với mục đích xem xét mối quan hệ giữa các quan trắc trong quá khứ với hiện
tại nhằm dự báo cho tương lai của một biến trình nào đó, năm 1970, Box và Jenkins
đã đưa ra mô hình tự hồi quy trung bình trượt ARIMA (AutoRegresive Integrated
Moving Average). Mô hình này là mô hình dự báo định lượng theo chuỗi thời gian,
giá trị tương lai của yếu tố dự báo sẽ phụ thuộc vào quy luật vận động của chính yếu
tố đó.

Năm 1976, trên cơ sở mô hình tự hồi quy trung bình trượt, Box-Tiao đã phát
triển thành công mô hình động thái ARIMA (Transfer Function Model). Mô hình
này không chỉ xem xét mối quan hệ trong quá khứ với hiện tại của yếu tố dự báo mà
còn xem xét tác động từ các chuỗi thời gian khác đến yếu tố dự báo.

Để thuận tiện khi trình bày, từ đây, mô hình tự hồi quy trung bình trượt được
ký hiệu là ARIMA và mô hình động thái được ký hiệu là ARIMAX.

Đến nay các mô hình ARIMA và ARIMAX được áp dụng khá phổ biến
trong nhiều lĩnh vực kinh tế, xã hội, môi trường. Các mô hình này không quá phức
tạp, nhưng có thể áp dụng hữu hiệu đối với nhiều dạng bài toán dự báo khác nhau.
Trong lĩnh vực khí tượng thủy văn, mô hình ARIMA và ARIMAX là một trong
những công cụ quan trọng phục vụ công tác dự báo ở một số nước trên thế giới.

Chi tiết về thuật toán và phương pháp áp dụng đối với mỗi loại mô hình sẽ
được trình bày sau đây:

21
2.1.1. Mô hình tự hồi quy trung bình trượt ARIMA

Mô hình ARIMA cũng có thể được hiểu tương tự như mô hình tự hồi quy
tuyến tính, nhưng về bản chất có sự khác biệt với mô hình tự hồi quy tuyến tính là
các hệ số hồi quy của mô hình ARIMA được xác định theo tiêu chuẩn hội tụ, sai số
còn lại chính là thành phần ngẫu nhiên. Khi dự báo, thành phần ngẫu nhiên này
chính là sai số dự báo của khoảng thời gian trước, khi tạo chuỗi nó là chuỗi ngẫu
nhiên sao cho đảm bảo các đặc trưng thống kê không thay đổi theo thời gian. Do
vậy, mô hình này được thực hiện đối với chuỗi ổn định ngẫu nhiên (chuỗi dừng),
khi chuỗi chưa đạt được độ ổn định, có thể dùng phép biến đổi thống kê để đưa về
dạng ổn định ngẫu nhiên và khi dự báo, cần phải đưa trở lại giá trị thực của đại
lượng ban đầu.

Giả sử có chuỗi thời gian ổn định ngẫu nhiên hoặc bất ổn định ngẫu nhiên Yt
(t=1,2,…,n) thì dạng thức cơ bản của mô hình ARIMA bao gồm 3 thành phần sau:
Thành phần tự hồi quy bậc p (p= 1, 2,…); Thành phần sai phân bậc d (d=0,1,2…);
và thành phần trung bình trượt bậc q (q = 1, 2,…) và được ký hiệu là
ARIMA(p,d,q). Dạng tổng quát của mô hình ARIMA(p,d,q) có thể được viết như
sau [20]:

Wt = µ + p1Wt-l + p2Wt-2 +…+ ppWt-p - q1at-1 - q2at-2 -…- qqat-q + at (2.1)

Trong đó:
Wt = Δdyt
d là bậc sai phân, μ là hằng số
Với d = 0  Wt = yt ; với d = 1  Δyt = yt - yt-1;
yt, yt-l, yt-2, …, yt-p là giá trị quan trắc ở các bước thời gian t, t-1, t-2,…, t-p
at, at-1, at-2, …, at-q là sai số ngẫu nghiên (giữa giá trị thực và giá trị tính toán)
ở các bước thời gian t, t-1, t-2,…, t-q;
p1, p2, …, pp ; q1, q3, ..., qq là các tham số hồi quy.

Phương trình 2.1 cũng có thể viết gọn lại thông qua phép toán dịch chuyển lùi

22
q( B)
Wt    at hoặc p(B)(1-B)d yt = μ + q(B)at (2.2)
p( B)
Trong đó:
yt, at như đã trình bày ở trên
B là phép tính dịch chuyển lùi: BWt = Wt-1 hay BkWt = Wt-k
p(B) = (1 – p1B – p2B2 –… – ppBp) là phép toán tự hồi quy
q(B) = (1 – q1B – q2B2 –… – qqBq) là phép toán trung bình trượt
2.1.2. Mô hình động thái ARIMAX
Mô hình động thái ARIMAX có sự khác biệt cơ bản so với mô hình tự hồi
quy trung bình trượt ARIMA là ngoài việc xem xét quá trình tự hồi quy trung bình
trượt của chuỗi yếu tố dự báo, nó còn cho phép xem xét ảnh hưởng của các chuỗi
thời gian khác tác động đến yếu tố dự báo, chuỗi tác động (biến độc lập) được gọi là
chuỗi nhập, chuỗi bị tác động (biến phụ thuộc) được gọi là chuỗi xuất.
Giả sử ta có các chuỗi độc lập Xit (i = 1,2…m; t=1,2…n) và chuỗi phụ thuộc
Yt (t=1,2…n), khi đó mô hình động thái ARIMAX được viết dưới dạng tổng quát
như sau:

m
U is ( B) ki q( B)
Yt     r B X i ,t  at (2.3)
i 1 Si ( B) p ( B)

Trong đó:

 Yt là giá trị quan trắc ở các bước thời gian t; μ là hằng số;

 B là phép toán dịch chuyển lùi theo quy tắc : BXt = Xt-1 , BkXt = Xt-k ;

 U is ( B)  Ui0  Ui1B    Uis Bs ; Sis ( B)  Si0  Si1B    Sis Bs là

những trọng số động thái của chuỗi độc lập thứ i;

 k là thời điểm tác động của chuỗi độc lập thứ i tại thời điểm t = k;

 p(B) = (1 – p1B – p2B2 –… – ppBp); q(B) = (1 – q1B – q2B2 –… – qqBq) là phép


toán tự hồi quy và trung bình trượt của chuỗi phụ thuộc;

23
 at, là sai số ngẫu nghiên (giữa giá trị thực và giá trị tính toán).

Lưu ý : các chuỗi Xit và Yt trong công thức 2.3 phải là các chuỗi có tính ổn
định ngẫu nhiên, nếu chuỗi không ổn định, sẽ cần phải thông qua bước sai phân để
đưa chuỗi về dạng ổn định ngẫu nhiên.

Tóm lại: Bản chất của các mô hình ARIMA và ARIMAX là mô hình ngẫu
nhiên. Việc phân tích chuỗi thời gian trong các mô hình này bắt buộc phải chấp
nhận một giả thiết hết sức cơ bản là tính ổn định của các quá trình ngẫu nhiên, tính
ổn định ở đây có nghĩa là các đặc trưng thống kê (hay phân phối xác suất) không
thay đổi theo thời gian. Trong thực tế nhiều quá trình ngẫu nhiên có tính ổn định
trong một khoảng thời gian gián đoạn hữu hạn nào đó có thể coi là ổn định. Ví dụ
chuỗi tổng lượng mưa tháng là chuỗi không dừng, còn chuỗi tổng lượng mưa năm
có thể coi là dừng vì khi đó qui luật bên trong năm bị loại trừ. Các chuỗi không
dừng có thể trở thành dừng nhờ một số phép biến đổi sai phân. Lợi thế cơ bản của
các mô hình này là cho phép dự báo với độ chính xác nhất định, mặc dù chưa hiểu
rõ bản chất của các quá trình tác động từ các nhân tố dự báo đến yếu tố dự báo.

2.2. Phƣơng pháp áp dụng mô hình ARIMA và ARIMAX đối với bài
toán dự báo mƣa mùa
Trong mục 2.1 đã trình bày các dạng tổng quát của mô hình ARIMA và
ARIMAX, nó có thể bao gồm nhiều thành phần tham gia vào mô hình như: thành
phần tự hồi quy, thành phần trung bình trượt, thành phần sai phân, thành phần ảnh
hưởng của các chuỗi nhập khác (các chuỗi nhân tố dự báo), trong mỗi thành phần
lại có các thành phần con khác nhau. Bài toán cần giải quyết ở đây là đưa ra được
phương pháp xác định các thành phần có ý nghĩa về mặt thống kê để tham gia vào
mô hình dự báo mưa hạn mùa. Đây là bài toán khá phức tạp, độ chính xác của mô
hình dự báo không chỉ phụ thuộc vào các chuỗi nhập, chuỗi xuất mà còn phụ thuộc
việc lựa chọn chính xác các thành phần tham gia vào mô hình dự báo. Để giải quyết
bài toán này luận văn đã thực hiện theo các bước sau:

24
1) Áp dụng phương pháp thống kê sai phân để xác định tính ổn định ngẫu nhiên
của các chuỗi dữ liệu tham gia vào mô hình ARIMA và ARIMAX;
2) Kế thừa phương pháp Box Jenkin đối với mô hình ARIMA và phương pháp
Box Tao đối với mô hình ARIMAX trong việc nhận dạng các thành phần tự
hồi quy, thành phần trung bình trượt và thành phần ảnh hưởng của các chuỗi
nhập đến chuỗi lượng mưa thông qua việc xem xét sự biến đổi các hàm tự
tương quan, tự tương quan riêng phần và tương quan chéo;
3) Sử dụng phương pháp bình phương tối thiểu trong việc xác định các tham số
trong mô hình ARIMA và ARIMAX;
4) Áp dụng các phương pháp kiểm nghiệm giả thiết thống kê trong khí hậu để
chọn lựa các tham số có đủ độ tin cậy thống kê tham gia trong mô hình
ARIMA và ARIMAX;
5) Sử dụng công cụ phần mềm thống kê SAS để tính toán các đặc trưng của
chuỗi thời gian và các tham số trong mô hình ARIMA và ARIMAX.
Sau đây sẽ trình bày cụ thể từng nội dung này:
2.2.1. Xác định tính ổn định ngẫu nhiên của chuỗi thời gian
Chuỗi thời gian là chuỗi số liệu được sắp xếp theo trình tự thời gian. Nếu
một chuỗi thời gian có giá trị trung bình và phương sai không đổi theo thời gian thì
chuỗi đó được xem là ổn định ngẫu nhiên (chuỗi có tính dừng) hay nói một cách
khác cụ thể hơn đó là một chuỗi thời gian không có xu thế, không có chu kỳ, mà chỉ
dao động xung quanh kỳ vọng của nó.

Một chuỗi quan trắc khí hậu trung bình tháng thường bao gồm 3 thành phần:
1) thành phần ngẫu nhiên là sự tăng lên hay giảm đi thường xen kẽ nhau, góp phần
làm cho các trị số khí hậu dao động xung quanh một giá trị nào đó. Giá trị đó có thể
là trung bình số học, nếu chuỗi không có thành phần chu kỳ và xu thế. 2) Thành
phần chu kỳ là những biến đổi của chuỗi lặp lại nhiều lần sau những khoảng thời
gian nhất định nào đó. Mối tương quan giữa các thành phần trong một chu kỳ
thường đạt trị số lớn nhất. 3) Thành phần xu thế là biểu hiện xu hướng tăng hoặc

25
giảm theo thời gian của các thành phần trong chuỗi, trị số đầu của xu thế là cực tiểu
hoặc cực đại và trị số cuối của xu thế là cực đại hoặc cực tiểu. Biểu đồ minh họa 3
thành phần này được trình bày trong hình 2.1.

a) b)

c) d)

Hình 2.1. Các thành phần trong chuỗi quan trắc khí hậu [10]
Để loại bỏ thành phần xu thế và chu kỳ nhằm đưa các chuỗi quan trắc về
dạng ổn định ngẫu nhiên, thường sử dụng phép lọc sai phân, phép lọc Loga, phép
lọc căn thức...[10]. Trong luận văn này chúng tôi chọn phép lọc sai phân, cụ thể như
sau:
- Đối với việc loại bỏ thành phần xu thế: sử dụng phép biến đổi sai phân bậc 1
hoặc bậc 2. Sai phân bậc 1 là chênh lệch giữa 2 giá trị kề nhau trong chuỗi.

ΔYt = Yt - Yt-1 (2.5)

Trong đó: ΔYt là giá trị của sai phân bậc 1


Yt và Yt-1 là các thời đoạn trước và thời đoạn sau đó.

26
Nếu sai phân bậc 1 vẫn còn thể hiện xu thế thì thực hiện tiếp sai phân bậc 2.
Sai phân bậc 2 chính là sai phân của sai phân bậc 1:

Δ2(Yt) = ΔYt - ΔYt-1 = (Yt - Yt-1) - (Yt-1 - Yt-2) (2.6)

Nếu sai phân bậc 2 chưa đạt được tính dừng ta có thể tiếp tục lấy sai phân
bậc 3 hoặc cao hơn.
- Đối với việc loại bỏ thành phần mùa và chu kỳ: Sai phân mùa là chênh lệch giá
trị của hai quan trắc cách nhau khoảng thời gian L, L có thể là một năm, hai năm…
hay một mùa… Ví dụ : nếu là số liệu tổng lượng mưa tháng, ta có L =12. Do đó sai
phân mùa bậc 1 có tính mùa là:

ΔYt = Yt - Yt-L = Yt - Yt-12 (2.7)

Cũng có thể lấy sai phân bậc 2 của sai phân mùa bậc 1 khi chuỗi chưa đạt
được độ ổn định:
- Kiểm tra tính ổn định ngẫu nhiên của chuỗi
Trong thực hành, để kiểm tra các chuỗi thời gian tham ra trong mô hình
ARIMA hoặc ARIMAX đã đạt tiêu chuẩn ổn định ngẫu nhiên hay chưa, thường dựa
vào hàm tự tương quan. Theo Quenouille đã chứng minh chuỗi thời gian được xem
là ổn định ngẫu nhiên khi hầu hết hệ số tự tương quan của chuỗi (rk ) thỏa mản biểu
thức giới hạn tin cậy (2.8) và tiến dần về 0, ngoại trừ một số bước trễ như bước
mùa, vụ, chu kỳ …, nằm ngoài khoảng này [6, 37].
Biểu thức giới hạn tin cậy có thể viết dưới dạng sau:

 t / 2,n1Sr  rk  t / 2,n1Sr (2.8)

1
Sr  (2.9)
n
Trong đó: Sr là sai số chuẩn của các hệ số tự tương quan rk ; t / 2,n1 là điểm

phần trăm  =0.05 của phân bố Student với n-1 bậc tự do.
Hình 2.2 minh họa chuỗi dữ liệu tổng lượng mưa tháng trước khi sai phân
và sau khi sai phân. Trên hình này, phần hình A, A‟ ở phía trên ứng với trường hợp

27
chuỗi chưa ổn định, phần hình B, B‟ ứng với chuỗi sau khi sai phân và được xem là
chuỗi ổn định ngẫu nhiên.

Hình 2.2. Minh họa diễn biến của chuỗi lượng mưa tháng và hàm tự tương
quan đối với trạm Hà Nội trước khí sai phân (A,A‟) và sau khi sai phân (B,B‟).
2.2.2. Nhận dạng cấu trúc của mô hình
Sau khi đã loại bỏ được các thành phần chu kỳ, xu thế của chuỗi thời gian, sẽ
tiến hành nhận dạng cấu trúc của mô hình. Box - Jenkin đã đưa ra phương pháp
nhận dạng cấu trúc của mô hình ARIMA thông qua việc xem xét sự biến đổi của
hàm tự tương quan (Autocorrelation function - ACF) và tự tương quan riêng phần
(Part autocorrelation function - PAFC) để xác định các thành phần tự hồi quy (AR)
và thành phần trung bình trượt (MA). Đối với mô hình ARIMAX, Box Tao đã đưa
ra một số dáng điệu chính của hàm tương quan chéo (Cross correlation function -
CCF) để xác định mức độ ảnh hưởng (hàm truyền) của các chuỗi nhập đến chuỗi
yếu tố dự báo. Định nghĩa và thuật toán để tính các hàm ACF, PACF và CCF được
trình bày chi tiết trong tài liệu ARIMA [37].

28
Xuất phát từ bản chất của hàm ACF và PACF, Box - Jenkin đã đưa ra một số
dạng biểu đồ thường gặp đối với hàm ACF và PACF, tương ứng với nó là các dạng
của mô hình ARIMA nhằm hỗ trợ cho việc nhận dạng cấu trúc của mô hình, các
dạng biểu đồ này được trình bày trong hình 2.3. Chi tiết về cách áp dụng biểu đồ
này được trình bày dưới đây:
 Nếu biểu đồ hàm ACF có dạng nhỏ dần theo các bước trễ thời gian và biểu
đồ hàm PACF chỉ có giá trị khác 0 tại bước thời gian t-1, sau đó giảm đột
ngột về 0, (cụm từ „khác 0‟ hay „bằng 0‟ ở đây được hiểu theo thuật ngữ
thống kê, nếu các giá trị này nằm trong khoảng từ - t / 2,n1 *Sr đến + t / 2,n1 * Sr

được xem là bằng 0, ngoài khoảng này được xem là khác 0 ) thì có một thông
số tự hồi qui (p=1) được chọn, mô hình có dạng ARIMA(1,0,0). Ngược lại,
khi biểu đồ hàm PACF tắt dần, hàm ACF có giá trị khác 0 bước t-1, sau đó
giảm đột ngột về 0, trong trường hợp này mô hình có dạng ARIMA(0,0,1).
Dáng điệu của hàm ACF và PACF trong các trường hợp này được minh họa
trên hình (Hình 2.3a).
 Tương tự như trên, nếu biểu đồ hàm ACF tắt dần, hàm PACF có giá trị khác
0 ở các bước thời gian t-1, t-2, sau đó giảm đột ngột về 0 thì mô hình có hai
thông số tự hồi qui (p=2), mô hình có dạng ARIMA(2,0,0). Ngược lại, nếu
hàm PACF có dạng tắt dần, hàm ACF có giá trị khác 0 ở các bước thời gian
t-1, t-2, sau đó giảm đột ngột về 0 thì mô hình có hai thông số trung bình
trượt (q=2), mô hình có dạng ARIMA(0,0,2). Đồ thị của hạn ACF và PACF
trong các trường hợp này được minh họa trên hình (Hình 2.3b).
 Khi biểu đồ hàm ACF có dạng tắt dần và có giá trị khác 0 ở các bước thời
gian t-1, t-2…t-p, tương tự hàm hàm PACF có dạng tắt dần và có giá trị khác
0 ở các bước thời gian t-1, t-2…t-q, trong trường hợp này cả 2 thành phần
AR và MA đều có trong mô hình, dạng của mô hình trong trường hợp này sẽ
là ARIMA(p,0,q). Đồ thị của hạn ACF và PACF trong các trường hợp này
được minh họa trên hình (Hình 2.3c).

29
(2.3a)

(2.3b)

(2.3c)
Hình 2.3 Một số dạng chính của hàm ACF và PACF tưng ứng với các dạng
mô hình ARIMA khác nhau [20]
Đối với việc xác định ảnh hưởng của từng chuỗi nhập đến yếu tố dự báo
trong mô hình ARIMAX, Box Tao cũng sử dụng phương pháp trực quan để xem xét
sự biến đổi của hàm tương quan chéo (Cross correlation function - CCF), từ đó đưa

30
ra hàm truyền tương ứng của chuỗi nhập X tham gia trong mô hình ARIMAX. Nội
dung của phương pháp có thể bao gồm 4 dạng chính sau:

(2.4A)

(2.4B)

(2.4C)

(2.4D)

Hình 2.4. Một số dạng chính của hàm tương quan chéo giữa biến nhập (X)
và biến phụ thuộc (Y) tưng ứng với các dạng mô hình ARIMA khác nhau [20]
1) Nếu hàm tương quan chéo (CCF) giữa biến độc lập X và biến phụ thuộc Y
có giá trị „khác 0‟ tại bước thời gian (t-b), sau đó giảm đột ngột, các bước

31
thời gian khác đều có giá trị „bằng 0‟. Khi đó hàm truyền của biến X tham
gia vào mô hình ARIMAX sẽ có dạng U0Xt-b, (hình 2.4A).
2) Nếu hàm CCF có giá trị „khác 0‟ tại bước thời gian (t-b) và (t-b-1), sau đó
giảm đột ngột, các bước thời gian khác đều có giá trị „bằng 0‟. Khi đó hàm
truyền của biến X tham gia vào mô hình ARIMAX sẽ có dạng (U0 +
U1B)Xt-b, (hình 2.4B).
3) Nếu hàm CCF có giá trị „khác 0‟ tại bước thời gian (t-b), sau đó có xu thế
giảm dần nhưng vẫn „khác 0‟ ở bước (t-b-1), còn các bước thời gian khác
có giá trị „bằng 0‟. Khi đó hàm truyền của biến X tham gia vào mô hình
ARIMAX sẽ có dạng sau : (hình 2.4C).

U0
X t b
1  S1 B
4) Nếu hàm CCF có giá trị „khác 0‟ và tại bước thời gian (t-b-1) và (t-b), đạt
cao nhất tại (t-b-1), sau đó có xu thế giảm dần nhưng vẫn „khác 0‟ ở bước
(t-b-2), còn các bước thời gian khác có giá trị „bằng 0‟. Khi đó hàm truyền
của biến X tham gia vào mô hình ARIMAX sẽ có dạng sau : (hình 2.4D).

U 0  U1 B
X t b
1  S1 B
2.2.3. Xác định các tham số của mô hình
Như đã trình bày ở trên (mục 2.2.2), tùy thuộc vào đặc tính và mối quan hệ của
các chuỗi nhập và chuỗi xuất, mô hình ARIMA và mô hình ARIMAX có thể có một
trong các dạng chính sau:
Khi chỉ có thành phần AR(p), mô hình sẽ có dạng:

yt = p1yt-l +p2yt-2 +… +ppyt-p + at (2.10)

Khi chỉ có thành phần MA(q), mô hình sẽ có dạng:

yt = µ + q1at-1 + q2at-2 +…+ qqat-q + at (2.11)

Khi có đủ cả 2 thành phần AR và MA, mô hình sẽ có dạng:

yt = µ - p1yt-l - p2yt-2 -…- ppyt-p + q1at-1 + q2at-2 +…+ qqat-q + at (2.12)

32
Khi có đủ tất cả các thành phần AR, MA và thành phần động thái X 1, X2,…,
Xm mô hình ARIMAX có thể có dạng:

yt = µ - p1yt-l - p2yt-2 -…- ppyt-p + q1at-1 + q2at-2 +…+ qqat-q +


(2.13)
(Ui1B+ Ui2B2 +…+ UihBh)Xit-b + at;

trong đó: (i = 1,2,…,m; h = 1,2,3,…).


Việc xác định các tham số hồi quy trong các mô hình này được dựa theo
nguyên tắc bình phương tối thiểu, trong đó các hệ số hồi quy được xác định sao cho
tổng bình phương độ lệch giữa giá trị thực và giá trị mô phỏng là nhỏ nhất. Chi tiết
về phương pháp này được trình bày trong sách giáo trình [10]. Tuy về nguyên tắc
việc xác định các tham số trong mỗi thành phần của từng mô hình là giống nhau,
nhưng về cách tính cụ thể có nhiều cách xử lý riêng. Do vậy ở đây sẽ trình bày tóm
tắt cho một số dạng chính sau.
1) Xác định các thông số pi khi chỉ có thành phần AR(p) tham ra vào mô hình
Đây là dạng hàm tương tự như hồi quy tuyến tính nhiều biến, Tuy nhiên các
hệ số pi phải thỏa mản tiêu chuẩn hội tụ |p1 + pi +…+ pi|<1 và được xác giải thông
qua hệ phương trình Yule_Walker [6]

Ck = p1Ck-l + p2Ck-2 +… + ppCk-p; với k =1, 2,…,p (2.14)

Ck là các mô men tương quan (Covarian - hiệp phương sai) giữa biến phụ
thuộc (yt) và các biến độc lập (yk-p).
Ck-l , Ck-2 , Ck-p là các mô men tương quan giữa các biến độc lập với nhau.
Đây là hệ p phương trình với các ẩn số là p1, p2 ,…,pp và có thể giải được
theo nhiều phương pháp khác nhau như: dùng phương pháp ma trận nghịch đảo,
phương pháp khử Gauss, phương pháp Cramer…
2) Xác định các thông số qi khi chỉ có thành phần MA(q) tham ra vào mô hình
Các thông số qi thoả mãn một hệ phương trình tương tự như hệ
Yule_Walker, được suy ra từ quan hệ:

 k  qk  q1qk 1  ...  q p qk q
rk   (2.15)
0 1  q12  q22  ...  qq2

Trong đó : rk là hệ số tự tương quan của chuỗi yt,

33
γk và γ0 là các mô men tương quan bậc k và bậc 0 (k=0) của chuỗi
Cho k = 1,2,...,q ta được một hệ phương trình phi tuyến. Phương pháp để giải
hệ phương trình này được trình bày trong sách giáo trình [6,10].
3) Xác định các thông số pi, qi khi cả 2 thành phần AR(p) và MA(q) tham ra vào mô
hình
- Đối với thành phần AR(p): để giải quyết độc lập các giá trị pi theo công thức truy
hồi Durbin hay hệ phương trình Yule_Walker thì hệ thức (2.15) được viết bắt đầu
từ k > q tức là khi ấy các bi = 0. Do đó ta có hệ :

Cp+1 = p1Cp + p2Cp-2 +… + ppCp+1-p


Cp+2 = p1Cp+1 + p2Cp+ +… + ppCp+2-p
…………………………………… (2.16)
Cp+p = p1Cp+p-1 + p2Cp+p-2 +… + ppCp

Hệ phương trình (2.26) cũng là hệ tuyến tính bậc nhất, do vậy có thể giải ra
tìm các nghiệm p1, p2,…, pp.
- Đối với thành phần MA(q): để tìm các hệ số qi ta cũng xuất phát từ quan hệ (2.15),
nhưng khác với mô hình MA(q), ở đây γk và γ0 (hay Ck và C0) không phải là của yt
mà là của thành phần ngẫu nhiên at. Nghĩa là γk=γka, Ck=Cka. Quan hệ giữa γka và γky
hay Cka và Cky có dạng [6]:
p p p i
Cka   a Cky  
2
i a a d h i k (2.17)
i 0 i 1 h 0

Với dk = Ck+i +Ck-i


Cky chính là mô men tương quan bậc k của y và có thể tính theo công thưc:
Cky = [(yt – ytb)(yt+k – ytb)] ; t = 1,2,...,n ; k = 1,2,…,m ; (m < n)
Sau khi có Cky, sẽ tính được Cka theo (2.17), thay vào (2.15) được một hệ phương
trình, giải hệ này ta được các hệ số qi.
4) Xác định các thông số động thái Ui,t-b đối với các biến nhập Xi,t-b và các thông số
pi, qi trong mô hình động thái ARIMAX

34
Đối với các thông số Ui,t-b tương ứng với các biến nhập Xi,t-b được xác định
tương tự như mô hình hồi quy tuyến tính nhiều biến. Trong đó, biến phụ thuộc là
chuỗi Yt, biến độc lập là các chuỗi Xi,t-b (i = 1,2…m là ký hiệu biến nhập, t-b là độ
chễ thời gian so với biến phụ thuộc). Phương pháp xác định các tham số hồi quy
tuyến tính nhiều biến (Ui,t-b) được trình bày trong giáo trình [10].
Đối với việc xác định các thông số pi, qi trong mô hình động thái ARIMAX
được xác định tương tự như trong mô hình ARIMA, tuy nhiên chuỗi tham gia vào
mô hình ARIMA trong trường hợp này là phần sai số của mô hình hồi quy tuyến
tính giữa Yt, biến độc lập Xi,t-b.
2.2.4. Kiểm định mô hình
Việc kiểm định để đánh giá sự phù hợp của mô hình là vô cùng quan trọng,
một mô hình được xem là phù hợp khi và chỉ khi thỏa mản các tiêu chuẩn như sau:
1) các giá trị sai số của mô hình phải độc lập nhau; 2) giá trị của mỗi thông số cần
phải đủ lớn để mô hình có ý nghĩa thống kê; 3) các thông số của mô hình phải độc
lập nhau. Dưới đây sẽ đi vào từng vấn đề cụ thể:
1) Kiểm tra tính độc lập của chuỗi sai số
Việc kiểm tra tính độc lập của chuỗi sai số chính là xem xét hàm tự tương
quan của các sai số đó. Nếu sai số có tính độc lập thì giữa chúng không có tương
quan, hay nói cách khác các hệ số tương quan giữa chúng phải thỏa mản biểu thức
giới hạn tin cậy (công thức 2.8 mục 2.2.1). Nếu không đạt tiêu chuẩn này thì giữa
chúng có mối quan hệ với nhau, như vậy mô hình được chọn chưa phù hợp với các
chuỗi số liệu được xem xét. Khi đó cần dựa vào hàm ACF và PACF của chuỗi sai
số để điều chỉnh lại dạng của mô hình.
2) Kiểm định độ lớn của các thông số
Thực chất các mô hình trong luận văn này là sử dụng phương pháp thống kê,
vì vậy các thông số được xác định trong mô hình đều phải kiểm định ý nghĩa thống
kê. Theo lý thuyết thống kê, việc kiểm định độ lớn các thông số trong mô hình
thường sử dụng công thức sau [6]:

ni
t ni  (2.18)
sni

35
Trong đó:tni là chỉ tiêu kiểm định độ lớn của thông số thứ i, ni là giá trị của
thông số thứ i, sni là độ lệch chuẩn của thông số thứ i.
- Nếu tni   tα/2,n-1, (với = 0.05), thông số đó sẽ được giữ lại;

- Nếu tni  < tα/2,n-1, thông số đó sẽ bị loại bỏ và quá trình tính toán để xác
định giá trị của thông số sẽ được thực hiện lại theo các thông số được giữ lại.
3) Kiểm định tính độc lập giữa các thông số
Quá trình phân tích trong bước kiểm định độ lớn của các thông số, đã loại đi
nhiều trường hợp. Tuy nhiên, vẫn có thể có một số thông số có sự tương quan mật
thiết với nhau. Để xem xét tính độc lập giữa các thông số, sẽ xem xét ma trận tương
quan của các thông số. Theo [6], nếu giữa các thông số có tương quan cao (r>0,8-
0,9) thì sẽ loại bỏ một trong 2 thông số tạo nên hệ số tương quan lớn này và một mô
hình có số thông số ít hơn sẽ được chọn.
2.2.5. Phần mềm thống kê SAS đối với mô hình ARIMA và ARIMAX
Việc tính toán đối với mô hình ARIMA và ARIMAX là bài toán khá phức tạp,
các bước kiểm nghiệm lặp lại nhiều lần. Để hỗ trợ trong quá trình tính toán đảm bảo
độ chính xác, nhiều phần mềm thống kê như: STATISTICA, NCSS, SYSTAT,
SAS…đều có chức năng tính toán các thông số trong mô hình ARIMA và ARIMAX.
Trong luận văn này đã sử dụng phần mềm thống kê SAS trong việc tính toán các
đặc trưng thống kê trong mô hình.
SAS (Statistical Analysis System) là hệ thống phần mềm thống kê do viện
nghiên cứu phần mềm thống kê của Mỹ xây dựng và đã được ở rất nhiều quốc gia
trên thế giới sử dụng. Trong phần mềm SAS có đầy đủ các chức năng thống kê như
lưu trữ, quản lý, kiểm tra, phân tích dử liệu. Đối với mô hình ARIMA và ARIMAX
trong phần mềm SAS bao gồm một hệ thống các câu lệnh được thực hiện trên mã
nguồn mở nhằm tính toán các tham số trong mô hình. Chi tiết về cách sử dụng phần
mềm này được trình bày trong [37,5].
2.3. Các nguồn số liệu đƣợc sử dụng
Trên cơ sở các mục tiêu và nội dung nghiên cứu luận văn, đã sử dụng các
loại số liệu sau: 1) Số liệu quan trắc lượng mưa tại 9 trạm đại diện cho khu vực

36
đồng bằng Bắc Bộ; 2) số liệu về các chỉ số khí hậu; 3) Số liệu vết đen Mặt Trời.
Trong đó, chuỗi số liệu từ năm 1951 đến 2008 để phát triển mô hình, từ năm 2009
đến 2013 để kiểm chứng mô hình. Chi tiết về các nguồn số liệu và cách xử lý đối
với từng loại số liệu sẽ được trình bày dưới đây:
2.3.1. Số liệu quan trắc mưa từ các trạm khí tượng
Bộ số liệu tổng lượng mưa tháng được thu thập tại Trung tâm Tư liệu Khí
tượng Thủy văn, hầu hết chuỗi dữ liệu được thu thập từ năm 1961 -2013, (riêng
trạm Hà Nội, từ năm 1951 -2013). Nhìn chung, nguồn số liệu này có độ tin cậy cao
do đã được kiểm tra, kiểm soát. Bộ số liệu này không chỉ có vai trò làm nhân tố dự
báo mà còn được sử dụng làm yếu tố dự báo trong mô hình ARIMA và ARIMAX.
2.3.2. Số liệu về các chỉ số khí hậu
Bộ số liệu các chỉ số khí hậu tham gia làm nhân tố dự báo bao gồm: chỉ số
dao đông nam (Southern Oscillation Index, SOI), dị thường nhiệt độ mặt nước biển
(ASST) trên các vùng NINO1.2, NINO3, NINO4, NINO3.4, vị trí của nhóm nhân tố
này được trình bày trên hình 2.5. Các nhân tố này phản ánh khá đầy đủ hoạt động
của hiện tượng ENSO trên khu vực xích đạo Thái Bình Dương. Nước ta nằm trong
khu vực chịu ảnh hưởng của hiện tượng này, do vậy diễn biến của 5 đặc trương khí
tượng hải dương này sẽ có quan hệ với diễn biến của lượng mưa trên các vùng lãnh
thổ nước ta. Bộ số liệu này có từ năm 1951 đến nay được cập nhật thường xuyên
qua mạng Internet thông qua website: http://www.cpc.ncep.noaa.gov/data/tel edoc.

Darwin
SOI Tahiti

Hình 2.5 [2] Vị trí nhóm nhân tố ENSO

37
Trong các chỉ số khí hậu thì nhóm nhân tố ENSO có quan hệ rất chặt chẽ với
nhau và gần như chúng có chung chu kỳ (hình2.6), do vậy, tại một bước trễ thời
gian, các nhân tố dự báo có thể chỉ có từ một đến 2 nhân tố thỏa mãn ý nghĩa thống
kê tham gia vào mô hình dự báo.

Hình 2.6. [9] Mật độ phổ của chỉ số SOI và nhiệt độ bề mặt nước biển
ở các vùng Nino.
2.3.3. Số liệu về số vết đen mặt trời (Sunspot Number)

Theo nhiều nghiên cứu [40] vết đen mặt trời có ảnh hưởng đến nhiều hiện
tượng vật lý khí quyển, trong đó ảnh hưởng rõ rệt nhất đến lượng mưa, hạn hán và
lũ lụt theo các chu kỳ và các thời gian khác nhau, số vết đen mặt trời trong một năm
nào đó thường ảnh hưởng đến lượng mưa ở nhiều năm sau đó. Với ý nghĩa quan
trọng như vậy, luận văn đã sử dụng số liệu này như là một trong những nhân tố dự
báo lượng mưa. Nguồn số liệu vết đen mặt trời được công bố bởi Trung tâm phân
tích ảnh hưởng mặt trời (Solar Influences Data analysis Center), thuộc đài quan sát
hoàng gia của Bỉ,. Đây là bộ số liệu được quan trắc hàng ngày từ năm 1818 đến nay
và được cập nhật thường xuyên trên trang webside: http://sidc.oma.be/sunspot-
data/dailyssn.php.

2.3.4. Xử lý số liệu

Trên cơ sở các nguồn số liệu được thu thập trong thời kỳ từ 1951 đến 2012,
tiến hành xử lý, tính toán theo các bước sau:

38
Bước 1: Tính toán bộ số liệu về tổng lượng mưa vụ đông xuân (từ tháng 10
năm trước đến tháng 1 năm sau) đối với 9 trạm khí tượng đại diện cho khu vực
đồng bằng Bắc Bộ. Đối với bộ số liệu nhân tố dự báo, nhóm các nhân tố ENSO là
các đặc trưng theo tháng ở dạng chuẩn sai nên được dữ nguyên, số liệu về số vết
đen Mặt trời được tính trung bình theo tháng.

Bước 2: Chuẩn hóa tập nhân tố dự báo

Do các nhân tố dự báo không có cùng thứ nguyên, ngoại trừ nhóm các nhân
tố ENSO, nên không thể so sánh với nhau về mức độ đóng góp của từng nhân tố
trong phương trình thống kê. Hơn nữa, bậc giá trị giữa các nhân tố có sự chênh lệch
quá lớn sẽ dẫn đến sai sót trong xây dựng phương trình thống kê khi các đại lượng
quá lớn hay quá nhỏ sẽ bị bỏ qua. Vì vậy để có bộ số liệu nhân tố dự báo tương
đương, các chuỗi số liệu vết đen mặt trời, tổng lượng mưa cần được chuẩn hóa để
có cùng thứ nguyên với nhóm các nhân tố ENSO. Công thức chuẩn hóa các nhân tố
như sau:

X X
Xˆ  m (2.19)
m

Trong đó: X̂ là giá trị chuẩn hóa của nhân tố dự báo thứ Xm, X m và  m tương

ứng là giá trị trung bình và độ lệch chuẩn của nhân tố X m. Vậy sau khi chuẩn hóa
các nhân tố dự báo sẽ được đưa về dạng không có thứ nguyên.

Trên cơ sở các nội dung được trình bày ở chương 2, để khái quát quá trình áp
dụng mô hình ARIMA đối với bài toán dự báo mưa mùa, luận văn đưa ra sơ đồ khối
dưới đây:

39
Chỉ số khí hậu,
Chỉ số lƣợng mƣa vết đen mặt trời

Nhận dạng mô Nhận dạng mô


hình ARIMA hình ARIMAX

Xác định các


Xác định các

Xác định lại


tham số Uxi
Xác định lại

tham số p, d, q p, d, q

Kiểm định mô Kiểm định mô


hình hình

Không Phù hợp Phù hợp Không


phù hợp phù hợp

DỰ BÁO

Hình 2.7. Sơ đồ khối xây dựng mô hình ARIMA và ARIMAX

40
Chƣơng 3

KẾT QUẢ VÀ NHẬN XÉT

Chương này trình bày các kết quả nghiên cứu áp dụng mô hình tự hồi quy
trung bình trượt ARIMA và mô hình động thái ARIMAX. Thông qua các chỉ số
thống kê, sẽ tiến hành đánh giá khả năng mô phỏng và dự báo của các mô hình được
xây dựng nhằm chọn ra các mô hình phù hợp để dự báo lượng mưa hạn mùa đối với
các trạm vùng đồng bằng Bắc Bộ
3.1. Xây dựng mô hình dự báo mƣa vụ đông xuân bằng mô hình
ARIMA
3.1.1. Xác định tính ổn định của chuỗi lượng mưa vụ Đông xuân
Như đã trình bày ở chương 2, tính ổn định của chuỗi được thể hiện thông qua
hàm tự tương quan, chuỗi được xem là ổn định nếu hàm tự tương quan thỏa mãn
công thức 2.8, ngoại trừ một số bước trễ như bước mùa, vụ, chu kỳ …, nằm ngoài
khoảng này.
Do chuỗi dữ liệu đầu vào đối với mô hình ARIMA trong luận văn này là
tổng lượng mưa trong vụ đông xuân (từ tháng 10 năm trước đến tháng 1 năm sau)
nên sẽ không có thành phần mùa mà chỉ có thể có thành phần chu kỳ. Kết quả xác
định tính ổn định của chuỗi tại 9 trạm đại diện cho khu vực đồng bằng Bắc Bộ được
trình bày trong hình 3.1 và bảng 3.1.
Hình 3.1 trình bày diễn biến lượng mưa vụ đông xuân tại 9 trạm vùng Đồng
bằng Bắc Bộ thời kỳ 1961 đến 2008, (trạm Hà Nội từ 1951 đến 2008). Từ hình này
nhận thấy: mặc dù trong cùng một vùng khí hậu, khoảng cách giữa các trạm là
không lớn nhưng biến trình mưa trong vụ đông xuân tại mỗi trạm có sự khác nhau
rõ rệt giữa các trạm, sự khác biệt này có liên quan đến địa hình, mặt đệm và vị trí
địa lý, điều này đã dẫn đến kết quả tính toán diễn biến hàm tự tương quan theo 12

41
bước trễ thời gian của chuỗi lượng mưa đối với từng trạm cũng có sự khác nhau
(bảng 3.1).

1000 mm

Hanoi
Hanam
750
Haiduong
Hungyen
Namdinh
500 Ninhbinh
Phulien
Thaibinh
250 Vinhyen
Bacgiang
TB vùng
0
1951 1956 1961 1966 1971 1976 1981 1986 1991 1996 2001 2006 Năm

Hình 3.1. Diễn biến lượng mưa vụ đông xuân tại 9 trạm vùng Đồng bằng
Bắc Bộ.
Từ bảng 3.1 nhận thấy phần lớn các trạm đều có giá trị tuyệt đối lớn nhất
của hàm tự tương quan xảy ra tại các bước trễ thời gian 4 và 5 (5/9 trạm), ở bước trễ
8 có 3 trạm, bước trễ 2 có 2 trạm. Tuy nhiên hầu hết các giá trị này đều nằm trong
khoảng giới hạn tin cậy, ngoại trừ bước trễ 4 và 5 đối với trạm Hà Nội (-0.30 tại
bước trễ 4 và -0.29 tại bước trễ 5 so với khoảng tin là ±0.26). Vậy các chuỗi lượng
mưa được khảo sát trong nghiên cứu này đều được xem là ổn định ngẫu nhiên
nhưng chỉ duy nhất chuỗi lượng mưa trạm Hà Nội đạt được tiêu chuẩn áp dụng mô
hình ARIMA, đối với các trạm khác độ lớn của hệ số tự tương quan không đủ điều
kiện để có thể áp dụng mô hình ARIMA. Hình 3.1 trình bày diễn biến lượng mưa
vụ đông xuân tại 9 trạm đại diện cho khu vực đồng bằng Bắc Bộ.

42
Bảng 3.1. Hệ số tự tương quan và giới hạn tin cậy của chuỗi lượng mưa vụ đông
xuân tại 9 trạm vùng Đồng bằng Bắc Bộ
Bƣớc Hà Hà Hải Hƣng Nam Ninh Phủ Thái Vĩnh
trễ Nội Nam Dƣơng Yên Định Bình Liễn Bình Yên
1 0.09 -0.10 0.14 -0.07 -0.07 0.22 -0.07 0.14 -0.12
2 0.13 0.18 -0.24 0.09 0.04 0.29 0.04 0.07 -0.13
3 0.08 -0.04 -0.16 -0.11 0.15 0.04 -0.05 -0.05 0.08
4 -0.30 -0.22 -0.12 -0.06 -0.23 -0.16 0.01 -0.16 -0.12
5 -0.29 -0.06 -0.09 -0.14 -0.09 -0.19 -0.28 -0.11 0.00
6 -0.20 0.23 0.14 0.07 0.05 -0.13 -0.25 0.15 -0.01
7 -0.13 -0.03 0.03 0.04 0.10 -0.24 -0.01 0.06 -0.04
8 -0.14 0.07 -0.23 0.01 -0.20 -0.14 0.18 0.21 -0.22
9 -0.05 -0.17 -0.09 -0.10 0.08 -0.28 -0.19 -0.03 0.12
10 0.21 -0.15 -0.01 -0.14 -0.14 -0.08 0.06 -0.19 -0.06
11 0.01 -0.09 -0.04 0.02 0.04 -0.08 -0.16 -0.07 -0.13
12 0.15 0.02 0.07 0.11 0.10 0.17 0.00 0.08 0.12
Giới hạn tin cậy (được tính theo công thức 2.8)
±0.26 ±0.29 ±0.29 ±0.29 ±0.29 ±0.29 ±0.29 ±0.29 ±0.29

3.1.2. Nhận dạng mô hình ARIMA


Trên cơ sở kết quả tính toán hàm ACF và PACF đối với chuỗi lượng mưa vụ
đông xuân trạm Hà Nội được trình bày trong hình 3.2, áp dụng phương pháp nhận
dạng mô hình được trình bày ở chương 2, đã nhận dạng mô hình ARIMA đối với
trạm Hà Nội và được ký hiệu như sau:
ARIMA hanoi ([4], 0, [4, 5])
Trong đó: bậc sai phân d = 0; p = [4] ký hiệu thành phần tự hồi quy AR tại
bước trễ thời gian là 4; q = [4,5] ký hiệu thành phần trung bình trượt MA tại bước
trễ 4, 5. Trên cơ sở kết quả nhận dạng này, sẽ tiến hành tính toán các hệ số hồi quy
trong mô hình ARIMA hanoi ([4],0,[4, 5]).

43
ACF Giới hạn tin cậy P ACF Giới hạn tin cậy
0.40 0.4
0.20 0.2
0.00 0
-0.20 1 2 3 4 5 6 7 8 9 10 11 12 -0.2 1 2 3 4 5 6 7 8 9 10 11 12

-0.40 B ước t rễ -0.4 B ước t rễ


-0.60 -0.6

Hình 3.2. Hàm ACF (bên trái) và hàm PACF (bên phải) của chuỗi
lượng mưa vụ đông xuân trạm Hà Nội
3.1.3. Xác định các thông số và kiểm định mô hình ARIMA
Việc tính toán xác định các thông số trong mô hình ARIMA hanoi ([4], 0, [4,
5]) được dựa trên nguyên tắc bình phương tối thiểu. Trên cơ sở phương pháp được
trình bày trong mục 2…. và áp dụng phần mềm thống kê SAS, đã xác định được các
thông số của mô hình ARIMA hanoi ([4], 0, [4, 5]), kết quả được trình bày trong
bảng 3.2.
Từ bảng 3.2 nhận thấy hầu hết các chỉ tiêu kiểm nghiệm Tni đối với từng
thông số đều lớn hơn giá trị t0.05 = 2.00, ngoại trừ thông số AR4 (Tni = -0.10). Mặt
khác khi xét ma trận tương quan giữa các thông số (bảng 3.3) nhận thấy có sự tương
quan mật thiết giữa thông số AR4 và MA4 (r = 0.88), điều này cho thấy mô hình
ARIMA được chọn có sự tương quan giữa các thông số với nhau. Chính vì vậy,
thông số AR4 sẽ bị loại bỏ và mô hình được chọn trong trường hợp này sẽ là
ARIMA hanoi (0, 0, [4, 5], kêt quả tính toán các đặc trưng của tham số trong mô hình
này được trình bày trong các bảng 3.4 và 3.5.
Bảng 3.2. Các đặc trưng thông số của mô hình ARIMA hanoi (4, 0, [4, 5])
Bước
Ký hiệu Giá trị của Độ lệch chuẩn Chỉ tiêu kiểm
trễ
thông số thông số của thông số nghiệm (Tni)
(Lag)
µ 244.30 7.11 34.34 0
MA4 0.40 0.17 2.37 4
MA5 0.25 0.11 2.24 5
AR4 -0.02 0.21 -0.10 4

44
Bảng 3.3. Ma trận tương quan giữa các thông số của mô hình
ARIMA hanoi (4, 0, [4, 5])

Thông số MU MA4 MA5 AR4

MU µ 1.00 -0.25 -0.08 -0.20


MA4 -0.25 1.00 -0.37 0.88
MA5 -0.08 -0.37 1.00 -0.31
AR4 -0.20 0.88 -0.31 1.00
Bảng 3.4. Các đặc trưng thông số của mô hình ARIMA hanoi (0, 0, [4, 5])
Bước
Ký hiệu Giá trị của Độ lệch chuẩn Chỉ tiêu kiểm
trễ
thông số thông số của thông số nghiệm (Tni)
(Lag)

MU µ 244.29 6.84 35.72 0


MA1 0.42 0.13 3.28 4
MA1 0.25 0.11 2.30 5
Bảng 3.5. Ma trận tương quan giữa các thông số của mô hình ARIMAhanoi(0,0,[4,5])
Ký hiệu
MU MA4 MA5
thông số
MU µ 1 -0.165 -0.162
MA4 -0.165 1 -0.217
MA5 -0.162 -0.217 1

ACF Giới hạn tin cậy P ACF Giới hạn tin cậy
0.4 0.4
0.2 0.2
0 0
-0.2 1 2 3 4 5 6 7 8 9 10 11 12 -0.2 1 2 3 4 5 6 7 8 9 10 11 12

-0.4 B ước trễ -0.4 B ước trễ


-0.6 -0.6

Hình 3.3. Hàm ACF (bên trái) và hàm PACF (bên phải) của
chuỗi sai số trong mô hình ARIMA hanoi (0, 0, [4, 5])

45
Từ các bảng 3.4 và 3.5 nhận thấy các đặc trưng thông số của mô hình
ARIMA hanoi (0, 0, [4, 5]) đều thỏa mản các tiêu chuẩn thống kê, độ lớn của các
thông số đều lớn hơn giá trị kiểm định (t = t0.05 =2) và giữa các thông số không có
sự tương quan cao với nhau. Hơn nữa, khi xét hàm ACF và PACF của chuỗi sai số
trong mô hình ARIMA hanoi (0, 0, [4, 5]) (hình 3.3) nhận thấy tất cả các giá trị của
hàm ACF và PACF đều nằm trong giới hạn tin cậy, do vậy các sai số nhận được từ
mô hình này có tính độc lập với nhau.

Vậy mô hình ARIMA hanoi (0, 0, [4, 5]) được chọn là phù hợp với chuỗi số
liệu mưa trạm Hà Nội. Từ phương trình tổng quát của mô hình ARIMA và các giá
trị của thông số được trình bày trong bảng 3.4, mô hình ARIMAhanoi(0,0,[4,5]) có
phương trình như sau:

MuaDXt_Hanoi = 244.29 - 0.41547at-4 - 0.24608at-5 + at 3.1

Trong đó:
MuaDXt_Hanoi là tổng lượng mưa dự báo ở thời điểm t đối với trạm Hà Nội;
at, at-4, at-5 là sai số giữa giá trị quan trắc và dự báo tại bước trễ thời gian là t, t - 4
và t - 5, trong quá trình dự báo sẽ giả định giá trị sai số trong tương lai at = 0.
Tóm lại: Trong số 9 trạm đại diện cho khu vực đồng bằng Bắc Bộ được chọn
để áp dụng mô hình ARIMA, chỉ duy nhất trạm Hà Nội được áp dụng thành công
mô hình ARIMA, đối với các trạm còn lại, do hàm tự tương quan và tương quan
riêng phần của chuỗi lượng mưa vụ đông xuân không đủ độ lớn để có thể áp dụng
mô hình này.
3.2. Xây dựng mô hình dự báo lƣợng mƣa vụ đông xuân bằng mô hình
động thái ARIMAX
3.2.1. Xác định tính ổn định của chuỗi nhân tố dự báo
Như đã trình bày trong phần cơ sở dữ liệu ở chương 2, các nhân tố tham gia
dự tuyển trong mô hình động thái ARIMAX bao gồm: nhóm các chỉ số khí hậu (chỉ
số SOI, ASST trên các vùng NINO1.2, NINO3, NINO4, NINO3.4) và số vết đen
Mặt Trời, nhóm các nhân tố này được xử lý tính toán ở dạng chuẩn sai theo tháng.
Tuy nhiên để có thể áp dụng được mô hình động thái ARIMA, các chuỗi nhân tố dự

46
báo này cần phải có tính ổn định ngẫu nhiên. Sau đây sẽ khảo sát tính ổn định ngẫu
nhiên đối với từng nhóm nhân tố thông qua hàm tự tương quan của chúng.
Đối với nhóm các chỉ số khí hậu: Chuỗi tham ra dự tuyển trong nhóm này là
dữ liệu tháng được sắp xếp theo trình tự thời gian với bước thời gian cách nhau 1
năm. Với cách sắp xếp như vậy mỗi chỉ số khí hậu sẽ được chia thành 12 tập con
tương ứng với 12 tháng. Do đó các chuỗi này sẽ không còn có tính mùa mà chỉ có
thể có tính chu kỳ và xu thế. Để khảo sát tính chu kỳ và xu thế của chuỗi, đã tính
toán hàm tự tương quan của từng chuỗi dữ liệu theo tháng đối với các chỉ số SOI, dị
thường nhiệt độ bề mặt nước biển (ASST) trên các vùng NINO1.2, NINO3, NINO4,
NINO3.4. Diễn biến về hàm tự tương quan đối với các chỉ số này được trình bày
trong hình 3.4. Từ hình này nhận thấy hầu hết các giá trị tự tương quan đối với tất
cả các chuỗi được xét đều nằm trong khoảng giới hạn tin cậy của chuỗi (công thức
2.8), do vậy các chuỗi được chọn trong nhóm các chỉ số ENSO đều có tính ổn định
ngẫu nhiên và đủ điều kiện để tham gia dự tuyển trong mô hình ARIMA.
Đối với nhóm chỉ số vết đen mặt trời: Về cách thức sắp xếp dữ liệu đối với
nhóm chỉ số vết đen Mặt Trời cũng tương tự như đối với nhóm các chỉ số khí hậu.
Kết quả tính toán hàm tự tương quan đối với các chỉ số vết đen Mặt Trời được trình
bày trong hình 3.5. Từ hình 3.5 nhận thấy diễn biến hàm tự tương quan theo các
bước trễ thời gian thể hiện rất rõ dạng hình Sin với chu kỳ trong khoảng 10 đến 11
năm, điều này cho thấy các chuỗi vết đen mặt trời theo từng tháng đều có tính chu
kỳ nên cần phải sai phân để đưa các chuỗi này về dạng ổn định ngẫu nhiên.
Trên cơ sở độ lớn của hàm tự tương quan được trình bày trong hình 3.5, đã
chọn bước sai phân là 11 (ΔXt = Xt - Xt-11) đối với nhóm chỉ số vết đen mặt trời
nhằm đưa các chuỗi này về dạng ổn định ngẫu nhiên. Kết quả tính toán hàm tự
tương quan đối với các chuỗi này sau khi sai phân được trình bày trong hình 3.6. Từ
hình 3.6 nhận thấy hàm tự tương quan giảm nhanh ở các bước trễ thời gian đầu, sau
đó dao động trong khoảng giới hạn tin cậy, điều này chứng tỏ các chuỗi chỉ số vết
đen Mặt Trời sau khi sai phân đã đạt được tính ổn định ngẫu nhiên và có thể sử
dụng để tham ra dự tuyển trong mô hình ARIMA.

47
0.4 Tháng I
Hàm ACF của chỉ số ASST vùng NINO12 Tháng II
Tháng III
Tháng IV
Tháng V
Tháng VI
0.0 Tháng VII
1 2 3 4 5 6 7 8 9 10 11 12 13 Tháng VIII
Tháng IX
Bước t rễ t hời gian (Lag) Tháng X
Tháng XI
Tháng XII
-0.4 Khoảng tin cậy

0.4 Tháng I
Hàm ACF của chỉ s ố ASST vùng NINO34 Tháng II
Tháng III
Tháng IV
Tháng V
Tháng VI
0.0 Tháng VII
1 2 3 4 5 6 7 8 9 10 11 12 13 Tháng VIII
Tháng IX
Bước t rễ t hời gian (Lag) Tháng X
Tháng XI
Tháng XII
-0.4 Khoảng tin cậy

0.4 Tháng I
Hàm ACF của chỉ số ASST vùng NINO3 Tháng II
Tháng III
Tháng IV
Tháng V
Tháng VI
0.0 Tháng VII
1 2 3 4 5 6 7 8 9 10 11 12 13 Tháng VIII
Tháng IX
Bước t rễ t hời gian (Lag) Tháng X
Tháng XI
Tháng XII
-0.4 Khoảng tin cậy

0.4 Tháng I
Hàm ACF của chỉ số ASST vùng NINO4 Tháng II
Tháng III
Tháng IV
Tháng V
Tháng VI
0.0 Tháng VII
1 2 3 4 5 6 7 8 9 10 11 12 13 Tháng VIII
Tháng IX
Bước t rễ t hời gian (Lag) Tháng X
Tháng XI
Tháng XII
-0.4 Khoảng tin cậy

0.4 Tháng I
Hàm ACF của chỉ số SOI Tháng II
Tháng III
Tháng IV
Tháng V
Tháng VI
0.0 Tháng VII
1 2 3 4 5 6 7 8 9 10 11 12 13 Tháng VIII
Tháng IX
Bước t rễ t hời gian (Lag) Tháng X
Tháng XI
Tháng XII
-0.4 Khoảng tin cậy

Hình. 3.4. Hàm tự tương quan của chuỗi nhân tố dự báo thuộc nhóm chỉ số

48
ENSO

Trƣớc khi sai phân Tháng I


ACF Tháng II
1.0 Tháng III
Tháng IV
0.5 Tháng V
Tháng VI
Tháng VII
0.0
Tháng VIII
1 2 3 4 5 6 7 8 9 10 11 12 13 Tháng IX
-0.5 Tháng X
Bước trễ thời gian (Lag) Tháng XI
-1.0 Tháng XII

Hình 3.5. Hàm tự tương quan của chỉ số vết đen Mặt Trời trước khi sai phân

Tháng I
ACF Sau khi sai phân Tháng II
Tháng III
0.5
Tháng IV
Tháng V
Tháng VI
Tháng VII
0.0 Tháng VIII
Tháng IX
1 2 3 4 5 6 7 8 9 10 11 12 13
Tháng X
Tháng XI
Bước trễ thời gian (Lag) Tháng XII
-0.5 Khoảng tin cậy

Hình 3.6 . Hàm tự tương quan của chỉ số vết đen Mặt Trời sau khi sai phân
3.2.2. Khảo sát mối quan hệ giữa chỉ số lượng mưa và các biến tham gia dự
tuyển
Trên cơ sở các chuỗi dữ liệu được xử lý tính toán trong chương II và qua
bước khảo sát để đưa các chuỗi này về dạng ổn định ngẫu nhiên được trình bày
trong mục 3.2.1, đã lập chương trình tính toán hàm CCF giữa chuỗi lượng mưa và
từng chuỗi biến độc lập theo tháng với các bước trễ thời gian từ 1 đến 10, bao gồm:
- Mối tương quan chéo giữa chỉ số lượng mưa vụ Đông Xuân của 9 trạm vùng
đồng bằng Bắc Bộ với dị thường nhiệt độ bề mặt nước biển theo tháng ở các vùng
NINO12, NINO34, NINO3, NINO4;

49
- Mối tương quan chéo giữa chỉ số lượng mưa vụ Đông Xuân của 9 trạm vùng
đồng bằng Bắc Bộ với chỉ số SOI;
- Mối tương quan chéo giữa chỉ số lượng mưa vụ Đông Xuân của 9 trạm vùng
đồng bằng Bắc Bộ với chỉ số vết đen mặt trời.

Thứ tự các bước trễ thời gian theo tháng giữa chỉ số lượng mưa vụ Đông Xuân
với các các biến tham ra dự tuyển được trình bày trong bảng 3.6.
Bảng 3.6. Thứ tự các bước trễ thời gian theo tháng
Bước
Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng
trễ
9 10 11 12 1 2 3 4 5 6 7 8
(Năm)
1 1 2 3 4 5 6 7 8 9 10 11 12
2 13 14 15 16 17 18 19 20 21 22 23 24
3 25 26 27 28 29 30 31 32 33 34 35 36
4 37 38 39 40 41 42 43 44 45 46 47 48
5 49 50 51 52 53 54 55 56 57 58 59 60
6 61 62 63 64 65 66 67 68 69 70 71 72
7 73 74 75 76 77 78 79 80 81 82 83 84
8 85 86 87 88 89 90 91 92 93 94 95 96
9 97 98 99 100 101 102 103 104 105 106 107 108
10 109 110 111 112 113 114 115 116 117 118 119 120
Vậy ứng mới mỗi trạm, tổng số biến tham gia dự tuyển sẽ là: 6 chỉ số x 12
tháng/chỉ số x 10 hệ số tương quan chéo (theo bước trễ thời gian)/tháng = 720 hệ số
tương quan chéo. Các hệ số này được sử dụng để phân tích, đánh giá và chọn lựa
các bước trễ thời gian có mối tương quan tốt với chỉ số lượng mưa vụ Đông Xuân.
Kết quả minh họa diễn biến hàm tương quan chéo giữa chỉ số lượng mưa và các chỉ
số tham gia dự tuyển đối với một số trạm được trình bày trong các hình 3.7 đến
3.10.

Từ các kết quả này nhận thấy:

- Tồn tại các mối quan hệ giữa lượng mưa vụ Đông Xuân vùng đồng bằng Bắc
Bộ với 6 chỉ số được chọn tham ra dự tuyển trong mô hình động thái ARIMA.

- Mối quan hệ này không có sự đồng pha giữa các Trạm, nguyên nhân là do có
sự khác nhau rõ rệt về diễn biến mưa vụ Đông Xuân của các trạm vùng Đồng Bằng
Bắc Bộ.

50
- Tùy thuộc vào từng trạm, mức độ quan hệ giữa biến phụ thuộc và các biến
độ lập thể hiện rõ tính quy luật theo bước trễ thời gian, đây là một trong những cơ
sở để lựa chọn các biến độc lập tham ra vào mô hình động thái ARIMAX.

NINO12 NINO34 NINO3 NINO4 Khoảng tin cậy

0.4
Giá trị tƣơng quan chéo

0.2

0.0
0 12 24 36 48 60 72 84 96 108 120

Bƣớc trễ thời gian (tháng)


-0.2

-0.4

Hình 3.7. Diễn biến hàm tương quan chéo giữa chỉ số lượng mưa vụ Đông
Xuân trạm Hà Nội và dị thường nhiệt độ bề mặt nước biển ở các vùng NINO
với thời gian trễ từ 1 đến 120 tháng so với thời gian dự báo

NINO12 NINO34 NINO3 NINO4 Khoảng tin cậy

0.4
Giá trị tƣơng quan chéo

0.2

0.0
0 12 24 36 48 60 72 84 96 108 120

-0.2
Bƣớc trễ thời gian (tháng)

-0.4

Hình 3.8. Diễn biến hàm tương quan chéo giữa chỉ số lượng mưa vụ Đông
Xuân trạm Hải Dƣơng và dị thường nhiệt độ bề mặt nước biển ở các vùng
NINO với thời gian trễ từ 1 đến 120 tháng so với thời gian dự báo

51
Khoảng tin cậy SOI Vết đen Mặt Trời
0.4
Giá trị tƣơng quan chéo

0.2

Bƣớc trễ thời gian (tháng)

0.0
0 12 24 36 48 60 72 84 96 108 120

-0.2

-0.4

Hình 3.9. Diễn biến hàm tương quan chéo giữa chỉ số lượng mưa vụ Đông
Xuân trạm Hà Nội và chỉ số SOI, vết đen Mặt Trời với thời gian trễ từ 1 đến
120 tháng so với thời gian dự báo

Khoảng tin cậy SOI Vết đen Mặt Trời

0.5

0.3
Giá trị tƣơng quan chéo

0.2

0.0
0 12 24 36 48 60 72 84 96 108 120

-0.2 Bƣớc trễ thời gian (tháng)

-0.3

-0.5

Hình 3.10. Diễn biến hàm tương quan chéo giữa chỉ số lượng mưa vụ Đông
Xuân trạm Hải Dƣơng và chỉ số SOI, vết đen Mặt Trời với thời gian trễ từ 1
đến 120 tháng so với thời gian dự báo

52
3.2.3. Nhận dạng cấu trúc của mô hình động thái ARIMAX
Việc nhận dạng cấu trúc của mô hình động thái ARIMAX bao gồm xác định
thành phần động thái (hàm truyền giữa yếu tố dự báo và các nhân tố dự báo) và
thành phần tự hồi quy, trung bình trượt của chuỗi sai số dự báo.
Đối với thành phần động thái:
Từ các giá trị của hàm tương quan chéo (CCF) được tính toán trong mục
3.2.2, đã xem xét và chọn lựa các bước trễ thời gian có tương quan tốt, từ đó xác
định các tập con của các chuỗi độc lập (NINO12, NINO34, NINO3, NINO4, SOI,
VDMT) để làm biến đầu vào cho mô hình động thái ARIMA. Các tập con này cần
phải thỏa mãn các tiêu chí sau:
- Các tập con này phải có quan hệ tốt với chỉ số lượng mưa vụ Đông Xuân, trị
tuyệt đối của hệ số tương quan phải đạt tiêu chuẩn thống kê, lớn hơn 0.26 đối với
trạm Hà Nội và lớn hơn 0.29 đối với các trạm khác (do trạm Hà Nội có chuỗi dữ
liệu dài hơn so với các Trạm khác).
- Các tập con này phải có tính độc lập với nhau.
Đối với thành phần tự hồi quy, trung bình trượt:
Được xác định tương tự như quá trình nhận dạng mô hình tự hồi quy trung
bình trượt ARIMA, điểm khác biệt trong trường hợp này đó là chuỗi được xem xét
là chuỗi sai số giữa kết quả mô phỏng từ thành phần động thái và số liệu quan trắc.
Trên cơ sở các hàm CCF, ACF và PACF, đã xác định được các thành phần
trong mô hình động thái ARIMAX đối với 9 trạm vùng đồng bằng Bắc Bộ, kết quả
được trình bày trong bảng 3.7.
Từ bảng 3.7, có thể đưa ra một số nhận xét sau thấy:
- Mặc dù trong cùng một vùng khí hậu, nhưng có sự khác nhau rõ rệt về các
nhân tố dự báo được chọn cho mỗi trạm, khác nhau về nhóm chỉ số được chọn
và bước trễ thời gian của từng nhóm chỉ số. Điều này một lần nữa cho thấy
diễn biến mưa theo thời gian và phân bố mưa theo không gian ở khu vực đồng
bằng Bắc Bộ có sự khác biệt rõ rệt.
- Trong số các nhóm chỉ số tham gia dự tuyển, nhóm chỉ số về vết đen mặt trời
chiếm ưu thế vượt trội hơn về số lượng nhân tố dự báo được chọn, đạt 19
trường hợp, đối với nhóm chỉ số SOI và NINO4 là 14 trường hợp, đạt kém
nhất là nhóm chỉ số dị thường nhiệt độ bề mặt nước biển ở vùng NINO34, chỉ
chọn được 5 trường hợp.

53
Bảng 3.7. Kết quả nhận dạng cấu trúc của mô hình động thái ARIMAX đối với các trạm vùng đồng bằng Bắc Bộ
Thành phần động thái ARIMA
STT Trạm
NINO12 NINO34 NINO3 NINO4 SOI VDMT AR MA
Hà MON10_LAG10; MON05_LAG10;
1 MON01_LAG2 MON12_LAG10 MON12_LAG10 LAG4
Nội MON11_LAG8 MON07_LAG9
Hà MON10_LAG2;
2 MON11_LAG1 MON10_LAG10 LAG4
Nam MON02_LAG3
Hưng MON10_LAG10;
3 MON09_LAG3 MON12_LAG1 MON05_LAG6
Yên MON01_LAG1;
MON12_LAG1; MON10_LAG2;
Nam
4 MON04_LAG8 MON10_LAG10 MON02_LAG1; MON10_LAG10 MON11_LAG2; LAG4
Định
MON04_LAG1 MON05_LAG8
Vĩnh MON10_LAG2; MON01_LAG2; MON03_LAG1;
5 MON11_LAG6 MON10_LAG10 MON07_LAG8
Yên MON01_LAG2; MON09_LAG3 MON04_LAG1
MON01_LAG8; MON10_LAG2;
Phủ
6 MON12_LAG8 MON01_LAG8 MON02_LAG8; MON08_LAG9 MON12_LAG2; LAG6
Liễn
MON03_LAG8 MON03_LAG3
MON02_LAG1; MON10_LAG10; MON10_LAG2;
Ninh
7 MON09_LAG3 MON04_LAG1; MON11_LAG4; MON02_LAG3;
Bình
MON08_LAG2 MON04_LAG1 MON04_LAG1
Thái MON03_LAG2;
8 MON01_LAG8 MON09_LAG8 MON01_LAG8
Bình MON07_LAG3;
Hải MON02_LAG7; MON05_LAG4; MON04_LAG3; MON12_LAG9;
9 MON01_LAG5
Dương MON08_LAG8 MON07_LAG4; MON07_LAG4 MON03_LAG8;
Tổng số 8 5 7 14 14 19 4
Trong đó: MONxx (xx = 01, 02,…,12) ký hiệu chuỗi dữ liệu tháng được chọn trong các chuỗi nhân tố dự báo NINO12, NINO34,
NINO3, NINO4, SOI, VDMT; LAGx (x = 1, 2,…, 10) thể hiện bước trễ thời gian trong tháng đó.

54
3.2.4. Kiểm định các thông số trong mô hình động thái ARIMAX
Trên cơ sở kết quả chọn lựa các nhân tố dự báo được trình bày trong bảng
3.7, đã tính toán các thông số trong mô hình động thái ARIMAX theo phương pháp
bình phương tối thiểu được trình bày ở chương 2.
Tương tự như mô hình ARIMA, việc kiểm định các thông số trong mô hình
động thái ARIMAX nhằm loại bỏ các thông số không cần thiết và chọn ra được các
thông số thỏa mản các tiêu chuẩn thống kê, bao gồm: giá trị tuyệt đối của từng
thông số cần phải đủ lớn; các thông số phải có tính độc lập với nhau; và chuỗi sai số
dự báo trên bộ số liệu phụ thuộc phải là sai số ngẫu nhiên (không có sự tương quan
giữa các bước trễ thời gian của chuỗi sai số). Các bước kiểm định trung gian được
thực hiện tương tự như đối với mô hình ARIMA được trình bày trong mục 3.1.2,
nếu có bất kỳ thông số nào đó không thỏa mãn các tiêu chuẩn thống kê nêu trên, nó
sẽ bị loại bỏ và quá trình tính toán xác định thông số sẽ được thực hiện lại. Dưới
đây là các kết quả kiểm định liên quan đến bộ thông số được xem là đã thỏa mãn
các tiêu chuẩn thống kê trong mô hình động thái ARIMAX đối với 9 trạm vùng
đồng bằng Bắc Bộ.
* Kiểm định độ lớn của các thông số: Thông qua bảng 3.8 nhận thấy hầu hết
các chỉ tiêu kiểm nghiệm (Tni) đối với từng thông số đều có trị tuyệt đối lớn hơn giá
trị t=0.05 = 2, chỉ có một số ít Tni có giá trị tuyệt đối < 2 nhưng đều nằm trong
khoảng 1.81 đến 2 nên cũng có thể chấp nhận được. Vậy độ lớn của các thông số
tham ra trong mô hình động thái ARIMAX là có đủ độ tin cây về mặt thống kê.
* Kiểm định tính độc lập giữa các thông số: Bảng 3.9 trình bày ma trận
tương quan giữa các thông số trong mô hình động thái ARIMAX. Từ bảng này nhận
thấy các hệ số tương quan đơn giữa các thông số với nhau là khá nhỏ, hầu hết đều
có giá trị < 0.4, Điều này chứng tỏ các chuỗi nhân tố dự báo được chọn là khá độc
lập với nhau, do đó các mô hình được chọn là phù hợp.
* Kiểm tra tính độc lập của chuỗi sai số: Hình 3.11 trình bày hàm tự tương
quan và tự tương quan riêng của chuỗi sai số dự báo trong mô hình động thái
ARIMAX. Từ hình này nhận thấy tất cả các giá trị của hàm ACF và PACF đều nằm
trong khoảng giới hạn tin cậy. Vậy các chuỗi sai số này đều đạt tính ổn định ngẫu
nhiên và các mô hình động thái ARIMAX được chọn là phù hợp với các chuỗi dữ
liệu đầu vào.
Bảng 3.8. Các đặc trưng thống kê của các thông số trong
mô hình động thái ARIMAX
Tên Giá trị của Độ lệch chuẩn Chỉ tiêu kiểm
Tên thông số
trạm thông số của thông số nghiệm (Tni)
MA_LAG4 0.37 0.16 2.35
NINO12_MON01_LAG2 0.21 0.08 2.62

NINO4_MON12_LAG10 -0.34 0.11 -3.14
Nội
SOI_MON11_LAG8 0.17 0.06 2.66
VDMT_MON07_LAG9 0.22 0.10 2.28
MA_LAG4 0.15 0.07 2.08
Hà NINO4_MON11_LAG1 -0.19 0.09 -2.12
Nam VDMT_MON10_LAG2 0.20 0.09 2.25
VDMT_MON02_LAG3 0.33 0.15 2.20
NINO12_MON09_LAG3 0.18 0.08 2.18
Hưng NINO4_MON12_LAG1 -0.19 0.09 -2.20
Yên SOI_MON10_LAG10 0.09 0.05 1.94
VDMT_MON05_LAG6 -0.25 0.11 -2.34
MA_LAG4 0.40 0.18 2.26
NINO12_MON04_LAG8 0.27 0.11 2.53
Nam
SOI_MON10_LAG10 0.15 0.07 2.17
Định
VDMT_MON10_LAG2 0.29 0.16 1.82
VDMT_MON05_LAG8 -0.46 0.16 -2.96
NINO12_MON01_LAG2 0.35 0.11 3.13
Vĩnh NINO34_MON11_LAG6 0.31 0.11 2.70
Yên SOI_MON10_LAG10 0.16 0.07 2.28
VDMT_MON07_LAG8 -0.34 0.15 -2.29
MA_LAG6 -0.40 0.17 -2.27
Phủ NINO12_MON12_LAG8 -0.30 0.13 -2.33
Liễn NINO3_MON02_LAG8 0.70 0.23 3.08
VDMT_MON03_LAG3 0.38 0.14 2.72
NINO4_MON04_LAG1 -0.34 0.12 -2.90
Ninh
SOI_MON11_LAG4 -0.20 0.07 -2.89
Bình
VDMT_MON10_LAG2 0.41 0.14 2.99
NINO3_MON01_LAG8 0.27 0.11 2.54
Thái NINO4_MON09_LAG8 -0.32 0.12 -2.71
Bình VDMT_MON03_LAG2 0.36 0.17 2.07
VDMT_MON07_LAG3 0.33 0.17 1.91
NINO12_MON01_LAG5 0.21 0.09 2.32
Hải NINO3_MON08_LAG8 -0.19 0.11 -1.81
Dương NINO4_MON08_LAG3 -0.33 0.13 -2.62
SOI_MON07_LAG4 0.22 0.09 2.46

56
Bảng 3.9. Ma trận tương quan giữa các thông số trong mô hình động thái ARIMAX
Trạm Tên thông số NUM1 NUM2 NUM3 NUM4 NUM5
MA_LAG4 (NUM1) 1 -0.089 0.014 -0.059 -0.025
NINO12_MON01_LAG2 (NUM2) -0.089 1 0.075 -0.154 -0.247
Hà Nội NINO4_MON12_LAG10 (NUM 3) 0.014 0.075 1 -0.117 0.004
SOI_MON11_LAG8 (NUM 4) -0.059 -0.154 -0.117 1 -0.072
VDMT_MON07_LAG9 (NUM 5) -0.025 -0.247 0.004 -0.072 1
Tên thông số NUM1 NUM2 NUM3 NUM4
MA_LAG4 (NUM1) 1 0.058 -0.332 0.374

NINO4_MON11_LAG1 (NUM2) 0.058 1 0.082 0.161
Nam
VDMT_MON10_LAG2 (NUM 3) -0.332 0.082 1 -0.55
VDMT_MON02_LAG3 (NUM 4) 0.374 0.161 -0.55 1
Tên thông số NUM1 NUM2 NUM3 NUM4
NINO12_MON09_LAG3 (NUM1) 1 0.323 -0.306 -0.01
Hưng
NINO4_MON12_LAG1 (NUM2) 0.323 1 0.228 -0.335
Yên
SOI_MON10_LAG10 (NUM 3) -0.306 0.228 1 -0.019
VDMT_MON05_LAG6 (NUM 4) -0.01 -0.335 -0.019 1
Tên thông số NUM1 NUM2 NUM3 NUM4 NUM5
MA_LAG4 (NUM1) 1 -0.068 0.131 -0.065 0.17
Nam NINO12_MON04_LAG8 (NUM2) -0.068 1 -0.069 0.04 -0.122
Định SOI_MON10_LAG10 (NUM 3) 0.131 -0.069 1 -0.444 0.048
VDMT_MON10_LAG2 (NUM 4) -0.065 0.04 -0.444 1 -0.062
VDMT_MON05_LAG8 (NUM 5) 0.17 -0.122 0.048 -0.062 1
Tên thông số NUM1 NUM2 NUM3 NUM4
NINO12_MON01_LAG2 (NUM1) 1 -0.08 -0.288 0.1
Vĩnh
NINO34_MON11_LAG6 (NUM2) -0.08 1 0.054 0.224
Yên
SOI_MON10_LAG10 (NUM 3) -0.288 0.054 1 -0.002
VDMT_MON07_LAG8 (NUM 4) 0.1 0.224 -0.002 1
Tên thông số NUM1 NUM2 NUM3 NUM4
MA_LAG6 (NUM1) 1 0.27 -0.164 0.12
Phủ
NINO12_MON12_LAG8 (NUM2) 0.27 1 -0.575 -0.057
Liễn
NINO3_MON02_LAG8 (NUM 3) -0.164 -0.575 1 0.045
VDMT_MON03_LAG3 (NUM 4) 0.12 -0.057 0.045 1
Tên thông số NUM1 NUM2 NUM3
Ninh NINO4_MON04_LAG1 (NUM1) 1 -0.09 0.132
Bình SOI_MON11_LAG4 (NUM2) -0.09 1 0.043
VDMT_MON10_LAG2 (NUM 3) 0.132 0.043 1
Tên thông số NUM1 NUM2 NUM3 NUM4
NINO3_MON01_LAG8 (NUM1) 1 0.028 -0.11 -0.028
Thái
NINO4_MON09_LAG8 (NUM2) 0.028 1 -0.001 0.04
Bình
VDMT_MON03_LAG2 (NUM 3) -0.11 -0.001 1 -0.607
VDMT_MON07_LAG3 (NUM 4) -0.028 0.04 -0.607 1
Tên thông số NUM1 NUM2 NUM3 NUM4
NINO12_MON01_LAG5 (NUM1) 1 0.127 0.154 -0.234
Hải
NINO3_MON08_LAG8 (NUM2) 0.127 1 -0.076 0.201
Dương
NINO4_MON08_LAG3 (NUM 3) 0.154 -0.076 1 -0.098
SOI_MON07_LAG4 (NUM 4) -0.234 0.201 -0.098 1

57
0.4 Hà Nội

Hà Nam
Hàm tự tƣơng quan của chuỗi sai số
Hưng Yên

Nam Định

Vĩnh Yên
0.0
1 2 3 4 5 6 7 8 9 10 11 12 Phủ Liễn

Ninh Bình

Thái Bình
Bước trễ thời gian (Lag)
Hải Dương

-0.4 Khoảng tin cậy

0.4
Hà Nội

Hàmtự tƣơng quan riêng của chuỗi sai số Hà Nam

Hưng Yên

Nam Định

Vĩnh Yên
0.0
1 2 3 4 5 6 7 8 9 10 11 12 Phủ Liễn

Ninh Bình

Thái Bình
Bước trễ thời gian (Lag) Hải Dương

-0.4
Khoảng tin cậy

Hình 3.11. Hàm tự tương quan và tự tương quan riêng phần của chuỗi sai số
dự báo trong mô hình động thái ARIMAX
Trên cơ sở kiểm định độ lớn của từng thông số, tính độc lập giữa các thông
số và tính ngẫu nhiên của chuỗi sai số dự báo trong mỗi mô hình động thái
ARIMAX, đã loại bỏ các thông số không thỏa mãn các tiêu chuẩn thống kê và chọn
ra được mô hình dự báo lượng mưa vụ đông xuân phù hợp nhất đối với mỗi trạm ở
vùng đồng bằng Bắc Bộ. Các mô hình này được biểu diễn ở dạng các biểu thức từ
(3.2) đến (3.10) dưới đây:

58
MuaDXt _Hà Nội = 0.36853*at-4 + 0.21112*NINO12_MON01t-2 - (3.2)
0.34447*NINO4_MON12t-10 + 0.16909*SOI_MON11t-8 +
0.21739*VDMT_MON07t-9

MuaDXt _Hà Nam = -0.15238*at-4 - 0.19305*NINO4_MON11_t-1 + (3.3)


0.20382*VDMT_MON10t-2 + 0.33416*VDMT_MON02t-3

MuaDXt _Hƣng Yên = 0.17555*NINO12_MON09_t-3 - (3.4)


0.18894*NINO4_MON12_t-1 + 0.0949*SOI_MON10_t-10 -
0.24572*VDMT_MON05_t-6

MuaDXt _Nam Định = -0.40234*at4 + 0.27192*NINO12_MON04t-8 + (3.5)


0.14946*SOI_MON10t-10 + 0.29077*VDMT_MON10t-2 -
0.46437*VDMT_MON05t-8

MuaDXt _Vĩnh Yên = 0.34955*NINO12_MON01t-2 + (3.6)


0.31012*NINO34_MON11t-6 + 0.15847*SOI_MON10_t-10 -
0.33754*VDMT_MON07t-8

MuaDXt _ Phủ Liễn = 0.39561*at-6 - 0.296*NINO12_MON12_t-8 + (3.7)


0.70134*NINO3_MON02t-8 + 0.38059*VDMT_MON03t-3

MuaDXt _Ninh Bình = - 0.33589*NINO4_MON04t-1 - (3.8)


0.19851*SOI_MON11t-4 + 0.40614*VDMT_MON10t-2

MuaDXt _Thái Bình = 0.2676*NINO3_MON01t-8 - (3.9)


0.31615*NINO4_MON09t-8 + 0.3612*VDMT_MON03t-2 +
0.32952*VDMT_MON07t-3

MuaDXt _Hải Dƣơng = 0.20906*NINO12_MON01t-5 - (3.10)


0.19057*NINO3_MON08t-8 - 0.32885*NINO4_MON08t-3 +
0.21516*SOI_MON07t-4

59
Trong đó: MONxx (xx = 01, 02,…,12) ký hiệu chuỗi dữ liệu tháng được
chọn trong các chuỗi nhân tố dự báo NINO12, NINO34, NINO3, NINO4, SOI,
VDMT; t-x (x = 1, 2,…, 10) thể hiện bước trễ thời gian trong tháng đó.

Ghi chú : Các kết quả tính toán từ các công thức (3.2) đến (3.10) là kết quả
mô phỏng giá trị chuẩn hóa lượng mưa vụ đông xuân, để có giá trị lượng mưa mô
phỏng, sẽ tính ngược trở lại theo công thức 2.19 được trình bày trong phần sử lý số
liệu ở chương 2.
3.3. Đánh giá khả năng mô phỏng và dự báo của các mô hình ARIMA
Sau khi đã xây dựng được các mô hình ARIMA và ARIMAX, trước khi có
thể áp dụng các mô hình này vào công tác dự báo nghiệp vụ, cần phải tiến hành
đánh giá mức độ chính xác của mô hình để định hướng cho việc nghiên cứu, phát
triển, cải tiến mô hình, nâng cao chất lượng dự báo.
Cho đến nay, có nhiều chỉ tiêu đánh giá khả năng mô phỏng của mô hình,
mỗi chỉ tiêu đánh giá có những thế mạnh riêng, do vậy tùy thuộc vào mục tiêu chính
cần đánh giá và loại mô hình được đánh giá, sẽ chọn loại chỉ tiêu phù hợp. Trong
luận văn này, để tiến hành đánh giá chất lượng của các mô hình, ngoài những nhận
xét mang tính định tính, so sánh, ước lượng giữa sản phẩm của mô hình và số liệu
quan trắc, thì các chỉ số thống kê như: Sai số trung bình ME (Mean Error), sai số
tuyệt đối trung bình MAE (Mean Absolute Error), sai số quân phương RMSE (Root
Mean Square Error) và điểm kỹ năng MSSS (Mean Square Skill Score) sẽ được áp
dụng. Chi tiết về thuật toán và ý nghĩa khoa học của các chỉ số thống kê này được
trình bày trong [12].
* Đối với chuỗi số liệu phụ thuộc
Hình 3.12 trình bày chuỗi thời gian quan trắc và mô phỏng lượng mưa vụ
đông xuân theo các mô hình tại một số trạm vùng đồng bằng Bắc Bộ giai đoạn 1961
đến 2007. Từ hình này nhận thấy phần lớn các kết quả mô phỏng có sự trùng pha tốt
so với số liệu quan trắc, đặc biệt là các năm có lượng mưa lớn hầu hết các mô hình
đều cho kết quả mô phỏng khá phù hợp. Một số trạm có kết quả mô phỏng kém hơn

60
như trạm Hà Nam, Hưng Yên, Nam Định, nguyên nhân có thể do tính biến động
lượng mưa (độ lệch chuẩn) của các trạm này lớn hơn đáng kể so với các trạm khác.
Đối với trạm Hà Nội, từ kết quả mô phỏng của cả hai mô hình tự hồi quy
trung bình trượt ARIMA và mô hình động thái ARIMAX nhận thấy kết quả mô
phỏng của mô hình ARIMA kém hơn nhiều so với mô hình động thái ARIMAX,
nhất là các năm có sự biến động lớn về lượng mưa vụ đông xuân.
Bảng 3.10 trình bày các chỉ tiêu đánh giá khả năng mô phỏng của các mô
hình ARIMA đối với chuỗi phụ thuộc. Từ bảng này nhận thấy điểm kỹ năng của tất
cả các mô hình đều có giá trị > 0 và dao động trong khoảng từ 0.26 đến 0.51, điều
này cho thấy tất cả các mô hình đang được xem xét đều có kết quả mô phỏng tốt
hơn so với dự báo khí hậu (chỉ đơn thuần dựa vào số liệu quan trắc nhiều năm). Nếu
xem xét về độ lớn của 2 sai số thống kê ME và MAE cho thấy có sự khác biệt khá
lớn giữa 2 sai số này, điều này thể hiện sự phân bố mưa trong khu vực nghiên cứu là
khá phức tạp, ngay cả trên một phạm vi hẹp, tuy nhiên sự khác biệt này phần lớn
đều nhỏ hơn độ lệch chuẩn của chuỗi số liệu quan trắc.
* Đối với chuỗi số liệu độc lập
Từ các mô hình mô phỏng đã được xây dựng, luận văn đã tiến hành dự báo
thử nghiệm cho các vụ đông xuân 2008 – 2009, 2009 – 2010, 2010 – 2011, 2011 –
2012 và 2012 – 2013 tại các trạm trong vùng nghiên cứu (hình 3.13). Từ hình này
nhận thấy phần lớn kết quả dự báo trong 5 năm thử nghiệm đều có sự trùng pha so
với số liệu quan trắc, ngay cả những năm có lượng mưa lớn như năm 2008 – 2009
các mô hình đều cho kết quả dự báo khá cao trong vụ này.
Để đánh giá mức độ tin cậy về khả năng dự báo của các mô hình, cần phải
kiểm định các đặc trưng thống kê về kết quả dự báo trên chuỗi số liệu độc lập. Kết
quả kiểm định được trình bày trong bảng 3.11. Từ bảng này nhận thấy trong số 10
mô hình được xem xét có 3 mô hình có điểm kỹ năng < 0 bao gồm: mô hình
ARIMA đối với trạm Hà Nội (-1.33), mô hình ARIMAX đối với trạm Nam Định
(-0.35) và trạm Vĩnh Yên (-0.55). Đối với các trạm khác, chỉ số này dao động trong
khoảng từ 0.14 đến 0.67.

61
800
Trạm Hà Nội
mm

Quan trắc ARIMA ARIMAX


600

400

200

Năm
0
1961- 1964- 1967- 1970- 1973- 1976- 1979- 1982- 1985- 1988- 1991- 1994- 1997- 2000- 2003- 2006-
1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007

800.0 mm Trạm Nam Định


Quan trắc ARIMAX

600.0

400.0

200.0 Năm

0.0
1971- 1974- 1977- 1980- 1983- 1986- 1989- 1992- 1995- 1998- 2001- 2004- 2007-
1972 1975 1978 1981 1984 1987 1990 1993 1996 1999 2002 2005 2008

800.0 mm Trạm Vĩnh Yên


Quan trắc ARIMAX

600.0

400.0

200.0 Năm

0.0
1971- 1974- 1977- 1980- 1983- 1986- 1989- 1992- 1995- 1998- 2001- 2004- 2007-
1972 1975 1978 1981 1984 1987 1990 1993 1996 1999 2002 2005 2008

Hình 3.12. Mô phỏng lượng mưa vụ đông xuân theo các mô hình được xây
dựng tại một số trạm vùng đồng bằng Bắc Bộ

62
800.0 Trạm Phủ Liễn Quan trắc ARIMAX
mm

600.0

400.0

200.0

0.0
1969- 1972- 1975- 1978- 1981- 1984- 1987- 1990- 1993- 1996- 1999- 2002- 2005- Năm
1970 1973 1976 1979 1982 1985 1988 1991 1994 1997 2000 2003 2006

mm Trạm Thái Bình


Quan trắc ARIMAX
800.0

600.0

400.0

200.0

Năm
0.0
1969- 1972- 1975- 1978- 1981- 1984- 1987- 1990- 1993- 1996- 1999- 2002- 2005-
1970 1973 1976 1979 1982 1985 1988 1991 1994 1997 2000 2003 2006

mm Trạm Hải Dƣơng


Quan trắc ARIMAX
800.0

600.0

400.0

200.0

Năm
0.0
1969- 1972- 1975- 1978- 1981- 1984- 1987- 1990- 1993- 1996- 1999- 2002- 2005-
1970 1973 1976 1979 1982 1985 1988 1991 1994 1997 2000 2003 2006

Hình 3.12. Mô phỏng lượng mưa vụ đông xuân theo các mô hình được xây
dựng tại một số trạm vùng đồng bằng Bắc Bộ (tiếp theo)

63
mm Trạm Hà Nam
Quan trắc ARIMAX
800.0

600.0

400.0

200.0

Năm
0.0
1964- 1967- 1970- 1973- 1976- 1979- 1982- 1985- 1988- 1991- 1994- 1997- 2000- 2003- 2006-
1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007

mm
Trạm Hƣng Yên
Quan trắc ARIMAX
800.0

600.0

400.0

200.0

Năm
0.0
1971- 1974- 1977- 1980- 1983- 1986- 1989- 1992- 1995- 1998- 2001- 2004- 2007-
1972 1975 1978 1981 1984 1987 1990 1993 1996 1999 2002 2005 2008

mm Trạm Ninh Bình


Quan trắc ARIMAX
800.0

600.0

400.0

200.0

Năm
0.0
1965- 1968- 1971- 1974- 1977- 1980- 1983- 1986- 1989- 1992- 1995- 1998- 2001- 2004- 2007-
1966 1969 1972 1975 1978 1981 1984 1987 1990 1993 1996 1999 2002 2005 2008

Hình 3.12. Mô phỏng lượng mưa vụ đông xuân theo các mô hình được xây
dựng tại một số trạm vùng đồng bằng Bắc Bộ (tiếp theo)

64
mm Trạm Hà Nội mm
Trạm Hà Nam
800 800
Quan trắc
600 ARIMA Quan trắc
600
ARIMAX ARIMAX
400 400

200 200
Năm Năm
0 0
2008- 2009- 2010- 2011- 2012- 2008- 2009- 2010- 2011- 2012-
2009 2010 2011 2012 2013 2009 2010 2011 2012 2013

mm mm
Trạm Hƣng Yên 800
Trạm Nam Định
800

Quan trắc 600 Quan trắc


600
ARIMAX ARIMAX
400 400

200 200

Năm Năm
0 0
2008- 2009- 2010- 2011- 2012-
2008- 2009- 2010- 2011- 2012-
2009 2010 2011 2012 2013
2009 2010 2011 2012 2013

mm Trạm Vĩnh Yên mm Trạm Phủ liễn


800 800
Quan trắc Quan trắc
600 600
ARIMAX ARIMAX

400 400

200 200
Năm
Năm 0
0
2008- 2009- 2010- 2011- 2012-
2008- 2009- 2010- 2011- 2012-
2009 2010 2011 2012 2013
2009 2010 2011 2012 2013

mm Trạm Ninh Bình Trạm Thái Bình


mm
800 800
Quan trắc Quan trắc
600 ARIMAX 600 ARIMAX

400 400

200 200
Năm Năm
0 0
2008- 2009- 2010- 2011- 2012- 2008- 2009- 2010- 2011- 2012-
2009 2010 2011 2012 2013 2009 2010 2011 2012 2013

Hình 3.13. Kết quả dự báo lượng


Trạm Hải Dƣơng
mưa vụ đông xuân theo các mô hình 800
mm
Quan trắc

được xây dựng tại một số trạm vùng 600 ARIMAX

đồng bằng Bắc Bộ 400

200
Năm
0
2008- 2009- 2010- 2011- 2012-
2009 2010 2011 2012 2013

65
Bảng 3.10. Các chỉ tiêu đánh giá khả năng mô phỏng của các mô hình đối với chuỗi
phụ thuộc
Đặc trưng thống kê Đặc trưng thống kê của chuỗi mô
của chuỗi quan trắc phỏng

Loại mô Trung Sai số


Tên trạm Sai số Sai số
hình bình TĐ Điểm
Độ lệch trung quân
nhiều trung kỹ năng
chuẩn bình phươg
năm bình (MSSS)
(ME) (RMSE)
(mm) (MAE)
Hà Nội ARIMA 249.2 130.7 2.1 95.3 111.4 0.26
Hà Nội 249.2 130.7 12.8 79.2 99.1 0.41
Hà Nam 347.9 174.1 7.6 124.5 148.2 0.26
Hưng Yên 281.9 161.0 -10.3 114.2 136.7 0.26
Nam Định 300.5 157.6 -36.4 90.6 114.6 0.46
Vĩnh Yên ARIMAX 222.3 108.1 -4.5 56.3 74.9 0.51
Phủ Liễn 221.8 166.8 2.4 94.0 118.1 0.49
Ninh Bình 340.9 192.2 -3.0 119.9 144.5 0.42
Thái Bình 296.7 201.1 -17.4 121.6 139.0 0.51
Hải Dương 240.2 143.2 -11.4 81.2 104.3 0.46

Bảng 3.11. Các chỉ tiêu đánh giá khả năng mô phỏng của các mô hình đối với chuỗi
độc lập
Sai số
Sai số TĐ Điểm
Loại mô Sai số trung quân
Tên trạm trung bình kỹ năng
hình bình (ME) phươg
(MAE) (MSSS)
(RMSE)
Hà Nội_ ARIMA 5.9 149.8 197.2 -1.33
Hà Nội 30.7 109.6 120.2 0.14
Hà Nam -14.2 122.2 131.3 0.42
Hưng Yên -83.0 110.6 136.6 0.26
Nam Định -7.8 170.5 180.4 -0.35
Vĩnh Yên ARIMAX -14.3 109.3 132.7 -0.55
Phủ Liễn 19.2 96.3 110.5 0.55
Ninh Bình 3.6 83.1 109.4 0.67
Thái Bình 80.8 127.1 167.8 0.29
Hải Dương -20.6 86.9 110.5 0.39

66
KẾT LUẬN

Trên cơ sở các kết quả nghiên cứu trong quá trình thực hiện đề tài, có thể rút
ra một số kết luận sau:
1. Mặc dù nằm trong cùng một vùng khí hậu nhưng tính chu kỳ trong chuỗi lượng
mưa vụ Đông Xuân (từ tháng 10 năm trước đến tháng 1 năm sau) đối với mỗi
trạm không hoàn toàn giống nhau, tính chu kỳ 2 năm có 2 trạm, tính chu kỳ 4 –
5 năm có 5 trạm và tính chu kỳ 8 năm có 2 trạm. Sự khác nhau này có thể có
liên quan đến yếu tố địa phương đối với mỗi trạm.
2. Khả năng sử dụng tính chu kỳ của chuỗi lượng mưa vụ Đông Xuân để dự báo
cho chính nó là rất hạn chế, trong số 9 trạm được xem xét, chỉ duy nhất trạm Hà
Nội có tính chu kỳ 4 - 5 năm đạt được độ lớn để áp dụng mô hình tự hồi quy
trung bình trượt ARIMA, điều này một phần lý giải được tại sao mô hình
ARIMA không phải là mới nhưng rất ít được áp dụng trong lĩnh vực dự báo
lượng mưa mùa ở Việt Nam.
3. So sánh kết quả áp dụng mô hình ARIMA và ARIMAX đối với trạm Hà Nội cho
thấy kết quả mô phỏng và dự báo của mô hình ARIMA kém hơn nhiều so với
mô hình động thái ARIMAX, mô hình ARIMA thường cho sai số lớn trong các
năm có sự biến động lớn về lượng mưa.
4. Về kết quả mô phỏng và dự báo lượng mưa bằng mô hình ARIMAX nhận thấy
phần lớn các kết quả mô phỏng và dự báo có sự trùng pha tốt so với số liệu quan
trắc, nhất là các năm có lượng mưa lớn đều cho kết quả khá phù hợp với thực tế.
Cụ thể là:
- Kết quả mô phỏng trên chuỗi số liệu phụ thuộc đều khá tốt, điểm kỹ năng
(MSSS) của tất cả các mô hình đều có giá trị > 0 và dao động trong khoảng từ
0.26 đến 0.51.
- Kết quả dự báo trong 5 năm thử nghiệm đều có sự trùng pha so với số liệu
quan trắc, ngay cả những năm có lượng mưa lớn như 2008 – 2009 các mô hình
dự báo đều cho kết quả khá phù hợp so với số liệu quan trắc.
Do vậy, các mô hình động thái ARIMAX được xây dựng đều có thể sử
dụng được trong dự báo lượng mưa vụ Đông Xuân, đáp ứng được mục tiêu
nghiên cứu của luận văn.
5. Với tính ưu việt trong quá trình lựa chọn nhân tố dự báo và xử lý sai số, hy vọng
trong tương lai mô hình động thái ARIMAX sẽ được nghiên cứu áp dụng phổ
biến hơn trong các bài toán dự báo khí hậu mùa ở Việt Nam.

67
TÀI LIỆU THAM KHẢO

Tiếng Việt
1) Nguyễn Duy Chinh (2003), Nghiên cứu thử nghiệm dự báo khí hậu ở Việt Nam,
Báo cáo tổng kết đề án, Viện KTTV, Hà Nội.
2) Lê Đức Cương (2001), Đặc điểm hoạt động của xoáy thuận nhiệt đới trên khu
vực Biển Đông - Việt Nam trong mối quan hệ với ENSO và khả năng dự báo
mùa, Luận văn thạc sỹ khoa học ngành Khí tượng, Trường Đại học Khoa học
Tự nhiên, Hà Nội.
3) Hoàng Đức Cường (2003), Ứng dụng phần mềm NCSS (Hệ thống phân tích
thống kê) trong thống kê khí hậu, Báo cáo tổng kết đề tài, Viện KTTV, Hà Nội.
4) Phạm Thị Lê Hằng (2008), Nghiên cứu đặc điểm khí hậu của một số hiện tượng
cực trị và khả năng dự báo, Luận văn thạc sỹ khoa học ngành Khí tượng,
Trường Đại học Khoa học Tự nhiên, Hà Nội.
5) Dương Văn Khảm (2000), “Áp dụng phương pháp tích phân hồi quy bội và mô
hình ARIMA trong việc dự báo năng suất lúa ở Hà Nội”, Tạp chí KTTV , tr. 1-10.
6) Nguyễn Hữu Khải - Nguyễn Thanh Sơn (2003), Mô hình toán thuỷ văn, NXB
Đại học Quốc gia Hà Nội, tr. 195.
7) Nguyễn Đăng Mậu (2012), Thử nghiệm kết hợp mô hình toàn cầu CAM và khu
vực RegCM vào mô phỏng các trường khí hậu khu vực Việt Nam, Luận văn
thạc sỹ khoa học ngành Khí tượng, Trường Đại học Khoa học Tự nhiên, Hà
Nội.
8) Nguyễn Đăng Quế, Phạm Văn Huấn (2007), “Một số nhận xét bước đầu về phổ
dao động khí hậu tại các vùng khí hậu khác nhau trên lãnh thổ Việt Nam”, Tạp
chí KTTV, tr. 51-58.
9) Phan Văn Tân, Nguyễn Minh Trường (2003), “Về quan hệ giữa ENSO và tính
dao động có chu kỳ của lượng mưa khu vực miền Trung Việt Nam”, Tạp chí
Khoa học ĐHQGHN, Khoa học Tự nhiên và Công nghệ, t.XIX, No2, tr. 56-61.
10) Phan Văn Tân (2005), Phương pháp thống kê trong khí hậu, NXB Đại học
Quốc gia Hà Nội.

68
11) Phan Văn Tân (2008), Nghiên cứu ứng dụng mô hình khí hậu khu vực mô
phỏng/dự báo mùa các trường khí hậu bề mặt phục vụ qui hoạch phát triển và
phòng tránh thiên tai, Đề tài NCKH Trọng điểm cấp ĐHQG Hà Nội, mã số
QGTĐ.06.05.
12) Phan Văn Tân (2010), Nghiên cứu tác động của biến đổi khí hậu toàn cầu đến
các yếu tố và hiện tượng khí hậu cực đoan ở Việt Nam, khả năng dự báo và
giải pháp chiến lược ứng phó, Đề tài cấp Nhà nước, mã số KC08.29/06-10.
13) Nguyễn Văn Thắng (2006), Nghiên cứu xây dựng dự báo khí hậu cho Việt Nam
dựa trên kết quả của mô hình động lực toàn cầu, Báo cáo tổng kết đề tài, Viện
KTTV, Hà Nội.
14) Nguyễn Văn Thắng (2008), Xây dựng phương án chi tiết thử nghiệm ứng dụng
công nghệ dự báo và cảnh báo sớm hạn hán ở Việt Nam, Báo cáo tổng kết đề
tài, Viện KTTV, Hà Nội.
15) Nguyễn Minh Trường (2009), Nghiên cứu xây dựng các mô hình thống kê, lựa
chọn tập nhân tố dự báo, lập chương trình tính, kiểm tra độ chính xác bằng tập
số liệu mẫu, Báo cáo chuyên đề khoa học đề tài cấp nhà nước, mã số
KC08.29/06-10.
16) Lương Văn Việt (2006), “ENSO và khả năng dự báo mưa-nhiệt-ẩm khu vực
Nam Bộ”, Tạp chí KTTV (551), tr. 39-45.
Tiếng Anh
17) Alberto Troccoli (2010), Weather and climate predictions for the energy
sector, University of Reading, Reading, UK.
18) Bambang Widjanarko Otok, Suhartono (2009), “Development of Rainfall
Forecasting Model in Indonesia by using ASTAR, Transfer Function, and
ARIMA Methods”, European Journal of Scientific Research, ISSN 1450-216X
Vol.38 No.3, pp.386-395.
19) Bărbulescu A. and E. Pelican (2009), “ARIMA models for the analysis of the
precipitation evolution”, Advances in Computers, pp. 221 – 226.
20) Box G.E.P., Jenkins, G.M., and Reissel, G.C., (1994), Time Series Analysis
Forecasting and Control. 3rd edition. Prentice Hall.

69
21) Chookait Pudprommarat and Somruay Apichatibutarpong (2005), Forecasting
the Model of Rainfall in Thailand. Applied Statistics Program Faculty of
Science and Technology.
22) Guilyardi, Eric, Andrew Wittenberg, Alexey Fedorov, Mat Collins, Chunzai
Wang, Antonietta Capotondi, Geert Jan van Oldenborgh and Tim Stockdale
(2009), "Understanding El Niño in Ocean-Atmosphere General Circulation
Models: progress and challenges”, Bull Amer Meteor. Soc., 90, 325-340.
doi:10.1175/2008BAMS2387.
23) Indira Kadel (2012), “Statistical Prediction of Seasonal Rainfall in Nepal”,
APEC Climate Center.
24) Jennifer Mary (2011), Seasonal prediction of African rainfall with a focus.
Thesis submitted to University College London for the degree of Doctor of
Philosophy.
25) Lavers, D., L. Luo, and E. F. Wood (2009), “A multiple model assessment of
seasonal climate forecast skill for applications”, Geophys Res Lett, Vol 36,
L23711, doi:10.1029/GL041365.
26) Liew Junengand and Fredolin T.Tangang. (2009), “Statistical Downscaling
Forecastsfor Winter Monsoon Precipitationin Malaysia Using Multimodel
Output Variables”, Journal of Climate, 23: 17–27.
27) Lim, Eun-Pa; Hendon, Harry H.; Anderson, David L. T.; Charles, Andrew;
Alves, Oscar (2010), “Dynamical, statistical-dynamical, and multimodel
ensemble forecasts of Australian spring season rainfall”, Weather Rev., 139(3),
958–975,
28) Naill P.E. and M. Momani (2009), “Time Series Analysis Model for Rainfall
Data in Jordan: Case Study for Using Time Series Analysis”, American Journal
of Environmental Sciences, 599-604, ISSN 1553-345X.
29) Pai DS, Rajeevan M (2006), “Long range prediction models for the Indian
summer monsoon rainfall with different lead time periods based on the global
SST anomalies”, Meteorol Atmos Phys, 92:33–43.
30) Palmer, T.N., A. Alessandri, U. Andersen, P. Cantelaube, M. Davey, P.
Délécluse, M. Déqué, E. Diez, F.J. Doblas-Reyes, H. Feddersen, R. Graham,

70
S. Gualdi, J.-F. Guérémy, R. Hagedorn, M. Hoshen, N. Keelyside, M. Latif, A.
Lazar, E. Maisonnave, V. Marletto, A.P. Morse, B. Orfila, P. Rogel, J.-M.
Terres, and M.C. Thomson, (2004), “Development of a European multimodel
ensemble system for seasonal-to-interannual prediction (DEMETER)”, Bull
Amer Meteor Soc, 85, 853-872.
31) Rajeevan M., D. S. Pai, R. Anil Kumar, B. Lal (2007), “New statistical
models for long-range forecasting of southwest monsoon rainfall over India”,
Clim Dyn DOI ,10.1007/s00382-006-0197-6.
32) Rasmusson E.M. and T.H. Carpenter (1983), “The relationship between
eastern equatorial Pacific SSTs and rainfall over India and Sri Lanka”, Mon.
Wea. Rev, 111, 517-528.
33) Ropelewski C.F. and M.S. Halpert (1987), “Global and Regional Scale
Precipitation Patterns Associated with the El Niño/Southern Oscillation”, Mon
Wea Rev, 115, 1606-1626.
34) Saha, S., S. Nadiga, C. Thiaw, J. Wang, W. Wang, Q. Zhang, H.M. Van den
Dool, H.-L. Pan, S. Moorthi, D. Behringer, D. Stokes, M. Peña, S. Load, G.
White, W. Ebisuzaki, P. Peng, and P. Xie (2006), “The NCEP climate forecast
system”, J. Climate, 19, 3483-3517.
35) Somvanshi V.K., O.P.Pandey, P.K.Agrawal, N.V.Kalanker1, M.Ravi Prakash
and Ramesh Chand (2006), “Modelling and prediction of rainfall using
artificial neural network and ARIMA techniques”, J Ind Geophys, Vol.10,
No.2, pp.141-151.
36) Stockdale T.N., Alves, O., G. Boer, M. Deque, Y. Ding, A. Kumar, K. Kumar,
W. Landman, S. Mason, P. Nobre, A. Scaife, O. Tomoaki, W.T. Yun. (2010),
“Understanding and Predicting Seasonal-to-Interannual Climate Variability”,
Procedia Environmental Sciences ,1, 55-80.
37) Tim Arnold (2010), SAS/ETS9.22User’s Guide. SAS Institute Inc, ISBN 978-
1-60764-543-6.
38) Troccoli A., M. Harrison, D. L. T. Anderson and S. J. Mason (Eds) (2008),
“Seasonal Climate: Forecasting and Managing Risk”, Springer Academic
Publishers.

71
39) Uruya Weesakul, Sudajai Lowanichchai (2005), “Rainfall Forecast for
Agricultural Water Allocation Planning in Thailand”, Thammasat Int. J. Sc.
Tech., Vol. 10, No. 3.
40) Van Loon, H., G. A. Meehl, and D. J. Shea (2007), “Coupled air-sea response
to solar forcing in the Pacific region during northern winter”, J. Geophys. Res.,
112, D02108, doi:10.1029/2006JD007378.
41) http://www.wmo.int/pages/themes/climate/long_range_forecasting.php
42) http://www.vi.wikipedia.org/wiki/Vết_đen_Mặt_Trời.

72

You might also like