You are on page 1of 29

Kinh tế học thực nghiệm (2023) 65:149–188 https://doi.org/10.

1007/s00181-022-02329-y

Dữ liệu lớn dự báo lạm phát Nam Phi Byron Botha1 · Bánh mì kẹp thịt Rulof2,3 · Kevin Kotzé3,4

· Neil Rankin3 ·

Daan Steenkamp1,2

Đã nhận: 19 Tháng Hai 2022 / Đã chấp nhận: 18 Tháng Mười 2022 / Xuất bản trực tuyến: 8 Tháng Mười Một 2022
© (Các) Tác giả, theo giấy phép độc quyền cho Springer-Verlag GmbH Đức, một phần của Springer Nature 2022

Trừu tượng
Chúng tôi điều tra xem việc sử dụng cáckỹ thuật thống kê và dữ liệu lớn có thể nâng cao độ chính xác của dự báo lạm phát
hay không. Chúng tôi sử dụng một bộ dữ liệu lớn cho giá phân tách của hàng hóa và dịch vụ tiêu dùng, mà chúng tôi xây
dựng lại một phần và một bộ lớn cácmô hình chuỗi thời gian thống kê khác nhau. Kết quả cho thấy các mô hình học thống
kê có thể cạnh tranh với hầu hết các điểm chuẩn trong tầm nhìn trung bình đến dài hơn, mặc dù thực tế là chúng ta chỉ có
một mẫu dữ liệu có sẵn tương đối nhỏ. Điều này có thể ngụ ýrằng khả năng của các mô hình học tập thống kê để giải thích
các mối quan hệ phi tuyến, hoặc như một giải pháp thay thế, hạn chế tập hợp các yếu tố dự đoán đối với thông tin liên
quan, là rất quan trọng. Những đặc điểm này của các mô hình học thống kê có thểhữu ích trong thời kỳ khủng hoảng, khi
độ lệch so với trạng thái ổn định dai dẳng hơn. Chúng tôi thấy rằng độ chính xác của các dự báo lạm phát ngắn hạn của
ngân hàng trung ương so sánh thuận lợi với các dự báo của

Các tác giả muốn cảm ơn Patrick Kelly và Marietjie Bennett từ Thống kê Nam Phi vì sự hỗ trợ của họ với dữ liệu. Những nhận xét sâu sắc của các trọng
tài ẩn danh cũng đã dẫn đến một số cải tiến, mà các tác giả rấthài lòng. Các lỗi còn lại là của các tác giả.

BKevin Kotzé kevin.kotze@uct.ac.za


Byron Botha byron@codera.co.za
Rulof Burger rulof@sun.ac.za
Neil Rankin
neil@predictiveinsights.co.za
Daan Steenkamp daan@codera.co.za

1
Codera Analytics, 42 Ennis Road, Parkview, Gauteng 2193, Nam Phi
2
Khoa Kinh tế, Đại học Stellenbosch, Stellenbosch 7601, Nam Phi
3
Thông tin chi tiết dự đoán, 3 Meson Street, Techno Park, Stellenbosch 7600, Nam Phi
4
Trường Kinh tế, Đại học Cape Town, Rondebosch 7701, Nam Phi
Các mô hình khác, trong khi việc bao gồm thông tin ngoài mô hình, chẳng hạn như điều chỉnh biểu giá điện và các nguồn
dữ liệu trong tháng khác, cung cấp cho các mô hình này lợi thế cạnh tranh. Cuối cùng, chúng tôi cũng điều tra hiệu suất
tương đối của các mô hình khác nhau khi chúng tôi trải qua những ảnh hưởng của đại dịch gần đây và xác định những yếu
tố đóng góp quan trọng nhất cho áp lực lạm phát trong tương lai.

Từ khóa Micro-data · Ilạm phát · Hồi quy chiều cao · Khả năng bị phạt · Phương pháp Bayes · Học thống kê

Phân loại JEL C10 · C11 · C52 · C55 · Tập 31

1 Giới thiệu

Dự báo lạm phát chính xác trong ngắn hạn rất quan trọng đối với hầu hết các ngân hàng trung ương vì họ đóng gópvào
việc đánh giá chính xác hơn về triển vọng kinh tế và lập trường chính sách phù hợp. Biến số này thường cũng sẽ có ảnh
hưởng đáng kể đến sự phát triển của lãi suất ngắn hạn, có khả năng ảnh hưởng đến hoạt động của một tập hợp các tác nhân

123
150 B. Botha và cộng sự.
kinh tế đa dạng. Ngoài ra, những dự
báo như vậy neo kỳ vọng lạm phát, có thể cải thiện hiệu quả chính sách và ổn định kinh tế, để cung cấp nền tảng được cải
thiện cho mức tăng trưởng kinh tế cao hơn. Vì lý do này, điều quan trọng là các ngân hàng trung ương tiếp tục đánh giá
hiệu suất tương đối của các phương pháp dự báo khác nhau và việc sử dụng các bộ thông tin khác nhau. Gần đây, các cuộc
điều tra như vậy đã xem xét việc sử dụng các phương pháp học thống kê sử dụng các loại dữ liệu lớn để thông báo các
quyết định chính sách.1 Ngoài ra, các nghiên cứu sử dụng các phương pháp này cũng đã ảnh hưởng đến các quyết định
chính sách xem xét tác động của đại dịch COVID-19 đối với hoạt động kinh tế.2
Độ chính xác tương đối của dự báo lạm phát đã được xem xét trong một số nghiên cứu quan trọng, trong đó trong một
cuộc điều tra ban đầu, Stock and Watson (2007) cho thấy các mô hình đơn biến tương đối đơn giản cung cấp dự báo so
sánh tốt về lạm phát ở Hoa Kỳ, trong đó một mô hình kết hợp cả các thành phần không quan sát được và biến động ngẫu
nhiên cung cấp một dự báo lạm phát hợp lý tốt. 3 Tương tự, Faust và Wright (2013) cũng ủng hộ việc sử dụng một cách tiếp
cận tương đối đơn giản và cho rằng các dự báo phán đoán, chẳng hạn như dự báo từ Cục Dự trữ Liên bang hoặc khảo sát
kỳ vọng lạm phát, có xu hướng chính xác hơn các dự đoán mô hình dự báo khác nhau. Những phát hiện này, phần lớn liên
quan đến một giai đoạn hoạt động kinh tế ổn định cho một nền kinh tế đượcbao bọc, không quá ngạc nhiên vì mức trung
bình có điều kiện của lạm phát rất dai dẳng (Fuhrer 2010; Wolters và Tillmann 2015). Tuy nhiên, trong những giai đoạn
mà hoạt động kinh tế không đặc biệt ổn định, một dự báo gần với giá trị trung bình được quan sát trước có thể không chính
xác khủng khiếp và các mô hình có thể cần phải cho phép khởi hành bền vững khỏi các giá trị trạng thái ổn định. Do đó, có
thể cần phải thực hiện một số sửa đổi đối với các mô hình dự báo truyền thống trong thời kỳ kinh tếsuy thoái, hoặc khi tỷ
lệ lạm phát tương đối thay đổi, như trong trường hợp của một số quốc gia có thu nhập thấp và trung bình.
Để giải quyết một số thách thức có thể phát sinh khi tìm cách dự báo các biến số kinh tế vĩ mô, sau sự thay đổi cấu trúc
đáng kể hoặc sự khác biệt lớn so với các giá trị trạng thái ổn định, Galvao (2021) tóm tắt một số phát triển từ tài liệu quốc
tế, trong khi Castle et al. (2021) và Coulombe et al. (2021) lưu ý rằng các mô hình học thống kê có khả năng thích ứng với
vNhững thay đổi kích thích có thể hoạt động tốt hơn các mô hình cấu trúc được chỉ định rõ. 4 Ngoài ra, việc sử dụng các mô
hình học thống kê kết hợp các tính năng phi tuyến phi tham số đã thu hút được sự chú ý đáng kể trong những khoảng thời
gian gần đây, một phần do thực tế là chúng có thể được áp dụng cho các bộ dữ liệu lớn để mang lại kết quả ấn tượng. Ví
dụ, Medeiros et al. (2021) sử dụng các mô hình học thống kê phi tuyến có thể học các dạng chức năng phức tạp chưa biết,
có thể hữu ích khi cónhững thay đổi cấu trúc tiềm năng trong cả giá trị trung bình và xu hướng, để dự báo lạm phát. Kết
quả của họ cho thấy rằng các kỹ thuật này có thể cung cấp dự báo vượt trội trên các chân trời trung bình đến dài hơn, khi
sử dụng bộ dữ liệu kinh tế vĩ mô lớn cho Hoa Kỳ (cấu trúc đượcmô tả

Chú thích 2 tiếp tục


những thay đổi về sự không chắc chắn liên quan đến chi tiêu tiêu dùng. Các nghiên cứu khác của Chakrabarti et al. (2020a, b) sử dụng các bộ dữ liệu lớn
để điều tra những thay đổi trong chi tiêu của người tiêu dùng và doanh thu kinh doanh để đáp ứng với việc nhà nước mở cửa trở lại, trong khi Carvalho et
al. (2020 ) lưu ý rằng ở Tây Ban Nha, giỏ tiêu dùng hội tụ về rổ hàng hóa của các hộ gia đình có thu nhập thấp. Những thay đổi tương tự trong giỏ tiêu
dùng trong khoảng thời gian này cũng đã được quan sát thấy ở Cavallo (2020) cho một số quốc gia.
3
Ngoài ra, trong giai đoạn kết hợp khủng hoảng tài chính, Stock and Watson (2010) cho rằng mô hình này nên kết hợp xu hướng ngẫu
nhiên phản ứng với khoảng cách suy thoái thất nghiệp, trong đó phản ứng ngắn hạn của lạm phát phù hợp với sự gia tăng khoảng
cách này, trong khi phản ứng dài hạn phụ thuộc vào sự tồn tại dai dẳng của lạm phát xu hướng. Như trường hợp của hầu hết các quốc gia có thu nhập
thấp và trung bình, Nam Phi không có thước đo đáng tin cậy cho khoảng cách suy thoái thất nghiệp có thể được áp dụng trong một cuộc điều tra sử dụng
các quan sát hàng tháng về các biến chuỗi thời gian.
4
Trong particular, Coulombe et al. (2021) ủng hộ việc sử dụng các mô hình học thống kê phi tuyến, trong khi trong một cuộc điều tra tương
tự, Koop et al. (2021) cho rằng các thông số kỹ thuật mô hình phù hợp với sự thay đổi thời gian trong dự báo sự không chắc chắn cũng có thể mang lại
kết quả được cải thiện.

1 Agrawal và cộng sự (2019), Athey (2017, 2018), Athey và Imbens (2019), Mullainathan và Spiess (2017) và Varian (2014) chứa tổng quan về
nghiên cứu và thảo luận được lựa chọn liên quan đến việc sử dụng tiềm năng của các phương pháp học thống kê trong lĩnh vực kinh tế. Trong một cuộc
khảo sát gần đây, Doerr và cộng sự. (2021) lưu ý rằng ± 80% ngân hàng trung ương thảo luận chính thức về chủ đề dữ liệu lớn, trong đó 70% các cơ quan
tiền tệ này sử dụng nó để nghiên cứu kinh tế, trong khi 40% sử dụng nó để thông báo các quyết định chính sách. Khoảng hai phần ba số người được hỏi
cho biết họ muốn để khởi động các dự án Big Data mới trong năm 2020/2021. Kết quả từ nghiên cứu cũng cho thấy số lượng các bài phát biểu của ngân
hàng trung ương đề cập đến việc sử dụng dữ liệu lớn đã tăng đáng kể trong thời gian gần đây và hầu hết đều làm như vậy trong một ánh sáng tích cực.
Đối với một cuộc thảo luận trước đó về việc sử dụng các phương pháp học tập thống kê trong các ngân hàng trung ương và các tổ chức hoạch định chính
sách khác, xem Wibisono et al. (2019), Tissot (2019), Mehrhoff (2017), Hammer et al. (2017), Baldacci et al. (2016), Florescu et al. (2014) và Ngân hàng
Thế giới (2014) và United Nations Global Pulse (2012).
2 Ví dụ: Blumenstock (2020) mô tả một vài trường hợp thực tế trong đó việc sử dụng các kỹ thuật này có thể được áp dụng ở các nước đang phát
triển, trong khi Tổ chức EHợp tác và Phát triển bao gồm đề cập đến các cách thức mà các kỹ thuật này có thể được sử dụng để xác định các phản ứng
tiềm năng có thể làm giảm bớt tác động của đại dịch (OECD) 2020). Ngoài ra, Buckman et al. (2020) sử dụng phương pháp employed trong Shapiro et al.
(2017) để báo cáo về những thay đổi trong tâm lý người tiêu dùng sau khi đại dịch bùng phát, trong khi Chetty et al. ( 2020) Xây dựng các chỉ số hàng
ngày về chi tiêu tiêu dùng và các chỉ số khác, được phân tách theo mã zip, ngành và thu nhập để SHCác hộ gia đình có thu nhập cao giảm chi tiêu nhiều
hơn các hộ gia đình có thu nhập thấp, điều này đã góp phần làm mất việc làm trong số các hộ gia đình có thu nhập thấp cung cấp dịch vụ cho các hộ gia
đình có thu nhập cao. Những thay đổi tương tự trong hành vi tiêu dùng đã được ghi nhận trong Baker et al. (2020), những người sử dụng dữ liệu tài chính
cấp độ giao dịch để khám phá cách tiêu dùng hộ gia đình phản ứng với sự khởi đầu của đại dịch, trong khi Baker et al. (2020) báo cáo về

123
Dữ liệu lớn dự báo lạm phát Nam Phi 151
trong McCracken và Ng (2016)).3
Coulombe et al. (2022) xác nhận những kết quả này và cho rằng các mô hình học thống kê có khả năng kết hợp các tính
năng phi tuyến phi tham số chịu trách nhiệm cho lợi ích thực hiện đáng kể nhất, khi so sánh các dự đoán của một bộ phận
lớn các phương pháp dự báo khác nhau.
Ngoài những điều trên, cũng có một số nghiên cứu tương tự xem xét giá trị tương đối của việc sử dụng các phương pháp
học thống kê tìm cách xácđịnh tất cả các thông tin có sẵn (được chứa trong tập hợp các yếu tố dự đoán tiềm năng), trái
ngược với việc chỉ chọn các biến đó từ một tập hợp các yếu tố dự đoán tiềm năng cung cấp sức mạnh dự đoán hữu ích (tức
là mật độ so với tranh luận thưa thớt).Giannone et al. (2021) đã gợi ý rằng khi sử dụng các bộ dữ liệu kinh tế vĩ mô và tài
chính khác nhau cho Hoa Kỳ, dự báo của các mô hình dày đặc chính xác hơn so với các đối tác thưa thớt. Các lập luận
tương tự được đưa ra trong Coulombe et al. (2022), người lưu ý rằng việc sử dụng các kỹ thuật thưa thớt thường sẽ góp
phần làm giảm đáng kể độ chính xác của dự báo. Tuy nhiên, kết quả có trong Joseph et al. ( 2021) lưu ý rằng khi hạn chế
tập hợp con các yếu tố dự đoán tiềm năng, kết hợp các chỉ số giá tiêu dùng phân tách cho Vương quốc Anh, các mô hình
thưa thớt cung cấp kết quả ấn tượng hơn.4
Trong bài báo này, chúng tôi sử dụng bốn loại mô hình lớn để dự đoán các biện pháp lạm phát trong tương lai. Đầu tiên
trong số này liên quan đến các mô hình ben chmark, bao gồm các thông số kỹ thuật đi bộ ngẫu nhiên truyền thống, tự hồi
quy và tự động hồi quy vectơ Bayes (BVAR). Ngoài ra, chúng tôi cũng bao gồm các dự báo từ mô hình lạm phát phân tách
(DIM) của Ngân hàng Dự trữ Nam Phi (SARB), chịu trách nhiệm chính trong việc ảnh hưởng đến dự báo lạm phát ngắn
hạn hàng tháng, cùng với dự báo lạm phát hàng tháng thực tế được trình bày cho các cuộc họp Ủy ban Chính sách Tiền tệ
(MPC) hàng tháng. Nhóm mô hình thứ hai sử dụng các kỹ thuật giảm kích thước tìm cách tóm tắt tất cả dữ liệu từ các yếu
tố dự đoán tiềm năng và sẽ bao gồm các khung đó dựa trên phân tích thành phần chính. Nhóm mô hình thứ ba sử dụng các
kỹ thuật lựa chọn biến đổi và sẽ bao gồm các phương pháp e sử dụng các công cụ ước tính co ngót, các hàm khả năng bị
phạt hoặc kỹ thuật lựa chọn mô hình Bayes. Và cuối cùng, nhóm mô hình thứ tư bao gồm việc sử dụng các mô hình dự
báo học thống kê phi tuyến, chẳng hạn nhưphần còn lại ngẫu nhiên và mạng thần kinh, cũng có thể kết hợp các tính năng
phi tham số.
Các mô hình này được áp dụng cho dữ liệu được đo lường ở các mức tổng hợp khác nhau cho giá tiêu dùng, được thu
thập bởi Thống kê Nam Phi (StatsSA) để xây dựng Chỉ số giá tiêu dùng Nam Phi (CPI). 5 Bộ dữ liệu thô kết hợp
pricesfor34,075uniquegoodsandservices,whichwerecollectedbyfieldworkersthat được phân tán trên toàn quốc. Thông qua
các phương pháp tổng hợp khác nhau và với sự hỗ trợ của StatsSA, sau đó chúng tôi đã có thể xây dựng lại tập hợp 216
công cụ dự đoán phân tách trong khoảng thời gian từ tháng 1 năm 2009 đến tháng 3 năm 2021. Ngoài ra, chúng tôi cũng
makeuseofthepublicallyavailabledatasetforCPIthatismeasuredataslatemức độ tổng hợp cao hơn một chút (và bao gồm dữ
liệu cho 46 mục khác nhau). Do đó, các bộ dữ liệu này cũng kết hợp chu kỳ12 tháng, trong đó các biện pháp phong tỏa
khác nhau đã được áp dụng. Khi được đo lường ở mức độ phân tách cao hơn, người ta cho rằng một bộ dữ liệu như vậy
chứa thông tin liên quan đến hành vi đặc trưng của giá tiêu dùng, trong đótần suất f và sự phân tán của các điều chỉnh giá
có thể thay đổi giữa các mặt hàng và theo thời gian (Chu et al. 2018; Petrella và cộng sự. 2019; Chứng khoán và Watson
2020; Chetty và cộng sự. 2020; Carvalho và cộng sự. 2020; Cavallo 2020). Với những đặc điểm này của dữ liệu, chúng ta
có thể tin rằng khi các chỉ số giá phải chịu nhiều hình thức tổng hợp khác nhau, sức mạnh dự đoán của chúng có thể giảm.
Ví dụ: nếu chỉ số giá phân tách cho bánh mì nâu có khả năng dự đoán ấn tượng, trong khi các sản phẩm khác trong danh
mục cho b đọc và ngũ cốc là những yếu tố dự đoán kém, thì tín hiệu được cung cấp bởi bánh mì nâu có thể bị che khuất
nếu chúng ta hạn chế phân tích để sử dụng dữ liệu tổng hợp cho danh mục thay vì hàng hóa riêng lẻ. Những phát hiện
trước đây ở Hubrich và Hendry (2005) cho thấy rằng việc sử dụng các thành phần CPI phân tách cho Hoa Kỳ không dẫn
đến sự cải thiện có ý nghĩa về độ chính xác của dự báo, trong khi các nghiên cứu được thực hiện cho Mexico và Bồ Đào
Nha cho thấy việc sử dụng các thành phần phân tách có thể tạo ra những cải tiến đáng chú ý (Ibarra 2012; Duarte và Rua
2007).
Kết quả của chúng tôi cho thấy rằng mặc dù có những hạn chế của dữ liệu, phần lớn liên quan đến số lượng quan sát có
sẵn, việc sử dụng kết hợp dữ liệu lớn và phương pháp học thống kê cung cấpkết quả e có khả năng cạnh tranh với hầu hết
các điểm chuẩn trong tầm nhìn trung bình đến dài hơn. Tuy nhiên, nhiều điểm chuẩn truyền thống vượt trội hơn so với các
chân trời ngắn hơn. Ngoài ra, sau khi sử dụng dữ liệu được đo ở các cấp độ tổng hợp khác nhau,chúng tôi lưu ý rằng việc
sử dụng dữ liệu phân tách hơn dẫn đến hiệu suất dự báo được cải thiện trên tất cả các chân trời. Kết quả cũng cho thấy rằng
dự báo của một số mô hình thưa thớt vượt trội so với các mô hình dày đặc, khi sử dụng dữ liệu phân tách hơn. Ví dụ, cả
toán tử lựa chọn và co ngót tuyệt đối ít nhất (LASSO) và hồi quy sườn núi đều cung cấp kết quả vượt trội so với các mô

3 Có một số khác biệt quan trọng giữa thiết lập đã được sử dụng trong bài báo này và bài báo đã được sử dụng trong Medeiros et al. ( 2021). Ví dụ, thời
gian lấy mẫu của chúng dài hơn nhiều và kéo dài đến tháng Giêng năm 1960. Nó cũng không bao gồm bất kỳ dữ liệu nào phát sinh trong thời kỳ đại dịch
COVID-19, như quan sát cuối cùng liên quan đến tháng 12 năm 2015. Hơn nữa, bộ dự đoán của họ kết hợp một số biện pháp hoạt động kinh tế khác nhau
và không giới hạn ở thông tin về giá cả. Chân trời dự báo tối đa trong bài báo của họ cũng là khác nhau, vì nó kéo dài hơn mười hai tháng và họ cũng sử
dụng sơ đồ dự báo cửa sổ cuộn, thường thích hợp hơn khi mẫu kéo dài trong một thời gian dài, như trường hợp trong nghiên cứu của họ.
4 Joseph và cộng sự (2021) cũng thấy rằng phía sauKết hợp các biện pháp bổ sung của hoạt động kinh tế vĩ mô, các mô hình dày đặc sau đó cung cấp các
dự báo chính xác hơn, hỗ trợ các phát hiện của Giannone et al. (2021).
5 Các nghiên cứu trước đây đã sử dụng dữ liệu khảo sát giá tiêu dùng phân tách cho đánh giá hành vi định giá ở Nam Phi bao gồm Creamer và Rankin
(2008), Creamer et al. (2012), Ruch et al. (2016), và Ruch et al. (2016). Hạn chế phân tích này đối với việc sử dụng giá tiêu dùng có tầm quan trọng đối
với SARB, như dự báo từ the mô hình DIM hiện tại sử dụng dữ liệu CPI được đo ở mức tổng hợp tương đối cao.

123
152 B. Botha và cộng sự.
hình hệ số động, trên hầu hết các
chân trời, khi sử dụng dữ liệu cho lạm phát tiêu đề. Dườngnhư sẽ có lợi thế khi xác định các biến đóng góp vào tín hiệu dự
đoán cơ bản trong dữ liệu, bằng cách hạn chế thông tin được sử dụng trong việc xây dựng dự báo đối với những biến cósức
mạnh dự đoán thực chất. Hơn nữa, chúng tôi cũng lưu ý rằng hiệu suất tương đối của các phương pháp học thống kê ấn
tượng hơn khi tỷ lệ lạm phát lệch khỏi trạng thái ổn định trong giai đoạn kết hợp một số khóa kinh tế. 6
Các phần còn lại của bài viết này được tổ chức như sau: Phần 2 bao gồm đánh giá các mô hình dự báo lạm phát đã được
áp dụng cho dữ liệu của Nam Phi, trong khi Sect. 3 mô tả phương pháp luận của các mô hình khác nhau đã được chỉ định
trong nghiên cứu này. Chi tiết liên quan đến dữ liệu được thảo luận trong Sect. 4 and kết quả từ các mô hình dự báo khác
nhau được trình bày trong Sect. 5. Rồi cuối cùng, môn phái. 6 kết luận.

2 Đánh giá dự báo lạm phát ở Nam Phi

Một số nghiên cứu đã xem xét hiệu suất tương đối của các mô hình dự báo lạm phátở Nam Phi. Chúng bao gồm những
người nhấn mạnh các đặc điểm cấu trúc của một nền kinh tế, trong đó trong một nghiên cứu ban đầu, Woglom ( 2005) lưu
ý rằng dự báo lạm phát được tạo ra từ một đường cong Phillips đơn giản không đặc biệt chính xác. Tuy nhiên, khisử dụng
một biến thể mở rộng hơn của mô hình cấu trúc, Smal et al. (2007) cho rằng các mô hình như vậy có khả năng đưa ra dự
báo hàng quý về lạm phát CPIX 9 chính xác hơn so với DIM hoặc trung bình động tích hợp tự hồi quy model. Ngoài ra,
những dự báo này cũng được chứng minh là chính xác hơn so với dự báo đồng thuận của Reuters về mẫu cụ thể của họ.
Các mô hình cấu trúc tiếp theo, bao gồm Liu et al. (2009), cho thấy rằng các dự báo từ một mô hình cân bằng chung ngẫu
nhiên động lực học (NKDSGE) của nền kinh tế đóng nhỏ New Keynes vượt trội hơn các dự báo được tạo ra bởi các mô
hình tự hồi quy vectơ cổ điển (VAR) và BVAR cho bộ giảm phát GDP Nam Phi. Tuy nhiên, các tác giả này cũng lưu ý
rằngsự khác biệtinroot-mean-squarederror (RMSE) không đáng kểtrong hầu hết các trường hợp. Sau đó, Steinbach et al.
(2009) đã mở rộng mô hình NKDSGE để kết hợp các tính năng kinh tế mở nhỏ và nhận thấy rằng dự báo của mô hình về
lạm phát CPIX cung cấp RMSE thấp hơn, khi so sánh với dự báođồng thuận R euters, trên một chân trời kéo dài từ bốn
đến bảy phần tư phía trước. Tương tự, Alpanda et al. (2011) được xây dựng dựa trên mô hình NKDSGE nền kinh tế mở
nhỏ được thảo luận trong Alpanda et al. (2010) và Alpanda et al. (2010), để cho thấy mô hình của họ cung cấp dự báo tốt
hơn về lạm phát giá tiêu dùng trong những chân trời ngắn hơn. Hơn nữa, họ cũng chỉ ra rằng sự khác biệt về hiệu suất so
với các mô hình VAR, BVAR và đi bộ ngẫu nhiên cổ điển khác biệt đáng kể so với số không.
Sự xóa bỏ sáng sủa nàysau đó đã được mở rộng để xem xét hiệu suất của mô hình NKDSGE-VAR nền kinh tế mở nhỏ ở
Gupta và Steinbach (2013), tạo ra dự báo lạm phát CPIX vượt trội so với VAR cổ điển và hầu hết các mô hình BVAR
(ngoại trừ mô hình BVAR kết hợp lựa chọn biến tìm kiếm ngẫu nhiên trước đó) trong một phần tư đường chân trời phía
trước. Các nhà nghiên cứu khác đã xem xét vai trò của phi tuyến trong các mô hình cấu trúc, trong đó Balcilar et al. (2015)
sử dụng mô hình NK DSGE phi tuyến, sử dụng phương pháp giải pháp bậc hai của Schmitt-Grohé và Uribe ( 2004) và bộ
lọc hạt để đánh giá chức năng khả năng, để cung cấp dự báo lạm phát tiêu dùng có RMSE thấp hơn, khi so sánh với nhiều
loại lớn Các mô hình BVAR (bao gồm cả những mô hình sử dụng các mô hình lựa chọn thay đổi). Hơn nữa, họ phát hiện
ra rằng sự khác biệt trong hiệu suất dự báo thường có ý nghĩa thống kê, khi so sánh với mô hình NKDSGE đi bộ ngẫu
nhiên và tuyến tính (đặc biệt là trêncác chân trời dài). Tuy nhiên, khi xem xét việc sử dụng phi tuyến chuyển đổi chế độ,
Balcilar et al. (2017) lưu ý rằng các dự báo ngoài mẫu về lạm phát của Nam Phi được tạo ra bởi các hình thức khác nhau
của các mô hình NKDSGE chuyển đổi Markov phần lớn kém hơn so với đối tác chế độ duy nhất.
Ngoài ra còn có một số bài báo tập trung vào việc áp dụng các kỹ thuật thống kê phi cấu trúc khác nhau để dự báo lạm
phát Nam Phi, mà bài báo này đóng góp. Ví dụ, trong nỗ lực giảm tác động tiềm tàng của độ lệch biến bị bỏ qua, Gupta và
Kabundi (2011) sử dụng các mô hình nhân tố lớn Stock and Watson (2002b) và Forni et al. ( 2000) để dự báo tỷ lệ phần
trăm thay đổi trong bộ giảm phát GDP ẩn, cùng với sự thay đổi phần trăm ge trong GDP bình quân đầu người thực tế và tỷ
lệ tín phiếu kho bạc 91 ngày ở Nam Phi, trong giai đoạn từ một đến 4 quý trước từ Q1 2001 đến Q4 2006. Họ sử dụng
267 chuỗi kinh tế vĩ mô hàng quý để chỉ ra rằng các mô hình nhân tố có xu hướng vượt trội hơn các mô hìnhVAR, BVAR
và NKDSGE nền kinh tế đóng nhỏ bị hạn chế. Kết quả tương tự được cung cấp trong Gupta và Kabundi ( 2010), trong đó
lưu ý rằng các mô hình giàu dữ liệu quy mô lớn phù hợp hơn để dự báo các biến kinh tế vĩ mô chính, so với các mô hình
quy mô nhỏ. Thay vào đó, Kanda et al. (2016) là một trong số ít các nghiên cứu sử dụng dữ liệu hàng tháng
đểfocusonevaluatingtheperformanceofasuiteofunivariatenonlinearmodels, bao gồm cây mô hình tuyến tính cục bộ,
perceptron mờ, nhiều lớp, mạng nơ-ron tificial, tự hồi quy phi tuyến và mô hình dự báo dựa trên thuật toán di truyền. Phát
hiện của họ cho thấy cây mô hình tuyến tính cục bộ cung cấp các dự báo có thể cạnh tranh với mô hình tự hồi quy tuyến
tính và nói chung là vượt trội so với cácchân trời dài hơn. Ngoài ra, Ruch etal. (2020) rút ra dự báo hàng quý đo lường lạm
phát lõi ở Nam Phi với sự trợ giúp của các mô hình tự hồi quy vectơ tham số thay đổi theo thời gian (TVP-VAR), VAR
tăng cường yếu tố và mô hình phá vỡ cấu trúc để biết TVP-VARnhỏ đó hoạt động tốt hơn tất cả các mô hình khác của họ

6 Ngoài ra, chúng tôi thấy rằng độ chính xác của các dự báo lạm phát ngắn hạn của SARB so sánh thuận lợi với các mô hình khác mà chúng tôi đã sử
dụng trong tNghiên cứu của ông, phản ánh tầm quan trọng của việc bao gồm thông tin ngoài mô hình, chẳng hạn như điều chỉnh biểu giá điện và sự sẵn
9
có của dữ liệu trong tháng. Thước đo lạm phát giá tiêu dùng không bao gồm ảnh hưởng của lãi suất đối với thế chấpe trái phiếu.

123
Dữ liệu lớn dự báo lạm phát Nam Phi 153
như thế nào, trong đó thông tin bổ
sung về tốc độ tăng trưởng của nền kinh tế và lãi suất là đủ để dự báo lạm phát lõi một cách chính xác.

3 Phương pháp luận

Để mô tả phương pháp đã đượcsử dụng bởi các mô hình khác nhau, cần phải giới thiệu một số ký hiệu. Trong tất cả những
gì tiếp theo, chúng ta giả định rằng y = {y 1,..., y n} là một vectơ dữ liệu để đo lường lạm phát, trong đó các quan sát phát
sinh theo thời gian được ký hiệu, i ∈ {1,...,n}. Matrix cho tập hợp các công cụ dự đoán bao gồm các chỉ số giá cho các sản
phẩm hoặc danh mục khác nhau được lấy mẫu để xây dựng CPI được chứa trong X = {x 1,1,..., x n,p}, có kích thước (n ×
p), trong khi j ∈ {1,..., p} được sử dụng để biểu thị từng yếu tố dự đoán khác nhau trong ma trận. Chúng tôi đã sử dụng bốn
độ trễ cho các yếu tố dự đoán trong mỗi mô hình. Để xem xét độ chính xác dự báo tương đối của các mô hình khác nhau,
chúng tôi sử dụng sơ đồ ngoài mẫu đệ quy mở rộng NDS trong khoảng thời gian từ một đến hai mươi bốn tháng tới, trong
đó dữ liệu được sử dụng để kiểm tra các dự đoán kéo dài trong khoảng thời gian bốn năm.
Động lực để sử dụng sơ đồ dự báo đệ quy, trái ngược với sơ đồ cửa sổ cuộn, là số lượng quan sát có sẵn đã được đo theo
thời gian là tương đối nhỏ và các dự báo trong khoảng thời gian gần đây có thể được hưởng lợi từ việc sử dụng số lượng
quan sát tối đa có sẵn. Ví dụ, nếu chúng ta sử dụng sơ đồ cửa sổ cuộn, thì chúng ta sẽ bị giới hạn trong việc sử dụng
khoảng thời gian trong mẫu không đổi cho các yếu tố dự đoán chỉ hơn năm năm để tạo ra dự báo trước hai mươi bốn
tháng, khi sử dụng hầu hết các mô hình học thống kê. Vì chúng tôi có một số lượng lớn các yếu tố dự đoán tiềm năng,
chúng tôi đã giả định rằng bằng cách sử dụng bộ dữ liệu trong mẫu lớn hơn một chút, chúng tôi có thể tạo ra các dự báo
chính xác hơn cho các quan sát phát sinh trong khoảng thời gian gần đây hơn. Hơn nữa, vì sự thay đổi cấu trúc được cho là
do đại dịch phát sinh tương đối đột ngột và rất gần vào cuối mẫu, có lẽ có rất ít (nếu có) lợi ích có thể đạt được bằng cách
sử dụng sơ đồ cửa sổ cuộn cho các dự báo trong giai đoạn này.
Các số liệu thống kê được sử dụng để đánh giá hiệu suất ngoài mẫu của các mô hình tương ứng bao gồm lỗi bình
phương trung bình gốc (RMSE), lỗi phần trăm tuyệt đối trung bình (MAPE) và thống kê Diebold và Mariano (1995).7 Khi
xem xét kết quả, chúng tôi xem xét các dự báo hàng năm về lạm phát cơ bản và lạm phát cơ bản.

3.1 Mô hình điểm chuẩn

Để đánh giá hiệu suất dự báo tương đối của các mô hình học thống kê, chúng tôi xem xét việc sử dụng một số điểm chuẩn,
được cung cấp bởi tự hồi quy, quy mô lớn Bayes vectơ tự hồi quy, biến động ngẫu nhiên và mod đi bộ ngẫu nhiên. Các
điểm chuẩn bổ sung bao gồm mô hình hiện đang được ngân hàng trung ương ở Nam Phi sử dụng để tạo dự báo lạm phát
hàng tháng ngắn hạn và dự báo thực tế được trình bày cho MPC. Sau này kết hợp thông tin ngoài mô hình như điều chỉnh
biểu giá điện và phát hành dữ liệu trong tháng. Khi có tương đối ít yếu tố dự đoán, chúng tôi cũng bao gồm các kết quả từ
mô hình hồi quy tuyến tính. Các chi tiết khác liên quan đến đặc điểm kỹ thuật của các mô hình điểm chuẩn được bao gồmd
trong phần A của phụ lục trực tuyến.

3.2 Mô hình hệ số động

Để so sánh kết quả của các mô hình cạnh tranh với các mô hình dày đặc khác nhau, sử dụng các thành phần chính để tóm
tắt các kết hợp tuyến tính của các yếu tố dự đoán ban đầu, chúng tôi sử dụng haibiến thể khác nhau của mô hình yếu tố
động (DFM). Đầu tiên trong số này được xây dựng dựa trên khuôn khổ của DFM truyền thống, phần lớn theo công việc
tinh thần của Forni et al. (2000), Stock and Watson (2002a, b) và Bai (2003). Ngoài ra, nó cũng sử dụng phương pháp tiếp
cận yếu tố mục tiêu theo sau công việc của Bai và Ng (2008), trong khi phương pháp thứ hai sử dụng bộ lọc hồi quy ba lần
của Kelly và Pruitt (2013, 2015). Phần B của phụ lục trực tuyến chứa các chi tiết bổ sung liên quan đến đặc điểm kỹ thuật
của các mô hình này, nhằm tìm cách tóm tắt thông tin có trong một tập hợp lớn các yếu tố dự đoán hoặc các biến giải thích.

3.3 Mô hình lựa chọn biến

Các tài liệu về sự phát triển của các mô hình học tập thống kê sử dụng cácphương pháp lựa chọn biến dif ferent, đặc biệt
hữu ích khi làm việc với một tập hợp lớn các yếu tố dự đoán thưa thớt, rất rộng rãi. Trong bài báo này, chúng tôi sử dụng
một số phương pháp thay thế sử dụng hàm khả năng bị phạt, trong đó các tham sốđược ước tính bằng các kỹ thuật thường
7 Mặc dù sẽ có trường hợp các mô hình này sẽ được lồng vào nhau, điều này có nghĩa là việc sử dụng các số liệu thống kê được thảo luận trong Clark và
West (2007) và McCracken (2007) sẽ được ưu tiên hơn Diebold và Mariano (1995) thống kê, cácCác mô hình SE không phải lúc nào cũng lồng vào
nhau. Do đó, để đảm bảo tính nhất quán, chúng tôi sử dụng Diebold và Mariano (1995) thống kê để đánh giá tất cả các mô hình. Điều này sẽ gợi ý rằng
kết quả có thể ủng hộ mô hình đơn giản hơn trong những trường hợp mà các mô hình được lồng nhau.

123
154 B. Botha và cộng sự.
xuyên, cũng như một số đối tác lựa
chọn mô hình Bayes. Cụ thể, chúng tôi sử dụng toán tử lựa chọn và co ngót tuyệt đối ít nhất (LASSO), ban đầu được đề
xuất bởi Tibshirani (1996), trong đó kích thước của hình phạt được xác định bằng cách xác nhận chéo. Hơn nữa, chúng tôi
cũng sử dụng LASSO thích ứng của Zou (2006), điều này có thể làm giảm vấn đề lựa chọn quá mức tiềm ẩnđã gặp
phảivớiLASSO truyền thống.Asanalternativetosử dụng LASSO thích ứng, chúng tôi cũng sử dụng suy luận sau lựa chọn,
để loại trừ những yếu tố dự đoán có thể không thể đóng góp đáng kể vào việc giải thích áp lực lạm phát trong tương lai.
Bài tập này liên quan đến việc áp dụng các phương pháp đượcthảo luận trong Lee et al. ( 2016). Các tài liệu kinh tế lượng
cũng tham khảo rộng rãi các phương pháp ước tính Post-LASSO được thảo luận trong Belloni et al. (2011, 2013, 2014,
2017), trong bối cảnh cụ thể này, sẽ thúc đẩy u se của các phương pháp trong Belloni et al. ( 2013), để giảm tập hợp các
yếu tố dự đoán thành những phương pháp có thể có liên quan.
Để thay thế cho việc áp dụng hình phạt L 1, chúng tôi cũng sử dụng các phương pháp tìm cách thực hiện các hình phạt
L0, nói chung đã cải thiện các thuộc tính, nhưng yêu cầu sử dụng các phương phápkhông hiệu
quảtừacomputationalperspective. Để thực hiện các mô hình này, chúng tôi làm theo công việc của Rossell ( 2021). Ngoài
ra, chúng tôi cũng sử dụng các mô hình áp dụng hình phạt L2, chẳng hạn như trường hợp hồi quy sườn núi lần đầu tiên
được thảo luận trong Hoerl và Kennard (1970a, b), tìm cách điều chỉnh các ước tính hệ số thành các giá trị bằng 0 khi
chúng được coi là khác biệt không đáng kể so với 0. Các mô hình sử dụng kết hợp cả hai hình phạt L 1 và L2 cũng được
thực hiện, bao gồm lưới đàn hồi và mô hình độ lệch tuyệt đối được cắt trơn tru của Fan và Li (2001).
Để thay thế cho việc biến chúng tôithành các kỹ thuật thường xuyên, chúng tôi cũng sử dụng các phương pháp lựa chọn
mô hình Bayes xem xét việc sử dụng các mô hình có chứa các bộ hồi quy khác nhau, sau Johnson và Rossell (2010, 2012)
và Rossell và Telesca (2017). Các kết quả cho hệsinh thái sp đơn có nhiều khả năng chứa các yếu tố dự đoán hữu ích nhất
được báo cáo cùng với các thông số kỹ thuật được tóm tắt bằng các kỹ thuật tính trung bình mô hình Bayes. Các chi tiết bổ
sung liên quan đến việc sử dụng từng phương pháp lựa chọn biến đã được bao gồm trong phần C của phụ lục trực tuyến.

3.4 Mô hình học thống kê phi tuyến

Thesuiteofnonlinearstatisticallearningmodels, trong đó có thể chứacác tính năng phi tham số, bao gồm các phương pháp
tổng hợp, rừng ngẫu nhiên, tăng cường độ dốc và mạng lưới thần kinh . Các chi tiết khác liên quan đến từng phương pháp
này có trong phần D của phụ lục trực tuyến.

3.4.1 Phương pháp hòa tấu

Đối với mục đích so sánh, chúng tôi cũng đã sử dụng một phương pháp tổng hợp, có dạng khung hồi quy tập con hoàn
chỉnh (CSR) của Elliott et al. (2013, 2015). Quy trình này sử dụng kết quả từ các mô hình độc lập sau đó được kết hợp với
tính toán xác định. Ở nhiều khía cạnh, nó tương tự như quy trình đóng gói của Breiman ( 1996) và provides một phương
pháp trực quan để tạo dự báo từ nhiều biến. Để áp dụng phương pháp này, chúng tôi phù hợp với một mô hình hồi quy
tuyến tính tìm cách giải thích y i bằng cách sử dụng từng hồi quy riêng lẻ trong xi−h. Để xác định các yếu tố dự đoán tốt
nhất, sau đó chúng tôi sẽ chạyk giá trị tuyệt đối của thống kê t từ các ước tính hệ số ban đầu. Các công cụ dự đoán này sau
đó được sử dụng để tạo ra một số dự báo riêng lẻ, được kết hợp để cung cấp dự báo CSR.

3.4.2 Rừng ngẫu nhiên

Mô hình rừng ngẫu nhiên của Breiman (2001) làm giảm phương sai của cây hồi quy,
màarenonparametricmodelsthatapproximateanunknownnonlinearfunctionvới các dự đoán cục bộ bằng cách sử dụng phân
vùng đệ quy của không gian tham số. Chúng dựa trên các phương thức onbootstrapaggregation (đóng bao) fhoặc được xây
dựng ngẫu nhiênregressiontrees có dạng các mô hình phi tham số xấp xỉ một hàm phi tuyến chưa
biếtwithlocalpredictions,sử dụng đệ quypartitioningoftheparameterspaceliên quan đến các covariates. Do đó, để thực hiện
các ods meth này,không gian tham số được chia liên tiếp để giảm thiểu tổng các lỗi bình phương trong hồi quy.

3.4.3 Tăng cường độ dốc

Để thay thế cho các khu rừng ngẫu nhiên, tăng cường độ dốc tìm cách xây dựng một mô hình bằng cách liên tục lắp một
cây hồi quy vào phần còn lại. Sau khi mỗi cây đã phát triển để mô hình hóa phần còn lại, nó được thu nhỏ lại bởi một yếu
tố trước khi nó được thêm vào mô hình hiện tại. Điều này sẽ cho phép chúng ta giải thích một số yếu tố nhất định (bao
gồm các mối quan hệ phi tuyến) có thể đã bị loại bỏ trong phần dư. Một mô hình tăng cường giảm độ dốc chung đã được
phát triển để mở rộng phụ gia dựa trên bất kỳ tiêu chí phù hợp nào. Nó liênquan đến sự phát triển được thảo luận trong
Friedman et al. (2000) và Friedman (2001), trong đó các cải tiến đặc biệt được bắt nguồn cho trường hợp cụ thể trong đó
các thành phần phụ gia riêng lẻ hồi quycây. Nói chung, nó đã được gợi ý rằnggradient thúc đẩycây hồi quy tạo ra kết quả
cạnh tranh, rất mạnh mẽ.

123
Dữ liệu lớn dự báo lạm phát Nam Phi 155
3.4.4 Học sâu (mạng nơ-ron)

Các mô hình mạng nơ-ron thường ở dạng các thông số kỹ thuật phi tham số được tham số hóa cao có khả năng giải thích
bất kỳ hàm phi tuyến nào. Các mô hình này thường sẽ sử dụng một số lượng lớn trọng số tham số để biến đổi dữ liệu
đượcchứa trong tập hợp các công cụ dự đoán để phù hợp với biến mục tiêu. Các trọng số tham số này được học thông qua
việc tiếp xúc lặp đi lặp lại với các tập hợp con khác nhau của dữ liệu. Các phương pháp học sâu sử dụng các biểu diễn
phân lớp của các mô hình mạng nơ-ron được xếp chồng lên nhau để cung cấp một khuôn khổ toán học để học các quy tắc
cho phép ánh xạ các đặc điểm của các yếu tố dự đoán với biến đích. Các mô hình như vậy có khả năng giải thích hành vi
cực kỳ phức tạp, mặc dù cũng có khả năng đáng kể là mô hình có thể dễ bị lỗi quá phù hợp. Trong trường hợp của chúng
tôi, chúng tôi đã sử dụng một cấu trúc mô hình tương đối đơn giản hy vọng sẽ phá vỡ những lo ngại như vậy, nơi chúng tôi
đã kết hợp ba lớp ẩn en và sự kết hợp tương đối đơn giản của 32, 16 và 8 nút.

4 Dữ liệu

Chỉ số giá tiêu dùng (CPI) của Nam Phi đo lường những thay đổi trong mức giá chung của hàng hóa và dịch vụ tiêu dùng.
Đây là một chỉ số giá giỏ cố định, trong đó nóđại diện cho chi phí mua một giỏ hàng hóa và dịch vụ tiêu dùng cố định có
chất lượng không đổi và các đặc điểm tương tự (Thống kê Nam Phi 2017a). Các mục được bao gồm trong giỏ tìm cách đại
diện cho chi tiêu hộ gia đình trung bình, sử dụng thông tin từ Khảo sát Thu nhập và Chi tiêu (IES) và gần đây hơn từ Khảo
sát Điều kiện sống (LCS), được thực hiện lần cuối vào năm 2014/15. 8 Lưu ý rằng chỉ số chỉ kết hợp dữ liệu về những sản
phẩm đóng góp ít nhất 0,1% tổngchi phí sử dụng. Các nguồn dữ liệu bổ sung như báo cáo quy định, biên lai thuế tiêu thụ
đặc biệt, báo cáo hiệp hội ngành và dữ liệu giao dịch tóm tắt từ các nhà bán lẻ sau đó được sử dụng để điều chỉnh dữ liệu
từ các cuộc khảo sát tương ứng với dữ liệu đi vàochi tiêu tiêu dùng cuối cùng của hộ gia đình trong tài khoản quốc gia. Lần
cập nhật cuối cùng cho các mục được bao gồm trong rổ CPI là vào tháng 1 năm 2017 và bản cập nhật tiếp theo dự kiến sẽ
diễn ra trong năm 2021 (Thống kê Nam Phi 2017b).
Kể từ 2006,StatsSAhasmadeuseoffieldworkerswhoarerescuribleforthu giá liên quan trực tiếp từ các cửa hàng bán lẻ.
Mỗi tỉnh có giỏ hàng riêng và mỗi sản phẩm xuất hiện trong ít nhất một giỏ hàng cấp tỉnh đều được đưa vào giỏ hàng quốc
gia. CPIhiện tại chứa 412 sản phẩm, nhiều hơn một chút so với giỏ trước đó, bao gồm 393 sản phẩm (Thống kê Nam Phi
2017b) và thành phần của nó tuân theo tiêu chuẩn của Bộ phận Thống kê Liên Hợp Quốc (UNSD) để phân loại chi tiêu hộ
gia đình cho hàng hóa và dịch vụ. Tiêu chuẩn này được gọi là Phân loại tiêu dùng cá nhân theo mục đích (COICOP) và
hiện tại nó kết hợp 14 loại cấp cao (hoặc 2 chữ số) (ví dụ: 01-Thực phẩm và đồ uống không cồn). Bảng 1, khônggiống như
Thống kê Nam Phi (2017a), cho thấy
Bảng 1: Công ước phân loại COICOP
COICOP Mức Tên Ví dụ

01 2 chữ số Loại Thực phẩm và đồ uống không cồn


011 3 chữ số Lớp Thức ăn
0111 4 chữ số Nhóm Bánh mì và ngũ cốc
01112 5 chữ số Sản phẩm Bánh mì
01112001 8 chữ số Hàng hoá Ổ bánh mì trắng
01112001wxyz 12 chữ số Sản phẩm lấy mẫu Ổ bánh mì trắng cụ thể
Thương hiệu, kích thước, cửa
hàng (trong một khu vực)
quy ước đặt tên của COICOP đã được áp dụng cho các cấp độ sản phẩm và danh mục khác nhau ở Nam Phi.
Trong phân tích tiếp theo, chúng tôi sử dụng dữ liệu bốn chữ số hàng tháng về giá tiêu dùng từ tháng 1 năm 2008 đến
tháng 3 năm 2021, vì mộtphương pháp khác biệt nhỏ đã được sử dụng để thu thập và phân loại dữ liệu cho các khoảng thời
gian trước đó.9 Bộ dữ liệu này bao gồm tổng cộng 46 công cụ dự đoán khác nhau. Ngoài ra, chúng tôi cũng đã sử dụng một
bộ dữ liệu mới chứa nhiều dữ liệu phân tách hơn về giá cả hàng hóa trong giỏ tiêu dùng. Bộ dữ liệu này bao gồm thông tin
về 216 sản phẩm hoặc danh mục, trong đó các sản phẩm thực phẩm được đo ở mức 8 chữ số và tất cả các hàng hóa và dịch
vụ khác được đo ở mức 5 chữ số. Thật không may, lần bảo tồn đầu tiên trong tập dữ liệu này liên quan đến tháng 1 năm
2017, điều này sẽ tạo ra một khoảng thời gian đào tạo trong mẫu cực kỳ nhỏ trong trường hợp của chúng tôi. Do đó, với sự
giúp đỡ của StatsSA, chúng tôi đã mở rộng bộ dữ liệu này, quay trở lại tháng 1 năm 2009, bằng cách sử dụng dữ liệu nhân
viên hiện trường, đã được thu thập cho 34.075 sản phẩm khác nhau, trên 5.505 cửa hàng, phát sinh ở 85 khu vực khác
nhau.
Để có được thước đo cho những thay đổi về giá theo thời gian, chúng tôi tính toán các chỉ số tương đối giá cho dữ liệu
nhân viên hiện trường có sẵn, sử dụng phương pháp được sử dụng trongbiên dịch
củatherespectiveCPIindices.Thisprocedureinvolvestheconstruction of a Jevon's index, được định nghĩa là trung bình hình
8 Chi tiêu hộ gia đình trong LCS được khảo sát theo cách tương tự như trong IES. Tuy nhiên, LCS cũng bao gồm các biện pháp về một loạt các chỉ số
nghèo bổ sung.
9 Những thay đổi này được thảo luận trong Thống kê Nam AFrica (2007).

123
156 B. Botha và cộng sự.
học không trọng số của các tỷ lệ giá
sử dụng dữ liệu cho sur hiện tại và trước đóchu kỳ cho một mặt hàng cụ thể (tức là ở mức 8 chữ số). Chỉ số Jevon như vậy
có thể được xây dựng như sau:
1/ξ

TôiiJ(1)

= Pθ,i−1 i 1

trong đó I t J biểu thị chỉ số Jevon, trong khi P θ, t là giá của hàng hóa θ trong giai đoạn i và ξ đề cập đến tổng số mặt hàng
được bao gồm trong tính toán này. Trong nghiên cứu này, chúng tôi tính toán một số biến thể khác nhau của các chỉ số
tương đối giá để có được thông tin về biến động giá. Điều này sau đó được sử dụng để xây dựng các chỉ số riêng lẻ fhoặc
từng thành phần ở các mức tổng hợp khác nhau. Sau khi hoàn thành việc này

Hình 1 Lạm phát trong giai đoạn lấy mẫu ban đầu và ngoài mẫu (so với cùng kỳ năm ngoái)

Chúng tôi còn lại 216 yếu tố dự đoán cho dữ liệu tám / năm chữ số, trong khoảng thời gian mẫu từ tháng 1 năm 2009 đến
tháng 3 năm 2021.
Hình 1 hiển thị các thước đo lạm phát tiêu đề và lạm phát lõi trên toàn bộ mẫu, trong đó vùng bóng mờ liên quan đến
toàn bộ giai đoạn ngoài mẫu, trong đó chúng tôi giả định rằng chúng tôi không có thông tin trong tương lai liên quan đến
biến kết quả và các yếu tố dự đoán, khi ước tính các tham số trong các mô hình khác nhau. Quan sát ban đầu trong giai
đoạn hết mẫu là ngày 2 tháng 4 năm017. Lưu ý rằng xu hướng trong cả hai thước đo lạm phát đã giảm trong giai đoạn
ngoài mẫu, điều này cho thấy hầu hết các mô hình đảo ngược có nghĩa là sẽ tạo ra xu hướng dự báo tiêu cực. Ngoài ra, như
dự kiến, lạm phát tiêu đề chắc chắn biến động mạnh hơn nhiều so với lạm phát lõi, trong đó trong giai đoạn ngoài mẫu,
lạm phát cơ bản có phương sai 0,61%, trong khi phương sai của lạm phát tiêu đề là 1,04%.

5 Kết quả

Để đánh giá hiệu suất tương đối của các mô hình khác nhau, chúng tôi sử dụng bài tập dự báo ngoài mẫu đệ quy và chân
trời dự báo từ một đến hai mươi bốn tháng tới. Các số liệu thống kê được sử dụng để đánh giá hiệu suất ngoài mẫu của các
mô hình tương ứng bao gồm lỗi bình phương trung bình gốc (RMSE), lỗi phần trăm tuyệt đối trung bình (MAPE) và thống
kê Diebold và Mariano (1995).10 Khi báo cáo kết quả, chúng tôi so sánh dự báo lạm phát hàng năm với công bố CPI chính
thức cho tiêu đề và lạm phát lõi.11 Để tạo ra-
Bảng 2: Lỗi gốc-trung bình-bình phương
1 bước 2 bước 3 bước 4 bước 6 bước 12 bước 18 bước 24
bước

Lạm phát tiêu đề


SARB 0.15 0.25 0.37 0.57 0.84 1.42 1.59 1.63
4 XG-BOOST 0.45 0.64 0.78 0.95 1.1 1.28 1.33 1.48

10 Mặc dù sẽ có trường hợp các mô hình này sẽ được lồng vào nhau, điều này có nghĩa là việc sử dụng các số liệu thống kê được thảo luận trong Clark
và West (2007) và McCracken (2007) sẽ được ưu tiên hơn Diebold và Mariano (1995) thống kê, các mô hình này không phải lúc nào cũng lồng vào nhau.
Do đó, để đảm bảo tính nhất quán, chúng tôi sử dụng Diebold và Mariano ( 1995) thống kê để đánh giá tất cả các mô hình. Điều này sẽ gợi ý rằng kết quả
có thể ủng hộ mod parsimonious hơnel trong những trường hợp mà các mô hình được lồng nhau.
11 Overthesampleperiod,coreinflationisderivedfromthepricesofgoodsandservicesintheconsumption basket, không bao gồm thực phẩm và đồ uống không
cồn, nhiên liệu và năng lượng.

123
Dữ liệu lớn dự báo lạm phát Nam Phi 157
8/5 THẦN KINH 0.5 0.66 0.8 0.99 1.06 1.48 1.5 1.45
Lạm phát cơ bản
SARB 0.13 0.24 0.35 0.46 0.63 1.19 1.25 1.32
4 RỪNG RAND 0.27 0.41 0.52 0.63 0.8 0.71 0.85 1.17
8/5 THẦN KINH 0.25 0.39 0.39 0.42 0.55 0.86 0.91 1.09
Boldface chỉ ra rằng RMSE thấp hơn, khi được đo so với dự báo SARB
Từ viết tắt mô hình: "SARB"—dự báo SARB chính thức được báo cáo cho MPC, "4"—Dữ liệu bốn chữ số, "8/5"— Dữ liệu tám / năm chữ số,
"NEURAL"—mạng thần kinh, "RAND-FOREST"—rừng ngẫu nhiên, "XG-BOOST"— tăng cường

Trong dự báo, chúng tôi chủ yếu sử dụng phương pháp dự báo trực tiếp, trong đó các ngoại lệ duy nhất liên quan đến các
mô hình tự hồi quy đi bộ ngẫu nhiên, DIM, tự hồi quy và vector. 12 Để áp dụng phương pháp dự báo trực tiếp trên đường
chân trời dự báo h = {1,...,24}, chúng tôi ước tính mô hình y i i và sử dụng các hệ số để tìm yi j ,
trong đó các yếu tố dự đoán có thể bao gồm các giá trị trễ của biến đích.
Bảng 2 tóm tắt các kết quả chính, trong đó chúng tôi so sánh RMSE cho các dự báo SARB
chính thức, được báo cáo cho MPC, với mô hình học thống kê hoạt động tốt nhất. Chúng tôi lưu ý rằng trong thời gian
ngắn hơn, các dự báo SARB chính thức, được hưởng lợi từ việc sử dụng thông tin ngoài mô hình và cập nhật dữ liệu trong
tháng, nói chung là vượt trội. Tuy nhiên, overlonghorizons, thenonlinearstatisticallearning mô hình cung cấp kết quả ấn
tượng hơn. Khi xem xét kết quả lạm phát tiêu đề, mô hình thúc đẩy được áp dụng cho dữ liệu bốn chữ số cung cấp kết quả
hấp dẫn nhất, khithehorizonistwelvemonthorgreater. Tương tự, khi áp dụng cho dữ liệu tám / năm chữ số, mô hình mạng
thần kinh dường như cũng chịu trách nhiệm cho số liệu thống kê RMSE thấp hơn trong những chân trời dài hơn, khi so
sánh với dự báo SARB chính thức. Tuy nhiên, chúng không vượt trội so với kết quả của mô hình tăng cường được áp dụng
cho dữ liệu bốn chữ số.
Đối với lạm phát lõi, kết quả cũng tương tự, vì các dự báo chính thức của SARB vượt trội hơn trong khoảng từ một đến
ba tháng. Tuy nhiên, từ bốn bước đi trước đến chân trời dài hơn,mô hình mạng thần kinh có thể tạo ra RMSE thấp hơn, khi
được áp dụngdữ liệu tám / năm chữ số. Hơn nữa, mô hình rừng ngẫu nhiên, được áp dụng cho dữ liệu bốn chữ số, cũng
chịu trách nhiệm cho một lỗi dự báo nhỏ hơn (so với các dự đoán khác trongbảng), khi đường chân trời lớn hơn một năm
và dưới hai năm tới.
Ngoài những kết quả này, chúng tôi cũng báo cáo về các giá trị Shapley cho một mô hình học tập thống kê được lựa
chọn dường như cung cấp kết quả ngoài mẫu hấp dẫn, đểxác định các động lực quan trọng của áp lực lạm phát trong tương
lai. Công việc này theo sau Lundberg và Lee (2017) và Joseph et al. (2020), và kết quả được chứa trong phần H của phụ
lục trực tuyến.

5.1 Dữ liệu bốn chữ số: lạm phát tiêu đề

Tiêu đềlạm phátismadeupofforty-sixdifferentpriceindicesthataremeasuredatmức tổng hợp bốn chữ số. Các chỉ số này được
sử dụng để tạo ra dự báo DIM, có ảnh hưởng đáng kể đến dự báo lạm phát hàng tháng ngắn hạn của ngân hàng trung ương
chính thức. Với số lượng dự đoán tương đối nhỏ, có đủ mức độ tự do để có thể bao gồm các dự báo từ mô hình hồi quy
tuyến tính trong trường hợp này.
Bảng 3 chứa số liệu thống kê RMSE ngoài mẫu. Khi so sánh hiệu suất tương đối của các mô hình chuẩn, chúng tôi lưu ý
rằng ngoại trừ mô hình hồi quy tuyến tính, các lỗi đều khá giống nhau, trong đó DIM và dự báo SARB chính thức vượt trội
hơn trong ngắn hạn, trong khi các mô hình đi bộ ngẫu nhiên và biến động ngẫu nhiên vượt trội hơn so với các chân trời dài
hơn. Cũng lưu ý rằng trong ba tháng đầu tiên, các dự báo SARB chính thức cung cấp RMSE có kích thước bằng một nửa
DIM, điều này cho thấy rằng thông tin mô hình usetheuseofoff đã giảm sai số dự báo bằng một lượng tương đốila rge trên
những chân trời này.
Turningourchú ýtotherelativeforecastingperformanceofthelinearregression model, chúng tôi lưu ý rằng nó cung cấp kết
quả chỉ ra một mô hình dễ bị vấn đề quá phù hợp, vì các mô hình sử dụng các kỹ thuật lựa chọn biến mườicung cấp kết quả
ấn tượng hơn. Điều này cũng gợi ý rằng ma trận chứa các yếu tố dự đoán có thể thưa thớt, mặc dù chúng tôi không sử dụng
một định nghĩa cụ thể cho sự thưa thớt thống kê, như trong McCullagh và Polson (2018). Hỗ trợ thêm cho phát hiện của
ông được bao gồm trong phần E của phụ lục trực tuyến, trong đó kết quả ước tính trong mẫu cho mẫu đầy đủ cho thấy rằng
một mô hình sử dụng mười hai biến giải thích có thể cung cấp một lời giải thích gần như hoàn hảo về hành vi được đo
bằng lạm phát tiêu đề.
Khi chúng tôi so sánh độ chính xác của các dự báo từ các mô hình dày đặc so với các mô hình thưa thớt, chúng tôi lưu
ý rằng kết quả có phần hỗn hợp, trong đó mặc dù có một số trường hợp lựa chọn biến techniques cung cấp kết quả ấn
tượng hơn, DFM ít nhất là cạnh tranh trong mọi trường hợp và vượt trội so với thời gian dài hơn. Trong trường hợp hai
mươi bốn tháng trước, điều này có nghĩa là các giá trị quan sát được của các yếu tố dự đoán từ hai mươi bốn tháng trước,
cung cấp lời giải thích tốt nhất về lạm phát tiêu đề hiện tại, không nhất thiết phải giống nhau, như những giá trị cung cấp

12 Các chức năng dự báo rõ ràng cho các mô hình này đã được bao gồm trong mô tả ở trên của các mô hình tương ứng.

123
158 B. Botha và cộng sự.
dự báo hai mươi bốn tháng trước tốt
nhất, từ thời điểm hiện tại. Hơn nữa, chúng tôi cũng lưu ý rằng trong trường hợp này, các kỹ thuật lựa chọn var iable trong
hầu hết các trường hợp dường như kém hơn so với các điểm chuẩn, bao gồm các mô hình tự hồi quy, biến động ngẫu nhiên
và đi bộ ngẫu nhiên. Cũng lưu ý rằng kết quả cho các mô hình học thống kê phi tuyến ở hầu hết các mô hình tương tự như
các mô hình DFM, tuy nhiên, trên các chân trời dài hơn sáu tháng, mô hình sử dụng các phương pháp tăng cường cung cấp
dự báo chính xác hơn cả mô hình dày đặc và thưa thớt.
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước
AR(1)0.410.680.820.931.091.681.751.68
AR-DIRECT0.420.70.850.971.121.551.661.69
BVAR0.60.790.931.041.21.411.451.47
DIM0.360.590.720.820.971.491.611.69
LINEAR0.50.81.151.111.562.423.063.05
DFM-TF0.430.680.840.971.21.851.981.89
DFM-3PRF0.450.70.850.971.231.81.772.03
LASSO0.390.730.941.161.562.112.912.28
LASSO-PSI0.761.871.491.251.823.43.252.53
ADAP-LASSO0.40.7411.181.62.142.742.16

1.421.591.63

1.311.38
1.331.45
STOCH-VOL0.420.640.760.840.911.21

RAND-WALK0.410.640.760.840.9

0.150.250.370.570.84
1.19

Root-mean-squarederror (four-chữ sốheadlinelạm


phát)

Bảng SARB
3

123
Dữ liệu lớn dự báo lạm phát Nam Phi 159
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước
HẬU LASSO0.440.680.660.761.091.771.782.53
LASSO-ZERO0.420.70.871.041.22.462.193.47
SƯỜN
ELASTIC0.390.791.021.181.682.113.042.37
NÚI0.480.91.131.291.682.253.072.46
QUẢNG
SCAD0.440.830.881.021.432.22.123.33
BMS0.440.710.90.951.132.431.52.88
CÁO-ELASTIC0.390.811.071.231.72.192.972.31
BMA0.440.720.780.870.941.341.41.68
CSR0.410.650.750.820.921.771.662.11
THẦNNGẪU
KINH-NET0.450.740.961.011.2121.831.85
XG-BOOST0.450.640.780.951.11.281.331.48
NHIÊN-FOREST0.510.720.91.031.251.431.571.64

"RAND-WALK"—random-walk,"BVAR"—largeBayesi
hìnhcắtphạt,"RIDGE"—ridgeregression,"ELASTIC
xénđộ lệch tuyệt đối,"BMS"—Bayesianm
least absoluteshrinkageandselectionoperator,"LASS
chiềuvectorautoregressivemodel,"DIM"—disaggregatedi
toMPC,"LINEAR"—lienarregressionmodel,"DFM-TF
Từ viết tắt model:"AR(1)"—first-orderautoregressive,"AR-D

ochasticbiến
STr,"LASSO"—
động,
—hậuMạng
báo OLS lưới
cáo thần kinh-

công việc,"RANDOM-FOREST"—random
cường

indicatesthelowestRMSEataspecifichorizon
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước

LASSO,"LASSO-ZERO"—LASSOwith

L0

Tiếp tục

Trong
Bảng đậm
3

Diebold–Marianostatistics(đầu bốn chữ số)


123
160 B. Botha và cộng sự.
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước

Tiếp tục

Bảng
4

Bảng 4 chứa số liệu thống kê của Diebold và Mariano (1995) cho các dự báo của các mô hình khác nhau, liên quan đến
những gì được tạo ra bởi mô hình đi bộ ngẫu nhiên. Trong trường hợp này, chúng tôi lưu ý rằng các asts forec duy nhất
vượt trội hơn đáng kể so với dự báo đi bộ ngẫu nhiên được cung cấp bởi DIM trong khoảng thời gian một tháng và bởi dự
báo chính thức của SARB trong một và hai tháng. Hơn nữa,hiệu suất dự báo của DFM, so với orecast f đi bộ ngẫu nhiên,
không khác biệt đáng kể so với số không trên tất cả các chân trời, trong khi dự báo đi bộ ngẫu nhiên cung cấp một sự cải
thiện đáng kể về hiệu suất dự báo trên một số chân trời, so với hầu hết các mô hình sử dụng các kỹ thuật lựa chọn biếns.

5.2 Dữ liệu tám / năm chữ số: lạm phát tiêu đề

Khi sử dụng dữ liệu được đo ở mức tổng hợp tám chữ số cho các mặt hàng thực phẩm và ở mức năm chữ số cho hầu hết
các hàng hóa khác, chúng tôi có tổng cộng hai trăm lẻ mười chỉ số giá khác nhau cholạm phát hea dline. Với số lượng dự
đoán tương đối lớn, chúng ta không có đủ mức độ tự do để ước tính một mô hình hồi quy tuyến tính. Bảng5chứa-of-
sampleRMSEsforthedifferentmodels,trong đó hầu hết các kết quả liên quan đến các dấu hiệu băng ghế dự bị tương tự như
những gì được cung cấp khi sử dụng dữ liệu bốn chữ số, ngoại trừ BVAR, đã bị suy giảm nhẹ về hiệu suất.

123
Dữ liệu lớn dự báo lạm phát Nam Phi 161
Lưu ý rằng RMSE cho các mô
hình thưa thớt thấp hơn khi sử dụng dữ liệu phân tách hơn, điều này sẽ gợi ý rằng việc sử dụng kết hợp dữ liệu phân tách
hơn và các kỹ thuật lựa chọn biến cho phép cải thiện hiệu suất dự báo, vì nó sẽ loại bỏ một số nhiễu có thể được bao gồm
trong các biến khi chúng phải chịu sự tổng hợp degr lớn hơn. Điều này trái ngược với kết quả của các mô hình dày đặc,
cung cấp các dự báo không chính xác hơn một chút so với các dự báo được lấy từ dữ liệu bốn chữ số. Và cuối cùng, kết
quả cho các mô hình học thống kê phi tuyến tronghầu hết các trường hợp có thể so sánh với các kết quả sử dụng dữ liệu
bốn chữ số.
Bảng 6 chứa số liệu thống kê Diebold và Mariano (1995), được đo lường liên quan đến các dự báo từ mô hình đi bộ
ngẫu nhiên. Một lần nữa, các dự báo duy nhất vượttrội đáng kể so với đi bộ ngẫu nhiên được cung cấp bởi DIM trong một
tháng và bởi dự báo SARB chính thức trong đường chân trời một và hai tháng. Hơn nữa, hiệu suất dự báo của LASSO ở
đường chân trời ba tháng chính xác hơn đáng kể so với những gì được cung cấp bởi mô hình đi bộ ngẫu nhiên, trong khi
hầu hết các dự báo lựa chọn biến khác đều tích cực (do RMSE thấp hơn) hoặc không khác biệt đáng kể so với không.

5.3 Dữ liệu bốn chữ số: lạm phát lõi

Trong what sau, chúng tôi lặp lại phân tích trên, nhưng trong trường hợp này, biến mục tiêu là lạm phát lõi, bắt nguồn từ
thước đo CPI không bao gồm tác động của những thay đổi về giá thực phẩm, đồ uống không cồn, nhiên liệu và năng
lượng. Khi sử dụng dữ liệu bốn chữ số, chúng tôi có thể sử dụng ba mươi ba yếu tố dự đoán khác nhau cho lạm phát lõi.
Sau khi áp dụng dữ liệu này cho các mô hình tương ứng, chúng tôi tính toán RMSE,

123
162 B. Botha và cộng sự.
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước
LASSO-PSI1.591.182.021.981.662.512.332.08
AR(1)0.410.680.830.951.131.721.761.66
AR-DIRECT0.410.690.830.941.081.411.471.49
BVAR0.510.680.790.91.091.451.611.72
DIM0.360.590.720.820.971.491.611.69
DFM-TF0.430.660.820.981.281.891.691.74
DFM-3PRF0.460.70.820.951.32.031.972.38
LASSO0.430.620.650.81.181.851.791.85

STOCH-VOL0.420.650.760.840.921.231.34

1.421.591.63

1.411.45

1.191.33

RAND-WALK0.410.640.760.840.9

0.150.250.370.570.84

Root-mean-squarederror (8/5-chữ số)

Bảng SARB
5

123
Dữ liệu lớn dự báo lạm phát Nam Phi 163
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước
HẬULASSO-ZERO0.531.512.212.625.753.032.242.02
LASSO0.460.80.911.071.351.691.941.99
SƯỜN NÚI0.370.570.720.811.22.241.82.55
SCAD0.410.780.931.011.442.091.862.33
BMS1.572.262.182.412.313.653.062.39
CSR0.410.660.841.021.211.631.912.22
THẦN KINH-NET0.50.660.80.991.061.481.51.45
XG-BOOST0.490.740.991.151.391.571.711.72
ADAP-LASSO0.430.620.660.811.181.861.791.9
BMA2.241.852.452.772.534.742.982.8
NGẪU NHIÊN-FOREST0.580.81.021.21.321.521.71.7
ELASTIC0.420.60.660.781.131.721.842
QUẢNG CÁO-ELASTIC0.430.580.670.771.151.721.912

indicatesthelowestRMSEataspecifichorizon
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước

formodeltừ viết tắt

Tiếp tục

3SeeTable
Trong
Bảng đậm
5

880
09 27 04 61 35
9
1. 0. 0. 1. 0. .
− − − − − 123
Diebold–Marianostatistics(8/5 chữ số)
164 B. Botha và cộng sự.
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước

Tiếp tục

Bảng
6

được hiển thị trong Bảng 7. Lưu ý rằng trong trường hợp này, dự báo SARB vượt trội hơn so với đường chân trời một và
hai tháng, trong khi mô hình đi bộ ngẫu nhiên cung cấp dự báo vượt trội trong khoảng từ bađến sáu tháng tới. Sau đó,
RMSE thấp nhất được cung cấp bởi các mô hình sườn núi và rừng ngẫu nhiên. Một lần nữa, một số kết quả tồi tệ nhất
được cung cấp bởi mô hình hồi quy tuyến tính và sau khi tạo ra số liệu thống kê tóm tắt trong mẫu cho các mô hình vàsử
dụng các kỹ thuật chọn lọc, chúng tôi quan sát thấy rằng ma trận chứa các yếu tố dự đoán hiển thị các đặc điểm thưa thớt.
Bảng 8 chứa số liệu thống kê của Diebold và Mariano (1995), cho thấy rằng không có trường hợp nào mà sự khác biệt
về hiệu suất dự báo, so với ngẫu nhiên, khác biệt đáng kể so với số không, có lợi cho mô hình cạnh tranh (ngay cả trong
trường hợp dự báo SARB ngắn hạn). Ngoài ra, cũng có một số trường hợp mô hình đi bộ ngẫu nhiên cung cấp kết quả
chính xác hơn đáng kể so với bất kỳ mô hình cạnh tranh nào.

5.4 Dữ liệu tám / năm chữ số: lạm phát lõi

Sau khi loại trừ những mặt hàng không được bao gồm trong định nghĩa lạm phát lõi, chúng tôi chỉ còn lại tám mươi ba giá
ind băng,được đo ở mức năm chữ số, vì biện pháp này không bao gồm bất kỳ mặt hàng thực phẩm nào. Bảng 9 chứa các

123
Dữ liệu lớn dự báo lạm phát Nam Phi 165
RMSE ngoài mẫu cho các mô hình
khác nhau, trong đó chúng tôi lưu ý rằng kết quả khá giống với trường hợp chúng tôi sử dụngdữ liệu tổng hợp ít d hơn.
Trong trường hợp này, chỉ có một trường hợp mà mô hình đi bộ ngẫu nhiên không tạo ra RMSE thấp nhất trong đường
chân trời trung và dài hạn.
TheDieboldandMariano (1995) thống kêthatarecontainedinBảng10 cho thấy rằng không có dịp nàoở đây có sự khác biệt
đáng kể về hiệu suất dự báo, có lợi cho các mô hình đang cạnh tranh với đi bộ ngẫu nhiên.

5.5 Thay đổi mức độ hoặc xu hướng lạm phát

Sau khi đại dịch COVID-19 bùng phát, Nam Phi ban đầu bị phong tỏa vào ngày 27 tháng 3 năm 2020. Việc sử dụng các
quy định này dẫn đến những gì có thể được mô tả là sự thay đổi mức độ trong tỷ lệ lạm phát, trong đó từ tháng 4/2019 đến
tháng 3/2020, lạm phát trung bình là 4,2%, trong khi từ tháng 4/2020 đến tháng 3/2021, lạm phát chỉ đạt trung bình 2,9%
(thấp hơn giới hạn dưới của mục tiêu lạm phát). Trong những gì tiếp theo, chúng tôi thảo luận về hiệu suất tương đối của
các mô hình khác nhau sau th là sự thay đổi trong quá trình tạo dữ liệu, do hạn chế là chúng tôi chỉ có mười hai quan sát
phát sinh sau khi đại dịch bùng phát.
Trong những gì tương tự như Bảng 2, chúng tôi so sánh kết quả RMSE cho các dự báo SARB chính thức với hệ số động
hoạt động tốt nhất, lựa chọn biến và mô hình học thống kê phi tuyến cho giai đoạn ngoài mẫu kéo dài từ tháng Tư năm
2020 đến tháng Ba năm 2021. Kết quả đầy đủ cho tất cả các mô hình trong khoảng thời gian ngoài mẫu này đã được đưa
vào phần G của phụ lục trực tuyến. Lưu ý rằng đối với dự báo trước mười hai bước, chúng tôi chỉ có thể tính RMSE cho
một lần thực hiện duy nhất và như vậy

123
166 B. Botha và cộng sự.
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước
AR(1)0.190.30.390.480.580.971.171.26
AR-DIRECT0.190.30.380.480.590.991.21.29 HẬU CÁO-LASSO0.270.380.440.50.691.41.271.26
STOCH-VOL0.180.280.340.410.510.831.011.11
BVAR0.330.470.570.650.780.991.041.05LASSO0.250.330.440.540.761.341.041.53
DIM0.20.330.420.520.681.221.361.45
LINEAR0.240.40.50.660.692.361.761.65
DFM-3PRF0.240.350.460.630.951.551.441.43
LASSO0.280.370.430.490.671.381.281.27
LASSO-PSI0.470.560.6210.641.331.181.84
QUẢNG
DFM-TF0.230.360.480.620.821.441.61.8

0.350.460.631.191.251.32

0.760.941.04

0.320.390.47

RAND-ĐI BỘ0.180.26
Root-mean-squarederror (bốn chữ số)
0.130.24

Bảng SARB
7

123
Dữ liệu lớn dự báo lạm phát Nam Phi 167
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước
LASSO-ZERO0.180.290.390.540.651.521.466.18
ELASTIC0.250.370.450.490.611.391.231.22
QUẢNG
SCAD0.180.290.330.390.
BMS0.230.380.480.590.641.931.415.28
CÁO-ELASTIC0.260.390.460.490.631.41.21.25
BMA3.111.812.272.841.962.82.622.69
CSR0.20.310.410.510.711.311.371.38
THẦN KINH-NET0.30.440.470.560.741.21.311.25
XG-BOOST0.230.370.460.580.730.840.881.28
681.021.221.51

SƯỜN NÚI0.260.410.610.750.711.761.34

0.96 1.17

0.710.85

NGẪU NHIÊN-FOREST0.270.410.520.630.8

indicatesthelowestRMSEataspecifichorizon

formodeltừ viết tắt

Tiếp tục

3SeeTable
Trong
Bảng đậm
7

123
168 B. Botha và cộng sự.
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước

Diebold–Marianostatistics(bốn chữ số)

Bảng
8

123
Dữ liệu lớn dự báo lạm phát Nam Phi 169

123
170 B. Botha và cộng sự.
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước
AR(1)0.180.280.360.450.5511.271.43
AR-DIRECT0.190.290.360.450.550.891.061.12
STOCH-VOL0.180.270.340.410.50.80.981.07
BVAR0.30.420.510.590.721.011.131.22
DIM0.20.330.420.520.681.221.361.45
DFM-TF0.180.270.330.390.551.091.311.46
DFM-3PRF0.270.430.60.771.081.631.471.57
LASSO0.280.360.380.550.831.491.041.51

0.350.460.631.191.251.32

1.04

0.94
0.320.390.470.76

RAND-ĐI BỘ0.180.26
Root-mean-squarederror (8/5-digitcore)
0.130.24

Bảng SARB
9

123
Dữ liệu lớn dự báo lạm phát Nam Phi 171
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước
LASSO-PSI0.520.850.960.651.031.091.721.37
QUẢNG
HẬU CÁO-LASSO0.270.370.370.520.821.521.031.52
LASSO0.220.360.450.540.721.141.251.46
LASSO-ZERO0.921.130.81.081.351.862.281.44
ELASTIC0.260.340.360.590.721.511.041.52
QUẢNG BMS0.731.031.131.241.032.052.191.59
CÁO-ELASTIC0.270.350.360.570.71.491.031.53
BMA0.640.530.950.830.782.151.781.48
CSR0.20.330.430.50.631.021.281.32
NGẪUXG-BOOST0.220.370.380.470.60.891.191.36
NHIÊN-FOREST0.240.350.410.510.640.911.241.36
SƯỜN NÚI0.280.470.560.530.651.091.321.6
SCAD0.190.320.40.540.781.131.311.6

THẦN KINH-NET0.250.390.390.420.550.86
1.09

0.91

indicatesthelowestRMSEataspecifichorizon

Trong
đậm
formodeltừ viết tắt.

Tiếp tục

3SeeTable
Bảng
9

123
172 B. Botha và cộng sự.
Mô hình1-bước2-bước3-bước4-bước6-bước12-bước18-bước24 bước

Diebold–Marianostatistics(8/5 chữ số)

Bảng
10

123
Dữ liệu lớn dự báo lạm phát Nam Phi 173

Bảng 11: Lỗi gốc-trung bình-bình phương


Bước 1 Bước 2 Bước 3 Bước 4 Bước 6 Bước 8 Bước 10 Bước-
12

Lạm phát tiêu đề


SARB 1,06 1.08 0.86 0.63 0.64 1.13 1.37 1.7
4 DFM-3PRF 0.64 0.97 0.92 0.81 1.16 1.79 1.75 1.7
4 LASSO 0.47 0.72 0.58 0.51 1.82 0.9 2.8 1.94
4 Trách nhiệm xã 0.52 0.8 0.7 0.53 0.7 1.21 1.88 2.32
hội
8/5 DFM-TF 0.6 0.92 0.93 0.96 1.44 2.05 2.56 2.51
8/5 ĐÀN HỒI 0.47 0.7 0.67 0.6 1.32 1.02 1.29 2.32
8/5 CSR 0.52 0.81 0.8 0.76 0.79 1.08 1.32 1.88
Lạm phát cơ bản
0.47 0.51 0.51 0.51 0.56 0.87 1.16 1.42

123
174 B. Botha và cộng sự.
SARB
4 DFM-TF 0.28 0.42 0.45 0.45 0.37 0.38 0.84 1.67
4 LASSO 0.35 0.43 0.38 0.41 0.51 0.47 1.26 1.94
4 THẦN KINH 0.37 0.43 0.34 0.49 0.48 0.61 0.74 1.74
8/5 DFM-TF 0.25 0.35 0.39 0.44 0.43 0.27 0.45 1.15
8/5 SAU LA 0.27 0.42 0.42 0.35 0.34 0.62 0.67 0.99
8/5 THẦN KINH 0.3 0.42 0.35 0.39 0.45 0.56 0.14 0.77
In đậm cho biết RMSE thấp nhất tại một đường chân trời và tập dữ liệu cụ thể
Từ viết tắt dữ liệu: "4"—Dữ liệu bốn chữ số, "8/5"—Dữ liệu tám / năm chữ số. Từ viết tắt mô hình: "SARB"—dự báo SARB chính thức được báo cáo
cho MPC, "DFM-TF"—mô hình yếu tố động với các yếu tố mục tiêu, "DFM-3PRF"—mô hình nhân tố dyn amic với bộ lọc ba pas, "LASSO"—toán tử
lựa chọn và co ngót tuyệt đối ít nhất, "POST-LA"—post-OLS LASSO, "CSR"—hồi quy tập con hoàn chỉnh, "NEURAL"—mạng nơ-ron

rất khó để đọc quá nhiều về kết quả này, trong khi RMSE cho dự báo trước một bước được tính trên mức trung bình của
mười hai dự báo liên tiếp.13
Những kết quả này cho thấy rằng nếu chúng ta áp đặt giới hạn trên đường chân trời dự báo ở tám bước trước (hoặc nơi
chúng ta có ít nhất 5 dự báo liên tiếp để đánh giá), thì luôn có một mô hình học thống kê cung cấp RMSE thấp hơn, tương
đốivới các dự báo SARB chính thức có thể được hưởng lợi từ việc sử dụng thông tin ngoài mô hình và trong tháng. Ngoài
ra,chúng tôi cũng lưu ý rằngingeneral,forheadlineinflation,thevariable selectionmodelsperformagreeably
well,whichmaysuggestthattheremovalofthose variables th at không thể đóng góp đáng kể vào khả năng dự đoán của mô
hình cung cấp dự báo chính xác hơn (trong đó người ta sẽ cho rằng các biến bị loại bỏ không thể đóng góp vào việc giải
thích sự thay đổi mức). Tương tự, đối với lạm phát lõi, nơi số lượng các yếu tố dự đoán có sẵn có phần hạn chế, việc kết
hợp tất cả các thông tin có sẵn trong DFM trong hầu hết các trường hợp sẽ cung cấp dự báo mong muốn nhất.
Hình 2 chứa kết quả của các dự báo một lần đệ quy phía trước được tạo
raforheadlineandcoreinflation,bytheLASSOandDFM (withtargetfactors), từ tháng 4 năm 2020 đến tháng 3 năm 2021.
Trong cả hai trường hợp, các mô hình học thống kê dường như đã thực hiện một công việc hợp lý để phát hiện sự thay đổi
tương đối in lạm phát

Hình 2: Dự báo từ các mô hình học tập chuẩn và thống kê — lạm phát tiêu đề

mức độ hoặc xu hướng. 14 Mặc dù những kết quả này được quan tâm, đặc biệt đối với những người quan tâm đến hiệu suất
tương đối của các mô hình khác nhau trong đại dịch, nhưng người ta nên thận trọng khi đọc quá nhiều về chúng vì chúng
được tạo ra từ một mẫu rất nhỏ.

6 Kết luận

Chúng tôi đánh giá sức mạnh dự đoán tiềm năng của một số mô hình dự báo khác nhau có thể được áp dụng cho các bộ dữ
liệu lớnđược sử dụng để đo lường lạm phát. Chúng tôi thấy rằng các mô hình sử dụng các kỹ thuật lựa chọn biến và kỹ
thuật học thống kê phi tuyến mang lại kết quả ấn tượng, mặc dù thực tế là số lượng quan sát trong tập dữ liệu bị hạn chế.
Chúng tôi cũng lưu ý rằng khi so sánh việc sử dụng các mô hình tìm cách khai thác bất kỳ sự thưa thớt tiềm năng nào trong
tập hợp các yếu tố dự đoán, so với các mô hình tìm cách tóm tắt tất cả các thông tin có sẵn, kết quả có phần hỗn hợp, trên
toàn bộ perio d ngoài mẫu. Trong thời gian dài hơn ba tháng, các mô hình học tập thống kê cũng sẽ xuất hiện để cung cấp

13 Toidentifythebestmodelwithineachclass,wetakethemeanoftheRMSEfortheone-to-six-step-ahead forecasts.
14 Trước đây, Stock và Watson (2010)Để giải thích cho sự thay đổi trong xu hướng lạm phát, người ta có thể tăng thêm thông số kỹ thuật trước đó đã
được sử dụng trong Stock và Watson (2007), với xu hướng ngẫu nhiên phản ứng với khoảng cách suy thoái thất nghiệp. Tuy nhiên, như trường hợp của
Hầu hết các quốc gia có thu nhập thấp và trung bình, Nam Phi không có thước đo đáng tin cậy cho khoảng cách suy thoái thất nghiệp.

123
Dữ liệu lớn dự báo lạm phát Nam Phi 175
kết quả thậm chí còn chính xác
hơnso với các mô hình thưa thớt, trong đó các mô hình neuralnetworkandboostingcung cấp kết quả chính xác nhất. Tuy
nhiên, các mô hình dự báo đơn giản tiếp tục tạo ra kết quả trong nhiều trường hợp vượt trội so với các mô hình học thống
kê. Do đó, người ta sẽ kết luận rằng từ góc độ thực tế, việc sử dụng các mô hình học thống kê trongmôi trường hạt này có
thể không cung cấp các dự báo luôn vượt trội so với những gì được cung cấp bởi một mô hình đi bộ ngẫu nhiên đơn giản,
mặc dù chúng chắc chắn cạnh tranh.
Hơn nữa, kết quả cho thấy rằng đối với lạm phát tiêu đề, dự báo chính thức của ngân hàng trung ương được trình bày
cho MPC, kết hợp nhiều nguồn thông tin ngoài mô hình và trong tháng, chính xác hơn bất kỳ mô hình nào khác, trong ba
tháng đầu tiên. Tương tự, trong khoảng thời gian một tháng, dự báo của ngân hàng trung ương vềlạm phát lõi chính xác
hơn bất kỳ mô hình nào khác. Do đó, việc sử dụng phán đoán đã được cải thiện một cách có hệ
thốngSARBforecastsoverashort-termhorizon. Một phát hiện quan trọng khác liên quan đến việc sử dụng dữ liệu phân tách
hơn, trong đó kết quả từ dữ liệu tám / five chữ số thường chính xác hơn so với khi chúng tôi báo cáo ontheuseofthefour-
digitdata, cho thấy rằngtheuseofmoredisaggregateddata cung cấp kết quả mong muốn hơn. Đặc biệt, những mô hình có thể
phân biệt giữa thông tin có thể hoặc không thể được sử dụng tiềm năng có thể cung cấp dự báo chính xác hơn khi chúng
được áp dụng cho dữ liệu phân tách hơn. Như đã được chỉ ra, chúng ta cũng có thể sử dụng đầu ra từ các mô hình để tạo ra
các giá trị Shapley, cung cấp cho các nhà hoạch định chính sách thông tinliên quan đến các trình điều khiển áp lực lạm
phát trong tương lai. Ngoài ra, khi chúng tôi xem xét hiệu suất tương đối của các mô hình chuẩn, bao gồm một số thông số
kỹ thuật đảo ngược trung bình, trong giai đoạn bao gồm ảnh hưởng của các đợt phong tỏa kinh tế đối với đại dịch, chúng
tôi lưu ý rằng các mô hình học thống kê có thể phát hiện sự giảm xu hướng của các biện pháp lạm phát tương ứng một
cách hợp lý nhanh chóng, để cung cấp các dự báo ngắn hạn chính xác hơn những gì đã được cung cấp cho MPC.
Nghiên cứu tiếp theo về việc sử dụng các nguồn dữ liệu lớn thay thế, cũng như việc sử dụng tiềm năng các thông số kỹ
thuật mô hình học tập thống kê thay thế, có thể cung cấp kết quả dự báo hứa hẹn hơn trong tương lai. Như đã lưu ý, nu
mber của các quan sátcó sẵn theo thời gian cho tập dữ liệu này là tương đối hạn chế và vì người ta thường thừa nhận rằng
để cung cấp kết quả ấn tượng trong bối cảnh như vậy, các mô hình học thống kê và đặc biệt là các biến thể phi tuyến của
các mô hình này, thường sẽ đòi hỏi một số lượng quan sát tương đối lớn đã được đo theo thời gian. Tuy nhiên, thực tế là
các dự báo từ nhiều mô hình này có tính cạnh tranh, bất chấp sự hạn chế của dữ liệu, có thể cung cấp những dấu hiệu đáng
khích lệ cho các nhà nghiên cứu trong lĩnh vực nghiên cứu này.

Thông tin bổ sung Phiên bản trực tuyến chứa tài liệu bổ sung có sẵn tại https://doi. org/10.1007/s00181-022-02329-y.

Tuyên bố

Xung đột lợi ích Các tác giả tuyên bố rằng họ không có xung đột lợi ích.

Quyền con người và động vật Bài viết này không chứa bất kỳ nghiên cứu nào với động vật được thực hiện bởi bất kỳ tác giả nào. Bài viết này không
chứa bất kỳ nghiên cứu nào với người tham gia hoặc động vật được thực hiện bởi bất kỳ tác giả nào.

Tham khảo
Agrawal A, Gans J, Goldfarb A (2019) Kinh tếhọc của trí tuệ nhân tạo: một chương trình nghị sự. Nhà in Đại học Chicago, Chicago
Alpanda S, Kotzé K, Woglom G (2010) Vai trò của tỷ giá hối đoái trong mô hình DSGE Keynes mới cho nền kinh tế Nam Phi. S Afr J Econ 78(2):170–
191
Alpanda S, Kotzé K, Woglom G (2010) Ngân hàng trung ương của các nền kinh tế mở nhỏ có nên phản ứng với biến động tỷ giá hối đoái? Trường hợp
của Nam Phi. Tài liệu làm việc ERSA số 174, Nghiên cứu kinh tế Nam Phi
Alpanda S, Kotzé K, Woglom G (2011) Dự báo hiệu suất củamô hình DSGE giao phối esti cho nền kinh tế Nam Phi. S Afr J Econ 79(1):50–67
Athey S (2017) Ngoài dự đoán: sử dụng dữ liệu lớn cho các vấn đề chính sách. Khoa học 355(6324):483–485
Athey S (2018) Tác động của học máy đối với kinh tế. Nhà xuất bản Đại học Chicago, trang 507–547
Athey S, Imbens GW (2019) Phương pháp học máy mà các nhà kinh tế nên biết. Annu Rev Econ 11(1):685–725
Bai J (2003) Lý thuyết suy luận cho các mô hình nhân tố có kích thước lớn. Kinh tế lượng 71(1):135–171
Bai J, Ng S (2008) Phân tích yếu tố chiều lớn. Xu hướng tìm thấy Kinh tế 3(2):89–163
Baker SR, Bloom N, Davis SJ, Terry SJ (2020) Kinh tế do Covid gây ra. Giấy làm việc 26983, Cục Nghiên cứu Kinh tế Quốc gia
Baker SR, Farrokhnia RA, Meyer S, Pagel M, Yannelis C, Giáo hoàng J (2020) Chi tiêu hộ gia đình ứng phó với dịch bệnh như thế nào? Tiêu dùng trong
đại dịch COVID-19 năm 2020. Rev Tài sản Giá Stud 10 (4): 834–862
Balcilar M, Gupta R, Kotzé K (2015) Dự báo dữ liệu kinh tế vĩ mô cho một thị trường mới nổi với mô hình DSGE phi tuyến. Kiểu Econ 44:215–228
Balcilar M, Gupta R, Kotzé K (2017) Dự báo các biến số kinh tế vĩ mô của Nam Phi với mô hình cânbằng nền kinh tế mở nhỏ chuyển đổi
nhỏtochasticgeneralequiliummodel. Kinh nghiệmEcon53(1):117– 135
Baldacci E, Buono D, Kapetanios G, Krische S, Marcellino M, Mazzi GL, Papailias F (2016) Dữ liệu lớn và dự báo kinh tế vĩ mô: từ truy cập dữ liệu đến
mô hình hóa. Châu Âuvà Liên minh, Eurostat, Luxembourg
Belloni A, Chernozhukov V, Fernández-Val I, Hansen C (2017) Đánh giá chương trình và suy luận nhân quả với dữ liệu chiều cao. Kinh tế lượng
85(1):233–298
Belloni A, Chernozhukov V, Hansen C (2013) Suy luận về điều trị effects sau khi lựa chọn trong số các đối chứng chiều cao. Rev Econ Stud 81 (2): 608–
650
Belloni A, Chernozhukov V, Hansen C (2014) Phương pháp chiều cao và suy luận về hiệu quả cấu trúc và điều trị. J Econ Perspect 28(2):29–50

123
176 B. Botha và cộng sự.
Belloni A, Chernozhukov V, Wang L (2011)
LASSO căn bậc hai: phục hồi quan trọng của các tín hiệu thưa thớt thông qua đâm prog hìnhnón. Biometrika 98(4):791–806
Blumenstock J (2020) Học máy có thể giúp hỗ trợ COVID-19 cho những người cần nó nhất. Tính
Breiman L (1996) Dự đoán đóng bao. Mach Học 24(2):123–140
Breiman L (2001) Rừng ngẫu nhiên. Mach Học 45(1):5–32
Buckman SR, Shapiro AH, Sudhof M, Wilson DJ (2020) Tâm lý tin tức trong thời điểm COVID-19. Thư kinh tế FRBSF 2020-08, Ngân hàng Dự trữ
Liên bang San Francisco
Carvalho VM, Hansen S, Ortiz A, Ramón García J, Rodrigo T, Rodriguez Mora S, Ruiz J (2020) Theo dõi cuộc khủng hoảng COVID-19 với dữ liệu giao
dịch có độ phân giải cao. Tài liệu thảo luận CEPR 14642, Tài liệu thảo luận C.E.P.R.
Castle JL, Doornik JA, Hendry DF (2021) Giá trị của các dự báo thống kê mạnh mẽ trong đại dịch COVID-19. Natl Inst Econ Khải Huyền 256:19–43
Cavallo A (2020) Lạm phát với giỏ tiêu dùng COVID. Giấy làm việc 27352, Cục Nghiên cứu Kinh tế Quốc gia
Chakrabarti R, Heise S, Melcangi D, Pinkovskiy M, Topa G (2020) Việc nhà nước mở cửa trở lại có làm tăng chi tiêu của người tiêu dùng không? Kinh
tế đường phố Liberty,Federa l Ngân hàng Dự trữ New York
Chakrabarti R, Heise S, Melcangi D, Pinkovskiy M, Topa G (2020) Việc mở cửa trở lại của tiểu bang ảnh hưởng đến các doanh nghiệp nhỏ như thế nào?
Kinh tế đường phố Liberty, Ngân hàng Dự trữ Liên bang New York
Chetty R, Friedman JN, Hendren N, Stepner M, Team TOI (2020) Tác động kinh tế của COVID-19: Bằng chứng từ cơ sở dữ liệu công cộng mới được
xây dựng bằng dữ liệu khu vực tư nhân. NBER Working Papers 27431, Cục Nghiên cứu Kinh tế Quốc gia, Inc
Chu B, Huỳnh K, Jacho-Chavez D, Kryvtsov O (2018) Về sự phát triển củaphân phối giá Vương quốc Unite d. Ann Appl Stat 12(4):2618–2646
Clark TE, West KD (2007) Các thử nghiệm xấp xỉ bình thường cho độ chính xác dự đoán bằng nhau trong các mô hình lồng nhau. J Kinh tế học
138:291–311
Coulombe PG, Leroux M, Stevanovic 'D, Surprenant S (2022)Thu nhập máy l hữu ích như thế nào cho dự báo kinh tế vĩ mô? J Appl Kinh tế 37:920–964
Coulombe PG, Marcellino M, Stevanovic 'D (2021) Học máy có thể bắt được suy thoái COVID-19 không? Natl Inst Econ Khải Huyền 256:71–109
Creamer K, Farrel G, Rankin N (2012) Mức giá da tacó thể cho chúng ta biết gì về hành vi định giá ở Nam Phi. S Afr J Econ 80(4):490–509
Creamer K, Rankin N (2008) Thiết lập giá ở Nam Phi 2001 đến 2007 sự kiện cách điệu bằng cách sử dụng dữ liệu vi mô giá tiêu dùng. J Dev Perspect
4(1):93–118
Diebold FX, Mariano RS (1995) Độ chính xác dự đoán. J Xe buýt Econ Stat 13 (3): 253–263
Doerr S, Gambacorta L, Serena JM (2021) Dữ liệu lớn và học máy trong ngân hàng trung ương. BIS Working Papers 930, Ngân hàng Thanh toán Quốc tế
Duarte C, Rua A (2007) Dự báo lạm phát thông quacách tiếp cận bo-ttom-up: đáy là đáy như thế nào? Mô hình Econ 24(6):941–953
Elliott G, Gargano A, Timmermann A (2013) Hoàn thành hồi quy tập con. J Kinh tế 177(2):357–373
Elliott G, Gargano A, Timmermann A (2015) Hoàn thành hồi quy tập con vớicác tập dự đoán chiều lớn. Điều khiển J Econ Dyn 54 (C): 86–110
Fan J, Li R (2001) Lựa chọn biến thông qua khả năng bị phạt không lõm và các thuộc tính oracle của nó. JAM Stat PGS 96(456):1348–1360
Faust J, Wright JH (2013) Dự báo lạm phát. Trong: Elliott G, Granger C, Timmermann A (chủ biên) Handbook of economic forecasting, 2:2–56. Elsevier
Florescu D, Karlberg M, Reis F, Rey Del Castillo P, Skaliotis M, Wirthmann A (2014) 'Dữ liệu lớn' sẽ biến đổi số liệu thống kê chính thức? Liên minh
Châu Âu, Eurostat, Luxembourg
Forni M, Hallin M, Lippi M, Reichlin L (2000) Mô hình hệ số động tổng quát:iden tification và estimation. Rev Econ Stat 82 (4): 540–554
Friedman J, Hastie T, Tibshirani R (2000) Hồi quy logistic cộng thêm: một quan điểm thống kê về tăng cường. Ann Stat 28(2):337–374
Friedman JH (2001) Xấp xỉ hàm tham lam: một gradient tăng machine. Ann Stat 29(5):1189– 1232
Fuhrer JC (2010) Lạm phát dai dẳng. Trong Friedman BM, Woodford M (eds) Handbook of Monetary Economics, 3(9):423–486. Elsevier
Galvao AB (2021) Đại dịch COVID-19 và dự báo kinh tế vĩ mô: Giới thiệu vềsố đặc biệt SPRI ng 2021. Natl Inst Econ Khải Huyền 256:16–18
Giannone D, Lenza M, Primiceri GE (2021) Dự đoán kinh tế với dữ liệu lớn: ảo tưởng về sự thưa thớt. Giấy làm việc Series 2542, Ngân hàng Trung ương
Châu Âu
Gupta R, Kabundi A (2010) Dự báo các biến kinh tế vĩ mô trong một nền kinh tế mở nhỏ: so sánh giữa các mô hình quy mô nhỏ và lớn. Dự báo J 29(1–
2):168–185
Gupta R, Kabundi A (2011) Một mô hình nhân tố lớn để dự báo các biến kinh tế vĩ mô ở Nam Phi. Int J Dự báo 27(4):1076–1088
Gupta R, Steinbach R (2013) Một mô hình DSGE-VAR để dự báo các biến kinh tế vĩ mô chính của Nam Phi. Kiểu Econ 33:19–33
HammerC, KostrochD, Quiros-RomeroG (2017) Bigdata: Tiềm năng, thách thức và ý nghĩa thống kê. Washington, DC
Hoerl AE, Kennard RW (1970a) Ridge hồi quy: ứng dụng cho các vấn đề phi trực giao. Kỹ thuật lượng 12(1):69–82
Hoerl AE, Kennard RW (1970b) Hồi quy sườn núi: ước tính thiên vị cho các vấn đề phi trực giao. Kỹ thuật lượng 12(1):55–67
Hubrich K, Hendry DF (2005) Dự báo tổng hợp bằng cách phân tách. Máy tính trong Kinh tế và Tài chính 2005 270, Hiệp hội Kinh tế Tính toán
Ibarra R (2012) Dữ liệu CPI phân tách có cải thiện độ chính xác của dự báo lạm phát không? Econ Mô hình 29(4):1305–1313
Johnson VE, Rossell D (2010) Về việc sử dụng mật độ trước không cục bộ trong các thử nghiệm giả thuyết Bayes. JR Stat Soc Ser B (Stat Methodol)
72(2):143–170
Johnson VE, Rossell D (2012) Lựa chọn mô hình Bayes trong cài đặt chiều cao. JAM Stat PGS 107(498):649–660
Joseph A, Kalamara E, Kapetanios G, Potjagailo G (2020) Dự báo lạm phát của Anh từ đáy lên. Dữ liệu phi truyền thống và học thống kê với các ứng
dụng cho kinh tế vĩ mô, Ngân hàng Ý và Hội đồng Dự trữ Liên bang
Joseph A, Kalamara E, Kapetanios G , Potjagailo G (2021) Dự báo lạm phát của Anh từ dưới lên. Nhân viên
Giấy làm việc 915, Ngân hàng Anh
Kanda PT, Balcilar M, Bahramian P, Gupta R (2016) Dự báo lạm phát Nam Phi bằng các mô hình phi tuyến tính: đánh giá dựa trên tổn thất có trọng số.
Phụ lục Econ 48(26):2412–2427
Kelly B, Pruitt S (2013) Kỳ vọng thị trường trong mặt cắt ngang của các giá trị hiện tại. J Tài chính 68(5):1721– 1756
KellyB,PruittS(2015)Thethree-passregressionfilter:anewapproachtoforecastingusingmanypredictors. J Kinh tế 186(2):294–316
Koop G, McIntyre S, Mitchell J, Poon A (2021) Hiện đang dự báo GDP hàng tháng 'đúng' của Mỹ trong thời kỳ đại dịch. Natl Inst Econ Khải Huyền
256:44–70
Lee JD, Sun DL, Sun Y, Taylor JE (2016) Suy luận sau lựa chọn chính xác với LASSO. Ann Stat 44(3):907–927
Liu GD, Gupta R, Schaling E (2009) Một mô hình DSGE mới-Keynes để dự báo nền kinh tế Nam Phi. Dự báo J 28(5):387–404
Lundberg S, Lee S-I (2017) Một cách tiếp cận thống nhất để diễn giải các dự đoán mô hình. Adv Neural Inf Process Syst 30:4765–4774
McCracken MW (2007)Làymptotics cho các thử nghiệm mẫu về nguyên nhân granger. JEconom 140(2):719–752
McCracken MW, Ng S (2016) FRED-MD: cơ sở dữ liệu hàng tháng cho nghiên cứu kinh tế vĩ mô. J Xe buýt Econ Stat 34 (4): 574–589
McCullagh P, Polson NG (2018) Thống kê thưa thớt. Biometrika 105(4):797–814
Medeiros MC, Vasconcelos GFR, Veiga Á, Zilberman E (2021) Dự báo lạm phát trong môi trường giàu dữ liệu: lợi ích của phương pháp học máy. J Xe
buýt Econ Stat 39 (1): 98–119
Mehrhoff J (2017) Việc sử dụng và quan tâm của các ngân hàng trung ương đối với dữ liệu lớn. Ngân hàng Thanh toán Quốc tế (ed) Big Data, IFC
Bulletins. Ngân hàng Thanh toán Quốc tế
Mullainathan S, Spiess J (2017) Học máy: một cách tiếp cận kinh tế lượng ứng dụng. J Econ Perspect 31(2):87–106
OECD (2020) Sử dụng trí tuệ nhân tạođể giúp chống lại COVID-19. Tổ chức Hợp tác và Phát triển Kinh tế

123
Dữ liệu lớn dự báo lạm phát Nam Phi 177
Petrella I, Santoro E, Simonsen LP (2019)
Tính linh hoạt của giá cả và động lực lạm phát thay đổi theo thời gian. Tài liệu nghiên cứu EMF 28, Nhóm dự báo và mô hình kinh tế
RossellD(2021)Concentrationofposteriorprobabilitiesandnormalized L0 criteriainregression. Bayes hậu môn 1(1):1–27
Rossell D, Telesca D (2017) Các ưu tiên phi địa phương để ước tính chiều cao. JAM Stat PGS 112(517):254–265
Ruch F, Balcilar M, Gupta R, Modise MP (2020) Đểđúc lạm phát lõi: trường hợp của Nam Phi. Phụ lục Econ 52(28):3004–3022
Ruch F, Rankin N, du Plessis S (2016) Phân tách lạm phát bằng cách sử dụng dữ liệu giá vi mô: lạm phát giá dính. South African Reserve Bank Working
Paper Series 7354, South African Reserve Bank
Ruch F, Rankin N, du Plessis S (2016) Phân hủy lạm phát bằng cách sử dụng dữ liệu mức giá vi mô: Động lực giá cả của Nam Phi. Giấy tờ làm việc
7353, Ngân hàng Dự trữ Nam Phi
Schmitt-Grohé S, Uribe M (2004) Giải các mô hình cân bằng tổng quát động bằng cách sử dụng xấp xỉ bậc hai của hàm chính sách. J Econ Dyn Control
28:755–75
Shapiro AH, Sudhof M, Wilson DJ (2017) Đo lường tình cảm tin tức. Giấy làm việc 2017-01, Ngân hàng Dự trữ Liên bang San Francisco
Smal D, Pretorius C, Ehlers N (2007) Mô hình dự báo cốt lõi của Ngân hàng Dự trữ Nam Phi. Giấy làm việc WP/07/02, Ngân hàng Dự trữ Nam Phi
Thống kê Nam Phi (2007) Mua sắm cho hai: khảo sát song song giỏ mới CPI — kết quả và so sánh với dữ liệu CPI được công bố. Thống kê South Châu
Phi
Thống kê Nam Phi (2017a) Chỉ số giá tiêu dùng: hướng dẫn sử dụng các nguồn và phương pháp CPI của Nam Phi. Thống kê Nam Phi
Thống kê Nam Phi (2017b) Giới thiệu trọng số và rổ mới cho chỉ số giá tiêu dùng. Thống kê Nam Phi
Steinbach R, Mathuloe P, Smit B (2009) Một nền kinh tế mở Mô hình DSGE Keynes mới của nền kinh tế Nam Phi. Giấy tờ làm việc 3431, Ngân hàng
Dự trữ Nam Phi
Cổ phiếu JH, Watson MW (2002a) Dự báo sử dụng các thành phần chính từ một số lượng lớnrs. JAM Stat PGS 97(460):1167–1179
Cổ phiếu JH, Watson MW (2002b) Dự báo kinh tế vĩ mô sử dụng chỉ số khuếch tán. J Xe buýt Econ Stat 20(2):147–162
Cổ phiếu JH, Watson MW (2007) Tại sao sự xâm nhập của Hoa Kỳ trở nên khó dự báo hơn? Ngân Hàng Tín Dụng J Money 39:3–33
Stock JH, Watson MW (2010) Mô hình hóa lạm phát sau khủng hoảng. Giấy làm việc 16488, Cục Nghiên cứu Kinh tế Quốc gia
StockJH,WatsonMW(2020)Slackandcyclicallysensitiveinflation.JMoneyCreditBank52(S2):393–428
Tibshirani R (1996) Co rút hồi quy vàsel ection thông qua LASSO. JR Stat Soc Ser B (Stat Methodol) 58(1):267–288
Tissot B (2019) Dữ liệu lớn cho các ngân hàng trung ương. Việc sử dụng phân tích dữ liệu lớn và trí tuệ nhân tạo trong ngân hàng trung ương, IFC
Bulletins. Ngân hàng Thanh toán Quốc tế
Nhịp đập toàn cầu của Liên Hợp Quốc (UNGP) (2012) Dữ liệu lớn cho phát triển: Thách thức và cơ hội
Nhân sự Varian (2014) Dữ liệu lớn: thủ thuật mới cho kinh tế lượng. J Econ Perspect 28(2):3–28
Wibisono O, Ari HD, Widjanarti A, Zulen AA, Tissot B (2019) Việc sử dụng phân tích dữ liệu lớn và trí tuệ nhân tạo trong ngân hàng trung ương. Bản
tin IFC, Ngân hàng Thanh toán Quốc tế
Woglom G (2005) Dự báo lạm phát Nam Phi. S Afr J Econ 73(2):302–320
Wolters MH, Tillmann P (2015) Động lực thay đổi của lạm phát Mỹ vẫn tồn tạice: một cách tiếp cận hồi quy định lượng. Stud Nonlinear Dyn Econom
19(2):161–182
Ngân hàng Thế giới (2014) Trung Mỹ: Dữ liệu lớn trong hành động để phát triển. Washington, DC
Zou H (2006) LASSO thích nghi và các thuộc tính oracle của nó. JAM Stat PGS 101(476):1418–1429

Ghi chú của nhà xuất bản Springer Nature vẫn trung lập đối với các khiếu nại về quyền tài phán trong các bản đồ đã xuất bản và các liên kết tổ chức.

Springer Nature hoặc giấy phép của nó (ví dụ: một xã hội hoặc đối tác khác)giữ độc quyền đối với bài viết này theo thỏa thuận xuất bản với (các) tác giả
hoặc (các) chủ sở hữu quyền khác; tác giả tự lưu trữ bản thảo được chấp
nhậnversionofthisarticleissolelygovernedbythetermsofsuchpublishingagreementandáp dụng luật.

123

You might also like