Incendios Mediante Naive Bayes Es

Suscríbete a DeepL Pro para poder traducir archivos de mayor tamaño.
Más información disponible en www.DeepL.com/pro.
Análisis exploratorio de los incendios forestales

en Australia y un enfoque de aprendizaje
automático para la modelización de
incendios forestales
en el motor Google Earth
Universidad de Aalborg, Copenhague
Máster en Geoinformática, Instituto de
Planificación
Tesis de máster
4 de junio de 2020
Andrea Sulova
Resumen
Estudios recientes sugieren que, debido al cambio climático, aumentará el número de
incendios forestales en todo el mundo. Recientemente, Australia se vio afectada por
grandes incendios forestales durante el verano de 2019-2020, en los que ardieron 46
millones de acres de tierra. Esta catástrofe está planteando la cuestión de hasta qué
punto el riesgo de incendios forestales puede estar vinculado a diversos factores
climáticos, ambientales, topográficos y sociales, y cómo predecir la ocurrencia de
incendios para tomar medidas preventivas. En este estudio se investigan los incendios
forestales australianos a partir de datos de observación de la Tierra obtenidos por
teledetección gratuita, con el fin de extraer conclusiones generales. En los últimos
años, el aprendizaje automático (machine learning, ML) ha demostrado su eficacia e n
muchas tareas gracias a su capacidad para aprender de relaciones obvias, pero
también ocultas. Uno de los objetivos de este estudio es crear un proceso
automatizado de creación de un conjunto de datos de entrenamiento de incendios a
nivel continental con un gasto computacional eficiente para los algoritmos de ML. Los
resultados de las localizaciones de incendios y de ausencia de incendios se mapean
junto con los factores causales de los incendios. El conjunto de datos de
entrenamiento se aplica a diferentes algoritmos de ML, como Random Forest (RF),
Naïve Bayes (NB) y Classification and Regression Tree (CART). El algoritmo de ML con
mejor rendimiento, el modelo RF, se utiliza para identificar los factores determinantes
mediante un análisis de importancia de variables. Normalmente, un modelo puede
aprender ciertas propiedades a partir de un conjunto de datos de entrenamiento para
hacer predicciones. Por lo tanto, el objetivo general de este estudio es revelar la
probabilidad de ocurrencia de incendios en toda Australia, así como identificar los
factores impulsores de los incendios forestales aplicando el conjunto de datos de
ocurrencia de incendios de la temporada de verano 2019-2020. Se pueden aplicar
mejores medidas preventivas en las zonas propensas a los incendios para reducir el
riesgo de incendios forestales en Australia mediante la consideración de los factores
identificados.
Palabras clave: teledetección, incendios forestales, Australia, gravedad de los

incendios, bosque aleatorio, aprendizaje automático
Autor: Andrea Sulova

2
Supervisor: Prof. Dr. Jamal Jokar Arsanjani
Formación: Máster en Geoinformática
Universidad: Universidad de Aalborg Copenhague, Dinamarca
3
Prefacio
Esta tesis de máster resume mi último semestre del programa de máster en
Geoinformática de la Universidad de Aalborg. Los principales objetivos de la tesis de
máster son descubrir las características de los incendios forestales australianos
mediante la aplicación de datos de teledetección, identificar los factores impulsores
asociados a los incendios forestales durante la temporada 2019-2020 y dictar
previamente las ubicaciones de los incendios forestales.
La inspiración para la tesis de máster tiene su origen tanto en la pasión por adquirir
más conocimientos relacionados con la teledetección como en el afán por tomar
medidas contra el cambio climático, ya que una de sus consecuencias directas son
los incendios forestales.
Me gustaría expresar mi gratitud a mi supervisor, el Prof. Dr. Jamal Jokar Arsanjani, por
su excepcional cooperación y su valioso apoyo a lo largo de todo el estudio. Además,
mi más profunda gratitud a mi novio y a mis hermanas por su constante apoyo y
continuo aliento durante todos mis años de estudios.
Espero que este estudio y sus resultados aporten nuevos conocimientos sobre los
incendios forestales y sean valiosos para futuras investigaciones". Los códigos
JavaScript pueden obtenerse en el repositorio de GitHub
https://github.com/sulova/AustraliaFires.
4
Lista de figuras
Figura 1 - Radiancia espectral del fuego frente a los distintos fondos típicos en función de la longitud de onda
[11].........................................................................................................................................................................................14
Figura 2 - Visión general de las bandas de Sentinel-2 Fuente: Reseda, Universidad Libre de Berlín.......................15
Figura 3 - Contraste de la curva de respuesta espectral para la vegetación sana y las zonas quemadas
Fuente: Servicio Forestal de EE.UU. ...............................................................................................................................
16
Figura 4 - Un ejemplo de la estructura de los árboles de clasificación RF..............................................................19
Figura 5 - Teorema de Bayes............................................................................................................................................20
Figura 6 - Matriz de confusión.........................................................................................................................................21
Figura 7 - El área de interés definida por los límites de Australia continental......................................................24
Figura 8 - Número total de lugares de incendio a lo largo de 2019 y parcialmente para el año 2020 en el
territorio continental australiano....................................................................................................................................
25
Figura 9 - Distribución espacial de la precipitación mensual (mm/mes) en Australia durante enero de 2020
- febrero de 2020 utilizando el conjunto de datos diarios CHIRPS ...........................................................................
26
Figura 10 - Temperatura media anual en Australia desde 1979 hasta 2019..............................................................27
Figura 11 - Número total de píxeles que presentan fuego activo anualmente (del 1 de enero de 2001 al 1 de marzo de 2020)
...............................................................................................................................................................................................28
Figura 12 - Número total de focos de incendio a lo largo de un año durante casi una década (del 1 de
enero de 2010 al 1 de marzo de 2020), un píxel de 1 km contiene uno o más focos de incendio en un radio
de 500 m ..............................................................................................................................................................................
29
Figura 13 - Distribución de sucesos de incendios basada en el conjunto de datos FIRMS de enero de 2019 a
febrero de 2020 30 Figura 14 - El diagrama de flujo de los procesos empleados en el estudio para generar
el modelo predictivo en GEE.
................................................................................................................................................................................................31
Figura 15 - Diagrama de flujo de los lugares de ocurrencia de incendios aplicado en la metodología...........33
Figura 16 - Composición sin máscara de nubes (izquierda), Composición con máscara de nubes y agua (derecha)
................................................................................................................................................................................................34
Figura 17 - Ejemplo de un incendio forestal utilizado para ilustrar los resultados de los procesos de selección de zonas
quemadas.
a) dNBR, b) dNBR con área de fuego vectorial FIRMS, c) dNBR con área de fuego vectorial FIRM y áreas
umbral d) dNBR con área de fuego vectorial FIRMS y áreas umbral y áreas seleccionadas mayores de
0,25 km2 .........................................................................................................................................................................................................................................................................
35
Figura 18 - Factores topográficos: elevación, aspecto y pendiente ...................................................................38
Figura 19 - Factores medioambientales: cobertura del suelo (la leyenda figura en el Apéndice),
profundidad del suelo, humedad del suelo, índice de gravedad de la sequía y NDVI .........................................
39
Figura 20 - Ejemplo de una imagen obtenida a partir de una función estadística sobre una colección de imágenes 40
5
Figura 21 - Factores climáticos: precipitaciones, temperatura máxima y velocidad del viento........................40
Figura 22 - Factores socioeconómicos: GHM, población, líneas eléctricas y distancia de las carreteras........41
Figura 23 - Fusión de todas las variables predictoras en la imagen final (script GEE de JavaScript)...............42
Figura 24 - Creación de la muestra de entrenamiento...............................................................................................42
Figura 25 - Clasificación supervisada ML, concretamente RF, aplicada en la interfaz GEE ...............................43
Figura 26 - La función de probabilidad en GEE para la cartografía de la probabilidad de incendio ................43
Figura 27 - Evaluación de la precisión............................................................................................................................44
Figura 28 - Distribución de los puntos de incendio y de no incendio del proceso automatizado......................45
Figura 29 - Un ejemplo de incendio forestal en imágenes RGB anteriores y posteriores al incendio y fuego
activo mensual de la misión Sentinel-2 para la verificación visual de los puntos de incendio. .........................
46
6
Figura 30 - Precisión de los modelos CART con un número diferente de nodos hoja aplicados ................48
Figura 31 - Precisión de los modelos de DR con un número diferente de árboles aplicados......................48
Figura 32 - Análisis de la importancia de las variables según el modelo RF .........................................................49
Figura 33 - Mapa de susceptibilidad al fuego utilizando el modelo RF........................................................................50
Figura 34 - El mapa de susceptibilidad al fuego con clases utilizando el modelo RF..................................................51
7
Lista de cuadros
Tabla 1 - Categorías de gravedad de las quemaduras basadas en ∆𝑁𝐵𝑅 según el USGS.................................17
Tabla 2 - Interpretación del valor Kappa según Cohen (1977) ............................................................................22
Cuadro 3 - Lista y descripción de los conjuntos de datos variables incluidos en el estudio................................37
Tabla 4 - Estadísticas generales de los resultados de la evaluación de la precisión de los algoritmos de ML 47
8
Definiciones y acrónimos
Nombre Acrónimo
Interfaz de programación de aplicaciones API

Árbol de clasificación y regresión CARRO
Servicio Global Terrestre de Copernicus CGLS
Red neuronal convolucional CNN
Hojas de estilo en cascada CSS
Modelo digital de elevación DEM
Diferencia Normal Burn Ratio dNBR
Centro Europeo de Previsiones Meteorológicas a Medio Plazo ECMWF
Reanálisis del Centro Europeo de Predicción Meteorológica a Medio ERA5
Plazo
Agencia Espacial Europea ESA
Sistema de información sobre incendios para la gestión de recursos EMPRESAS
Motor Google Erath GEE
Sistema de Información Geográfica SIG
Lenguaje de marcado de hipertexto HTML
JavaScript JS
Infrarrojo medio MIR
Aprendizaje automático ML
Bayes ingenuos NB
Ratio de quemado normal NBR
Índice de vegetación de diferencia normalizada NDVI
Índice normalizado de diferencia de agua NDWI
Infrarrojo cercano NIR
Administración Nacional Oceánica y Atmosférica-Advanced Very
NOAA-AVHRR
Radiómetro de alta resolución
Callejero abierto OSM
Bosque aleatorio RF
Radar de apertura sintética SAR
Misión de Topografía por Radar del Transbordador SRTM
Infrarrojos de onda corta SWIR
Alcance infrarrojo térmico TIR
9
Índice
1. Introducción .................................................................................................................................10
1.1Planteamiento del problema y preguntas de investigación .......................................11
1.2Estructura de la tesis ..............................................................................................................12
2. Antecedentes y teoría ............................................................................................................13
2.1Aplicación de la teledetección en los incendios forestales .........................................13
2.2Misiones centinela.................................................................................................................15
2.3Ratio de quemado normalizado...........................................................................................16
2.4Algoritmos de aprendizaje automático ...........................................................................17
2.4.1 Árbol de clasificación y regresión ..............................................................................18
2.4.2 Bosque aleatorio ...........................................................................................................19
2.4.3 Naive Bayes...................................................................................................................20
2.5Teoría de la evaluación de la precisión ........................................................................20
2.6Análisis de la importancia de las variables ..................................................................22
2.7Tecnología..............................................................................................................................22
2.8Área de estudio ....................................................................................................................23
2.9Identificar el período de la temporada de incendios 2019-2020....................................24
3. Análisis exploratorio de datos ..............................................................................................27
4. Metodología ...............................................................................................................................31
4.1Extracción y preprocesamiento de datos .........................................................................32
4.1.1 Variable dependiente ................................................................................................32
4.1.2 Variables independientes ...........................................................................................36
4.2Clasificación ...........................................................................................................................42
4.3Validación...............................................................................................................................43
5. Resultados ....................................................................................................................................45
5.1Lugar del incendio................................................................................................................45
5.2Evaluación de la precisión de los algoritmos de ML .....................................................46
5.3Importancia de los condicionantes...................................................................................49
5.4Modelo predictivo ................................................................................................................50
6. Debate ..........................................................................................................................................52
7. Conclusión ...................................................................................................................................55
7.1Objetivos de desarrollo sostenible ................................................................................56
8. Trabajos futuros...........................................................................................................................57
9. Bibliografía ..................................................................................................................................58
10
10. Anexo...................................................................................................................................63
A. Descripción de la cubierta terrestre ...............................................................................63
B. Modelo de bosque aleatorio..............................................................................................64
11
1. Introducción
Australia se ha visto gravemente afectada por los incendios conocidos como "Verano Negro".
durante la temporada de verano 2019-2020 [1]. Al menos 46 millones de acres de tierra se han
quemado
[2] y "incendios cerca de mí" se ha convertido en la palabra más buscada en Google en
Australia d u r a n t e esa temporada de incendios [3]. Esta catástrofe está planteando
la cuestión de hasta qué punto el riesgo de incendios forestales puede estar
relacionado con diversos factores climáticos, medioambientales y sociales.
En la actualidad, el riesgo de catástrofes provocadas por incendios forestales está

aumentando en todo el mundo debido al cambio climático. Las altas temperaturas y
las prolongadas estaciones secas podrían provocar una actividad de incendios
forestales sin precedentes en Australia. El conjunto de datos de temperatura estatal,
o r i g i n a d o en 1910, revela que el año más cálido registrado en Australia fue en
2019, con una temperatura media nacional anual 1,52 °C por encima de la media. El
conjunto de datos también muestra que el nivel de precipitaciones estuvo por debajo
de la media en todas las capitales durante la temporada 2019-2020. El clima de Aus-
tralia en 2019 fue el año más seco registrado impulsado por excursiones récord y olas
de calor significativas en enero y diciembre [4]. Sin embargo, los humanos también
podrían desempeñar un papel crítico en algunos eventos de incendios forestales,
como muestra el reciente estudio realizado en España [5]. En este estudio, lo más
probable es que la mayoría de los incendios fuesen provocados por actividades
humanas, ya que los patrones espaciales de ignición de incendios están fuertemente
vinculados con el acceso humano al paisaje natural, siendo la proximidad a zonas
urbanas y carreteras los factores contribuyentes más importantes.
La teledetección por satélite se ha convertido en una herramienta habitual para el

seguimiento a gran escala de los ecosistemas y la detección de amenazas, como los
incendios forestales, en todo el mundo [6]. Ya se han llevado a cabo múltiples
estudios utilizando la teledetección y aplicando diversos enfoques, como la
Regresión Logística Kernel o la Regresión Logística Espacial.
Sin embargo, recientemente, los enfoques de ML han progresado rápidamente y han

logrado resultados prometedores en las ciencias medioambientales [7]. Esto condujo
al análisis de los recientes incendios de Australia mediante la aplicación de diferentes
algoritmos de ML, a saber, Naive Bayes (NB), Random Forest (RF) y Classification and
Regression Trees (CART). En este estudio se comparan directamente los métodos de
12
ML para la cartografía de incendios forestales y, posteriormente, se utiliza un método
con el mejor rendimiento alcanzado tanto e n el entrenamiento como en la
validación del modelo para cartografiar la probabilidad de incendios forestales
continentales en Australia.
Además, esta tesis pretende evaluar un conjunto de variables causales, es decir,

variables predictoras, e identificar los factores dominantes de los recientes incendios
forestales en Australia.
13
La modelización de numerosas y complejas variables medioambientales y
socioeconómicas independientes suele ser una tarea difícil debido a la gran cantidad
de recursos necesarios, es decir, a la complejidad y la heterogeneidad de los
formatos de los datos. A este respecto, la mayoría de las variables predictoras,
como la temperatura, las precipitaciones, la población, etc., se recopilan a partir
del catálogo de datos de Google Earth Engine (GEE).
Un conjunto de datos de entrenamiento en algoritmos de ML es una entrada esencial

que respalda la capacidad de aprendizaje del modelo [8]. El proceso de generación de
un conjunto de datos de entrenamiento para el aprendizaje supervisado suele ser
manual. Debido a la extensa área y al amplio marco temporal de la temporada de
incendios, es crucial crear un proceso automatizado para generar el conjunto de datos
más representativo para el entrenamiento del modelo. Por lo tanto, esta tesis propone
un amplio marco automatizado para generar el gran conjunto de datos de
entrenamiento en toda Australia.
1.1 Planteamiento del problema y preguntas de investigación
El objetivo de este estudio es utilizar algoritmos de ML para predecir la susceptibilidad

a los incendios forestales en Australia en la temporada 2019-2020 y determinar los
posibles factores causales a partir del análisis de la importancia de las variables.
Además, el objetivo de este estudio es crear un proceso automatizado para generar el
conjunto de datos de entrenamiento de ubicaciones d e ocurrencia de incendios en
un área grande utilizando herramientas GEE de libre acceso y sus colecciones de
imágenes de satélite. Por lo tanto, se formularon las siguientes preguntas de
investigación.
1) Pregunta de investigación: ¿Cuáles son las principales características de

los incendios forestales australianos de la última década a partir de conjuntos
de datos satelitales de libre acceso?
2) Pregunta de investigación: ¿Qué algoritmo ML supera a otros modelos

existentes en GEE para la predicción d e futuros incendios?
3) Pregunta de investigación: ¿En qué medida están asociados los distintos

14
factores causales con los lugares de los incendios?
15
1.2 Estructura de la tesis
La estructura de la tesis se divide en los ocho capítulos siguientes:
El capítulo de Introducción está dedicado a proporcionar al lector la motivación de la

tesis y las preguntas de investigación.
El capítulo Antecedentes y teoría ofrece una visión general de la aplicación de la

teledetección por satélite en los incendios forestales, las misiones Centinela y el Índice
Normalizado de Quemado (NBR). El subcapítulo de algoritmos ML presenta un
resumen de 3 técnicas ML supervisadas. La tecnología utilizada y el área de estudio se
describen en los respectivos subcapítulos. El último subcapítulo describe la
determinación del periodo de la temporada de incendios 2019-2020.
En el capítulo dedicado al análisis exploratorio de datos se investigan los incendios

forestales ocurridos en Aus- tralia a partir de datos de teledetección.
El capítulo Metodología contiene tres subcapítulos. El primer subcapítulo se titula

Minería de datos y preprocesamiento y presenta cómo se generan los datos de
entrenamiento para los algoritmos de ML. El subcapítulo de clasificación presenta la
aplicación de las clasificaciones supervisadas de ML de árbol. El último subcapítulo,
llamado validación, e v a l ú a e l rendimiento de los modelos de ML.
En el primer subcapítulo del capítulo Resultados, se presentan los resultados de un

flujo de trabajo automatizado de detección de incendios. La precisión de los
algoritmos ML aplicados en este estudio se presenta en la segunda sección. El tercer
subcapítulo revela las variables más importantes presentadas como "impulsoras de
incendios forestales" en la temporada de incendios 2019-2020, mientras que el último
subcapítulo proporciona el mapa de probabilidad de ocurrencia de incendios.
El capítulo "Debate" es la continuación del capítulo "Resultados" e incluye un

reconocimiento de los posibles puntos fuertes y débiles de los métodos de aplicación.
El capítulo de conclusiones responde a las preguntas de la investigación y presenta

el impacto de este estudio en la consecución de los Objetivos de Desarrollo
Sostenible.
El capítulo "El futuro" resume las posibles áreas de mejora y búsqueda en el ámbito
del trabajo presentado.
16
2. Antecedentes y teoría
El siguiente capítulo presenta los antecedentes y la teoría recopilados a través de la
revisión bibliográfica. Este capítulo se divide en varios subcapítulos, cada uno de los
cuales se centra en diferentes dominios del conocimiento aplicados en este trabajo. El
primer subcapítulo hace hincapié en la aplicación de la teledetección por satélite
utilizada en la detección de incendios. Los subcapítulos segundo y tercero se centran
en las misiones del satélite Sentinel y en la definición de la RBN. El quinto subcapítulo
se centra en la tecnología utilizada en este trabajo. El subcapítulo del área de estudio
presenta el área de interés y el último subcapítulo define el marco temporal de la
temporada de incendios.
2.1 Aplicación de la teledetección a los incendios forestales

Los satélites utilizan diferentes sensores que miden la intensidad de la radiación en
un rango del espectro electromagnético. Algunos de estos sensores captan la luz
visible o la radiación infrarroja cercana (sensores pasivos), mientras que otros
miden la radiación de microondas que proporciona su iluminación. El radar de
apertura sintética (SAR) utiliza las microondas, que son capaces de penetrar a
través del humo con alta resolución y obtener imágenes independientemente del
día y la noche. Por lo tanto, los datos obtenidos por teledetección han
desempeñado un papel importante en la lucha contra los incendios forestales [9].
Esta forma única de recopilación de datos para responder a los incendios depende
también de la rapidez de las revisitas. Algunos satélites ofrecen una perspectiva a
vista de pájaro 24 horas al día, 7 días a la semana, al observar la misma zona que
los satélites geoestacionarios. El satélite geoestacionario japonés Himawari-8
ofrece esta perspectiva sobre Australia y otras partes de la región Asia-Pacífico.
Guang Hu [10] ha demostrado el potencial del uso de datos de satélites

meteorológicos para la vigilancia de incendios forestales en tiempo real. La
información en tiempo real procedente de un satélite sobre la extensión espacial de
los incendios forestales puede ayudar a mitigar el impacto de los m i s m o s ,
especialmente en la detección temprana de incendios forestales debido a su altísima
resolución temporal. Aunque Himawari-8 proporciona imágenes infrarrojas con un
periodo de 10 minutos, la resolución espacial proporcionada es de 2 km, lo que no es
suficientemente preciso para determinar la localización espacial exacta de los
17
incendios que se producen [10].
18
La detección de incendios activos mediante datos de satélite se basa en la
temperatura, ya que los focos de incendio presentan temperaturas significativamente
más altas que otros terrenos. Los focos de incendio emiten radiación electromagnética
en función de su temperatura, que es captada por los sensores térmicos de los
satélites [11]. Para distinguir los incendios del fondo, es importante utilizar la
detección multicanal en las longitudes de onda d e l rango infrarrojo.
La figura 1 presenta la comparación de la radiancia con la longitud de onda respectiva

de- tectada en diferentes objetos. El fondo vegetal es importante en la identificación
de incendios [11] debido al contraste de sus emisiones detectivescas. Por ejemplo, la
diferencia entre la radiancia vegetativa y la del fuego en el infrarrojo medio (MIR) es
importante para determinar el fuego activo.
Normalmente, el humo generado no interrumpe la adquisición de datos

relacionados con los incendios debido a las grandes longitudes de onda de la gama
MIR en comparación con las partículas de humo, que suelen ser < 1µm. Por lo
tanto, ni siquiera el humo denso afecta a la detección de incendios activos [11].
Figura 1 - Radiancia espectral del fuego frente a los distintos fondos típicos e n
función de la longitud de onda [11]
19
2.2 Misiones centinela
Los satélites Sentinel-1, de radar activo, y Sentinel-2, óptico, de la Agencia Espacial

Europea (ESA), captan imágenes de alta resolución espacial y 5 días de resolución
temporal. Los datos de ambas misiones satelitales pueden utilizarse para detectar y
vigilar focos de incendio, ya que cada sensor presenta ventajas, por ejemplo, la
penetración de las nubes de Sen- tinel-1 y la sensibilidad a la humedad del suelo de
Sentinel-2.
La investigación anterior muestra que las series temporales de Sentinel-1, en

combinación con el marco de aprendizaje profundo basado en redes neuronales
convolucionales (CNN), pueden desempeñar un papel significativo tanto para la
detección como para el seguimiento de la progresión temporal de los incendios
forestales [12].
En este estudio se utiliza la misión Sentinel-2 para detectar incendios activos y zonas
quemadas. Esta misión es una constelación de satélites gemelos Sentinel-2A lanzados
por el programa europeo Co- pernicus el 23 de junio de 2015 y Sentinel-2B seguido el
7 de marzo de 2017 [13]. Cada satélite Sentinel-2 lleva un Instrumento Multiespectral
(MSI) que tiene 13 bandas espectrales que abarcan desde el visible y el infrarrojo
cercano (NIR) hasta las longitudes de onda del infrarrojo de onda corta (SWIR) (Figura
2).
La resolución espacial varía de 10 m a 60 m en función de la banda espectral y la

resolución temporal es de 5 días [14]. La misión Sentinel-2 está destinada
principalmente a obtener información sobre el hígado para prácticas y aplicaciones
agrícolas y forestales. La anchura de la franja orbital es de 290 km. Todos los productos
de Sentinel-2 se proyectan en el sistema de coordenadas Universal Transverse
Mercator (UTM) con el sistema geodésico mundial 84 (WGS84) [13].
20
Figura 2 - Visión general de las bandas de
Sentinel-2 Fuente: Reseda, Universidad Libre de
Berlín
21
2.3 Ratio de quemado normalizado
El Ratio Normalizado de Quemado (NBR) ayuda a identificar zonas quemadas

utilizando el conjunto de datos Sentinel-2. La combinación de varias bandas en
algoritmos matemáticos puede mejorar las características buscadas, ya que cada
banda espectral responde de forma única a los objetos de la superficie, como el
agua, la vegetación, etc. El NBR se utiliza frecuentemente como un índice que
presenta las áreas quemadas en zonas de grandes incendios [15]. La fórmula del
NBR combina la longitud de onda del infrarrojo cercano (NIR) y del infrarrojo de
onda corta (SWIR) [16]. La figura 3 presenta las curvas de respuesta espectral de
explotación de las zonas quemadas frente a la vegetación sana en términos de
reflectancia en función del espectro electromagnético. Como puede observarse, la
reflectancia muy alta corresponde a la vegetación sana en el NIR, mientras que la
reflectancia baja se encuentra en la porción SWIR del espectro. Este patrón es el
opuesto al que se observa en las zonas devastadas por el fuego. Así, las zonas
quemadas recientemente muestran una baja reflectancia en el NIR y una alta
reflectancia en el SWIR.
Figura 3 - Contraste de la curva de respuesta espectral de la vegetación sana y las zonas

quemadas Fuente: Servicio Forestal de EE.UU.
En general, la diferencia entre la respuesta espectral de la vegetación sana y la de

las zonas quemadas alcanza su máximo en las regiones NIR y SWIR del espectro.
𝑁𝐵𝑅 = 𝑁 𝐼 𝑅 𝐵 8 - (1)
𝑆𝑊𝐼𝑅12
𝑁𝐼𝑅𝐵8+𝑆𝑊𝐼𝑅𝐵12
22
Donde B8 y B12 son las bandas de satélite respectivas de Sentinel-2.
𝛥𝑁𝐵𝑅 = 𝑃𝑟𝑒𝑓𝑖𝑟𝑒 𝑁𝐵𝑅 - 𝑃𝑜𝑠𝑡𝑓𝑟𝑖𝑒 𝑁𝐵𝑅 (2)
Un 𝛥𝑁𝐵𝑅 más alto indica zonas más gravemente dañadas, mientras que las zonas
con valores negativos pueden indicar un aumento de la vegetación tras un incendio
[17]. Se propone 𝛥𝑁𝐵𝑅 para cartografiar la gravedad del quemado basándose en
imágenes multiespectrales en las que los valores 𝛥𝑁𝐵𝑅 pueden interpretarse
basándose en el United States Geological Survey (USGS) tal y como se presenta en
Tabla 1 [18] [19].
∆NBR Quemado Gravedad

-0,500 - -0,251 Alto rebrote tras el incendio
-0,250 - -0,101 Escaso rebrote tras el incendio
-0,100 - 0, 099 Sin quemar
0,100 - 0,269 Gravedad baja
0,270 - 0,439 Gravedad moderada-baja
0,440 - 0,659 Gravedad moderada-alta
0,660 - 1,300 Gravedad elevada
Tabla 1 - Categorías de gravedad de las quemaduras basadas en ∆𝑁𝐵𝑅 según el USGS
2.4 Algoritmos de aprendizaje automático
Uno de los principales objetivos de la observación de la Tierra es interpretar los

datos observados, cartografiar el uso del suelo, controlar los cambios y clasificar las
características. Los algoritmos de ML pueden ser útiles para clasificar características,
ya que pueden etiquetar cada píxel a una clase espectral concreta. La clasificación,
proceso de asignación de las clases a los píxeles, puede dividirse en aprendizaje
supervisado y no supervisado [20]. Estas dos técnicas dependen de la guía del
usuario.
La clasificación no supervisada agrupa los píxeles con las características espectrales

comunes inherentes a la imagen sin instrucciones explícitas. Así, el aprendizaje no
supervisado trata de encontrar automáticamente la estructura en los datos. Este
método puede utilizarse sin tener conocimientos previos de la cobertura del suelo en
23
el lugar de estudio [21]. El ejemplo más popular de algoritmos de aprendizaje no
supervisado es K-means para problemas de agrupación. Por otro lado
24
Por otro lado, el aprendizaje supervisado requiere una muestra previamente
clasificada, es decir, el conjunto de datos de entrenamiento. La información espectral
de los píxeles clasificados se utiliza para entrenar los algoritmos de clasificación [21].
Este aprendizaje es útil principalmente en dos áreas, los problemas de clasificación y
de regresión.
El algoritmo puede mejorar gradualmente en función del conjunto de datos de

entrenamiento. Una vez entrenado el modelo, el algoritmo puede aplicarse a toda
la imagen y se obtiene una imagen de clasificación final [22].
Es importante comprender completamente la teoría del algoritmo ML para seleccionar

y utilizar el modelo correctamente. Aunque GEE proporciona 4 algoritmos ML
supervisados disponibles [23], en este estudio sólo se seleccionan tres algoritmos ML
supervisados basándose en la revisión de la literatura.
En las secciones siguientes se describen los algoritmos supervisados CART, NB y RF

utilizados en este estudio. La segunda sección ofrece información sobre la teoría
de evaluación de la precisión aplicada en los modelos ML. La última sección abarca
un análisis de la importancia de las variables.
2.4.1 Árbol de clasificación y regresión

El árbol de clasificación y regresión (CART) es un modelo que puede utilizarse
ampliamente para problemas de modelización predictiva de regresión y
clasificación. El modelo predictivo CART ayuda a encontrar una variable basándose
en otras variables etiquetadas y las ventajas esenciales del algoritmo son la
capacidad de manejar una gran cantidad de datos procesados, la capacidad de
capturar la no linealidad en el conjunto de datos y manejar las características cate-
góricas y numéricas [24]. Además, este modelo puede visualizarse gráficamente, lo
que mejora la interoperabilidad del modelo de clasificación.
El método CART construye modelos de regresión o clasificación en forma de árbol, que

consta de nodos y hojas. Cada nodo raíz representa una única variable de entrada y
los nodos hoja del árbol contienen una variable de salida utilizada para realizar una
predicción, por ejemplo, incendio (1) y no incendio (0). Así, la representación en
árbol binario del modelo CART hace que las predicciones sean relativamente
sencillas.
25
2.4.2 Bosque aleatorio
El algoritmo CART mencionado anteriormente proporciona una base para Random
Forest (RF). El modelo RF consta de varios árboles individuales, cada uno de ellos
basado en una muestra aleatoria de los datos de entrenamiento, lo que puede
llevar a superar el modelo CART. El inconveniente de RF es que no se puede
interpretar como un único árbol CART [25].
El modelo RF se emplea para analizar la relación entre los factores que condicionan los
incendios forestales y la aparición de incendios y, posteriormente, se utiliza para
predecir la susceptibilidad de los incendios. Este algoritmo se utiliza habitualmente
para la predicción de datos y es adecuado para el modelado no lineal de la
susceptibilidad a los incendios forestales [26]. El modelo RF también permite investigar
la importancia variable, que puede utilizarse para determinar la variable más
importante del conjunto de datos de entrenamiento [27]. Las principales ventajas del
modelo RF son que el algoritmo evita el problema del sobreajuste si hay suficientes
árboles y también puede manejar valores perdidos.
El algoritmo RF construye muchos árboles de clasificación durante el periodo de

entrenamiento y el resultado final del proceso de generación del modelo es un valor
medio de los resultados de clasificación. Esta estructura de árbol se muestra en la
Figura 4. El propósito de construir un árbol de decisión es generar un modelo que
prediga el valor de la variable objetivo en función de numerosas variables de entrada
independientes.
Figura 4 - Un ejemplo de la estructura de los árboles de clasificación RF
26
2.4.3 Bayes ingenuos
El clasificador Naive Bayes (NB) es un algoritmo popular en muchos modelos ML
potentes. Se conoce como Naive porque asume ingenuamente que la presencia o
ausencia de un elemento particular de una clase no está relacionada con la presencia o
ausencia de cualquier otro elemento [28]. Este algoritmo se basa en el Teorema de
Bayes presentado en la Fig. 5 creado por Thomas Bayes [29].
P (A|B) = La probabilidad de que A sea cierto dado que B es cierto
𝑃(𝐵|𝐴) 𝑃(𝐴) P (B|A) = La probabilidad de que B sea cierto dado que A es cierto
𝑃(𝐴|𝐵) = P (A) = La probabilidad de que A sea cierto
𝑃(𝐵)
P (B) = La probabilidad de que B sea cierto
Figura 5 - Teorema de Bayes
En la teoría de la probabilidad y la estadística, el teorema de Bayes es la probabilidad

condicional, donde la probabilidad condicional es la probabilidad de que algo ocurra
basándose en que algo ya ha ocurrido. Por lo tanto, utilizando la probabilidad
condicional, se puede evaluar la probabilidad de que se produzca un incendio
conociendo el incendio anterior.
2.5 Teoría de la evaluación de la precisión
La evaluación de la precisión ofrece una idea general del rendimiento del modelo.
Los modelos ML son propensos al sobreajuste, por lo que es importante evaluar
cada modelo ML utilizando estrategias de validación cruzada adecuadas. Así pues,
los resultados de los modelos ML seleccionados se validan basándose en las
características comunes de evaluación de la precisión, como la matriz de con-
fusión, la precisión global y los estadísticos kappa. Estas características se detallan
en los párrafos siguientes.
27
La matriz de confusión es un resumen de los resultados de predicción en una
clasificación en el que el número de predicciones correctas e incorrectas se resumen
con valores de recuento y se desglosan por cada clase. Existen cuatro combinaciones
básicas de valores predictivos y reales que se explican en la figura 6. Esto forma parte
de la evaluación de la precisión, que proporciona información no sólo sobre los errores
cometidos por un clasificador, sino, lo que es más importante, sobre los tipos de
errores cometidos [30].
Verdadero positivo cuando un modelo predice algo

(TP) positivo y se cumple.
Verdadero negativo cuando un modelo predice negativo
(VN) y se cumple.
Falso positivo (FP) cuando un modelo predice positivo
y es falso.
Falso negativo (FN) cuando un modelo predice un
resultado negativo y es falso
Figura 6 - Matriz de confusión
La precisión global se define como el porcentaje de resultados correctamente

clasificados en la matriz de confusión. Esto puede calcularse simplemente como se
muestra en la ecuación (3) en porcentaje [31].
(TP + TN)
𝑂𝑣𝑒𝑟𝑎𝑙𝑙 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑥 100 (3)
(TP + TN + FN + FP)
El estadístico Kappa es uno de los más utilizados para comprobar la fiabilidad entre
evaluadores de ítems categóricos. Esto significa que mide el acuerdo entre más ob-
servadores, donde los observadores a veces están de acuerdo o en desacuerdo
simplemente por casualidad. El valor del estadístico kappa está comprendido entre
-1 y 1 y puede interpretarse según el kappa de Co- hen de la Tabla 2. El valor de 1
significa un acuerdo perfecto y el valor 0 es un acuerdo fortuito, la mayoría de las
veces el valor está entre 0 y 1. Si el valor es inferior a 0, hay algo peor que un
acuerdo fortuito (desacuerdo), lo que pone de manifiesto un clasificador
brutalmente roto [32].
28
Kappa Acuerdo
<0 Sin acuerdo
0 - 0.20 Leve
0.21 - 0.40 Feria
0.41 - 0.60 Moderado
0.61 - 0.80 Sustancial
0.81- 1.0 Perfecto
Tabla 2 - Interpretación del valor Kappa según Cohen (1977)
2.6 Análisis de la importancia de las variables
El rendimiento del modelo es su función clave, pero es igual de importante

comprender cómo contribuyen las características del modelo a las predicciones
resultantes. El ML, como "modelo de caja negra", puede interpretarse y proporcionar
información, como el análisis de la importancia de las variables. En general, se refiere a
la medida en que un modelo determinado "utiliza" esa variable para realizar sus
predicciones. La importancia de la variable se mide por la reducción media en la
precisión de la predicción [33].
2.7 Tecnología
En este trabajo se emplea tecnología punta, que se presenta en el apartado siguiente.
Motor Google Earth
Google Earth Engine (GEE) es un producto de Google de acceso libre (no comercial)
lanzado en 2010 [34]. Esta plataforma dominante de computación en nube está
diseñada para almacenar y procesar conjuntos de datos masivos para el análisis
científico y la toma de decisiones en última instancia. Google pretende establecer la
información mundial y hacerla accesible y beneficiosa en todo el mundo. GEE también
cuenta con un programa de licencias comerciales, p o r lo que puede adquirirse con
fines comerciales [35].
El predominio de la plataforma GEE se debe sobre todo al manejo de enormes

conjuntos de datos a diversas escalas y a la creación de programas automatizados que
pueden ser utilizados a nivel operativo por muchos científicos. Éstos utilizan los
conjuntos de datos de GEE para realizar prospecciones en muchos ámbitos, como la
cartografía del riesgo de inundaciones, la agricultura, las catástrofes provocadas por
29
incendios forestales, la cartografía del Ártico, el seguimiento de los bosques, los
cambios en el uso del suelo, etc. [36].
30
Este almacenamiento en la nube proporciona varios petabytes de imágenes de
satélite públicas de todo el mundo, en su mayoría recogidas por los satélites de
observación de la Tierra de la NASA, por ejemplo MODIS y Landsat, los satélites
Sentinel de la ESA y muchas otras fuentes [37]. Este almacenamiento en la nube
está disponible en este sitio web https://earthengine.google.com/datasets/.
También se incluyen en estos conjuntos de datos vectoriales modelos
demográficos, meteorológicos, climáticos y digitales de elevación y otros datos
vectoriales [34]. Los conjuntos de datos se pueden importar a un entorno de
scripting y los usuarios pueden cargar sus propios datos para uso privado. Además,
cualquier análisis de GEE puede descargarse para ser utilizado por herramientas de
terceros. Estos conjuntos de datos deberían ayudar a los usuarios a dedicar más
tiempo a crear productos y servicios [35].
Se puede acceder a la ejecución de algoritmos personalizados a través de la interfaz

de programación de aplicaciones (API) de Earth Engine Python y JavaScript. JavaScript,
a menudo abreviado como JS, es un lenguaje de programación ligero y orientado a
objetos. Este lenguaje e s bien conocido por ser ampliamente utilizado para el
desarrollo web, es decir, junto con HyperText Mark-up Language (HTML) y Cascading
Style Sheets (CSS). La diferencia entre la interfaz de programación de aplicaciones
Earth Engine Python y JavaScript r a d i c a principalmente en la definición de
funciones, la definición de variables o el uso de mayúsculas en los operadores lógicos.
La API de Python proporciona una interfaz programática flexible a través de la
plataforma Google Colabor- atory utilizando la interfaz Jupyter Notebook. Esto
proporciona una experiencia altamente interactiva sin la carga de la configuración del
sistema local debido a un servicio alojado [35].
2.8 Área de estudio
El área de estudio es el territorio continental australiano donde se produjeron los

incendios forestales durante la temporada de incendios 2019- 2020. El territorio
continental australiano incluye cinco estados como Nueva Gales del Sur, Queensland,
Australia Meridional, Victoria, Australia Occidental y los principales territorios
continentales, el Territorio de la Capital Australiana y el Territorio del Norte. El mapa
que muestra la zona de interés se presenta en la Figura 7.
Australia está situada entre los océanos Índico y Pacífico. Este con- tinente, el más
31
pequeño del mundo, con una población muy concentrada a lo largo de las costas
oriental y sudoriental, presenta una gran variedad de paisajes, desde montañas
nevadas hasta grandes desiertos. La parte oriental de Australia es una de las zonas
más propensas a los incendios del mundo [38].
32
Varios estudios sobre incendios forestales realizados anteriormente no se han
analizado a nivel estatal debido a la falta de potencia informática o a la ausencia de
conjuntos de datos sobre las zonas de estudio. Gracias a la plataforma de
procesamiento espacial en la nube de GEE y a su catálogo de imágenes de satélite de
varios petabytes es posible realizar este análisis exhaustivo.
Figura 7 - El área de interés definida por los límites de Australia continental
2.9 Identificar el período de la temporada de incendios 2019-2020
Muchas fuentes están proporcionando diferentes marcos de tiempo de la temporada

de incendios 2019-2020 y ninguna fuente oficial puede declarar el inicio y la fecha final
de la temporada de incendios. Por lo tanto, esta sección presenta la identificación del
marco temporal de la t e m p o r a d a d e incendios ocurrida recientemente, ya que las
fechas de inicio y fin de la temporada de incendios no se especifican oficialmente. Este
marco temporal se utiliza como entrada para generar el conjunto de datos de
entrenamiento necesario para los algoritmos ML.
Los datos de entrada para representar los incendios se obtienen del conjunto de datos
FIRMS (véase más información sobre el conjunto de datos FIRMS en el capítulo 3). En
la Figura 8 se muestra el número total diario de localizaciones de incendios en toda
Australia durante el año 2019 y parcialmente el año 2020. Este gráfico revela el
33
crecimiento significativo a partir de septiembre de 2019 que disminuyó casi a 0 en
febrero de 2019, precisamente entre el 21 y el 22 de febrero.
34
Figura 8 - Número total de localizaciones de incendios a lo largo de 2019 y parcialmente
para el año 2020 sobre el territorio continental
australiano
Según la información oficial, la larga temporada de incendios forestales en Australia se

ha reducido tras las fuertes lluvias, pero sin una fecha concreta. Por lo tanto, en la
figura 9 se presenta una visión general de la distribución espacial de las precipitaciones
mensuales acumuladas durante enero y febrero, junto con los focos de incendios de
febrero en toda Australia. Esta figura muestra que la distribución espacial de las
precipitaciones de febrero se produjo principalmente en la parte norte y este de
Australia. La gran cantidad de lluvia ha caído en los focos de incendio situados en las
zonas del sureste, lo que ha permitido detenerlos en febrero. Las zonas de incendios
de febrero situadas en el suroeste han recibido menos precipitaciones, pero más en
comparación con las precipitaciones de enero, lo que podría llevar a detener los
incendios forestales activos.
Así, el marco temporal se establece entre el 1 de septiembre de 2019 y el 22 de febrero de

2020. Los datos de entrada proceden del conjunto de datos Climate Hazards Group
InfraRed Precipitation with Sta- tion (CHIRPS), que rastrea las precipitaciones desde
1981 [39].
35
Figura 9 - Distribución espacial de la precipitación mensual (mm/mes) en Australia durante
enero de 2020 - febrero de 2020 utilizando el conjunto de datos diarios
CHIRPS
36
3. Análisis exploratorio de datos
Este capítulo presenta el análisis exploratorio de los incendios australianos en el mar-
son 2019-2020 y los compara con los incendios forestales de los años anteriores para
esbozar las características principales. Los conjuntos de datos empleados para el
análisis exploratorio de datos incluyen diferentes misiones de satélite, por ejemplo,
VIIRS, MODIS, Sentinel-2. Dichas misiones recogen datos regularmente en todo el
planeta. Los códigos fuente para generar las figuras presentadas en este subcapítulo
se incluyen en el repositorio de GitHub.
Para realizar este análisis se utiliza el conjunto de datos del Reanálisis del Centro
Europeo de Predicción Meteorológica a Medio Plazo (ERA5). Este conjunto de
datos es de libre acceso y ofrece una visión detallada de la atmósfera. El conjunto
de datos cubre la Tierra en una cuadrícula de 30 km y la atmósfera se divide en 137
niveles desde la superficie hasta una altura de 80 km. Este producto avanzado fue
publicado por el Centro Europeo de Predicción Meteorológica a Medio Plazo
(ECMWF) [40]. El ERA5 forma parte de los conjuntos de datos de GEE que consisten
en la banda de temperatura del aire como media mensual a 2 m de altura con
disponibilidad desde 1979 hasta la actualidad.
La figura 10 presenta la temperatura media anual en toda Australia desde 1979 hasta
2019. Como puede observarse, la temperatura media anual durante estos 40 años fue
la más alta en 2019. La diferencia entre la temperatura media anual más baja medida
en 2000 y la más alta medida en 2019 es de aproximadamente 1,8 °C. También es
importante señalar que el récord de temperatura media más alta se batió tres veces
durante las dos últimas décadas, en 2005, 2013 y 2019. Esto sugiere que Australia se
está convirtiendo en un lugar cada vez más cálido, lo que muy probablemente se deba
al cambio climático global.
37
Figura 10 - Temperatura media anual en Australia desde 1979 hasta 2019
38
Para calcular el número total de incendios, se utiliza el conjunto de datos FIRMS del
GEE. Fire In- formation for Resource Management System (FIRMS) distribuye datos
obtenidos por satélite casi en tiempo real en las 3 horas siguientes a la observación
por satélite. FIRMS forma parte de Land, Atmosphere Near real-time Capability
(LANCE) de la NASA para EOS y proporciona tanto los datos del Mod- erate Resolution
Imaging Spectroradiometer (MODIS) con Terra y Aqua EOS como los del Visible
Infrared Imaging Radiometer Suite (VIIRS) [41].
Los incendios activos mostrados en las figuras siguientes se presentan como píxeles
que cubren 1 km2 sobre el terreno. Por lo tanto, este píxel puede contener uno o más
focos de incendio en un radio de 500 m. Además, el tamaño mínimo de incendio
detectable depende de muchas variables,
por ejemplo, el ángulo de barrido, la temperatura de la superficie terrestre, la
cantidad de humo, etc. Por lo general, los satélites MODIS pueden detectar
incendios en llamas y latentes de 1000 m2, pero en condiciones de observación
extremadamente limpias pueden detectarse incendios en llamas más pequeños
(50 m2) [41]. Además, las anomalías térmicas, por ejemplo, los volcanes, pueden
identificarse como incendios activos.
El conjunto de datos FIRMS de GEE incluye la banda T21 que muestra las localizaciones
de incendios activos, donde el valor del píxel determina la temperatura de la superficie
[42]. Esta banda se mide en Kelvin [41].
La figura 11 presenta el número total de incendios en Australia cada año desde 2001
hasta 2019. El último año, 2019, comparado con los 18 anteriores no presenta cifras
destacadas. Tanto 2011 como 2012 destacan como los peores años en cuanto a
actividad de incendios. Los incendios activos registrados en 2017 y 2018 tuvieron
ambos aproximadamente 200 000 incendios más que en 2019.
39
Figura 11 - Número total de píxeles que presentan fuego activo anualmente (del 1 de enero de 2001 al 1 de
marzo de 202 0)
40
La visión detallada que muestra la actividad de los incendios a lo largo de un año es
necesaria para descubrir anomalías a lo largo de los meses. Así, la figura 12
muestra los incendios activos a lo largo de un año desde 2010 hasta marzo de 2020
en Australia. Los años 2011 y 2012 presentan un número significativo de incendios
activos en comparación con otros años. Sin embargo, los datos de incendios
obtenidos por satélite revelan que los incendios más activos durante diciembre y
enero a lo largo de la última década se produjeron en 2019 y 2020,
respectivamente. MODIS registró alrededor de 400.000 indicadores de incendios
activos sobre Australia entre diciembre de 2019 y febrero de 2020.
Figura 12 - Número total de incendios localizados a lo largo de un año durante casi una década
(del 1 de enero de 2010 al 1 de marzo de 2020), un píxel de 1 km contiene uno o más focos de incendio en un
radio de 500 m
El trazado de los incendios en un mapa puede presentar distribuciones y patrones

espaciales. La figura 13 muestra un mapa de distribución espacial de los incendios
activos entre enero de 2019 y febrero de 2020. Los focos de incendio mostrados se
produjeron notablemente en el norte y la costa este de Australia, mientras que en el
sur y el oeste del país hubo un número ligeramente inferior de incendios. El territorio
interior se vio menos afectado que l a z o n a costera.
41
Figura 13 - Distribución de sucesos de incendios basada en el conjunto de datos FIRMS de enero de 2019 a febrero de 2020
42
4. Metodología
En el capítulo siguiente se describe la metodología utilizada para cumplir los dos
objetivos de este estudio, como son la probabilidad de que se produzcan incendios en
toda Australia y la identificación de los factores que los provocan. Toda la estructura se
divide en tres partes: extracción y preprocesamiento de datos, clasificación y
validación. Esta estructura se presenta en el diagrama de flujo de la Figura 14 y
pretende resumir los procesos esenciales empleados en este estudio.
El primer paso del diagrama de flujo consiste en crear el conjunto de datos de

entrenamiento, formado por los incendios forestales ocurridos anteriormente (una
variable dependiente) y los factores principales del incendio, a saber, el factor
topográfico, meteorológico, antropológico y de vegetación (variables independientes).
Posteriormente, este conjunto se divide en subconjuntos de datos, denominados
conjunto de datos de entrenamiento y conjunto de datos de prueba. El conjunto de
datos de entrenamiento se aplica en los modelos ML para entrenar el modelo y, a
continuación, el modelo entrenado se valida mediante el conjunto de datos de prueba.
El mejor rendimiento de los modelos ML seleccionados se utiliza para la predicción
espacial de la susceptibilidad a los incendios forestales. Todos los procesos se
describen detalladamente en los siguientes subcapítulos.
43
Figura 14 - Diagrama de flujo de los procesos empleados en el estudio para generar el
modelo predictivo en GEE
44
El análisis se llevó a cabo en la plataforma de análisis medioambiental en la nube
GEE utilizando Ja- vaScript, ya que permite realizar el análisis a escala mundial de
forma más eficiente en lo que respecta al coste del tiempo de computación en
comparación con la informática de sobremesa. Además, no es necesario descargar
imágenes satelitales, lo que permite ahorrar tiempo de procesamiento. El código
completo puede obtenerse en el repositorio de GitHub.
4.1 Extracción y tratamiento previo de datos

La minería de datos y la parte de preprocesamiento son pasos importantes para
generar el conjunto de datos de entrenamiento como entrada para los modelos ML. El
conjunto de datos de entrenamiento consta de variables independientes, también
denominadas predictores (cubierta terrestre, temperatura, etc.), y variables
dependientes, también denominadas variables de respuesta (incendio, ausencia de
incendio).
La mayoría de los algoritmos de ML utilizan los conjuntos de datos de entrenamiento

creados manualmente. En este estudio, el área de interés es a nivel continental y el
marco temporal abarca seis meses, lo que da lugar a una cantidad abrumadora de
datos. Por lo tanto, es importante au- tomizar el proceso de generación del conjunto
de datos de entrenamiento. Esto también aporta la ventaja de alimentar los modelos
seleccionados con más muestras de datos de entrenamiento para mejorar el
rendimiento de los modelos.
4.1.1 Variable dependiente

La variable dependiente de este estudio son los lugares en los que se producen o no
incendios. Por lo tanto, la cartografía de la susceptibilidad de incendios puede
considerarse desde la p e r s p e c t i v a del ML como un problema de clasificación
binaria con dos clases: incendios y no incendios. Sin embargo, l a s fuentes oficiales
australianas no disponen de un conjunto de datos de alta resolución sobre los lugares
donde se han producido incendios recientemente. Por lo tanto, en este estudio se ha
desarrollado un flujo de trabajo automatizado para la recopilación de ubicaciones de
incendios y de ausencia de incendios, que se presenta en la Figura 15.
Este flujo de trabajo automatizado se aplica a cada mes de la temporada de

incendios (especificada en la sección 2.9) como consecuencia de los cambios en la
45
vegetación, que podrían sesgar los resultados. Además, el territorio continental
australiano se divide en 3 áreas basadas en los límites estatales debido al gran
tamaño del territorio continental australiano, que conduce a la limitación
computacional. El flujo de trabajo se ejecuta un total de 18 veces (6 meses x 3
partes).
46
El flujo de trabajo automatizado utiliza dos misiones de satélite, FIRMS y Sentinel-2,
que se preprocesan con el fin de obtener las localizaciones de los incendios. Las
colecciones de imágenes FIRMS agregan ubicaciones de incendios activos durante el
periodo de un mes a partir de las observaciones diarias en toda Australia con un
cuadro delimitador empleado de 1 km2. A continuación, se vectorizan las áreas de las
ubicaciones de los incendios de FIRMS.
Figura 15 - Organigrama de los lugares donde se producen incendios aplicado en la metodología
La misión Sentinel-2 se emplea en el segundo paso debido a su alta resolución

espacial. Esta misión produce máscaras de nubes y cirros creadas como producto de la
corrección atmosférica. Estas máscaras se aplican con el objetivo de proporcionar
imágenes sin nubes y evitar resultados engañosos en los análisis de la superficie.
Posteriormente, el Índice de Agua de Diferencia Nor- malizada ( NDWI) calculado a
47
partir de las máscaras verde ( B3) y
48
(B11) para eliminar las zonas de agua del análisis. La figura 16 muestra una diferencia
entre la imagen general y la imagen sin nubes ni agua.
Figura 16 - Composición sin máscara de nubes

(izquierda), Composición con máscara de nubes y
agua (derecha)
El siguiente paso es calcular dNBR, véase el capítulo 2.3 para más información sobre
dNBR. El NBR previo al incendio se calcula a partir del intervalo de tiempo <6 días antes
del inicio del mes, mes de inicio> y el NBR posterior al incendio se calcula a partir del
intervalo de tiempo <final del mes, 6 días después del mes>. El cálculo dNBR destaca
las zonas quemadas y obtiene una evaluación inicial de la gravedad de la quemadura.
Sin embargo, existe un obstáculo en la dNBR que se refiere a un proceso de detección

de cambios. Esto significa que la ecuación dNBR consiste en la deducción de la NBR
previa al incendio y la NBR posterior al incendio, donde también se pueden incluir los
cambios en la vegetación natural, por ejemplo, deforestación, cosecha. En otras
palabras, los cambios no relacionados con el fuego pueden detectarse como daños por
incendios forestales. A pesar del corto periodo de aplicación (un mes), se establece un
valor umbral dNBR de 0,44, que clasifica la zona quemada de gravedad moderada-alta
o alta. El umbral se aplica únicamente dentro de las zonas con vectores de incendios
activos del conjunto de datos FIRMS. El objetivo es eliminar los pequeños cambios
naturales de la vegetación y aumentar la potencia de cálculo, ya que el cálculo se
realiza dentro de las áreas del vector de incendios de FIRMS. La combinación de ambas
características, zonas quemadas y zonas incendiadas, se aplica para crear el equilibrio,
ya que las zonas quemadas tienden a subestimar los resultados, mientras que los
datos de incendios activos pueden sobreestimar los resultados.
Las zonas quemadas seleccionadas dentro de los recuadros que delimitan la ubicación
49
del incendio se vectorizan y, a continuación, se calcula el tamaño de las zonas
quemadas seleccionadas. El área mayor que
50
Se selecciona 0,25 km2 (trama de 500 m x 500 m) para generar los puntos aleatorios. El
criterio del tamaño mínimo significa que los puntos aleatorios se sitúan en zonas
seleccionadas de mayor tamaño, ya que representan un píxel que cubre esta zona
concreta.
La selección del punto de no-fuego se realiza utilizando una función de punto

aleatorio donde los puntos se colocan aleatoriamente fuera de las áreas del vector
FIRMS.
La figura 17 presenta un ejemplo de un incendio forestal ocurrido en septiembre de

2019 cerca de la costa oeste de Australia. Esta figura presenta los resultados paso a
paso del procesamiento descrito anteriormente.
Figura 17 - Ejemplo de un incendio forestal utilizado para ilustrar los resultados de los procesos de
quemado
selección de áreas. a) dNBR, b) dNBR con área de fuego vector FIRMS, c) dNBR con área de fuego
vector FIRM y áreas umbral d) dNBR con área de fuego vector FIRMS y áreas umbral y áreas
51
seleccionadas mayores de 0,25 km2
52
La función de puntos aleatorios utilizada en los lugares de procesamiento genera
aleatoriamente 300 puntos de incendio y 300 puntos de no incendio para cada
parte seleccionada (3) para cada mes (6), lo que da como resultado 18 archivos
CSV que constan de 600 puntos por cada archivo. Estos archivos CSV se fusionan
en el archivo final utilizando el código JavaScript almacenado en el repositorio de
GitHub. Cada registro de incendio y de no incendio en el archivo final tiene el
nombre de propiedad "Incendio" y un valor almacenado de tipo entero en el que 1
representa un incendio y 0 un no incendio.
4.1.2 Variables independientes

La selección de variables independientes, también conocidas como predictores o
factores condicionantes, es un paso fundamental en la modelización predictiva. Para
este estudio, se seleccionan 15 factores condicionantes basados tanto en la
observación de campo encontrada en diferentes estudios como en los datos de
satélite disponibles en la plataforma GEE. Estos factores condicionantes aplicados a los
incendios forestales pueden dividirse en cinco categorías: topografía, tipo de
vegetación, infraestructura, meteorología y factores socioeconómicos. La tabla 3
resume cada uno de los factores utilizados en este estudio.
La categoría topográfica (figura 18) consta de elevación, pendiente y aspecto. La

elevación se obtiene a partir del modelo digital de elevación (DEM) con 30 m de
resolución espacial. El modelo se genera a partir del conjunto de datos de la Shuttle
Radar Topogra- phy Mission (SRTM) de la NASA. La pendiente o el gradiente del
terreno expresado como ángulo y aspecto, también conocido como la dirección en la
que se orienta la pendiente, se obtienen a partir del MDE.
53
Categoría Capas de datos Fuente de datos Tipo de Resolución espacial
datos
Elevación 30 m
Datos digitales
Topografía Pendiente de elevación Trama 30 m
SRTM
Aspecto 30 m
3 segundos de arco
Profundidad del suelo CSIRO SLGA Trama
≈ 90 m
0,25 grados de arco
Humedad del suelo Clima Terra Trama
≈ 4 km
Copérnico
Medio ambiente Cubierta terrestre CGLS-LC100
Trama 100 m
NDVI MODIS NDVI Trama 250 m
Índice de 2,5 minutos de arco

Clima Terra Trama
gravedad de la ≈ 4 km
sequía
2,5 minutos de arco
Precipitación Clima Terra Trama
≈ 4 km
Clima Temperatura 2,5 minutos de arco

Clima Terra Trama
máxima ≈ 4 km
2,5 minutos de arco
Energía eólica Clima Terra Trama
≈ 4 km
Distribuciones de la Población 3 segundos de arco

Trama
población humana mundial ≈ 85 m
Modificación
Socioeconómic CSP gHM5 Trama 1 km
humana global
o
Línea eléctrica OSM Vector 500 m
Red de carreteras OSM Vector 500 m
Cuadro 3 - Lista y descripción de los conjuntos de datos variables incluidos en el estudio
54
Figura 18 - Factores topográficos: elevación, aspecto y pendiente
La categoría medioambiental (figura 19) incluye la cubierta terrestre, la profundidad

del suelo, la humedad del suelo, el índice de gravedad de la sequía y el índice de
vegetación de diferencia normalizada (NDVI). El Copernicus Global Land Service (CGLS)
proporciona la evaluación de la cubierta terrestre con una resolución espacial de 100
m para el año de referencia 2015. La cuadrícula de la cubierta terrestre tiene las clases
discretas que se muestran en el apéndice A. La profundidad del suelo obtenida del
conjunto de datos Soil and Landscape Grid of Australia describe la distribución espacial
de la profundidad del suelo. El ráster de humedad del suelo y el índice de gravedad de
la sequía se obtienen del conjunto de datos Terra Climate 2019.
55
Figura 19 - Factores medioambientales: cobertura del suelo (la leyenda se encuentra en el Apéndice),
profundidad del suelo, humedad del suelo, índice de gravedad de la
sequía y NDVI.
Estos rásters se generan a partir de la colección de imágenes obtenidas desde

septiembre de 2019 hasta diciembre de 2019, donde se implementa la función
estadística media (Figura 20). Esta función toma el valor medio de un píxel
determinado a lo largo del periodo. Idealmente, los rásteres finales de ambas variables
deberían calcularse para toda la temporada de incendios; sin embargo, Terra Climate
solo está disponible para el año 2019. El producto MOD13Q1 proporciona
directamente la capa de vegetación, es decir, NDVI, con la resolución espacial de 250
m. La imagen NDVI se genera a partir de la colección de imágenes recogidas durante
56
toda la temporada de incendios utilizando el valor medio de la función estadística.
57
Función estadística
(Media, Mín, Máx,...)
Figura 20 - Ejemplo de imagen obtenida a partir de una función estadística sobre una colección de
imágenes
La categoría Clima (Figura 21) incluye la acumulación de precipitaciones, la

temperatura máxima y la velocidad del viento. Estas variables se recogen del
conjunto de datos Terra Climate y se procesan de la misma manera que los datos
utilizados anteriormente de este conjunto de datos; por ejemplo, el índice de
gravedad de la sequía.
Figura 21 - Factores climáticos: precipitaciones, temperatura máxima y velocidad del viento
58
La categoría socioeconómica (Figura 22) incluye la M o d i f i c a c i ó n Humana Global
(GHM), la población, las líneas eléctricas y la distancia de las carreteras. El conjunto de
datos GHM proporciona una medida acumulativa de la modificación humana de las
tierras terrestres en todo el planeta con una resolución espacial de 1 km. Los valores
de GHM varían de 0 a 1 y se asocian a un tipo determinado de modificación humana
también conocido como factor de estrés. Se incluyen los principales factores de estrés
antropogénicos, como los asentamientos humanos, el transporte, la minería y la
producción de energía. La población, procedente del conjunto de datos WorldPop,
estimó el número de personas que residen en cuadrículas de ≈ 85 m. Los datos
vectoriales, las líneas eléctricas y la red de carreteras, se obtienen del Open Street
Map (OSM) y se cargan en la plataforma GEE. Los datos se convierten al formato raster
con una resolución de 500 m, donde para la distancia de las carreteras se aplica la
función de costa acumulativa de G E E '.
Figura 22 - Factores socioeconómicos: GHM, población, líneas eléctricas y distancia de las carreteras
59
4.2 Clasificación
Una vez creados los puntos de entrenamiento con fuego y sin fuego y preprocesados
los factores condicionales, el siguiente paso consiste en crear el conjunto de datos de
entrenamiento enriquecido con valores predictores. En primer lugar, se fusionan las
15 variables independientes para crear una imagen compuesta con 15 bandas (Figura
23).
Figura 23 - Fusión de todas las variables predictoras en la imagen final (script GEE de JavaScript)
A continuación, se aplica la función sampleRegions para obtener el valor de los

predictores en la tabla y generar muestras de entrenamiento como se muestra en la
Figura 24. Así, los puntos con y sin fuego se superponen a la imagen compuesta para
obtener variables predictoras junto con etiquetas. La escala nominal para el muestreo
es de 100 m.
Figura 24 - Creación de la muestra de

entrenamiento
Una vez creado el conjunto de entrenamiento, el siguiente paso es examinar las

clasificaciones. El rendimiento de cada modelo de clasificación se describirá en el
capítulo Resultados. Estas clasificaciones supervisadas basadas en píxeles dependen en
gran medida de las muestras de entrenamiento de entrada. En la Figura 25 s e
muestra un ejemplo de aplicación de la clasificación supervisada ML mediante
60
JavaScript.
61
Figura 25 - Clasificación supervisada ML, concretamente RF, aplicada en la interfaz GEE
Además, los clasificadores GEE siguen teniendo una limitación para analizar la
importancia de las variables. Aunque este estudio compara tres algoritmos ML, sólo un
modelo, precisamente RF puede observar la relación entre los factores condicionantes
del incendio y la ocurrencia del mismo, es decir, la importancia de la variable. Además,
el único clasificador RF en GEE proporciona la función de probabilidad que se muestra
en la Figura 26.
Figura 26 - La función de probabilidad en GEE para la cartografía de la probabilidad de incendio.
4.3 Validación
Los modelos ML entrenados pueden predecir la localización del incendio; sin
embargo, es importante evaluar el rendimiento de estos modelos. Por esta razón,
se lleva a cabo la evaluación de la precisión.
Para la validación del modelo, el conjunto de datos de muestra de lugares con y sin
incendios se divide en conjuntos de datos de entrenamiento y de prueba. Para ello, se
aplica la función randomColumn, que añade una columna al conjunto de datos de
muestra y los valores a una columna por defecto. Los puntos se dividen en una
proporción de 70:30, lo que significa que el 70% se utiliza como conjunto de datos de
entrenamiento y el 30% como conjunto de datos de prueba. La evaluación de la
precisión se aplica al conjunto de datos de prueba, que evalúa la precisión basándose
en la matriz de confusión. A partir de la matriz de confusión, se obtienen la precisión
global y el kappa, como puede verse en la Figura 27. Todos los resultados de la
validación se presentan en la Figura 27. Todos los resultados de la validación se
62
presentan en el capítulo Resultados.
63
Figura 27 - Evaluación de la precisión
64
5. Resultados
En este capítulo se resumen los resultados de este estudio basados en la metodología
aplicada. La primera sección proporciona los resultados de las localizaciones de los
incendios recogidos de las misiones Sentinel-2 y FIRMS. La segunda parte de este
capítulo revela los resultados obtenidos de los diferentes algoritmos ML, donde las
variables de predicción empleadas se recogen de la observación de la Tierra, excepto
los datos de carreteras y redes eléctricas. El resultado de los algoritmos ML, el mapa
de probabilidad de incendios, se presenta en el tercer subcapítulo de este capítulo.
Finalmente, el último subcapítulo proporciona los resultados del análisis de la
importancia de las variables, cuyos resultados se derivan del algoritmo ML.
5.1 Lugar del incendio

Los puntos de ocurrencia de incendios representan la ubicación de los incendios
individuales que se produjeron durante la temporada de incendios 2019-2020,
definidos con precisión en el capítulo 2.9. El diagrama de flujo presentado en la figura
15 del capítulo 4.1.1 identifica automáticamente las ubicaciones de los incendios con
una precisión de 10 m para los algoritmos ML. Los resultados muestran la distribución
de las ubicaciones de los puntos de incendio y de no incendio y se presentan en la
Figura 28. Todas estas ubicaciones forman parte de los puntos de incendio y de no
incendio. Todas estas localizaciones forman parte del conjunto de datos de
entrenamiento de muestra, que consta de 10 800 puntos de entrenamiento en toda
Australia continental.
65
Figura 28 - Distribución de los puntos de incendio y de no incendio en el proceso automatizado
La localización del fuego se verifica visualmente mediante alertas de fuego activo

calculadas a partir de los datos de Sen- tinel-2. La figura 29 presenta un ejemplo de
verificación de puntos de fuego. En primer lugar, el
66
El área anterior y posterior al incendio se visualiza en la imagen RGB. Las alertas
mensuales de incendios activos se calculan utilizando las bandas B5 y B12 y verifican
los puntos de incendio dentro de la zona donde se encuentra la alerta de incendio de
Sentinel-2.
Figura 29 - Un ejemplo de incendio forestal en imágenes RGB anteriores y posteriores al incendio y

fuego activo mensual de la misión Sentinel-2 para la verificación visual de los
puntos de incendio.
5.2 Evaluación de la precisión de los algoritmos de ML

En este subcapítulo se examina el rendimiento de cada modelo de clasificación. Para
evaluar el rendimiento de los modelos ML se utiliza el método de evaluación de la
precisión, ampliamente extendido. Se calcula en la plataforma GEE utilizando las
características especificadas en el capítulo 2.5.
La evaluación de la precisión se calcula a partir de los conjuntos de datos de prueba

independientes obtenidos del conjunto de datos de muestra. Este conjunto de datos
de muestra se divide en la proporción 70:30, lo que significa que el 70% del conjunto
de datos se utiliza para el entrenamiento del modelo y el 30% se aplica para las
pruebas. Así, los algoritmos ML supervisados basados en píxeles seleccionados, a
saber, RF, CART y NB, se entrenan utilizando un conjunto de datos de entrenamiento
67
del 70% que representa 3250 muestras de prueba. Las muestras contienen 1633 clases
de incendio y 1617 clases de no incendio. La tabla 4 recoge los resultados de la
precisión de los modelos ML. La mejor precisión global corresponde al modelo RF
(96%).
68
mientras que el rendimiento más bajo lo representa el modelo NB (64%). Los
resultados de CART (93%) no son tan precisos como los de RF, pero muestran un mejor
rendimiento que el modelo NB.
La matriz de confusión revela que estos 3 algoritmos suelen predecir bien la clase de
no incendio en comparación con la predicción de la clase de incendio. El modelo RF
clasificó correctamente las 1593 muestras de prueba de incendio de 1633, lo que
significa que sólo 40 muestras de prueba de incendio se predijeron incorrectamente.
Las 1540 muestras sin fuego se predijeron correctamente y sólo 77 se clasificaron
incorrectamente.
Los modelos NB y CART no pueden manejar la clasificación con valores perdidos. Esto
puede ocurrir al procesar diferentes factores predictivos representados en raster for-
mat. Estas cuadrículas pueden tener algunas celdas perdidas que representan la
ausencia de datos. Por lo tanto, el número de muestras de prueba es menor en CART y
NB, aunque el conjunto de datos de prueba de entrada es el mismo que para el
modelo RF.
Matriz de confusión
Precisió
Kappa
Predicción Predicted
∑ n global
No-Fuego Fuego
No real -
524 1087 1611
Bayes Incendio
64% 27%
ingen Incendio real 75 1515 1590
uo ∑ 599 2602 3201
Actual
1494 117 1611
No - Fuego
CARRO (300) Incendio real 77 1513 1590
93% 88%
∑ 1571 1630 3201

No real -
1540 77 1617
Bosque Incendio
96% 93%
aleatorio Incendio real 40 1593 1633
(300) ∑ 1580 1670 3250
Tabla 4 - Estadísticas generales de los resultados de la evaluación de la precisión de los algoritmos de ML
69
El script de evaluación de la precisión con los algoritmos RF y CART se ejecutó
varias veces para encontrar el número adecuado de árboles máximos para el
modelo RF y de nodos hoja máximos para el modelo CART. Se trata de un paso
esencial, ya que estas cifras tienen un impacto directo en la precisión del modelo.
Además, también puede revelar cuántos nodos hoja es importante implementar
cuando se clasifican dos clases.
Como se observa en la Figura 30, la precisión del modelo CART aumenta con el
número de nodos hoja hasta alcanzar los 300 nodos hoja. A partir de más de 300
nodos hoja, la precisión del modelo es casi constante. Los resultados del modelo RF
mostrados en la Figura 31 revelan que con el aumento del número de árboles también
aumenta la precisión. Por tanto, el número óptimo de árboles aplicado en el modelo
RF de este estudio es de 300 árboles.
Figura 30 - Precisión de los modelos CART con un número diferente de nodos hoja aplicados
Figura 31 - Precisión de los modelos de DR con un número diferente de árboles aplicados
70
5.3 Importancia de los condicionantes
El modelo RF alcanza una mayor precisión en comparación con otros modelos ML
como NB y CART. Por lo tanto, se elige como el modelo ML más apropiado y adecuado
para la predicción de incendios forestales. Este modelo permite medir
cuantitativamente la contribución de cada variable al resultado de la clasificación, lo
que resulta útil para evaluar la importancia de cada variable. La i m p o r t a n c i a d e
las variables se calculó a p a r t i r del conjunto de datos de entrenamiento.
La Figura 32 presenta los factores condicionantes más importantes de los incendios

forestales en la temporada 2019- 2020 utilizando el modelo RF. Las variables más
importantes consideradas como "factores clave" son la humedad y la temperatura del
suelo junto con la sequía. Los factores menos importantes son el aspecto, la ocupación
del suelo y la red eléctrica.
Figura 32 - Análisis de la importancia de las variables según el modelo RF
71
5.4 Modelo predictivo
El modelado predictivo es el concepto general de construcción de un modelo ML
capaz de realizar predicciones. En este estudio, el modelo de RF y el conjunto de datos
de entrenamiento presentan los incendios forestales en Australia durante la
temporada 2019-2020. El mapa de probabilidad se muestra en la Figura 33, donde un
valor bajo presentado por el color verde es un área con la menor probabilidad de
ocurrencia de incendios forestales, mientras que el valor muy alto presentado por el
color rojo representa áreas con la mayor probabilidad de susceptibilidad a incendios
forestales. Las clases de riesgo de incendio mostradas en la Figura 34 se dividen en
cinco clases.
Estos mapas revelan un alto riesgo de incendios concentrado en la zona costera y

principalmente en las zonas del suroeste de Australia. También muestran zonas
propensas a los incendios distribuidas por las regiones costeras del norte.
Figura 33 - Mapa de susceptibilidad al fuego utilizando el modelo RF
72
Figura 34 - El mapa de susceptibilidad al fuego con clases utilizando el modelo RF
73
6. Debate
El capítulo de debate presenta las conclusiones del estudio realizado y evalúa los
posibles puntos fuertes y débiles de los métodos aplicados.
Este estudio se centra, en primer lugar, en una comprensión profunda de cómo se

puede obtener el conjunto de datos de ocurrencia de incendios con el fin de ser
utilizado para los algoritmos ML y predecir la probabilidad de ocurrencia de incendios.
Muchos estudios han utilizado conjuntos de datos FIRMS de 1 km obtenidos a partir
de la observación de la Tierra y que muestran los incendios activos. Sin embargo, este
enfoque de la cartografía de l a o c u r r e n c i a d e i n c e n d i o s proporciona falsas
detecciones, y la resolución espacial también se puede mejorar.
Por lo tanto, este estudio introduce un enfoque innovador y automatizado para la

recogida de muestras de lugares de ocurrencia de incendios en todo el territorio
continental australiano con 10 m de precisión espacial. Las localizaciones FIRMS de
incendios activos con una resolución de 1 km se utilizan como área de interés en la
que se puede calcular la dNBR utilizando los datos del satélite Sentinel-2. Esto mejora
la resolución espacial de las localizaciones FIRMS de incendios activos con una
resolución de 1 km. Esto mejora la resolución espacial de las localizaciones de
incendios activos FIRMS, ya que Sentinel-2 proporciona una resolución espacial de 10
m y reduce el tiempo de cálculo debido a las áreas FIRMS elegidas donde se calcula el
dNBR. Además, el uso de estos dos conjuntos de datos puede r e d u c i r el número de
falsas detecciones de incendios activos, ya que el dNBR puede revelar las zonas de
gravedad de las quemaduras.
Una de las limitaciones de este flujo de trabajo son los periodos de tiempo cortos, no
superiores a 1 mes, ya que pueden dar lugar a resultados sesgados debido a que las
zonas quemadas estarían influidas por los cambios naturales de la vegetación.
Además, este flujo de trabajo como código JavaScript puede ejecutarse en la

plataforma basada en la nube GEE, lo que facilita el acceso a un usuario potencial.
Además, el usuario puede modificar un periodo personalizado (fecha de inicio y fin
de la temporada de incendios) y añadir el área de estudio en formato vectorial o
crear un límite espacial definido como un polígono mediante la herramienta de
dibujo de GEE. La salida CSV del conjunto de datos de entrenamiento se exporta a
Google Drive y puede importarse al código ML para cálculos posteriores.
El segundo objetivo de este estudio es un intento de comparar diferentes enfoques de

74
ML en los que se utiliza el mejor rendimiento del modelo para cartografiar la
probabilidad de ocurrencia de incendios. Se aplicaron los tres algoritmos ML y se
validaron mediante el conjunto de datos de prueba. Los resultados muestran que el
modelo RF tiene el mejor rendimiento, mientras que el modelo NB presenta el peor
rendimiento.
75
Se probó el número de árboles del modelo RF para aumentar la precisión. Resulta que
el modelo con 300 árboles puede lograr el mejor rendimiento. Sin embargo, este
número d e á r b o l e s e n e l modelo podría aumentar cuando s e implementaran
más variables predictivas en el modelo actual. En general, los algoritmos ML en GEE se
pueden procesar sin identificar los números de árboles de los nodos hoja para el
modelo CART debido a los valores predeterminados implementados.
Una ventaja de la RF es su capacidad para manejar variables categóricas, como la

humedad del suelo, el NDVI, la precipitación, etc. Esto permite analizar la importancia
de l a s 15 variables para mostrar la contribución de cada una de ellas. Los resultados
muestran que el factor más importante en la modelización de incendios forestales es
la humedad del suelo. El segundo más importante fue la temperatura y después la
sequía, el GHM y la elevación. La variable peor clasificada en el gráfico de importancia
de variables fue la red eléctrica.
El rendimiento predictivo de los modelos de RF implementados en el presente estudio

es adecuado, ya que la matriz de confusión mostró que sólo 117 muestras de 3250 se
detectaron incorrectamente. Por lo tanto, este modelo se utilizó para mostrar el mapa
de susceptibilidad que muestra la probabilidad espacial de que un área se queme. En
otras palabras, el mapa muestra la probabilidad de que cada píxel arda bajo los
supuestos que se basan en variables condicionantes y que, por lo tanto, le son
específicos. No obstante, los incendios forestales son estructuralmente complejos y
varían mucho en sus atributos físicos. Así pues, la integración de otros factores clave
podría aumentar la complejidad del modelo e incrementar su precisión. La ventaja de
este modelo es que puede incorporar fácilmente distintos factores causales.
Siempre es esencial validar la estabilidad de los modelos ML. En este estudio se utilizó
la validación más común, la técnica de división entrenamiento/prueba. Este enfoque
aporta la ventaja de que se puede ver la respuesta del modelo a datos no vistos
anteriormente. Además, la muestra de prueba se produjo mediante números
aleatorios, lo que debería mitigar el riesgo de sesgo de muestreo.
Este desarrollo presenta las grandes oportunidades de las plataformas GEE utilizadas
para la re-búsqueda debido a la libre disponibilidad de los conjuntos de datos y el
procesamiento de los algoritmos en el entorno de la nube. Por estas razones, no hay
necesidad de descargar, almacenar, procesar y analizar la gran cantidad de datos en
un ordenador local, sin embargo, se requiere la conexión a Internet. Así pues, todo el
76
ámbito del estudio, desde la generación de un conjunto de datos de entrenamiento y
el preprocesamiento de los datos de satélite y el modelo ML entrenado se llevó a cabo
en
77
la potente herramienta GEE basada en la nube en toda el área masiva de interés.
Este análisis con conjuntos de datos espaciosos no sería posible llevarlo a cabo en
un ordenador local.
Por otro lado, también existen limitaciones, como la exportación de los datos
rasterizados con una buena resolución en toda Australia, incluso cuando la zona se
dividió en varias cuadrículas. Además, esta plataforma no es óptima en última
instancia debido a la falta de acceso a estadísticas relativas a la clasificación. Aunque
las numerosas misiones por satélite se presentan en la biblioteca GEE, la mayoría de
ellas proporcionan datos para América o Europa. Sería mejor utilizar más variables
condicionantes referidas a los incendios forestales aplicando diferentes misiones por
satélite que cubran Australia.
Este estudio combina la teledetección, los macrodatos y los algoritmos de minería de

datos y los modelos de aprendizaje de máquinas para manejar los datos recogidos de
imágenes de satélite en grandes áreas y recuperar información de ellos para predecir
la ocurrencia de incendios forestales. Esto se hizo para evitar catástrofes similares
mediante una mejor planificación de las infraestructuras en zonas propensas a
catástrofes. Los actuales sistemas de apoyo a la toma de decisiones pueden utilizar
este modelo predictivo sustituyendo las variables de entrada por información diaria
procedente de las observaciones terrestres. Un conocimiento preciso de la
distribución espacial de las zonas propensas a los incendios puede ser esencial para la
gestión del riesgo de incendios forestales.
78
7. Conclusión
En este capítulo se responde a las preguntas de investigación propuestas.
1 Pregunta de investigación: ¿Cuáles son las principales características de las

Los incendios forestales australianos, ¿obvios a partir de datos de satélite de libre acceso?
Entre los ámbitos de los incendios forestales, es importante ilustrar el análisis

exploratorio de los incendios. El análisis de los incendios forestales en Australia revela
que tanto 2011 como 2012 son los peores años en términos de actividad de incendios
desde 2001 hasta 2019. Sin embargo, los incendios más activos durante los meses de
diciembre y enero de los últimos 10 años se produjeron en el mar- son 2019-2020. Los
datos de incendios obtenidos por satélite también revelan que en 2019 se produjeron
aproximadamente 200 000 incendios menos que en 2017 y 2018.
Además, Australia es cada vez más cálida, según los datos por satélite del conjunto de
datos atmosféricos ERA5, debido al cambio climático. Por lo tanto, si no se toman
medidas de mitigación y preparación, Australia sufrirá más incendios forestales y más
graves en el futuro.
2 Pregunta de investigación: ¿Qué algoritmo ML supera a otros modelos

existentes en GEE para la predicción d e futuros incendios?
El estudio compara los clasificadores ML elegidos disponibles en la plataforma GEE

y recomendados a partir de la revisión bibliográfica. Se aplicaron y compararon los
modelos CART, NB y RF. El análisis de evaluación de la precisión utilizando el
conjunto de datos de prueba independiente mostró que el modelo RF alcanzó el
mejor rendimiento. Obtuvo la mayor precisión global (96%) junto con la estadística
kappa más alta (93%). Los demás modelos obtuvieron una precisión global inferior,
del 93% y el 64% para los modelos CART y NB, respectivamente.
3 Pregunta de investigación: ¿En qué medida están asociados los diversos

factores causales con los lugares de los incendios?
El modelo con mejores resultados, el modelo RF, permite determinar el análisis de la

importancia de las variables. Los resultados del análisis de la importancia de las
79
variables muestran que las más importantes son la humedad del suelo, la temperatura
y la sequía, lo que concuerda con el modelo RF.
80
otros estudios en los que estos factores también desempeñan un papel
importante. Por otro lado, la menor influencia la tuvo la red eléctrica.
En este estudio, se ha creado un modelo basado en datos en la nube con los

conjuntos de datos masivos y accesible a todo el mundo y ejecutable por cualquier
usuario ficticio. Esto difícilmente sería posible en una máquina local. Además, la
aplicación puede convertirse en un sistema de apoyo a la toma de decisiones o en
un sistema de alerta para avisar a los responsables de la toma de decisiones y a las
partes interesadas en caso de condiciones climáticas graves.
7.1 Objetivos de desarrollo sostenible

Estos incendios forestales de gran escala e intensidad son cada vez más
preocupantes, ya que en condiciones meteorológicas desfavorables se vuelven
más extremos. Como resultado, ponen en peligro la vida humana y la propiedad,
pero también liberan partículas y gases contaminantes que contribuyen al cambio
climático global. Todos estos retos de los incendios forestales están relacionados
con algunos de los Objetivos de Desarrollo Sostenible (ODS). Los ODS adoptados en
2015 pretenden equilibrar las necesidades económicas, medioambientales y
sociales [43].
La tecnología mejorada ayuda a alcanzar los ODS de muchas maneras. Así, este estudio
combina la teledetección, los macrodatos, los algoritmos de minería de datos y los
modelos de aprendizaje automático para recopilar datos de imágenes de satélite en
grandes áreas y recuperar información para predecir la incidencia de los incendios
forestales. Esto puede ayudar a evitar desastres similares mediante una mejor
planificación de las infraestructuras en las zonas propensas a los incendios.
Este estudio apoya el desarrollo sostenible en tres objetivos. En primer lugar, el

objetivo número 3 Buena salud y bienestar, ya que el humo de los incendios
forestales contribuye a la contaminación atmosférica e irrita el sistema respiratorio
humano. En segundo lugar, el objetivo número 13, Acción por el clima, se considera
debido a la emisión de dióxido de carbono de los incendios forestales junto con
otros gases de efecto invernadero que aceleran el calentamiento global. Por
último, el objetivo número 15 presenta la Vida en la tierra, a la que se hace
referencia por un impacto masivo de los incendios forestales en la tierra que puede
provocar un declive económico a corto plazo.
81
8. Trabajos futuros
Existe un gran potencial para predecir catástrofes naturales basándose en modelos de
aprendizaje automático con enormes cantidades de conjuntos de datos de buena
calidad procedentes de la teledetección. Este estudio muestra la aplicación del modelo
GEE a los incendios con fines aca- démicos, pero el concepto de predicción puede
aplicarse a otras catástrofes naturales. El modelo de predicción podría sustituir a los
métodos tradicionales utilizados en la actualidad.
Todavía hay varias partes que podrían mejorarse en el futuro. Los modelos de
aprendizaje automático utilizan el conjunto de datos de entrenamiento para aprender
a reconocer patrones y aplicar tecnologías. En este estudio sólo se compararon tres
algoritmos de ML que son adecuados en GEE, pero sería interesante comparar otros
modelos como las redes neuronales, en las que cada neurona se representa como
círculos que están conectados. Este modelo puede aprender, crear relaciones
complejas y hacer predicciones precisas cuando se le presentan nuevos datos.
Además, el modelo puede ajustarse eliminando las variables condicionantes peor

valoradas y ver cómo influiría en el modelo. Por otra parte, la introducción de factores
condicionantes más relevantes podría influir en el modelo. Por lo tanto, también se
sugiere como trabajo futuro comprobar la influencia de la nueva variable
independiente.
Los procesos de validación del ML pueden llevarse a cabo mediante diferentes

técnicas. En este estudio se aplicó el enfoque más común de división de
entrenamiento/prueba. Sin embargo, también pueden aplicarse diferentes técnicas de
validación que aporten diferentes evaluaciones de la eficacia del modelo. Así, en este
estudio pueden aplicarse distintos enfoques de validación, como la validación cruzada
estratificada k-fold o las técnicas de conjuntos de espera.
Por último, pero no por ello menos importante, el modelo de radiofrecuencia

entrenado puede incorporarse con más muestras de entrenamiento, pero de
incendios históricos y no sólo de los incendios forestales ocurridos recientemente.
Esto podría ayudar a afinar el modelo y mejorar su precisión actual.
82
9. Bibliografía
[1] Derek Weber, Mehwish Nasim, Lucia Falzon, Lewis Mitchell, "Arson Emergency
and Australia's "Black Summer": Polarización y desinformación en las redes
sociales", 2020.
[2] CDP, "Center for Disaster Philanthropy, Incendios forestales en Australia 2019-
2020". 17 de febrero, pp. h ttp s :/ / d i s a s terp h i l a n th ro p y. org/disaster/2019-
australian-wildfires/, 2 0 2 0 .
[3] Pei Yu, Shanshan Li, "Bushfires in Australia: a serious health emergency under
climate change", 10 de enero de 2020. [en línea].
[4] Bareau de Meteorología, "Annual clima anual 2019," Australia,

http://www.bom.gov.au/climate/current/annual/aus/, 2020.
[5] I. Gómez-Jiménez, Raúl Romero-Calcerrada, C. J. Novillo, J. D. A. Millington, "GIS

analysis of spatial patterns of human-caused wildfire ignition risk in the SW of
Madrid (Central Spain)", S. S. B. M. B. 20, Ed., Landscape Ecol, 2007, p. 14.
[6] Nathalie Pettoreli, "Satellite remote sensing for conservation", WWF, 2009, p. 125.
[7] Omid Ghorbanzadeh, Khalil Valizadeh Kamran, Thomas Blaschke, Jagannath

Aryal, Spatial Prediction of Wildfire Susceptibility Using Field Survey GPS Data
and Machine Learning Approaches, julio de 2019.
[8] Smaranda Belciug, Florin Gorunescu, "Intelligent Decision Support Systems - A

Journey to Smarter Healthcare", Pitesti, Rumanía, Springer, 2020, p. 157.
[9] F. Sunar, C. Ozkan, "Forest fire analysis with remote sensing data", Remote
Sensing, p. 13, 14 de marzo de 2000.
[10] Guang Xu, Xu Zhong, "Real-time wildfire detection and tracking in Australia using
geostacionary satellite: Himawari-8", Australia, p. 11, 17 de julio de 2017.
[11] S. Jones, K. Reinke, S. Mitchell, F. Mc Conachie y C. Holland, "Advances in the

remote sensing of active fires. Detection, mapping and monitoring v1.0", en
RMIT University, Australia, Detection, mapping and monitoring v1.0, 2017, p. 40.
83
[12] Yifang Ban, Puzhao Zhang, Andrea Nascetti, Alexandre R. Bevington, Michael
A. Wulder, "Near Real-Time Wildfire Progression Monitoring with Sentinel-1 SAR
Time Series and Deep Learning", Nature Nature
Research, www.nature.com/scientificreports, 2020.
[13] ESA, "European Espacio Europea (ESA)," 2020. [En línea].

Disponible: https://sentinel.esa.int/web/sentinel/missions/sentinel-
2/overview.
[14] M. Majidi Nezhad, A. Heydari, L. Fusilli, G. Laneve, "Land Cover Classification by

using Sentinel-2 Images: A case study in the city of Rome", en World Congress on
Civil, Structural, and Environmental Engineering (CSEE'19), Italia, Departamento
de Ingeniería Astronáutica, Eléctrica y Energética (DIAEE), Universidad Sapienza
de Roma Roma, 2019, p. 8.
[15] Carl H. Key, Nathan C. Benson, "Remote sensing of severity, the Normalized Burn
Ratio", en Landscape Assessment (LA), Sampling and Analysis Methods, 2006, p.
56.
[16] A. E. Cocke, P. Z. Fulé, J. E. Crouse, "Comparison of burn severity assessments

using Differenced Normalized Burn Ratio and ground data," Northern Arizona
University, p. 11, 2005.
[17] Allison E. Snyder, Peter Z. Fulé, Joseph E. Crouse, "Comparison of burn severity
assessments using Differenced Normalized Burn Ratio and ground data,"
Northern Arizona University, p. 11, 2005.
[18] FIREMON BR Cheat Sheet, The Normalized Burn Ratio (NBR) - Breve resumen del
procesamiento Pasos, Junio 2004. [En línea].
Disponible:
https://burnseverity.cr.usgs.gov/pdfs/lav4_br_cheatsheet.pdf.
[19] A. Kato, L. M. Moskal, J. Batchelor, A T. Hudak, "A.T. Relationships between

Satellite-Based Spectral Burned Ratios and Terrestrial Laser Scanning", Forests, p.
10, 2019.
[20] B. Huang, T. J.Cova, M. H. Tsou, "Comprehensive Geographic Information

Systems", en GIS methods and techniques, Hong Kong, Elsevier, 2018.
84
[21] Mohd Hasmadi, Pakhriazad HZ, Shahrin MF, Evaluating supervised and
unsupervised techniques for land, Malaysian Journal of Society and Space,
2009.
[22] M. J. Canty, "Análisis de imágenes, clasificación y detección de cambios en

teledetección: Con Algoritmos para Python", en cuarta edición, Estados Unidos,
2019.
[23] GEE, "Clasificación supervisada", Google, 19 de febrero de 2020. [En línea].

Disponible: https://developers.google.com/earth-engine/classification.
[24] L. Pekelis, "Árboles de clasificación y regresión : A Practical Guide for Describing

a Datase", Universidad de Stanford, 2013.
[25] Heidi Spratt, Hyunsu Ju, Allan R. Brasierb, "A structured approach to
predictive modeling of a two-class problem using multidimensional data
sets", https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3661737/, 2013.
[26] Ljubomir Gigović, Hamid Reza Pourghasemi, Siniša Drobnjak, Shibiao Bai , Testing
a New Ensemble Model Based on SVM and Random Forest in Forest
Susceptibility Assessment and Its Mapping in Serbia's Tara National Park,
Aplicaciones de la tecnología de teledetección en silvicultura y REDD, 2019.
[27] Andy Liaw, Matthew Wiener, Clasificación y regresión por bosque aleatorio, R
News, diciembre de 2002.
[28] Allen Downey, Anders Gorm, Anna Lincoln, Arauzo, "Clasificador Naive Bayes".
[29] D. Berrar, "Teorema de Bayes y clasificador Naive Bayes", en Instituto

Tecnológico de Tokio, Tokio, Japón, 2019.
[30] Sofia Visa, Brian Ramsay, Anca Ralescu, Easther Knaap, Confusion Matrix-based
Feature Selection, The 22nd Midwest Artificial Intelligence and Cognitive Science,
USA, 2011.
[31] Maria Antonia Brovelli, Monia Elisa Molinari, Eman Hussein, Jun Chen, Ran Li, The
First Comprehensive Accuracy Assessment of Globe Land 30 at National Level:
Methodology and Results, www.mdpi.com/journal/remotesensing, marzo de
2015.
85
[32] Anthony J. Viera, Joanne M. Garrett, Understanding Interobserver Agreement:
The Kappa Statistic, Research Series, mayo de 2005.
[33] Kim Calders, Inge Jonckheere, Joanne Nightingale, Mikko Vastaranta, "Remote
Sensing Technology Applications in Forestry and REDD+", Basilea, 2020.
[34] Onisimo Mutanga, Lalit Kumar, "Aplicaciones del motor Google Earth",
Teledetección, p. 4, 12 de marzo de 2019.
[35] GEE, "https://earthengine.google.com/faq/," 2019. [En línea].

Disponible: https://earthengine.google.com/faq/.
[36] Lalit Kumar, Onisimo Mutanga, "Google Earth Engine Applications", en la edición
impresa del número especial publicado en Remote Sensing, fireBasel, Suiza, ISBN
978-3-03897-884-8, 2019, p. 422.
[37] Li Huan, Wei Wan, Yu Fang, Siyu Zhu, Xi Chen, Baojian Liu, Yang Hong, "A Google
Earth Engine enabled software for efficiently generating high-quality user ready
Landsat mosaic images", p. 7, 6 de noviembre de 2018.
[38] Williams Robyn, Vandenbeld John, Nature of Australia : a portrait of the island
continent, 1988.
[39] Tufa Dinku, Chris Funk, Pete Peterson, Ross Maidment, Tsegaye Tadesse,
"Validation of the CHIRPS Satellite Rainfall Estimates over Eastern of Africa:
Validation of the CHIRPS Satellite Rainfall Estimates," ADVANCES IN REMOTE
SENSING OF RAINFALL AND SNOWFALL, vol. nternational Research Institute for
Climate, p. 23, 2018.
[40] M. Tarek, François P. Brissette y Richard Arsenault, "Evaluation of the ERA5

reanalysis as a potential reference dataset", en Hydrology and Earth System
Science, EGU, Canadá, 2019.
[41] FIRMS, "https://earthdata.nasa.gov", 25 de febrero de 2020. [En línea].

Disponible: https://earthdata.nasa.gov/faq/firms-faq#ed-modis-fire-size.
[42] Louis Giglio, Wilfrid Schroeder, Joanne V. Hall, Christopher O. Justice, "MODIS
Guía del usuario del producto Collection 6 Active Fire", diciembre de 2018.
86
[43] Objetivos de Desarrollo Sostenible, "TRANSFORMAR NUESTRO MUNDO: EL 2030
AGENDA PARA Sostenible Sostenible Sostenible". UNITED
NACIONES UNIDAS, sustainabledevelopment.un.org.
87
10. Anexo
A. Descripción de la cubierta terrestre
Valor Color Color HEX Descripción

0 282828 Desconocida.
20 FFBB22 Arbustos.
30 FFFF4C Vegetación herbácea.
40 F096FF Vegetación/agricultura cultivada y gestionada.
50 FA0000 Urbano / urbanizado.
60 B4B4B4 Vegetación desnuda / escasa.
70 F0F0F0 Nieve y hielo.
80 0032C8 Masas de agua permanentes.
90 0096A0 Humedal herbáceo.
100 FAE6A0 Musgos y líquenes.
111 58481F Bosque cerrado, hoja de aguja perenne.
112 009900 Bosque cerrado, latifoliado perennifolio.
113 70663E Bosque cerrado, hoja caduca de aguja.
114 00CC00 Bosque cerrado, latifoliado caducifolio.
115 4E751F Bosque cerrado, mixto.
116 007800 Bosque cerrado, no coincide con ninguna de las otras definiciones.
121 666000 Bosque abierto, hoja de aguja perenne.
122 8DB400 Bosque abierto, hoja ancha perenne.
123 8D7400 Bosque abierto, hoja caduca de aguja.
124 A0DC00 Bosque abierto, frondosas caducifolias.
125 929900 Bosque abierto, mixto.
126 648C00 Bosque abierto, que no coincide con ninguna de las otras definiciones.
200 000080 Océanos, mares.
88
B. Modelo de bosque aleatorio
/ /Auchor: Andrew 6u1o+re:

/ / oace : rsb 2020 - Hay 2 02 Q ,
eAx Australia - ee.Psatursoollection('usszs/suiovaanJreaVAustralia Pclygon'J ;
laqport 9tates in ftuxc*alia
19 wxr Quesnelaod - Australia.€ilterEBnadata{"name','equa1s','guoen6land")
wBr iamaania - xustralia.€i1terngiadata('nombre",'igual",'vaseania™)

wmr VicDo*ia - Axscralia.fi1*erBBtada*at'namP','igual",'Victoria'D
16
si eeneeoutJisa1*au - suistralia.Eiltertmetadata{"z.aco=",'equals",'wev &ourh Rales'}
19
J2
ezuc J&uscralia - ee.Psatuzc'Oollectioo('UsDo9fLSl8/2Jl3'D.Iilterl0etadatal'cc','equal6','b*'1

25
// 1 LaodCover
30 // €OP2BRzCU9 IAt¥D OOVER Tarifas ageype 03ass 'tabLe:
4t var mnaav-r w-.msg l-ct*onUcorr.vr az-na- -r .u=ze-urv o: i'i
39 yep LandCower - LandCower.selsot{'discre e_classification'}.mosaic{}.clip{szstzalia} ;
33 snas €laasnau -'<Ra6tecSymboIi:er''t
<Colorxap:cczy color='¥G779e4' juazc:ty='il' labei='l1 - Irriqated czop1ands"/>' +

36 'cColorNapBntzy color='fffd74l' juantity='°0' labe1='2v - Posair Zroplands/Veqetation'/'' +
38 '< olorFapEncry col:r='¥ff*S7f' juanvity="l4' laDel="l4 - Lluvia ccooland '7>' e

"39 '<€olcrnapEnt:y ccl:r='€Of6 3b' quantity='4-3' label='4C - Clcsed t: zpPr. brwa3*eavv evergreen
• uami-d-$Cir1uru1 F'°ro1t'/>' t
<volorwmoar.-*y color="¥D7ef:J' quar.ciiy="5J" label=" ZLzloseJ brwadlaaveJ
de:iduous fcrest'/>'+
En ''E':d-rdapEn--ry c+:UJr='#$4f'-l3' guun'*Py°'t.' laba]°'6F - Op'Bn bruadluavod -au,dC-:%v
bosque'/)' 4
â2 'C-olormapEn:*y color='€75b79e' quan:ity='70' lahel='70 - Closed r.eed1eleawea evergreen
t4
y naedleleava.1 r.aresc ' >' +
45 '<€olcrnapEot:y cclor='fO0bdaa' juantity='il0' lalie2='iiC
K''ro1i--Sh*wb;-n']/?.la:-l.in'4"/>' +
'<-:olorFmoxr.-*y' color="€ SiSJ4J' guar.clay=" :£O' laEei=": O
Gra6alan3/8o:est-5hzñbland'/J'
48 '4 alorFaoZr:ry' co,or='€ffc39b' quan:izy="i4O' label=" i 4u Pastizal cerrado a abierto'7>' +

49 'n-olormapfnt*y color='#fi?7cd' quantity.='i50' lahe2=' I 5P Vegetación de reserva'/>' +
50
''colorMapzntiy co "or='#bhd=dC' juantity='l7D' - cerrado broa3leaved torest
u'lossd co abierto wsgetacron

sz '<colorNapSncry col:r='f3Oe4:a' juan:ity="i9O' laoei="
190 repulazly Sic:del'/'' +
'*?..D.rFte/Cr.try w'+'F'' O -4*4*' , 4r.'t#Y'"?*J' Qare areas"/'' +
'<-:olorFmoxr.-*y' color="8e3fd[h' juar.ciiy="2.)O'
<C:iornap£n:iy cozcr='¥3f7°a£' quantity=' 0' laDeZ=' 10 - Water boJies'/>' e
'<cwlorwmpzr-ry o,oz='#^52a34' quan:iiy='230' laLeZ=' No daca'/'' +

'*/Tr.lcr)Mapl' +
89
.:':' var srtm - ee.Image(":.' ' 'R: ...
var s:tm - sr:m.clip(Australia)
':£. Var slopt - ee.Terrain.slope(elevation):

var aspect =
ee.terrain.aspectlelevation};
.'. va* oaletie - [':' ,' .......,

Nap.adcìLelevat on, (cir,: max: .,palet:e: paIet:e},
var palette -['...:''.-'.':-,'.:..-'.',''''-.: ,'.'.:'.:-']'''.

"' Mag.addLayerl6lope, [min: :, max: pale: pale:teD, "'':' :':, -'
- var palette - {':':.'-:':' ,'-. ,

-4 Mapa.addoayerlaspect, (min: , man: paleta: paleta), '
'': rec.' ìa:ì.::: W:*ì:ir.: '= quien. ,'.:j:-:"=:'cu o.ì:r. iaC

'-.: var dataNeC - ee.ImageLcl.ection("w.'. -'
Sqvar u a Lo Vis - ( min: '., max: ,

''}}
var p=p_ioum - pop_J'3om- sa>cl}. iplauwc&a1ie)
May.addLayorlpop_i00u,pcpulacionVis, ::-': := : .'
var road_shp - ee.FeatureCel'ec:ion("

var roa4 ìmg - ee.lmage().todyte().paint(road,ahp, .}:
-wr r<e_r,=_im9 - 'oaa_i .unm- lu wl 1
Var rumulativeCost_rcat - ee.Imagel:*.ctanulative est l{s:urre: road_nu_issg, maxDistance:
'-'Nap.addLayerlc' u l a :iieCo6c carretera caip, {mir.: ., man: ,
Mag.addLayorlzuad_img,lmin: .., max: :, pale:tr:
.reocoject(ee.Project5on(':.:.='.:: '. '}.a:Scale(: 'i));

var Cos: carretera ìbm - Co6t rcad león.ummaak(:ó .*.cliplAusc:aiia}
var ele_line - ee.PeatureCulIeccion("-..:... '...' '.. :'. ':...'''..." ri-'.: -.:'' .: :

var eie img - be.]mage()..oByte().paintleLe line, :}.cl,plAus ralia);
var paleta2 - [' :'.":."' ' . ':.. <''.:' )

Nag.add1ayer lele L-og,(min: , nam : : , pa=et:e : palet:e D . ' -:. ' -' ..'
./?mp.addLayerlEle_Line. ¡{min! , maz:

', ' paleta: pale teZ),
var oaletre_GHH - [' . - ,': . ,'. ,'

Nap.addLayerlGNM inóex, (mìr,:^, max: , paie:te:paIet:e,€MM}, -
'
Li var dataaeC - ee.ImageCollec:ion('
var ndvi - dacaset selectl'!.""'-) mean(D.clìplAus::alia}.':

q!var ndvi7ì6 - { min: , max: ,
90
v*- # va *-- - m*-[.we*Coll*C:i''o('!''.'''}-
fil:erlee.Fi1ter.eq('
var 6oi*Pepth - datase:.selectl" l.mcsaic(l .clip(Austral:at;
palerte: f'... , . ':':', '. ',

Map.add1aye:l6cilDepth, soilDep:hV,s, '::'.
. '*=.1i:4.a-.= %.1s:'=?=::'.: ai''i !:'.Si:'J:ss :'.'::e :::e.

var va - ee.lmageCollectiwnl':' -:
i-{ va* vs - vs.selecCl'' '-).reJuce(ee.Reducer.aean(*).clip(Rustralia):

-i var vsVis - ( min:..' ',max: :',palette: I' -) '' ','". ", ' -' '..v. ','
.[iltez(ee.Pilte:.öate('' .: . 'l};
var :e: ' man - temp max.selectl -'. ''}.reducelee.Aeducer.mean(1).cl plAus:ralia};
palecte: ['r' 7'. .: '. '.

Map.addLayerl:enp,max, voVis, '\':: ' "
:: ::'.uj.o: J=.-:-'ic\' Ir.:ie*.

var Drough: Palmer- ee.ImageColiec:ion('...'/
-i1°*-l e W'l:O -d :Ol I:
var Drought_Index - Drwught_Palmer.Seltut('::.: ::'D.reduce(ee.Redu:er.meanl})
.clip(Au6tral a):
.7v*r DD 'v$hVi" - l miM:-.:'.'" ,maH. ,
oalette: f' - ' ' ,' . ' ,'
.l Map.add1aye:lnrough:,Index, LroughVi&, ' .. .. .:- -
i= -:'e i;zi.s=i.:f: c:'i'|u*a.is!:

var Precip:ta:ion- ee.2mageUollectzor('..:.''':: ''':-':'-'..
var P:ecipita:ion - Frecioitation.salectl':: 'D.:educe(ee.Redu:er.meanl}).cli:(AustzaliaD:

-" vac Prec ipö 1 S I xtan : " , oia x "i
Map.addLayerlPreripita:ion, Pre:ipYIs, ' ':'.-:' :' :-'
.- . va* SoiI_x=is e ee soage l (yr.l'.I --.' .r '^ '. '. . ')

l e com
ió
palet e: [':-':::-':':: ,'':..'...'.,:''.'
var merge - LaadLover.addBandslelevat*on}.addBand6Csiopel .addBandslaspect}

. "dB*nu 'r, _inu-x .-.au8a,d=(¿° _i'"-i.aauB "a-(swii_r-i -=--i
.atdBands( osr_coad_ikn}.atdBands(E'e_Line).addBandslndvz)
.addBands(soilDep:h).add8ands(vs).aÖdBands(temp man).adiBandslDroug2: "1ndex)
'';? <var fusión - fusión.selecFl{'.'''. :..' :', '- :', ' :: :.:.',
91
var point - ee.FeatureCollection(" - - 'c '-- ' ,-: ")
v-r activ-_fir-_point - point.filt-rI4ot*dot*("' , ,

Map.addLayer lactive_fire_paint, lcolor:' : : - ,size: . t, ' - J;
var no_fire_point - point.filterRetadata("- -"," .. ", ) Hap.-ddL-
ymr(No_1irm_point, tcolor: ,cizm: }, '.
".4
prin:(poin:.tamaño(}D
'' S c{:'?e *.ne ir.'at -oager\'*: jet a Peatu:e'Z:llect::.:'' .ž *rainii:g :a::a. var
classifierTraining - merge.$amp1eRegionz(
{ co 11 - c c i on : P° i ri I , pr c'po r c i - s : ( ' ' I):
(características:clasificadorEntrenamiento,
classProperty:' ',inputProperties: bandst);
-.E var classification - merge.classify(RF_classifier):
- iMap . addI.-ye r t c 1aa a i I i cv c i on , I cv n : , aax :

paleta: {' ':'-' ', ':-.')),'
var RF_C 1aa a c 1 I i er - -e . C1- s c i 11 - r . azo11eRandomFo r-s c ( )

-- .setOutpurMode('- ').train(classifierTraining, .--'- "):
ver RF_C 1s s s_Pr'o- n- rq- . c1ss s i fi y I R fi_C I ass s i fi in r I ;

?.4
- !Map.addLayer(AF_Classs_Ero, fmin: , max: ,
' pa fee t- : [ ' ',' :'J),' . ):
p rint (c1as s z Ci er7ra in1nq . si ze ( ) )
var c1aSzification_REG - merge.classify(clasoifier_REG);

-,xap.addLayer(classification_REG, (min: , max: ,
':''' -
'; var prueba_clasificación - clasificadorformación.clasificar(RF_clasificador)
-:- var confusionMatrix -test_classification.errorMatrix(''- '.','
var ccn I ue1onfi'ta t r i x1r ray- -e . Fm- tu r- (rtu11 . (ma c r x : con I us i onJ'ta c r 1x . ar r ay ( ) ) ) : J '
px1nt ( ' : :. - : ' . -- - :." - z t. '-:-" - : :-: . '., con£us lonNacr ixnxxay) :
;. v*r ovmrhccuracy - m-.F-aturo(null, fm-trix: confumi:matrix.accuracy()}); i

print('::' : . . ' ', sobreprecisión
4
. -- 'I var kapp- - -e . F-a ture (edu11, ( ma c r i x : c onI us i cnHa t r i x . Xapp- (1 ) ):
243 var split - ; ...? tratr.inJ, }'.'a ies 'ir.j.

v*r cl-ccifi-rTrmining- clocmifi-rTralning.r-ndom€olumn(t:
-I : var entrenado - classi[ierEntrenamiento.filtro ', split));
lee.Filtro.lt('. ;:
var :est - classifierTraining.filter(ee.Filter.gtet' dividir)t ;
printt'' , trminod.zizmt))
-?i print(''' - - - ' :--': -' .':-- , tes:.size())
' var cl-*miIi-r_troin-d - o-.Cl-aoi1i-r.smi1-RandomFor-zt(. ).train

((características:formado,
clasePropiedad:'' '. ,
i npu t Pr cp- r E i ea : bandas ) ) :
var test_classifiration - test.c1azuify(cla&sifier_trained)

var confucionMmtrix -toxt_cl-ccific-tion.-rrorM-trix(' ,'
.4 var confusionMat*ixArray - ee.feature(null, tmatrix: confuaionMatrix.arraytt)):

92
o i nt I ' ¡! ' ' . con fua i onf4at r i xAr raw :
93
/-" van ove-Accuracy - ee.reacure(null, {matrix: consusionxatriz.accuracyl}l;;
'%. prin:{'..". "' .. ".::.. ', overAccuracyl
var kapoa - et.IeaturelnulI, {satriz! conlusionxatcis.kappa(}{l:

print(' ' , kappal
prin:{ -." ' ,RF_?laszsi?ier_e*pia5nD :

var varzabIe_ i:nportance - ee.feature lnull, ee.tic:ionary(RR ,?%as6ai[ier ,explainl
g°r *- ::- '} l ;
' .: var chart u^.Char:. feature.DyDroper:y lvariabie importancia} . 6ettaartZype l' '' .' : :.
leqend: lposit-on: '!:'.:'.'},

hAxis: {:itle : ' l,
Yar PrO -''' .:.' '' '.''''. ...i ' '
¡var :egend - ui.°anelllstyle: lposition! ":d- -'''. ...',acolchado'

-' var .egendtitle - ui.Label {{value : ' '' .''' : ': '.'',s:yle: llontHeight:
leQend.addllegendTitle}.-
paling: ', margin: '''}{;:

var descriptionui .Label({value: name,styie: {margin: '+
'. .' 'nombres var - [' t.'y . '. .'. ',' . '. ,
legent.aJdlRcv[paleta[:l, nombres(i]}l
:} Nap.add(legerdl :
-'.var mapbtyle - [
{ele:bentType: : -': : : r. ' '.. , s:yleEs: lluolor: ':. '}1},

:':. [elementType: -', atylers: [{color: ".''." ' '}] D,
estilizadores:
[Seatuzet pe: }{color: '-
'IJj,
( :fiea t u c eZ-,'pe '.:.. ,elesentType:
:
stylersr }Ccclor: -.' -. -.'-'}1l,
94
95

Incendios Mediante Naive Bayes Es

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Incendios Mediante Naive Bayes Es

Uploaded by

Copyright:

Available Formats

Suscríbete a DeepL Pro para poder traducir archivos de mayor tamaño.

Más información disponible en www.DeepL.com/pro.

Análisis exploratorio de los incendios forestales

Universidad de Aalborg, Copenhague

Máster en Geoinformática, Instituto de

Palabras clave: teledetección, incendios forestales, Australia, gravedad de los

Autor: Andrea Sulova

Interfaz de programación de aplicaciones API

En la actualidad, el riesgo de catástrofes provocadas por incendios forestales está

La teledetección por satélite se ha convertido en una herramienta habitual para el

Sin embargo, recientemente, los enfoques de ML han progresado rápidamente y han

Además, esta tesis pretende evaluar un conjunto de variables causales, es decir,

Un conjunto de datos de entrenamiento en algoritmos de ML es una entrada esencial

1.1 Planteamiento del problema y preguntas de investigación

El objetivo de este estudio es utilizar algoritmos de ML para predecir la susceptibilidad

1) Pregunta de investigación: ¿Cuáles son las principales características de

2) Pregunta de investigación: ¿Qué algoritmo ML supera a otros modelos

3) Pregunta de investigación: ¿En qué medida están asociados los distintos

La estructura de la tesis se divide en los ocho capítulos siguientes:

El capítulo de Introducción está dedicado a proporcionar al lector la motivación de la

El capítulo Antecedentes y teoría ofrece una visión general de la aplicación de la

En el capítulo dedicado al análisis exploratorio de datos se investigan los incendios

El capítulo Metodología contiene tres subcapítulos. El primer subcapítulo se titula

En el primer subcapítulo del capítulo Resultados, se presentan los resultados de un

El capítulo "Debate" es la continuación del capítulo "Resultados" e incluye un

El capítulo de conclusiones responde a las preguntas de la investigación y presenta

2.1 Aplicación de la teledetección a los incendios forestales

Guang Hu [10] ha demostrado el potencial del uso de datos de satélites

La figura 1 presenta la comparación de la radiancia con la longitud de onda respectiva

Normalmente, el humo generado no interrumpe la adquisición de datos

Los satélites Sentinel-1, de radar activo, y Sentinel-2, óptico, de la Agencia Espacial

La investigación anterior muestra que las series temporales de Sentinel-1, en

La resolución espacial varía de 10 m a 60 m en función de la banda espectral y la

El Ratio Normalizado de Quemado (NBR) ayuda a identificar zonas quemadas

Figura 3 - Contraste de la curva de respuesta espectral de la vegetación sana y las zonas

En general, la diferencia entre la respuesta espectral de la vegetación sana y la de

𝛥𝑁𝐵𝑅 = 𝑃𝑟𝑒𝑓𝑖𝑟𝑒 𝑁𝐵𝑅 - 𝑃𝑜𝑠𝑡𝑓𝑟𝑖𝑒 𝑁𝐵𝑅 (2)

∆NBR Quemado Gravedad

Tabla 1 - Categorías de gravedad de las quemaduras basadas en ∆𝑁𝐵𝑅 según el USGS

2.4 Algoritmos de aprendizaje automático

Uno de los principales objetivos de la observación de la Tierra es interpretar los

La clasificación no supervisada agrupa los píxeles con las características espectrales

El algoritmo puede mejorar gradualmente en función del conjunto de datos de

Es importante comprender completamente la teoría del algoritmo ML para seleccionar

En las secciones siguientes se describen los algoritmos supervisados CART, NB y RF

2.4.1 Árbol de clasificación y regresión

El método CART construye modelos de regresión o clasificación en forma de árbol, que

El algoritmo RF construye muchos árboles de clasificación durante el periodo de

Figura 4 - Un ejemplo de la estructura de los árboles de clasificación RF

P (A|B) = La probabilidad de que A sea cierto dado que B es cierto

Figura 5 - Teorema de Bayes

En la teoría de la probabilidad y la estadística, el teorema de Bayes es la probabilidad

2.5 Teoría de la evaluación de la precisión

Verdadero positivo cuando un modelo predice algo

Figura 6 - Matriz de confusión

La precisión global se define como el porcentaje de resultados correctamente

Tabla 2 - Interpretación del valor Kappa según Cohen (1977)

2.6 Análisis de la importancia de las variables

El rendimiento del modelo es su función clave, pero es igual de importante

En este trabajo se emplea tecnología punta, que se presenta en el apartado siguiente.

Motor Google Earth

El predominio de la plataforma GEE se debe sobre todo al manejo de enormes

Se puede acceder a la ejecución de algoritmos personalizados a través de la interfaz