You are on page 1of 82

Modelos de distribución de especies

aplicados a estudios de flora amenazada:


Prácticas

Blas Benito de Pando


blasbp@ugr.es
Unidad de Conservación Vegetal
Departamento de Botánica
Universidad de Granada
Esquema de trabajo general
SECCIÓN 1
El entorno de trabajo
Programas necesarios

Herramientas principales
GRASS
OpenModeller
Herramientas de apoyo
Octave
Calc
Notepad++
Google Earth
SECCIÓN 2
Preparación de las
variables ambientales
Esquema de trabajo
Conceptos importantes en GRASS

BASE DE DATOS
Directorio de trabajo
LOCATION
Área geográfica y sistema
de referencia
MAPSET
Conjunto de mapas
MASK
Área de cálculo
REGION
Resolución y límites
geográficos
Creación de la base de datos de GRASS
(2.1.1)
BASE DE DATOS
C:/CURSO_MODELOS/GEODATOS/GRASSDB

ALMERIA_latlong ALMERIA_utm
latitud-longitud UTM
datum WGS84 datum WGS84
EPSG code = 4326 EPSG code = 32630
opción 5: Usen in
Spain (except
Northwest)
El interfaz de GRASS
Preparación de la región de trabajo (2.1.3)

Objetivos:
Definir un área y una resolución de trabajo
Tareas
Establecer resolución
Descargar e importar a GRASS un archivo vectorial
con los límites provinciales de Almería
Definir la extensión de la región de trabajo según
los límites geográficos de la provincia de Almería
Preparación del modelo de elevaciones
(2.2)
Objetivos:
Obtener un modelo de elevaciones de alta
resolución de la región de trabajo
Tareas:
Descargar el modelo de elevaciones (2.2.1)
Importarlo a la base de datos de GRASS (2.2.2)
Visualizarlo en la ventana de mapas de GRASS
Creación de una máscara (2.3)
Variables topográficas I (2.4.1)
Variables topográficas II (2.4.2 - 2.4.5)
Teledetección (Landsat)
Interfaz de descarga de imágenes de del programa Image 2000
Bandas Landsat
Importación y procesamiento de las
bandas Landsat (2.5.1)
Objetivos:
Preparar un conjunto de imágenes satélite
Tareas:
Descomprimir los paquetes con las capas
Importarlas a GRASS
Unir las parejas de imágenes
Borrar los mapas sobrantes
NDVI (2.5.2)
Precipitación (2.6.1)

Estaciones pluviométricas
y precipitación del mes
más húmedo
Temperatura (2.6.2)
Correlación espacial (2.7)

Las variables correlacionadas aportan información


redundante a los modelos de distribución
Es necesario analizar la correlación entre variables y
establecer un umbral de correlación máxima.
Seleccionar variables de interpretación más intuitiva.
Análisis de Componentes Principales
(2.8)

Técnica de reducción del número de variables


correlacionadas.
Transforma las variables en componentes.
Es difícil interpretar biológicamente la importancia de
los componentes.
Habitualmente aplicado a imágenes satélite.
Cambio en la resolución de variables

Lo hacemos para ahorrar tiempo, o cuando


trabajamos sobre áreas muy extensas, para reducir el
número de celdas de las capas.
Disminuir la resolución de las variables implica una
pérdida de potencia de los modelos de distribución.
Las relaciones entre los valores de las variables y la
idoneidad del hábitat se distorsionan.
Algoritmos de interpolación para
cambios en la resolución
Problema de no coincidencia de valores

Valor real de pendiente = 5º


Valor real de temperatura = 16.1ºC
Cambiando resoluciones (2.9.2)

Objetivo:
Obtener una versión de baja resolución (1000m) de
cada una de las variables generadas
Tareas:
Cambiar la resolución de trabajo a la deseada: de
0:00:03 a 0:00:30
Remuestrear los mapas a la nueva resolución
Exportación de las variables ambientales
(2.10)
Objetivo:
Preparar las variables en un formato que
OpenModeller pueda leer
Tareas:
Exportar una sola variable para aprender cómo se
hace
Ejecutar un guión para automatizar la exportación
de todas las variables
Clasificación de las variables
ambientales
Variables Importancia
ambientales biológica
Índice topográfico de humedad Gradientes de recursos
Orientación recursos y energía de
Pendiente (EO) consumo directo

Posición topográfica Gradientes directos


Radiación solar (invierno y importancia fisiológica
verano)
Temperatura media anual Gradientes indirectos
Precipitación (máxima y mínima sin importancia fisiológica,
mensual) pero correlacionados con
combinaciones de los
Componentes Landsat anteriores
Principio de la relativa constancia de
ubicación
Las especies tienden a compensar diferencias
regionales en las condiciones climáticas cambiando
su situación topográfica para seleccionar micronichos
idóneos (Walter y Walter 1953)
Consecuencia: Un modelo calibrado solo con
gradientes indirectos no puede aplicarse a otro área
geográfica sin errores significativos, porque la misma
posición topográfica en ambas áreas corresponde a
distintas combinaciones de gradientes de recursos o
directos.
SECCIÓN 3
Preparación de los
registros de presencia
Origen y calidad de los datos de
presencia

Origen de los registros de presencia:


GPS (muestreo sistemático y cita casual)
Polígonos o puntos sobre ortoimagen
Marcas a mano sobre mapa
Cuadrículas UTM (1x1, 10x10)
Topónimos
Tamaño de muestra y densidad
Tamaño de muestra mínimo: en torno a 10 registros;
depende de lo coherente que sea la señal ecológica
que aporte.
Tamaño de muestra óptimo: > 30
Densidad de los registros equilibrada
Preparación de registros de presencia
para OpenModeller (3.5)
Objetivos:
Generar un fichero de presencias de una especie
amenazada a partir de registros de GPS, para
calibrar modelos con OpenModeller
Tareas:
Preparar los datos en una hoja de cálculo según el
formato requerido
Partir aleatoriamente los datos en dos grupos, uno
para calibrado (60% de puntos) y otro para
evaluación (40% de puntos)
SECCIÓN 4
Modelos de distribución
con OpenModeller
OpenModeller

Interfaz gráfico de OpenModeller


Preparación de las variables (4.1)

Objetivo:
Preparar conjuntos de variables para calibrar
modelos en OpenModeller
Tareas:
Preparar conjunto de variables de 1000m
Preparar conjunto de variables de 90m
Ejecución de un experimento de prueba
(4.2)
Objetivo:
Generar modelos de baja resolución con
OpenModeller
Tareas:
Preparar el experimento con los datos requeridos
en el tutorial
Ejecutar el experimento y observar los modelos
resultantes
Bioclim

Envuelta bioclimática
cuadrangular
Óptima
[m-c*s, m+c*s]
m = media
c = % desviación
s = desviación
Subóptima
[max, min]
Climate Space Model

Basado en el Análisis de
Componentes Principales
La información disponible
acerca de su
funcionamiento es
limitada y confusa
Envelope Score

Similar a Bioclim
Envueltas bioclimáticas
cuadrangulares definidas
según los valores máximo y
mínimo de las presencias
(envuelta subóptima de
Bioclim)
P = nº de variables que
cumplen el criterio / nº total
de variables
Environmental Distance (I)
Métricas de distancia ecológica (similaridad)

tiene en cuenta la correlación


entre variables. Cuanto mayor
es la correlación, más se
aproxima a la Euclídea
Environmental Distance (II)
GARP (I)
Genetic Algorithm for Rule set Prediction
Inteligencia artificial basada en algoritmos genéticos:
concepto de selección natural
Reglas
atómica
rango
regresión logística
envuelta bioclimática
envuelta bioclimática inversa
Proceso iterativo no determinista (mutación
estocástica)
GARP (II)
GARP (III)
Support Vector Machines (I)
Inteligencia artificial
Clasificación en espacios n-dimensionales
Separación de conjuntos mediante hiperplanos
Criterio de selección según distancia al hiperplano
Support Vector Machines (II)
Consideraciones sobre los resultados

Conclusiones previas Cuestiones...


multiplicidad de ¿cuál es el mejor
algoritmos y algoritmo?
resultados ¿qué representan los
modelos binarios y modelos continuos?
continuos ¿son mejores los
áreas de presencia modelos continuos, o
muy extensas los binarios?

¿Mas conclusiones previas y cuestiones?


SECCIÓN 5
Evaluación de modelos de
distribución
Empezando por lo más simple

Sensibilidad:
proporción de aciertos
Error de omisión (falso
negativo): presencia
clasificada como
ausencia
Error de comisión y sobreajuste

Modelos a) y b) tienen igual sensibilidad, pero:


a) sobreestima presencia potencial: error de comisión
b) muestra sobreajuste sobre localidades de presencia
Caso práctico pág. 44: Calculo de
sensibilidad en modelos binarios
Preparar experimento con los modelos Bioclim, y GARP
(ambas “single run”)
Examina visualmente los resultados: ¿puedes valorar la
sensibilidad de los modelos?
OpenModeller llama accuracy a la sensibilidad, y la mide en
porcentaje de aciertos.
Celdas aptas: porcentaje del territorio de presencia potencial

modelo sensibilidad omisión celdas aptas (%)


BIOCLIM 1 0 27.32
GARP desktop 0.98 0.02 46.23
GARP openmodeller 0.88 0.12 19.82

NOTA: al finalizar este caso práctico, poner en ejecución los modelos continuos de
alta resolución para siguientes apartados
Complicándolo un poco más: Partición
aleatoria de datos de presencia
División al azar del conjunto de presencias en dos grupos:
calibrado y evaluación.

SENSIBILIDAD = 1 SENSIBILIDAD = 0
Caso práctico pág. 45: Evaluación
mediante partición aleatoria de datos
Tareas:
Importación de modelos a GRASS
Transformación de los valores de los modelos
Importación de los puntos de evaluación a GRASS
Consulta de los valores de los puntos de evaluación
sobre los tres modelos
Cálculo de la sensibilidad en Calc
sensibilidad sensibilidad
modelo aciertos celdas aptas (%)
(evaluación) (calibrado)
BIOCLIM 63 0.84 1 23.66
GARP desktop 70 0.93 0.99 38.94
GARP openmodeller 62 0.83 0.86 13.40
Registros de ausencia y matriz de
confusión (I)
¿Cómo se identifica el error de comisión?: una posibilidad, los
registros de ausencia.
Un ejemplo: tres modelos calibrados con los mismos datos de
presencia y ausencia.

Al incluir ausencias aparece un nuevo tipo de error: clasificar


como presencia un registro de ausencia (error de comisión).
Registros de ausencia y matriz de
confusión (II)
Los aciertos y errores se tabulan en una matriz de
confusión:
Datos reales
(registros de presencia
y ausencia)
presencia ausencia
Datos simulados presencia A B
(modelo de distribución) ausencia C D

A: presencias correctamente clasificadas


D: ausencias correctamente clasificadas
B: ausencias erróneamente clasificadas
C: presencias erróneamente clasificadas
N: A + B + C + D
Registros de ausencia y matriz de
confusión (III)
Medidas de evaluación derivadas de la matriz de
confusión:
Sensibilidad = (A / (A + C))
Especificidad = (D / (B + D))
Kappa:

[(A + D) - (((A + C) (A + B) + (B + D) (C + D)) / N)]


K=
[N – (((A + C) (A + B) + (B + D) (C + D)) / N)]
Registros de ausencia y matriz de
confusión (IV)

modelo sensibilidad especificidad kappa


a 1 0 0
b 0 1 0
c 0.6 0.8 0.4
Caso práctico pág. 51: Evaluación
mediante partición aleatoria de datos y
registros de ausencia
Tareas:
Importar registros de ausencia a GRASS
Crear archivo vectorial a partir de las ausencias
Consultar los valores de las presencias y las
ausencias sobre los modelos
Calcular las medidas de evaluación de los modelos
Puntos aleatorios como sustitutos de las
ausencias (I)
Las ausencias pueden ser reales, aparentes, temporales,
y se basan en un criterio subjetivo. Este criterio condiciona
los valores de la matriz de confusión.
Los puntos aleatorios pueden sustituir a las ausencias sin
desventajas conceptuales ni subjetivas. Pero también
presentan problemas:

grupo aleatorios sensibilidad especificidad kappa


A 0.6 0 -0.4
B 0.6 1 0.6
Puntos aleatorios como sustitutos de las
ausencias (II)
Una solución consiste en generar multitud de puntos
aleatorios y calcular los índices de evaluación muchas
veces utilizando cada vez distintos grupos de puntos
aleatorios.
Caso práctico pág. 55: Evaluación
mediante partición aleatoria de datos y
puntos aleatorios

Tareas
Generar puntos aleatorios
Consultar los valores de los puntos aleatorios sobre
los modelos
Preparar los datos para introducirlos en Octave
Calcular índices de evaluación utilizando el
programa KAPPA.m en Octave
Evaluación de modelos continuos: La
curva ROC (I)

NOTA: 1-especificidad = fracción de falsos positivos (error de comisión)


Evaluación de modelos continuos: La
curva ROC (II)

La representación gráfica de
los pares sensibilidad vs. 1-
especificidad proporciona
una curva ROC.
El área bajo la curva (AUC)
indica la probabilidad de que
el modelo, ante una pareja
AUC = 0.74
de puntos de presencia y
ausencia seleccionadas al
azar, clasifique la presencia
con un valor de idoneidad
mayor que el de la ausencia.
Caso práctico pág. 63: Cálculo de la
curva ROC
Tareas:
Preparar archivos vectoriales de presencias y
aleatorios
Importar los modelos continuos de alta resolución a
GRASS
Consultar los valores de las presencias y los puntos
aleatorios sobre los modelos
Preparar los datos para introducirlos en Octave
Calcular AUC con el programa AUC.m en Octave
SECCIÓN 6
Transformación de
modelos continuos en
binarios
Transformación de modelos continuos en
binarios
Algunas aplicaciones de modelos de distribución
funcionan mejor con modelos binarios (reservas de
flora, cartografías...)
Es necesario establecer un criterio: se selecciona un
valor de idoneidad del modelo, por encima del cual se
considera el área apta para la presencia de la planta.
Este criterio será distinto según la aplicación a la que
está destinada el modelo.
Dos criterios sencillos pero muy efectivos:
valor medio de los registros de evaluación
valor medio menos desviación estándar de los
registros de evaluación
Diferencias entre los criterios

criterio b) reduce omisión un 15%, pero incrementa el área apta un 861%


Caso práctico pág. 69: Transformación
de un modelo continuo en binario
Tareas:
Recodificar los valores del modelo continuo con
mejor AUC según los valores obtenidos en el
fichero de resultados RESULTADOS_AUC.txt
SECCIÓN 7
Aplicaciones prácticas de
los modelos de
distribución
Cartografía de poblaciones (7.1)

Objetivos:
Calcular superficie potencial de Linaria nigricans
Obtener cartografía a escala de reconocimiento
Obtener cartografía a escala de detalle
Comparación del resultado con una cartografía real
Tareas
Medir área potencial del modelo binario
Vectorizar modelo binario para obtener cartografía a escala
de detalle
Eliminar ruido del modelo binario para obtener cartografía a
escala de reconocimiento
Comparación visual del resultado con datos reales
Cartografía de poblaciones

Algunas consideraciones:
Los resultados tienen una buena relación coste-beneficio
El área de presencia potencial es mayor que el área de
presencia real
Cuanto mayor es la resolución, mejor será el resultado
Búsqueda de nuevas poblaciones (7.2)

Objetivos:
Obtener un mapa de presencia potencial para localizar
poblaciones desconocidas de una planta amenazada
Tareas:
Generar un mapa de distancias a las poblaciones conocidas
Importar todos los modelos continuos a GRASS
Transformarlos en binarios según un criterio relajado
Ensamblar los modelos mediante suma
Aplicación del criterio de distancia
Visualización del resultado
Búsqueda de nuevas poblaciones

Una estrategia para mejorar el modelo es realimentarlo con los


resultados de la búsqueda
El ensamblado de modelos se considera una técnica predictiva
robusta
Ensamblado de biodiversidad para asistir
en el diseño de reservas de flora (7.3)
Objetivos:
Obtener un mapa de biodiversidad útil como base
para diseñar una red de reservas de flora
Tareas:
Preparar 225 modelos de especies
Preparar y ejecutar un guión de GRASS para
procesado masivo de modelos
Comparar la biodiversidad real con la biodiversidad
aparente
Ensamblado de biodiversidad para asistir
en el diseño de reservas de flora

Los datos de presencia real (a) ofrecen una imagen incompleta


El modelo de biodiversidad potencial (b) probablemente es más
acorde a la realidad.
El modelo de idoneidad (c) ofrece una visual interesante de la
distribución potencial de la biodiversidad
Los modelos no hacen milagros: si los datos de partida están
muy sesgados, el resultado también lo estará
Evaluación del impacto del cambio
climático en la distribución de las
especies (7.4)
Evaluación del impacto del cambio
climático en la distribución de las
especies
Los escenarios climáticos regionalizados pueden
combinarse con modelos de distribución para predecir
la distribución potencial futura de las especies
La Fundación para la Investigación del Clima (FIC) y
la Agencia Estatal de Meteorología (AEMET) han
preparado escenarios regionalizados para estudios de
impacto del cambio del clima en España.
Es importante entender la cascada de incertidumbres
que afecta a estas proyecciones
Evaluación del impacto del cambio
climático en la distribución de las
especies
Objetivos:
Generar y analizar modelos de alta resolución de
distribución actual y futura (2055-2070) de una especie
utilizando un escenario de cambio climático regionalizado
(CGCM2-A2)
Tareas:
Elaborar un modelo de distribución actual y proyectarlo a las
condiciones futuras
Mapear las distribuciones potenciales actual y futura
Encontrar los frentes de avance y retroceso de las
poblaciones
Evaluación del impacto del cambio
climático en la distribución de las
especies

Los resultados deben interpretarse con cautela


El diferencial de idoneidad es útil para localizar los frentes de
avance y retroceso de poblaciones (monitoreo, actuaciones
para conservación...)
Es importante hacer proyecciones con distintos escenarios y
modelos de distribución (ensamblado)
Ensamblado de modelos para
proyecciones de distribución en
escenarios de cambio climático (7.5)
Objetivos:
Utilizar un ensamblado de modelos de distribución actual y
futura de una especie vegetal para evaluar cambios
potenciales en su distribución
Tareas:
Generar modelos de distribución actual y futura de una
especie utilizando distintos algoritmos de modelado y
variables de baja resolución
Importar a GRASS y transformar los modelos continuos en
binarios para ensamblarlos
Medir las áreas de ocupación actual y futura, y componer un
mapa que presente visualmente la información
Ejercicios propuestos

Cartografía de poblaciones de alta resolución de una


especie amenazada, midiendo área potencial y
preparando una visualización de los resultados sobre
una imagen Landsat
Búsqueda de nuevas poblaciones a partir de los
resultados del ejercicio anterior
Exploración libre de las ideas y conceptos que has
aprendido: inventa y experimenta para buscar
métodos de análisis y aplicaciones de los modelos
que puedan ser útiles en tu trabajo

You might also like