Guía del usuario de climatol

Un paquete de R para la homogeneización de series climatológicas
(y funciones para dibujar rosas de viento y diagramas de Walter y Lieth)
Version 2.1, distribuida bajo la licencia GPL (versión 2 o posterior)

Por José A. Guijarro (http://www.climatol.eu/)
Agencia Estatal de Meteorología, Delegación T. en las Islas Baleares, España

Versión de esta guía:

1.1 (Octubre de 2012)

La Guía del usuario de climatol, por José A. Guijarro, está sujeta a la licencia Creative
Commons Attribution-NoDerivatives 3.0 Unported. Excepciones: Se permiten las traducciones
a cualquier otro idioma aparte del español y el inglés.

II

Preámbulo
El paquete de R “Climatol” está mayoritariamente destinado al problema de la homogeneización de series climatológicas, es decir, a eliminar las perturbaciones producidas por cambios
en las condiciones de observación o en el entorno de la estación, para que las series reflejen
sólamente (hasta donde sea posible) las variaciones climáticas.
La documentación estándar del paquete se ciñe a las normas de R, y provee descripciones de
las funciones y de sus parámetros, de modo que los usuarios pueden acudir a ella cuando lo
necesiten. Esta guía, por otra parte, se ha escrito como un complemento, y está más enfocada a
explicar la metodología subyacente en los algoritmos del paquete, cómo llamar a sus funciones,
y cómo interpretar y usar sus resultados.
La guía está estructurada en dos partes: una introducción rápida (en unas pocas páginas siguientes) para aquellos usuarios que deseen empezar a homogeneizar sus datos cuanto antes, y una
guía ampliada, en la que se tratan con más detalle los diferentes aspectos del paquete.
La mayor parte de los ejemplos de esta guía se pueden reproducir con los ficheros del archivo
climatol-dat.zip, que se puede descargar de http://webs.ono.com/climatol/climatol-dat.zip,
y que contiene series reales de un área mediterránea, si bien los nombres y coordenadas de las
estaciones son ficticios.

Agradecimientos
Este paquete se ha beneficiado enormemente de las fructiferas discusiones mantenidas en el
marco de la Acción COST ES0601 (2006-2011), titulada Avances en los métodos de homogeneización de las series climáticas: una aproximación integrada (HOME). Mi agradecimiento a
todos los participantes, así como a la Fundación Europea de la Ciencia, por promover y financiar
estos enriquecedores encuentros. También debo agradecer a la Agencia Estatal de Meteorología
de España (AEMET) por su continuado apoyo a mi participación en esta Acción.

III

Introducción rápida
Lo primero que hemos de hacer es preparar los datos de entrada en dos ficheros de texto con
los formatos adecuados. En uno de ellos hay que relacionar las coordenadas y nombres de las
estaciones, incluyendo una línea de la forma
X Y Z CÓDIGO NOMBRE
para cada estación, donde las coordenadas X e Y pueden estar en km (procedentes, por ejemplo,
de una proyección UTM) o en coordenadas geográficas (longitud y latitud, en este orden), pero
no en forma de grados, minutos y segundos, sino en grados con decimales. Los otros parámetros son la altitud Z en m, un CÓDIGO identificativo de la estación, y su NOMBRE completo, que
debe estar encerrado entre comillas si está formado por más de una palabra. (Es aconsejable
poner todos los nombres entre comillas para evitar errores). El nombre de este fichero debe
ser VAR_AINI-AFIN.est, donde VAR será una abreviatura de la variable climática que estemos
analizando, y AINI y AFIN los años inicial y final del periodo estudiado.
Los datos climáticos de esta variable irán en otro fichero, organizados por bloques, estación por
estación, en el mismo orden en que aparecen en el fichero de estaciones. El nombre de ambos
ficheros será el mismo, distinguiéndose únicamente por su extensión, que en el caso del fichero
de datos será dat.
Ejemplo: Supongamos que se quieren homogeneizar los datos mensuales medios de las temperaturas mínimas diarias de 1956 a 2005, y que se escoge Tmin como la abreviatura para esta
variable. El fichero de estaciones sería Tmin_1956-2005.est, y podría comenzar, como en los
datos de ejemplo, por:
27.0 53.9
31.8 26.5
49.2 30.0
43.4 29.6
... (etc)

456
123
154
156

S03
S08
S11
S13

"La Perla"
"El Palmeral"
"Miraflores"
"Torremar"

Y el fichero de datos debería llamarse Tmin_1956-2005.dat, y sus primeras líneas podrían ser:
NA NA NA NA NA NA NA NA NA NA NA NA
-0.4 1.8 5.5 6.5 15.1 17.4 16.7 16.4 12.2 6.0 2.6 2.3
1.5 4.0 6.5 8.7 12.4 12.1 20.3 NA 14.7 11.0 3.2 0.5
... (etc)
Estos serían los datos de la primera estación de nuestra red de observación1 , en orden cronológico: enero a diciembre de 1956, lo mismo para 1957 en la segunda línea, 1958 en la tercera, etc.
En este ejemplo faltan los datos de todo 1956 y de agosto de 1958, que se han substituido por
NA (Not Available), que es la representación estándar en R de los datos ausentes (aunque pueden
usarse otras). Después de relacionar todos los datos de la primera estación, se continúa con los
1 En

realidad, este no es el comienzo de nuestro fichero de ejemplo, cuyas tres primeras líneas tienen todos los
datos completos. Aquí hemos introducido estas otras para ilustrar cómo proceder cuando nos falten datos.

IV

de la segunda, y así sucesivamente hasta completar los datos de la última estación. Es importante tener en cuenta que todas las estaciones deben proveer datos para todos y cada uno de los
términos (meses, estaciones del año, o la unidad temporal que estemos tratando) del periodo de
estudio (1956-2005 en nuestro ejemplo), y de ahí la necesidad de incluir códigos para rellenar
cualquier dato ausente. Por comodidad, hemos puesto 12 valores (un año completo) en cada
línea del fichero, pero los datos se pueden disponer de cualquier otro modo, en un formato libre,
separados por espacios en blanco, puesto que se van a leer secuencialmente. (Nota importante:
ningún término temporal (mes, etc) debe faltar simultáneamente en todas las estaciones, puesto
que el proceso de relleno de datos ausentes no podría realizarse completamente y el programa
acabaría dando un error).
Una vez preparados los ficheros de datos en nuestro directorio de trabajo, todo lo que tenemos
que hacer para proceder a su homogeneización es arrancar R desde ese mismo directorio, cargar
las funciones de homogeneización con la orden
library(climatol)
Si se instaló este paquete desde R, o con
source("depurdat.R")
si se dispone de este fichero2 en el directorio de trabajo, y lanzar la orden de homogeneización
automática, que para nuestro ejemplo sería:
homogen("Tmin", 1956, 2005)
Esta orden acepta otros parámetros opcionales, de los cuales cabe destacar los siguientes:
nm Número de datos por año en cada estación (12 por defecto: datos mensuales. Poner nm=1 si
analizamos datos anuales, nm=1 para datos estacionales, etc).
deg Ponerlo igual a TRUE (verdadero) si las coordenadas geográficas están en grados, o dejarlo
en su valor por defecto FALSE si están en km (la unidad de distancia usada internamente
por el paquete).
std Tipo de normalización. Por defecto, los datos se estandarizarán restándoles su media y
dividiendo el resultado por su desviación típica, pero si la variable tiene un cero natural
(como la precipitación), puede ser preferible usar std=2 (los datos sólo se dividirán por
su media). Otra opción es std=1, para que a los datos sólamente se les reste su media).
rtrans Transformación raíz a aplicar a los datos: 2 para raíz cuadrada, 3 para cúbica, etc
(pueden usarse números no enteros). Útil si la distribución de la variable se aleja de la
normal, como sucede con la velocidad del viento, o con la precipitación de regiones áridas).
na.strings Cadena de caracteres usada para los datos ausentes. Por defecto R usa ’NA’,
pero se puede especificar cualquier otra, como por ejemplo: na.strings=’-999.0’.
Otro ejemplo para homogeneizar precipitaciones estacionales (cuatro datos por año) para el
periodo 1961-2005, con las coordenadas de las estaciones expresadas en grados geográficos, y
2 El

fichero depurdat.R contiene las funciones de homogeneización del paquete climatol.

nm=4. Tiene la misma estructura que el fichero de entrada Tmin_1956-2005.med con la orden: dahstat("Tmin". si queremos una relación de los valores medios para el periodo 1971-2000 de las temperaturas que acabamos de homogeneizar. 1 (para la suma de los valores mensuales of de la periodicidad subanual que estemos manejando). mientras que los ficheros con los datos homogeneizados se pueden tratar con la función dahstat. será (no se proveen ficheros de datos para este ejemplo): homogen("SsPrp". 2000) Como puede observarse. deg=TRUE. "min" para valores mínimos. "std" para desviaciones típicas. 1956. Tmin_1956-2005. 2005.dah Datos homogeneizados. facilitando así al usuario su posterior análisis. probablemente.txt Fichero de bitácora del proceso. que es la opción por defecto). con todos los mensajes que han ido saliendo por pantalla (incluyendo los resúmenes finales). la serie se corta. Puede ponerse 0 (para no calcular ningún valor anual).pdf Fichero con una (potencialmente larga) colección de gráficos de diagnóstico generados durante el proceso. 2 (para la media. rtrans=3) La orden del primer ejemplo generaría los siguientes ficheros (en el directorio de trabajo): Tmin_1956-2005. creando una nueva con las mismas coordenadas y añadiendo un sufijo numérico incremental al nombre y código de la estación). con todos los datos ausentes rellenados. el primer y el último año del periodo de estudio. 1961.V aplicando una transformación raíz cúbica a los datos. los parámetros son el nombre de la variable. pero con columnas adicionales (ver la guía ampliada) y.esh Fichero de estaciones después de la homogeneización. análogo al fichero de entrada Tmin_1956-2005. "max" para valores máximos. "q" para cuantiles (ver el parámetro prob).dat. Con cualquier otra opción no reconocida la función se limitará a leer los datos homogeneizados. Tmin_1956-2005. podemos obtenerla en un archivo llamado Tmin_1971-2000. Otros parámetros de esta función son: out Tipo de salida (el fichero tendrá la extensión correspondiente): "med" para medias de los datos (la salida por defecto).est. . vala Valor anual calculado en la tabla de salida. Los archivos de gráficos y de bitácora pueden sugerir repetir el proceso con diferentes parámetros (ver la guía ampliada para más información). 1971. "mdn" para medianas. nuevas líneas (cuando el proceso detecta un salto brusco en la media. y el primer y último año del periodo para el que queremos calcular las medias (estos pueden omitirse si queremos las medias de todo el periodo de estudio). Por ejemplo. "tnd" para tendencias. 3 (para el máximo) o 4 (para el mínimo). Tmin_1956-2005. 2005.

2)) 3 y de este modo obtendríamos la lista de las tendencias en un fichero de texto denominado Tmin_1956-2005. eshcol=c(4. e incluir las coordenadas de las estaciones (columnas 1 and 2 del fichero de salida Tmin_1956-2005.esh tras los códigos de las estaciones. 1956. equivalente al cálculo de la mediana. 1971.5. . 2005.VI prob Probabilidad para el cálculo de los cuantiles (si se usa la opción out="q" . al incluir las coordenadas de las estaciones. podemos dar la siguiente orden: dahstat("Tmin". out="tnd". pero con una extensión igual a la opción out escogida. Por consiguiente. podría utilizarse para cartografiar las tendencias (tanto desde R como importando el fichero con un SIG). 1956. indicando que sólo el código de la estación (la cuarta columna) precederá a los valores estadísticos de la tabla. 2005. como con la opción out="mdn" ). para designar un vector numérico. c. 2000) Pero si deseamos calcular las tendencias para todo el periodo de estudio 1956-2005. con la excepción de los cuantiles. (Fin de la introducción rápida) 3 Nótese el uso de la función de concatenación de R. si queremos obtener los valores normales mensuales (y su media anual) de las temperaturas mínimas previamente homogeneizadas.1.tnd que. eshcol Columnas del fichero de estaciones homogeneizadas "*. Los ficheros de salida tendrán el mismo nombre base que los de entrada. vala=1. El valor por defecto es 0. donde PP se substituirá por la probabilidad seleccionada con la opción prob (pero en %).esh" a incluir en el fichero de salida. cuya extensión será qPP. deberíamos dar: dahstat("Tmin". El valor por defecto es 4.

29 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 4. . Rosas de los vientos . . . . . . . . Salidas 8 4. . . . . . . . . . . . . . . . Regresión tipo II . . Explotación de las series homogeneizadas 23 7. . . . . Y si los datos son diarios o sub-diarios? 25 8. . . . . . . . . . . . . .1. . . . .3. . . . . . . . . .esh y *. Homogeneización de las series . . . . . . . . El fichero *. . . 20 5. . . Metodología 1 2. . . . . . . . . . . . . . . . . .2. .1.2. . . . . .pdf . . . Climogramas de Walter y Lieth . . . . . . . . . . 5 3. . . . .2. . . . . . . . . . . . . . .dah . . . . . . . . . Estimación de los datos . . . . . . . . Anexo: Valores umbrales para las pruebas SNHT 32 . . . . . . . . . . . . . . . . . . . . . . . . . . Archivo *. . . Bibliografía 31 10. . . . . . . . Introducción 1 2. . . . . . . 3 2.2. .1. . . . . Aplicación 5 3. .3. . . . Detección y correción de datos anómalos y saltos bruscos en la media . Discusión y sugerencias 21 6. . . . . . . . . . . . . .txt . . . . 1 2. . . . . .1. . 9 4. . . . . . . . . 28 8. . . . 4 3. . .VII Guía ampliada Índice 1. Preparación de los datos . . . Ficheros *. . . . . . . . . . . . . . . . . . 10 4. . Otras funciones de climatol 28 8. . .

para aplicar una homogeneización independiente en cada una de las subregiones. que la región estudiada debe ser climáticamente homogénea4 .1 1. que las variaciones climáticas sean suaves. Esta problemática se conoce desde hace muchos decenios. Algunos métodos antiguos se basan en pruebas estadísticas para comprobar la no estacionariedad de una única serie climatológica. La alternativa es usar métodos de homogeneidad relativa. Peterson et al. Por tanto. para permitir el uso de las estaciones más próximas incluso cuando el periodo común de observación es demasiado pequeño (o nulo) para poder calcular correlaciones fiables. (2003) pasan revista a las diferentes aproximaciones desarrolladas por los climatólogos hasta ahora. Regresión tipo II Como en muchos otros métodos. nosotros podemos emplear la mayor parte de la información de nuestra red climatológica. las pruebas de homogeneidad se aplican aquí a series de diferencias entre la estación problema y una serie de referencia construida mediante una media (ponderada o no) de las series de las estaciones de las proximidades.: crecimiento urbano o cambios en los usos del suelo). Introducción Como el lector debe saber. Las proporciones respecto a los valores normales climatológicos son apropiados para la precipitación y otras variables que no pueden tener valores negativos y que suelen tener una distribución de probabilidad en forma de 4 O. y no en la correlación. Pero. Estos métodos absolutos deben evitarse.1. métodos de observación. al menos. de modo que al final sus datos reflejen únicamente las variaciones del clima. Para filtrar las series de esas perturbaciones no deseadas es preciso aplicar un procedimiento estadístico. puesto que la presencia de abruptas fronteras geográficas pueden conducir a usar estaciones próximas pero pobremente correlacionadas para calcular las series de referencia. las estaciones meteorológicas no sólo registran las variaciones climáticas locales. la regió debe subdividirse. mientras que el uso de las correlaciones se suele aplicar a una selección de series largas. que consiste en la interpolación espacial de precipitaciones relativas (divididas por la precipitación normal) de estaciones vecinas. Esto implica. puesto que presuponen una estabilidad climática que se ha visto que no es realista. a diferencia de la mayoría de ellos. 2. mientras que en los próximos apartados explicaremos la estrategi seguida en este paquete. Este método de las proporciones se extiende en el paquete climatol con opciones para usar diferencias y estandarizaciones propiamente dichas para normalizar los datos. sin embargo. Este procedimiento se inspira en el método usado por Paulhus y Kohler (1952) para rellenar datos ausentes de precipitación diaria. (1998) y Aguilar et al. la selección de estas estaciones se basa únicamente en la proximidad. en los que las pruebas de estacionariedad se aplican a series de razones o diferencias entre la estación problema y una o más series bien correlacionadas de estaciones vecinas. . o su ambiente circundante (ej. sino que sus medidas también están afectadas por cambios en la instrumentación. la ubicación del observatorio. En este caso. denominado homogeneización. Metodología 2.

2. La más sencilla es la denominada eje mayor reducido que. En este caso. mientras que las diferencias (o las estandarizaciones.5 Desde un punto de vista estadístico. donde los errores son a priory similares en todas las estaciones. en lugar de el tipo I habitual. Aunque existe una expresión analítica para el ajuste de esta línea de regresión ortogonal tipo II (Daget. Pero este no es el caso cuando se ajustan líneas de regresión a pares de series de una red climatológica. 1979). hay algunas alternativas que proporcionan una buena aproximación.0 ● ● ● ● ●● 0. igual a la fracción de varianza explicada) tiende a cero. ● 2.5 −0.0 ● ● ● ● −1 ● ● 0. la varianza extra proporcionada por la regresión de tipo II respecto a la de mínimos cuadrados (tipo I) es espuria.0 ● ● ● 1.0 −1. Éste se suele ajustar por un procedimiento de mínimos cuadrados. tiene la forma: yˆ = x (O bien yˆ = −x cuando la relación es inversa.5 ● 0.0 2. donde m y s representan la media y la desviación típica respectivamente). derecha). las desviaciones a minimizar deberían ser las perpendiculares a la recta de regresión.0 ● −0.2 L. que no es el caso cuando tratamos con la misma variable en una región climáticamente homogénea). Se supone con ello que la variable independiente X está controlada por el investigador o medida con errores despreciables respecto a los de la variable dependiente (Sokal y Rohlf. como en la figura 1-izquierda). Se puede argumentar que. izquierda) y regresión ortogonal (regresión tipo II. si estas diferencias se dividen por las desviaciones típicas) son más apropiadas para la temperatura y otras variables que se distribuyen normalmente (o se aproximan a la normal).5 2.5 ● 1. Una característica de esta regresión tipo II es que la varianza de la variable estimada es la misma que la de la original.5 ● ●● 0 1 2 ● −1 x 0 1 2 x Figura 1: Deviaciones minimizadas por mínimos cuadrados (regresión tipo I. como en la figura 1-derecha. llamando x e y a las versiones estandarizadas de las variables (x = (X − mX )/sX y y = (Y − mY )/sY .0 ● 1. pero cabe esperar altos valores de r2 si la red de observación es suficientemente densa. esto equivale a aplicar una regresión lineal tipo II. cuando esta fracción es menor que la unidad.0 ● ● y y ● ● 0. que minimiza las desviaciones entre los puntos (observaciones) y la recta de regresión en la dirección del eje Y (verticalmente.5 ● ● ● ● ● 1.5 ● ● ● ● ● ● ● −1. 1969). y por otra parte evitaremos el . puesto que esta línea no tiende a la horizontal cuando el coeficiente de determinacion (r2 .

(Este parámetro se llama wd. pero es más conveniente la expresión 1/(1 + d 2 /h2 ). Los pesos a aplicar a los datos de referencia pueden ser todos iguales (media simple) o calcularse como una función inversa de la distancia d entre los sitios de observación. En la figura 2 puede verse esta función dibujada para diferentes valores de h. Además. se procede a estimar cada término de cada serie como una media ponderada de un determinado número de los datos más próximos disponibles en cada caso. 5 Aunque 6 Gracias los cambios en la varianza no se buscan explícitamente en este paquete.8 1 20 50 0 100 200 300 400 Distancia (km) Figura 2: Formas adoptadas por la función de peso según el semi-peso h (parámetro wd de la función homogen). Estimación de los datos 1. esta metodología permite corregir no sólo los cambios en la media de las series. donde el parámetro a permite al investigador modular el peso relativo de las estaciones más cercanas respecto de las más alejadas.6 0. en la lista de argumentos de la función de homogeneización de este paquete).3 problema que supone una reducción de la varianza cuando el objetivo final de nuestro estudio sea establecer la variabilidad de las series. a Victor Venema por esta sugerencia. La función escogida para ello se formuló originalmente como 1/(1 + d 2 /a).4 Peso 0. h (km) 100 200 400 0.2 0.0 0.0 Una vez normalizados los datos originales. sino también posibles cambios en su varianza 5 . . por weight distance. puesto que de este modo el nuevo parámetro h resulta ser la distancia a la que el peso se reduce a la mitad del que tendría una estación situada en la misma posición que la de los datos a estimar6 .2. 2.

Datos anómalos: La serie de anomalías se estandariza. para evitar que se corten series debido a la presencia de tendencias locales y no de . puesto que esta inhomogeneidad puede haber influido sobre la valoración de la homogeneidad de las estaciones vecinas.4 Pero el primer problema que debemos afrontar es que. De todos modos. y las anomalías mayores de 5 (por defecto) desviaciones típicas se borran de los datos originales. Pero esto haría el proceso muy largo si estamos tratado con un elevado número de estaciones con muchas inhomogeneidades.005 unidades por defecto). recalcular las medias y desviaciones típicas. De modo que debemos comenzar por calcular estos parámetros únicamente a partir de los datos disponibles. se repite todo el proceso aplicándo esta prueba sobre las series completas.3. y aplicar sobre ellas pruebas para detectar: 1. La prueba sobre ventanas móviles se ha implementado para evitar la existencia de múltiples saltos en la media pueda subestimar los valores del SNHT. SNHT. Saltos en la media: A la serie de anomalías se le aplica la prueba SNHT Standard Normal Homogeneity Test. se cortan en la posición en que se encontró ese máximo valor de inhomogeneidad. 2. a menos que la series estén completas. mientras que su aplicación a las series completas es más sensible y permite detectar saltos más pequeños que en la prueba sobre ventanas (con menores tamaños muestrales). Una vez que todas las inhomogeneidades superiores al umbral se han cortado con la prueba SNHT aplicada sobre ventanas solapadas. Los máximos valores de SNHT (llamados tV en este paquete) y sus posiciones en cada serie se guardan en memoria. si superan el umbral establecido. por Alexandersson. b) Sobre la serie completa. y obtener nuevas estimas de las series. usar las series estimadas (tras deshacer la normalización de los datos) para rellenar las lagunas de datos. con lo que se pueden generar mas cortes en las series. el valor por defecto del umbral fijado para la prueba sobre las series completas se ha puesto más alto que en la prueba sobre ventanas. Detección y correción de datos anómalos y saltos bruscos en la media Después de haber estimado todos los datos. no podemos calcular sus medias y desviaciones típicas par todo el periodo de estudio. 1986) en dos etapas: a) Sobre ventanas de 120 términos que se van moviendo en saltos de 60 términos (valores por defecto). renormalizar los datos. Lo ideal sería repetir todo el proceso después de cortar la serie más inhomogénea. de forma que a partir de esa posición se transfieren todos los valores a una nueva serie (con las mismas coordenadas) y se borran de la original. de modo que se proporciona un factor de tolerancia para permitir el corte de varias estaciones en cada pasada. y las series con los valores más altos. 2. para cada serie original podemos calcular las series de anomalías (diferencias entre los datos observados y los estimados). Este proceso se repite hasta que el cambio máximo de cualquier dato respecto de la iteración anterior sea menor que un determinado umbral (0.

Los demás parámetros (opcionales) que acepta la función son los siguientes: . pudiendo aprovechar las funciones de R para acceder a bases de datos relacionales. (Salvo cuando no existan datos originales.5 saltos en la media (aunque si las tendencias locales son lo suficientemente fuertes se detectarán y tratarán como si fueran saltos). 3. y la función los usará para determinar el nombre base de los ficheros de entrada y salida. anyf Año final del periodo de estudio.2. Homogeneización de las series La función de homogeneización de este paquete se llama homogen. Después de haber eliminado todas las inhomogeneidades superiores a los umbrales establecidos. como se explica en la introducción rápida. Estos tres parámetros no tienen asignados valores por defecto. anyi Año inicial del periodo de estudio. Los datos ausentes deben especificarse como NA (el estándar de R). y Z en m).1. Aplicación Preparación de los datos Las coordenadas de las estaciones y los datos climatológicos deben suministrarse como se explica en la introducción rápida para que la función de homogeneización pueda leerlos correctamente. Otra posibilidad es que el usuario los lea de ficheros estructurados de diferente manera mediante sus propios procedimientos. en cuyo caso la estima se realiza según el método general).c Tabla de datos con cinco columnas X Y Z Código Nombre. La única precaución es que los datos deben alojarse en la memoria de R en estos dos objetos: dat Matriz numérica que contiene los datos. la reconstrucción de las series se efectúa únicamente con los datos de los otros fragmentos. al menos. o sus primeros fragmentos en caso contrario) como si se trata de las nuevas series creadas tras los cortes efectuados. de dimensiones nd. tanto si son originales (series no cortadas. conteniendo las coordenadas (X e Y pueden expresarse en in grados o en km. respectivamente). cualquiera que sea el número de datos de referencia fijado. ne (donde nd y ne representan el número de datos por estación y el número de estaciones. estos tres parámetros: varcli Acrónimo del nombre de la variable climática tratada. 3. En este caso. Estas líneas deben disponerse en el mismo orden en que aparecen los datos de cada estación en el objeto dat. Esto se aplica a todas las series. 3. códigos y nombres de las estaciones. se realiza una nueva pasada dedicada únicamente a recalcular todos los datos ausentes (incluyendo los eliminados en la detección de saltos y datos anómalos). est. y al llamarla deben suminstrarse.

Este parámetro fija el número máximo de datos a usar en caso de que hubiera muchos disponibles. . swa Tamaño del desfase a aplicar a las ventanas para la aplicación de la prueba SNHT. (10 por defecto). la serie se cortará si el máximo valor de cualquiera de las series de referencia es menor que 30*(1+0. Este valor por defecto resulta adecuado para valores mensuales. etc). El cálculo iterativo de las medias (y. 200. Por defecto tiene un valor de 50 (bastante conservador). Por defecto vale 0. opcionalmente. Poner nm=1 para analizar datos anuales. snhtt Valor umbral para la prueba SNHT aplicada a las series completas. como una media ponderada de los datos más próximos7 . 7 Nótese que hablamos de los datos más próximos y no de las estaciones más próximas. Como se explica en el apartado de la metodología. las anomalías superiores a 5 desviaciones típicas (de las propias series de anomalías) serán rechazadas (valor conservador). fijado por defecto en 0. como wd=c(0. Se puede modificar suministrando un vector de tres valores. lo que significa que la prueba se aplicará a los primeros 2*60 términos disponibles. y 100 para la última fase de cálculo final de todos los datos ausentes. (Ej. El valor por defecto es 0 para las dos primeras fases (lo que indica que todos los datos tendrán el mismo peso). 50). dz. Por defecto. lo que permite un 2 % de tolerancia en cada dato de referencia. tVf Factor de tolerancia para poder fragmentar varias series en una misma pasada. (Poner tVf=0 para inhabilitar la fragmentación si cualquiera de las referencias ya ha sido fragmentada en la misma pasada). y así sucesivamente hasta alcanzar el final de la serie. El valor por defecto es 60. tVt Valor umbral para la prueba SNHT sobre ventanas escalonadas (25 por defecto). wd Distancia (en km) a la que los datos pesarán la mitad que los de una estación localizada en el mismo sitio de la serie a estimar. puesto que la disponibilidad de datos irá cambiando probablemente a lo largo del periodo de estudio. y posiblemente demasiado pequeño para datos diarios. nm=4 para los estacionales. y puede cambiarse a 0 para inhabilitar esta prueba.05. mxdif Máxima diferencia de datos en iteraciones consecutivas.6 nm Número de datos por año en cada estación (12 por defecto: datos mensuales. todos los datos se estiman como si no existieran (para calcular las anomalías). nref Número máximo de datos de referencia a emplear para las estimas de los datos.: Si el máximo valor de la prueba SNHT en una serie vale 30 y se han usado 10 referencias para el cálculo de las anomalías.02.02*10)=36. Cualquier valor adicional será ignorado.max Umbral de tolerancia para los datos anómalos. pero es demasiado grande para los anuales. las desviaciones típicas) de las series se detendrá cuando la máxima diferencia de cualquier datos respecto a su valor en la iteración anterior sea como máximo igual a este valor. y si el vector tuviera menos de tres elementos se repetirá el último valor las veces que sea necesario. y luego esta ventana de 120 términos se desplazará 60 términos hacia adelante para repetir la prueba.

con un valor mínimo absoluto de 5. (Por defecto vale 0). pero si la variable estudiada tiene un cero natural (como sucede con la precipitación).001. ndec Número de decimales de los datos de salida homogeneizados. Darle un valor: 0. deg Ponerlo como TRUE (verdadero) si las coordenadas geográficas se dan en grados. (Se permiten números no enteros. útil si la distribución de frecuencia de la variable se aleja de la normal. los datos originales vienen expresados en unidades diferentes a las deseadas. Por defecto vale 0. (1 por defecto). y lo mismo sucederá con la reconstrucción de las series). etc. para obtener también los gráficos de medias móviles anuales y correcciones aplicadas. para obtener también los gráficos de anomalías. (Preferible cuando trabajemos con datos de precipitación). permite aplicar una transformación lineal a los datos si. para no generar ninguna salida gráfica. 3 para cúbica. 3 (valor por defecto). Por defecto vale FALSE. puede ser más conveniente establecer std=2 (los datos se normalizarán únicamente dividiéndolos por la media). Otra posible opción es std=1. (1 por defecto). para dar a la coordenada vertical (dada en m) el mismo peso que a las horizontales (que se expresan en km).7 force Parámetro lógico para forzar la fragmentación de las series incluso cuando sólo haya una referencia disponible. pero en lugar de medias móviles anuales se representarán sumas móviles. rtrans Transformación raíz a aplicar a los datos: 2 para raíz cuadrada. 1. para restarles la media únicamente. y se igualará al valor de nm en caso contrario. o dejarlo en su valor por defecto FALSE (falso) si se dan en km (la unidad de distancia usada internamente en este paquete). los datos se estandarizarán restándoles la media y dividiéndolos por la desviación típica. std Tipo de normalización. evitando las fragmentaciones con una sola referencia. las medias y desviaciones típicas de las series no serán fiables. En combinación con el siguiente parámetro b. se fijará en la mitad del valor del parámetro swa cuando se aplique a datos diarios. por ejemplo. . (Si se da un valor demasiado bajo. 4: como con 3. mndat Mínimo número de datos para que un fragmento se convierta en una nueva serie. (No se realizará ninguna homogeneización). para obtener únicamente los gráficos descriptivos de los datos de entrada. 2. a Constante a añadir a los datos tras leerlos del fichero de entrada. Si se deja en su valor por defecto (0). o la precipitación de regiones áridas). Por defecto (3). como suceden con la velocidad del viento. gp Parámetro gráfico. wz Factor a aplicar a las altitudes de la estación antes de calcular la matriz de distancias euclídeas. b Factor a aplicar a los datos.

si el número de series de entrada es mayor que 100.0" . vmin Valor mínimo posible (límite inferior) de la variable estudiada. "-999.climatol.0"). 2005) genera cuatro ficheros de salida. (Ver el apartado 7 para una discusión sobre las limitaciones de la aplicación de la función a este tipo de datos).zip. 50 por defecto. si se fija (con formato ’AAAA-MM-DD’) se supondrá que las series contienen datos diarios. por ejemplo. Salidas La orden de ejemplo homogen("Tmin". Por defecto no se establece ninguno pero. para evitar un tiempo de proceso demasiado largo cuando la convergencia sea muy lenta. como por ejemplo na.strings Cadena de caracteres que representa los valores ausentes.est. Su valor por defecto es el estándar de R. como en na. (Ej. el ejemplo más simple para efectuar una homogeneización de series con esta función es: homogen("Tmin". Por defecto. como la humedad o la insolación relativas. Estos ficheros. na.0". 1956.eu/ Las salidas de este ejemplo se explicarán a continuación. se usará vmin=0 si se da el valor 2 al parámetro std. ini Fecha inicial. "-999. puede ser útil usar vmax=100 y vmin=0 para datos expresados como porcentajes. esa salida se grabará en el fichero de bitácora. (En cualquier caso.dat y Tmin_1956-2005. se puede establecer a FALSE para evitar la larga salida de texto en la consola.: para homogeneizar precipitaciones o velocidades del viento). llamados Tmin_1956-2005. Aunque no tiene ningún valor por defecto. "NA" . 4.8 leer Dar FALSE si no hay que leer los datos porque ya se ha hecho con otros procedimientos de R. nclust Número máximo de estaciones para el análisis de agrupamiento. vmax Valor máximo posible (límite superior) de la variable estudiada. verb Verbosidad. se pueden encontrar en el archivo comprimido climatol-dat. o incluso un vector de cadenas.strings=c("-999". maxite Número máximo de iteraciones para el cálculo de las medias de las series. disponible en http://www.strings="-999. 2005) Este ejemplo se puede reproducir si se copian los correspondientes ficheros de datos y estaciones en el directorio de trabajo de R. Vacía por defecto. TRUE por defecto. pero se puede dar cualquier otra cadena. 1956. los gráficos iniciales descriptivos de los datos de entrada se realizarán sobre una muestra aleatoria de nclust series. almacenados en el directorio de trabajo: . Tal como se dice en la introducción rápida. como se explica en el apartado siguiente).

con el código y el número ordinal de la estación.dat. El fichero *.esh Un fichero de texto con las coordenadas. comienza por informar de todos los parámetros de la llamada a la función (tanto explícitos como implícitos). Al terminar de analizarlas todas.dah Un fichero de texto que contiene los datos homogeneizados (con los datos ausentes rellenados). reflejando la máxima diferencia de los datos al compararlos con la iteración anterior. y una flecha señalándo por qué valor sería sustituido.txt Un fichero de texto que guarda la información del proceso tal como sale por la consola. el valor del test (tV) en ese punto. por ejemplo: M56(10) se corta en 1976 7 (95. Si se han rechazado datos anómalos durante este proceso. indicando entre paréntesis el valor de la anomalía estandarizada). se da el máximo valor tV de la prueba SNHT sobre ventanas escalonadas. si no se ha cambiado el valor implícito std=3). y después tiene lugar un nivel 3 final para el cálculo definitivo de los datos ausentes (esta vez sin análisis de saltos). entre paréntesis. Nótese que el valor indicado por la flecha es sólo una estima aproximada. en texto claro.9 Tmin_1956-2005.pdf Un fichero PDF con una colección de gráficos de diagnóstico. aparecerán en líneas como la siguiente: S63(7) 1966 7: 21. indicando a continuación el año y mes del primer dato después del corte y. identificando la estación responsable con su código entre paréntesis.1) Comienzan. Luego sigue el proceso iterativo de relleno de datos ausentes. se presentan los resultados de las pruebas de detección de cambios bruscos en la media de las series. Desde el término indicado hasta el final de la serie.1 -> 14. Luego siguen el año y el mes del dato anómalo. Tiene la misma estructura que el archivo de entrada Tmin_1956-2005. la (o las) que haya dado el valor más alto será fragmentada en dos partes. Para cada una de ellas.txt El fichero de bitácora. al igual que en las líneas de datos anómalos rechazados. y estos cortes quedarán registrados en líneas como. para constancia en posibles revisiones del proceso. nombres e información adicional de las estaciones de los datos homogeneizados. puesto que el relleno de lagunas de datos definitivo se realizará en la última fase del proceso.3 (stan=6. su valor.1. identificada por su número de orden. Tmin_1956-2005. Tmin_1956-2005. Estos bloques de cálculo iterativo de medias (con posible borrado de datos anómalos) y análisis de saltos se repite varias veces según el proceso va pasando por los niveles 1 (pruebas SNHT aplicadas sobre ventanas escalonadas) y 2 (aplicación clásica de SNHT sobre las series completas). Tmin_1956-2005.42) Estas líneas comienzan con el código de la estación y su número de orden (entre paréntesis) en el fichero de entrada. . Después del cálculo iterativo de los promedios de las series (y sus desviaciones típicas. con las mismas coordenadas y añadiendo un número ordinal como sufijo del código y el nombre originales de la estación. 4. los datos se borran de la serie original y se trasladan a una nueva serie.

10 El archivo de bitácora termina con los resultados de los cálculos finales de: The log file ends with a set of final computations. En el ejemplo de la figura 6 se observan tanto valores altos como bajos a distancias relativamente pequeñas. y puede ayudar a seleccionar los mejores valores de algunos parámetros de la función homogen cuando se prueban varios de ellos. La siguiente figura es un gráfico de coeficientes de correlación en función de la distancia (figura 6). que pueden aconsejar una acción correctora antes de repetir el proceso de homogeneización. Se calcula a partir de las diferencias entre los datos observados y los calculados. pero hay que tener en cuenta que algunos valores de correlación pueden provenir de tres o pocos más.2. este valor sirve para identificar cuál de ellos retiene el mayor número de datos originales. PD Porcentaje de los datos originales. Archivo *. Por otra parte. including: ACmx Máximas autocorrelaciones absolutas. y después se listan los valores individuales para cada estación (original o derivada del proceso de fragmentación). cuando se dispone de ambos. 4. indicando el impacto de las diferentes condiciones topográficas de los observatorios en las temperaturas mínimas durante las noches despejadas y con viento en calma. para evaluar la inhomogeneidad remanente en las mismas. debiendo revisarse las series correspondientes. Primeramente se presentan los resúmenes estadísticos de estas magnitudes. diagramas de caja (figura 4). Las primeras figuras describen los datos de entrada: número total de datos disponibles en cada paso temporal (figura 3). Aunque estos coeficientes no van a tener relevancia para el proceso de homogeneización. puesto que probablemente se han originado a partir de sólo dos pares de datos. Cuando una serie se corta en dos o más fragmentos. valores elevados del error típico pueden indicar tanto una mala calidad de la serie original como una singularidad en la ubicación de la estación (que podría estar situada en un lugar con un microclima especial). se aplica a las series de anomalías. Elevados valores de autocorrelación pueden indicar falta de aleatoriedad en las anomalías. RMSE Error típico (raíz cuadrada del error cuadrático medio) de los datos estimados. y se usan todos los pares de observaciones disponibles. Sirve para evaluar los errores que pueden cometerse en el relleno de laguas. La inspección de estos gráficos puede revelar la existencia de datos muy anómalos u otro tipo de problemas en los datos de entrada. guardando el máximo valor absoluto obtenido para todos los desfases en cada serie. SNHT Valor de la prueba SNHT de las series finales de anomalías. este gráfico puede servir para comprobar que no haya barreras geográficas que provoquen cambios abruptos en las características climáticas de la zona de estudio. y un histograma de todos los datos (figura 5). Los coeficientes de correlación iguales a 1 o -1 se eliminan previamente. acm. para evitar el posible impacto de las inhomogeneidades. Estos valores de correlación se calculan a partir de las series diferenciadas. La función de autocorrelación de R. .pdf Otra de las salidas es una serie potencialmente larga (según el valor del parámetro gp) de gráficos de diagnóstico.

el área de estudio puede incluir discontinuidades climáticas. de datos de Tmin en todas las estaciones 1960 1970 1980 1990 2000 Años Figura 3: Número de datos disponibles. es probable que no sea el óptimo. y con un color distinto según el grupo al que pertenecen. escogido automáticamente por la línea de trazos roja del dendrograma. A continuación se realiza un análisis de agrupamiento basado en la matriz de correlaciones.11 6 4 0 2 Nr. y un mapa de la ubicación de las mismas. aunque el número de grupos. y el investigador debe considerar la conveniencia de efectuar homogeneizaciones independientes para cada subárea climática. El objeto de este análisis es proveer una primera aproximación a una clasificación climática de las estaciones. de datos 8 10 Nr. . que da lugar a dos nuevas figuras: un dendrograma. Si los grupos son muy diferentes (están conectados por elevadas distancias en el dendrograma) y su localización geográfica muestra áreas claramente delimitadas. donde pueden verse las estaciones agrupadas por la similaridad de las variaciones de sus datos. identificadas por su número de orden.

300 200 100 0 Frecuencia 400 500 Histograma de todos los datos −10 −5 0 5 10 15 Tmin Figura 5: Histograma de todos los datos. 20 .12 2 4 Valores de Tmin (Ene) −2 −8 −6 −4 Valores 0 ● ● 1 2 3 4 5 6 7 8 9 10 Estaciones Figura 4: Ejemplo de diagramas de caja de los datos.

7 Coeficiente de correlación ● ● ● ● ● ● ● 0. .5 0.5 Dendrograma de las estaciones Estaciones Figura 7: Dendrograma construido a partir de la matriz de correlaciones.13 Correlograma de las primeras diferencias de las series ● ● ● ● ● 0.0 Disimilaridad 1.6 ● ● ● ● ● 0 10 20 30 40 50 60 Distancia (km) Figura 6: Gráfico de correlación–distancia.9 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.8 ● ● ● ● ● ● ● ● ● 0.0 1. 5 1 4 2 8 7 3 10 6 9 0.

Este bloque de pruebas de salto en la media de las series de anomalías y cortes se repite en la segunda fase. Una acumulación de muchos cortes . para permitir inspeccionar el proceso de homogeneización de forma subjetiva. Tras los gráficos descriptivos. como en la figura 9. En la parte inferior del gráfico se dibuja en verde la distancia al dato más próximo en cada paso temporal. Ambas figuras muestran la distribución de los máximos valores de las pruebas de salto. Los primeros cortes serán probablemente muy claros (como en la figura 9). seguido de los correspondientes gráficos de barras e histograma de los máximos valores de la prueba en las series resultantes. Después de los gráficos de anomalías de las series cortadas en la primera fase siguen unos gráficos resumen. donde la prueba de SNHT se aplica a las series completas. lo que permite juzgar si los valores más altos corresponden a series con destacadas inhomogeneidades o si más bien se sitúan simplemente en la cola derecha de la distribución de frecuencias de las pruebas de salto en la media. rotulada en su parte superior con el valor de la prueba (redondeado por defecto). con barras cuyo color varía de verde hacia rojo al aumentar su valor). y un gráfico de barras indicando el número de cortes por año (figura 13). en km (con escala logarítmica). encontramos los que describen el análisis de las series de anomalías. coloreadas por grupos. se fijó en un valor relativamente bajo. mientras que los últimos podrían ser discutibles. la posición donde se va a cortar la serie se marca con una línea vertical de trazos rojos. A continuación aparecen otros dos gráficos referidos al número de cortes sufrido por las estaciones: un histograma del número de cortes por estación (figura 12). especialmente si el umbral de la prueba. donde las anomalías figuran dibujadas como trazos verticales de color azul. y un histograma de frecuencias de los valores de todas las series (figura 11).14 Situación de las estaciones de Tmin (2 grupos) 60 9 10 8 50 1 Y (km) 40 6 30 7 4 3 10 20 2 5 20 30 40 50 60 70 X (km) Figura 8: Mapa de la situación de las estaciones. En este caso puede resultar aconsejable repetir el proceso con un umbral más alto. que muestran los máximos valores de las pruebas de salto de las series remanentes (figura 10. Todas las series cortadas se muestran en gráficos similares. tVt. Cuando el valor máximo de la prueba de saltos en la media supera el umbral establecido.

1960 1970 1980 1990 2000 Años Figura 9: Análisis de las anomalías.d. .15 en el mismo año puede indicar un cambio en el instrumental o en el método de observación en una parte significativa de la red8 . 8 Estos cambios nunca deben aplicarse simultáneamente a toda una red. Tmin at M56(10). señalando el punto de corte más significativo. Buena Vista 4 2 0 −2 (km) 100 −4 Anomalías estandarizadas (observaciones − estimas) 95 10 1 min. puesto que no quedarían series de observación que sirvieran de referencia para juzgar el efecto de los mismos.

5 3.0 2. 1.0 Histograma de los SNHT máximos 0 5 10 15 SNHT 20 25 30 .5 0.16 40 0 20 tV máximo 60 80 tV máximo por estaciones 5 10 15 20 25 Estaciones Figura 10: Máximos valores de las pruebas de salto tras el proceso de fragmentación.5 1.0 0.0 Frecuencia 2. (Algunas series no muestran ningún valor porque son demasiado cortas para poder aplicar la prueba en ventanas escalonadas).

0 1.5 1.5 3.0 0.0 Número de cortes por estación 0 2 4 6 8 Número de cortes Figura 12: Histograma del número de cortes por estación.17 Figura 11: Histograma de los máximos valores de las pruebas de salto residuales. 6 4 2 0 Número de cortes 8 10 Número de cortes por año 1960 1970 1980 Años 1990 2000 .5 Número de estaciones 2.0 0. 2.

18 Figura 13: Número de cortes por año efectuados en el proceso. Como se mencionó anteriormente. como en la aplicación por defecto. en los que líneas verticales a trazos indican la localización de los máximos valores de las pruebas SNHT (en verde para ventanas escalonadas. de forma que pueda visualizarse de forma rápida la calidad (o singularidad) de cada una de las series reconstruidas. y en negro sobre toda la serie). La figura 14 muestra un ejemplo de los gráficos de anomalías finales. las correcciones aplicadas en cada reconstrucción (véase el ejemplo de la figura 15). la tercera fase del proceso de homogeneización se dedica al relleno de todos los datos ausentes. siempre que haya un mínimo de 2*swa datos. y en la parte inferior. También se dibuja una recta de tendencia si es significativa al nivel α = 0. Las últimas figuras consisten en histogramas de anomalías normalizadas (colorenado de rojo las frecuencias de las que exceden el umbral de corrección de datos anómalos). tanto los que ya faltaban en las series originales como los derivados del borrado de datos anómalos y del proceso de fragmentación de las series. si se especificó gp=4). 05. Esta última fase genera otros dos bloques de gráficos: de anomalías. las medias anuales móviles (o sumas móviles. se presenta un gráfico por cada serie original que muestra. y de valores máximos de las pruebas de salto (tVx y SNHT). Tras los gráficos de anomalías. el peso de las observaciones vecinas es inferior en la última etapa de cálculo de todos los valores ausentes que en las fases anteriores de detección y corrección. y de series homogeneizadas y correcciones aplicadas. en la parte superior. El último gráfico del fichero PDF generado representa los valores SNHT frente a los errores RMSE (figura 16). similares a los de las dos fases anteriores. . Adviértase que éstos pueden ser mayores que sus umbrales si.

si es significativa.19 Tmin at S33(5). . la recta de la tendencia general. 25 1960 1970 1980 1990 2000 Años Figura 14: Anomalías de las series finales. Pastores 4 2 0 −2 (km) 100 −4 Anomalías estandarizadas (observaciones − estimas) 17 10 1 min. y correcciones aplicadas a cada fragmento (abajo).d. Tmin at S11(3). Miraflores 10 Medias anuales móviles 9 8 7 6 5 4 2 Términos correctores x 0 −2 −4 −6 1960 1970 1980 1990 2000 Años Figura 15: Serie original (en negro) y reconstrucciones de los valores anuales móviles (arriba). con las localizaciones de los máximos valores de SNHT y.

4 49. pero contienen los resultados de la homogeneización. Sin embargo.dah son equivalentes a los ficheros de entrada *.0 1. .esh y *.20 40 50 Calidad/singularidad de las estaciones 30 20 SNHT 14 1 5 18 12 15 20 4 26 10 27 16 8 2 21 7 9 24 22 10 19 13 11 23 6 3 0 17 25 0.8 1.6 0.5 123 "S08" "El Palmeral" 11 2 0 8. X. 2 Latitud.2 RMSE Figura 16: Gráfico de los valores de SNHT y RMSE de cada serie final (original o fragmentada). 4.dat.3. el archivo de estaciones homogeneizadas *. Cód. como podemos ver en las primeras líneas del fichero Tmin_1956-2005. Z. Ficheros *.est y *. Y.2 0.esh generado en el ejercicio de ejemplo: 27 53.0 0.8 26.dah Los ficheros *.4 0.1 En cada línea aparecen los datos siguientes (los cinco primeros son los mismos que en el fichero de entrada Tmin_1956-2005. 3 Altitud.2 30 154 "S11" "Miraflores" 31 3 0 5.est): 1 Longitud.esh presenta información adicional.9 456 "S03" "La Perla" 79 1 0 12 31.esh y *. 4 Código de la estación.

y por consiguiente no pueden proveerse valores de aplicación universal. su propósito es identificar qué fragmentos pertenecen a la misma serie original. En cuanto al índice de la estación original (io).2) S40(8) se corta en 1996 3 (28. .6 56.txt. aunque cree la serie S40-3: S40(8) se corta en 2000 3 (47. 7 Índice de la estación original en el fichero de entrada. 9 Máximo valor SNHT. que indican que el primer corte (que da lugar a la serie S40-2) tiene lugar en marzo de 2000.2 498 "S40-2" "Esmeraldas-2" 7 8 0 5.5 31. io. Así.esh aparecen tres fragmentos. la octava estación de nuestro ejemplo (Esmeraldas). mientras que el segundo corte tiene lugar en un punto anterior (marzo de 1996). se ha cortado dos veces. dado que: a) Tienen las mismas coordenadas. 6 Porcentaje de datos originales.5) 5. X y Y se expresan en las mismas unidades (km o grados) que en el fichero de entrada.2 498 "S40" "Esmeraldas" 48 8 0 21.1 Por estas líneas (que no aparecen consecutivas en el fichero) podemos ver que todas pertenecen a la misma serie original. Hay que tener en cuenta que los valores óptimos de los parámentros variarán según el elemento climático de que se trate. tanto fijados en la llamada a la función como los establecidos por defecto. son apropiados para la red climática objeto de estudio. si buscamos las palabras S40 y se corta en el fichero de bitácora Tmin_1956-2005. PD. y c) su índice de estación original io es el mismo (8). En nuestro ejemplo.6 56. y la densidad temporal y espacial de las observaciones. pero es aconsejable que revise los ficheros de salida para comprobar si los parámetros usados. su variabilidad espacial. el investigador puede verse tentado a usar esta función de homogeneización como una caja negra. 8 Marca binaria que indica si la estación estaba funcionando al final del periodo de estudio (1) o no (0). y se ha reconstruido una serie completa para cada uno de ellos (disponible en Tmin_1956-2005.dah): 31. y por tanto en el fichero Tmin_1956-2005. op. Nombre. SNHT. Pero hay que tener en cuenta que los sufijos numéricos no tienen porqué seguir el orden cronológico de los fragmentos en la serie original. b) sus códigos y nombres son iguales. puesto que se crean por orden de importancia del salto en la media.21 5 Nombre de la estación.6 56.1 31. Discusión y sugerencias Si se necesitan con rapidez datos homogeneizados para un proyecto determinado. excepto por el sufijo numérico que se ha añadido para diferenciarlas. encontramos las siguientes dos líneas.2 498 "S40-3" "Esmeraldas-3" 8 8 0 3.

prefiriendo std=2 para las variables con un cero natural (como la precipitación o la velocidad del viento) y aplicando una transformación raíz si el histograma de los datos muestra una distribución con clara forma de L. se puede limitar la disminución de varianza asociada a las estimas ponderadas fijando una distancia de peso pequeña en la tercera fase. no se borrará ninguno ni se efectuará ningún corte en las series en ese punto. Por ejemplo. dz. y luego la latitud). para no eliminar ya ningún otro dato en la última fase (salvo que su anomalía superara las 9 desviaciones típicas. De igual modo. y será más drástico en la segunda. puede que se hayan borrado demasiados (o demasiado pocos) datos anómalos. El valor por defecto. Puede ajustarse a las necesidades de cada caso. cuando sólo existan dos datos en un determinado paso temporal. o si. En cualquier paso de tiempo debe de existir al menos un dato válido en alguna de las series para que el programa pueda funcionar. Por consiguiente. los parámetros escogidos pueden ser óptimos o no dependiendo del objeto final del análisis de las series.22 Es más. cuya calidad no se podrá comprobar. 5 desviaciones típicas. Por consiguiente. Ejemplo: si lo que se desea es obtener normales climáticas. valores demasiado bajos de estos parámetros han producido una excesiva fragmentación de las series. tal como wd=c(0. e incluso fijar distintos valores para cada fase del proceso. que es cuando suele haber menos observatorios en funcionamiento). 1)). es recomendable fijar tVf=0 para evitar cortar muchas series a la vez. Si en lugar de un único dato se dispone de dos. caso improbable tras las dos primeras fases correctivas). es bastante conservador. pero en este caso los datos de ese paso de tiempo de todas las demás series se rellenarán tomando ese dato como única referencia. 10. en tanto que éstos serán cruciales si el objetivo es calcular periodos de retorno de valores extremos. Nótese que std=1 aplicará correcciones constantes a los datos. y en el anexo de esta guía se comentan unas pruebas con series aleatorias realizadas expresamente durante el desarrollo de Climatol.200. o evitar las ponderaciones totalmente especificando en esta fase final de cálculo de todos los valores ausentes sólo se usará una estación de referencia (nref=c(10. en algún paso temporal del periodo de estudio (normalmente al principio. y sus anomalías o pruebas de salto resultan demasiado grandes. 3. limitándose el programa a advertir si se han sobrepasado los umbrales correspondientes en el fichero de bitácora. sólo se disponga de datos en una o dos series. ni se ajustará ningún cambio en la varianza. como en las líneas siguientes: . debería prestarse atención a los gráficos de diagnóstico y ver si quedan inhomogeneidades pendientes de corregir.max=c(6. dependiendo de la curtosis de la variable estudiada. 9) sólo eliminará las mayores anomalías en la primera fase.5. Algunos autores han publicado valores críticos (ej. 2007). los ajustes de la varianza no tendrán importancia.: Khaliq and Ouarda. No olvidar fijar deg=TRUE si las coordenadas de las estaciones están expresadas en grados (comprobando que se da primero la longitud.30)). y también escoger el tipo de normalización apropiado. En estos casos puede darse la situación de que. En este último caso. el problema será decidir cuál de los dos datos es el incorrecto. por el contrario. Si se va a homogeneizar un pequeño número de series. en cuyo caso habría que bajar los umbrales de tVt y/o snhtt. y por tanto no se tendrán en cuenta posibles diferencias estacionales en las inhomogeneidades.

Ejemplo: si queremos conservar las salidas anteriores como Tmin_1956-2005-old. "old") Una vez optimizados los parámetros para la aplicación de homogen a una base de datos concreta. Otra posibilidad cuando tratamos de homogeneizar unas pocas series y sólo tenemos dos disponibles en algún subperiodo es complementarlas con otras derivadas de productos de reanálisis en puntos de rejilla próximos. en cuyo caso puede procederse a cortar manualmente la serie y volver a lanzar el proceso de homogeneización. pero sólo tiene una referencia media: (Los puntos serán reemplazados por la información sobre la estación y el dato que resulten sospechosos). La historia de las estaciones puede contener información sobre cuál de las dos estaciones sufrió un cambio de emplazamiento u otra circunstancia que pueda haber afectado a las observaciones... aunque estos reanálisis difícilmente se extenderán hacia atrás más allá de mediados del siglo XX.. 1956. Explotación de las series homogeneizadas Una vez obtenido un conjunto de series satisfactoriamente homogeneizadas.23 Para datos anó-. y es por esto por lo que este paquete funciona sin ellos. Nunca se insistirá suficientemente en lo importante que es guardar registrados todos los cambios que afecten a un observatorio o sus alrededores.. y varios métodos de homogeneización hacen uso de ellos (Aguilar et al. el investigador es libre de aplicar sus propios análisis a las mismas y obtener valores estadísticos y gráficos que muestren la variabilidad espacial y temporal del elemento climático objeto de estudio. si la prueba de salto en la media resulta significativa. podría cortarse en ... resulta recomendable realizar homogeneizaciones con diferentes parámetros y comprobar cuál de ellas resulta más satisfactoria. de los cuales sólo los tres primeros han de asignarse explícitamente (los demás adoptan por defecto los valores que aparecen entre paréntesis): . usaremos la orden: outrename("Tmin". este paquete incluye la función dahstat. dado que los datos añadidos pueden servir para confirmar o rechazar inhomogeneidades localizadas en la parte final de las series. Para evitar la reescritura de los archivos de salida de cada proceso. Resumiendo. pueden renombrarse con la función outrename. que puede invocarse con los siguientes parámetros. Sólo tiene 1 referencia! (No se elimina) malos: Para saltos en la. pueden conservarse para futuras homogeneizaciones de la misma. Desgraciadamente los metadados suelen ser muy incompletos o incluso no existir en absoluto. Para facilitar algunos de los cálculos más frecuentes.*. 6. En estos casos. como sería el caso cuando esa base se está actualizando con nuevos datos con el paso del tiempo. 2003)... siendo recomendable entonces rehomogeneizarla una vez al año. el único modo de decidir cuál de los dos es el sospechoso es basarse en los metadatos. 2005. que añadirá un sufijo a su nombre base. aunque es totalmente recomendable que el usuario los tenga en cuenta para comprobar si los resultados de la homogeneización son consistentes con ellos.

(FALSE por defecto. "std" Desviaciones típicas. pernum Número de años sobre los que expresar los valores de las tendencias (100). permitiendo al usuario la aplicación de sus propios análisis.esh) a incluir en el fichero de salida (4 por defecto. mnpd Filtrar las series que no posean este porcentaje mínimo de datos originales (0). 2 (calcular su media. "\n". "q" Cuantiles (ver el parámetro prob). "tnd" Tendencias. eol Estilo de finalización de línea. con lo que se usarán todas las series). ndec Número de decimales de los valores calculados (1). func Poner func=TRUE para filtrar las series que no estuvieran en funcionamiento al final del periodo de estudio. out Parámetro estadístico a calcular (el nombre del fichero de salida llevará esta extensión): "med" Medias (parámetro por defecto). 0. nm Número de datos por año en cada estación (12). . pero leerá las series homogeneizadas. anyi Primer año del periodo de estudio. lo que produce los mismos resultados que out="mdn" ). mnsh Filtrar las series cuyo SNHT sea superior a éste (0). que es el cálculo por defecto). 3 (el valor anual será el máximo de los nm valores). por defecto). prob Probabilidad para el cálculo de los cuantiles (si se ha establecido la opción out="q" . "min" Mínimos. para identificar los datos calculados sólo por el código de cada estación). "mdn" Medianas.5 por defecto. eshcol Columnas del fichero de estaciones homogeneizadas (*.24 varcli Acrónimo del nombre de la variable climática estudiada. Cualquier otra opción evitará realizar cálculo alguno. 1 (sumar los nm valores del año). (Código de nueva línea. anyip Primer año del periodo de cálculo (anyi). anyfp Último año del periodo de cálculo (anyf). sep Cadena de caracteres que debe usarse para separa los datos de salida (" " por defecto). vala Valor anual a calcular (2). anyf Último año del periodo de estudio. "max" Máximos. o 4 (el mínimo de los valores). Pueden dársele los valores 0 (no calcular ningún valor anual).

se pueden obtener valor separados por punto y coma estableciendo sep=’.eshcol=c(4.12 -0.07 0.01 0.1956.08 0.19 0.08 0.05 0.. Ejemplo del comienzo de ese fichero de salida: "Cód.1 0.17 0. con la excepción de los cuantiles. para obtener las normales mensuales del periodo 1971-2000 a partir de las temperaturas mínimas previamente homogeneizadas.06 0. que podría ser importado por un SIG para producir un mapa de tendencias.21 0. cuya extensión será qPP. Un ejemplo real de baja variabilidad se encontró al investigar un cambio en la media de una estación termométrica situada en un aeropuerto. siendo PP la probabilidad escogida con el parámetro prob expresada en %.09 0. los cálculos deseados se aplicarán a todas las series. 1956.1 -0.’. Por tanto.2))9 De este modo obtendríamos la lista de tendencias en un fichero llamado Tmin_1956-2005.19 0.05 -0. haríamos: dahstat("Tmin". expresadas ◦ C/década (en lugar de por siglo) con dos decimales. mientras prosiguen los trabajos en busca de las técnicas apropiadas para abordar este reto.05 0.2 30 -0. . En el fichero de salida. dado que los valores por defecto de los parámetros mnpd. 1971.13 0.1 -0.esh) tras los códigos de estación.21 0.24 0.08 0.5 -0. Los ficheros de salida tendrán el mismo nombre base que los demás.25 Si no se especifica otra cosa.tnd. e incluir las coordenadas de las estaciones (columnas 1 y 2 del fichero Tmin_1956-2005.76 .13 -0. ordenaríamos: dahstat("Tmin". Por ejemplo. y su extensión será la correspondiente a la opción out elegida. y los valores diarios son generalmente demasiado ruidosos para permitir esa detección. (Recordar que en R las cadenas de caracteres pueden especificarse tanto con dobles comillas como con apóstrofres).vala=1.11 0. puesto que la detección de saltos en la media de las series es básicamente un problema de relación señal/ruido." "X" "Y" "Ene" "Feb" "Mar" "Abr" "May" "Jun" "Jul" "Ago" "Sep" "Oct" "Nov" "Dic" "Anual" "S03" 27 53.15 0.ndec=2. gracias a que la cercana ubicación de los sensores de temperatura en pista proporcionaron una referencia muy próxima para estudiar la serie 9 La función de concatenación c sirve en R para suministrar un vector de valores. 7.04 0.02 -0.01 0. 2008).04 0.01 0. mnsh y func no filtrarán ninguna serie. con la ayuda de otros paquetes (Bivand et al. pero este comportamiento puede cambiarse con el parámetro sep. 2000) Pero si lo que queremos es calcular las tendencias para todo el periodo de estudio 1956-2005.75 "S11" 49. 2005.12 -0.07 0. este paquete no debería aplicarse a la detección de cambios en las medias en series de datos diarios.15 0.05 0.pernum=10.. Por tanto. Y si los datos son diarios o sub-diarios? En los últimos años ha aumentado el interés por la homogeneización de datos diarios. los valores calculados estarán separados por un espacio en blanco. Alternativamente.2005.23 0. a no ser que esos cambios sean suficientemente grandes o la variabilidad de los datos muy pequeña..8 26.out="tnd".1.12 0. podríamos generar ese mapa sin abandonar R.17 -0.53 "S08" 31. Esta es una tarea bastante difícil.9 0.

el que contuviera los valores diarios se llamaría Tmin-d_1956-2005. MM=mes y DD=día). Debe suministrarse con el formato ’AAAA-MM-DD’ (AAAA=Año. cuando un aguacero tiene lugar alrededor de la hora de la observación y es asignado a un día o al siguiente según la hora en la que alcanza a cada pluviómetro. Nótese que un error de 10◦ C al leer o transcribir la temperatura máxima de un día disminuye a sólo 0. Esto puede pasar incluso con series diarias de precipitación.est sería una mera copia del Tmin_1956-2005. Para evitar conflictos en los nombres de los ficheros de datos diarios y mensuales. tVt=0. que comparte muchos parámetros con dahstat: varcli. es en ellas donde debería realizarse el control de calidad. y eso permitió detectar que una operación de mantenimiento defectuosa produjo un cambio en la media de 0. puesto que el paso de perturbaciones frontales o células convectivas posiblemente tormentosas tendrá lugar a distintas horas en las estaciones de la red de observación. anyi. cosa más difícil de ver en las series de datos mensuales. 2005. La proximidad de los registros de referencia hizo posible realizar esa detección en las diferencias de los datos diezminutales. antes que en las series agregadas de datos mensuales. anyfp y ndec. puesto que la persistencia de un determinado tipo de circulación atmosférica puede inducir algún periodo de anomalías diarias altamente autocorrelacionadas. anyf. para permitir una correcta asignación de cada dato diario al mes que le corresponda. puesto que los datos diarios no tienen porqué empezar . Por consiguiente. Después de haber obtenido las series de datos diarios con los datos ausentes rellenados y los datos anómalos corregidos mediante la función homogen. aquéllos se distinguen en este paquete añadiendo el sufijo -d al acrónimo de la variable. anyip. Por ejemplo. aunque en este último caso la ya mencionada falta de sincronización puede hacer muy difícil disponer de estaciones de referencia útiles.dat. por ser iguales o similares a otros que ya hemos visto con anterioridad: ini Fecha inicial. De todas formas.pdf pueden revelar algún salto importante en la media que podría valer la pena corregir. cosa que hubiera sido muy problemática si esa referencia no hubiera existido. tanto diarias (lo más frecuente en el caso de estaciones de aficionados colaboradores) como a instervalos más cortos (normalmente en estaciones meteorológicas automáticas). Para ello puede hacer uso de la función dd2m. La llamada a la función homogen sería en este caso: homogen("Tmin".9◦ C. incluso con series de datos diarios.17◦ C en la temperatura media mensual (si se calcula como promedio de las máximas y las mínimas). puede hacerse una nueva aplicación de homogen estableciendo valores apropiados para tVt y snhtt) en lugar del valor cero suministrado antes para evitar el análisis de saltos.dat (y el fichero de estaciones Tmin-d_1956-2005. si hemos estado trabajando con los valores mensuales del fichero Tmin_1956-2005. El principal problema con los datos subdiarios cuando no hay referencias muy próximas reside en la falta de sincronía entre las medidas. aunque generalmente sea desaconsejable la detección de saltos en la media en series de datos diarios.est). En este caso. nm=0. siempre que sea posible la detección y correción de datos anómalos debería realizarse sobre las medidas originales. ini="1956-01-01") Los gráficos generados en Tmin-d_1956-2005. También será importante usar una ventana swa grande para la prueba escalonada de SNHT. el usuario puede desear obtener las correspondientes series mensuales. sin valor por defecto. Los otros parámetros de dd2m también resultarán familiares. 1956.26 problemática.

aplicaríamos esta función a los datos diarios “homogeneizados” (aunque lo más seguro es que no hayamos corregido saltos en la media) de nuestro ejemplo del siguiente modo: dd2m("Tmin". valm Valor mensual a calcular: 1 (suma). 3 (máximo). pudiendo el usuario incluir estas series manualmente en una base de datos más amplia. . puesto que los datos mensuales conservarán el mismo orden de estaciones. con el nuevo sufijo -m que nos indica que contiene datos mensuales calculados a partir del fichero de datos diarios. ini=’1956-01-01’) El fichero de salida se llamará Tmin-m_1956-2005. Si se necesitan. 2 (media. Esta será la única salida de dd2m. las coordenadas y nombres de las estaciones se pueden tomar directamente del fichero Tmin-d_1956-2005.est. o 4 (mínimo). el valor por defecto). nmin Número mínimo de datos diarios disponibles en un mes para calcular el valor mensual (15 por defecto).dah. na. evitando así sobreescribir un posible fichero Tmin_1956-2005. Por tanto. 2005. 1956.dah ya existente.strings Código de ausencia de dato en el archivo de datos diarios ("NA" por defecto.27 el 1 de enero. el estándar de R).

etc). En los siguientes apartados se pueden ver ejemplos de aplicación de las mismas. 4. margen Vector de márgenes para el gráfico (para ser pasado a la función par. uni Unidades del viento para encabezar la leyenda (’m/s’). 0.. ang Ángulo donde situar las etiquetas de las circunferencias (3*pi/16). o cualquier otro valor (no se rotulará ninguna). main="Rosa anual del viento") No hay ninguna restricción en cuanto al número de columnas de la tabla de datos.33.1. 4. (Esta función no tiene en cuenta la cabecera de las columnas). sino que sirven para generar gráficos de rosas de los vientos y diagramas de Walter y Lieth. fnum Número de referencias circulares a dibujar (4 circunferencias por defecto). . fint Incrementos (en %) de las referencias circulares (5 por defecto). ang=-3*pi/16.92. 10 Contracción del catalán rosa dels vents.2)).start=. 2 (todas. key Fijarlo a FALSE si no se desea la leyenda que aparecería si se dan más de una fila (intervalos de velocidad) de frecuencias. con tal de que la primera de ellas corresponda a las frecuencias del viento de dirección norte. ver la ayuda de parámetros gráficos de R. la orden siguiente generaría el gráfico de la figura 17: rosavent(frecvto. Cualquier otro parámetro gráfico que quiera establecerse (como el título de la figura.. 0)). Por defecto vale c(0. Ejemplo: Supongamos que tenemos las siguientes frecuencias en una tabla de datos llamada frecvto (que podemos haber leído de un fichero o calculado por otros medios): N NNE NE ENE E ESE SE SSE S SSW SW WSW W WNW NW NNW 0-3 59 48 75 90 71 15 10 11 14 20 22 22 24 15 19 33 3-6 3 6 29 42 11 3 4 3 9 50 67 28 14 13 15 5 6-9 1 3 16 17 2 0 0 0 2 16 33 17 6 5 9 2 Entonces.5..end=. Otras funciones de climatol Este paquete incluye dos funciones adicionales que no guardan relación con la homogeneización.. flab Parámetro para indicar qué circunferencias deben rotularse: 1 (sólo la más externa). y acepta los siguientes parámetros: frec Tabla de datos con las frecuencias del viento.28 8. col Colores para rellenar los polígonos de frecuencias (rainbow(10. 4. el comportamiento por defecto). Rosas de los vientos La función para su generación se llama rosavent10 . . 8.

Los parámetros que admite son (entre paréntesis. 8. mínimas diarias y mínimas mensuales.29 Rosa anual del viento m/s 0−3 3−6 6−9 >9 N W E 4% 8% 12 % 16 % S Figura 17: Ejemplo de una rosa de los vientos obtenida con la función rosavent. señalando los meses con heladas probables o seguras. y a los botánicos Bagnouls y Gaussen se les ocurrió trazar la línea de precipitaciones mensuales a una escala doble que la de las temperaturas. 1957). incluso en las zonas más lluviosas (Walter y Lieth. Walter y Lieth mejoraron ese diagrama añadiendo información climática suplementaria. La función diagwl nos permite generar este tipode diagrama climático a partir de una tabla de datos que contenga las medias mensuales de precipitación total y temperaturas máximas diarias. . para poder distinguir de una manera sencilla los meses húmedos de los secos (según que la línea de las precipitaciones se sitúe por encima o por debajo de la de las temperaturas). los valores por defecto): dat Datos climáticos mensuales para generar el diagrama. 1960). y lo llamaron diagrama ombrotérmico (Bagnouls y Gaussen. Climogramas de Walter y Lieth Los diagramas climáticos se han usado desde hace mucho como un medio de sintetizar el clima de un lugar.2. y encogiendo la escala de las precipitaciones cuando sobrepasa los 100 mm mensuales para permitir su aplicación a todo el mundo. No mucho más tarde.

9 11.2 15.0 3. llamaríamos a la función de este modo: diagwl(datcli.4 -7. supongamos que ya hemos leído nuestras medias climáticas mensuales como una tabla de datos llamada datcli.4 Jun 25.1 Feb 69. margen Márgenes del gráfico (c(4.4 15. 15. 11 Sugerencia de Bogdan Rosca .2 31.1 19.9 8.5 17. "en" en inglés. shem Fijar a TRUE si la estación está ubicada en el hemisferio sur (FALSE).1 -0. anotado con las medias anuales de ambos elementos (en la parte superior) y las temperaturas máximas diarias medias del mes más cálido y mínimas diarias medias del mes más frío (en el margen izquierdo). y el rectángulo se rellena (por defecto) con un azul más oscuro que si sólo es igual o inferior a cero la temperatura mínima absoluta del mes.4 9.9 18. mlab Iniciales de los meses para rotular el eje X: "es" en español. alt Altitud de la estación climatológica (NA).3 3.1 27. Los meses en que el promedio de temperatura mínima diaria es igual o inferior a cero podemos estar seguros de que habrá heladas.t.2 Jul 8.9 8. Otros parámetros gráficos que se desee establecer.5 26.6 Ago 37. 97. y que son las siguientes: Ene Prec.m.. pudiendo hacernos una idea de la intensidad de la aridez o el exceso hídrico apreciando el área cubierta por cada tipo de trama.5 22.9 -3. en cuyo caso consideramos que las heladas pueden aparecer o no.8 110.0 -1. sfcol Color de relleno para heladas seguras ("#09a0d1" ).7 4. La trama de líneas azules verticales indica los meses húmedos.alt=100.mlab="es") Puede verse el gráfico de las medias mensuales de precipitación y temperatura.5 Abr 71. -5.6 Para generar el climograma de la figura 18. Como ejemplo.4)). pcol Color del trazo de precipitaciones ("#005ac8" ).3 14.2 9. La probabilidad de helada se muestra mediante rectángulos achatados adyacentes al eje de 0◦ C.9 -1.1 Ab. con cualquier otro valor rotularán con números del 1 al 12 ("" ).8 13.1 31. mientras que la trama de puntos rojos señala los áridos.t.0 Mar 85.7 4.7 -3.t.5.2 Sep Oct Nov Dic 81. pfcol Color de relleno para heladas probables ("#79e6e8" ).est="Estación de ejemplo".4 Min.30 est Nombre de la estación climatológica ("" ).6 2. -0.4.6 144.9 23. tcol Color del trazo de temperaturas ("#e81800" )..6 126. per Periodo de cálculo de los datos mensuales ("" ).5 12.per="1961-90".2 1.4 Max.3 16.8 11. . p3line Fijar a TRUE para dibujar una línea suplementaria de precipitaciones a escala triple de la temperatura11 (FALSE).7 May 48.

Wieringa J (2003): Guidelines on climate metadata and homogenization. Bivand RS. WCDMP-No. Ann. Geneve. 172 pp. Brunet M.. 53. Masson. Month. Bagnouls F. 6:661-675. Daget J (1979): Les modèles mathematiques en écologie. . Weath. of Climatol. Paris. Int. Khaliq MN. WMO-TD No. Gaussen H (1957): Les climats biologiques et leurs classifications. Alexandersson H (1986): A homogeneity test applied to precipitation data.31 Estación de ejemplo (100 m) 1961−90 14.. 27:681687. 376 pp. Jour. 80:129-133. Springer.4 −0. World Meteorological Organization..4 E F M A M J J A S O N D Figura 18: Ejemplo de un diagrama de Walter y Lieth obtenido con la función diagwl. Gómez-Rubio V (2008): Applied Spatial Data Analysis with R. Bibliografía Aguilar E. 1186. Auer I.. Kohler MA (1952): Interpolation of missing precipitation records.7°C 906 mm 300 °C mm 50 100 40 80 30 60 20 40 10 20 0 0 31. 355:193-220. Pebesma EJ. Ouarda TBMJ (2007): On the critical values of the standard normal homogeneity test (SNHT). Collection d’Écologie 8. J. Peterson TC. Climatol. 9. de Geogr. Paulhus JLH. Rev.

se realizaron simulaciones tipo Monte Carlo adaptadas específicamente a la manera en que se aplica esta prueba en el paquete climatol: Se generaron 2000 series de ruido blanco de 600 términos con la función de R rnorm para simular series de 50 años de anomalías mensuales de una estación homogénea con series de referencia también homogéneas. Climatol. Anexo: Valores umbrales para las pruebas SNHT Si bien ya se han publicado valores críticos para la prueba SNHT de Alexandersson. 48. . Pero aquí la prueba sólo se aplica una vez para cada serie cuando la ventana la contiene por completo (cuando swa=300). Salinger J. Fischer. Gullett D.0 desviaciones típicas justo en mitad de la serie (a partir del término 301). Easterling DR. Tuomenvirta H. 2nd edition. Auer I. Böhm R. Plummer N. Sokal RR. De cada una de las pruebas se guardó el máximo valor del estadístico T y la posición donde se encontró. A cada una de estas series se aplicaron saltos de 0. 99. Førland E. Parker D (1998): Homogeneity Adjustments of ’In Situ’ Atmospheric Climate Data: A Review. puesto que los valores críticos publicados hasta ahora muestran un incremento constante (aunque asintótico) al aumentar el tamaño muestral. Rohlf PJ (1969): Introduction to Biostatistics. Hanssen-Bauer I. 120. Por tanto. 24.5. y se realizó la prueba SNHT en ventanas de 2*swa términos escalonados en pasos de swa = 6. podemos obtener los valores umbrales para evitar falsas detecciones de saltos en la media con niveles de confianza del 90 %. 1.0 (ningún salto). 10.5 y 2. Mestre O. J. 18:1493-1518. Nicholls N. Jena. W. Estudiando la cola derecha de la distribución acumulada empírica de los valores máximos del estadístico T de la prueba SNHT. Walter H. el número total de resultados obtenidos fue: 2000 series * 5 saltos * 10 tamaños de semiventana = 100000. 60. Karl TR.H. Alexandersson H. Resulta curioso el máximo que presentan los gráficos cuando se usan ventanas de tamaño medio. Freeman. 1. Vincent L.32 Peterson TC. La irregularidad de los gráficos debe atribuirse al azar. pero el aspecto general no debe diferir mucho si se realizara un número mucho mayor de simulaciones. Groisman P.9 %. mientras que con ventanas pequeñas la prueba se aplica varias veces sobre la misma serie. En primer lugar analizaremos los resultados de las series homogéneas (aquéllas en las que no se introdujo salto alguno). 363 pp. Szentimrey T. para estos niveles de confianza y para los 10 desfases de swa términos de una ventana de tamaño 2*swa.0.5 % y 99. Torok S. 240 y 300 términos. 0. New York. 99 %. permitiendo al estadístico T alcanzar valores más altos. G. Lieth H (1960): Klimadiagramm Weltatlas. 180. Jones P. 90. 12. Heino R.. 95 %. Int. La figura 19 muestra esos umbrales.

999 0.9 6 12 24 48 60 90 120 180 240 300 swa (muestras de 2*swa términos) Figura 19: Valores umbrales (tV) de diez pruebas SNHT aplicadas a ventanas de 2*swa términos escalonadas swa términos hacia adelante sobre series de ruido blanco. Lo siguiente que queremos saber es qué tan buenos son estos valores umbrales tV a la hora de detectar correctamente los saltos en las medias. con tal de tolerar una probabilidad de falsos positivos del 10 % (nivel de confianza de 0. En cuanto a los falsos saltos (figura 21).5 y 2 desviaciones típicas) se detectan casi totalmente con ventanas escalonadas de unos 100 términos o más (desde swa=48 en adelante). mostrando que los saltos de 0. para cinco probabilidades de evitar falsas detecciones de saltos en la media. Para averiguarlo se contaron los valores de tV superiores a los umbrales.995 20 0.5 desviaciones típicas en una posición errónea alcanza hasta un 35 %.5 desviaciones típicas son bastante difíciles de detectar. y más del 90 % incluso para muestras de 120 términos (swa=60).95 10 15 tV 0. y se calificaron como correctos si la localización del salto tenía un error inferior a 12 términos12 y como erróneos en caso contrario. para los que el índice de aciertos es de alrededor del 63 % para los cinco niveles de confianza de evitar falsas detecciones.99 0. si tratamos con series mensuales . Ambos se contabilizaron por separado para cada uno de los 10 valores de swa. Los saltos mayores (de 1.90).33 tV's para ruido blanco Prob. incluso con los mayores tamaños muestrales. Los saltos de 1 desviación típica se detectan con mayor fiabilidad: el 95 % cuando la prueba se aplica a las series completas (swa=300). con los mayores tamaños muestrales la probabilidad de detectar los de 0. mien12 Un año. las 4 magnitudes de salto y los 5 niveles de confianza. 0. La figura 20 resume los resultados de las proporciones de aciertos.

99 Confidence level of no false breaks 0.999 0.95 Confidence level of no false breaks 6 12 0.99 0.995 0. las mayores dificultades se encuentrarán cuando tratemos de detectar saltos .995 0.9 0. deviation shifts Hit rate (per thousand) 0. y tamaños muestrales de 2*swa términos escalonados. 1.9 0.9 0.5 std.99 0.999 0.999 Confidence level of no false breaks 24 48 60 90 120 180 240 300 Figura 20: Proporciones de acierto para diferentes magnitudes de salto.34 tras que con las muestras más pequeñas la probabilidad cae a menos del 1 % si el umbral de detección (tVt) se establece suficientemente alto (niveles de confianza superiores a 0.95 Confidence level of no false breaks 0.999 2. y para magnitudes de salto mayores es prácticamente despreciable (excepto cuando los tamaños muestrales más pequeños se combinan con bajos niveles de confianza).995 0.5 std.0 std.99).95 0. En las simulaciones de 1 desviación típica esta probabilidad de localización errónea es de un 5 a 6 % en la mayoría de casos. deviation shifts 0.0 std.99 0. deviation shifts 200 400 600 Hit rate (per thousand) 400 300 200 0 0 100 Hit rate (per thousand) 500 800 600 0. niveles de confianza de evitar falsas detecciones. Por consiguiente.9 0.995 0.95 0. deviation shifts 600 400 0 0 200 200 400 600 Hit rate (per thousand) 800 800 1000 1000 1.

5 desviaciones típicas. La figura 22 muestra un “índice de bondad” que.35 en la media de hasta 1 desviación típica.9 en las muestras de mayor tamaño.4. Para saltos de 0. calculado como el producto de la probabilidad de detección y el complemento de la probabilidad de falsas detecciones. hay un techo claro situado en 0. intenta sintetizar ambos indicadores. mientras que para saltos de 1 desviación típica este índice alcanza a valer 0. . porque entonces la menor probabilidad de detección se combina con un mayor riesgo de situar el corte en una posición errónea.

El valor por defecto de swa en la función homogen se ha fijado en 60 (línea azul claro en las figuras).5 std. la aplicación de la prueba SNHT a las series completas permitirá detectar los saltos menores que no se hayan corregido con las pruebas sobre ventanas escalonadas.95 Confidence level of no false breaks 0.99 0.0 std.999 0.99 0. niveles de confianza para evitar cortes falsos. deviation shifts 0.9 0. deviation shifts 0.95 Confidence level of no false breaks 6 12 0.36 1.995 0. y mostradas con trazos diferentes). Importante nota final: Estos umbrales de tVt se han obtenido a partir de series sintéticas de .995 0.999 Confidence level of no false breaks 24 48 60 90 120 180 240 300 Figura 21: Proporción de falsa detección para diferentes magnitudes de salto.0 std.995 0. deviation shifts 0 0 20 40 60 False hit rate (per thousand) 200 100 False hit rate (per thousand) 300 80 0.9 0.5 std.999 Confidence level of no false breaks 2.9 0.9 0. deviation shifts 60 20 40 False hit rate (per thousand) 60 40 0 0 20 False hit rate (per thousand) 80 80 1.99 0.99 0. y tamaños de ventana de 2*swa términos (escalonadas swa términos.95 0. Y en la segunda fase del proceso de homogeneización.999 0.995 0.95 0. como un compromiso entre una buena probabilidad de detección de saltos y un alto poder de discriminación cuando en la serie se presentan más de un salto en la media (situación bastante frecuente).

0 0..0 (abajo) desviaciones típicas.0 Goodness index for 1. diario. .0 0.6 swa 24 48 60 90 120 180 240 300 0.995 0. dependiendo de la variable climática. 1.999 Confidence level of no false breaks 0.8 1.9 0.999 Confidence level of no false breaks Figura 22: Índice de bondad para saltos de 0. y el tipo de dato (anual.2 Goodness index 0.). su variabilidad espacial.4 6 12 0.5 sd shifts swa 60 90 120 180 240 300 0. . la densidad de la red de observación.0 Goodness index for 0. y por tanto es aconsejable ajustarlos empíricamente.99 0.5 (arriba) y 1. con ayuda de los gráficos de diagnóstico de una primera aplicación exploratoria.4 0.2 Goodness index 0.995 0.. estacional.95 0.99 0. mensual.95 0.8 6 12 0. para adaptar los resultados a las necesidades de cada caso particular. las series de anomalías mostrarán inevitablemente algún grado de autocorrelación y tendencias generales o locales.37 ruido blanco.0 sd shifts 0.6 24 48 0.9 0. pero en el mundo real. Es por ello por lo que los valores por defecto de tVt y snhtt se han fijado en la función homogen notablemente más altos que los obtenidos en las simulaciones de Monte Carlo.