You are on page 1of 14

Paola Ortiz

Cuenca, Enero 7 de 2015

1
Contenido
INTRODUCCIN......................................................................................................................... 2
OBJETIVOS ................................................................................................................................ 3
MARCO TERICO....................................................................................................................... 3
1. Distribuciones de probabilidad ........................................................................................ 3
1.1. Parmetros estadsticos: .............................................................................................. 3
1.1.1. Media : ............................................................................................................. 4
1.1.2. Varianza : ........................................................................................................ 4
1.1.3. Desviacin estndar ............................................................................................ 4
1.1.4. Coeficiente de variacin....................................................................................... 4
1.1.5. Coeficiente de asimetra : ................................................................................... 4
2. Anlisis de frecuencia ..................................................................................................... 5
3. Ajuste de distribuciones Cmo elegir una distribucin?................................................... 5
4. Conceptos importantes................................................................................................... 6
- Perodo de retorno ..................................................................................................... 6
- Probabilidad de excedencia......................................................................................... 6
5. Mtodos de ajuste a distribuciones ................................................................................. 6
Mtodo del Plotting Position .............................................................................................. 6
6. Pruebas de ajuste ........................................................................................................... 7
6.1. Prueba Smirnov Kolmogorov ........................................................................................ 7
6.2. Prueba Chi Cuadrado ................................................................................................... 7
7. DISTRIBUCIONES SIMTRICAS Y ASIMTRICAS .................................................................. 8
7.1. Distribucin General de Valores Extremos ................................................................ 8
7.2. Distribucin de Gumbel o extrema tipo I .................................................................. 8
7.3. Distribucin de Frechet ........................................................................................... 9
APLICACIONES..........................................................................................................................10
Aplicacin Distribucin de Gumbel .....................................................................................10
CONCLUSIONES........................................................................................................................12
RECOMENDACIONES ................................................................................................................12
BIBLIOGRAFA ..........................................................................................................................13

1
INTRODUCCIN

Para hacer investigacin aplicada a variables, es necesario conocer


cmo se distribuyen los datos de una muestra en su universo. Algunos
estudios producen resultados con una distribucin no normal (forma de
campana); en estos casos se deben utilizar tcnicas no paramtricas.

Para extraer conclusiones del comportamiento de una variable a partir


de series de datos, es necesario disponer de series histricas de
valores de la variable; cuanto mayor sea la serie de datos, mayor ser
la fiabilidad de las deducciones extradas. En esta etapa de un anlisis
estadsitico, evaluar la probabilidad de que se presente en el futuro un
valor mayor o menor a otro y evaluar qu valor se superar en un
periodo dado de tiempo, son los principales objetivos.

Hay variables naturales que se ajustan a distribuciones simtricas de


probabilidad y otras que no. Las que no se ajustan a distribuciones
simtricas registran una proporcin desuniforme de valores pequeos y
grandes, por lo tanto, se distribuyen asimtricamente en funcin de otra
variable cuya relacin se est estudiando.

Las distribuciones de probabilidad pueden estimar con alta fiabilidad la


ocurrencia de un evento pero se debe recalcar que no todas son
adecuadas para todos los fenmenos. Los eventos que contiene este
trabajo, tienen una serie de datos que s pueden asumir parmetros de
variable como media y varianza y un tipo de distribucin.
Especficamente, se analizarn dos distribuciones: la de Gumbel y
Frechet.

2
OBJETIVOS
- Establecer las funciones de distribucin de probabilidad que mejor ajustan a
una distribucin determinada de valores extremos.
- A ajustar un ejemplo prctico de Ingeniera Civil a las distribuciones de Gumbel
y Frechet.

MARCO TERICO

1. Distribuciones de probabilidad
El comportamiento de las variables aleatorias discretas o continuas se describe con la
ayuda de Distribuciones de Probabilidad. La variable se designa con mayscula y un
valor especfico de ella con minscula.
P(z=a) denota la probabilidad de que un evento asuma el valor a; de forma similar, P(a z
b) denota la probabilidad de que un evento se encuentre en el intervalo (a,b). Si se
conoce la probabilidad P(a z b) para todos los valores de a y b, se dice que la
Distribucin de Probabilidades de la variable z es conocida.
Si z es un nmero dado y se considera la probabilidad P(Z z), F(z) = P(Z z), F(z) es la
funcin de distribucin acumulada y f(z) es la funcin densidad de probabilidades de la
variable. Para una serie de valores de una variable se tiene las siguientes caractersticas:
b b
i) f ( z )dz 1 ii) P(a z b) f ( z )dz iii) f ( z )dz 0
a b

Adems:

Grfico de http://www.derivadas.es/2008/08/24/distribuciones -de-probabilidad/

1.1. Parmetros estadsticos: Extraen informacin de una muestra indicando las


caractersticas de la poblacin. En orden de importancia, los principales son: media,
varianza, y asimetra.

3
1.1.1. Media : Es el valor esperado de la variable. Muestra la tendencia central de la
distribucin.

media poblacional = x f ( x)dx

1 n
media muestral= x xi
n i 1

1.1.2. Varianza : Mide la variabilidad de los datos respecto a la media.



varianza poblacional = 2 ( x ) 2 f ( x)dx

1 n
varianza muestral = s 2 ( xi x) 2
n 1 i 1

1.1.3. Desviacin estndar : Es una medida de la dispersin de los datos respecto a la


media. Es la raz cuadrada de la varianza, se representa con la letra s.

Curva con Menor Dispersin Curva con Mayor Dispersin


Menor desviacin respecto a la media Mayor desviacin respecto a la media

1.1.4. Coeficiente de variacin: Es una medida adimensional de la variabilidad.

s
Cv para poblaciones Cv para muestras
x

1.1.5. Coeficiente de asimetra : La distribucin de los valores de una distribucin


alrededor de la media se mide por la asimetra. Al ser coeficiente, es por
supuesto, adimensional.
1
E[( x )3 ] ( x )3 f ( x)dx , E`[( x )3 ]
3

n
n ( x x) 3
Entonces Cs i 1
(n 1)( n 2) * s 3

4
2. Anlisis de frecuencia
Se analiza la frecuencia para predecir el comportamiento de los valores de un evento,
a partir de los datos registrados. Su confiabilidad depende de la longitud y calidad del
registro de datos y de la incertidumbre propia de la distribucin de probabilidades
seleccionada.

El anlisis de frecuencia consiste en determinar los parmetros de las distribuciones y


determinar despus la magnitud del evento para un perodo de retorno dado. Para
determinar la magnitud de eventos extremos cuando la distribucin de probabilidades
no es una funcin fcilmente invertible, se requiere conocer la variacin de la variable
respecto a la media. Chow en 1951, propuso determinar esta variacin a partir de un
factor de frecuencia KT que se expresa como:

X T KT , estimando que X T x KT s

Se debe recalcar que:


- Los datos a ser analizados describen eventos aleatorios independientes entre
s.
- Los procesos involucrados son estacionarios a travs del tiempo.
- Los parmetros poblacionales pueden ser estimados a partir de una muestra.
Para una distribucin dada, puede determinarse una relacin entre K y el perodo de
retorno T que veremos en poco.

3. Ajuste de distribuciones Cmo elegir una distribucin?


En la modelacin de puntos mximos, las principales distribuciones que se utilizan son
Log - Normal, Gumbel y Log-Gumbel. Para seleccionar la distribucin de
probabilidades apropiada se deben tener en cuenta las consideraciones siguientes:

Cuando en la serie histrica se observan valores atpicos es necesario verificar la


sensibilidad del ajuste.

Las distribuciones de dos parmetros fijan el valor del coeficiente de asimetra, lo


que en algunos casos puede no ser recomendable. La distribucin Log - Normal
de dos parmetros slo es recomendable s el coeficiente de asimetra es cercano
a cero. Las distribuciones Gumbel y Log - Gumbel son recomendables si el
coeficiente de asimetra de los eventos registrados es cercano a 1.13.

Para ajustar distribuciones de tres parmetros (Log Normal III, Log Pearson) se
requiere estimar el coeficiente de asimetra de la distribucin, para ello es
necesario disponer de una serie con longitud de registros mayor de 50 aos, (Kite,
1988). Las distribuciones de dos parmetros son usualmente preferidas cuando
se dispone de pocos datos, porque reducen la varianza de la muestra, (Ashkar, et
al. 1994).

Para seleccionar la distribucin de probabilidades adecuada se debe tratar de


utilizar informacin adicional del evento al que pertenecen los datos, que permita
identificar la forma en que se distribuye la variable. Usualmente es muy difcil
determinar las propiedades fsicas de los procesos hidrolgicos para identificar el
tipo de distribucin de probabilidad que es aplicable.

5
El tamao de la muestra influye directamente en la confiabilidad de los resultados;
a mayor perodo de retorno, mayor longitud de registros necesaria para mejor
confiabilidad en los resultados.

Cuando la informacin es adecuada el anlisis de frecuencia es el mtodo ms


recomendable para la evaluacin de eventos extremos, ya que la estimacin
depende slo de los valores extremos registrados. Tiene algunas limitaciones
relacionadas con el comportamiento de los valores registrados y con el tamao y
calidad del registro.

4. Conceptos importantes

- Perodo de retorno: se define como el tiempo que transcurre entre dos sucesos
iguales. Sea ese tiempo, T.

- Probabilidad de excedencia: es la probabilidad asociada al perodo de retorno.


As, P(excedencia) = P( x)= 1/T.

5. Mtodos de ajuste a distribuciones

Puede ajustarse una serie a una distribucin de dos maneras:

1) Con el factor de frecuencia (mostrado y definido anteriormente como K).


2) Hallando la distribucin emprica de los datos muestrales, por el mtodo de
Plotting Position.

Mtodo del Plotting Position


Trabaja con la probabilidad de excedencia asignada a cada valor de la muestra.
Se han propuesto numerosos mtodos empricos, pero las ms frecuentes son:

m m 2m 1
California P Weibull P Hazen P
n n 1 2n
Donde P = probabilidad de excedencia
n = total de valores
m = lugar que ocupa el valor en la lista de valores ordenada
descendentemente (m=1 para el valor mximo)

6
6. Pruebas de ajuste
Qu distribucin se ajusta mejor a un registro?

Kite (1988) y Mamdouh (1993) afirman que no existe consistencia sobre cul es la
distribucin que mejor se ajusta a los puntos mximos y recomiendan seleccionar
el mejor ajuste a criterio del modelador con dos posibles formas:

- Prueba de ajuste grfico: se dibujan los valores registrados en la serie contra la


distribucin terica de probabilidades y de manera visual (subjetiva) se determina
si el ajuste es adecuado o no.

- Pruebas estadsticas de bondad del ajuste: en las que se calcula un estimador y


se compara con un valor tabulado para determinar si el ajuste es adecuado o no.
Son: Prueba de Smirnov Kolmogorov, Prueba Chi Cuadrado y Prueba de
Anderson Darling.

6.1. Prueba Smirnov Kolmogorov


Es un test no paramtrico, vlido para distribuciones continuas. Smirnov
Kolmogorov consider la desviacin de la funcin de distribucin de probabilidades
de la muestra P(x) de la funcin de probabilidades terica, escogida Po(x) tal que
Dn max( P( x) Po( x)) . La prueba requiere que el valor Dn calculado con la
expresin anterior sea menor que el valor tabulado Dn para un nivel de
probabilidad requerido. Esta prueba es fcil de realizar y comprende las siguientes
etapas:

- El estadstico Dn es la mxima diferencia entre la funcin de distribucin


acumulada de la muestra y la funcin de distribucin acumulada terica
escogida.
- Se fija el nivel de probabilidad , valores de 0.05 y 0.01 son los ms usuales.
- El valor crtico D de la prueba se obtiene de tablas en funcin de y n.
- Si el valor calculado Dn es mayor que el D, la distribucin escogida se debe
rechazar.

6.2. Prueba Chi Cuadrado


Una medida de la discrepancia entre las frecuencias observadas (fo) y las
frecuencias calculadas (fc ) por medio de una distribucin terica est dada por el
estadstico ,
k
( fo fc )2
2 , donde f o
fc
i 1 fc

- Si el estadstico es igual a cero (=0), las distribuciones terica y emprica se


ajustan exactamente.
- Si el estadstico es mayor que cero (>0), las distribuciones terica y emprica
difieren.
La distribucin del estadstico se puede asimilar a una distribucin Chi-cuadrado
con (k-n-1) grados de libertad, donde:

7
k = nmero de intervalos
n = nmero de parmetros de la distribucin terica.

La funcin se encuentra tabulada. Suponga que una hiptesis Ho es aceptar


que una distribucin emprica se ajusta a una distribucin Normal. Si el valor
calculado de por la ecuacin anterior es mayor que algn valor crtico de , con
niveles de significancia de 0.05 y 0.01 (el nivel de confianza es 1-) se puede
decir que las frecuencias observadas difieren significativamente de las frecuencias
esperadas (o calculadas) y entonces la hiptesis Ho se rechaza, si ocurre lo
contrario entonces se acepta.
Cuando la prueba Chi Cuadrado no puede utilizarse por tamao muestral
insuficiente, se debe recurrir a la prueba Fisher.

7. DISTRIBUCIONES SIMTRICAS Y ASIMTRICAS

Muchas variables se ajustan a la distribucin normal o de Gauss, llamadas


simtricas, pero las que no, se dicen variables de distribucin asimtrica. Sus
ecuaciones han venido desarrollndose y permiten predecir valores para variables
aleatorias continuas con registros de datos extremos.
Hay variables tambin, con valores que no se ajustan a la distribucin de Gauss,
pero sus logaritmos s, entonces se les llama de distribucin log normal.
En hidrologa, los valores medios (de precipitaciones o caudales anuales) suelen
ajustarse a la distribucin simtrica de Gauss, pero los valores mximos no. Por lo
tanto, para estimar valores mximos de variables hidrolgicas, se utilizan la
campana de Gumbel o alguna similar.

Las principales distribuciones de probabilidad utilizadas en hidrologa son:


DISCRETAS CONTINUAS
Binomial Normal
Log-normal
Log Pearson Tipo III (Pearson=Gama)
Gumbel (Valor extremo tipo I)
Goodrich

7.1. Distribucin General de Valores Extremos


Una familia importante de distribuciones usadas en el anlisis de frecuencia
hidrolgico es la distribucin general de valores extremos. Este tipo de
distribuciones se ha utilizado ampliamente para representar el comportamiento de
crecientes y sequas (mximos y mnimos).

7.2. Distribucin de Gumbel o extrema tipo I

Si una variable aleatoria con distribucin de Gumbel, entonces:

()
- Funcin Distribucin Acumulada: ( ) = ( < ) =

8
( )
- Funcin de densidad: ( ) = = () ()

( ) = ( ) ()
1
Donde: = 0.7797 () = = 0.45005 ()

6
- Factor de frecuencia: = (0.5772 + ln(ln(1 )))

Donde T = periodo de retorno

s
- Lmites de confianza: Xt t(1-) Se Se
n
1
[1 1.1396 KT 1.1KT 2 ] 2

Donde: KT = factor de frecuencia


t(1-) = variable normal estandarizada para una probabilidad de no
excedencia de 1-.

Para la distribucin Gumbel se tiene que el caudal para un perodo de retorno de


2.33 aos es igual a la media de los caudales mximos.

7.3. Distribucin de Frechet

Es un caso especial de la distribucin de valores extremos generalizada.


Si es una variable aleatoria que sigue la distribucin de Frechet, entonces:
>0 ln() =
Funcin de distribucin:
(ln())
() = ( < ) = (ln() < ln()) =


( ) =

1
Donde: = 0.7797 () , > 0

= (ln()) 0.45005 (ln())

9
APLICACIONES

El diseo de obras hidrulicas se relaciona siempre con eventos hidrolgicos futuros,


cuyo tiempo de ocurrencia no puede predecirse; por eso, se debe recurrir al estudio de la
probabilidad o frecuencia (Linsley et al., 1988) (Estimacin de funciones de distribucin
de Probabilidad, para caudales mximos, en la Regin del Maule; Mara Alejandra
Aguilera Navarro).

Algunas aplicaciones de la teora de valores extremos, segn Kotz y Nadarajah son


rfagas de viento, contaminacin en el aire y anlisis de corrosin. El matemtico Janos
Galambos (1978) menciona inundaciones, sequas, efectos de aditivos en alimentos,
predicciones de pluviosidad.

Un ejemplo concreto, mencionado por Coles, es el siguiente: supngase que, como parte
de los criterios para el diseo de defensas costeras, se necesita un rompeolas para
protegerse de todos los niveles del mar que se espera que haya durante 100 aos. Segn
Coles, posiblemente hay disponibles datos locales de niveles del mar, pero, para un
periodo mucho ms corto de, 10 aos por ejemplo. Lo interesante, es estimar qu niveles
del mar se pueden alcanzar en los 100 siguientes aos usando los datos de los 10 aos
anteriores (Alejandro Ibez Rosales, Trabajo de Investigacin, Mster Oficial en
Estadstica Aplicada).

Aplicacin Distribucin de Gumbel


Para un estudio sobre la humedad relativa el Bosque Semirido de Santa Elena (Provincia
de Santa Elena), el MAGAP necesita conocer la distribucin de las precipitaciones locales
mximas en 24 horas. El registro de datos que se tiene es el siguiente:

AO 200 2001 2002 2005 200 2008


0 7
Pp mxima en 24 18.0 35.5 47.5 65.0 21.0 30.0
horas
AO 200 2010 2011 2012 201 2014
9 3
Pp mxima en 24 3.5 56.0 40.0 42.5 78.0 82.0
horas

El cuadro deja ver que los datos tienen extrema variabilidad.


La carencia de series hidrolgicas consistentes es muy comn en el pas, pero, como la
zona en estudio, presenta variabilidad extrema, los valores que tendemos a estimar son
mximos, por lo tanto, podramos registrar las 2 o 3 precipitaciones mximas en un ao
para extender la serie de datos.

- Clculo de la funcin de distribucin de Gumbel

Se determina que: = 43.25 S = 23.97 N = 12

Por lo tanto de = 0.45005 () : = 43.25 0.450047 23.97 = 32.46

10
0.0537(32.46)
Y la funcin de Gumbel es () =

- Tabulacin de datos

Tabla 1: Registro histrico de datos de precipitacin del Bosque Semirido de


Santa Elena
Precipitacin Frecuencia Relativa Frecuencia Terica
n mxima en 24 Acumulada ()
horas n/N+1 (Weibull) Acumulada
1 3,50 0,077 0,009
2 18,00 0,154 0,114
3 21,00 0,231 0,158
4 3,00 0,308 0,320
5 35,40 0,385 0,427
6 40,00 0,462 0,513
7 42,50 0,538 0,557
8 47,50 0,615 0,639
9 56,00 0,692 0,753
10 65,00 0,769 0,839
11 78,00 0,846 0,916
12 82,00 0,923 0,932

- Aplicacin de Kolmogorov Smirnov

De la Tabla 1 Dn max( P( x) Po( x)) , por lo tanto D3 = 0.073.


Si el nivel de confianza es del 95% y n=12, de acuerdo a la tabla de distribucin
normal Dt = 0.375

D3 = 0.073 < Dt = 0.375; Por lo tanto se puede decir que el ajuste es bueno.

- Utilidad
0.0537(32.46)
Si la ecuacin de la distribucin es ( ) = , despejando x:

Por lo tanto, para determinar el valor de precipitacin en 24 horas, asociado a un


periodo de retorno y a una probabilidad, recordando la probabilidad de excedencia
y el periodo de retorno, sustituimos el periodo que queremos en la ecuacin
1
1

= ( )) y luego () en la ecuacin de x despejada, entonces:

11
Tabla 2: Precipitaciones mximas en 24 horas asociadas al periodo de retorno T

Con base en la Tabla 2 se puede concluir que:


- Existe un 99% de probabilidades de que en el ao 2015 haya una
precipitacin en 24 horas que no supere los 118.4 mm, o dicho de otro
modo, existe un 1% de probabilidad de que haya una precipitacin que
supere los 118.44 mm.
- Existe un 10% de probabilidades de que en el ao 2015 en el Bosque
Semirido de Santa Elena, haya una precipitacin en 24 horas que supere
los 74.52 mm.

El mismo anlisis se aplica para todos los periodos de retorno involucrados.


El nmero de periodos de retorno considerados no debe ser mayor al nmero
mayor que el doble o triple como mximo, del nmero de datos en la serie en
anlisis.

CONCLUSIONES
- Con aplicaciones concretas de la teora de distribuciones de probabilidad, predecir
valores futuros de variables para anlisis importantes, como construcciones
dependientes de series de datos de caudales, precipitaciones, oleajes y represas en
cuanto a la hidrologa.
- Cuando se desarrolle un anlisis estadstico en el que se deba recurrir a distribuciones
de probabilidad, aunque cuente con una serie de datos 100 % confiable y de longitud
adecuada, el gran nmero de distribuciones de probabilidad que hay, decidir qu
distribucin utilizar y adems aplicar las pruebas de ajuste, puede ser bastante
cansado, por eso es recomendable tomar en cuenta la distribucin y los resultados de
anlisis ya hechos, por ejemplo, en Espaa, los organismos oficiales para
precipitaciones mximas aplican la distribucin SQRT max con muy buenas
aproximaciones.
- La estandarizacin de variables y adaptacin de distribuciones asimtricas a la
distribucin de Gauss, son las herramientas ms importantes para analizar el
comportamiento de variables aleatorias.

RECOMENDACIONES
- Contar con una buena gua de investigacin; puede confundirle en la materia y hacerle
perder tiempo no tener un libro o sitio web claro, sistemtico y completo.
- Consultar lo necesario en varias fuentes.
- Contar con el material necesario durante el desarrollo del trabajo, bsicamente, tablas
y grficos.

12
BIBLIOGRAFA
- Ostle, Bernard. Estadstica Aplicada: Tcnicas de la estadstica, cundo y dnde
aplicarlas. LIMUSA. Mxico 1977.
- Aparicio, F. 1997. Fundamentos de Hidrologa de Superficie. 11 ed. Mxico.
Editorial Limusa S.A. 303 p.
- Araya, S. 2003. Anlisis de la Variacin Temporal de los Caudales Punta
Instantneos en la Cuenca del Ro Purapel, VII Regin. Tesis de Ing. Forestal.
Talca, Chile. Universidad de Talca, Facultad de Ciencias Forestales. 102 p.
- Dur, Jos y Lpez, Javier. Fundamentos de estadstica. Ariel, S.A. Barcelona
1992.
- http://portal.chapingo.mx/irrigacion/planest/documentos/apuntes/hidrologia_sup/FR
ECUENCIA.pdf
- http://datateca.unad.edu.co/contenidos/30172/MODULO%20HIDROLOGIA/leccin_
29_anlisis_de_datos.html
- http://fluidos.eia.edu.co/hidrologiai/probabilidad/probabilidad.htm

13