You are on page 1of 13

UNIVERSIDAD SAN AGUSTIN Arequipa

PRUEBAS DE BONDAD DE AJUSTE


1. AJUSTE DE DISTRIBUCIONES
Para seleccionar la distribucin de probabilidades de la serie histrica se deben tener en cuenta algunas
consideraciones.
Cuando en la serie histrica se observan outliers es necesario verificar la sensibilidad del ajuste
debido a la presencia de estos, ( Ashkar, et al. 1994)
Para el ajuste a las distribuciones Log-Normal, Log-Gumbel y Log-Pearson se reuiere transformar la
variable al campo logar!tmico para modelarla, con lo ue se disminuye la varian"a muestral, pero
tambi#n se filtran las variaciones reales de los datos.
Las distribuciones de dos par$metros fijan el valor del coeficiente de asimetr!a, lo ue en algunos
casos puede no ser recomendable. La distribucin Log - Normal de dos par$metros slo es
recomendable s! el oe!iie"te #e asimetr$a es era"o a ero. Las distribuciones %um&el '
Log-%um&el son recomendables si el oe!iie"te #e asimetr$a de los eventos registrados es
era"o a 1.1(
Para a)ustar #istri&uio"es #e tres *ar+metros %Log Normal &&&, Log Pearson' se reuiere
estimar el coeficiente de asimetr!a de la distribucin( para ello es necesario disponer de una serie con
longitud de registros larga, ma'or #e ,- a.os, %)ite, *+,,'. Las #istri&uio"es #e #os
*ar+metros son usualmente preferidas cuando se dispone de pocos datos, *or/ue re#ue" la
0aria"1a #e la muestra, %-sh.ar, et al. *++/'.
Para seleccionar la distribucin de probabilidades adecuada se debe tratar de utili"ar informacin
adicional del proceso hidrolgico ue permita identificar la forma en ue se distribuye la variable.
0sualmente es muy dif!cil determinar las propiedades f!sicas de los procesos hidrolgicos para
identificar el tipo de distribucin de probabilidad ue es aplicable.
)ite %*+,,' y 1ahou %*++2' afirman ue no e3iste consistencia sobre cual es la distribucin ue
me)or se a)usta a los au#ales m+2imos y recomiendan seleccionar el mejor ajuste a criterio del
modelador con la prueba de ajuste gr$fico o basado en el comportamiento de las pruebas
estad!sticas de bondad del ajuste %por ejemplo Chi Cuadrado, 4mirnov-)olmogorov, Cramer-5on
1ises' en las ue se calcula un estimador y se compara con un valor tabulado para determinar si el
ajuste es adecuado o no. 6n la prueba de ajuste gr$fica se dibujan los valores registrados en la serie
contra la distribucin terica de probabilidades y de manera visual %subjetiva' se determina si el
ajuste es adecuado o no.
Cuando la informacin es adecuada el an$lisis de frecuencia es la metodolog!a m$s recomendable
para la evaluacin de eventos e3tremos, ya ue la estimacin depende solamente de los caudales
m$3imos anuales ue han ocurrido en la cuenca y no da cuenta de los procesos de transformacin de
la precipitacin en escorrent!a. 7bviamente tiene algunas limitaciones relacionadas con el
comportamiento de la serie histrica y con el tama8o y calidad de los datos de la muestra.
Cuando se presenten am&ios o te"#e"ias en la serie histrica se deben utili"ar t#cnicas
estad!sticas ue permitan removerlos para poder reali"ar el an$lisis de frecuencias %)ite, *+,,(
1ahou, *++2( -sh.ar, et al. *++/'.
La seleccin inadecuada de la distribucin de probabilidades de la serie histrica arrojar$ resultados
de confiabilidad dudosa, %-sh.ar, et al. *++/'.
6l tama8o de la muestra influye directamente en la confiabilidad de los resultados, as! a mayor
per!odo de retorno del estimativo mayor longitud de registros necesaria para mejor confiabilidad en
los resultados.

IDR!"!GIA
#$$%
UNIVERSIDAD SAN AGUSTIN Arequipa
6l ajuste a distribuciones se puede hacer de dos t#cnicas, con el factor de frecuencia, o hallando la
distribucin emp!rica de los datos muestrales, por el m#todo de Plotting Position.
2. Plotting Position
9rabaja con la probabilidad de e3cedencia asignada a cada valor de la muestra. 4e han propuesto
numerosos m#todos emp!ricos. 4i n es el total de valores y m es el rango de un valor en una lista
ordenada de mayor a menor %m : * para el valor m$3imo' la probabilidad de e3cedencia se puede
obtener por medio de las siguientes e3presiones
California
n
m
P =
;eibull
1 +
=
n
m
P
<a"en
n
m
P
2
1 2
=
La e3presin m$s utili"ada es la ;eibull. Con las anteriores e3presiones se halla lo ue se conoce como
la distribucin emp!rica de una muestra, esta luego se puede ajustar a una de las distribuciones tericas
presentadas anteriormente. Los resultados pueden ser dibujados en el papel de probabilidad( este es
dise8ado para ue los datos se ajusten a una l!nea recta y se puedan comparar los datos muestrales con
la distribucin terica %l!nea recta'.
3. Pruebas de Ajuste
Las pruebas de bondad de ajuste, consiste en comprobar grafica y estad!sticamente, si la !reue"ia
em*$ria #e la serie a"ali1a#a, se a)usta a una #etermi"a#a !u"i3" de probabilidades terica
seleccionada a priori, con los *ar+metros estima#os con base en los 0alores muestrales.
Las pruebas estad!sticas tienen por objeto medir la certidumbre ue se obtiene al hacer una hiptesis
estad!stica sobre una poblacin, es decir, calificar el hecho de suponer ue una variable aleatoria, se
distribuya seg=n una cierta funcin de probabilidades.
Las pruebas de bondad de ajuste, m$s utili"adas son>
-juste grafico
Chi cuadrado
-juste estad!stico
4mirnov - )olmogorov
(.1. A)uste %ra!io
6l ajuste gr$fico se puede reali"ar de las siguientes formas>
Comparar gr$ficamente el histograma o funcin densidad emp!rica de la serie de datos, con la
funcin densidad terica y decidir visualmente, si hay o no ajuste de acuerdo a la similitud o
diferencia de ambos.
Comparar gr$ficamente la funcin acumulada de la serie de datos, con la funcin acumulada terica
seleccionada, dibujada en papel milim#trico %figura' y decidir visualmente si hay o no ajuste.
4e puede tambi#n comparar gr$ficamente la funcin acumulada de la serie de datos, con la funcin
acumulada terica, ploteada en un papel probabil!stico adecuado, donde la distribucin terica
seleccionada, se puede representar como una l!nea recta %por lo general, solo se pueden representar
por una l!nea recta las distribuciones de ? par$metros. -s! se tienen disponibles los papeles
probabil!sticos normal, log-normal, gumbel, etc. 6l procedimiento consiste en plotear los valores de la
variable hidrolgica %caudal, precipitacin, temperatura, etc', versus la probabilidad emp!rica en el
IDR!"!GIA
#$$%
UNIVERSIDAD SAN AGUSTIN Arequipa
papel de probabilidad correspondiente. 4i los puntos ploteados se agrupan alrededor de una l!nea
recta, ue es la representacin de a distribucin terica, se puede afirmar con cierta certe"a ue
estos datos se ajustan a la distribucin deseada.
Para determinar ue tan adecuado es el ajuste de los datos a una distribucin de probabilidades se
han propuesto una serie de pruebas estad!sticas ue determinan si es adecuado el ajuste. 6stos son
an$lisis estad!sticos y como tal se deben entender, es decir, no se puede ignorar el significado f!sico
de los ajustes.
(.4. 5rue&a Smir"o0 6olmogoro0
6l estad!stico 4mirnov )olmogorov @ considera la desviacin de la funcin de distribucin de
probabilidades de la muestra P%3' de la funcin de probabilidades terica, escogida Po%3' tal ue
)) ( ) ( max( x Po x P Dn = .
La prueba reuiere ue el valor @n calculado con la e3presin anterior sea menor ue el valor tabulado
@n para un nivel de probabilidad reuerido.
6sta prueba es f$cil de reali"ar y comprende las siguientes etapas>
6l estad!stico @n es la m$3ima diferencia entre la funcin de distribucin acumulada de la muestra y
la funcin de distribucin acumulada terica escogida.
4e fija el nivel de probabilidad , valores de A.AB y A.A* son los m$s usuales.
6l valor cr!tico @ de la prueba debe ser obtenido de tablas en funcin de y n.
4i el valor calculado @n es mayor ue el @, la distribucin escogida se debe recha"ar.
(.(. 5rue&a C7i -Cua#ra#o
La prueba Chi-cuadrado se basa en el c$lculo de frecuencias, tanto de valores observados, como
valores esperados, para un n=mero determinado de intervalos. 6sta prueba es com=nmente usada,
para verificar la bondad de ajuste de la distribucin emp!rica a una distribucin terica conocida, fue
propuesta por )arl Pearson en *+AA.
La e3presin general de la prueba Chi- cuadrado est$ dada por>
( )
i
i i
c
e
e
X
2
2

=

@onde>
N e
i i
k
i
= =
=

1
c
?
: valor calculado de Chi-cuadrado a partir de los datos
i : n=mero de valores observados en el intervalo de clase i
ei : n=mero de valores esperados en el intervalo de clase i
. : n=mero de intervalos de clase.
-signando probabilidades a la ecuacin, es decir, asignando igual probabilidad de ocurrencia a cada
intervalo de clase, se tiene>
( )
k
I
I i
K
i
c
NP
NP N
X
2
1
2

=
=
IDR!"!GIA
#$$%
UNIVERSIDAD SAN AGUSTIN Arequipa
k P
i
/ 1 = o N P e
i i
=
@onde>
Ni : n=mero de observaciones ue caen dentro de los l!mites de clases ajustadas del intervalo i
N : tama8o muestral
Pi : probabilidad igual para todos los intervalos de clases
4implificando la ecuacin %B.?' se obtiene la frmula computacional desarrollada por 1ar.ovic %*+CB'
N N
N
k
X
i
k
i
c
=
=
2
1
2
6l valor de c
?
obtenido por la ecuacin se compara con el *
?
la tabla , cuyo valor se determina con>
Nivel de significacin > : A.AB : A.A*
Grados de libertad> g.l. : .-*-h
@onde>
) : N=mero de &ntervalos
h : es le n=mero de par$metros a estimarse, as!>
h : ?, para la distribucin normal
h :2, para la distribucin log-normal de 2 par$metros
Criterio #e Deisi3"
6l criterio de decisin se fundamenta en la comparacin del valor calculado de Chi-cuadrado es menor
o igual ue el valor tabular, es decir>
2 2
t c
X X
entonces, se acepta la hiptesis ue el ajuste es bueno al nivel de significacin seleccionado
4i el Chi-cuadrado es mayor ue el valor tabular, es decir>
2 2
t c
X X
6ntonces, el ajuste es malo y se recha"a la hiptesis, siendo necesario probar con otra distribucin
terica.
8e"ta)as ' Limitaio"es
*. 6s aplicable solo para ajustes a la distribucin normal, puesto ue ha sido desarrollado con
base en los datos normales e independientes.
?. 4e reali"a en la funcin densidad de datos agrupados en intervalos de clases.
2. Deuiere un conocimiento a priori, de la funcin de distribucin terica utili"ada en el ajuste.
/. 6n la pr$ctica se usa para cualuier modelo de ajuste, pero estrictamente es valido para la
normal.
B. 6s de f$cil aplicacin
IDR!"!GIA
#$$%
UNIVERSIDAD SAN AGUSTIN Arequipa
E)em*lo
@ada la serie histrica de caudales medios anuales en m2Es, ue corresponde a un registro de 2, a8os.
**?*.2
**/.+
*/?./
?AB.,
**/.B
F?.B
?C.F
+?.,
B,.,
BF./
F+.A
FC.+
**A.*
+B.C
/,.,
*F,.2
CF.B
FA.A
C2./
FC.2
B?.2
2C.2
,,.A
*??./
*C?.*
+F.?
B?.B
*CB.C
C/.?
**A.?
*//.F
*A+.?
F,.B
B+.C
/A.2
**?.?
*2F.*
2?.+
Deali"ar la prueba de bondad de ajuste Chi- cuadrado para ver si se ajustan a una distribucin normal,
Solui3"9
*. La hiptesis ser$>
<o > frecuencia observada : frecuencia esperada
<a> frecuencia observada frecuencia esperada
?. 7rdenando los datos de menor a mayor, se tiene>
?C.F
B?.B
FA.A
+B.C
*?*.2
*C?.*
2?.+
BF./
F?.B
+F.?
*??./
*CB.B
2C.2
B,.,
FC.2
*A+.?
*2F.*
?AB.,
/A.2
B+.C
FC.+
**A.*
*/?./
/,.B
C2./
F+.A
**A.?
*//.F
/,.,
C/.?
,,.A
**?.?
*//.+
B?.2
CF.B
+?.,
**/.B
*/,.2
2. C$lculo de la frecuencia para datos agrupados
2.*. Calculo del n=mero de intervalos de clase, seg=n Gevjevich
) ln( 33 . 1 1 n nc + =
6 84 . 5 ) 38 ln( 33 . 1 1 = + = nc
C$lculo de la amplitud de cada intervalo>
36 82 . 35
5
7 . 26 8 . 205
1
min max
=

=
Nc
X X
X
18
2
=
X
IDR!"!GIA
#$$%
UNIVERSIDAD SAN AGUSTIN Arequipa
2.?. C$lculo de los intervalos de clase, marcas de clase, frecuencia absoluta observada, frecuencia
relativa, los resultados se muestran
Ta&la C+lulo #e la !reue"ia aumula#a
@onde>
Columna %2' n=mero de valores comprendido en el intervalo de la columna %*'.
Columna %/' columna %2' entre N : 2,
Columna %B' acumular valores de la columna %/'
2.2. Calculo de la media y desviacin est$ndar para datos agrupados, utili"ando las columnas %?' y %2'
17 . 90
1
=

=
=
N
f x
X
i i
k
i
( )
03 . 43
1
2
1
=


=
=
N
f X x
S
i i
k
i
@onde>
Hi : marca de clase
Ii : frecuencia relativa
/. Calculo de la frecuencia esperada, utili"ando la distribucin terica normal, los resultados se
muestran en la tabla B.?
@onde>
Columna %2' > S
X x
Z

=
formula variable estandari"ada de la distribucin normal para 3 : limites de
clase de la columna %?'
Columna %/' > $rea bajo la curva normal, puede usar la tabla.
IDR!"!GIA
#$$%
I"ter0alos #e lase
:1;
<aras #e lase
:4;
=reue"ia
a&soluta :;
:(;
=reue"ia
relati0a
:>;
=reue"ia
aumula#a
:,;
,.F J //.F
//.F J ,A.F
,A.F J **C.F
**C.F J *B?.F
*B?.F J *,,.F
*,,.F J ??/.F
?C.F
C?.F
+,.F
*2/.F
*FA.F
?AC.F
/
*B
+
F
?
*
A.*AB2
A.2+/F
A.?2C,
A.*,/?
A.AB?C
A.A?C2
A.*AB2
A.BAAA
A.F2C,
A.+?**
A.+F2F
*.AAA
UNIVERSIDAD SAN AGUSTIN Arequipa
Columna %B' > $rea para cada intervalo de clase, se obtiene restando los valores de la columna %/', si los
signos de K de la columna %2' son igual y acumulando los valores de la columna%/', si los signos de K son
diferentes.
I"ter0alo #e lase Limit
e #e
lase
???
!ormula
@rea &a)o la
ur0a
"ormal #e -
a 1
=reue"ia
relati0a
=reue"i
a a&soluta
=reue"ia
o&ser0a#a
,.F J //.F
//.F J ,A.F
,A.F J **C.F
**C.F J *B?.F
*B?.F J *,,.F
*,,.F J ??/.F
,.F
//.F
,A.F
**C.F
*B?.F
*,,.F
??/.F
-*.,+
-*.ABF
-A.??A
A.C*F
*./B2
?.?+A
2.*?C
A./FAC
A.2BB/
A.A,F*
A.?2?/
A./?CB
A./,+A
A./++*
-
A.**B?
A.?C,F
A.2*+B
A.*+2*
A.AC?B
A.A*A*
/.2, B
*A.?* *A
*?.*/ *?
F.2/ F
?.2, 2
A.2, *
/
*B
+
F
?
*
Columna %C'> columna %B' 3 N : 2,, se redondea en forma adecuada de tal manera ue la suma de
las frecuencias absolutas sea igual a N : 2,.
Columna %F'> son los mismos valores de la columna %2' de la primera tabla
B. C$lculo de c
?
>
( )
i
i i
c
e
e
X
2
2

=

sustituyendo valores de las columnas %C' y %F' de la tabla
( ) ( ) ( ) ( ) ( ) ( )
78 . 3
1
1 1
3
3 1
7
7 7
12
12 9
10
10 15
5
5 4
2 2 2 2 2
2
=

=
c
X
C. C$lculo del c
?
>
grado de libertad> : . J * J h
: C J * J ? : 2
nivel de significacin> : A.AB : BL
@e la tabla 5alores de
2
X
, para : 2 y : A.AB se tiene>
81 . 7
2
= X
F. Criterio de decisin.
Como c
?
: 2.F, M t
?
: F.,*
4e acepta la hiptesis nula <o
Los datos se ajustan a la distribucin normal, con un nivel de significacin del BL +BL de
probabilidad.
IDR!"!GIA
#$$%
UNIVERSIDAD SAN AGUSTIN Arequipa
A5LICACIAN
@e las B @istribuciones Probabil!sticas anali"adas, nos toca ahora determinar cual de ellas presenta mejor
ajuste. 4e entiende por bondad de ajuste, a la asimilacin de datos observados de una variable, a una
funcin matem$tica previamente establecida y reconocida. - trav#s de #sta es posible interpolar y e3trapolar
informacin %predecir el comportamiento de la variable en estudio'.
6n el presente documento se reali"a la Prueba de Chi-Cuadrado %5er Cuadros'.
IDR!"!GIA
#$$%
UNIVERSIDAD SAN AGUSTIN Arequipa
IDR!"!GIA
#$$%
UNIVERSIDAD SAN AGUSTIN Arequipa
IDR!"!GIA
#$$%
UNIVERSIDAD SAN AGUSTIN Arequipa
IDR!"!GIA
#$$%
UNIVERSIDAD SAN AGUSTIN Arequipa
IDR!"!GIA
#$$%
UNIVERSIDAD SAN AGUSTIN Arequipa
IDR!"!GIA
#$$%