You are on page 1of 91

CAPITULO I

CONCEPTOS BASICOS DE LA ESTADISTICA

1. Introducción.
La estadística es la ciencia dedicada a la recolección, presentación y caracterización
de la información con el objeto de analizar para luego tomar decisiones.
La estadística se utiliza en diferentes especialidades de la ciencia como Minería,
Geología, Agronomía, Economía, Ambiental, medicina, economía, etc.
Para un mejor entendimiento de cómo se aplica la estadística en las diferentes
especialidades se definen los siguientes conceptos básicos:
1.1 Individuo.- Cualquier elemento que porte información sobre el fenómeno que se
estudia. Cada uno de los elementos de una población.
Ejemplo:
1. Si estudiamos la estatura de los alumnos de un aula de clase, cada alumno
es un individuo;
2. Si estudiamos el precio de la vivienda de una ciudad, cada vivienda es un
individuo.
3. Un alumno de la UNASAM
El individuo constituye una unidad elemental de la estadística.
1.2 Población.- Conjunto de todos los individuos (personas, objetos, animales, etc.)
que poseen una característica común observable y que porten información
sobre el fenómeno que se estudia.
Ejemplos:
1. El conjunto de todos los alumnos de la UNASAM.
2. El conjunto de todas las personas que viven en el distrito de Huaraz.
3. El conjunto de la estatura de todos los alumnos de la FIMGM.
1.3 Muestra.- Es un subconjunto que seleccionamos de la población. Ya que la
muestra es parte de una población, se debe tener cuidado que sea
representativo de la población, es decir, que las características esenciales de la
población estén reflejadas en la muestra.
Ejemplo:
1. Si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger
información sobre todas las viviendas de la ciudad (sería una labor muy
compleja), lo que se suele es seleccionar un subgrupo (muestra) que sea lo
suficientemente representativo.
Al proceso de obtención de una muestra se llama “muestreo”.
Para que una muestra sea representativa debe cumplir con las siguientes
condiciones:
a. Debe haber sido obtenido al azar o en forma aleatoria.
b. Su tamaño y sus elementos deben haber sido seleccionados aplicando un
método de muestreo.
1.4 Variable.
Son las características que se desean evaluar en las unidades elementales.
Ejemplos:
1. X = Talla de los alumnos de una Universidad.
2. Y = Numero de cocinas vendidas al mes.
3. Z = Nivel de ingreso mensual de los trabajadores de la UNASAM.
4. W = Sexo de los alumnos.
Las variables se representan generalmente por las últimas letras mayúsculas
del alfabeto, por ejemplo: X, Y, Z, W, P, T o también X1, X2, X3,.. etc.
1.5 Tipos de Variables.
1.5.1 Variables Cuantitativas.
Son aquellas cuyas observaciones pueden expresarse en forma
numérica y con las cuales se puede realizar operaciones matemáticas.
Ejemplo:
1. X = Estatura de los alumnos en cm.
2. Y = Numero de inasistencias en el mes.
Además las variables cuantitativas se pueden clasificar en:
1. Variable cuantitativa continúa.
Son aquellas que pueden asumir cualquier valor numérico dentro de
un intervalo continuo dado. Generalmente son representados por el
conjunto de números reales. Las observaciones cuantitativas
continuas se obtienen utilizando instrumentos de medición como: test,
escalas, balanzas, cronómetros, winchas, termómetros, etc.
Ejemplo:
1. X = Estatura de los alumnos en cm.
2. Y = Velocidad de los vehículos en Km/hora.
2. Variable cuantitativa discreta.
Son aquellos observaciones que cumplen la condición de que entre un
valor cualquiera y su consecutivo no es posible que existan valores
intermedios. Generalmente son representados por el conjunto de
números enteros. Las observaciones cuantitativas discretas se
registran por conteo.
Ejemplo:
1. X = Número de clientes atendidos cada 5 minutos en una
ventanilla.
2. Y = Numero de inasistencias en el mes en días.

1.5.2 Variables Cualitativas.


Son aquellas observaciones que permiten que una unidad elemental
(individuo) puede ser clasificada como poseedora o no de cierta cualidad,
propiedad o atributo. No tiene sentido de realizar operaciones
matemáticas.
Ejemplo:
1. X = Vivienda propia o alquilada.
2. Y = Calificación de un examen con niveles A, B, C, D y E.
Además las variables cualitativas se pueden clasificar en:
1. Variable cualitativa nominal.
Son aquellos cuyos valores (cualidades, propiedades o atributos) no
son factibles de ser clasificados a través de un criterio de orden o
jerarquía.
Ejemplo:
1. X = Sexo de los estudiantes.
2. Y = Condición de ciertas viviendas (propia o rentada)
2. Variable cualitativa jerárquica.
Son aquellos donde sí se puede establecer un criterio de orden y
jerarquía entre sus atributos.
1. X = Niveles socio económicos de los habitantes de una ciudad.
2. Y = Calificación de un examen con niveles A, B, C y D.
1.6 Observación.
Es el valor específico que toma una variable. A las observaciones se les suele
representar con las letras minúsculas sub indicadas, como por ejemplo Xi, Yi,
Zi, Vi, etc.
Ejemplo:
1. X4 = 170. Quiere decir que el alumno 4 mide 170 cms.
2. Y11 = 21. Quiere decir que en el mes número 11 se vendieron 21 cocinas.
3. T200 = Primaria. Quiere decir que la persona número 200 de Huaraz tiene
instrucción primaria.
1.7 Parámetro.
Es una medida usada para describir el comportamiento de una variable en la
población. El parámetro es una constante, por ello, las decisiones basadas en
esta información carecen de incertidumbre.
Los parámetros más conocidos son: la Media (µ), la mediana (Me), la moda
(Mo), la varianza (σ2), proporción (π), etc.
Ejemplo:
1. µ = 15.4. Supone que el promedio de cocinas vendidas en todos los
meses.
2. En todo Huaraz se tienen las siguientes proporciones de instrucción.
Instrucción Proporción (π)
Primaria 0.455
Secundaria 0.445
Superior 0.100
TOTAL 1.000

1.8 Estadístico o Estadígrafo.


Es una medida usada para describir el comportamiento de una variable en la
muestra.
Debido a que sus valores varían de muestra a muestra, las decisiones basadas
en este tipo de información contienen cierto grado de incertidumbre. Los
estadísticos sirven para estimar a los parámetros.
Estimar consiste en considerar el valor del estadístico como si fuera el valor del
parámetro. Los estadísticos más conocidos son: la Media (𝑋̅), la mediana (me),
la moda (mo), la varianza (S2), proporción (p).
Notación de los principales parámetros y estadísticos.
En una población En una muestra
(Parámetro) (Estadístico)
Media µ 𝑋̅
Mediana Me me
Moda Mo mo
Proporción π p
Varianza σ2 S2
Desviación Estándar σ S

1.9 Clasificación de la Estadística.


La estadística se divide en dos grandes ramas de estudio que son:
1. La estadística descriptiva, la que se encarga de la recolección, clasificación
y descripción de datos muéstrales o poblacionales, para su interpretación y
análisis.
2. La estadística matemática o inferencial, es la que desarrolla modelos
teóricos que se ajusten a una determinada realidad con cierto grado de
confianza.

Estas dos ramas no son independientes; por el contrario, son complementarias


y entre ambas dan la suficiente ilustración sobre una posible realidad futura, con
el fin de que quien tenga poder de decisión, tome las medidas necesarias para
transformar ese futuro o para mantener las condiciones existentes.
CAPITULO II
ESTADISTICA DESCRIPTIVA
ORGANIZACIÓN DE DATOS.
2. Introducción.
Después de recoger toda la información correspondiente a la investigación,
mediante una encuesta, es decir, una vez terminado el trabajo de campo, nos
encontramos con un conjunto de datos y cifras desordenadas los cuales, al ser
tomados como observaciones individuales, dicen muy poco sobre la población
estudiada; es entonces, la tarea del investigador es “hacer hablar a las cifras”,
comenzando por la clasificación y ordenación, consignando la información en tablas
inteligibles a la que denominamos tablas o distribuciones de frecuencias.
2.1 Tablas de Frecuencias.
Son cuadros estadísticos que contienen los valores observados x1, x2, x3,
x4,…….xk de la variable X (distribución) con sus respectivas frecuencias
(distribución de frecuencias). Dependiendo de la naturaleza de la variable en
estudio las tablas reciben el nombre de distribución numérica o cuantitativa y
distribución categórica o cualitativa. Son útiles porque permiten organizar la
información (datos no procesados) de forma tal, que se puede reconocer el
comportamiento de los datos. En el caso de la variable cuantitativa continua
presentan el inconveniente de una perdida de información, la cual es muy
pequeña en relación a las ventajas que proporciona.
Ejemplo:
El Gerente-propietario recoge la información respecto a la variable “salario
diario” de sus 50 operarios que se presenta en la Tabla No 1.
Tabla N° 01

SALARIO DIARIO DE 50 OPERARIOS EN UNA FABRICA DE CONFECCIONES


N° Operario $/Dia N° Operario $/Dia N° Operario $/Dia N° Operario $/Dia N° Operario $/Dia
1 52 11 54 21 55 31 56 41 52
2 54 12 51 22 55 32 53 42 57
3 55 13 54 23 52 33 57 43 56
4 54 14 55 24 55 34 54 44 51
5 53 15 54 25 53 35 53 45 58
6 56 16 56 26 57 36 50 46 55
7 54 17 52 27 54 37 55 47 53
8 58 18 54 28 55 38 52 48 54
9 51 19 53 29 53 39 53 49 53
10 54 20 55 30 55 40 54 50 56

Tabla N° 02

SALARIO DIARIO DE 50 OPERARIOS EN UNA FABRICA DE CONFECCIONES


$/Dia $/Dia $/Dia $/Dia $/Dia
52 54 55 56 52
54 51 55 53 57
55 54 52 57 56
54 55 55 54 51
53 54 53 53 58
56 56 57 50 55
54 52 54 55 53
58 54 55 52 54
51 53 53 53 53
54 55 55 54 56
Tabla N° 03
DATOS CLASIFICADOS Y ORDENADOS
SALARIO DIARIO DE 50 OPERARIOS EN UNA FABRICA DE CONFECCIONES
$/Dia $/Dia $/Dia $/Dia $/Dia
50 53 54 55 56
51 53 54 55 56
51 53 54 55 56
51 53 54 55 56
52 53 54 55 56
52 53 54 55 57
52 53 54 55 57
52 53 54 55 57
52 54 54 55 58
53 54 54 55 58

Tabla N° 04
DISTRIBUCION DE FRECUENCIAS DEL
SALARIO DE 50 OPERARIOS
$/Dia CONTEO FRECUENCIA
50 l 1
51 lll 3
52 lllll 5
53 lllll llll 9
54 lllll lllll ll 12
55 lllll lllll 10
56 lllll 5
57 lll 3
58 ll 2
SUMA 50

Como se puede observar, hay una gran diferencia entre los datos brutos de la
tabla No.1 y el ordenamiento y agrupamiento de la tabla No. 4.
Con el fin de obtener una mejor tabla interpretativa, introduciremos la siguiente
simbología:
 N: Tamaño de la muestra, es el número de observaciones.
 Xi : La variable; es cada uno de los diferentes valores que se han
observado.
La variable Xi, toma los X1, X2…………….. Xn valores.
 fi: La frecuencia absoluta o simplemente frecuencia, es el número de veces
que se repite la variable Xi;
Así: f1, es el número de veces que se repite la observación x1;
f2, el número de veces que se repite la observación x2, etc.
 fa: La frecuencia acumulada, se obtiene acumulando la frecuencia absoluta.
 fr: Frecuencia relativa; es el resultado de dividir c/u de las frecuencias
absolutas por el tamaño de la muestra.
 fra: Frecuencia relativa acumulada; se obtiene dividiendo la frecuencia
acumulada entre el tamaño de la muestra.

Tabla N° 05 Tabla de
Distribución de Frecuencias.
Frecuencia Frecuencia Frecuencia
Variable Frecuencia Acumulada Relativa Relativa Acum.
Xi fi fa fr fra
x1 f1 f1 f1/n f1/n
x2 f2 f1+f2 f2/n (f1+f2)/n
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
xi fi f1+f2+…..fi fi/n (f1+f2+ …+fi)/n
. . . . .
. . . . .
xn fn fi+f2+…..fn fn/n (f1+f2+ …+fn)/n
n 1

Tabla N° 06
Tabla de Distribución de Frecuencia del Salario Diario de 50 Operarios
Frecuencia Frecuencia Frecuencia
Variable Frecuencia Acumulada Relativa Relativa
Xi fi fa fr Acum.
50 1 1 0.02 0.02
51 3 4 0.06 0.08
52 5 9 0.10 0.18
53 9 18 0.18 0.36
54 12 30 0.24 0.60
55 10 40 0.20 0.80
56 5 45 0.10 0.90
57 3 48 0.06 0.96
58 2 50 0.04 1.00
50 1.00
Análisis:
Analizando las columnas porcentuales fr y fra se obtienen, entre otras las
siguientes conclusiones:
 Sólo el 4% de las obreras gana el máximo salario/día de la fábrica, el
cual corresponde a $58.00
 El salario diario mínimo ($50.00) lo gana únicamente una obrera, lo que
constituye el 2% del personal asalariado.
 El 62% de las operarias tiene un salario diario entre $53.00 y $55.00.
 El 60% de las obreras tiene un salario/día de $54.00 o menos.
 El 64% tiene un ingreso/día de $54.00 o más.

2.2 DISTRIBUCION DE FRECUENCIAS DE UNA MUESTRA POR INTERVALOS


En Geología y otras ramas de la Ingeniería se trabaja con información de datos
de muestreo, estas informaciones pueden consistir en datos de leyes de cabeza
de mineral, potencia de veta, precio de los metales, etc.

Por lo general, se encuentra solo con una muestra de los datos de esa
población, es decir nunca podemos disponer de la totalidad de los datos. Pero
cuando estos datos se organizan en forma compacta y fácil de utilizar, los
geólogos pueden disponer de una herramienta de gran utilidad, para tomar
decisiones.

Existen muchas formas de clasificar los datos, una manera útil es dividirlo en
categorías similares o clases y luego contar el número de observaciones que
caen en cada categoría, lo que constituye una tabla de frecuencias o una
distribución de frecuencias.

Para una muestra dada, se escoge un rango R, que contenga a todos los
valores de la misma. Se subdivide R en sub-intervalos que se llaman intervalos
de clase; los puntos medios de estos intervalos se denominan marcas de clase.
Se dice que los valores de la muestra en cada uno de los intervalos forma una
clase. Al número de valores en una clase se llama frecuencia de clase; su
división en el tamaño N de la muestra es la frecuencia relativa de clase. Esta
frecuencia considera como función de las marcas de clase; se denomina función
de frecuencias de la muestra, y se denota con f(x). La función de frecuencias
acumuladas de la muestra, se denota como F(x), y se define como:

F(x) = ∑𝑡≤𝑥 𝑓(𝑡) …………………. (1)


2.2.1 PROCEDIMIENTO DE CÁLCULO
A continuación se indica un procedimiento práctico, para el cálculo de las
frecuencias y frecuencias acumuladas, la misma que se usara más
adelante para el cálculo de la distribución de probabilidades empíricas de
datos agrupados en intervalos de clase:

Procedimiento

1. Ordenar los datos de la muestra en forma creciente o decreciente puede


hacerse mediante el programa en Excel u otro software.
Por ejemplo, ordenando en forma creciente, se tiene:
Xmin, X2, X3,…………………………..., Xmax
Donde:
Xmin = X1 es el valor mínimo de los datos
Xmax = XN es el valor máximo de los datos

2. Calcular el rango R de la muestra.


R = Xmax – Xmin ……………… ( 2)

3. Seleccionar el número de intervalos de clase NC, este depende del


tamaño de la muestra N. En aplicaciones de geología, hidrología el
número de intervalos de clase puede estar entre 5 y 25.
Yevjevich sugiere para seleccionar NC, las siguientes relaciones
empíricas:

(i) NC = 1.33 Ln(N) +1 ………… (3)

(ii) Si N < 30 NC < 5


Si 30 < N < 75 8 ≤ NC ≤ 10
Si N > 75 10 < NC ≤ 30
Struges propone que el número de clases o intervalos sea determinado
por la expresión:
NC =3.3 log(N) +1
Donde:

N : tamaño de la muestra
Ln (N) logaritmo natural o neperiano del tamaño de muestra.

4. Calcular la amplitud de cada intervalo de clase Δx, según la ecuación:

𝑋 max − 𝑋𝑚𝑖𝑛 𝑅
Δx = = 𝑁𝐶−1 …………………. ( 4)
𝑁𝐶−1

Al dividir el rango entre NC – 1, lo que en realidad se hace es incrementar


el rango en Δx, incluyendo un intervalo más, el mismo que resulta, de
agregar medio intervalo en cada extremo de la serie ordenada, a fin de
que Xmin y Xmax serán respectivamente, las marcas de clase de la primera
y última clase. Esto se aprecia en la figura 8.

Fig. 8: Representación del total de la muestra en intervalos de clase igualmente


espaciados.

5. Calcular los límites de clase de cada uno de los intervalos. Como se


manifestó en 4, con el artificio de dividir entre NC-1 se logra que Xmin y
Xmax queden centrados y representan las marcas de clase de la primera
y última clase, entonces los límites de clase inferior y superior del primer
intervalo son :
LCI1 = Xmin – Δx/2 ….…………….. (5)
LCS1 = Xmin + Δx/2 = LCI1+x …….………….. (6)
Los otros límites de clase, se obtienen sumando la amplitud Δx, al límite
de clase antecedente
6. Calcular las marcas de clase de cada uno de los intervalos. Las marcas
de clase se obtienen del promedio de los límites de clase. Así la marca
de clase del primer intervalo es :
𝐿𝐶𝐼1+𝐿𝐶𝑆1
𝑀𝐶1 = …………………… (7)
2

Con el artificio realizado anteriormente la marca de clase es igual al valor


mínimo, de igual forma la marca de clase del último intervalo al valor
máximo es decir:
MCI = Xmin
MCn = Xmax
Las otras marcas de clase, se obtienen sumando la amplitud Δx, a las
marcas de clase antecedente.
7. Calcular la frecuencia absoluta, esta es igual al número de
observaciones, que caen dentro de cada intervalo definido por sus límites
de clases respectivos, la misma que se obtiene por conteo, así se
obtiene.
fi = ni ……………….. (8)
Donde:
fi : frecuencia absoluta del intervalo i
ni : número de observaciones en el intervalo i
8. Calcular la frecuencia relativa fri de cada intervalo, esta es igual a la
frecuencia absoluta del mismo, dividido entre el número total de
observaciones, es decir:
fi 𝑛𝑖
fri = 𝑁 = ……………………. ( 9 )
𝑁

9. Calcular la frecuencia relativa acumulada Fri, usando la fórmula:

𝑛𝑗 1
Fri = ∑𝑖𝑗=1 𝑓𝑟𝑗 = ∑𝑖𝑗=1 𝑁 = 𝑁 ∑𝑖𝑗=1 𝑛𝑗 ………………. ( 10 )

Donde:
Fri: frecuencia relativa acumulada hasta el intervalo i.
J: 1, 2,…..,i acumulación de los intervalos hasta i
10. Calcular la función densidad empírica fi para cada intervalo. Esta
función según Yevjevich, se calcula usando la fórmula:
𝑓𝑟𝑖 𝑓𝑟𝑖 𝑛𝑖
𝑓𝑖 lim = = 𝑁∆𝑥 …………………. (11)
∆𝑥→0 ∆𝑥 ∆𝑥

11. Calcular la función de distribución acumulada o empírica usando la


fórmula:
𝐹𝑖 = ∑𝑖𝑗=1 ∆𝑥 𝑓𝑗 …………………… (12)
2.3. REPRESENTACION GRAFICA
A pesar de la gran ayuda que prestan las tablas y cuadros con información
organizada, no todos los públicos alcanzan a comprenderla o no disponen del
tiempo suficiente para analizarla.
Es por ello que la mayoría de los investigadores acostumbran a reforzar la
descripción a través de dibujos, generalmente con formas geométricas, que
ayudan a visualizar el comportamiento de las variables tratadas.
Una gráfica o diagrama es un dibujo complementario a una tabla o cuadro, que
permite observar las tendencias de un fenómeno en estudio y facilita el análisis
estadístico de las variables allí relacionadas.
2.3.1. Histogramas de frecuencias
2.3.2. Polígono de frecuencias

POLIGONO DE FRECUENCIAS
0.45

0.40

0.35

0.30
Axis Title

0.25

0.20

0.15

0.10

0.05

0.00
6 18 30 42 54 66 78
Axis Title

2.3.3. Histograma de frecuencias acumuladas.

1.2000

Funcion Distribucion Acumulada


1.0000

0.8000

0.6000
Funcion Distribucion
Acumulada
0.4000

0.2000

0.0000
0 20 40 60 80 100
2.4. EJEMPLO.

Dada la serie histórica de caudales medios anuales m 3/s (Tabla 8.1) de la


estación Salinas del rio Chicama (Perú) para el periodo 1911-1980, calcule las
frecuencias absolutas, relativas, acumulativas, función densidad, función
acumulada.

Tabla 8.1 Serie histórica de caudales medios anuales en m3/s del rio Chicama.
Estación Salinas (1911-1980).
AÑO CAUDAL AÑO CAUDAL AÑO CAUDAL
M3/S M3/S M3/S
1911 7.91 1935 24.58 1959 22.88
1912 8.01 1936 28.49 1960 17.57
1913 13.27 1937 10.05 1961 14.60
1914 16.39 1938 28.01 1962 31.14
1915 80.83 1939 34.92 1963 18.20
1916 60.08 1940 31.36 1964 24.69
1917 21.55 1941 42.74 1965 22.99
1918 27.71 1942 12.94 1966 11.78
1919 28.63 1943 41.16 1967 32.26
1920 30.27 1944 35.90 1968 4.76
1921 33.43 1945 33.76 1969 12.70
1922 35.16 1946 29.28 19970 16.19
1923 27.21 1947 19.17 1971 30.14
1924 15.58 1948 29.37 1972 30.57
1925 64.81 1949 30.06 1973 45.38
1926 51.26 1950 9.67 1974 18.91
1927 33.48 1951 10.42 1975 34.99
1928 25.79 1952 23.99 1976 21.49
1929 25.80 1953 42.17 1977 29.26
1930 18.93 1954 16.00 1978 4.58
1931 16.15 1955 22.78 1979 12.46
1932 38.30 1956 32.69 1980 3.14
1933 54.54 1957 34.28
1934 59.40 1958 20.24

Solución:
CAPITULO II

MEDIDAS DE LAS DISTRIBUCIONES.

2.3 MEDIDAS DESCRIPTIVAS DE LAS DISTRIBUCIONES DE FRECUENCIAS.


Para describir ciertas características de un conjunto de datos, se pueden usar
números simples, llamados estadísticos. De ellos se puede obtener un
conocimiento más preciso de los datos que el que se obtiene a partir de las
tablas y los gráficos.
El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros
sobre los cuales pueda recaer la representación de toda la información.
Las características más importantes de este conjunto de datos son:
2.3.1 Medidas de tendencia central o medidas de localización.
Indican cual será el punto medio o localización central. En la fig.1 la curva
A y las curvas B y C, tienen la misma localización central.

Curva B
Curva A

Curva C

Figura 1.Comparacion de la localización central de tres curvas


2.3.2 Medidas de dispersión.
Se refiere a la forma como se encuentran esparcidas las observaciones. En la
fig. 2, se observa que la curva B tiene una mayor separación o dispersión que
la curva A.

Curva B
Curva A

Figura 2.Comparación de la dispersión de dos curvas


2.3.3 Medidas de simetría y asimetría.
Las curvas que representan los datos puntuales de un conjunto pueden ser
simétricas o asimétricas. Las curvas simétricas, como la que se muestra en la
fig. 3, son las que al trazar una línea vertical desde el pico de la curva al eje
horizontal dividen su área en dos partes iguales, cada una idéntica a la otra.

Figura 3.Curva simétrica

Las curvas asimétricas o sesgadas, como las que se muestran en la fig. 4 son
aquellas en las cuales la distribución de frecuencia se concentra en el extremo
inferior o superior de la escala de medida sobre el eje horizontal. Los valores
no se distribuye igualmente, por lo que pueden ser sesgadas a la derecha
(curva A) y sesgadas a la izquierda (curva B).

Curva A

Curva B

Figura 4.Curvas segadas, A: sesgo a la derecha o positivo


B: sesgo a la izquierda o negativo
2.3.4 Medidas de achatamiento o curtosis.
Indican el grado de llanura de la curva. Por ejemplo en la fig. 5, las curvas A y
B tienen la misma localización central, y la misma dispersión, pero difieren por
el hecho que una es más puntiaguda que la otra, por lo que tienen diferente
grado de curtosis.
Curva A

Curva B

Figura 5. Curvas con diferente curtosis

De acuerdo al grado de achatamiento, las curvas pueden ser según fig. 6


Mesocúrtica (curva A), Leptocúrtica (curva B) y Platicúrtica (curva C)

Curva A (Mesocúrtica)
Curva B (Leptocúrtica)

Curva C (Platicúrtica)

Figura 6. Grados de achatamiento

2.4 MEDIDAS DE TENDENCIA CENTRAL.

Se define una medida de tendencia central como un índice de localización central


empleado en la descripción de las distribuciones de frecuencias.

En términos generales se tienen tres medidas: la media, la mediana y la moda.

2.2.1 Media aritmética

Dada la muestra compuesta de n datos, X1, X2, X3,…………………Xn; la media, se


define como la suma algebraica de ellas, dividida entre el número de datos. Cuando
se calcula la media para una población, esta se denota por μ y cuando se trata de una
muestra, por 𝑋̅.

Media aritmética de datos no agrupados

Matemáticamente la media de los datos no agrupados se representa por:


∑𝑛
𝑖=1 𝑋𝑖
𝜇= …(1)
𝑛
∑ 𝑛
𝑋𝑖
𝑋̅ = 𝑖=1 …(2)
𝑛

Donde:

μ: media poblacional

𝑋̅: Media muestral

Xi: valor i-ésimo de la muestra

n: número de datos de la muestra o población

Media aritmética de datos agrupados

Para el caso de datos agrupados, la fórmula es:


𝑘
∑ 𝑓𝑖∗𝑋𝑖
𝑋̅ = 𝑖=1 …………..(3)
𝑛

Donde:

fi: frecuencia absoluta (número de observaciones) en el intervalo i

Xi: marca de clase del intervalo i

k: número de intervalos de clase

n: número de observaciones de la muestra

2.2.2 Media ponderada

El promedio ponderado permite calcular un promedio que toma en cuenta la


ponderación de los datos con respecto a un factor, es casi, un caso particular de la
fórmula del cálculo de la media para los datos agrupados, su fórmula es:
∑ 𝑛
𝑓𝑖∗𝑥𝑖
𝑋̅𝑝 = 𝑖=1
∑𝑛 𝑓𝑖
…………..(4)
𝑖=1

Donde:

𝑥̅𝑝 : Media ponderada

xi: valor i-ésimo de la muestra

fi: valor del factor de ponderación del i-ésimo valor de la muestra

n: número de observaciones de la muestra


La media ponderada, se utiliza por ejemplo para el cálculo de las notas promedio de
un alumno, donde para cada valor de notas, el factor de ponderación es el crédito o
peso del curso, así:
∑ 𝑛
𝑃𝑖.𝐴𝑖
𝑃̅ = ∑𝑖=1
𝑛
𝐴𝑖
𝑖=1

Dónde:

𝑃̅: Notas promedio

Pi: valor de las notas promedio del alumno i

Ai: Numero de créditos del alumno i

n: número de notas

2.2.3 Media geométrica

Dada la muestra compuesta de n datos, X1, X2, X3,…………………Xn, la media


geométrica se define como la raíz n-ésima, de la productoria de los datos, es decir:

𝑥̅𝐺 = (∏𝑛𝑖=1 𝑥𝑖 )1/𝑛 …(5)

Donde:

𝑥̅𝐺 : Media geométrica

∏𝑛𝑖=1 𝑋𝑖: X1*X2* ….* Xn (productoria de los datos)

Xi: i-ésimo valor de la muestra

n: número de elementos de la muestra

1.2.4 Media Armónica.


Dada la muestra compuesta de n datos, X1, X2, X3,…………………Xn, la media
armónica se define como el reciproco de la media aritmética simple, es decir:
1 𝑛 𝑛
𝑋̅𝐴 = 1 1 = 1 = 1 1 1 1
∗ ∑𝑛𝑗=1 ∑𝑛𝑗=1 + + + ⋯ … … … … +
𝑛 𝑋 𝑗 𝑋 𝑗𝑋 𝑋 𝑋 1 2 3 𝑋𝑛

Este promedio se usa para promediar razones que tiene unidades tales como
kilómetros por hora, costo por paciente, etc.

2.2.5 Mediana
Es un valor único de un conjunto de datos que mide al elemento central en los datos.

Este único elemento de los datos ordenados es el más cercano a la mitad o el más
central en el conjunto de números. La mitad de los elementos quedan por encima de
ese punto y otra mitad por debajo de él.

Mediana para datos no agrupados

Sean X1, X2, X3,…………………Xn, datos ordenados por magnitud creciente o


decreciente y número impar de datos, la mediana (Med) es el dato situado en el
centro, es decir:

𝑀𝑒 = 𝑋(𝑛+1) Si n es impar …(6)


2

Si n es par, la mediana es el promedio de los números centrales, es decir:


𝑋 𝑛 +𝑋 𝑛
( ) ( +1)
𝑀𝑒 = 2 2
Si n es par …(7)
2

Ejemplo 1:

Ejemplo 2:

Mediana para datos agrupados

Siendo la mediana el valor de la observación central de un arreglo y como no se


conocen los valores de cada observación en datos agrupados, la mediana se suele
aproximar, después de localizar el intervalo de clase de la mediana, por la siguiente
ecuación
𝑛
− 𝑓𝑎(𝑖−1)
𝑀𝑒 = [ 2 ] 𝑊 + 𝐿𝐼 …(8)
𝑓𝑚

Donde:

Me: mediana muestral

n: número total de elementos de la muestra

fa(i-1): frecuencia acumulada anterior al intervalo mediano.

fm: frecuencia del intervalo de clase de la mediana

w: amplitud del intervalo de clase

LI: límite inferior de la clase de la mediana.

En general la clase donde se encuentra la mediana es aquella que tiene al elemento


situado en la posición n/2.

Ejemplo:

N° INTERVALO DE CLASE MARCA DE CLASE (Xi) fi fa


1 100 200 150 4 4
2 200 300 250 10 14
3 300 400 350 21 35
4 400 500 450 33 68
5 500 600 550 18 86
6 600 700 650 9 95
7 700 800 750 5 100
100

100
− 35
2
𝑀𝑒 = [ ] 100 + 400 = 445.45
33

2.2.5 Moda

Es aquel valor que se repite más frecuentemente en un conjunto de datos, se denota


por Mo.

Para datos agrupados en intervalos de clase, la moda, una vez determinada la clase
modal se calcula con la siguiente ecuación:
𝑑1
𝑀𝑜 = 𝐿𝐼 + 𝑑1+𝑑2 𝑤 …(9)

Donde:
d1: diferencia entre la frecuencia de la clase modal y la premodal (clase
anterior)

d2: diferencia entre la frecuencia de la clase modal y la postmodal (clase


siguiente)

w: amplitud del intervalo de clase

LI: limite inferior de la clase modal

En general la clase modal es aquella que tiene la máxima frecuencia

2.2.6 comparación entre la media, la mediana y la moda

La media, la mediana y la moda de una distribución de frecuencias son consideradas


como tres promedios más importantes. Sin embargo, no son igualmente aplicables y
representativos a todas las situaciones. Como se muestra en la fig. 7 las posiciones
relativas de estas tres medidas dependen de la simetría de la distribución.

Si la distribución es simétrica (fig. a), las tres medidas de tendencia central tienen
valores idénticos.

Si la distribución es asimétrica (fig. b y c), los tres valores divergen, aunque siempre
para una distribución unimodal, la moda está localizada en su punto más alto y la
mediana esta entre la media y la moda.
Media
median
moda
a moda median
a Media

(a) (c)

median
a moda
Media

(c)

Figura 7. Localización de la media, mediana y moda

2.3 MEDIDAS DE DISPERSION.

Las medidas de dispersión o variabilidad permiten observar cómo se reparten o


dispersan los datos a uno y otro lado del centro. Si la dispersión es poca, indica gran
uniformidad de los datos en la distribución. Por el contrario, gran dispersión indica poca
uniformidad.

2.3.1 Rango

Es una medida de distancia y representa la diferencia entre el mayor y el menor de


los valores observados, es decir:

R = Max – Min (10)

Donde:

R: rango

Max: valor máximo de los datos

Min: valor mínimo de los datos


El rango o la amplitud es una manera conveniente de describir la dispersión, sin
embargo, no da medida alguna de la dispersión ente los datos con respecto al valor
central.

2.3.2 Varianza

Datos no agrupados:

La varianza poblacional (σ2), se define como la suma de cuadrados de las


desviaciones, de los datos con respecto a la media, dividida entre el número total de
datos, es decir:

2 ∑𝑛
𝑖=1(𝑥𝑖−𝜇)
2
𝜎 = …(11)
𝑛

La varianza muestral (S2), se obtiene dividiendo la suma de cuadrados de las


observaciones de los datos con respecto a la media, entre el número total de datos
menos uno, es decir:

2 ∑𝑛
𝑖=1(𝑥𝑖−𝑥̅ )
2
𝑆 = …(12)
𝑛−1

Para el cálculo computacional es útil expresar la sumatoria de la siguiente forma:

∑(𝑥𝑖 − 𝑥̅ )2 = ∑(𝑥𝑖 2 − 2𝑥̅ . 𝑥𝑖 + 𝑥̅ 2 )

∑ 𝑥𝑖 2 − 2𝑥̅ ∑(𝑥𝑖) + 𝑛𝑥̅ 2 …(13)

Pero:
∑ 𝑥𝑖
∑ 𝑥𝑖 = 𝑛 = 𝑛𝑥̅ …(14)
𝑛

Luego, sustituyendo (14) en (13), resulta:

∑(𝑥𝑖 − 𝑥̅ )2 = ∑ 𝑥𝑖 2 − 2𝑥̅ ∑(𝑥𝑖) + 𝑛𝑥̅ 2

∑(𝑥𝑖 − 𝑥̅ )2 = ∑ 𝑥𝑖 2 − 𝑛𝑥̅ 2 …(15)

Sustituyendo (15) en (11), se tiene:


1
𝜎 2 = 𝑛 (∑𝑛𝑖=1 𝑥𝑖 2 − 𝑛𝑥̅ 2 )…(16)

Y en (12) resulta:
1
𝑆2 = (∑𝑛𝑖=1 𝑥𝑖 2 − 𝑛𝑥̅ 2 ) …(17)
𝑛−1
Donde:

S2: varianza muestral

σ2= varianza poblacional

xi: valor i-ésimo de la muestra

𝑥̅ =: media muestral o poblacional

n: número total de datos

Datos agrupados

Para el caso de datos agrupados en intervalos de clase, la varianza poblacional, se


define como la suma de los cuadrados de las desviaciones de las marcas de clase
con respecto a la media, por la frecuencia absoluta, dividido entre el número total de
datos, es decir:

∑𝑘 2
𝑖=1(𝑥𝑖−𝜇) .𝑓𝑖
𝜎2 = …(18)
𝑛

y la varianza muestral por:

∑𝑘 2
𝑖=1(𝑥𝑖−𝑥̅ ) .𝑓𝑖
𝑆2 = …(19)
𝑛−1

Donde:

xi: valor de la i-ésima marca de clase

𝑥̅ =: media

fi: valor de la i-ésima frecuencia absoluta, es decir, número de datos en el intervalo i

k: número de intervalos de clase

n: número total de datos

Para el cálculo computacional, las ecuaciones (18) y (19), se pueden expresar:


1
𝜎 2 = 𝑛 (∑𝑘𝑖=1 𝑥𝑖 2 . 𝑓𝑖 − 𝑛𝜇 2 ) …(20)

1
𝑆 2 = 𝑛−1 (∑𝑘𝑖=1 𝑥𝑖 2 . 𝑓𝑖 − 𝑛𝑥̅ 2 ) …(21)

2.2.3 Desviación Estándar


La desviación estándar, se define como la raíz cuadrada positiva de la varianza, es
decir:

𝜎 = √𝜎 2 (Poblacional)

𝑆 = √𝑆 2 (Muestral)

Así se tiene, para datos no agrupados:

1
𝜎 = √𝑛 (∑𝑘𝑖=1 𝑥𝑖 2 − 𝑛𝜇 2 ) …(22)

1
𝑆 = √𝑛−1 (∑𝑘𝑖=1 𝑥𝑖 2 − 𝑛𝑥̅ 2 ) …(23)

Siendo:
1
𝑥̅ = 𝜇 = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 …(24)

Para datos agrupados

1
𝜎 = √𝑛 (∑𝑘𝑖=1 𝑥𝑖 2 . 𝑓𝑖 − 𝑛𝜇 2 ) …(25)

1
𝑆 = √𝑛−1 (∑𝑘𝑖=1 𝑥𝑖 2 . 𝑓𝑖 − 𝑛𝑥̅ 2 ) …(26)

Siendo:
1
𝑥̅ = 𝜇 = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 . 𝑓𝑖 …(27)

xi: valor de la i-ésima marca de clase

𝑥̅ = 𝜇: Media

fi: valor de la i-ésima frecuencia absoluta, es decir número de datos en el intervalo i

k: número de intervalos de clase

n: número total de datos

2.3.4 COEFICIENTE DE VARIACION

Es una medida relativa de dispersión, que relaciona la desviación estándar y la


media, es decir:
𝑆
𝐶𝑉 = 𝑋̅ …(28)
Generalmente en geoestadística se suele trabajar con datos muéstrales.

2.4 MEDIDAS DE SIMETRIA Y ASIMETRIA

2.4.1 sesgo

El sesgo es el estadístico que mide la simetría y asimetría

Datos no agrupados:

El sesgo (γ) para datos no poblacionales, se obtiene con la siguiente ecuación:


𝜇
𝛾 = 𝜎33 …(29)

Donde:
∑𝑛
𝑖=1(𝑥𝑖−𝜇)
3
𝜇3 = …(30)
𝑛

𝑛
1
𝜎 = √ (∑(𝑥𝑖 − 𝜇)2 )
𝑛
𝑖=1

𝑛
1
𝜇 = ∑ 𝑥𝑖
𝑛
𝑖=1

El sesgo para datos muéstrales, se obtiene con:


𝑛2 𝑀
3
𝐶𝑠 = (𝑛−1)(𝑛−2)𝑆 3
…(31)

Donde:
∑𝑛
𝑖=1(𝑥𝑖−𝑥̅ )
3
𝑀3 = …(32)
𝑛

𝑛
1
𝑆=√ ∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
𝑖=1

𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1

Datos agrupados:

El sesgo ( γ) para datos poblacionales, se obtiene con la siguiente ecuación:


𝜇3
γ = 𝜎3

Donde:

∑𝑘 3
𝑖=1(𝑥𝑖−𝜇) 𝑓𝑖
μ3 = ……. (33)
𝑛

𝑘
1
𝜎 = √ ∑(𝑥𝑖 − 𝜇)2 𝑓𝑖
𝑛
𝑖=1

1
𝜇 = 𝑛 ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖

𝑥𝑖 = marca de clase de intervalo i

𝑓𝑖= valor de la i-enésima frecuencia

K= número de intervalos de clase

n= número total de datos

El sesgo para datos muéstrales, se obtiene con :


𝑛2 𝑀
3
Cs = (𝑛−1)(𝑛−2)𝑠 3
…………… (34)

Donde:

∑𝑘 3
𝑖=1(𝑥𝑖−𝑥̅ ) 𝑓𝑖
M3 = ……… (35)
𝑛

𝑘
1
𝑆=√ ∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
𝑛−1
𝑖=1

1
𝑥̅ = 𝑛 ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖

𝑥𝑖 = marca de clase de intervalo i

𝑓𝑖= valor de la i-enésima frecuencia

K= número de intervalos de clase

n= número total de datos

2.5 MEDIDAS DE ACHATAMIENTO.


El grado de achatamiento se mide con el estadístico denominado coeficiente de
curtosis.

2.5.1 Curtosis

Datos no agrupados:
𝝁
K = 𝝈𝟒𝟒 …………….. (36)

∑𝑘 4
𝑖=1(𝑥𝑖−𝜇) 𝑓𝑖
μ3 = …………. (37)
𝑛

𝑘
1
𝜎=√ ∑(𝑥𝑖 − 𝜇̅ )2 𝑓𝑖
𝑛−1
𝑖=1

1
μ = 𝑛 ∑𝑘𝑖=1 𝑥𝑖

El coeficiente de curtosis para datos muéstrales se define como:


𝑛3 𝑀4
Ck = ( 𝑛−1)(𝑛−2)(𝑛−3)𝑆4 ……………. (38)

∑𝑛
𝑖=1(𝑥𝑖−𝑥̅ )
4
M4 = …………… (39)
𝑛

𝑘
1
𝑆=√ ∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
𝑖=1

1
𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖

Datos agrupados

El coeficiente de curtosis (k) para datos poblacionales se define mediante la


siguiente ecuación
𝜇
K = 𝜎44

Donde

∑𝑘 4
𝑖=1(𝑥𝑖−𝜇) 𝑓𝑖
μ4= …........ (40)
𝑛

𝑘
1
𝜎 = √ ∑(𝑥𝑖 − 𝜇)2 𝑓𝑖
𝑛
𝑖=1
1
𝜇 = 𝑛 ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖

𝑥𝑖 = marca de clase de intervalo i

𝑓𝑖= valor de la i-enésima frecuencia

K= número de intervalos de clase

n= número total de datos

El coeficiente de curtosis para datos muéstrales, se define como:


𝑛3 𝑀4
Ck = ( 𝑛−1)(𝑛−2)(𝑛−3)𝑆4 ……………. (41)

Donde

∑𝑘 4
𝑖=1(𝑥𝑖−𝑥̅ ) 𝑓𝑖
M4 = ……… (42)
𝑛

𝑘
1
𝑆=√ ∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
𝑛−1
𝑖=1

1
𝑥̅ = 𝑛 ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖

Los cálculos de los estadísticos de una serie de datos es por si laboriosa. Para la
simplificación de los cálculos, donde se requieren la determinación de la media,
varianza, desviación estándar, el coeficiente de variación, coeficiente de variación,
coeficiente de sesgo y coeficiente de curtosis.

2.6 EJEMPLO DE CÁLCULO

Dado los datos de precipitación anual, en mm de la estación, Mesapata, para el


periodo 1974-1986. Calcular su media, varianza, desviación estándar, coeficiente de
variación, coeficiente de sesgo y el coeficiente de curtosis.

AÑO PRECIPITACION AÑO PRECIPITACION


(mm) (mm)
1974 1418.60 1981 1441.50
1975 1527.30 1982 1133.20
1976 1108.60 1983 891.00
1977 1084.20 1984 1429.80
1978 1509.10 1985 1141.50
1979 1394.90 1986 1312.60
1980 1334.40
Solución:

Los resultados que se obtienen, son los que se muestran:

SERIE

1418.60 1527.30 1108.60 1084.20 1509.10 1394.90 1334.40 1441.50 1133.20


891.00 1429.80 1141.50 1312.60

Numero de datos = 13

RESULTADOS

DATOS DATOS MUESTRALES


PROBLACIONALES
Media 1286,67 1286.67
Varianza 35214.73 38149.29
Desviación estándar 187.66 195.32
Coeficiente variación 0.15 0.15
Coeficiente sesgo -0.55 0.63
Coeficiente curtosis 2.20 3.12
ESTADISTICA PROBABILISTICA O INFERENCIAL

Introducción.

La estadística probabilística o inferencial se refiere al estudio de la aleatoriedad y la


incertidumbre.

La teoría de la probabilidad nos proporciona el método adecuado para cuantificar la


incertidumbre por lo que es una herramienta importante en la toma de decisiones.

Ejemplos:

Es común escuchar o leer expresiones como:

1. Es probable que el precio de los metales mejore el próximo año 2018.


2. Hay un 50 % de posibilidad de que el Vice-Gobernador Sr. Enrique Vargas
(Cheff) sea liberado de la cárcel.
3. Probablemente el próximo ciclo ya no haya cursos paralelos.
4. Se espera que por lo menos se vendan 15000 boletos para el partido de futbol.

CONCEPTOS BASICOS DE PROBABILIDAD.

EXPERIMENTO ALEATORIO.

Un experimento aleatorio es todo proceso que consiste en la ejecución de un hecho (o


prueba) una o más veces (en las mismas condiciones) y cuyo resultado en cada prueba
depende del azar (no se pueden predecir con certeza) pero que sin embargo se
pueden definir (si se pueden describir).

ESPACIO MUESTRAL (S)

Es el conjunto de todos los posibles resultados de un experimento aleatorio. Aun


cuando en un experimento, no es posible determinar con seguridad su resultado, se
puede sí, definir con precisión un listado de los resultados posibles de ocurrir. Esta
lista constituye el espacio muestral, y se denota por S.

Ejemplos:

1. Si el experimento aleatorio consiste en lanzar una moneda, los resultados


posibles son sello o cara, entonces: El espacio muestral del experimento es: S
= {sello, cara}
Ns = 2
Ns: número posible de resultados del espacio muestral.
2. Si el experimento aleatorio consiste en registrar el sexo del siguiente recién
nacido en un cierto hospital. El espacio muestral será : S= {M, F}
Ns = 2
3. Si el experimento consiste en lanzar un dado, el espacio muestral será:
S = {1, 2, 3, 4, 5, 6}
Ns = 6
4. Si el experimento consiste en lanzar 2 dados, el espacio muestral, de la suma
de los resultado será:
S = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
Ns = 11

EVENTOS (E)

Son los resultados posibles que se puedan presentar en la realización de un


experimento.

Es un subconjunto del espacio muestral, se dice que un evento es simple si está


formado exactamente por un resultado y compuesto si está formado por más de un
resultado.

Ejemplos:

1. En el experimento de lanzar una moneda: El evento A, que salga cara es:


A = {cara}
NA = 1
NA: número posible de resultados del experimento.
2. En el experimento de lanzar un dado: El evento B, que salga un número mayor
o igual que 3, es:
B = {3, 4, 5, 6}
NB = 4
3. En el experimento, de lanzar dos dados: El evento C, que salga la suma igual a
7, es:
C = {(1,6), (6,1), (2,5), (5,2), (4,3), (3,4)}
Nc = 6

EVENTO ELEMENTAL (e).

Es cada uno de los elementos del espacio muestral y se representa por “e”.

Ejemplo ilustrativo:

Lanzar un par de dados, marcados c/u con los números 1, 2, 3, 4, 5 y 6.


Espacio muestral (S):

Eventos (E):

E1: (suma igual a 2): E1 = { (1,1)}; suceso elemental


E2: (suma igual a 3): E2 = { (1,2), (2,1)}
E3: (suma igual a 4): E3 = { (1,3), (2,2), (3,1)}
E4: (suma igual a 5): E4 = { (1,4), (2,3), (3,2), (4,1)}
E5: (suma igual a 6): E5 = { (1,5), (2,4), (3,3), (4,2), (5,1)}
E6: (suma igual a 7): E6 = { (1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}
E7: (suma igual a 8): E7 = { (2,6), (3,5), (4,4), (5,3), (6,2)}
E8: (suma igual a 9): E8 = { (3,6), (4,5), (5,4), (6,3)}
E9: (suma igual a 10): E9 = { (4,6), (5,5), (6,4)}
E10: (suma igual a 11): E10 = { (5,6), (6,5)}
E11: (suma igual a 12): E2 = { (6,6) }; suceso elemental

Nota: Con la unión e intersección de dos o más eventos, se generan nuevos


sucesos.
TECNICAS DE CONTEO
1. La regla del producto para n-uplas
2. Permutaciones
3. Combinaciones

1.3 DEFINICIÓN CLÁSICA DE PROBABILIDAD

La probabilidad P(A), de un evento A, en un experimento aleatorio que tiene Ns


resultados iguales posibles, y de los cuales NA, son resultado favorable, está dada
por:
𝑁𝐴
𝑃(𝐴) = ………………….. (1)
𝑁𝑆

Ejemplos:

1. El arrojar una moneda, la probabilidad de que salga sello, es:


1
P=2
2. Al arrojar un dado, hay seis casos igualmente posibles, la probabilidad de que
salga un número igual o mayor que 3 es:
4 2
P=6=3
3. Al arrojar dos dados, hay 36 casos igualmente posibles, la probabilidad de que
la suma de los resultado sea 7, es:
6 1
P = 36 = 6
4. En una serie de dos bolas rojas y ocho bolas negras, hallar la probabilidad que
al extraer una bola, esta sea de color rojo.
De los 10 casos igualmente probables, en 2 casos sucederá el evento que se
considera, por lo que se tendrá:
2 1
P= =
10 5
En el concepto clásico de probabilidad solo se puede aplicar en experimentos
en los que hay un número finito de casos igualmente posibles. Pero en la
naturaleza, los principales problemas prácticos no son de este tipo.

1.4 DEFINICION AXIOMATICA DE PROBAILIDAD

Sea S un espacio muestral asociado a un experimento, y A cualquier suceso de S (A


subconjunto de S). Se dice que P es una función de probabilidad en el espacio muestral
S, si se satisfacen los siguientes tres axiomas:

1. 0 ≤ P(A) ≤ 1, para todo A ∈ S


2. P(S) = 1
3. Si 𝐴1 , 𝐴2 , …, 𝐴𝑁 es una serie de sucesos, mutuamente excluyentes, entonces:
P (𝐴1 U 𝐴2 U 𝐴3 U….U𝐴𝑁 ) = P (𝐴1 ) + P (𝐴2 ) +… + P (𝐴𝑁 )

De estos axiomas se deducen los siguientes teoremas:

2. P(∅) = 0
3. P (𝐴𝐶 ) = 1 – P(A), donde 𝐴𝐶 es el complemento de A.

PROBABILIDAD DE LA UNION DE SUCESOS

Si A y B son eventos cualesquiera en un espacio muestral S, entonces:

𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) (2)

PROBABILIDAD CONDICIONAL

Si A y B son dos eventos en los cuales 𝑃(𝐴) ≠ 0, entonces, la probabilidad condicional


de que ocurra el suceso B, dado que sucedió A, se define por:
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵/𝐴) = … . (3)
𝑃(𝐴)

1.5 VARIABLES ALEATORIOS

Es una función X, definida sobre un espacio muestral S, que asigna un valor a esta
variable, correspondiente a cada punto (resultado) del espacio muestral de un
experimento

A una variable aleatoria, se le conoce también como variable estocástica, sus valores
son números reales, que no pueden predecirse con certeza antes de ocurrir el
fenómeno, es decir, ocurren al azar

1.5.1 CLASES DE VARIABLES ALEATORIAS

1. Variable aleatoria discreta

Se dice que una variable aleatoria X es discreta. Cuando sus valores se restringen a
un conjunto enumerable finito o infinito.

Ejemplo: Número de días de lluvia ocurridas en los meses de un año cualquiera.

Representación Grafica
Número de días

E F M A … D Meses

2. Variable aleatoria continúa

Se dice que una variable aleatoria X es continua cuando sus valores se encuentran en
un rango continuo y puede ser representado por cualquier número entero o decimal.

Ejemplo: El caudal diario registrado en una estación de aforo


Caudal Q

1 2 3 4 5 6 …. 31 días

La mayoría de secuencias de variables geológicas son series continuas, de variables


continuas. Sin embargo, para propósitos prácticos, una variable discreta puede
tratarse arbitrariamente como continua, ajustándose a una función continua, o bien,
una continua como discreta, dividiendo éstas en intervalos y agrupándolas en números
discretos.

DISTRIBUCIONES

El comportamiento de una variable aleatoria se describe mediante su ley de


probabilidades, que a su vez se puede caracterizar de varias maneras. La más común
es mediante la distribución de probabilidades de la variable aleatoria.

Notación:

X variable aleatoria de la función

x valor particular que toma la variable aleatoria

f(x) funcion densidad (funcion de probabilidad, distribucion de probabilidad de x)

F(x) funcion acumulada (funcion de distribucion acumulada)

IV. ESTIMACION DE PARAMETROS:

Una función densidad empírica o una función de distribución acumulada, pueden


escribirse como una función de variable aleatoria y en general como una función de
sus parámetros, así por ejemplo, la función densidad de la distribución normal, de
variable aleatoria X, es:

1 2
𝑓(𝑥) = 𝑒 −1⁄2[(𝑥−𝜇)⁄𝜎]
√2𝜋 ∗ 𝜎
Donde:

µ = parámetro de localización
𝜎 2 = parámetro de escala

Para que la función f(x), quede definida, debe calcularse los parámetros µ y 𝜎 2 .
Como normalmente, no se conocen todos los valores de la variable aleatoria, la
estimación de los parámetros, se realiza a partir de una muestra.

Sea las variables de una muestra:

X1, X2, X3,………………………….………………...., Xn

Y si estos se ajustan a una distribución normal los parámetros µ y 𝜎 2 se estiman a


partir de:

∑𝑛𝑖=1 𝑥𝑖
𝜇̂ = 𝑥̂ =
𝑛

2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
2
𝜎 =𝑆 =
𝑛
Donde:

𝜇̂ : Es el estimador de la 𝜇

𝜎̂ : Es el estimador de σ2.

Cualquier estimado a partir de una muestra es denominado un estimado o estimador


de los parámetros poblacionales.

4.1 DEFINICION DE ESTIMADORES.

Dada una función de distribución con parámetros α, β, γ,…, se llaman estimadores a


los valores a, b, c,…, a partir de los estadísticos de la muestra que se supone que
pertenece a la población que se pretende caracterizar.

La bondad de estos estimadores está dado por diferencias (α-a), (β-b), (γ-c), etc. pero
como es fácil intuir hay infinitas posibilidades para a, b, c por lo tanto se consideran
como mejores estimadores aquellos que se aproximan más a los valores
poblacionales y se llaman α, β, γ,…etc.

Los estimadores se clasifican como:

 Sesgado si:

E(a)= α

 Insesgado si:
E(a)= α + v (α)

Dónde: v (α) = E(a) – α es el sesgo.

 Eficiente si:

El estimador es insesgado y además:

VAR(a) =E (a-α)2

 Consistente si:

El tamaño muestral N es largo

En geología, se requiere principalmente que los estimadores sean insesgados y


eficientes, cuando se requiere extraer la máxima información desde los datos
muéstrales.

3.1 METODOS DE ESTIMACION DE PARAMETROS.


Para determinar los valores numéricos de los parámetros de la distribución
teórica, a partir de los datos muéstrales, se utilizan varios métodos de
estimación, siendo en orden ascendente de menor a mayor eficiencia:

 Método Grafico

 Método de Mínimos cuadrado

 Método de Momentos

 Método de Máxima verosimilitud

3.1.1 METODO GRAFICO


Consiste en plotear los valores de la distribución empírica sobre un papel
especial, donde la función de distribución teórica asignada a priori, se puede
representar con una línea recta y de allí estimar los parámetros buscados.

Así:

 El papel de probabilidades normal, representa la distribución normal


como una línea recta.

 El papel de probabilidades log-normal, representa la distribución log-


normal como una línea recta.

 El papel de probabilidades extremas, representa la distribución Gumbel


como una línea recta
Por ejemplo para determinar los estimadores de µ y σ por medio de una
muestra dada correspondiente a una población normal, hacer lo siguiente:

1. Plotear los valores de la distribución empírica de la muestra.

2. Dibujar una recta que se aproxime a los puntos, tanto como sea posible.

3. Calcular el valor correspondiente para una posibilidad de 50%, este valor es 𝑥̅ , el


cual es un estimador µ.

4. Calcular el valor para una posibilidad del 84.13% el mismo que corresponde a
𝑥̅ +S, es decir.
𝑥̅ + 𝑠 = 𝐾2 𝑠 = 𝐾2 − 𝑥̅

𝑆 es un estimador de σ.

4.2.2 METODO DE MINIMOS CUADRADOS

Este método más aplicable para la estimación de los parámetros de una ecuación de
regresión.

Por ejemplo, dada la recta de regresión lineal:

Y = a + bX

Donde a y b son parámetros

El error entre el valor observado i y el teórico es:

𝑒𝑖 = 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖

Y la suma de los cuadrados de los errores de los valores observados es:


𝑛 𝑛

𝑆= ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2


𝑖=1 𝑖=1

Esta suma puede minimizarse para a y b, esto se consigue derivando parcialmente


S en función de cada estimado a y b, e igualando a cero, es decir:
𝜕𝑆
= −2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏 𝑥𝑖 ) = 0 …(1)
𝜕𝑎

𝜕𝑆
= −2 ∑𝑛𝑖=1 𝑥𝑖 (𝑦𝑖 − 𝑎 − 𝑏 𝑥𝑖 ) = 0 …(2)
𝜕𝑏

Las ecuaciones (1) y (2) se denominan ecuaciones normales, las cuales resueltas
dan para a y b.
∑ 𝑥𝑖 ∑ 𝑦 𝑖
∑ 𝑥𝑖 𝑦𝑖 − ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑛
𝑏= 2 =
(∑ 𝑥𝑖 ) ∑(𝑥𝑖 − 𝑥̅ )2
∑ 𝑥𝑖2 −
𝑛

∑ 𝑦𝑖 ∑ 𝑥𝑖
𝑎 = 𝑦̅ − 𝑏𝑥̅ = − 𝑏
𝑛 𝑛
4.2.3 MOMENTOS DE LOS MOMENTOS

El principio básico de la estimación por el método de los momentos es establecer


para cada función de distribución la relación entre los parámetros y momentos
centrales, de tal manera que:

𝛼 = 𝑓1 (µ𝑖 , µ𝑖+1 , … )

𝛽 = 𝑓2 (µ𝑗 , µ𝑗+1 , … ) ……(3)

𝛾 = 𝑓3 (µ𝑘 , µ𝑘+1 , … )

Donde:

α, β, γ : Son parámetros de la función de distribución

µ𝑖 , µ𝑗, µ𝑘 : Son momentos con respecto a la media, o momentos centrales de la


población.

Como los momentos son estimados a partir de los momentos de la muestra como
estimadores sesgados o insesgados, el resultado que se obtiene será a, b, c, o
𝑎̂, 𝑏̂, 𝑐̂ , como estimadores sesgados o insesgados de los parámetros.

Cuando la distribución de probabilidad, a la que se estiman los parámetros por este


método es simétrica y particularmente si es normal, se puede demostrar que este
método es un método muy eficiente, pero cuando la distribuciones son asimétricas y
por lo tanto sesgadas, como sucede muy a menudo con la mayoría de las variables
geológicas e hidrológicas, el utilizar este método representa una pérdida de eficiencia
en la estimación:

Ejemplos:

1.- dada la función densidad de la distribución normal:


1 2
𝑓(𝑥) = 𝑒 −1⁄2[(𝑥−𝜃1 )⁄𝜃2 ] Para -∞ < x < ∞
√2𝛱𝜃2

Estimar los parámetros 𝜃1 , 𝜃2 , por el método de momentos.

Solución:

Sabemos que:

1) La media poblacional es igual al 1er momento respecto al origen, es decir:



𝜇 = 𝐸(𝑥) = 𝜇1 = ∫−∞ 𝑥𝑓(𝑥)𝑑𝑥 …………..(4)

2) la varianza 𝜎 2 es igual al 2do momento con respecto a la media, es decir:



𝑉(𝑥) = 𝜎 2 = 𝜇2 = ∫−∞(𝑥 − µ)2 𝑓(𝑥)𝑑𝑥 …(5)

Sustituyendo f(x) en (4) resulta:


∞ 1 2
µ = ∫−∞ 𝑥 𝑒 −1⁄2[(𝑥−𝜃1 )⁄𝜃2 ] 𝑑𝑥
√2𝛱𝜃 2

1 ∞ 2
µ=
√2𝛱𝜃2
∫−∞ 𝑥𝑒 −1⁄2[(𝑥−𝜃1 )⁄𝜃2 ] 𝑑𝑥 … ……….(6)

Haciendo:
𝑥−𝜃1
=𝑦 𝑥 = 𝜃1 + 𝜃2 𝑦 𝑑𝑥 = 𝜃2 + 𝑑𝑦 ………(7)
𝜃2

Límites: si x → -∞ y → -∞

x → +∞ y → +∞

Sustituyendo (7) en (6), se tiene:


1 ∞ 2 ⁄2
µ=
√2𝛱𝜃2
∫−∞(𝜃1 + 𝜃2 𝑦)𝑒 −𝑦 𝜃2 𝑑𝑦

∞ ∞
𝜃1 𝜃2 2 ⁄2 (𝜃2 )2 2 ⁄2
µ= ∫ 𝑒 −𝑦 𝑑𝑦 + ∫ 𝑒 −𝑦 𝑑𝑦
√2𝛱𝜃2 −∞ √2𝛱𝜃2 −∞
𝜃1 ∞ 2 ⁄2 𝜃2 ∞ 2 ⁄2
µ= ∫ 𝑒 −𝑦
√2𝛱 −∞
𝑑𝑦 +
√2𝛱𝜃2
∫−∞ 𝑒 −𝑦 𝑑𝑦…………………(8)

Calculo de:
∞ 2 ⁄2 𝑂 2 ⁄2 ∞ 2 ⁄2
𝐴 = ∫−∞ 𝑒 −𝑦 𝑑𝑦 = ∫−∞ 𝑒 −𝑦 𝑑𝑦 + ∫0 𝑒 −𝑦 𝑑𝑦 …(9)
2
Siendo 𝑓(𝑦) = 𝑒 −1⁄2(−𝑦)
2 2
𝑓(−𝑦) = 𝑒 −1⁄2(−𝑦) = 𝑒 −1⁄2𝑦 = f(y)

Dado que f(-y) =f(y), f(y) es una función par, por lo cual se tiene:
0 ∞
∫−∞ 𝑓(𝑦)𝑑𝑦 = ∫0 𝑓(𝑦)𝑑𝑦

Luego (9), se escribe:


∞ 2 ∞ 2
𝐴 = ∫0 𝑒 −1⁄2𝑦 𝑑𝑦 + ∫0 𝑒 −1⁄2𝑦 𝑑𝑦
∞ 2
𝐴 = 2 ∫0 𝑒 −1⁄2𝑦 𝑑𝑦 …… (10)

Haciendo

𝑦2 = 𝑡 𝑦 = 𝑡 1⁄2
𝑑𝑡 𝑑𝑡
2𝑦𝑑𝑦 = 𝑑𝑡 𝑑𝑦 = = 2𝑡 1⁄2
2𝑦

Limites:

Para y = 0 t =0

y → ∞ t→ ∞

Luego (10) se convierte en:


∞ 𝑑𝑡
𝐴 = 2 ∫0 𝑒 −1⁄2 2𝑡 1⁄2


𝐴 = ∫0 𝑡 −1⁄2 𝑒 −1⁄2𝑡 dt

Aplicando la transformación de Laplace:


1 1
𝑟 (− 2 + 1) 𝑟(2)
𝐴= 1 =
(1/2)−2+1 (1/2)1/2

1
Pero 𝑟 (2) = √𝛱 (propiedad de la función Gamma)
√𝛱
𝐴= 1
√2

𝐴 = √2𝛱 …. (11)

Calculo de B
∞ 2
𝐵 = ∫−∞ 𝑦𝑒 −1⁄2𝑦 𝑑𝑦

0 2 ∞ 2
𝐵 = ∫−∞ 𝑦𝑒 −1⁄2𝑦 𝑑𝑦 + ∫0 𝑦𝑒 −1⁄2𝑦 𝑑𝑦 …. (12)

1 2
Donde 𝑓(𝑦) = 𝑦𝑒 −2𝑦
1 1 2
(−𝑦)2
𝑓(−𝑦) = (−𝑦)𝑒 −2 = (−𝑦)𝑒 −2𝑦 = −𝑓(𝑦)

Luego: (12) se escribe


∞ ∞
2 2
𝐵 = − ∫ 𝑦𝑒 −1⁄2𝑦 𝑑𝑦 + ∫ 𝑦𝑒 −1⁄2𝑦 𝑑𝑦
0 0

B=0 …… (13)

Sustituyendo (11) y (13) en (8), resulta


𝜃1 𝜃2
µ= √2𝛱 + (0)
√2𝛱 √2𝛱

µ = 𝜃1 ( lo que indica que el primer parámetro 𝜃1 es igual a la media )

1
𝜃1 = ∑ 𝑋𝑖 = 𝑋̅
𝑁
Sustituyendo f(x) en (5) se tiene:

1 2
2
𝜎 = µ2 = ∫ (𝑥 − µ) 𝑒 −1⁄2[(𝑥−𝜃1 )⁄𝜃2 ] 𝑑𝑥
−∞ √2𝛱𝜃2

Como µ = 𝜃2

1 2
𝜎 2 = µ2 = ∫ (𝑥 − 𝜃1 )2 𝑒 −1⁄2[(𝑥−𝜃1 )⁄𝜃2 ] 𝑑𝑥
√2𝛱𝜃2 −∞

Haciendo:
𝑥−𝜃1
=𝑦 𝑥 = 𝜃1 + 𝜃2 𝑦 𝑑𝑥 = 𝜃2 𝑑𝑦
𝜃2

Límites: si x→ -∞ y → -∞

x→ +∞ y → ∞

Luego:

1 2
𝜎2 = ∫ 𝜃2 2 𝑦 2 𝑒 −1/2𝑦 𝜃2 𝑑𝑦
√2𝛱𝜃2 −∞

2
𝜃2 2 ∞
2
𝜎 = ∫ 𝑦 2 𝑒 −1/2𝑦 𝑑𝑦
√2𝛱𝜃2 −∞

2
Siendo f(Y)= 𝑦 2 𝑒 −1/2𝑦 y f(-y)=f(y) (función par), por lo cual

∞ ∞
∫−∞ 𝑓(𝑦)𝑑𝑦 = 2 ∫−∞ 𝑓(𝑦)𝑑𝑦

Luego:

𝜃2 2 ∞
2
𝜎2 = ∫ 𝑦 2 𝑒 −1/2𝑦 𝑑𝑦
√2𝛱 0

Haciendo:
𝑑𝑡
𝑦2 = 𝑡 𝑦 = 𝑡1/2 𝑑𝑦 = 2𝑡 1/2

Limites.

Para y = 0 t =0

y →∞ t → ∞
Se tiene:

2𝜃2 2 ∞
𝑑𝑡
2
𝜎 = ∫ 𝑡 𝑒 −1⁄2
√2𝛱 0 2𝑡 1⁄2

𝜃2 2 ∞
𝜎2 = ∫ 𝑡1/2 𝑒 −1⁄2 𝑑𝑡
√2𝛱 0

Aplicando transformación de Laplace:


1
2
𝜃2 2 𝑟(2 + 1)
𝜎 = .
√2𝛱 (1/2)3/2
1
2
𝜃2 2 1/2𝑟(2)
𝜎 = .
√2𝛱 (1/2)3/2

Pero: r(1/2) = √𝛱 luego:

𝜃2 2 √𝛱
𝜎2 = .
√2𝛱 (1/2)1/2

2
𝜃2 2
𝜎 = . √2𝛱
√2𝛱

𝜎 2 = 𝜃2 2 ( el parámetro 𝜃2 es igual 𝜎 )

1
𝜎 2 = 𝜃2 2 = ∑(𝑋𝑖 − 𝑋̅)2
𝑁−1

1
𝜃2 = √ ∑(𝑋𝑖 − 𝑋̅)2
𝑁−1

2. Dada la función densidad de la distribución Poisson:


∝𝑥 𝑒 −∝
Para x= 0, 1, 2,…
𝑥!

f(x)=
0 En otro caso

Calcular usando el método de momentos:

 El parámetro α
 La varianza

Solución:

1. como X es una variable discreta:

µ = 𝐸(𝑋) = ∑ 𝑥𝑓(𝑥)

∝𝑥 𝑒 −∝
µ = ∑𝑥
𝑥
𝑥=0


∝𝑥 𝑒 −∝
µ=∑
(𝑥 − 1)ǃ
𝑥=0

∝0 𝑒 −∝ ∝𝑥 𝑒 −∝
µ= + ∑∞
𝑥=1
(−1)ǃ (𝑥−1)ǃ

Pero (-1)ǃ = r(0) = ∞

Pero:
∝0 𝑒 −∝ 𝑒 −∝ 𝑒 −∝
= r(0) = =0
(−1)ǃ ∞

Luego:

∝𝑥 𝑒 −∝
µ=∑
(𝑥 − 1)ǃ
𝑥=1

−∝
∝1 ∝2 ∝3
µ=𝑒 .( + + +⋯ )
0ǃ 1ǃ 2ǃ
∝2 ∝3
µ =∝ 𝑒 −∝ . (1 + + +⋯ )
1ǃ 2ǃ

Pero:


∝2 ∝3
(1 + + +⋯ ) = 𝑒 ∝ (Por desarrollo de serie de Taylor)
1ǃ 2ǃ

Entonces:

µ = 𝑒 −∝ 𝑒 ∝

µ=∝

Falta 88 y 8

4.2.4. METODO DE MAXIMA VEROSIMILITUD


Dada una función densidad de probabilidad.
𝑓(𝑥, 𝛼, 𝛽, 𝛾, … … . )
Donde:
𝛼, 𝛽, 𝛾, … …. Son los parámetros que deben ser estimados.
Se define la función verosimilitud de la muestra, como la productoria:

L = ∏ f(𝑥𝑖 , 𝛼, 𝛽, 𝛾, … )
𝑖=1

L = f(𝑥1 , 𝛼, 𝛽, 𝛾, … . ) ∗ 𝑓(𝑥2 , 𝛼, 𝛽, 𝛾, … . ) … … … … . . 𝑓(𝑥𝑁 , 𝛼, 𝛽, 𝛾, … . )

Siendo N el tamaño de la muestra:


El método de máxima verosimilitud, consiste en estimar α, β, ,… a partir de la
muestra de tal manera que L sea máxima. Esto se obtiene por la diferenciación
parcial de L con respecto a cada parámetro e igualando a cero.

Puesto que f(x) es no negativo, un valor máximo de L será, en general positivo.


Como el logaritmo natural ln(L) es una función monotómicamente creciente de L,
esta tiene un máximo precisamente en los puntos en que L tiene un máximo. Por lo
tanto, se puede usar ln(L) en lugar de L, es decir:

N 𝑁

L = ∏ f(𝑥𝑖 , 𝑎, 𝑏, 𝑐, … ) → ln(𝐿) = ∑ ln f(𝑥𝑖 , 𝑎, 𝑏, 𝑐, … )


𝑖=1 𝑖=1

Este artificio, permite transformar una productoria a una sumatoria, donde:

a, b, c son estimadores de α, β, ,…

Entonces el conjunto de ecuaciones de máxima verosimilitud es:

𝜕𝑙𝑛𝐿 𝜕𝑙𝑛𝐿 𝜕𝑙𝑛𝐿


=0; = 0; = 0;…
𝜕𝑎 𝜕𝑏 𝜕𝑐

El mismo que tiene tantas ecuaciones como incógnitas.

Las propiedades de los estimadores calculados por el método de máxima


verosimilitud, son:

 Usualmente insesgado.
 Si la eficiencia de estimadores existe para los parámetros α, β,,…, el método
puede producirlos.
 La solución de la ecuación de verosimilitud proporciona un estimador que
converge al valor poblacional cuando el tamaño muestral tiende a infinito, por
lo que el estimador es consistente.

Ejemplos:

1. Dada la función densidad de la distribución exponencial:


−𝜆𝑥
𝑓(𝑥) = {𝜆𝑒 𝑝𝑎𝑟𝑎 𝑥 > 0, 𝜆 > 0
0 𝑒𝑛 𝑜𝑡𝑟𝑜𝑠 𝑐𝑎𝑠𝑜𝑠

Estimar el parámetro , usando el método de máxima verosimilitud.

Solución:

Sea la función de verosimilitud:

L = ∏ f(𝑥𝑖 , 𝜆)
𝑖=1

Siendo: f(𝑥𝑖 , 𝜆) = 𝜆 𝑒 −𝜆𝑥

Luego:

L = ∏ 𝜆 𝑒 −𝜆𝑥
𝑖=1

𝑙𝑛𝐿 = ∑ ln(𝜆 𝑒 −𝜆𝑥 )


𝑖=1

𝑙𝑛𝐿 = ∑ ln(𝑙𝑛𝜆 + 𝑙𝑛𝑒 −𝜆𝑥 )


𝑖=1

𝑙𝑛𝐿 = ∑ ln(𝑙𝑛𝜆 − 𝜆𝑥𝑖 )


𝑖=1

Derivando con respecto a l, se tiene:

𝑛
𝜕𝑙𝑛𝐿 𝜕
= 𝑙𝑛𝐿 = [∑ ln(𝑙𝑛𝜆 − 𝜆𝑥𝑖 )] = 0
𝜕𝜆 𝜕𝜆
𝑖=1

𝑛
1
∑ ( − 𝑥𝑖 ) = 0
𝜆
𝑖=1
𝑛 𝑛
1
∑ − ∑ 𝑥𝑖 = 0
𝜆
𝑖=1 𝑖=1

𝑛
1
𝑛 ∗ = ∑ 𝑥𝑖
𝜆
𝑖=1

𝑛
1 1
= ∑ 𝑥𝑖
𝜆 𝑛
𝑖=1

1 1
𝜆= 1 =
∑𝑛𝑖=1 𝑥𝑖 
𝑛 X

2. Dada la función densidad de la distribución normal

1 1⁄ [𝑥−𝜃 /𝜃 ]2
𝑓(𝑥) = 𝑒 2 1 2 𝑝𝑎𝑟𝑎 − ∞ < 𝑎 < ∞
√2 ∏ 𝜃2

Estimar los parámetros 𝜃1 𝑦 𝜃2 , por el método de máxima verosimilitud.


Solución:
1. La función de verosimilitud es:

N
1 1⁄ [𝑥−𝜃 /𝜃 ]2
L= ∏ 𝑒 2 1 2

𝑖=1
√2 ∏ 𝜃2

2. Tomando ln:
𝑛
1 1⁄ [𝑥−𝜃 /𝜃 ]2
𝑙𝑛𝐿 = ∑ ln( )𝑒 2 1 2

𝑖=1
√2 ∏ 𝜃2

𝑛
1 𝑥𝑖 − 𝜃1 2
𝑙𝑛𝐿 = ∑ ln (√2 ∏ 𝜃2 ) − ( )
2 𝜃2
𝑖=1
𝑛
1
𝑙𝑛𝐿 = ∑ [−ln(√2 ∏ 1 − 𝑙𝑛𝜃2 ) − ()2 ]
2
𝑖=1

Derivando con respecto a 𝜃1 , 𝜃2 , resulta:

𝜕𝑙𝑛𝐿 1 𝑥𝑖 −𝜃1 1
a) = ∑𝑛𝑖=1 [− 2 ∗ 2( )(− 𝜃 )] = 0
𝜕𝜆 𝜃2 2
𝑛
𝑥𝑖 − 𝜃1
∑ =0
𝜃2
𝑖=1
𝑛
1
∑(𝑥𝑖 − 𝜃1 ) = 0
𝜃2 2 𝑖=1
𝑛 𝑛

∑ 𝑥𝑖 − ∑ 𝜃1 = 0
𝑖=1 𝑖=1
𝑛 𝑛

∑ 𝑥𝑖 = ∑ 𝜃1
𝑖=1 𝑖=1
𝑛

∑ 𝑥𝑖 = 𝑛𝜃1
𝑖=1
𝑛
1 
𝜃1 = ∑ 𝑥𝑖 = X
𝑛
𝑖=1

𝜕𝑙𝑛𝐿 1 1
b) = ∑𝑛𝑖=1 [− 𝜃 − 2 ∗ (𝑥𝑖 − 𝜃1 )2 (−2𝜃2 − 3)] = 0
𝜕𝜆 2
𝑛
1 (𝑥𝑖 − 𝜃1 )2
∑ [− + ]=0
𝑖=1
𝜃2 𝜃2 3
𝑛
1 (𝑥𝑖 − 𝜃1 )2
∑ [−1 + ]=0
𝜃2
𝑖=1
𝜃2 3
𝑛 𝑛
(𝑥𝑖 − 𝜃1 )2
∑(−1) + ∑ =0
𝑖=1 𝑖=1
𝜃2 3
𝑛
1
∑(𝑥𝑖 − 𝜃1 )2 = 𝑛
𝜃2 2 𝑖=1
𝑛
1 (𝑥𝑖 − 𝜃1 )2
∑ = 𝜃2 2
𝑛
𝑖=1
𝑛
2 1
𝜃2 = ∑(𝑥𝑖 − 𝜃1 )2 = 𝜎 2
𝑛
𝑖=1

4.3 PROBLEMAS PROPUESTOS

1. dada la función densidad de la distribución uniforme:

1
𝑓(𝑥) = 𝑝𝑎𝑟𝑎 𝛼 ≤ 𝑥 ≤ 𝛽
𝛽−𝛼

Estimar sus parámetros 𝛼 𝑦 𝛽 , utilizando el método de momentos.

2. dada la función densidad de la distribución exponencial:

𝑓(𝑥) = 𝜆𝑒 −𝜆𝑥 𝑝𝑎𝑟𝑎 𝑥 > 0, 𝜆>0

Estimar su parámetro 𝜆, utilizando el método de momentos.

3. Dada la función densidad de la distribución de Poisson:

𝛼 𝑥 𝑒 −𝛼
𝑓(𝑥) = { 𝑥! 𝑝𝑎𝑟𝑎 𝑥 = 0, 1, 2, …
0 𝑒𝑛 𝑜𝑡𝑟𝑜𝑠 𝑐𝑎𝑠𝑜𝑠

Calcular el parámetro 𝛼, usando el método de máxima verosimilitud.


4. dada la función densidad de la distribución exponencial de dos parámetros:

𝑓(𝑥) = 𝜆𝑒 −𝜆(𝑥−𝜀) 𝑝𝑎𝑟𝑎 𝑥 > 𝜀, 𝜆>0


Estimar sus parámetros 𝜆, 𝜀, utilizando el método de momentos.
5. dada la función densidad de la distribución exponencial de dos parámetros:

𝑓(𝑥) = 𝜆𝑒 −𝜆(𝑥−𝜀) 𝑝𝑎𝑟𝑎 𝑥 > 𝜀, 𝜆>0

Estimar sus parámetros 𝜆, 𝜀, utilizando el método de máxima verosimilitud.

V. PRUEBAS DE BONDAD DE AJUSTE

Las pruebas de bondad de ajuste consisten en comprobar gráfica y estadísticamente,


si la frecuencia empírica de la serie analizada se ajusta a una determinada función de
probabilidades teórica seleccionada a priori, con los parámetros estimados en base a
los valores muéstrales.

Las pruebas estadísticas, tienen por objeto medir la certidumbre que se obtiene al
hacer una hipótesis estadística sobre una población, es decir calificar el hecho de
suponer que una variable aleatoria se distribuya según una cierta función de
probabilidades.

Las pruebas de bondad de ajuste más utilizadas son:

 Ajuste grafico
1. − chi − cuadrado
 Ajuste estadistico {
2. − Smirnov − Kolmogorov

5.1 AJUSTE GRAFICO


El ajuste grafico se puede realizar de las siguientes formas:
 Comparar gráficamente el histograma o función densidad empírica de la serie
de datos con la función densidad teórica y decidir visualmente si hay o no
ajuste de acuerdo a la similitud o diferencia de ambos, respectivamente.
 Comparar gráficamente la función de distribución acumulada de la serie de
datos, con la función de distribución acumulada teórica seleccionada, dibujada
en papel milimétrico, y decidir visualmente si hay o no ajuste.

 Se puede comparar también gráficamente la función acumulada de la serie de


datos, con la función acumulada teórica, ploteada en un papel probabilístico
adecuado, donde la distribución teórica seleccionada, se puede representar
como una línea recta. Así se tienen disponibles los papeles probabilísticos
normal, log-normal, Gumbel, etc.
El procedimiento consiste en plotear los valores de la variable (leyes,
precipitación, temperatura, etc.), versus la probabilidad empírica en el papel
de probabilidad correspondiente. Si los puntos ploteados se agrupan alrededor
de una línea recta, que es la representación de la distribución teórica, se puede
afirmar con cierta certeza que estos datos se ajustan a la distribución deseada.

5.2 PRUEBA CHI CUADRADO


La prueba chi-cuadrado es la más comúnmente usada para verificar la bondad
de ajuste de la distribución empírica a una distribución teórica conocida.
La expresión general de chi-cuadrado está dado por:
𝑋𝑐 2 = ∑𝑘𝑖=1(𝜃𝑖 − 𝑒𝑖 )2 /𝜃𝑖 … … … … … . ..(1)
Donde:
𝒌 𝒌

∑ 𝜃𝑖 = ∑ 𝑒𝑖 = 𝑵
𝒊=𝟏 𝒊=𝟏
2
𝑋𝑐 =Valor calculado de chi-cuadrado, a partir de los datos.
𝜃𝑖 =Número de valores observados en el intervalo de clase i.
𝑒𝑖 =Número de valores esperados (teórico) en el intervalo de clase i.
𝑘 =Número de intervalos de clase.
Asignado probabilidades a la ecuación (1) es decir, asignando igual probabilidad
de ocurrencia a cada intervalo de clase, se tiene:
𝑘
2 (𝑁𝑖 − 𝑁𝑃𝑖 )2
𝑋𝑐 =∑ … … … … … … … … … … … (2)
𝑁𝑃𝑖
𝑖=1

Donde:
𝑁𝑖 = Número de observaciones que caen dentro de los límites de clases
ajustadas del intervalo i.
𝑁= Tamaño muestral
𝑃𝑖 = Probabilidad igual para todos los intervalos de clases.
i
Pi = k o ei = NPi …………………… ……………….… (3)

Simplificando la ecuación (3), se obtiene la forma computacional desarrollada


por Markovic (1965).
𝑘
𝑘
𝑋𝑐 2 = ∑ 𝑁𝑖 2 − 𝑁 … … … … … … … … … … … … … … … … … … (4)
𝑁
𝑖=1

El valor 𝑋𝑐 obtenido por la ecuación (4) se compara con el 𝑋𝑡 2 obtenido de las


2

tablas, cuyo valor se determina con:


Nivel de significación: α=0.05 o α=0.01
Grados de libertad: g.l.= k-1-h
Dónde:
K= Número de intervalos de clase.
h = Es el número de parámetros a estimarse, así:
h = 2, para la distribución normal
h = 3, para la distribución log-normal de 3 parámetros
El criterio de decisión se fundamenta en la comparación del valor calculado de
chi-cuadrado con el valor tabular encontrado, esto es:
 Si el chi-cuadrado calculado es menor o igual que el valor de la tabla, es
decir:
𝑋𝑐 2 ≤ 𝑋𝑡 2,
Entonces se acepta la hipótesis de que el ajuste es bueno al nivel de
significación seleccionado.
 Si el chi-cuadrado calculado es mayor que el valor tabular, es decir:
𝑋𝑐 2 > 𝑋𝑡 2,
Entonces el ajuste es malo y se rechaza la hipótesis, siendo necesaria
probar con otra distribución teórica.

VENTAJAS Y LIMITACIONES

1. Es aplicable solo para ajustes a la distribución normal, puesto que ha sido


desarrollado en base a datos normales e independientes.
2. Es realizado en la función densidad de datos agrupados en intervalos de
clases.
3. Requiere un conocimiento a priori de la función de distribución teórica utilizada
en el ajuste.
4. En la práctica se usa para cualquier modelo de ajusté, pero estrictamente es
válido solo para la normal.
5. Es de fácil aplicación
6. Al utilizar esta prueba, se debe tener cuidado que en cada intervalo de clase,
se tenga por lo menos 5 observaciones.

5.3 PRUEBA DE BONDAD DE AJUSTE SMIRNOV-KOLMOGOROV

La prueba de ajuste de Smirnov-Kolmogorov, consiste en comparar las


diferencias existentes entre la probabilidad empírica de los datos de la muestra
y la probabilidad teórica, tomando el valor máximo del valor absoluto, de la
diferencia entre el valor observado y el valor de la recta teórica del modelo, es
decir:

∆= 𝑚𝑎𝑥|𝐹(𝑥) − 𝑃(𝑥)|…………………………………. (5)

Donde:

Δ = Estadístico de Smirnov-Kolmogorov, cuyo valor es igual a la diferencia


máxima existente entre la probabilidad ajustada y la probabilidad
emperica.

F(x) = Probabilidad de la distribución de ajuste o teórica


P(x) = Probabilidad experimental o emperica de los datos, de denominada
también frecuencia acumulada.

El estadístico Δ tiene su función de distribución de probabilidades.

Si Δo es un valor crítico para un nivel de significación α, se tiene que:

P { max | F(x) – P(x) | ≥ Δo } = α o

P( Δ ≥ Δo) = α (6)

También:

P( Δ < Δo) = 1 – α (7)

5.4 PROCEDIMIENTO.

El procedimiento para efectuar el ajuste con Smirnov-Kolmogorov, es:

1. Calcular la probabilidad empica o experimental P(x) de los datos, para esto


usar la fórmula de Weibull:
𝑀
P(x) = 𝑁+1………………………………………….(8)

Dónde:

M = Número de orden.

N = Número de datos

Existen varias fórmulas para calcular la probabilidad experimental, la misma que


se muestra en la tabla 1, siendo la más utilizada la fórmula de Weibull.

2. Calcular la probabilidad teórica F(x).

2.1. Para el caso de utilizar el procedimiento de los modelos teóricos, Usar la


ecuación de la Función acumulada F(x), o tablas elaboradas por tal fin.

2.2. Si se quiere aplicar el procedimiento gráfico, se utiliza un papel


probabilístico especial donde F(x), puede representarse como una línea
recta, por lo cual, se puede trazar con solo 2 puntos, pero si se quiere
chequear que es una recta, se puede plotear 3 puntos, por ejemplo para
el caso de una distribución normal, los puntos:
Tabla 1. Fórmulas para determinar la probabilidad experimental.

Método Probabilidad
experimental
P
m
California n

m-1/2
Hazen n

m
Weibull n+1

m - 0.3
Chegadayev n + 0.4

m-3/8
Bom n+¼

3m – 1
Tukey 3n + 4

m–a
Gringorten n + 1 – 2a

Dónde:
P = Probabilidad experimental o frecuencia relativa empírica.
m = Numero de orden
n = Numero de datos
a = Valor comprendido en el intervalo 0 < a < 1, y depende de n, de
acuerdo a la siguiente tabla:

n 10 20 30 40 50
a 0.448 0.443 0.442 0.441 0.440
n 60 70 80 90 100
a 0.440 0.440 0.440 0.439 0.439

Probabilidad
Valor %

̅
𝑿 50
̅+ S
𝑿 84.13
̅- S
𝑿 15.87

Representados en un papel de probabilidad normal, forman una recta.

3. Calcular las diferencias P(x) – F (x), para todos los valores de x.


4. Seleccionar la máxima diferencia Δ
5. Calcular el valor crítico del estadístico de Δ, es decir Δo para un α = 0.05
y N igual al Número de datos. Los valores de Δo, se muestran en la tabla
2.

Tabla 2 valores críticos de Δo del estadístico Smirnov- kolmogorov Δ, Para varios


valores de N y niveles de significación α

TAMAÑO NIVELES SIGNIFICACION α


MUESTRAL
N 0.20 0.10 0.05 0.01
5 0.45 0-51 0.56 0.67
10 0.32 0.37 0.41 0.49
15 0.27 0.30 0.34 0.40
20 0.23 0.26 0.29 0.36
25 0.21 0.24 0.27 0.32
30 0.19 0.22 0.24 0.29
35 0.18 0.20 0.23 0.27
40 0.17 0.19 O.21 0.25
45 0.16 0-18 0.20 0.24
50 0.15 0.17 0.19 0.23
N >50 1.07 1.22 1.36 1.63
√𝑁 √𝑁 √𝑁 √𝑁

6. Comparar el valor del estadístico Δ, con el valor critico Δo de la tabla 2,


con los siguientes criterios de decisiones deducidos de la ecuación (6).
Si Δ < Δo → el ajuste es bueno, a nivel de significación seleccionado.
Si Δ ≥ Δ0 → el ajuste no es bueno, al nivel de significación
seleccionado.

VENTAJAS Y LIMITACIONES

a. No requiere un conocimiento a priori de la función de la distribución


teórica.
b. Es aplicable a distribuciones de datos no agrupados, es decir no se
requiere hacer intervalos de clase.
c. Es aplicable a cualquier distribución teórica.
d. Se aplica en la función de distribución acumulada y no en la función de
densidad.
e. Comparándola con la prueba chi- cuadrado, no hay condición de que
cada clase de frecuencia deba contener un mínimo de 5 valores
observados.
f. No es una prueba exacta, sino una prueba aproximada.
VI DISTRIBUCIONES TEORICAS

El geólogo generalmente tendrá disponible un registro de datos muéstrales (ley media,


potencia de veta, etc.), a través de su conocimiento del problema físico, escogerá un
modelo probabilístico a usar, que represente en forma satisfactoria el comportamiento
de la variable.

Para utilizar estos modelos probabilísticos, se debe calcular sus parámetros y realizar
la prueba de bondad de ajuste, un esquema de este proceso se muestra en la figura
15.

Encontrada la ley de distribución que rige a las variables aleatorias se podrá predecir
con determinada probabilidad, la ocurrencia o no ocurrencia, de una determinada
magnitud de un fenómeno Hidrometeorológico.

Las distribuciones teóricas comúnmente utilizadas en Hidrología, son entre otras:

 Distribución normal
 Distribución log-normal de 2 o 3 parámetros
 Distribución de gamma de 2 o 3 parámetros
 Distribución Gumbel

Las cuales se ven en este capitulo

6.1. DISTRIBUCION NORMAL O GAUSSIANA

1. FUNCION DENSIDAD

La función densidad de la distribución normal es:

̅ 2
1 𝑋−𝑋
1 − [ ]
𝑓(𝑥) = 𝐸𝑥𝑝 2 𝑆 …………………..(1)
√2𝜋 𝑆

̅ 2
1 𝑋−𝑋
1 − [ ]
𝑓(𝑥) = 𝑒 2 𝑆 ………………………(2)
√2𝜋 𝑆

Para -  < x <  .

Fig. 15. Proceso de selección de una distribución teórica.


Seleccion de una
distribución

REGISTRO DE DATOS

ELEGIR UNA
DISTRIBUCION
TEORICA

ESTIMACION DE
PARAMETROS

PRUEBA DE
BONDAD DE
AJUSTE

F V
AJUSTE
BUENO

UTILIZAR DISTRIBUCION TEORICA


ELEGIDA

FIN

Donde:

f(x) = función densidad normal de la variable x.


x = variable independiente.

𝑋̅ = parámetro de localización igual a la media aritmética de x.

S = parámetro de escala, igual a la desviación estándar de x.

Exp = función exponencial con base e, de los logaritmos neperianos.

Decimos que la variable aleatoria X, se distribuye normalmente con media µ = 𝑋̅ y


una varianza (𝜎 2 = 𝑆 2 ) y se representa:

X----- N(𝑋̅, 𝑆 2 )

El grafico de la función densidad es:

FUNCION DE DENSIDAD DE DISTRIBUCION


NORMAL
0.2

0.15
f(x)

0.1

0.05

0
0 20 40 60 80 100
Xi

Siendo una función continua y simétrica con respecto a 𝑋̅.

𝑋𝑖 −𝑋̅
Si 𝑍= ………………….(3)
𝑆

La función densidad de Z, es llamada función densidad de la dsitribucion normal


estándar y tiene la siguiente expresión:

1 1
1 [𝑍]2 1 [𝑧]2
𝑓(𝑍) = 𝐸𝑥𝑝 − 2 O 𝑓(𝑍) = 𝑒− 2
√2𝜋 𝑆 √2𝜋 𝑆

Para -  < x < .


Los valores de f(x) o f(z) pueden ser fácilmente evaluados para un valor dado de x
o de z por las ecuaciones (1) y (4).

El grafico de la función densidad es la distribución normal estándar es:

Una característica fundamental de la distribución normal estándar es que tiene µz


= 0 y σ2z = 1, es decir: Z--- N(0,1)

2. FUNCION DE DISTRIBUCION ACUMULADA (F.D.A.)


La función de distribución acumulada de la distribución normal, es la integral de
las ecuaciones (1) 0 (2):

1 𝑋−𝑋 ̅ 2
1 𝑥 − [ ]
𝐹(𝑥) = ∫−∞
𝐸𝑥𝑝 2 𝑆 𝑑𝑥 …………………..(6)
√2𝜋 𝑆

1 𝑋−𝑋 ̅ 2
1 𝑥 − [ ]
𝐹(𝑥) = ∫ 𝑒 2 𝑆 𝑑𝑥………………………(7)
√2𝜋 𝑆 −∞

O su equivalente:

1
1 𝑧 − [𝑍]2
𝐹(𝑍) = ∫−∞ 𝐸𝑥𝑝 2 𝑑𝑥 …(8)
√2𝜋 𝑆

1
1 𝑧 − [𝑧]2
𝐹(𝑍) = ∫ 𝑒 2 𝑑𝑥 ….(9)
√2𝜋 𝑆 −∞

Donde F(x) es la función de distribución de la distribución normal para la variable


original x, según la ecuación (6), o también para la variable estandarizada Z, según la
ec. (8), es decir F(x) = F(Z).
Esta función de distribución tiene las siguientes funciones:

 F(−∞) = 0
 F(𝑋̅) = 0.5
 F(+∞) = 1

3. CALCULO DE LA FUNCION DE DISTRIBUCION ACUMULA

Existen tablas, por ejemplo las tablas 1 y 2 del apéndice que permite calcular F(Z).

Para realizar cálculos computacionales de F(Z), se utiliza funciones de aproximación,


dentro de las cuales se pueden mencionar:

a) Abramowitz stegun (1965) han dado varias aproximaciones para la F.D.A. de


la Variable normal estandarizada Z . Una aproximación polinomial con un error menor
que 10-5 es:

F(Z)≈ 1- f(Z)(0.043618V – 0.1217V2 + 0.9373V3) …..(10)

Donde:

F(Z) = es la función de distribución acumulada

f(Z) = es la función densidad de la variable estandarizada

V = es definido para Z ≥ 0, como:

𝟏
V = 𝟏+𝟎.𝟑𝟑𝟐𝟔𝟕|𝒁| ……………………………………..(11)

b) Masting (1955), ha dado una aproximación polinomial que ha sido utilizado por
la IBM (1968). Esta aproximación con un error menor que 7.5 x 10-8 , es:

F(Z) ≈ 1- f(Z)( b1w + b2w + b3w + b4w + b5w) …..(12)

Donde:

W es definido para Z ≥0, como:

1
W = 1+0.2316419|𝑍| ………………(13)
Siendo las constantes:

b1 = 0.319381530 b4 = -0.356563782

b2 = 1.781477937 b5 = - 1.821255978

b3 = 1.330274429

En ambas aproximaciones la F.D.A. es 1- F(Z), si Z<0

4. ESTIMACION DE PARAMETROS

Para estimar los parámetros de distribución teórica se puede usar el método de


momentos o el método de máxima verosimilitud.

Cabe mencionar que la distribución normal, es la única función de distribución, que


produce los mismos resultados de los parámetros, estimados por el método de los
momentos y máxima verosimilitud, los parámetros obtenidos son los siguientes:

1
𝑋̅ = 𝜇 = 𝑁 ∑𝑁
𝑖=1 X i

1
S = 𝜎 =[𝑁−1 ∑𝑁 ̅ 2 1/2
𝑖=1(𝑋𝑖 - 𝑋 ) ] …………………..(14)

Donde:

𝑋̅ = es el estimado de la media, llamado también parámetro de posición.

S= es el estimado insesgado de la desviación estándar parámetro de


escala.

5. APLICACIONES EN GEOLOGIA

L a distribución normal tiene gran utilidad en geología, siendo alguna de sus


principales aplicaciones:

 En el ajuste de distribuciones empíricas de variables geológicas de leyes de


mineral, potencia, etc.
 Análisis de los errores aleatorios en las observaciones o mediciones de leyes.
 Como referencia para comparar varias distribuciones teóricas de ajuste en una
distribución empírica.
 Para hacer procesos de inferencia estadística.
 Para generación de datos por el método de Monte Carlos. El inconveniente en la
generación de datos es que se obtienen valores negativos, lo cual físicamente no
es justificado.

6. AJUSTE

El ajuste puede realizarse gráficamente utilizando papel probabilístico normal o


analíticamente, mediante los estadísticos chi-cuadrado o Smirnov Kolmogorov.

6.2. DISTRIBUCIONES LOGARITMICAS


Las distribuciones logarítmicas más conocidas son la Log-normal, Log-Pearson
tipo 3 y Log-Gumbel. Por ejemplo, si la variable aleatoria X, tiene una distribución
log-normal, esto significa 𝑌 = 𝑙𝑛𝑋, tiene una distribución normal. Análogamente, si
X es una variable aleatoria log-Pearson tipo 3, 𝑌 = 𝑙𝑛𝑋, es una variable aleatoria
Pearson tipo 3.
También, si la variable aleatoria X, tiene una distribución log-Gumbel, 𝑌 = 𝑙𝑛𝑋, es
una variable aleatoria Gumbel. Es posible una generalización, en el caso que se
introduzca un límite inferior 𝑋0, en cuyo caso 𝑙𝑛𝑋, anteriores, es sustituido por
ln(𝑋 − 𝑋0 ).

6.2.1 DISTRUBUCIONES LOG-NORMAL

Hay una distribución Log-normal de 2 parámetros y otra de 3 parámetros. En la de 3


parámetros, el tercer parámetro es el límite inferior 𝑋0, denominado parámetro de
posición.

6.2.1.1 DISTRIBUCION LOG-NORMAL DE 2 PARAMETROS

La variable aleatoria X, es positiva y el límite inferior 𝑋0 no aparece.

La variable aleatoria: 𝑌 = 𝑙𝑛 𝑋, es normalmente distribuida con media µ𝑦 y varianza


𝜎 2 𝑦.
Se usan estos parámetros para especificar que la distribución es logarítmica, puesto
que también puede usarse la media y varianza de X.

1. FUNCION DENSIDAD
La función de distribución de Y, es:
1 𝑦−µ𝑦 2
1 − ( )
𝑓(𝑦) = 𝑒 2 𝜎𝑦
……………………………………...…. (15)
√2𝜋 𝜎𝑦

𝑦 ̴𝑁(µ𝑦 , 𝜎 2 𝑦)

para ̵α < y < α

Refiriendo la función de distribución de Y como f(x), se tiene:

𝑑𝑦
𝑓(𝑥) = 𝑓(𝑦)
𝑑𝑥
Donde:
𝑑𝑦 1
𝑦 = ln 𝑥 =𝑥
𝑑𝑥

Por esta razón, la función de distribución de probabilidad de X es:


2
1 𝑙𝑛𝑋−µ𝑦
1 − ( )
𝑓(𝑥) = 𝑥𝜎 𝑒 2 𝜎𝑦
………………………………(16)
𝑦 √2𝜋

𝑥 ̴𝑙𝑜𝑔𝑁(µ𝑦 , 𝜎 2 𝑦)

2. FUNCION DE LA DISTRIBUCION ACUMULADA


2
1 𝑦−µ𝑦
𝑦
1 − ( )
𝐹(𝑦) = ∫ 𝑒 2 𝜎𝑦
dy ……………. (17)
√2𝜋 𝑦 ̵α
𝜎

𝑦−µ𝑦
Si 𝑍= 𝜎𝑦

𝑍2
1 𝑦 −
𝐹(𝑍) = ∫ 𝑒 2 dZ …………………………………………..…. (18)
√2𝜋 ̵α

𝑍 ̴𝑁(0,1)

3. ESTIMACION DE PARAMETROS POR EL METODO DE MOMENTOS


Utilizando el método de momentos, las relaciones entre la media y la varianza de la
variable X y los parámetros µ𝑦 y 𝜎 2 𝑦, que se obtienen son:

𝜎2 𝑦
Media: Ȳ = 𝐸(𝑥) = 𝐸𝑋𝑃(µ𝑦 + )
2

Varianza: 𝑆 2 = 𝐸(𝑥 − 𝐸(𝑥))2 = 𝐸𝑋𝑃(2µ𝑦 + 𝜎 2 𝑦)(𝐸𝑋𝑃(𝜎 2 𝑦) − 1)

𝜎2 𝑦 1⁄
Desv. Est : 𝑆 = 𝐸𝑋𝑃(µ𝑦 + )(EXP(𝜎 2 𝑦) − 1) 2
2

𝑆 1⁄
Coeficiente de variación: 𝐶𝑉 = Ȳ= (EXP(𝜎 2 𝑦) − 1) 2

De donde:

𝜎 2 𝑦 = ln(1 + 𝐶𝑉 2 ) …. (19)

1
µ𝑦 = − 𝜎 2 𝑦 + ln 𝑋
2
1 Ȳ2
µ𝑦 = 2 ln(𝐶 2 ) …. (20)
𝑉 +1

Coeficiente de sesgo:
µ3 2𝑦 1⁄ 2
Cs= g = 3 = (𝑒 𝜎 − 1) 2 (𝑒 𝜎 𝑦 + 2) …. (21)
µ2 ⁄2

Para valores prácticos de 𝜎 2 𝑦 : 0.1 < 𝜎 2 𝑦 < 0.6, la relación es casi lineal y puede ser
aproximado por:

𝐶𝑠 = 𝑔 = 0.52 + 4.85𝜎 2 𝑦 …. (22)

Que es correcto dentro del 2%, en el rango mencionado.

En la figura 16, se presenta la función densidad de la distribución log-normal de 2


parámetros, para varios valores de µ y 𝜎 2 .
Fig. 16. Distribución log-normal de 2 parámetros, con varios valores de µ y σ.

6.2.1.2 DISTRIBUCION LOG-NORMAL DE 3 PARÁMETROS

Esta difiere de la distribución log-normal de 2 parámetros por la introducción de un


límite inferior 𝑋0, tal que:

𝑦 = ln(𝑥 − 𝑋0 ) 𝑦 ̴ 𝑁(µ𝑦 , 𝜎 2 𝑦)

La función de distribución de probabilidad de x es:


1 ln(𝑥−𝑋0 )−µ𝑦 2
1 − ( )
𝑓(𝑥) = (𝑥−𝑋 𝑒 2 𝜎𝑦
…. (23)
0 )𝜎𝑦 √2𝜋

𝑝𝑎𝑟𝑎 𝑥0 ≤ 𝑥 < α

𝑥0 : Parámetro de posición en el dominio x

µ𝑦 : Parámetro de escala en el dominio x

𝜎 2 𝑦: Parámetro de forma en el dominio x

1. ESTIMACION DE PARÁMETROS, MÉTODOS DE MONENTOS


Utilizando el método de los momentos, las relaciones entre la media, la varianza y el
coeficiente de sesgo, de la variable X y los parámetros de 𝑥0 , µ𝑦 y 𝜎 2 𝑦, que se obtiene,
son:
𝜎2 𝑦
Media: Ȳ = 𝐸(𝑥) = 𝑥0 + 𝑒 µ𝑦 + 2 …. (24)
2 2𝑦
Varianza: 𝑆 2 = 𝐸(𝑥 − 𝐸(𝑥))2 = 𝑒 2µ𝑦 +𝜎 𝑦 (𝑒 𝜎 − 1) …. (25)

Coeficiente de sesgo:
µ3 2𝑦 1⁄ 2
Cs= g = 3 = (𝑒 𝜎 − 1) 2 (𝑒 𝜎 𝑦 + 2) …. (26)
µ2 ⁄2

𝐶𝑠 = 𝑔 = 0.52 + 4.85𝜎 2 𝑦 …. (27)

Para datos muestrales el coeficiente de sesgo es:


𝑁2 𝑀
3
𝐶𝑠 = 𝑔 = (𝑁−1)(𝑁−2)𝑆 3
…. (28)

Donde:
∑(𝑥𝑖 −Ȳ)3
𝑀3 = …. (29)
𝑁

∑(𝑥𝑖 −Ȳ)2
S=√ …. (30)
𝑁−1

∑ 𝑥𝑖
Ȳ= …. (31)
𝑁

Luego:

𝐶𝑠−0.52
De (27): 𝜎𝑦 = √ …. (32)
4.85

1 𝑆2
De (25): µ𝑦 = 2 (ln ( 𝜎2 𝑦
) − 𝜎 2 𝑦) …. (33)
𝑒 −1

𝜎2 𝑦⁄
De (24): 𝑥0 = Ȳ − 𝑒 µ𝑦 + 2 …. (34)

6.2.2 EJEMPLO
3
Dada la serie histórica de caudales medio anuales, en 𝑚 ⁄𝑠𝑒𝑔. que corresponde a un
registro de 50 años para el rio Santa (Perú):

95.05 98.13 100.18 101.66 101.76


105.21 105.81 106.40 107.43 107.62
108.75 110.77 114.31 116.40 119.52
123.00 123.22 124.31 127.82 128.15
132.49 134.10 136.22 144.22 145.79
246.08 153.64 153.97 154.80 156.80
158.48 162.29 164.35 169.18 169.64
177.00 182.53 183.11 183.49 184.98
193.78 193.88 197.58 207.78 208.18
212.48 217.52 239.07 256.62 266.54

1. Averiguar si se ajustan a una distribución log-normal de dos parámetros


2. El caudal a para un periodo de retorno de 75 años.

SOLUCION:

1) Ajuste a la distribución log-normal de dos parámetros:


Utilizando los programas del listado 6(para crear el archivo de datos) y el listado
7(para realizar la prueba de bondad de ajuste), se encuentra que los datos, se
ajustan a la distribución log-normal de dos parámetros, con un nivel de significancia
del 5%, o a una probabilidad de 95%.
Un resumen de los resultados obtenidos con el programa es:
∆ = 0.0747
∆0 = 0.1923, para un nivel de significancia del 5%

Como: ∆ = 0.0747 < ∆0 = 0.1923, se concluye que los datos se ajustan a al


distribución log-normal de 2 parámetros, con un nivel de significancia del 5%.

2) Calculo de un caudal para un periodo de retorno de 75 años:

1
𝐹(𝑄 = 𝑞) = 𝑃(𝑄 ≤ 𝑞) = 1 −
𝑇
1
𝐹(𝑄 = 𝑞) = 1 −
75
𝐹(𝑄 = 𝑞) = 0.9866666 = 𝐹(𝑍)

De la tabla 2 del apéndice, para 𝐹(𝑍) = 0.9866666, se obtiene por interpolación:


Z= 2.215
Pero para una distribución log-normal de 2 parámetros, la variable estandarizada
es:
ln 𝑄−µ𝑦
𝑍= …. (1)
𝜎𝑦
El programa del listado 7, permite calcular también los parámetros µ𝑦 y 𝜎𝑦 , siendo
los valores obtenidos:
µ𝑦 = 4.9861
𝜎𝑦 = 0.2808

Sustituyendo valores en la ec. (1), se tiene:


ln 𝑄−4.9861
= 2.215
0.2808

De donde:

𝑄 = 𝑒 2.215∗0.2808+4.9861

3
𝑄 = 272.618 𝑚 ⁄𝑠

6.3. DISTRIBUCIÓN GAMMA

Otra distribución que juega un papel importante en Hidrología es la distribución


Gamma. Su aplicación es tan común, como el uso de la distribución log-norma.

6.3.1. DISTRIBUCIÓN GAMMA DE DOS PARÁMETROS

1. FUNCIÓN DENSIDAD

Se dice que una variable aleatoria X, tiene una distribución gamma de 2 parámetros
si su función densidad de probabilidad es:

𝑥 𝛾−1 𝑒 −𝑥/𝛽
𝑓(𝑥) =
𝛽 𝛾 Γ(Υ)

para:

0≤𝑥≤∞

0≤𝛾≤∞

0≤𝛽≤∞

siendo:

𝛾 = parámetro de forma (+)

𝛽 = 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑑𝑒 𝑒𝑠𝑐𝑎𝑙𝑎 (+)

Γ(𝛾) = 𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑔𝑎𝑚𝑚𝑎 𝑐𝑜𝑚𝑝𝑙𝑒𝑡𝑎, 𝑑𝑒𝑓𝑖𝑛𝑖𝑑𝑎 𝑐𝑜𝑚𝑜:



Γ(𝛾) = ∫0 𝑥 𝛾−1 𝑒 −𝑥/𝛽 𝑑𝑥 que converge si ϒ > 0
La función gamma tiene las siguientes propiedades:

 Γ(𝛾) = (𝛾 − 1)! para 𝛾 = 1, 2, 3, …

 Γ(𝛾 + 1) = 𝛾xΓ(𝛾) para ϒ > 0

 Γ(1) = Γ(2) = 1

 Γ(1/2) = √Π

 Γ(0) = ∞

Si ϒ > 0 pero no entero, puede Γ(𝛾) ser calculado por expansión de series e
integración numérica por:

2Π 1 1 1 1
Γ(𝛾) = 𝛾 𝛾 𝑒 −𝛾 √ [1 + + − − +⋯]
𝛾 12𝛾 288𝛾 2 51840𝛾 3 2488320𝛾 4

Para más detalles sobre las propiedades de la función gamma completa, su forma de
cálculo y la transformada de Laplace, ver anexo.

2. FUNCIÓN ACUMULADA

La función de distribución acumulada, de la función gamma incompleta de 2


parámetros es:

𝑥 𝑥 𝛾−1 𝑒 −𝑥/𝛽
𝐹(𝑥) = ∫0 𝑑𝑥 … (44)
𝛽 𝛾 Γ(Υ)

La integral de la ec. (44) puede evaluarse para valores dados de 𝛽 y 𝛾, usando la


tabla 7 del apéndice, en la cual se ha tabulado la función gamma incompleta. En esta
tabla se dan los valores de la probabilidad de excedencia 1 − 𝐹(𝑥), y se entra con:
2𝑥
𝑥2 = y 𝑣 = 2𝛾 … (45)
𝛽

si 𝛾 es entero, la función de distribución gamma acumulada, según Mood et al


(1974), puede calcularse por:
𝛾−1
−𝑥/𝛽
𝑥 𝑗
𝐹(𝑥) = 1 − 𝑒 ∑ ( ) /𝑗!
𝛾
𝑛

La variable aleatoria reducida está dada por:


𝑥
𝑌 = 𝛽 … (46)
la cual reduce la función de densidad de probabilidad a:

𝑌Υ−1 𝑒 −𝑌
𝑔(𝑌) = … (47)
Γ(Υ)

y la función de distribución acumulada:


𝑦 𝑌Υ−1 𝑒 −𝑌
𝐺(𝑌) = ∫0 𝑑𝑌 … (48)
Γ(Υ)

Las funciones reducidas contienen el parámetro 𝛾, por lo cual cada valor positivo de
𝛾 determina una función diferente. Un extracto de las tablas de Wik, Gnanadesikan
Huyett (1962), para las variables aleatorias reducidas Gamma, se muestra en la tabla
1.

Tabla 1. Función de variables aleatorias reducidas Gamma, G(Y), en función de Y y


𝛾.

𝑮(𝒀) 𝜸=𝟏 𝜸=𝟐 𝜸=𝟓 𝜸 = 𝟏𝟎 𝜸 = 𝟐𝟎

0.10 0.105 0.532 2.433 6.221 14.53

0.20 0.223 0.824 3.090 7.289 16.17

0.30 0.357 1.097 3.634 8.133 17.44

0.40 0.511 1.376 4.148 8.904 18.57

0.50 0.693 1.678 4.671 9.669 19.67

0.60 0.916 2.022 5.237 10.476 20.81

0.70 1.204 2.439 5.890 11.387 22.08

0.80 1.609 2.994 6.721 12.519 23.63

0.90 2.303 3.890 7.994 14.206 25.90

0.95 2.996 4.744 9.154 15.705 27.88

0.99 4.605 6.638 11.605 18.783 31.85

En el listado 8, se presenta un programa, que tiene una subrutina que permite


calcular la función gamma acumulada 𝐹(𝑥).
La representación gráfica de la función densidad y la función de distribución
acumulada, para una variable aleatoria X, que sigue una distribución gamma, con
𝛾 = 5 y 𝛽 = 5.63, se muestra en la figura 17.

3. ESTIMACIÓN DE PARÁMETROS, MÉTODO DE MOMENTOS

Utilizando el método de los momentos, las relaciones entre la media, la varianza y el


coeficiente de sesgo, de la variable X y los parámetros 𝛽 y 𝛾 de la distribución
gamma, que se obtiene son:

Fig. 17. función densidad y función acumulada de la distribución gamma de


dos parámetros.

media: 𝑋̅ = 𝐸(𝑥) = 𝛽𝛾 … (49)

varianza: 𝑆 2 = 𝛽2𝛾 … (50)


2
coeficiente de sesgo: 𝐶𝑆 = 𝑔 = 𝛾1/2 … (51)

𝑋̅ 2
De las ecs. (49) y (50), se tiene: 𝛾 = … (52)
𝑆2

𝑆2
De las ecs. (49) y (52), resulta: 𝛽 = 𝑋̅ 2 … (53)

4. ESTIMACIÓN DE PARÁMETROS, MÉTODO DE MÁXIMA


VEROSIMILITUD

Thom (1958), estableció que para 𝛾 < 10, el método de momentos produce una
estimación inaceptable de los parámetros 𝛽 y 𝛾. Para 𝛾 cerca de 1 el método de
momentos usa solamente el 50% de la información de la muestra para estimar 𝛽 y
solamente el 40% para estimar 𝛾.

Greenwood y Durand (1960), presentan las siguientes relaciones aproximadas de


estimación de parámetros por el método de máxima verosimilitud:

para: 0 ≤ 𝑦 ≤ 0.5772

𝛾 = (0.5000876 + 0.1648852𝑦 − 0.0544274𝑦 2 ) … (54)

y para:
8.898919+9.05995𝑦+0.9775373𝑦2
𝛾= … (55)
𝑦(17.79728+11.968477𝑦+𝑦 2 )

donde:

̅̅̅̅̅
𝑦 = 𝑙𝑛𝑋̅ − 𝑙𝑛𝑋 … (56)

siendo:
𝑋̅
𝛽= … (57)
𝛾

Greenwood y Durand (1960), establecieron que el máximo error de la ecuación (54)


es de 0.0088% y en la ecuación (55) es 0.0054%.

6.3.2. DISTRIBUCIÓN GAMMA INCOMPLETA DE 3 PARÁMETROS O PEARSON


III

1. FUNCIÓN DENSIDAD

Se dice que una variable aleatoria X, tiene una distribución gamma de 3 parámetros
o distribución Pearson III, si su función de densidad de probabilidad es:

(𝑥−𝑥𝑜 )𝛾−1 𝑒 −(𝑥−𝑥𝑜 )/𝛽


𝑓(𝑥) = … (58)
𝛽𝛾Γ(𝛾)

para:

𝑥𝑜 ≤ 𝑥 < ∞

−∞ ≤ 𝑥𝑜 < ∞

0≤𝛽<∞

0≤𝛾<∞

2. FUNCIÓN ACUMULADA
La función de distribución acumulada de la distribución gamma de 3 parámetros es:

𝑥 (𝑥−𝑥𝑜 )𝛾−1 𝑒 −(𝑥−𝑥𝑜 )/𝛽


𝐹(𝑥) = ∫𝑥 𝑑𝑥 … (59)
𝑜 𝛽 𝛾 Γ(Υ)

en la cual:

𝑥: variable aleatoria gamma de 3 parámetros o Pearson tipo III

𝑥𝑜 : origen de la variable x, parámetro de posición

𝛽: parámetro de escala

𝛾: parámetro de forma

Γ(Υ): función gamma completa

La representación gráfica de la función densidad y de la función de distribución


acumulada, para 𝑥𝑜 = 10, 𝛽 = 5 y 𝛾 = 3, se muestra en la figura 18.

Fig. 18. Función densidad y función acumulada de la distribución gamma de 3


parámetros.

La variable reducida Y Pearson tipo III, es:


𝑥−𝑥𝑜
𝑌= … (60)
𝛽

La función acumulada Pearson III reducida es:


𝑥 𝑌 𝛾−1 𝑒 −𝑌
𝐺(𝑌) = ∫𝑥 𝑑𝑌 … (61)
𝑜 Γ(Υ)

la cual tiene como parámetro 𝛾, y cuya variable aleatoria tienen origen en 𝑌 = 0 ó 𝑥 =


𝑥𝑜 .
3. ESTIMACIÓN DE PARÁMETROS, MÉTODO DE MOMENTOS

Aplicando el método de momentos, se obtuvieron las siguientes relaciones:

media: 𝑋̅ = 𝑥𝑜 + 𝛽𝛾 … (62)

varianza: 𝑆 2 = 𝛽2𝛾 … (63)


2
sesgo: 𝐶𝑆 = 𝑔 = … (64)
√𝛾

de donde:
4
𝛾 = 𝐶2 … (65)
𝑆

𝛽 = 𝐶𝑆 𝑆/2 … (66)

𝑥𝑜 = 𝑋̅ − 2𝑆/𝐶𝑆 … (67)

4. APLICACIÓN EN HIDROLOGÍA

Su uso en hidrología está casi tan difundido como el uso de la distribución log-normal
de 3 parámetros, con la desventaja de la mayor complicación al estimar sus
parámetros y calcular los valores de la función de distribución acumulada.

La práctica ha demostrado que los resultados entre la distribución log-normal y la


distribución Pearson III, para el ajuste de series de precipitaciones anuales, módulos
anuales, precipitaciones mensuales, etc. no difieren.

Las razones que convalidan la utilización de esta distribución de probabilidad son las
mismas que lo hacen en la distribución log-normal.

6.3.3. EJEMPLO

Para proteger de inundaciones a la población de la ribera del rio Turrialba, se desea


construir muros de encauzamiento. Para esto, se cuenta con un registro de 25 años
de caudales máximos en m3/s de una estación aguas arriba de la población, los
mismos que se muestran en la tabla 2.

Tabla 2. Registro de caudales del río Turrialba

53.50 64.00 169.90 162.70 102.10

165.60 155.80 199.00 22.80 76.00

250.50 120.50 250.50 231.70 207.00


234.00 189.00 196.00 96.90 91.60

65.40 123.00 119.00 200.00 380.00

Determinar el caudal de diseño para un periodo de retorno de 50 años. Usar la


distribución gamma de 2 parámetros.

SOLUCIÓN:

1. Ajuste de los datos de la serie a la distribución gamma de dos


parámetros.

1.1. Para crear el archivo con la serie de datos, se usa el programa


del listado 6.

1.2. Para realizar la prueba de bonda de ajuste, se utiliza el programa


del listado 8. Este programa calcula además los parámetros de la
serie y los parámetros de la distribución, algunos cálculos parciales
que se obtienen, es como se muestra:

- Cálculo de los parámetros de la serie de caudales:

𝑋̅ = 157.05

̅̅̅̅̅
ln 𝑥 = 4.90

𝑆 2 = 6450.21

𝑆 = 80.31

- Cálculo de los parámetros de la distribución gamma:

Utilizando la ec. (56), se tiene:

𝑦 = 𝑙𝑛𝑋̅ − ̅̅̅̅̅
ln 𝑥 = ln 157.05 − 4.9 = 0.15656

como: 𝑦 = 0.15656 < 0.5772, se utiliza la ec. (54), para el cálculo de 𝛾, es decir:

𝛾 = (0.500087 + 0.1648852𝑦 − 0.0544274𝑦 2 )/𝑦

De la ec. (57), se tiene:


𝑋̅
𝛽= 𝛾

157.05
𝛽= = 45.8133
3.4280
6.4 DISTRIBUCION GUMBEL

La distribución Gumbel, una de la distribuciones de valor extremo, es llamada


también valor extremo Tipo I, Fisher Tippett tipo I o distribución doble exponencial.

1. FUNCION ACUMULADA

La función de distribución acumulada de la distribución Gunbel, tienes la forma.

F(x) = EXP (-EXP (-(x-u)/α)) ……………………………………………………. (68)

ó
−(𝑥−µ)
F(x) = 𝑒 −𝑒 𝛼
................................................................... (69)

Para: -∞< x < ∞

Dónde:

0 < α < ∞ , es el parámetro de escala.

-∞< µ < ∞, es el parámetro de posición, llamado también valor central o


moda.

2. FUNCION DENSIDAD

Derivando la función de distribución acumulada, ec. (68) con respecto a x, se


obtiene la función densidad de probabilidad, es decir:
dF(x)
f(x)= dx

f(x) = EXP(-(x-µ)/α) –EXP(-(x-µ)/α) …………………………………………………


(70)

ó
1 −(𝑥−µ)/𝛼
f(x) = α 𝑒 −(𝑥−µ)/𝛼 −𝑒 ………………………………………………….. (71)

Para:

-∞< x < ∞
La variable aleatoria reducida de Gumbel, se define como:
𝑋−µ
Y= ……………………………………………………................. (7)
𝛼

Con lo cual, la función densidad reducida Gunbel es:


−Y
g(x) = EXP (- Y- EXP (-Y)) = e−Y−e ................................................................ (73)

y la función acumulada reducida Gunbel, es:


−Y
G (Y) = EXP (-EXP(-Y)) = e−e …………………………………………….. (74)

Los valores correspondientes x e Y, están relacionados por:

F(x) = G (Y)

Y la relación es:
x−µ
Y= ó x = µ + αY ……………………….. (75)
α

3. ESTIMACION DE PARÁMETROS, MÉTODO DE MOMENTOS

Utilizando el método de momentos, se obtiene las siguientes relaciones:

-Moda xmoda = µ

-Media E(x) = 𝑋̅ = µ +αC

Donde C, es la constante de Euler, cuyo valor es:

lim 1 1 1
C = n→∞ [1 + + + ⋯ + 𝑛 − ln n]
2 3

C = 0.5772156649

Por lo tanto:

𝑋̅ = µ +0.57721 α ………………………………. (76)


п2 α2
Varianza: E[(x – E(x))2] = S2 = …………………………… (77)
6

De donde se obtiene:

√6
α = S = 0.78 S …………………………….. (78)
п

µ = 𝑋̅ - 0.57721 α = 𝑋̅ - 0.45 S. …………. (79)

5. EJEMPLO

Se tiene el registro de caudales máximos de 29 años, para la estación 9- 3


Angostura, como se muestra en la tabla.

En este rio se desea construir una presa de almacenamiento, calcular el caudal de


diseño para el vertedor de demasías, con un periodo de retorno de 50 años. Usar la
distribución Gunbel.

1660 917 3800 1410 2280

618 683 934 779 921

876 740 1120 610 1150

563 520 360 367 658

824 824 1230 522 581

557 818 1030 418


SOLUCION:

1. Ajuste de los datos de la serie a la distribución Gunbel.

1.1Para crear el archivo con la serie de datos, se usa el programa del listado 6.

1.2Para realizar la prueba de bondad de ajuste, se utiliza el programa del listado 9.


Este programa calcula además los parámetros de la serie y los parámetros de la
distribución, algunos cálculos parciales que se obtienen, es como se muestra:

-Cálculo de los parámetros de la serie de caudales:

Media: 𝑋̅ = 957.59

Desviación estándar: S = 682.72

-Cálculo de los parámetros de la distribución de Gunbel:

El programa calcula estos parámetros utilizando las ec. (778) y (79) obteniendo:

Parámetro de escala: α = 523.3182

Parámetro de posición µ =650.3237

-Prueba de bondad de ajuste

Los resultados que se obtienen del programa son:

Δ = 0.1454

Δ0 = 0.2552, para un nivel de significación del 5%.

Decisión

Siendo: Δ = 0.454 < Δ0 =0.2552

Se concluye que los datos se ajustan a una distribución Gunbel, con un nivel de
significación del 5%.

2. Cálculo del caudal de diseño, para un periodo de retorno de 50 años.


1
F(Q =q) = P(Q ≤ q) = 1- T

1
F(Q = q) = 1 - 50

F(Q = q) = 0.98 =F(y)


−y
F(y) = e−e = 0.98

-e−y = ln0.98

e−y = 0.020202707

-y = ln(0.020202707)

Y= 3.9019

Pero de la ec. (72)


Q−µ
y= = 3.9019
α

Q = µ + 3.9019 x α

Q = 650.3237 + (3.9019) (523.3182)

Q =2,727.38 m3/s.