You are on page 1of 62

1

Capítulo 1. Momentos y Funciones Generadoras de Momentos

Las funciones generadoras de momentos son muy útiles para generar distribuciones de probabilidad para combinaciones de variables aleatorias.
Estas combinaciones de variables aleatorias aparecen de forma regular dentro de la estadística.

Note que

Por lo tanto, como


2

La función generadora de momentos existe si y solo si la suma o la integral sobre el soporte de la variable aleatoria X existen.
3
4
5
6
7
8
9
10
11

Tarea:
12

Prueba:
13
14

Y
15

Muestreo Aleatorio

1. Población: es el conjunto total de observaciones sobre las cuales estamos interesados. Diferenciamos poblaciones discretas y
poblaciones continuas. Las poblaciones discretas son aquellas donde podemos contar los elementos de una población y las poblaciones
continuas son aquellas donde generalmente no podemos contar los elementos de la población.

Ejemplo (población discreta): la población de estudiantes de la U de A es una población discreta finita ya que su población se puede contar. La
población de estrellas en el firmamento es una población discreta infinita ya que, aunque las estrellas se pueden numerar, es imposible contarlas
todas.

Ejemplo (población continua): los tiempos de vida que viven los antioqueños es una población continua ya que el tiempo se puede medir en una
escala muy precisa, y desde este punto de vista un solo individuo tiene muchas posibilidades de vida que pertenecen a la población. Por ejemplo,
un individuo puede vivir 80 años, 80.5 años, 80.55 años, 80.555 años y así. Note que ahora hay infinitas posibilidades para los tiempos posibles
de vidas de los habitantes. Una plantación de árboles de aguacate a los tres meses puede tener muchas posibilidades para las alturas de los
árboles, por ejemplo, 50 cm, 50.5 cm, 50.568 cm, 50.55687 y así.

2. Muestra: una muestra es un subconjunto de individuos de la población.


3. Censo: un censo es el análisis de todos los individuos de la población. Note que los censos solo son posibles en las poblaciones discretas
finitas.

Aunque los censos sean posibles para las poblaciones discretas finitas, en general el costo de realizar censos es muy alto, por esa razón
generalmente las poblaciones se estudian a partir de muestras.

4. Muestra Aleatoria: una muestra aleatoria es aquella donde los individuos, si la población es discreta, se seleccionan de una forma que la
probabilidad de selección de cada individuo es igual para todos los individuos de la población. De esta forma si seleccionamos n
individuos, de un total de N, en cada selección de la muestra, cada individuo es ingresado de nuevo a la población, de forma que la
probabilidad (1/N) de ser seleccionado no cambia de individuo a individuo. Como el muestreo es con reemplazo, es decir, cada individuo
seleccionado se ingresa de nuevo a la muestra, un individuo puede aparecer varias veces en la muestra, sin embargo, la probabilidad de
que un individuo aparezca más de una vez´, digamos k veces es k/N≈0.0 (aproximadamente cero), por esta razón muchas muestras de la
vida real en términos prácticos se consideran muestras sin reemplazo.
16

Si la población es continua todos los individuos de la muestra se deben generar bajo las mismas condiciones, por ejemplo, si deseamos evaluar la
efectividad de un fertilizante en un cultivo de aguacates, todos los árboles deben recibir la misma cantidad de agua, luz solar, abono orgánico
entre otras condiciones. Las variaciones en el cultivo de árbol a árbol deben ser puramente aleatoria.

Para seleccionar una muestra aleatoria de tamaño n de una población f ( x ) definimos la variable aleatoria Xi, i = 1, 2,..., n, que representa la i-
ésima medición o valor de la muestra que observamos. Si las mediciones se obtienen repitiendo el experimento n veces independientes en,
esencialmente, las mismas condiciones, las variables aleatorias X 1 , X 2 , X 3 ,… , X n constituirán entonces una muestra aleatoria de la población
f ( x ) con valores numericos x 1 , x 2 , x 3 ,… , x n. Debido a las condiciones idénticas en las que se seleccionan los elementos de la muestra, es
razonable suponer que las n variables aleatorias X 1 , X 2 , X 3 ,… , X nson independientes y que cada una tiene la misma distribución de
probabilidad f ( x ) . Es decir, las distribuciones de probabilidad de X 1 , X 2 , X 3 ,… , X n son, respectivamente, f ( x 1 ), f ( x 2 ),..., f ( x n ) , y su
distribución de probabilidad conjunta es f ( x 1 , x 2 , x3 , … , xn ) = f ( x 1 ) f ( x 2 ) ∙ ∙∙ f ( x n ) .El concepto de muestra aleatoria se describe de manera
formal en la siguiente definición.

Definición 8.1. Sean X 1 , X 2 , X 3 ,… , X n n variables aleatorias independientes, cada una con la misma distribución de probabilidad f ( x ) . Definimos
X 1 , X 2 , X 3 ,… , X ncomo una muestra aleatoria de tamaño n de la población f ( x ) y escribimos su distribucion de probabilidad conjunta como

5. Inferencia estadística: es el arte de estudiar poblaciones a partir de muestras aleatorias. En la medida de que las muestras sean
verdaderamente aleatorias, son representativas de la población, y muy posiblemente las características de la población, las adoptará la
muestra, y así los resultados de la muestra se pueden generalizar a la población. De aquí en adelante se asume que tenemos una
muestra aleatoria que representa bien la población o que tenemos la población en general.

En R es posible generar muestras aleatorias, por ejemplo, si tenemos 4000 individuos podemos seleccionar 50 de la siguiente forma:
17

En este caso tenemos la muestra x 1=415 , x 2=463 , x 3=179 ,…, x 40=490.

En general siempre tendremos muestras de tamaño n del tipo x 1 , x 2 , x 3 ,…, x n .

6. Estadísticos (O Medidas Estadísticas): una medida estadística, que en general se conocen simplemente como estadísticas, es cualquier
función que depende únicamente de los datos de la muestra. Las principales estadísticas utilizadas en la práctica, para variables
continuas, son las estadísticas de tendencia central, media y mediana, las de variabilidad, mínimo, máximo, rango, varianza muestral y
desviación estándar muestral y las estadísticas de posición. Para variables discretas, la principal estadística son los porcentajes de la
categoría de interés que de cierta medida también son una media como se verá más adelante.
18

6.1 Estadísticas de tendencia central

Si tenemos la muestra aleatoria

Tenemos la media dada por

Y la mediana dada por


19

6.2 Estadísticas de Variabilidad

Una medida de variabilidad que indica como se distribuyen los datos alrededor de la media es la varianza. La varianza se define como

Entre más grande sea S2 mayor es la dispersión de los datos alrededor de la media. Para el ejemplo, tenemos
20

La desviación estándar muestral es la raíz de la varianza, en el ejemplo s=278.01.

Distribuciones Muestrales

Si tenemos la muestra aleatoria

Donde cada una de las observaciones es una variable aleatoria, entonces, las estadísticas también serán aleatorias porque dependen de variables
aleatorias. Dado que las estadísticas son variables aleatorias tienen una distribución de probabilidad a la cual se le conoce como distribución
muestral. Entonces una distribución muestral o distribución de probabilidad muestral es la distribución de probabilidad de una estadística como
la media o la varianza.

7. Distribución de Probabilidad de la Media Muestral

Suponga que la muestra

Proviene de una población normal con media μ y varianza σ 2 . Tenemos que la media de la media muestral es la media poblacional μ, como se
observa enseguida
21
22
23

Si la muestra aleatoria X 1 , X 2 , X 3 ,… , X n no proviene de una población normal, este resultado no es exacto. Sin embargo, el siguiente teorema
nos permite una buena aproximación a la distribución normal.

Teorema del Limite Central (TLC)

En la práctica las muestras aleatorias provienen de poblaciones desconocidas y por lo tanto el supuesto de normalidad puede ser inadecuado. Sin
embargo, la teoría estadística ha mostrado que sin importar la población de origen de la muestra aleatoria X 1 , X 2 , X 3 ,… , X n cuando el tamaño
de la muestra tiende a infinito (n→ꝏ) la distribución límite de

X−μ
Z=
σ
√n
24

es la normal estándar, N ( 0,1 ) . Este resultado también se puede escribir como

Para indicar que la convergencia es en distribución de probabilidad.


25

Este resultado es muy importante para construir intervalos de confianza y contrastar hipótesis estadísticas más adelante. Note que en el TLC la
varianza poblacional σ 2 es desconocida, lo cual genera un problema porque en realidad a partir de los datos de la muestra aleatoria
X 1 , X 2 , X 3 ,… , X n solo contamos con S, la desviación estándar muestral. Sin embargo, el Teorema de Slutsky establece que, sin importar la
población de origen de la muestra aleatoria, para n→ꝏ (muestras grandes) la distribución límite de

X−μ
Z=
S
√n
es N(0,1). De nuevo este resultado es muy importante ya que nos permite establecer que

y por lo tanto

un resultado muy importante más adelante.


26

Ejemplo: Una empresa de material eléctrico fabrica bombillas que tienen una duración que se distribuye aproximadamente en forma normal, con media de 800
horas y desviación estándar de 40 horas. Calcule la probabilidad de que una muestra aleatoria de 16 bombillas tenga una vida promedio de menos de 775 horas.

que en R se calcula como:


27

Ejemplo (Partes para automóviles): Un importante proceso de fabricación produce partes de componentes cilíndricos para la industria automotriz. Es
importante que el proceso produzca partes que tengan un diámetro medio de 5.0 milímetros. El ingeniero implicado asume que la media de la población es de 5.0
milímetros. Se lleva a cabo un experimento donde se seleccionan al azar 100 partes elaboradas por el proceso y se mide el diámetro de cada una de ellas. Se sabe
que la desviación estándar de la población es σ = 0.1 milímetros. El experimento indica un diámetro promedio muestral de x = 5.027 milímetros. ¿Esta
información de la muestra parece apoyar o refutar la suposición del ingeniero?
Solución: Si miramos el problema de forma detenida, lo que podemos notar es que hay un proceso industrial que produce partes con un diámetro medio de 5.0
milímetros ( μ=5.0). Entonces, si el proceso está bien controlado, efectivamente, las medias de las muestras aleatorias ( x ) que se tomen deben estar cerca de
5.0. Lo cerca lo define la distribución muestral de X . Para este caso, x = 5.027, por lo que la distancia del promedio poblacional es 0.027. Si el proceso está en
control, la probabilidad de esta distancia o una mayor debería ser razonablemente grande. Calculemos esta probabilidad:
Note que la distancia puede ser por arriba o por abajo, entonces tenemos P ( ⌈ X−μ ⌉ >0.027 ) . Por el TLC tenemos
28
29

Que en R nos da

Entonces la probabilidad de que la media muestral se aleje de la media poblacional en términos absolutos en 0.027 unidades es de 0.007. Si el
proceso estuviera bajo control, esta distancia debería ser más probable, y por lo tanto tener una mayor probabilidad (en la práctica valores
razonables se consideran iguales o superiores a 0.05 o 0.1). Por lo tanto, como la probabilidad de ocurrencia de tal distancia es poco probable, se
considera que algo raro pasa en el proceso industrial, ocurrió algo de baja probabilidad, es decir, el proceso muy posiblemente este fuera de
control.

Ejemplo: El viaje en un autobús especial para ir de un campus de una universidad al campus de otra en una ciudad toma, en promedio, 28
minutos, con una desviación estándar de 5 minutos. En cierta semana un autobús hizo el viaje 40 veces. ¿Cuál es la probabilidad de que el
tiempo promedio del viaje sea mayor a 30 minutos? Suponga que el tiempo promedio se redondea al entero más cercano .

Solución: cuando se aproxima al entero más cercano, por ejemplo 2.52 lo aproximamos a 3 y 2.48 a dos, es decir, los valores arriba de 2.5 se
aproximan a 3 y los valores debajo de 2.5 se aproximan a dos. Así funciona para cualquier otro número. Para que el viaje sea en realidad mayor a
30 minutos, nosotros debemos calcular la probabilidad de que sea mayor a 30.5, ya que estos valores se toman como 31 que son mayores a 30
minutos. Tenemos entonces
30
31

7.1 Distribución muestral de la diferencia entre dos medias

Suponga que tenemos dos poblaciones, la primera con media μ1 y varianza σ 1, y la segunda con media μ2y varianzaσ 2. Representemos con el
2 2

estadístico X 1 la media de una muestra aleatoria de tamaño n1, seleccionada de la primera población, y con el estadístico X 2 la media de una
muestra aleatoria de tamaño n2 seleccionada de la segunda población, independiente de la muestra de la primera población. ¿Qué podríamos
decir acerca de la distribución muestral de la diferencia X 1 - X 2 para muestras repetidas de tamaños n1 y n2? De acuerdo con el teorema 8.2,
tanto la variable X 1 como la variable X 2 están distribuidas más o menos de forma normal con medias μ1 y μ2 y varianzas σ 1/n1 y σ 2/n2,
2 2

respectivamente. Esta aproximación mejora a medida que aumentan n1 y n2. Al elegir muestras independientes de las dos poblaciones nos
aseguramos de que las variables X 1 y X 2 sean independientes y, usando el teo rema 7.11, con a1 = 1 y a2 = –1, concluimos que X 1 - X 2 se
distribuye aproximadamente de forma normal con media

El teorema del límite central se puede ampliar fácilmente al caso de dos muestras y dos poblaciones.
32

Si tanto n1 como n2 son mayores o iguales que 30, la aproximación normal para la distribución de X 1 - X 2 es muy buena cuando las distribuciones subyacentes no
están tan alejadas de la normal. Sin embargo, aun cuando n1 y n2 sean menores que 30, la aproximación normal es hasta cierto punto buena, excepto cuando las
poblaciones no son definitivamente normales. Por supuesto, si ambas poblaciones son normales, entonces X 1 - X 2 tiene una distribución normal sin importar de
que tamaño sean n1 y n2 .

Ejemplo (Tiempo de secado de pinturas): Se llevan a cabo dos experimentos independientes en los que se comparan dos tipos diferentes de pintura, la A y la B.
Con la pintura tipo A se pintan 18 especímenes y se registra el tiempo (en horas) que cada uno tarda en secar. Lo mismo se hace con la pintura tipo B. Se sabe que
la desviación estándar de población de ambas es 1.0.

Si se supone que los especímenes pintados se secan en el mismo tiempo medio con los dos tipos de pintura, calcule P ( X A - X B> 1.0), donde X A - X B son los
tiempos promedio de secado para muestras de tamaño nA = nB = 18.

Solución:
33
34

Note que asumimos que las medias poblacionales son iguales. Por lo tanto, para estas dos pinturas, si en realidad las medias son iguales,
la probabilidad de que difieran en el secado en más de una hora es muy baja. Si la diferencia de los tiempos de secado medio de las dos
pinturas fuera de por ejemplo 0.8 horas, tendríamos

En este caso, si es posible que, en dos muestras independientes, la diferencia de las medias muestrales sea más de una hora.

Ejemplo: Los cinescopios para televisor del fabricante A tienen una duración media de 6.5 años y una desviación estándar de 0.9 años; mientras que los del
fabricante B tienen una duración media de 6.0 años y una desviación estándar de 0.8 años. ¿Cuál es la probabilidad de que una muestra aleatoria de 36
cinescopios del fabricante A tenga por lo menos 1 ano más de vida media que una muestra de 49 cinescopios del fabricante B?

Solución:
35

Taller: Hacer ejercicios impares del 8.17 al 8.35.

8. Distribuciones Muestrales de Poblaciones Normales

Hay tres distribuciones muestrales muy importantes cuyo supuesto fundamental es que la población de origen de la muestra X 1 , X 2 , X 3 ,… , X n
es una distribución normal con media μ y varianza σ 2. Aunque como se mencionó arriba el supuesto de normalidad a veces es difícil de alcanzar,
las distribuciones que se verán enseguida conservan sus propiedades en muestras grandes, así la población de origen no sea normal.
36

8.1 La Distribución Chi-Cuadrado

Aquí asumimos que la muestra X 1 , X 2 , X 3 ,… , X n proviene de una población normal con media μ y varianza σ 2. Con esta muestra calculamos la
media X y la varianza S2 . Esta distribución es útil para analizar la variabilidad de una población normal. Decimos entonces que la variable
aleatoria de interés es ahora

n
Para analizar de forma más exacta la distribución de la variable χ 2 descomponemos el término ∑ ( X i− X ) .
2

i=1
37

Ya que

Si dividimos por σ 2 obtenemos


38

Entonces como,
39

( )
2
2 σ
tiene una distribución chi-cuadrado con n grados de libertad y ( X −μ ) / tiene una distribución chi-cuadrado con 1 grado de libertad, por el
n
( n−1 ) S 2
Teorema 7.12, debe tener una distribución chi-cuadrado con n-1 grados de libertad. Tenemos así el siguiente teorema.
σ2

Es bueno recordar que la distribución de probabilidad chi-cuadrado con v grados de libertad está dada por

Incluso si la población no es normal, cuando el tamaño de la muestra es grande (tiende a infinito), la distribución límite de χ 2 sigue siendo la chi-
cuadrado con v=n-1 grados de libertad. Solucionemos el ejercicio 8.41.
40

SOLUCIÓN:

A.
41
42

Sin embargo, el R dos da

B.

En R es inmediato
43

Recordar que

En las tablas nos toca calcular

=0.95-0.01=0.94.
44

Si σ 2=1, la probabilidad de observar una varianza de 0.815 o superior es bastante alta. Por lo cual la desviación estándar de 1 año (o la varianza
de 1) es una buena suposición del fabricante de baterías.
45

8.2 La Distribución T de Student (1908)

En el Teorema del Limite Central (TLC) se supones que la desviación estándar poblacional ( σ ) es conocida. Este supuesto, sin embargo, es poco
razonable, debido a que si no tenemos información de la media poblacional ( μ ) , mucho menos la vamos a tener de la desviación estándar
poblacional. Entonces con la finalidad de estudiar la media poblacional, sin conocer la desviación estándar poblacional, el estadístico de interés
es ahora

X−μ
T=
S
√n
Esta estadística, tiene la particularidad de alejarse bastante en muestras pequeñas de la distribución normal, dada la gran variabilidad que se
presenta en S2 y por lo tanto en S. Veamos por qué.

Solución: recordemos que


46

Por lo tanto:

Entonces en muestras pequeñas la varianza de S2 es muy variable (numerador muy pequeño), lo que hará que la distribución de

X−μ
T=
S
√n
se aleje bastante de la normal.
47

Veamos porque

X−μ
T=
S
√n
sigue una distribución T con n-1 grados de libertad.
48

Como la variabilidad de T depende de la variabilidad de X y S y la variabilidad de Z=( X −μ ) / ( σ / √ n ) solo depende de X , T debe ser más
variable que Z, por lo tanto, debe tener colas más anchas (pesadas en la literatura estadística) que las colas de Z, como se observa en los
siguientes gráficos

Note como las colas de la distribución T son mas anchas que las colas de la distribución de Z.
49

Sin embargo, la simetría de la distribución normal (Z) también la adopta la distribución T. Las tablas A.4 T del texto, dan las probabilidades de cola
derecha, es decir, dan
50

Por ejemplo, para v=10, tenemos que la probabilidad de que T 10 sea mayor a 1.812 es 0.05. El R da esta probabilidad como

Como la distribución T es simétrica, tenemos


51
52

Note que las áreas sombreadas son áreas de las colas, por eso la probabilidad de que T sea menor que t 0.05 es 0.95 (los complementos deben
sumar uno). Y
53

Solución:
54
55

Como -2.0, cae en el intervalo -2.131<t< 2.131 el ingeniero puede seguir tranquilo de que su proceso productivo está bien. Sin embargo, está un
poco cerca del límite izquierdo.
56

Para tamaños mayores a 30, la distribución T se acerca mucho a la distribución normal estándar. Sin embargo, para n<30, la distribución T difiere
bastante de la normal. Por esta razón, los cálculos de probabilidades con la distribución T con n ≥ 30, se acostumbran a aproximar con la normal
por muchos practicantes, sin embargo, no por todos. Note que la distribución T que asume poblaciones normales, se usa para hacer estudios de
la media poblacional, μ, cuando la desviación estándar poblacional (σ ) es desconocida.

La Distribución F

La distribución F se utiliza para comparar la variabilidad de dos poblaciones normales independientes. El estadístico F se define como el cociente
de dos variables aleatorias chi cuadrado independientes, dividida cada una entre su número de grados de libertad. En consecuencia, podemos
escribir

donde U y V son variables aleatorias independientes que tienen distribuciones chi cuadrada con v1 y v 2 grados de libertad, respectivamente.
Estableceremos ahora la distribución muestral de F.

Las figuras 8.11 y 8.12 muestran gráficamente la distribución F y el cálculo de sus probabilidades.
57

La Tabla A.6 del texto da las probabilidades asociadas para la distribución F con probabilidades de cola derecha dadas por α =0.05 y α =0.01 y
varias combinaciones de valores de v1 y v 2 grados de libertad. Por ejemplo:
58

Un resultado que se puede probar, pero que no probamos en este curso, es el siguiente:
59

Por consiguiente:

En R tenemos

La Distribución F con dos Varianzas Muestrales

Suponga que tenemos dos muestras aleatorias de poblaciones normales independientes dadas por X 11 , X 12 , X 13 , … , X n 1 de una población
N ( μ1 , σ 21 ) y X 21 , X 22 , X 23 , … , X n 2 de una población N ( μ2 , σ 22 ). Por el Teorema 8.4 sabemos que:

Entonces del Teorema 8.6 tenemos que si denotamos a U y a V como

Entonces, tenemos lo siguiente:


60

Tenemos así el siguiente Teorema:


61

Solución:
62

Si las varianzas fueran iguales, la probabilidad de obtener un valor F de 5.6574 es muy baja, por lo que más bien se piensa que las varianzas son
distintas. Con las tablas tendríamos

Con las tablas tenemos 3.68< F <6.72, por lo que la probabilidad de obtener un F de 5.6574 está entre 0.01 y 0.05, mucho más cerca de 0.01. En R
la probabilidad es como se mostró arriba 0.016, si las varianzas poblacionales fueran iguales. Como la probabilidad de obtener un valor F de 5.65
2 2
es más bien baja, se piensa que el supuesto de que σ 1=σ 2es un supuesto inadecuado. Las varianzas poblacionales se pueden considerar distintas.

You might also like