You are on page 1of 10

Probabilidades y Estadı́sticas

Resumen estadı́stica
Felipe Alvarado Fuchslocher: felipealvarado.f@gmail.com

1. Intervalos de confianza
En estadı́stica se usan intervalos de confianza para obtener un rango confiable sobre el cual se encuentra
un estimador de nuestro interés, usualmente queremos conocer la media (µ), varianza ( σ 2 ) o proporción
(p) de la población a partir de una muestra. Cuando hablamos de muestra hablamos de un muestreo
aleatorio simple (m.a.s), en dicho muestreo todos los posibles conjuntos de tamaño n de un total de N
elementos tienen la misma probabilidad de ser elegidos, la muestra se hace de forma aleatoria ¿Por qué?
Imaginemos que queremos estimar el promedio del puntaje de PSU de matemáticas 2017 de todos los
estudiantes del paı́s y tomara una muestra de 100 alumnos, si eligiésemos a los primeros 100 postulantes
que entraron a Beauchef ¿Serı́a representativo de la población total?, evidentemente no, la estimación
estarı́a sesgada y el valor estimado se encontrarı́a sobrestimado.

1.1. Estimación de la media de una población


1.1.1. Varianza de la población (σ 2 ) desconocida
En este caso solo conocemos S 2 , la varianza muestral Para estimar µ lo hacemos a partir del siguiente
estimador:
X̄ − µ
T = √ (1)
s/ n
El cual distribuye T-student de n − 1 grados de libertad y s es la varianza muestral 1 La T-student al igual
que la normal tienen la particularidad y ventaja de ser simétrica, por lo que en consecuencia el intervalo
también será simétrico. La notación que se usa es la siguiente:

P(−c ≤ T ≤ c) = 1 − α

(2)

Donde los valores de c se obtienen a partir de la tabla, veamos cuales son utilizando propiedades
conocidas:

P(T ≤ c) − P(T ≤ −c) = 1 − α (3)

1 − P(T ≥ c) − P(T ≤ −c) = 1 − α (4)


Ahora bien, dada la simetrı́a que tiene la t-student la probabilidad que el estadı́stico sea mayor a c es
igual a la probabilidad que el estadı́stico sea menor a -c. Gráficamente esto se puede ver en el siguiente
dibujo donde las áreas pintadas son iguales:
1
Pueden ver la demostración en el apunte del profe si lo desean

1
Probabilidades y Estadı́sticas

Figura 1: Simetrı́a t-student

Utilizando esto nos queda que


1 − 2P(T ≥ c) = 1 − α (5)

α
P(T ≥ c) = (6)
2
Entonces, por ejemplo, si piden calcular un intervalo al 95 % de confianza, α = 5 % y para ver el valor c
de la t-student debo ver la fila con los grados de libertad respectivo y utilizar α2 = 2,5 % = 0,025
Como finalmente queremos calcular un intervalo para la media:
X̄ − µ
−c ≤ ≤c (7)
√s
n

Despejando µ nos queda el siguiente intervalo:


s s
X̄ − c √ ≤ µ ≤ X̄ + c √ (8)
n n

1.1.2. Varianza σ 2 conocida


En este caso el estadı́stico que utilizamos es el siguiente:
X̄ − µ
Z= (9)
√σ
n

El cual distribuye Normal(0,1) pues se encuentra estandarizada. Dado que la normal al igual que la
t-student es simétrica llegamos al mismo resultado que antes de forma análoga:
α
P(T ≥ c) = (10)
2
La única diferencia es que el valor de c será distinto pues proviene de una tabla normal, veamos un ejemplo
para ver como se obtienen estos valores. Si piden calcular un intervalo de confianza con un 95 %

2
Probabilidades y Estadı́sticas

de confianza, α2 = 0,025. En la tabla de la normal (Ver Material Docente) los datos que se encuentran
dentro de la tabla representan distintos valores de α/2, en primer lugar se debe buscar el valor de 0.025
dentro de la tabla y luego encontrar el valor z que entrega ese valor, viendo la primera fila y columna. En
este caso para α/2 = 0,025 el valor de la tabla es 1.96 (Adjunto imagen)

Figura 2: Ejemplo cálculo del valor z en una tabla normal

(Por si quedaron dudas 1.9 (primera columna) + 0.06 (primera fila 8va columna) Por lo tanto el
intervalo de confianza que queda para µ es:
σ σ
X̄ − c √ ≤ µ ≤ X̄ + c √ (11)
n n

3
Probabilidades y Estadı́sticas
En general cuando se trabaja con t-student al valor c se le denota como tα/2 y cuando se trabaja con
una tabla normal es zα/2
Existe una relación entre la distribución t-student y normal, mientras más grados de libertad tenga la
distribución t-student más se parece a la distribución normal, de hecho para más de 120 g.l es similar a
una normal. Es por esto que para el cálculo de intervalos de confianza si n es grande, pese a solo conocer
la varianza muestral, utilizamos el estimador Z de una normal... más adelante lo formalizaremos con el
TLC.

Figura 3: Curva t-student y normal estándar

1.2. Estimación de la varianza de una población


Para calcular un intervalo de confianza utilizamos el siguiente estimador:

(n − 1)S 2
W = (12)
σ2
Distribuye Chi-Cuadrado con n-1 grados de libertad. Ahora bien, esta distribución a diferencia de la
t-student y normal NO es simétrica, de hecho solo toma valores positivos.

4
Probabilidades y Estadı́sticas

Figura 4: Distribución chi-cuadrado

Para obtener el IC se procede de manera similar:

P(c ≤ W ≤ d) = 1 − α → 1 − P(W ≥ d) − P(W ≤ c) = 1 − α (13)

Para calcular el intervalo de confianza es más fácil imponer cierta simetrı́a, utilizando colas de igual
probabilidad, es decir:
α
P(W ≥ d) = P(W ≤ c) = (14)
2
Finalmente el intervalo para la varianza nos queda:

c≤W ≤d (15)

(n − 1)s2 (n − 1)s2
≤ σ2 ≤ (16)
d c

1.3. Otras estimaciones


Ası́ como se calculan intervalos de confianza para la media y varianza también se puede hacer para una
proporción, por ejemplo, si se realiza un comercial de un nuevo producto y este se prueba en un conjunto
de n personas para ver si lo entendieron, se podrı́a obtener un IC para la proporción de la población total
que entenderı́a el mensaje.
A continuación se adjunta una tabla de los estimadores más comunes:

5
Probabilidades y Estadı́sticas

Figura 5: Estimadores

El IC para una proporción al igual que para la media tiene la siguiente forma:
r
p̂(1 − p̂)
p̂ ± tα/2 (17)
n
Donde p̂ representa la proporción que entendió el mensaje en el estudio realizado (siguiendo con el
ejemplo anterior). Muchas veces si n es grande en vez de usar una t-student se utiliza una distribución
normal por lo explicado anteriormente.
Para los otros estimadores el método es análogo, donde los intervalos de confianza tienen la forma:

θ̂ ± cσθ̂ (18)
Donde el c depende de la tabla, dependiendo si se conoce la varianza real o no.

6
Probabilidades y Estadı́sticas

1.3.1. Diferencia de medias

Figura 6: Tabla diferencia de medias Wackerly

La segunda manera es no suponer que las varianzas son iguales y entonces usar el IC definido en la
tabla de los estimadores más comunes:
s
s21 s2
Y¯1 − Y¯2 ± tα/2 + 2 (19)
n1 n2

2. Teorema del Lı́mite Central


Antes de mencionar el TLC es importante recordar que si una distribución es normal de media µ
y desviación σ se puede normalizar a una normal de medio 0 y desviación 1 utilizando la siguiente
transformación:
X −µ
Z= (20)
σ
El objetivo es poder trabajar simplemente con una tabla que nos permita analizar todas las situaciones
posibles.
El teorema del Lı́mite Central nos dice lo siguiente:

7
Probabilidades y Estadı́sticas

Figura 7: Teorema del Lı́mite Central

Es decir, la suma (o el promedio) de variables aleatorias independientes e idénticamente distribuidas


con una cierta media µ y varianza σ 2 tiene una distribución normal cuando n es grande. Es importante
notar que las variables podrı́an tener cualquier distribución previa (Según el apunte desde n = 30 se tiene
la aproximación)
Este teorema tiene múltiples aplicaciones, en el curso principalmente nos servirá para calcular proba-
bilidades que no pudiésemos calcular sin este teorema. Por ejemplo, si tenemos 100 personas y cada

8
Probabilidades y Estadı́sticas

persona tiene la misma probabilidad de contestar un mail, ¿Cuál es la probabilidad que conteste más
de la mitad de las personas un email en particular? (Similar problema 4 auxiliar), si modelamos Yi como
la una variable Bernoulli sobre la posible respuesta P para cada cliente (recordar que Bernoulli vale 1 en
caso de éxito y 0 si no), la probabilidad pedida es P( 100
i=1 Yi ≥ 50), usando el TLC podemos transformar
el lado izquierdo dejando una distribución normal estándar, al hacerlo y mirar la tabla podemos encontrar
dicha probabilidad.
La transformación se puede hacer de dos maneras:
P100
1. Normalizando i=1 Yi

X100
P( Yi ≥ 50)
i=1

(21)

P100
Notemos que la esperanza de i=1 Yi = 100p y la varianza es 100V ar(Yi ) = 100p(1 − p)
P100
Yi − 100p 50 − 100p
P( pi=1 ≥p )
100p(1 − p) 100p(1 − p)
(22)

50 − 100p
P(N (0, 1) ≥ p )
100p(1 − p)
(23)

Si le damos un valor numérico a p nos queda un número a la derecha y podemos calcularlo viendo
la tabla.
P100
Yi
2. Normalizando Ȳ = i=1
100 La esperanza de Ȳ es p y la varianza es:

1 1
V ar(Ȳ ) = 100p(1 − p) → p(1 − p) (24)
1002 100

p(1−p)
Por lo que la desviación estándar es 10
P100
100 Yi 50
X i=1
100 − p 100 −p
P( Yi ≥ 50) → P( √ ≥ √ )
p(1−p) p(1−p)
i=1
10 10

9
Probabilidades y Estadı́sticas
(25)

50
100 −p
P(N (0, 1) ≥ √ ) (26)
p(1−p)
10
Notar que si multiplicamos el lado derecho en el numerador y denominador por 100 nos da lo mismo
que en el caso anterior, es decir, ambos métodos son equivalentes, dependiendo del problema algunas
veces conviene usar un método que el otro.

Continuará ... (?)

10

You might also like