Professional Documents
Culture Documents
Resumen estadı́stica
Felipe Alvarado Fuchslocher: felipealvarado.f@gmail.com
1. Intervalos de confianza
En estadı́stica se usan intervalos de confianza para obtener un rango confiable sobre el cual se encuentra
un estimador de nuestro interés, usualmente queremos conocer la media (µ), varianza ( σ 2 ) o proporción
(p) de la población a partir de una muestra. Cuando hablamos de muestra hablamos de un muestreo
aleatorio simple (m.a.s), en dicho muestreo todos los posibles conjuntos de tamaño n de un total de N
elementos tienen la misma probabilidad de ser elegidos, la muestra se hace de forma aleatoria ¿Por qué?
Imaginemos que queremos estimar el promedio del puntaje de PSU de matemáticas 2017 de todos los
estudiantes del paı́s y tomara una muestra de 100 alumnos, si eligiésemos a los primeros 100 postulantes
que entraron a Beauchef ¿Serı́a representativo de la población total?, evidentemente no, la estimación
estarı́a sesgada y el valor estimado se encontrarı́a sobrestimado.
P(−c ≤ T ≤ c) = 1 − α
(2)
Donde los valores de c se obtienen a partir de la tabla, veamos cuales son utilizando propiedades
conocidas:
1
Probabilidades y Estadı́sticas
α
P(T ≥ c) = (6)
2
Entonces, por ejemplo, si piden calcular un intervalo al 95 % de confianza, α = 5 % y para ver el valor c
de la t-student debo ver la fila con los grados de libertad respectivo y utilizar α2 = 2,5 % = 0,025
Como finalmente queremos calcular un intervalo para la media:
X̄ − µ
−c ≤ ≤c (7)
√s
n
El cual distribuye Normal(0,1) pues se encuentra estandarizada. Dado que la normal al igual que la
t-student es simétrica llegamos al mismo resultado que antes de forma análoga:
α
P(T ≥ c) = (10)
2
La única diferencia es que el valor de c será distinto pues proviene de una tabla normal, veamos un ejemplo
para ver como se obtienen estos valores. Si piden calcular un intervalo de confianza con un 95 %
2
Probabilidades y Estadı́sticas
de confianza, α2 = 0,025. En la tabla de la normal (Ver Material Docente) los datos que se encuentran
dentro de la tabla representan distintos valores de α/2, en primer lugar se debe buscar el valor de 0.025
dentro de la tabla y luego encontrar el valor z que entrega ese valor, viendo la primera fila y columna. En
este caso para α/2 = 0,025 el valor de la tabla es 1.96 (Adjunto imagen)
(Por si quedaron dudas 1.9 (primera columna) + 0.06 (primera fila 8va columna) Por lo tanto el
intervalo de confianza que queda para µ es:
σ σ
X̄ − c √ ≤ µ ≤ X̄ + c √ (11)
n n
3
Probabilidades y Estadı́sticas
En general cuando se trabaja con t-student al valor c se le denota como tα/2 y cuando se trabaja con
una tabla normal es zα/2
Existe una relación entre la distribución t-student y normal, mientras más grados de libertad tenga la
distribución t-student más se parece a la distribución normal, de hecho para más de 120 g.l es similar a
una normal. Es por esto que para el cálculo de intervalos de confianza si n es grande, pese a solo conocer
la varianza muestral, utilizamos el estimador Z de una normal... más adelante lo formalizaremos con el
TLC.
(n − 1)S 2
W = (12)
σ2
Distribuye Chi-Cuadrado con n-1 grados de libertad. Ahora bien, esta distribución a diferencia de la
t-student y normal NO es simétrica, de hecho solo toma valores positivos.
4
Probabilidades y Estadı́sticas
Para calcular el intervalo de confianza es más fácil imponer cierta simetrı́a, utilizando colas de igual
probabilidad, es decir:
α
P(W ≥ d) = P(W ≤ c) = (14)
2
Finalmente el intervalo para la varianza nos queda:
c≤W ≤d (15)
(n − 1)s2 (n − 1)s2
≤ σ2 ≤ (16)
d c
5
Probabilidades y Estadı́sticas
Figura 5: Estimadores
El IC para una proporción al igual que para la media tiene la siguiente forma:
r
p̂(1 − p̂)
p̂ ± tα/2 (17)
n
Donde p̂ representa la proporción que entendió el mensaje en el estudio realizado (siguiendo con el
ejemplo anterior). Muchas veces si n es grande en vez de usar una t-student se utiliza una distribución
normal por lo explicado anteriormente.
Para los otros estimadores el método es análogo, donde los intervalos de confianza tienen la forma:
θ̂ ± cσθ̂ (18)
Donde el c depende de la tabla, dependiendo si se conoce la varianza real o no.
6
Probabilidades y Estadı́sticas
La segunda manera es no suponer que las varianzas son iguales y entonces usar el IC definido en la
tabla de los estimadores más comunes:
s
s21 s2
Y¯1 − Y¯2 ± tα/2 + 2 (19)
n1 n2
7
Probabilidades y Estadı́sticas
8
Probabilidades y Estadı́sticas
persona tiene la misma probabilidad de contestar un mail, ¿Cuál es la probabilidad que conteste más
de la mitad de las personas un email en particular? (Similar problema 4 auxiliar), si modelamos Yi como
la una variable Bernoulli sobre la posible respuesta P para cada cliente (recordar que Bernoulli vale 1 en
caso de éxito y 0 si no), la probabilidad pedida es P( 100
i=1 Yi ≥ 50), usando el TLC podemos transformar
el lado izquierdo dejando una distribución normal estándar, al hacerlo y mirar la tabla podemos encontrar
dicha probabilidad.
La transformación se puede hacer de dos maneras:
P100
1. Normalizando i=1 Yi
X100
P( Yi ≥ 50)
i=1
(21)
P100
Notemos que la esperanza de i=1 Yi = 100p y la varianza es 100V ar(Yi ) = 100p(1 − p)
P100
Yi − 100p 50 − 100p
P( pi=1 ≥p )
100p(1 − p) 100p(1 − p)
(22)
50 − 100p
P(N (0, 1) ≥ p )
100p(1 − p)
(23)
Si le damos un valor numérico a p nos queda un número a la derecha y podemos calcularlo viendo
la tabla.
P100
Yi
2. Normalizando Ȳ = i=1
100 La esperanza de Ȳ es p y la varianza es:
1 1
V ar(Ȳ ) = 100p(1 − p) → p(1 − p) (24)
1002 100
√
p(1−p)
Por lo que la desviación estándar es 10
P100
100 Yi 50
X i=1
100 − p 100 −p
P( Yi ≥ 50) → P( √ ≥ √ )
p(1−p) p(1−p)
i=1
10 10
9
Probabilidades y Estadı́sticas
(25)
50
100 −p
P(N (0, 1) ≥ √ ) (26)
p(1−p)
10
Notar que si multiplicamos el lado derecho en el numerador y denominador por 100 nos da lo mismo
que en el caso anterior, es decir, ambos métodos son equivalentes, dependiendo del problema algunas
veces conviene usar un método que el otro.
10