Resumen Intervalos de Confianza y TLC

Probabilidades y Estadı́sticas
Resumen estadı́stica
Felipe Alvarado Fuchslocher: felipealvarado.f@gmail.com
1. Intervalos de confianza
En estadı́stica se usan intervalos de confianza para obtener un rango confiable sobre el cual se encuentra
un estimador de nuestro interés, usualmente queremos conocer la media (µ), varianza ( σ 2 ) o proporción
(p) de la población a partir de una muestra. Cuando hablamos de muestra hablamos de un muestreo
aleatorio simple (m.a.s), en dicho muestreo todos los posibles conjuntos de tamaño n de un total de N
elementos tienen la misma probabilidad de ser elegidos, la muestra se hace de forma aleatoria ¿Por qué?
Imaginemos que queremos estimar el promedio del puntaje de PSU de matemáticas 2017 de todos los
estudiantes del paı́s y tomara una muestra de 100 alumnos, si eligiésemos a los primeros 100 postulantes
que entraron a Beauchef ¿Serı́a representativo de la población total?, evidentemente no, la estimación
estarı́a sesgada y el valor estimado se encontrarı́a sobrestimado.
1.1. Estimación de la media de una población

1.1.1. Varianza de la población (σ 2 ) desconocida
En este caso solo conocemos S 2 , la varianza muestral Para estimar µ lo hacemos a partir del siguiente
estimador:
X̄ − µ
T = √ (1)
s/ n
El cual distribuye T-student de n − 1 grados de libertad y s es la varianza muestral 1 La T-student al igual
que la normal tienen la particularidad y ventaja de ser simétrica, por lo que en consecuencia el intervalo
también será simétrico. La notación que se usa es la siguiente:
P(−c ≤ T ≤ c) = 1 − α
(2)
Donde los valores de c se obtienen a partir de la tabla, veamos cuales son utilizando propiedades
conocidas:
P(T ≤ c) − P(T ≤ −c) = 1 − α (3)
1 − P(T ≥ c) − P(T ≤ −c) = 1 − α (4)

Ahora bien, dada la simetrı́a que tiene la t-student la probabilidad que el estadı́stico sea mayor a c es
igual a la probabilidad que el estadı́stico sea menor a -c. Gráficamente esto se puede ver en el siguiente
dibujo donde las áreas pintadas son iguales:
1
Pueden ver la demostración en el apunte del profe si lo desean
1
Figura 1: Simetrı́a t-student
Utilizando esto nos queda que

1 − 2P(T ≥ c) = 1 − α (5)
α
P(T ≥ c) = (6)
2
Entonces, por ejemplo, si piden calcular un intervalo al 95 % de confianza, α = 5 % y para ver el valor c
de la t-student debo ver la fila con los grados de libertad respectivo y utilizar α2 = 2,5 % = 0,025
Como finalmente queremos calcular un intervalo para la media:
X̄ − µ
−c ≤ ≤c (7)
√s
n
Despejando µ nos queda el siguiente intervalo:

s s
X̄ − c √ ≤ µ ≤ X̄ + c √ (8)
n n
1.1.2. Varianza σ 2 conocida

En este caso el estadı́stico que utilizamos es el siguiente:
X̄ − µ
Z= (9)
√σ
n
El cual distribuye Normal(0,1) pues se encuentra estandarizada. Dado que la normal al igual que la
t-student es simétrica llegamos al mismo resultado que antes de forma análoga:
α
P(T ≥ c) = (10)
2
La única diferencia es que el valor de c será distinto pues proviene de una tabla normal, veamos un ejemplo
para ver como se obtienen estos valores. Si piden calcular un intervalo de confianza con un 95 %
2
de confianza, α2 = 0,025. En la tabla de la normal (Ver Material Docente) los datos que se encuentran
dentro de la tabla representan distintos valores de α/2, en primer lugar se debe buscar el valor de 0.025
dentro de la tabla y luego encontrar el valor z que entrega ese valor, viendo la primera fila y columna. En
este caso para α/2 = 0,025 el valor de la tabla es 1.96 (Adjunto imagen)
Figura 2: Ejemplo cálculo del valor z en una tabla normal
(Por si quedaron dudas 1.9 (primera columna) + 0.06 (primera fila 8va columna) Por lo tanto el
intervalo de confianza que queda para µ es:
σ σ
X̄ − c √ ≤ µ ≤ X̄ + c √ (11)
n n
3
En general cuando se trabaja con t-student al valor c se le denota como tα/2 y cuando se trabaja con
una tabla normal es zα/2
Existe una relación entre la distribución t-student y normal, mientras más grados de libertad tenga la
distribución t-student más se parece a la distribución normal, de hecho para más de 120 g.l es similar a
una normal. Es por esto que para el cálculo de intervalos de confianza si n es grande, pese a solo conocer
la varianza muestral, utilizamos el estimador Z de una normal... más adelante lo formalizaremos con el
TLC.
Figura 3: Curva t-student y normal estándar
1.2. Estimación de la varianza de una población

Para calcular un intervalo de confianza utilizamos el siguiente estimador:
(n − 1)S 2
W = (12)
σ2
Distribuye Chi-Cuadrado con n-1 grados de libertad. Ahora bien, esta distribución a diferencia de la
t-student y normal NO es simétrica, de hecho solo toma valores positivos.
4
Figura 4: Distribución chi-cuadrado
Para obtener el IC se procede de manera similar:
P(c ≤ W ≤ d) = 1 − α → 1 − P(W ≥ d) − P(W ≤ c) = 1 − α (13)
Para calcular el intervalo de confianza es más fácil imponer cierta simetrı́a, utilizando colas de igual
probabilidad, es decir:
α
P(W ≥ d) = P(W ≤ c) = (14)
2
Finalmente el intervalo para la varianza nos queda:
c≤W ≤d (15)
(n − 1)s2 (n − 1)s2
≤ σ2 ≤ (16)
d c
1.3. Otras estimaciones

Ası́ como se calculan intervalos de confianza para la media y varianza también se puede hacer para una
proporción, por ejemplo, si se realiza un comercial de un nuevo producto y este se prueba en un conjunto
de n personas para ver si lo entendieron, se podrı́a obtener un IC para la proporción de la población total
que entenderı́a el mensaje.
A continuación se adjunta una tabla de los estimadores más comunes:
5
Figura 5: Estimadores
El IC para una proporción al igual que para la media tiene la siguiente forma:
r
p̂(1 − p̂)
p̂ ± tα/2 (17)
n
Donde p̂ representa la proporción que entendió el mensaje en el estudio realizado (siguiendo con el
ejemplo anterior). Muchas veces si n es grande en vez de usar una t-student se utiliza una distribución
normal por lo explicado anteriormente.
Para los otros estimadores el método es análogo, donde los intervalos de confianza tienen la forma:
θ̂ ± cσθ̂ (18)
Donde el c depende de la tabla, dependiendo si se conoce la varianza real o no.
6
1.3.1. Diferencia de medias
Figura 6: Tabla diferencia de medias Wackerly
La segunda manera es no suponer que las varianzas son iguales y entonces usar el IC definido en la
tabla de los estimadores más comunes:
s
s21 s2
Y¯1 − Y¯2 ± tα/2 + 2 (19)
n1 n2
2. Teorema del Lı́mite Central

Antes de mencionar el TLC es importante recordar que si una distribución es normal de media µ
y desviación σ se puede normalizar a una normal de medio 0 y desviación 1 utilizando la siguiente
transformación:
X −µ
Z= (20)
σ
El objetivo es poder trabajar simplemente con una tabla que nos permita analizar todas las situaciones
posibles.
El teorema del Lı́mite Central nos dice lo siguiente:
7
Figura 7: Teorema del Lı́mite Central
Es decir, la suma (o el promedio) de variables aleatorias independientes e idénticamente distribuidas

con una cierta media µ y varianza σ 2 tiene una distribución normal cuando n es grande. Es importante
notar que las variables podrı́an tener cualquier distribución previa (Según el apunte desde n = 30 se tiene
la aproximación)
Este teorema tiene múltiples aplicaciones, en el curso principalmente nos servirá para calcular proba-
bilidades que no pudiésemos calcular sin este teorema. Por ejemplo, si tenemos 100 personas y cada
8
persona tiene la misma probabilidad de contestar un mail, ¿Cuál es la probabilidad que conteste más
de la mitad de las personas un email en particular? (Similar problema 4 auxiliar), si modelamos Yi como
la una variable Bernoulli sobre la posible respuesta P para cada cliente (recordar que Bernoulli vale 1 en
caso de éxito y 0 si no), la probabilidad pedida es P( 100
i=1 Yi ≥ 50), usando el TLC podemos transformar
el lado izquierdo dejando una distribución normal estándar, al hacerlo y mirar la tabla podemos encontrar
dicha probabilidad.
La transformación se puede hacer de dos maneras:
P100
1. Normalizando i=1 Yi
X100
P( Yi ≥ 50)
i=1
(21)
P100
Notemos que la esperanza de i=1 Yi = 100p y la varianza es 100V ar(Yi ) = 100p(1 − p)
P100
Yi − 100p 50 − 100p
P( pi=1 ≥p )
100p(1 − p) 100p(1 − p)
(22)
50 − 100p
P(N (0, 1) ≥ p )
100p(1 − p)
(23)
Si le damos un valor numérico a p nos queda un número a la derecha y podemos calcularlo viendo
la tabla.
P100
Yi
2. Normalizando Ȳ = i=1
100 La esperanza de Ȳ es p y la varianza es:
1 1
V ar(Ȳ ) = 100p(1 − p) → p(1 − p) (24)
1002 100
√
p(1−p)
Por lo que la desviación estándar es 10
P100
100 Yi 50
X i=1
100 − p 100 −p
P( Yi ≥ 50) → P( √ ≥ √ )
p(1−p) p(1−p)
i=1
10 10
9
(25)
50
100 −p
P(N (0, 1) ≥ √ ) (26)
p(1−p)
10
Notar que si multiplicamos el lado derecho en el numerador y denominador por 100 nos da lo mismo
que en el caso anterior, es decir, ambos métodos son equivalentes, dependiendo del problema algunas
veces conviene usar un método que el otro.
Continuará ... (?)
10

Resumen Intervalos de Confianza y TLC

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Resumen Intervalos de Confianza y TLC

Uploaded by

Copyright:

Available Formats

Probabilidades y Estadı́sticas

1.1. Estimación de la media de una población

P(T ≤ c) − P(T ≤ −c) = 1 − α (3)

1 − P(T ≥ c) − P(T ≤ −c) = 1 − α (4)

Figura 1: Simetrı́a t-student

Utilizando esto nos queda que

Despejando µ nos queda el siguiente intervalo:

1.1.2. Varianza σ 2 conocida

Figura 2: Ejemplo cálculo del valor z en una tabla normal

Figura 3: Curva t-student y normal estándar

1.2. Estimación de la varianza de una población

Figura 4: Distribución chi-cuadrado

Para obtener el IC se procede de manera similar:

P(c ≤ W ≤ d) = 1 − α → 1 − P(W ≥ d) − P(W ≤ c) = 1 − α (13)

1.3. Otras estimaciones

1.3.1. Diferencia de medias

Figura 6: Tabla diferencia de medias Wackerly

2. Teorema del Lı́mite Central

Figura 7: Teorema del Lı́mite Central

Es decir, la suma (o el promedio) de variables aleatorias independientes e idénticamente distribuidas

Continuará ... (?)

You might also like