Professional Documents
Culture Documents
Estimación3 3
Estimación3 3
INTRODUCCION
Descriptiva
Inferencial
La estimación de parámetros
1
Concepto de Estadígrafo o Estadístico
ESTADÍGRAFO O ESTADÍSTICO: Es la medida de una característica relativa a una
muestra. La mayoría de los estadígrafos se encuentran por medio de una fórmula. Ya
hemos estudiado la media aritmética o promedio ( X ), desviación estándar (s) y la
proporción muestral ( p ).
La siguiente tabla nos muestra la relación entre algunos estadígrafos y los parámetros
poblacionales correspondientes.
Población Muestra
2
Símbolos Tamaño de la población: N Tamaño de la muestra: n
Consideremos todas las posibles muestras de tamaño n de una variable aleatoria en una
población. Para cada muestra podemos calcular un estadígrafo (media, desviación
estándar, proporción,.etc.) que variará de una a otra. Así obtenemos una distribución del
estadígrafo que se llama distribución muestral.
Aclaremos un poco este concepto con un ejemplo: supongamos que tenemos una
población de niños menores de un año y comenzamos a sacar muestras de tamaño 10 y
calculamos el peso promedio de los niños para cada muestra (Media muestral) ( X ).
Debemos aclarar que se trata de un muestreo con reemplazo, o sea, cada vez que saco
al azar una muestra de 10 niños y le calculo su peso promedio, esos niños los devuelvo
a la población antes de obtener las otras muestras.
De tal suerte que tendremos un listado de pesos promedios, tantos como muestras
hayamos obtenido.
3
Esas medias podemos tratarlas como si fueran valores de una variable, podemos
ordenarlas, calcular su distribución de frecuencias absolutas y relativas, calcular la media
de esas medias y una medida de dispersión, digamos la desviación estándar.
4
Estimación de parámetros poblacionales.
Esta tarea consiste en, partiendo de ciertos valores de la muestra llamados estadígrafos
o estadísticos, por ejemplo la media aritmética muestral ( X ), inferir ciertos otros valores
de la población llamados parámetros (por ejemplo la media aritmética poblacional µ).
ESTIMACION PUNTUAL
Para poder estudiar cierta propiedad o variable aleatoria tal como la talla, el coeficiente
inteligencia, el padecer o no de tuberculosis, etc., en una población objeto de estudio,
es tomar una muestra probabilística de tamaño n (desde ahora, siempre que hablemos
de muestras deberá entenderse que nos referimos a muestras de este tipo, pues con
ellas se puede medir el error de muestreo. De otra forma no se cumple con la condición
para poder aplicar las técnicas de la Inferencia Estadística) y basándonos en la
inspección de los elementos de la muestra, generalizar lo que deseamos decir acerca de
la propiedad de interés a toda la población. Se sabe que tal afirmación no puede ser
cierta con certeza, pero al menos lo será en un sentido probabilístico. Es decir, que
podemos hablar de una afirmación razonable.
Para cumplir con este objetivo habrá que encontrar expresiones que permitan, mediante
el proceso de sustituir en ellas los valores observados de una variable aleatoria X en
5
una muestra, el calcular una cifra que sirva como una buena aproximación al valor
desconocido del parámetro o de los parámetros en la población. Dicho de otra forma,
hay que encontrar funciones matemáticas en las que, al ser sustituidos los valores
muestrales (estadígrafos), se hallen cifras que estimen de forma satisfactoria el valor del
parámetro en cuestión.
Ejemplo:
Supongamos que estamos interesados en realizar un estudio para describir las
características del desarrollo físico en niñas venezolanas entre 8 y 8.9 años de edad, por
medio de la observación de algunas dimensiones antropométricas, la talla por ejemplo.
Una forma adecuada y útil de describir dichas características sería seleccionar
distribuciones de probabilidad teóricas tan cerca de las observadas como sea posible.
Asumamos con bastante seguridad que la variable X, talla, se distribuye en la población
de acuerdo con una ley de distribución normal cuyos parámetros µ y σ se suponen
desconocidos, lo expresado es común escribirlo en la notación habitual estadística como
sigue: X ~ N (µ, σ ).
Supongamos para continuar que se ha tomado una muestra de tamaño n = 90 (niñas) y
queremos estimar la talla media X y la desviación estándar s. Denotemos por x1, x2,...,
x90 los valores correspondientes a la talla en centímetros de cada una de las 90 niñas de
la muestra, de estadística descriptiva conocemos que las fórmulas:
x
n n
xi i x
i 1 y s i 1
x n 1
n
se utilizan para calcular la media y la varianza muestral. Estos son precisamente los
estimadores de los parámetros y ya que tanto x como s se obtienen a través de
funciones que dependen de las xi, es decir, dependen de la talla de cada una de las 90
niñas seleccionadas en la muestra. Si al realizar los cálculos apropiados se obtiene que
x = 126.9 cm y s = 2.48 cm, entonces esas cifras son las estimaciones de la media y
la desviación estándar poblacionales, o sea, de y .
6
Notemos que la primera suposición que se hizo fue sobre el tipo de ley de distribución de
la variable aleatoria X talla en la población. Sin hacer esa suposición no hubiese sido
posible resolver el problema de estimación. Después se hizo la selección de la muestra y
se sustituyeron los valores en las fórmulas. Este es usualmente el procedimiento a
seguir para hacer una estimación.
Debe notarse que la utilidad práctica del estadígrafo, radica en que por medio de un
proceder de cálculo se obtiene un valor único. En este sentido, tanto la media X como
la desviación estándar s constituyen valores puntuales. Constituye, en este esquema,
un aspecto esencial la selección de muestra, con la que, por sustitución de los valores
observados en la expresión del estimador, hallamos un valor numérico (una estimación)
que debe corresponder a un parámetro poblacional bajo estudio, descriptor de una
propiedad de interés.
Lo que tenemos son estimaciones puntuales.
7
Cuando hablamos de estimar un parámetro poblacional por intervalo de confianza,
estamos pensando en que debemos encontrar un intervalo en donde se encuentre
acotado entre dos valores el parámetro poblacional (µ, P etc.). Los extremos del
intervalo se calcularán con los valores de los estadígrafos correspondientes ( X , p, etc.).
Así, por una parte, queremos que el parámetro se encuentre con gran probabilidad en el
intervalo y, por otra, que la longitud del intervalo sea bastante pequeña.
Ejemplo. Vamos a suponer que se extrae una muestra de tamaño 50(n = 50) de la
población de tallas de niñas de 7 años. (La variable talla se distribuye normalmente en la
población). Se conoce que σ = 5.53 cm. Los 50 valores de talla aparecen en la tabla
que sigue a continuación, considere adicionalmente que la muestra se obtuvo :
TABLA #1
131.5, 115.0, 125.5, 119.0, 123.0, 125.0, 124.5, 122.5, 118.0, 125.0
125.5, 119.0, 124.5, 118.0, 117.0, 128.0, 119.5, 124.5, 132.0, 122.5
120.5, 120.0, 126.0, 128.0, 120.5, 120.0, 119.0, 117.0, 129.5, 124.0
121.0, 119.0, 120.0, 128.0, 128.0, 118.5, 118.0, 124.0, 118.0, 118.5
8
131.0, 117.0, 118.0, 116.5, 121.0, 122.0, 124.0, 120.5, 114.5, 121.0
9
Los intervalos más usados en la práctica son:
( –1.96 <
x < 1.96)
n
Para obtener la otra doble desigualdad, debemos dividir la inicial en dos, y realizar
en ambas por separado, los cambios algebraicos necesarios.
10
Para ello comencemos con, −1.96 < x , y en ella pasemos la expresión,
n
1.96 .
n
Como la curva normal es simétrica, ese 5 % quedará igualmente repartido hacia cada
extremo de la curva, hacia las llamadas colas; por debajo de –1.96 tendremos un 2.5 %
y por encima de 1,96 el otro 2.5 %. Sabemos, de estadística descriptiva, que los
percentiles son aquellos valores de la variable que se corresponden con valores dados
de la distribución de frecuencias acumuladas relativas, por lo tanto –1.96 es, en este
caso, el percentil 2.5 de la distribución normal estándar mientras que 1.96 es el percentil
97.5. Se puede poner 0.95 = 1−α, de este modo, α = 0.05. En consecuencia, 1.96 =
z0..975 = z1−α/2 y –1.96 = z0.025 = zα/2 = −z1−α/2 = z
11
Estos valores pueden sustituirse por z en cada uno de los intervalos teniendo en cuenta
que representan los valores de z para 1 – α / 2. El valor de z es 1.96 para la
probabilidad de 0.95 y 2.58 para la probabilidad de 0.99.
12
estándar poblacional de la talla de niñas de 7 años es 5.53 cm se estima, con un 95 %
de confianza, que la media poblacional se encuentre en el intervalo de 120.5 cm a 123.6
cm.
Con la definición siguiente el resultado anterior se generaliza:
Sea X una variable aleatoria normal con media poblacional desconocida y desviación
estándar σ conocida. Se llama intervalo de confianza para con nivel de confiabilidad
del (1 - α ) a la expresión:
(x – z , x +z )
n n
donde:
z: percentil de orden 1−α/2 de la distribución normal estándar.
13
interrogante, ¿seguirá siendo apropiado usar el percentil correspondiente a la
distribución normal estándar? Planteado en otra forma, vimos que la interpretación de
1.96 dependía del conocimiento que teníamos acerca del estadígrafo ( x − µ ) / (σ/ n )
= Z, ¿qué sucede con esta expresión cuando se sustituye σ por su estimador s?
Se conoce que en este caso Z ya no tiene una distribución normal con parámetros 0 y 1,
En la tabla de la distribución t se puede ver que cuando los grados de libertad son
mayores de 30, o lo que es lo mismo, para muestras de tamaño n > 31 los percentiles de
la distribución t y de la N(0,1) son muy parecidos, entonces, es común considerar
intervalos de confianza diferentes en el caso de σ desconocida en dependencia de si n >
30 ó n 30.
( x – z s/ n ; x + z s/ n )
donde s es el estimador de la desviación estándar poblacional, es el intervalo de
confianza para µ, con nivel de confiabilidad (1 )·100 %.
Es decir que cuando tenemos una muestra de tamaño mayor que 30, lo único que
debemos hacer es utilizar la estimación de σ para construir el intervalo de confianza.
Calcular un intervalo de confianza del 95 % para la media de talla de niñas de 7 años, a
partir de los datos de la tabla 1, asumiendo varianza desconocida. Suponga que el
cálculo de la desviación estándar muestral fue s = 4.383 cm.
14
Solución:
La afirmación que podemos hacer en este caso es la misma que para σ conocida: para
un nivel de confianza del 95 % la media poblacional de la talla de niñas cubanas de 7
años fluctúa, aproximadamente, entre 120.8cm y 123.2cm,
( x – t n−1,1−α/2 s / n ), x + t n−1,1−α/2 s / n)
donde:
t n−1,1−α/2 : percentil de orden 1−α/2 de la t de Student con n−1 grados de libertad y
s: estimador de σ,
es un intervalo de confianza para µ con nivel de confiabilidad (1 ) · 100 %.
Es decir que para todo caso en que, n, no sobrepase la cifra de 30, tendremos que
utilizar la tabla de la distribución t de Student para calcular los límites del intervalo de
confianza.
15
Construya un intervalo del 95 % de confianza para la media poblacional de la talla de
niñas de 7 años, asumiendo que se seleccionó una muestra de tamaño 20, con una
media y varianza muestral de 121.93cm y 24.95 cm 2, respectivamente.
Solución:
Los datos que tenemos son:
n = 20, x = 121.93cm, s2 = 24.95 cm2
Asuma que la variable que nos interesa es “presentar estomatitis subprótesis” y que se
quiere hallar un intervalo de confianza del 95 % para la proporción en la población, P, de
16
enfermos de estomatitis subprótesis. Se realiza un pesquizaje en portadores de prótesis
estomatológicas de de una parroquia de la ciudad de Maracaibo, efectuándose para
ello, la selección de una muestra aleatoria de 50 portadores, encontrándose que, 25
padecían de la citada enfermedad. Entonces el estimador puntual de P es P = 25/50 =
0.5.
Sea X una variable aleatoria binomial con parámetro desconocido P. Para n tal que se
cumpla la aproximación de la distribución binomial a la distribución normal, el intervalo
(p - z ≤ P≤ p+z p(1 p) / n )
p(1 p) / n
17
confianza n * p debe ser ≥ 5 y n * q debe ser ≥ 5. Como n = 50, p = 0.5 y 1- p = q = 0.5
calculamos n * p = 50 * 0.5 = 25 ≥ 5 y n * q = 50 * 0.5 = 25 ≥ 5, lo que implica que es
válido usar la fórmula para obtener una estimación de P por intervalo de confianza. Si
hacemos las sustituciones de los datos del problema tendremos que, lo anterior se
traduce en,
(0.5 – 1.96 0.5 * 0.5 / 50 < P < 0.5 + 1.96 0.5 * 0.5 / 50 )
Como 1.96 · 0.07 = 0.14, los límites de confianza para P, o proporción de enfermos de
estomatitis subprótesis en la población, son (0.36, 0.64).
Como sabemos el error estándar de la proporción muestral es: p(1 p) / n . En este
ejemplo es: 0.07
Al igual que cuando construimos los diferentes intervalos de confianza para la media
de una población normal, es de esperar que si se seleccionan un número
suficientemente grande de muestras de tamaño n, aproximadamente el (1−α)·100 % de
las muestras produzcan intervalos de confianza que contengan el verdadero valor del
parámetro P.
Estimación del Porcentaje Poblacional ( P̂ )
P̂ : Porcentaje Poblacional
p̂ : Porcentaje de la Muestra
Como estudiamos en estadística descriptiva el porcentaje no es más que la proporción
multiplicada por 100.
Luego p̂ = p * 100
18
El intervalo, que planteamos anteriormente, para la estimación de la proporción
poblacional, puede ser reescrito sustituyendo p por p̂ y q por q̂ ; y en lugar de hablar de
un intervalo de confianza para la proporción poblacional se hablará entonces del
intervalo de confianza para el porcentaje poblacional ( P̂ ).
19