You are on page 1of 37

UNIVERSIDAD NACIONAL FEDERICO VILLAREAL

FACULTAD DE CIENCIAS ECONÓMICAS

ESCUELA DE ECONOMÍA

TRABAJO DE ESTIMACION DE PARAMETROS

AUTORES:

De la cruz Briceño, Hamely Hazel

Córdova Muñoz, Fabiola Mirella

Coronel Salazar, Sandy Greiss

De la vega Ccahuay, Abigail Gianella

Palacios Garcia, Douglas Gabriel

Docente:

Garcia Bonilla, Alberto

2018 1
Contenido
Introducción....................................................................................................................................... 3
Estimación Puntual ........................................................................................................................... 6
a) Estimación puntual y Estimadores puntuales..................................................................... 9
Propiedades de los Estimadores ....................................................................................................... 9
a) Estimador Insesgado ........................................................................................................... 10
b) Estimador Eficiente ............................................................................................................. 11
c) Estimador Consistente ........................................................................................................ 12
d) Estimador Suficiente ........................................................................................................... 13
Estimación por intervalos de confianza......................................................................................... 13
Intervalos de confianza para la media 𝝁 de una población : .................................................. 15
a) Varianza 𝝈𝟐conocida ...................................................................................................... 15
b) Con varianza 𝝈𝟐 desconocida ........................................................................................ 18
c) Intervalo de confianza para la media de una población pequeña ............................... 21
d) Intervalo de confianza para la diferencia de medias en dos poblaciones normales
independientes ......................................................................................................................... 22
e) Intervalo de confianza para la diferencia de medias. ................................................... 23
f) Intervalo de confianza para la proporción.................................................................... 26
g) Estimación del intervalo de confianza para la proporción en el caso de que la
población sea pequeña. ........................................................................................................... 27
h) Intervalos de confianza para la diferencia de dos proporciones 𝒑𝟏 y 𝒑𝟐 en dos
poblaciones independientes .................................................................................................... 29
i) Intervalos de confianza para la diferencia de dos proporciones 𝒑𝒊 y 𝒑𝒋 en una sola
población grande ..................................................................................................................... 31
Aplicaciones ..................................................................................................................................... 32
ANEXO ............................................................................................................................................ 36
REFERENCIAS BIBLIOGRÁFICAS .......................................................................................... 37

2
Introducción

El objetivo de muchas tareas de investigación precisa la estimación de características

numéricas de una o más poblaciones. Las estimaciones de parámetros, como el ingreso medio

por hogar o como la proporción de personas con educación universitaria en un estado, se

hacen efectivas usando muestras de la población. El muestreo proporciona las técnicas

esenciales para el mejor diseño de las muestras y de este modo la mejor obtención de la

información. En este capítulo se abordan inicialmente los conceptos relacionados con las

propiedades de ciertas variables que se obtienen a partir de las muestras y que son útiles en

la estimación de parámetros.

Para mejorar sus procesos, las empresas necesitan conocerlos, lo que implica el estudio de la

manera como sus resultados varían. Pizzarun es un restaurante de comida italiana que, con el

fin de “volverse más competitivo”, decidió hacer entregas a domicilio de las pizzas

solicitadas por teléfono. Pizzarun deseaba establecer un tiempo máximo de entrega. Si la

entrega llegaba después de este tiempo máximo la empresa entregaba gratis el pedido. Con

el fin de evitar, en lo posible, este tipo de entregas, Luiggi, gerente de Pizzarun, deberá

conocer una serie de parámetros que caracterizan el proceso que comienza con el pedido,

sigue con la preparación y termina con la entrega del pedido. Luiggi deberá recurrir a

muestras para estimar estos parámetros.

Una presentación más formal del asunto de la estimación puede encuadrarse en la necesidad

de conocer la distribución que sirve como modelo de los datos que se desea analizar. Estas

distribuciones, que muchas veces se determinan a partir del análisis exploratorio de los datos

y del conocimiento que el investigador tiene del problema que se estudia, están descritas por
3
expresiones que dependen de parámetros que generalmente no se conocen y que deberán ser

estimados. Un ejemplo práctico: Para conocer el porcentaje de artículos defectuosos de toda

la producción de una empresa, se puede elegir 100 artículos fabricados, observar el número

de defectuosos que hay entre los 100 y a partir de ello estimar el parámetro deseado. La

población la forman todos los artículos que la fábrica produce, mientras que la muestra está

constituida por los 100 artículos seleccionados.

El ejemplo anterior ilustra la necesidad del uso de muestras para obtener estimadores de los

parámetros. Claro está que se trata de obtener buenas estimaciones, y esto dependerá de la

manera adecuada como se selecciona la muestra. La adecuación de la selección o diseño de

la muestra está relacionada con el error que se produce al estimar el parámetro. Como el

parámetro no se conoce, habrá que recurrir a la probabilidad para medir este error; de ahí que

para la estimación estadística sea necesario integrar la aleatoriedad en la elección de los

elementos de la muestra. Esto se consigue utilizando técnicas del muestreo probabilístico.

Existen diversos tipos de muestreo probabilístico, entre ellos se tiene el muestreo aleatorio

simple o básico. El muestreo aleatorio simple o básico (m.a.s.) es la técnica más fácil para

obtener muestras aleatorias y sirve como base para la aplicación de otros tipos de muestreo

más elaborados, como: el muestreo estratificado, el muestreo por conglomerados y los

muestreos polietápicos. Para el m.a.s., cada grupo de n elementos de la población tiene igual

oportunidad de ser seleccionado. Hay dos tipos de muestreo aleatorio simple: con reemplazo

y sin reemplazo. El m.a.s. con reemplazo consiste en reemplazar cada elemento seleccionado

antes de realizar una nueva selección. Es de imaginar de qué se trata el m.a.s. sin reemplazo.

4
En este desarrollo se utiliza, para comenzar, el m.a.s. con reemplazo para construir las

muestras. Con este tipo de muestreo resultan eventos que son más fáciles de tratar y de

analizar; sin embargo, posteriormente se analizan los resultados obtenidos de muestras

conseguidas con el m.a.s. sin reemplazo. En la elección de muestras también se usa el

muestreo no probabilístico, que se basa, en parte, en el juicio del responsable de la

investigación, no se apoya en ninguna teoría probabilística y no permite el cálculo de los

posibles errores que se cometen. Sin embargo, es preferido por los menores costos que

produce y la facilidad del diseño. Entre los diversos tipos de muestreo no probabilísticos

están: el muestreo por conveniencia, que se realiza acudiendo a poblaciones fácilmente

accesibles, como por ejemplo entrevistas a la salida de un centro comercial, a la salida de un

centro de votación (a “boca de urna”), etc.; el muestreo según el criterio, que se hace

buscando elementos de la población más representativos (elección de una persona de una

institución para que proporcione la información); el muestreo de bola de nieve, que se realiza

cuando las poblaciones son pequeñas y no se dispone de la lista de los elementos de la

población (a la persona que se le entrevista se le pide el nombre de una o más personas de la

población que se estudia, para luego entrevistarlas y así aumentar la muestra); y el muestreo

por cuotas, que se realiza dándole al entrevistador la libertad de elegir los elementos de la

muestra pero bajo ciertos criterios, como las características y el número de personas a

entrevistar.

5
Estimación Puntual

Esencialmente, hay dos maneras de estimar los parámetros de una población: puntualmente,

cuando se usa un único número como el valor más representativo del parámetro desconocido,

y por intervalos de confianza, cuando se utiliza un intervalo o rango de valores que con cierta

probabilidad contiene al valor del parámetro de la población que no se conoce. Un parámetro

poblacional θ es la característica numérica de la distribución de alguna variable aleatoria X,

definida en la población. Visto así el asunto, para hallar un estimador de un parámetro se

toma una muestra de tamaño n de la población y a cada elemento de la muestra se le aplica

la variable, obteniéndose los valores x1, x2, “xn”. Cualquier función de los valores x1, x2,

“xn” es una estimación puntual del parámetro. Como la muestra es aleatoria, la estimación

puntual de un parámetro es el valor de una variable aleatoria. Esta variable se llama estimador

puntual del parámetro.En la tabla 7.2 se presenta una muestra aleatoria simple de 30 gerentes

con sus respectivos datos de sueldo anual y participación en el programa de capacitación. La

notación x1, x2, etc., se usa para denotar el sueldo anual del primer gerente de la muestra,

6
del segundo, y así sucesivamente. La participación en el programa de capacitación se indica

por un Sí en la columna “programa de capacitación”.

Para estimar el valor de un parámetro poblacional se calcula la característica correspondiente

de la muestra, a lo que se le conoce como estadístico muestral. Por ejemplo, para estimar la

media poblacional μ y la desviación estándar poblacional σ de los sueldos anuales de los

gerentes de EAI, se emplean los datos de la tabla 7.2; y se calculan los estadísticos muestrales

correspondientes: media muestral y desviación estándar muestral s.

Con las fórmulas para ambas categorías, presentadas anteriormente, se obtiene que la media

muestral es

∑ 𝑥𝑖 1554420
𝑥̅ = = = $ 51814
𝑛 30

Y la desviación estándar muestral es

∑(𝑥𝑖 − 𝑥̅ )2 325009260
𝑠=√ =√ = $ 3348
𝑛−1 29

Para estimar p, la proporción de gerentes en la población que completaron el programa de

capacitación, se usa la proporción muestral correspondiente p. Sea x que denota el número

de gerentes en la muestra que completaron el programa de capacitación. Según la tabla 7.2,

x =19. Por tanto, como el tamaño de la muestra es n =30, la proporción muestral es

𝑥 19
𝑝̅ = = = 0.63
𝑛 30

7
Al efectuar los cálculos anteriores, se lleva a cabo el proceso estadístico conocido como

estimación puntual. A la media muestral x se le identifica como estimador puntual de la

media poblacional μ, a la desviación estándar muestral s como el estimador puntual de la

desviación estándar poblacional σ y a la proporción muestral p como el estimador puntual de

la proporción poblacional p. Al valor numérico obtenido de x, s o p se le conoce como

estimación puntual. Así, en la muestra aleatoria simple de 30 gerentes de EAI que se presenta

en la tabla 7.2, $51 814 es la estimación puntual de μ, $3 348 es la estimación puntual de σ

y 0.63 es la estimación puntual de p. En la tabla 7.3 se resumen los resultados muestrales y

se comparan las estimaciones puntuales con los valores de los parámetros poblacionales.

Como se observa en la tabla 7.3, las estimaciones puntuales difieren un poco de los

correspondientes parámetros poblacionales. Estas diferencias son de esperarse, ya que para

elaborar las estimaciones muestrales se usa una muestra, y no un censo de toda la población.

8
a) Estimación puntual y Estimadores puntuales

Consideremos un parámetro poblacional como la media poblacional “µ” o la proporción

poblacional “P”. Un estimador puntual de un parámetro poblacional es una función de la

información de la muestra que genera un único número llamado estimación puntual. Por

ejemplo, la media muestral 𝑥̅ es un estimador puntual de la media poblacional, µ, y el valor

que toma 𝑥̅ para un conjunto dado de datos se llama estimación puntual.

Propiedades de los Estimadores

Se ha explicado que los estadísticos muestrales, como la media muestral x, la desviación

estándar muestral s y la proporción muestral p sirven como estimadores puntuales de sus

correspondientes parámetros poblacionales, μ, σ y p. Resulta interesante advertir que cada

uno de estos estadísticos muestrales sean los estimadores puntuales de sus correspondientes

parámetros poblacionales. Sin embargo, antes de usar un estadístico muestral como

estimador puntual, se verifica si éste tiene ciertas propiedades que corresponden a un buen

estimador puntual. En esta sección se estudian las propiedades que deben tener los buenos

estimadores puntuales: insesgadez, eficiencia, consistencia y suficiencia. Como hay

distintos estadísticos muestrales que se utilizan como estimadores puntuales de sus

diferentes parámetros poblacionales, en esta sección se usará la notación general siguiente.

𝜃 = 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟é𝑠

𝜃̂ = 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑜 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑝𝑢𝑛𝑡𝑢𝑎𝑙 𝑑𝑒 𝜃

9
En esta notación, θ es la letra griega theta y la notación 𝜃̂ se lee “theta sombrero”. En general,

θ representa cualquier parámetro poblacional como, por ejemplo, la media poblacional, la

desviación estándar poblacional, la proporción poblacional, etc., y 𝜃̂ representa el

correspondiente estadístico muestral, por ejemplo, la media muestral, la desviación estándar

muestral y la proporción muestral.

a) Estimador Insesgado

Si el valor esperado del estadístico muestral es igual al parámetro poblacional que se

estima, se dice que el estadístico muestral es un estimador insesgado del parámetro

poblacional. Por tanto, el valor esperado, o media, de todos los posibles valores de un

estadístico muestral insesgado es igual al parámetro poblacional que se está estimando.

𝐸(𝜃̂) = 𝜃

En la fi gura 7.10 se exponen los casos de los estimadores puntuales sesgados e insesgado.

En la gráfica que ilustra el estimador insesgado, la media de la distribución de muestreo es

igual al valor del parámetro poblacional. En este caso los errores de estimación se equilibran,

ya que algunas veces el valor del estimador puntual 𝜃̂ puede ser menor que θ y otras veces es

mayor que θ. En el estimador sesgado, la media de la distribución de muestreo es menor o

mayor que el valor del parámetro poblacional. En la gráfica B de la figura 7.10, E (𝜃̂) es

mayor que θ; así, la probabilidad de que los estadísticos muestrales sobreestimen el valor del

parámetro poblacional es grande. En la figura se muestra la amplitud de este sesgo. Al

estudiar las distribuciones de muestreo de la media muestral y de la proporción muestral, se

vio que E(x) =μ y que E (p) =p. Por tanto, x y p son estimadores insesgados de sus
10
correspondientes parámetros poblacionales μ y p. En cuanto a la desviación estándar muestral

s y la varianza muestral s2, se puede demostrar que E (s2) =σ2. Por consiguiente, se concluye

que la varianza muestral s2 es un estimador insesgado de la varianza poblacional σ2.

b) Estimador Eficiente

Suponga que se usa una muestra aleatoria simple de n elementos para obtener dos

estimadores puntuales insesgados de un mismo parámetro poblacional. En estas

circunstancias, se preferirá usar el estimador puntual con el menor error estándar, ya que

tenderá a dar estimaciones más cercanas al parámetro poblacional. Se dice que el estimador

puntual con menor error estándar tiene mayor eficiencia relativa que los otros. En la figura

7.11 se presentan las distribuciones de muestreo de dos estimadores puntuales insesgados,

θˆ1 y θˆ2. Observe que el error estándar de θˆ1 es menor que el error estándar de θˆ2; por
11
tanto, los valores de θˆ1 tienen más posibilidades de estar cerca del parámetro θˆ que los

valores de θˆ2. Como el error estándar del estimador puntual θˆ1 es menor que el del

estimador puntual θˆ2, θˆ1 es relativamente más eficiente que θˆ2 y se prefiere como

estimador puntual.

c) Estimador Consistente

La tercera propiedad relacionada con un buen estimador puntual es la consistencia. Dicho de

manera sencilla, un estimador puntual es consistente si su valor tiende a estar más cerca del

parámetro poblacional a medida que el tamaño de la muestra aumenta. En otras palabras, una

12
muestra grande tiende a proporcionar mejor estimación puntual que una pequeña. Observe

que en el caso de la media muestral 𝑥̅ , el error estándar de 𝑥̅ está dado por 𝜎𝑥̅ =𝜎⁄√𝑛 . Puesto

que 𝜎𝑥̅ está vinculado con el tamaño de la muestra, de manera que muestras mayores dan

valores menores de 𝜎𝑥̅ , entonces las de tamaño grande tienden a proporcionar estimadores

puntuales más cercanos a la media de la población μ. Mediante un razonamiento similar,

también se puede concluir que la proporción muestral 𝑝̅ es un estimador consistente de la

proporción poblacional p.

d) Estimador Suficiente

Un estimador es suficiente si utiliza tanta información de la muestra que ningún otro

estimador puede extraer información adicional acerca del parámetro de población que se está

estimando.

Estimación por intervalos de confianza

Una estimación de punto no nos dice cuan próximo esta la estimación al parámetro que se

estima, por lo tanto, no es muy significativa, sino se tiene cierto grado de confianza de que

la estimación de punto se halle dentro de cierta variación. Una estimación de intervalo

describe un rango de valores dentro del cual es posible que esté un parámetro de la población.

En estadística, la probabilidad que asociamos con una estimación de intervalo se conoce

como nivel de confianza. Esta probabilidad indica qué tanta confianza tenemos de que la

estimación de intervalo incluya al parámetro de población. Una probabilidad más alta implica

una mayor confianza. La probabilidad 1-𝛼, o el porcentaje (1- 𝛼)x100% es denominado el

grado de confianza; sus valores más utilizados son 0.95, 0.98 y 0.99. al número 𝛼 se le

13
denomina riesgo de estimación por intervalo. El intervalo de confianza es el rango de la

estimación que estamos haciendo.

En un intervalo [𝑎, 𝑏] ,a los números a y b se les denomina los límites de confianza o de

tolerancia del parámetro 𝜃. El número a es el límite inferior de confianza y el numero b es el

límite superior de confianza.

Por otra parte, si la estadística 𝐴1 verifica :

𝑃[𝐴1 ≤ 𝜃] = 1 − 𝛼

Se concluye que el intervalo [𝑎1 , +∞[ es un intervalo de estimación unilateral del parámetro

𝜃 del (1- 𝛼)x 100%, donde 𝑎1 es el valor de 𝐴1 que se obtiene a partir de la muestra.

Similarmente, si la estadística 𝐵1 verifica:

𝑃[𝜃 ≤ 𝐵1 ] = 1 − 𝛼

Se concluye que el intervalo ]−∞, 𝑏1 ] es un intervalo de estimación unilateral del parámetro

𝜃 del (1-𝛼)x100%, donde 𝑏1 es el valor de 𝐵1 que se obtiene partir de la muestra.

La interpretación del intervalo de confianza es como sigue: si a partir de los datos de una

muestra aleatoria de tamaño n, hemos construido el intervalo 𝑎 ≤ 𝜃 ≤ 𝑏 con grado de

confianza, por ejemplo, del 95% para el parámetro 𝜃, entonces, si se seleccionan

repetidamente 100 muestras del tamaño n , tendremos 100 intervalos semejantes al intervalo

[𝑎, 𝑏], y se confía que 95 de estos 100 intervalos contengan el parámetro 𝜃.

14
Intervalos de confianza para la media 𝜇 de una población :

a) Varianza 𝝈𝟐 conocida

Primero suponemos que se toma una muestra aleatoria de una población que sigue

una distribución normal y que tiene una media desconocida y una varianza conocida.

Nuestro objetivo es hallar un intervalo de valores, en lugar de un único número, para

estimar una media poblacional. Este problema a veces es poco realista, ya que en

raras ocasiones se conoce exactamente la varianza poblacional y, sin embargo, la

media es desconocida. A veces sí ocurre, sin embargo, que se han hecho tantas

muestras a poblaciones similares que puede suponerse que la varianza de la población

de interés se conoce bastante bien por experiencia. Cuando el tamaño de la muestra n

es bastante grande, pueden utilizarse los métodos desarrollados para el caso en el que

se conoce la varianza poblacional si hay que estimar esa varianza a partir de la

muestra. No obstante, la principal ventaja de comenzar con este problema se halla en

que permite hacer una exposición bastante fácil de los métodos necesarios para hallar

intervalos de confianza.

Intervalos basados en la distribución normal

Sea x1, x2, ..., xn una muestra aleatoria de n observaciones extraídas de una población

que sigue una distribución normal de media 𝜇 desconocida y varianza conocida 𝜎 2 .

El mejor estimador puntual del parámetro 𝜇 es la media muestral 𝑋̅

15
Se puede utilizar , entonces, la distribución muestral de la media 𝑋̅ para determinar

el intervalo de confianza del parámetro 𝜇.

 Si la población es normal N(𝜇, 𝜎 2 ), entonces , la distribución del estadístico 𝑋̅es

normal N(𝜇, 𝜎 2 ⁄𝑛 ) para cualquier valor de n( n≥2).

 Si la población no es normal , pero tiene media 𝜇 y varianza 𝜎 2 finitas, entonces,

siempre que el tamaño n de la muestra sea suficientemente grande, (n≥30), por el

teorema del límite central, la distribución de 𝑋̅ es aproximadamente normal

N(𝜇, 𝜎 2 ⁄𝑛 ).

Por tanto, según sea el caso, la distribución de la variable aleatoria:

𝑋̅ − 𝜇
𝑍=
𝜎⁄√𝑛

Es exactamente normal N (0, 1)

Luego dado el valor 1-𝛼, en la distribución de Z, se pueden determinar lo valores

∓𝑍1−𝛼⁄2 tales que :

𝑃[−𝑍1−𝛼⁄2 ≤ 𝑍 ≤ 𝑍1−𝛼⁄2 ] = 1 − 𝛼

Sustituyendo 𝑍 = (𝑋̅ − 𝜇)/ 𝜎⁄√𝑛, se tiene,

16
𝑋̅ − 𝜇
𝑃 [−𝑍1−𝛼⁄2 ≤ ≤ 𝑍1−𝛼⁄2 ] = 1 − 𝛼
𝜎⁄√𝑛

De donde resulta,

𝜎 𝜎
𝑃 [𝑋̅ − 𝑍1−𝛼⁄2 ≤ 𝜇 ≤ 𝑋̅ + 𝑍1−𝛼⁄2 ]=1−𝛼
√𝑛 √𝑛

𝑃[𝐴 ≤ 𝜇 ≤ 𝐵] = 1 − 𝛼

Donde A=𝑋̅ − 𝑍1−𝛼⁄2 𝜎⁄√𝑛 y 𝐵 = 𝑋̅ + 𝑍1−𝛼⁄2 𝜎⁄√𝑛 son variables aleatorias.

Es decir, si 𝑋̅ es estimador de 𝜇, se tiene la probabilidad 1-𝛼 de que el intervalo [𝐴, 𝐵]

contenga al parámetro 𝜇.

Luego, el valor 𝑍1−𝛼 se busca en la tabla normal N(0, 1) tal que 𝑃[𝑍 ≤ 𝑍1−𝛼⁄2 ] = 1 −

𝛼⁄2.

En la ilustración los valores 𝑎 = 𝑋̅ − 𝑍1−𝛼⁄2 𝜎⁄√𝑛 y 𝑏 = 𝑋̅ − 𝑍1−𝛼⁄2 𝜎⁄√𝑛 son los

límites de confianza de 𝜇, inferior y superior respectivamente.

Ejemplo

Se han registrado los tiempos que 100 clientes, tomados al azar, utilizan en sus distintas

operaciones en un banco local. La media de la muestra fue de 10 minutos. Informaciones

anteriores indican que la distribución de los tiempos utilizados en las distintas

operaciones es normal con desviación estándar igual a 3 minutos. Estimar el promedio

real µ del tiempo utilizado por los clientes con un intervalo al nivel de confianza de 99%.
17
Solución

 𝑋̅ = 10

 n=100

 𝜎=3

 1-𝛼 = 0.99 𝛼 = 0.01 1-𝛼⁄2 = 2.58

El intervalo al nivel de confianza de 99% para la media población es:

[10 − (2.58)(3/ √100), 10 + (2.58)(3/ √100)] = [9.226,10.774]

Los clientes utilizan para realizar sus operaciones en un banco local, en promedio, entre

9.226 y 10.774 minutos.

b) Con varianza 𝝈𝟐 desconocida

En este caso se considera la construcción de intervalos de confianza para la media de

una población cuando la desviación estándar no se conoce. El supuesto que se

requiere en este desarrollo, respecto de la muestra, es que esta provenga de una

población normal. Este supuesto puede suprimirse dependiendo del tamaño de la

muestra y de cuánto se aleja la distribución de la población de la distribución normal.

En la práctica se considera que el tamaño de la muestra debe ser mayor que 30.

En general, el procedimiento para construir un intervalo para la media 𝜇 de una

población normal, de un nivel de confianza de (1 − α)100% y cuando la desviación

estándar no se conoce, es como sigue:

1. Como no se conoce la desviación estándar 𝜎, esta se estima con:

18
∑𝑛 (𝑥1 − 𝑥̅ )2
𝑠 = √ 𝑖=1
𝑛−1

Esta estimación origina una disminución del grado de confianza del intervalo, por

lo que es necesario, para mantener un nivel de confianza deseado, ampliar el

intervalo, utilizando la distribución t de student con n − 1 grados de libertad.

2. De la tabla de la t student se calcula el cuantil de orden, 1-𝛼 ⁄2 , 𝑡1−𝛼⁄2,𝑛−1

𝑠
3. Calcular el margen de error para la media muestral, en este caso es 𝑡1−𝛼⁄2,𝑛−1
√𝑛

𝑠 𝑠
4. El intervalo de confianza es [𝑋̅ − 𝑡1−𝛼⁄2,𝑛−1 , 𝑋̅ + 𝑡1−𝛼⁄2,𝑛−1 ]
√𝑛 √𝑛

𝑠
El intervalo puede escribirse como 𝑋̅ ± 𝑡1−𝛼⁄2,𝑛−1
√𝑛

Cuando la muestra es grande (mayor que 30), el cuantil 𝑡1−𝛼⁄2,𝑛−1 se aproxima con el cuantil

𝑍1−𝛼⁄2 de la normal y así:

el intervalo al nivel de confianza del 95% se aproxima con:

𝑠 𝑠
[𝑥̅ − 1.96 , 𝑥̅ + 1.96 ]
√𝑛 √𝑛
19
y el intervalo al nivel de confianza de 99% se aproxima con:

𝑠 𝑠
[𝑥̅ − 2.58 , 𝑥̅ + 2.58 ]
√𝑛 √𝑛

Ejemplo

Para una muestra de 25 corredores de bolsa se encontró que la media de los precios cobrados

por una transacción de 5 acciones a $ 20 la acción fue $ 10. La desviación estándar

poblacional fue $ 2.1. Hallar el intervalo de confianza de 95% para la media de todos los

precios cobrados por una transacción de 5 acciones a $ 20 la acción. Se supone que los precios

tienen distribución normal.

Solución

En este caso, n=25, 𝑥̅ = 10 y s=2.1

El cuantil de orden 1-0.05/2, de la distribución t con n-1=24 grados de libertad, es

𝑡1−0.05⁄2,24 = 2.797.

El intervalo de confianza es :

𝑠 𝑠 2.1 2.1
[𝑥̅ − 𝑡1−0.05,24 , 𝑥̅ + 𝑡1−0.05,24 ] = [10 − 2.797 ( ) , 10 + 2.797 ( )]
√𝑛 √𝑛 √25 √25

[8.83, 11.17]

20
El promedio de los precios cobrados por una transacción de 5 acciones, a $ 20 la acción, está

entre 8.83 y 11.17 dólares, con un nivel de confianza de 95%.

c) Intervalo de confianza para la media de una población pequeña

Los resultados anteriores se cumplen en cuanto se refieren a poblaciones grandes o cuando

las poblaciones son pequeñas y se usa el m.a.s. con reemplazo; sin embargo, lo real es que

sea necesario estimar parámetros en poblaciones finitas de tamaño N y utilizando muestras

aleatorias obtenidas con el m.a.s. sin reemplazo.

Si la varianza 𝜎 2 es conocida, el intervalo, al nivel de confianza de (1 − a)100% para estimar

la media µ de la población, es:

1 𝑁−𝑛 1 𝑁−𝑛
𝑃 [𝑥̅ − (𝑍1−𝛼⁄2 )𝜎√ ( ) ≤ 𝜇 ≤ 𝑥̅ + (𝑍1−𝛼⁄2 )𝜎√ ( )] = 1 − 𝛼
𝑛 𝑁−1 𝑛 𝑁−1

𝑁−𝑛 𝑛
Es el factor de corrección por población finita, se puede aproximar a 1 − 𝑁, y el intervalo
𝑁−1

de confianza seria:

1 𝑛 1 𝑛
𝑃 [𝑥̅ − (𝑍1−𝛼⁄2 )𝜎√ (1 − ) ≤ 𝜇 ≤ 𝑥̅ + (𝑍1−𝛼⁄2 )𝜎√ (1 − ) ] = 1 − 𝛼
𝑛 𝑁 𝑛 𝑁

21
Si la población es grande, en la práctica mayor que 100,000, y el tamaño de la muestra es

menor que el 10% de la población, el factor de corrección por población finita puede obviarse

Ejemplo

Para estimar el promedio de los salarios de 100 empleados de una compañía se tomó una

muestra aleatoria de 50 de ellos. Para esta muestra se halló 𝑥̅ = 84.1 y s = 11.0653. Encontrar

un intervalo al nivel de confianza del 95% para estimar la media de los salarios de todos los

trabajadores de la compañía.

Solución

1-𝛼 = 0.95; 𝛼⁄2 = 0.025; 1--𝛼⁄2 = 1 − 0.025 = 0.975

𝑍0.975 = 1.96

11.0653 50 11.0653 50
[84.1 − 1.96 × × √1 − 100 , 84.1 + 1.96 × × √1 − 100] =
√50 √50

[81.9312, 86.2688]

Se tiene la confianza del 95% de que la media de la población esté entre los valores 81.9312

y 86.2688.

d) Intervalo de confianza para la diferencia de medias en dos


poblaciones normales independientes

22
Consideramos dos variables aleatorias independientes X1 y X2 con distribuciones normales

de parámetros (μ1, σ1) y (μ2, σ2), respectivamente, de las que vamos a tomar muestras

aleatorias independientes de tamaños n1 y n2, respectivamente.

Nuestro objetivo, en este caso, es obtener un intervalo de confianza para la diferencia de las

medias de ambas distribuciones, es decir, para μ1 – μ2. Pero previo al cálculo de este

intervalo, debemos determinar si las varianzas de ambas distribuciones o, equivalentemente,

sus desviaciones típicas, σ1 y σ2, aun siendo desconocidas, pueden asumirse iguales o no. El

cálculo del intervalo de confianza se realiza de forma diferente dependiendo El cálculo del

intervalo de confianza se realiza de forma diferente dependiendo de si las varianzas

(desviaciones típicas) pueden asumirse iguales o no.

En primer lugar, determinemos el Intervalo de confianza para el cociente de varianzas

e) Intervalo de confianza para la diferencia de medias.

Suponemos dos poblaciones independientes

X  N (  ,  ) , Y  N (  ,  )

Tomamos muestras de tamaño n y n , respectivamente.

23
   
a) Si  y  22 son conocidas, como X  Y  N    ,  , el intervalo
 n n 

de confianza será:

     
  X Y  z   ,X Y  z   
  n n  n n 

X Y     
b) Si  y  son desconocidas pero iguales, como  t  
n s n s  1 1 
  
n  n  2  n n 

, el intervalo de confianza será:

 
X Y n s n s  1 1  n s  n s  1 1  
t   
, X Y t   
 n  n 2  n n 2   
     



 n n  
 n n  

Ejemplo: Dos universidades públicas tienen dos métodos distintos para inscribir a sus alumnos.

Los dos desean comprobar el tiempo promedio que toma la inscripción de los alumnos. En cada

universidad se tomaron los tiempos de inscripción de 31 alumnos tomados al azar. Las medias y

desviaciones típicas muestrales fueron: x 20 ' 3, s 2' 5, y 23 , s  3. Si se supone que el

muestreo se llevó a cabo en dos poblaciones normales e independientes, obtener los intervalos de

confianza al nivel de riesgo 0'05 para la diferencia entre las medias del tiempo de inscripción para las

dos universidades,

24
a) suponiendo que las varianzas poblacionales son   9 ,  10 .

b) suponiendo que las varianzas poblacionales son desconocidas pero iguales.


Para el apartado a   0 05  1    0 ' 95  1   0 ' 975  z  1' 96
2 

Sustituyendo los valores en el intervalo obtenemos:

 9 10 9 10 
   20 ' 3 23 1' 96  , 20' 3  23 1' 96   

 31 31 31 31 


 2' 7 1' 53, 2 ' 7 1' 53 4 ' 23 , 1' 17 

Para el apartado b, buscamos en la tabla de la t de Student t  


2 .

Sustituyendo los valores en el intervalo obtenemos:

         
       
        


25
    
  

f) Intervalo de confianza para la proporción

Si en una población Bernouilli de parámetro p definimos la v.a. X= nº éxitos en la

muestra, X sigue una distribución binomial de parámetros (n,p). Si la muestra es grande,

tenemos que la proporción muestral P=X/n se distribuye aproximadamente como una normal

 pq 
N p ,  y podremos usar el teorema central del límite.
 n 

En una población Bernoulli,   p ,   p (1  p ) y si denotamos por P a la

proporción en la muestra X  P . Así pues podemos aplicar el intervalo de confianza para

la media con varianza conocida visto anteriormente, sustituyendo lo anterior y aproximando

p(1-p) por P(1-P). un intervalo de confianza aproximado para p a nivel 1  sería:

 P (1  P ) P (1  P ) 
P  z   , P  z  
 n  n 

Ejemplo: Uno de los líderes de un colectivo laboral desea plantear una cuestión a todos

los miembros del grupo. Si más de la mitad respondieran NO entonces preferiría no plantearla

para no minar su prestigio. Para salir de dudas, elige aleatoriamente a 100 trabajadores a los

26
que hace la pregunta y sólo 30 responden NO. ¿Entre qué límites se hallará la verdadera

proporción al nivel del 95%?

Como el tamaño muestral es grande, podemos aplicar el teorema central del límite.


Tenemos 1   0 ' 95 1   0 ' 975  z  1' 96
2 

Sustituyendo los valores en el intervalo correspondiente:

 0 ' 3 0' 7 0 ' 3 0 ' 7 


0 ' 3 1' 96 , 0 ' 3 1' 96  0 ' 2102 , 0 ' 3898 
 100 100 

Por tanto, la verdadera proporción está en el intervalo 0' 2102 , 0 ' 3898 con un nivel
de confianza del 95%.

g) Estimación del intervalo de confianza para la proporción en el caso de

que la población sea pequeña.

Si la población es pequeña, de tamaño N, y la muestra se obtiene con el muestreo

aleatorio simple (m.a.s) sin reemplazo, el intervalo de confianza para estimar la

proporción p se determina como antes, agregando en el margen de error el factor de

27
corrección por población finita. El intervalo aproximado, al nivel de confianza del (1

− α) 100%, es:

𝑝(1 − 𝑝) 𝑛 𝑝(1 − 𝑝) 𝑛
[𝑝 − 𝑍1−∝/2 √ √1 − ; 𝑝 + 𝑍1−∝/2 √ √1 − ]
𝑛 𝑁 𝑛 𝑁

Ejemplo (VELIZ, 2009) INTENCIÓN DE VOTO

Para conocer la intención de voto en un grupo de 500 personas se tomó una muestra

sin restitución de 250 personas, resultando que 42 “votarán por el candidato A”.

Hallar un intervalo al nivel de confianza 95% para estimar la proporción de personas

de las 500 que votarán por A.

Solución

Se tiene que la proporción muestral de las personas que votarán por A es 𝑝 =

42/250 = 0.168. El intervalo al nivel de confianza del 95% para estimar la

proporción de los 500 que votarán por A es:

[𝟎. 𝟏𝟔𝟖 − (𝟏. 𝟗𝟔)(𝟎. 𝟎𝟏𝟔); 𝟎. 𝟏𝟔𝟖 + (𝟏. 𝟗𝟔)(𝟎. 𝟎𝟏𝟔)]

[𝟎. 𝟏𝟑𝟔 , 𝟎. 𝟏𝟗𝟗]

En general, el problema de determinar el tamaño de muestra para p en una población

finita de tamaño N se resuelve considerando que p es la media de la variable cuyos

valores son: 0 y 1. Así resulta que el tamaño de muestra n requerido para estimar a p,

con un margen de error de E y para un nivel de confianza del (1 − α)100%, es:


28
𝒑(𝟏 − 𝒑)
𝒏= 𝟐
𝟏 𝑬 𝒑(𝟏 − 𝒑)
(𝟏 − 𝒏) (𝒁 ) + 𝑵
𝟏−∝/𝟐

Observación:
𝑛
Como en el caso de la media, la expresión equivale a 1−𝑛𝑖𝑛𝑓 /𝑁, en donde 𝑛𝑖𝑛𝑓 ; es el
𝑖𝑛𝑓

tamaño de muestra que se obtiene cuando el muestreo es aleatorio simple con

restitución o la población es muy grande.

h) Intervalos de confianza para la diferencia de dos proporciones 𝒑𝟏 y 𝒑𝟐

en dos poblaciones independientes

Se trata de estimar, con un intervalo de confianza, la diferencia 𝒑𝟏 − 𝒑𝟐 de las

proporciones de elementos que tienen el atributo A en dos poblaciones grandes e

independientes.

Una aproximación del intervalo al nivel de confianza del (1 − α)100% para la

diferencia de proporciones 𝒑𝟏 − 𝒑𝟐 es:

𝔭1 (𝔭1 − 𝔭2 ) 𝔭2 (𝔭1 − 𝔭2 )
[(𝔭1 − 𝔭2 ) − 𝑧1−∝/2 √ + ; (𝔭1 − 𝔭2 )
𝑛1 𝑛2

𝔭1 (𝔭1 − 𝔭2 ) 𝔭2 (𝔭1 − 𝔭2 )
+ 𝑧1−∝/2 √ + ]
𝑛1 𝑛2

en donde 𝔭1 y 𝔭2 son las proporciones muestrales que estiman, respectivamente, a 𝔭1

y 𝔭2 , y 𝑧1−∝/2 es el cuantil de orden 1 − α/2 de la normal estándar.

29
Ejemplo (VELIZ, 2009). FUMAR ES DAÑINO PARA LA SALUD

Se quiere saber si en una comunidad existe diferencia significativa entre la proporción

𝒑𝟏 de mujeres que fuman y la proporción 𝒑𝟐 de hombres que fuman. Para ello se

realizó una encuesta anotándose que, de 800 mujeres, 100 fuman, y de 600 hombres,

120 son fumadores. En tales condiciones, determinar un intervalo de estimación para

la diferencia 𝒑𝟏 − 𝒑𝟐 , al nivel de confianza de 99%.

Solución
100
Los valores respectivos de los estimadores para 𝒑𝟏 y 𝒑𝟐 son: 𝔭1 = 800 = 0.125 y

120
𝔭2 = 600 = 0.2.

El intervalo de confianza para la diferencia 𝒑𝟏 − 𝒑𝟐 , al nivel del 99%, es:

0.125(0.875) 0.2(0.8)
[(0.125 − 0.2) − 2.58 √ + ; (0.125 − 0.2)
800 600

0.125(0.875) 0.2(0.8)
+ 2.58√ + ] = [−0.126 ; −0.023]
800 600

El intervalo indica que, al nivel de confianza de 99%, se puede aceptar que 𝒑𝟏 es

menor que 𝒑𝟐 .

30
i) Intervalos de confianza para la diferencia de dos proporciones 𝒑𝒊 y 𝒑𝒋

en una sola población grande

El estudio anterior contemplaba la independencia de las muestras de las dos

poblaciones relacionadas con las proporciones que se deseaban comparar; sin

embargo, existen situaciones en donde se comparan proporciones de una sola

población y a partir de una sola muestra. Tal caso se tiene cuando se requiere la

comparación de las preferencias de los electores hacia dos candidatos a una

representación pública en una comunidad.

Para comparar dos o más proporciones 𝑝𝑖 y 𝑝𝑗 en una población, a partir de los datos

de una sola muestra de tamaño n, se utiliza el siguiente intervalo de confianza para la

diferencia de dos proporciones.

𝔭𝑖 (1 − 𝔭𝑖 ) + 𝔭𝑗 (1 − 𝔭𝑗 ) + 2𝔭𝑖 𝔭𝑗
[(𝔭𝑖 − 𝔭𝑗 ) − 𝑧1−∝/2 √ ; (𝔭𝑖 − 𝔭𝑗 )
𝑛

𝔭𝑖 (1 − 𝔭𝑖 ) + 𝔭𝑗 (1 − 𝔭𝑗 ) + 2𝔭𝑖 𝔭𝑗
+ 𝑧1−∝/2 √ ]
𝑛

Así, para estimar la diferencia de las proporciones de las preferencias por dos

candidatos A y B a la alcaldía de una ciudad, bastará con tomar una muestra aleatoria

de los votantes en la ciudad, calcular en esta muestra las proporciones muestrales 𝔭𝐴 y

𝔭𝐵 que indican las preferencias de los ciudadanos por los candidatos A y B,

respectivamente, en la muestra y luego calcular el intervalo indicado.

31
Ejemplo. CANDIDATURAS

En una encuesta realizada en 500 personas se determinó que 125 apoyaban al

candidato A, 140 apoyaban a B y el resto apoyaban al candidato C. El intervalo al

nivel de confianza de 95% para la diferencia de proporciones de los que apoyan el

candidato A y al candidato B es:

0.25(0.75) + (0.28)(0.72) + 2(0.25)(0.28)


[(0.25 − 0.28) − 1.96√ ; (0.25 − 0.28)
500

0.25(0.75) + (0.28)(0.72) + 2(0.25)(0.28)


+ 1.96√ ]
500

= [−𝟎. 𝟎𝟗𝟑𝟖, 𝟎. 𝟎𝟑𝟑𝟖]

De acuerdo al resultado obtenido, no se puede afirmar nada respecto de las

proporciones; las proporciones pueden ser iguales o diferentes.

Aplicaciones

Las empresas KCola e ICola son dos de las compañías que surten al mercado local de

refrescos desde hace muchos años. Últimamente han iniciado una serie de anuncios

publicitarios por radio y televisión indicando que cada cual es la poseedora de mayor

participación en el mercado de los refrescos. Los avisos son cada vez más numerosos,

a tal punto que la prensa local ha bautizado a esta situación como la “guerra de las
32
colas”, en clara alusión al famoso film La guerra de las galaxias. En los avisos

publicitarios la KCola indica que a ella “la prefiere el 42% de los clientes, mientras

que a su competidora ICola la prefiere el 40%”. Con letras muy pequeñas, como suele

suceder en estos avisos, se indica que esta afirmación se basa en los siguientes

resultados obtenidos al tomar una muestra aleatoria simple de 600 clientes.

REFRESCOS PREFERENCIAS

KCola 252

ICola 240

Otros 110

Total 600

Fisher, un avispado lector que ha fijado su atención en las pequeñas letritas de los

avisos de las colas, dice que la diferencia que indica KCola es a nivel de muestra,

pero no necesariamente a nivel de población. fiser toma su calculadora y obtiene el

intervalo de confianza de la diferencia de las proporciones de los clientes que a nivel

de población prefieren KCola e ICola al 95%.

El intervalo al 95% de confianza que Fisher calculó fue:

33
252 148 240 160 252 240
√(400) (400) + (400) (400) + 2 (400) (400) 252 240
[(252/400 − 240/400) − 1.96 ; ( − )
400 400 400

252 148 240 160


√(400) (400) + (400) (400) + 2(252/400)(240/400)
+ 1.96 ]
400

= [−0.08365; 013364]

Los resultados no permiten a KCola decir que tiene la preferencia a nivel de

población. La diferencia que se nota a nivel de muestra no es significativa.

Un caso a saber

La empresa embotelladora refrescola La empresa embotelladora de refrescos

Refrescola opera en el país desde el 1950, año en que firmó el convenio que le

permitía embotellar y distribuir la bebida gaseosa que “refresca al mundo” hace 120

años en más de 200 países y cuya fórmula “secreta, única, energizante y refrescante”

fue inventada en Atlanta, EE. UU. La planta que Refrescola construyó para

desarrollar el negocio y que aún funciona se encuentra situada en el centro, al sur de

la capital, y desde este punto se reparte la bebida a todos los puntos del país. El

reconocimiento permanente que el mercado nacional le brinda a la marca de la bebida

que Refrescola embotella y reparte se debe al marketing sofisticado e innovador y a

las campañas y promociones publicitarias, que han permitido que la bebida sea la más

reconocida y que participe en el 50% del mercado de las bebidas gaseosas. En la

actualidad, Refrescola brinda trabajo en forma directa e indirecta a 25,000 personas

34
y sus campañas a favor del medio ambiente han sido suficientes para que sea

considerada una de las empresas líderes de la responsabilidad social. La empresa

Refrescola tiene entre sus trabajadores un grupo de profesionales para el estudio

permanente del agua, del azúcar y de diversos ingredientes que se utilizan en la

elaboración de la bebida. En este trabajo, así como en los relacionados con el

marketing, Refrescola utiliza como herramienta fundamental a la estadística para

llevar a cabo diseños experimentales, para el conocimiento de los clientes, para la

predicción de ventas, etcétera.

35
ANEXO

36
REFERENCIAS BIBLIOGRÁFICAS

Estadística descriptiva univariante - Alicia Vila y Ángel A. Juan

Estadística aplicada a los negocios y la economía - Lind 13ed

Estadística básica para estudiantes de ciencias - Gorgas, Cardiel, Zamorano

Estadística para Administración y Economía - Anderson 10 ed

Estadística para Administración y Economía - Levin, 7ed

37