You are on page 1of 12

En estadstica, se llama a un par o varios pares de nmeros entre los cuales se estima que estar cierto valor

desconocido con una determinada probabilidad de acierto. Formalmente, estos nmeros determinan
unintervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parmetro
poblacional. La probabilidad de xito en la estimacin se representa con 1 - y se denomina nivel de
confianza. En estas circunstancias, es el llamado error aleatorio o nivel de significacin, esto es, una medida
de las posibilidades de fallar en la estimacin mediante tal intervalo.1
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un intervalo ms amplio
tendr ms probabilidad de acierto (mayor nivel de confianza), mientras que para un intervalo ms pequeo,
que ofrece una estimacin ms precisa, aumenta su probabilidad de error.
Para la construccin de un determinado intervalo de confianza es necesario conocer la distribucin terica que
sigue el parmetro a estimar, .2 Es habitual que el parmetro presente una distribucin normal. Tambin
pueden construirse intervalos de confianza con ladesigualdad de Chebyshev.
En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de un parmetro
poblacional que sigue una determinada distribucin de probabilidad, es una expresin del tipo [1, 2] tal
que P[1 2] = 1 - , donde P es la funcin de distribucin de probabilidad de .
Concepto de Intervalo de Confianza.
En el contexto de estimar un parmetro poblacional, un intervalo de confianza es un rango de valores
(calculado en una muestra) en el cual se encuentra el verdadero valor del parmetro, con una probabilidad
determinada.
La probabilidad de que el verdadero valor del parmetro se encuentre en el intervalo construido se
denomina nivel de confianza, y se denota 1- . La probabilidad de equivocarnos se llama nivel de
significancia y se simboliza . Generalmente se construyen intervalos con confianza 1- =95% (o
significancia =5%). Menos frecuentes son los intervalos con =10% o =1%.
Para construir un intervalo de confianza, se puede comprobar que la distribucin Normal Estndar cumple 1:
P(-1.96 < z < 1.96) = 0.95
(lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que calcule
probabilidades normales).
Luego, si una variable X tiene distribucin N( , ), entonces el 95% de las veces se cumple:

Despejando

en la ecuacin se tiene:

El resultado es un intervalo que incluye al el 95% de las veces. Es decir, es un intervalo de confianza al
95% para la media cuando la variable X es normal y
es conocido.
II- Intervalo de confianza para un promedio:
Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional , la varianza
poblacional
es desconocida, por lo que el intervalo para construido al final de II es muy poco prctico.
Si en el intervalo se reemplaza la desviacin estndar poblacional por la desviacin estndar muestral s, el
intervalo de confianza toma la forma:

La cual es una buena aproximacin para el intervalo de confianza de 95% para con
desconocido. Esta
aproximacin es mejor en la medida que el tamao muestral sea grande.
Cuando el tamao muestral es pequeo, el intervalo de confianza requiere utilizar la distribucin t de Student
(con n-1 grados de libertad, siendo n el tamao de la muestra), en vez de la distribucin normal (por ejemplo,
para un intervalo de 95% de confianza, los lmites del intervalo ya no sern construidos usando el valor 1,96).
Ejemplo:
Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresin (mayor puntaje
significa mayor depresin).
2
5
6
8
8
9
9
10
11

11
14
16
19

11
15
16
19

13
15
17
19

13
16
17
19

14
16
17
19

14
16
18
19

14
16
18
19

14
16
18
20

14
16
19
20

Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos que los datos tienen
distribucin normal, con varianza poblacional
desconocida. Como
es desconocido, lo estimamos por s
=18,7. Luego, un intervalo de confianza aproximado es:
Estudios de cohortes
Estudios de cohortes II
Casos
y controles
Casos
y controles II
Casos
y controles III
Intervalos de confianza
Variables confundentes
Anlisis estratificado
OTROS TEMAS
Introductorios
Instrumentales introductorios
Paradigmas epidemiolgicos
Indicadores de riesgo EPI
Investigacin y EPI
Epidemiologa descriptiva
Epidemiologa analtica
Estudios experimentales

Luego, el intervalo de confianza para es (13,2 , 15,8). Es decir,


el puntaje promedio poblacional se encuentra entre 13,2 y 15,8 con una confianza 95%.
III. Intervalo de Confianza para una Proporcin.
En este caso, interesa construir un intervalo de confianza para una proporcin o un porcentaje poblacional
(por ejemplo, el porcentaje de personas con hipertensin, fumadoras, etc.)
Si el tamao muestral n es grande, el Teorema Central del Lmite nos asegura que:

O bien:

Donde p es el porcentaje de personas con la caracterstica de inters en la poblacin (o sea, es el parmetro


de inters) y p es su estimador muestral.
Luego, procediendo en forma anloga al caso de la media, podemos construir un intervalo de 95% de
confianza para la proporcin poblacional p.
Ejemplo:
En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres mayores de 15 aos en la
Regin Metropolitana, se encontr que el 17.6% eran hipertensas. Un intervalo de 95% de confianza para la
proporcin de mujeres hipertensas en la Regin Metropolitana est dado por:

Luego, la proporcin de hipertensas vara entre (0,139 , 0,212) con


una confianza de 95%.
IV. Uso de Intervalos de Confianza para verificar Hiptesis.
Los intervalos de confianza permiten verificar hiptesis planteadas respecto a parmetros poblacionales.
Por ejemplo, supongamos que se plantea la hiptesis de que el promedio de peso de nacimiento de cierta
poblacin es igual a la media nacional de 3250 gramos.
Al tomar una muestra de 30 recin nacidos de la poblacin en estudio, se obtuvo:
= 2930
s= 450
n= 30
Al construir un intervalo de 95% de confianza para la media poblacional, se obtiene:

Luego, el peso de nacimiento vara entre 2769 y 3091 gramos, con una confianza de 95%.
Como el intervalo no incluye el valor =3250 gramos planteado en la hiptesis, entonces esta es rechazada
con confianza 95% (o un valor p menor a 0,5).
La distribucin Normal estndar es una distribucin normal con media =0 y varianza,
distribuida N(0,1) generalmente se denota con la letra z.
En particular, si X~N ( , ), entonces z = (X- )/ tiene distribucin normal estndar.

=1. Una variable

Ensayos de hiptesis
Escisiones estadsticas
Muy a menudo, en la prctica, se tienen que tomar decisiones sobre poblaciones, partiendo de
la informacin muestral de las mismas. Tales decisiones se llaman decisiones estadsticas. Por ejemplo, se
puede querer decidir a partir de los datos del muestreo, si un suero nuevo es realmente efectivo para la cura
de una enfermedad, si un sistema educacional es mejor que otro, si una moneda determinada est o no
cargada. etc.
Hiptesis estadsticas. Hiptesis nula
Para llegar a tomar decisiones, conviene hacer determinados supuestos o conjeturas acerca de las
poblaciones que se estudian. Tales supuestos que pueden ser o no ciertos se llaman hiptesis estadsticas y,
en general, lo son sobre las distribuciones de probabilidad de las poblaciones.
En muchos casos se formulan las hiptesis estadsticas con el solo propsito de rechazarlas o invalidarlas.
Por ejemplo, si se quiere decidir si una moneda est cargada, se formula la hiptesis de que la moneda est
bien, s decir, p = 0.5; donde p es la probabilidad de cara. Anlogamente, si se quiere decidir sobre si
un procedimiento es mejor que otro, se formula la hiptesis de que no hay diferencia entre
losprocedimientos (es decir, cualquier diferencia observada se debe meramente a fluctuaciones en el
muestreo de la misma poblacin). Tales hiptesis se llaman tambin hiptesis nulas y se denotan por Ho.
Cualquier hiptesis que difiera de una hiptesis dada se llama hiptesis alternativa. Por ejemplo, si una
hiptesis es p = 0.5, hiptesis alternativas son p = 0.7; p ? 0,5 o p > 0,5. Una hiptesis alternativa de la
hiptesis nula se denota por H 1.
Ensayos de hiptesis y significacin
Si en el supuesto de que una hiptesis determinada es cierta, se encuentra que los resultados observados en
una muestra al azar difieren marcadamente de aquellos que caba esperar con la hiptesis y con la variacin
propia del muestreo, se dira que las diferencias observadas son significativas y se estara en condiciones de
rechazar la hiptesis (o al menos no aceptarla de acuerdo con la evidencia obtenida). Por ejemplo, si en 20
lanzamientos de una moneda se obtienen 16 caras, se estara inclinado a rechazar la hiptesis de que la
moneda est bien, aunque sera posible que fuese un rechazamiento errneo.
Los procedimientos que facilitan el decidir si una hiptesis se acepta o se rechaza o el determinar si las
muestras observadas difieren significativamente de los resultados esperados se llaman ensayos de
hiptesis, ensayos de significacin o reglas de decisin.

ERRORES DE TIPO I Y TIPO II


Si se rechaza una hiptesis cuando debera ser aceptada, se dice que se comete un error del Tipo I. Si, por el
contrario, se acepta una hiptesis que debera ser rechazada, se dice que se comete un error del Tipo II. En
cualquiera de los dos casos se comete un error al tomar una decisin equivocada.
Para que cualquier ensayo de hiptesis o reglas de decisin sea bueno, debe disearse de forma que
minimice los errores de decisin. Esto no es tan sencillo como pueda parecer puesto que para un tamao de
muestra dado, un intento de disminuir un tipo de error, va generalmente acompaado por un incremento en el
otro tipo de error. En la prctica, un tipo de error puede tener ms importancia que el otro, y as se tiende a
conseguir poner una limitacin al error de mayor importancia. La nica forma de reducir al tiempo ambos tipos
de error es incrementar el tamao de la muestra, lo cual puede ser o no ser posible.
NIVEL DE SIGNIFICACION
La probabilidad mxima con la que en el ensayo de una hiptesis se puede cometer un error del Tipo I se
llama nivel de significacin del ensayo. Esta probabilidad se denota frecuentemente por a; generalmente se
fija antes de la extraccin de las muestras, de modo que los resultados obtenidos no influyen en la eleccin.
En la prctica se acostumbra a utilizar niveles de significacin del 0.05 0.01, aunque igualmente pueden
emplearse otros valores. Si, por ejemplo, se elige un nivel de significacin del 0.05 5 % al disear un
ensayo de hiptesis, entonces hay aproximadamente 5 ocasiones en 100 en que se rechazara la
hiptesis cuando debera ser aceptada, es decir, se est con un 95 % de confianza de que se toma la decisin
adecuada. En tal caso se dice que la hiptesis ha sido rechazada al nivel de significacin del 0.05, lo que
significa que se puede cometer error con una probabilidad de 0.05.
Ensayos referentes a la distribucin normal

Para aclarar las ideas anteriores, supngase que con una hiptesis dada, la distribucin muestral de un
estadstico S es una distribucin normal con media s Y desviacin tpica uso Entonces la distribucin de la
variable tipificada (representada por z) dada por z = (S s) /ss, es una normal tipificada (media 0, varianza 1)
y se muestra en la figura.
Como se indica en la figura, se puede estar con el 95 % de confianza de que, si la hiptesis es cierta,
el valor de z obtenido de una muestra real para el estadstico S se encontrar entre -1.96 y 1.96 (puesto que
el rea bajo la curva normal entre estos valores es 0.95).
Sin embargo, si al elegir una muestra al azar se encuentra que z para ese estadstico se halla fuera del rango
-1.96 a 1.96, lo que quiere decir que es un suceso con probabilidad de solamente 0.05 (rea sombreada de la
figura) si la hiptesis fuese verdadera. Entonces puede decirse que esta z difiere significativamente de la que
caba esperar bajo esta hiptesis y se estara inclinado a rechazar la hiptesis.
El rea total sombreada 0.05 es el nivel de significacin del ensayo. Representa la probabilidad de cometer
error al rechazar la hiptesis es decir, la probabilidad de cometer error del Tipo I. As, pues, se dice que la
hiptesis se rechaza al nivel de significacin del 0.05 o que la z obtenida del estadstico muestral dado
es significativa al nivel de significacin del 0.05.
El conjunto de las z que se encuentran fuera del rango -1.96 a 1.96 constituyen lo que se llama regin
crtica o regin de rechace de la hiptesis o regin de significacin. El conjunto de las z que se encuentran
dentro del rango -1,96 a 1,96 poda entonces llamarse regin de aceptacin de la hiptesis o regin de no
significacin.
De acuerdo con lo dicho hasta ahora; se puede formular la siguiente regla de decisin o ensayo de hiptesis o
significacin.

(a) Se rechaza la hiptesis al nivel de significacin del 0.05 si la z obtenida para el estadstico S se encuentra
fuera del rango -1.96 a 1.96 (es decir, z > 1,96 o z < -1,96). Esto equivale a decir que el estadstico muestral
observado es significativo al nivel del 0,05.
(b) Se acepta la hiptesis (o si se desea no se toma decisin alguna) en caso contrario.
A causa de su importante papel en los ensayos de hiptesis y significacin, z recibe tambin el nombre
de ensayo estadstico.

Debe ponerse de manifiesto que pueden igualmente emplearse otros niveles de significacin. Por ejemplo, si
se utilizase el nivel del 0.01 se sustituira 1.96 en todo lo visto anteriormente por 2.58 (vase Tabla).
Ensayos de una y dos colas
En el ensayo anterior se atenda a los valores extremos del estadstico S o su correspondiente z a ambos
lados de la media, es decir, en las dos colas de la distribucin. Por esta razn, tales ensayos se
llaman ensayos de dos colas o ensayos bilaterales.
Sin embargo, con frecuencia, se puede estar solamente interesado en los valores extremos a un solo lado de
la media, es decir, en una cola de la distribucin, como, por ejemplo, cuando se estn ensayando la
hiptesis de que un proceso es mejor que otro (que es diferente a ensayar si un proceso es mejor o peor que
otro). Tales ensayos se llaman ensayos de una cola o ensayos unilaterales. En tales casos, la regin crtica es
una regin a un lado de la distribucin, con rea igual al nivel de significacin.
La Tabla anterior, que da los valores crticos de z para ensayos de una y dos colas a distintos niveles de
significacin, ser de utilidad para propsitos de referencia. Valores crticos de z para otros niveles de
significacin, se pueden encontrar utilizando la tabla que da las reas bajo la curva normal.
Ensayos especiales
Para muestras grandes, las distribuciones muestrales de muchos estadsticos son distribuciones normales (o
al menos casi normales) con media s y desviacin tpica ss. En tales casos, se pueden utilizar los resultados
anteriores para formular reglas de decisin o ensayos de hiptesis y significacin. Los siguientes casos
especiales, son solamente unos pocos de los estadsticos de inters prctico. En cada caso, los resultados
son para poblaciones infinitas o para muestreo con reemplazo. Para muestreo sin reemplazo de poblaciones
finitas los resultados debern modificarse.
l. Medias. Aqu S = x, la media muestral; s = x = , media poblacional; ss = sx = s/vN, donde es la
desviacin tpica poblacional y N es el tamao de la muestra. El valor de z viene dado por

Donde se utiliza la desviacin muestral s o S para estimar s.


2. Proporciones. Aqu S = P, la proporcin de xitos en una muestra; s = p = p, donde p es la
proporcin de xitos en la poblacin y N es el tamao de la muestra; ss = sp = vpq/N, donde q = 1 - p. El valor
de z viene dado por

En el caso de que P = X/N, donde X es el nmero real de xitos en una muestra, z se convierte en

Anlogamente pueden obtenerse los resultados para otros estadsticos.


Curvas caractersticas de operacin. Potencia de un ensayo
Se ha visto cmo el error del Tipo I puede limitarse eligiendo adecuadamente un nivel de significacin. Es
posible evitar el riesgo de error del Tipo II totalmente, simplemente no aceptando nunca la hiptesis. Sin
embargo, en muchos casos prcticos esto no puede hacerse. En tales casos, se utilizan a menudo curvas
caractersticas de la operacin o curvas OC, que son grficos que muestran las probabilidades de errores del
Tipo II bajo diferentes hiptesis. Estos suministran informacin de cmo en ensayos dados se logra minimizar
los errores del Tipo II, es decir, indican la potencia de un ensayo para evitar el tomar decisiones equivocadas.
Son tiles en diseo de experimentos por mostrar, por ejemplo, qu tamaos de muestras deben emplearse.
GRAFICOS DE CONTROL
Es a menudo en la prctica importante conocer cundo un proceso ha cambiado suficientemente, de modo
que puedan darse los pasos necesarios para remediar la situacin. Tales problemas aparecen, por ejemplo,
en el control de calidad, donde uno debe, a veces rpidamente, decidir si los cambios observados se deben
simplemente a fluctuaciones aleatorias o a cambios reales en el proceso de fabricacin a causa de deterioro
en las mquinas, errores de los empleados, etc. Los grficos de control suministran un mtodo til y sencillo
para tratar tales problemas.
Ensayos de significacin en relacin con diferencias muestrales
1. Diferencias de medias
Sean X 1 Y X 2 las medias muestrales obtenidas en dos muestras grandes de tamao N 1 Y N 2 extradas de
poblaciones respectivas que tienen de media 1 y 2 Y desviaciones tpicas s1 Y s2. Considrese la hiptesis
nula de que no hay diferencia entre las medias poblacionales, es decir, 1 = 2 o que las muestras son
extradas de dos poblaciones que tienen la misma media.
Haciendo 1 = 2 se ve que la distribucin muestral de la diferencia de medias se distribuye aproximadamente
como una normal con media y desviacin tpica dadas por

donde se puede, si es necesario, utilizar las desviaciones tpicas muestrales S1 y S2 como estimas de s1 y
s2.
Con la variable tipificada z que viene dada por

se puede ensayar la hiptesis nula contra la hiptesis alternativa (o la significacin de una diferencia
observada) a un nivel de significacin apropiado.
2. Diferencias de proporciones
Sean P1 y P2 las proporciones muestrales de dos grandes muestras de tamaos N1 y N2 extradas de
poblaciones respectivas que tienen proporciones P1 y P2. Considrese la hiptesis nula de que no hay
diferencia entre los parmetros poblacionales, es decir, P1 = P2, Y as las muestras son realmente ex- tradas
de la misma poblacin.
Haciendo P1 = P2 = P, se ve que la distribucin muestral de la diferencia de proporciones se distribuye
aproximadamente como una normal con media y desviacin tpica dadas por

donde

se utiliza como una estima de la proporcin poblacional, y q = 1 - p.


Con la variable tipificada z dada por

se puede ensayar las diferencias observadas a un nivel de significacin apropiado y de este modo ensayar la
hiptesis nula.
Ensayos referentes a otros estadsticos pueden disearse anlogamente.
Ensayos referentes a la distribucin binomial
Ensayos que envuelven a la distribucin binomial as como otras distribuciones, pueden disear- se de una
manera anloga a los utilizados para la distribucin normal, los principios bsicos son esencialmente los
mismos.

Ejercicios resueltos de prueba de hiptesis


1) Una empresa est interesada en lanzar un nuevo producto al mercado. Tras realizar una campaa
publicitaria, se toma la muestra de 1 000 habitantes, de los cuales, 25 no conocan el producto. A un nivel de
significacin del 1% apoya el estudio las siguientes hiptesis?
a. Ms del 3% de la poblacin no conoce el nuevo producto.
b. Menos del 2% de la poblacin no conoce el nuevo producto
Datos:
n = 1000
x = 25

Donde:
x = ocurrencias
n = observaciones
= proporcin de la muestra
= proporcin propuesta
Solucin:
a)

a = 0,01

H0 es aceptada, ya que zprueba (-0,93) es menor que ztabla (2,326), por lo que no es cierto que ms del 3%
de la poblacin no conoce el nuevo producto.
En Excel

b)

a = 0,01

H0 es rechazada, ya que zprueba (1,13) es menor que ztabla (2,326), por lo que es cierto que menos del 2%
de la poblacin no conoce el nuevo producto.
2) Cuando las ventas medias, por establecimiento autorizado, de una marca de relojes caen por debajo de las
170,000 unidades mensuales, se considera razn suficiente para lanzar una campaa publicitaria que active
las ventas de esta marca. Para conocer la evolucin de las ventas, el departamento de marketing realiza
una encuesta a 51 establecimientos autorizados, seleccionados aleatoriamente, que facilitan la cifra de ventas

del ltimo mes en relojes de esta marca. A partir de estas cifras se obtienen los siguientes resultados: media =
169.411,8 unidades., desviacin estndar = 32.827,5 unidades. Suponiendo que las ventas mensuales por
establecimiento se distribuyen normalmente; con un nivel de significacin del 5 % y en vista a la situacin
reflejada en los datos. Se considerar oportuno lanzar una nueva campaa publicitaria?
Datos:
n = 51

Solucin:
H0: ( = 170000
H1: ( < 170000
a = 0,05

Se rechaza Ho, porque zprueba (-0,12) es menor que ztabla (1,645), por lo tanto se acepta H1: ( < 170000, y
se debe considerar oportuno lanzar una nueva campaa publicitaria.
En Excel

3) Un gerente de ventas de libros universitarios afirma que en promedio sus representantes de ventas realiza
40 visitas a profesores por semana. Varios de estos representantes piensan que realizan un nmero de visitas
promedio superior a 40. Una muestra tomada al azar durante 8 semanas revel un promedio de 42 visitas
semanales y una desviacin estndar de 2 visitas. Utilice un nivel de confianza del 99% para aclarar esta
cuestin.
Datos:

( = 40
n=8
Nivel de confianza del 99%
Nivel de significacin = (100%-99%)/2 = 0,5% = 0,005

Solucin:
H0: ( = 40
H1: ( > 40
Grados de libertad: n-1 = 8-1 =7
a = 0,005

H0 es aceptada, ya que tprueba (2,83) es menor que ttabla (3,499), por lo que no es acertado pensar que
estn realizando un nmero de visitas promedio superior a 40.
En Excel

4) Un investigador de mercados y hbitos de comportamiento afirma que el tiempo que los nios de tres a
cinco aos dedican a ver la televisin cada semana se distribuye normalmente con una media de 22 horas y
desviacin estndar 6 horas. Frente a este estudio, una empresa de investigacin de mercados cree que la
media es mayor y para probar su hiptesis toma una muestra de 64 observaciones procedentes de la misma
poblacin, obteniendo como resultado una media de 25. Si se utiliza un nivel de significacin del 5%. Verifique
si la afirmacin del investigador es realmente cierta.
Datos:

n = 64
a = 5% = 0,05

Solucin:
H0: ( = 22
H1: ( > 22
a = 0,05

Se rechaza Ho, porque zprueba (4) es mayor que ztabla (1,645), por lo tanto el tiempo que los nios de tres a
cinco aos dedican a ver la televisin es mayor de 22 horas, lo que implica que la
empresa de investigacin de mercados tiene la razn.
En Excel