You are on page 1of 21

Curso

Estadstica Aplicada

Contenido

Intervalo de Confianza
Prueba de Hiptesis
Lic. Jessica Oliva Gastulo

INTRODUCCIN A LA INFERENCIA ESTADSTICA


La palabra inferir significa extraer consecuencias, o deducir un conocimiento a partir de otro. La
Inferencia Estadstica es la parte de la estadstica que se encarga de deducir caractersticas de la
poblacin a partir de los resultados obtenidos en muestras de esta poblacin. Las decisiones se basan
en la informacin contenida en muestras extradas de ella.
En muchas circunstancias hay que tomar decisiones basndose slo en la informacin contenida en
una muestra: Un gerente de Control de Calidad debe determinar si un proceso funciona
correctamente. Para ello, cada cierto tiempo, analiza la calidad de una pequea cantidad de productos
fabricados por este proceso. Con esta informacin debe decidir si contina fabricando nuevas piezas,
o si debe realizar algn ajuste o reparacin de la maquinaria de la fbrica antes de continuar el proceso
de fabricacin. Un gerente de Marketing debe determinar si una nueva estrategia de mercado
aumentar las ventas. Para ello se basar fundamentalmente en encuestas realizadas a unos cuantos
clientes potenciales, etc. Para adoptar estas decisiones se toma toda la informacin posible de la
muestra seleccionada y se estudia, en trminos de probabilidad, el grado de fiabilidad de las
decisiones adoptadas. Podemos distinguir de modo general dos grandes mtodos dentro de la
Inferencia Estadstica:
Mtodos Paramtricos.- Se supone que los datos provienen de una familia de distribuciones
conocida (Normal, Poisson,. . .) y que lo nico que se desconoce es el valor concreto de alguno de
los parmetros que la definen ( y para la Normal, para la Poisson,. . .).
Se pueden hacer inferencias acerca de los parmetros poblacionales de dos maneras. Dando valores
aproximados para los parmetros (Estimacin) o tomando decisiones con respecto a ellos (Contrastes
de Hiptesis).
Mtodos No Paramtricos.- No suponen conocida la distribucin, y solamente suponen hiptesis
muy generales respecto a las mismas. Estos mtodos se aplican en los tests de bondad de ajuste,
que prueban la adecuacin de los datos a ciertos modelos de distribuciones tericas, los test de
independencia, etc.
Evidentemente, las conclusiones que obtengamos y que generalizaremos para toda la poblacin
dependern de los valores concretos que se hayan observado en la muestra. Muchas personas
manifiestan su desconfianza y su recelo sobre las conclusiones obtenidas con mtodos estadsticos,
debido, entre otras causas, a que estas conclusiones dependen de la muestra extrada, y que las
muestras presentan fluctuaciones aleatorias. Sin embargo, en la vida cotidiana, nuestras opiniones y
nuestros comportamientos se basan en generalizaciones que hacemos a partir de muestras. As, es
muy frecuente que manifestemos que los productos de una determinada marca son mejores que los
de la competencia. Dicha afirmacin no la hacemos, evidentemente, tras un anlisis exhaustivo de
todos los productos de una y otra marca, sino basndonos en nuestra propia experiencia personal,
que es claramente muy limitada. Es decir, generalizamos a partir de observaciones realizadas en
muestras pequeas.

TIPOS DE ESTIMACIN
Cuando se desean estimar los parmetros de la poblacin a partir de los de la muestra se consideran
dos formas de realizar dicha estimacin.
Estimacin puntual.- En la estimacin puntual damos un solo punto como valor estimado del
parmetro. Por ejemplo, si queremos estimar la altura media, , de los varones espaoles de 20 aos,
obtendremos una muestra aleatoria de cierto tamao de esta poblacin, hallaremos la altura media
de las personas seleccionadas en esta muestra y diremos que este valor, el de la media muestral, es
una estimacin puntual de la altura media de la poblacin de varones de 20 aos.
Estimacin por intervalos.- En realidad, cuando realizamos una estimacin puntual, nos damos
cuenta que es muy difcil que sta estimacin sea realmente el verdadero valor del parmetro
desconocido. Tendremos ms oportunidades de acertar si indicamos que el parmetro desconocido
pertenece a un cierto intervalo. En el ejemplo de la altura media de los varones de 20 aos, si la media
muestral resultara 1.75 m., podramos decidir manifestar que la media verdadera pertenece al intervalo
(1.75 0.05, 1.75 + 0.05). El intervalo en el que se afirma que se encuentra el parmetro poblacional
se denomina intervalo de confianza. Tampoco en este caso podemos estar seguros de que el valor
real pertenezca a dicho intervalo. Por este motivo suele decirse que el valor real del parmetro
pertenece a dicho intervalo con un cierto grado de confianza. La cuantificacin de la confianza que
se tiene en que el parmetro desconocido est verdaderamente en el intervalo dado se denomina
grado de confianza y es una medida relacionada con la funcin de distribucin de probabilidad del
parmetro en estudio.
Estadsticos y Estimadores
Un estadstico es una funcin de los elementos de la muestra. Si tenemos una poblacin en la que
estamos observando una caracterstica que se distribuye segn una variable aleatoria X, y
consideramos una muestra aleatoria simple de tamao n x1, x2, . . . , xn podemos calcular el siguiente
estadstico

x:

x1 x2 ... xn
n

Evidentemente, el valor del estadstico depender de los valores que hayan tomado los elementos de
la muestra. Si repetimos el experimento de tomar una muestra y calculamos de nuevo el valor del
mismo estadstico, obtendremos, por lo general, otro valor distinto. Tenemos por tanto que el
estadstico es una variable aleatoria. La distribucin que seguir dicha variable aleatoria depender
de la distribucin de la variable X. En determinados casos podremos calcular la distribucin del
estadstico.
Un estimador de un parmetro poblacional es un estadstico que se utiliza para obtener un valor
aproximado de ese determinado parmetro de la poblacin. Por ejemplo, la media muestral es el
estadstico que suele usarse ms frecuentemente para estimar la media poblacional. Entonces, la
media muestral es un estimador de la media poblacional. La mediana y la moda son tambin
estimadores de la media poblacional. Para indicar que T es un estimador del parmetro poblacional

se indicar T =

El valor que toma este estimador en la muestra concreta que estamos considerando es una estimacin
del parmetro desconocido.
Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona
informacin sobre el valor del parmetro. Por ejemplo la media muestral es un estimador de la media
poblacional, la proporcin observada en la muestra es un estimador de la proporcin en la poblacin.
Una estimacin es puntual cuando se obtiene un slo valor para el parmetro. Los estimadores ms
probables en este caso son los estadsticos obtenidos en la muestra, aunque es necesario cuantificar
el riesgo que se asume al considerarlos. Recordemos que la distribucin muestral indica la
distribucin de los valores que tomar el estimador al seleccionar distintas muestras de la poblacin.
Las dos medidas fundamentales de esta distribucin son la media que indica el valor promedio del
estimador y la desviacin tpica, tambin denominada error tpico de estimacin, que indica la
desviacin promedio que podemos esperar entre el estimador y el valor del parmetro.
Ms til es la estimacin por intervalos en la que calculamos dos valores entre los que se encontrar
el parmetro, con un nivel de confianza fijado de antemano.
Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al
parmetro que se est estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del
parmetro. Se indica por 1- habitualmente se da en porcentaje (1-)100%. Hablamos de nivel de
confianza y no de probabilidad ya que una vez extrada la muestra, el intervalo de confianza contendr
al verdadero valor del parmetro o no, lo que sabemos es que si repitisemos el proceso con muchas
muestras podramos afirmar que el (1-)% de los intervalos as construidos contendra al verdadero
valor del parmetro. Por lo general los niveles de confianza ms utilizados son: 99, 95 y 90%, a estos
se les denominan coeficientes de confianza: es el nivel de confianza que se tiene en el que el
intervalo contenga el valor desconocido del parmetro; estos son simplemente convencionales.
Un intervalo de confianza tiene un lmite inferior de confianza (LIC) y un lmite superior de confianza

X . Luego se suma una


cierta cantidad a X para obtener el LSC y la misma cantidad se resta a X para obtener el LIC,
(LSC). Esos limites se encuentran calculando primero la media muestral,

estos valores que se suman y restan a la media muestral se les denominan errores de estimacin.
ESTIMACIN POR INTERVALOS DE CONFIANZA
Lo dicho hasta ahora se refiere a una estimacin puntual, es decir, estimar un parmetro a travs de
un nico valor. Esta estimacin no es muy conveniente pues con ella no se puede determinar el error
de muestreo, ni la precisin de la estimacin, ni la confianza que merece tal estimacin. Existen otros
mtodos para estimar parmetros poblacionales que son mucho ms precisos. Por ejemplo:
* Mtodo de los mnimos cuadrados.
* Mtodo de los momentos.
* Mtodo de la mxima verosimilitud se basa en el principio de que generalmente ocurre lo ms
probable.
* Mtodo de estimacin por intervalos de confianza, este ser el que desarrollaremos en este
curso.

El procedimiento de determinar un intervalo (a, b) que comprenda un parmetro de poblacin con


cierta probabilidad 1-, se llama estimacin por intervalos. Se vern los casos paramtricos, es decir,
aquellos en los que se tiene conocimiento del tipo de distribucin de la poblacin (Binomial, Normal,
etc.).
DISTRIBUCIN DE MUESTREO DE MEDIAS
Es una distribucin probabilstica que consta de una lista de todas las medias muestrales posibles de
un tamao dado de una poblacin y la probabilidad de ocurrencia asociada con cada media muestral.
Si tomamos varias muestras de una poblacin con el objetivo de obtener la media poblacional,
observaramos que cada una de ellas posiblemente nos da diferentes valores de dicha media. Si se
organizaran las medias de todas las muestras posibles de un tamao especfico tomadas de una
poblacin se obtendra lo que se conoce como una distribucin muestral de medias.
Para muestras de tamao N, sin reposicin, de una poblacin finita de tamao Np>N tenemos,

NP N
NP 1

Si la poblacin es infinita o si el muestreo es con reposicin, los resultados anteriores se reducen a:

Para valores grandes de N (N30), la distribucin de muestreo de medias, es aproximadamente


normal con media

y desviacin tpica

, independientemente de la poblacin (en tanto en

cuanto la media poblacional y la varianza sean finitas y el tamao de la poblacin sea al menos doble
que el de la muestra). Este resultado para una poblacin infinita es un caso especial del teorema del
lmite central de teora avanzada de probabilidades, que afirma que la precisin de la aproximacin
mejora al crecer N. Esto se indica en ocasiones diciendo que la distribucin de muestreo es
asintticamente normal.
Debemos anotar que las caractersticas de la poblacin sern las mismas que tendrn las diferentes
muestras de la misma:
Si la poblacin no tiene distribucin normal, la distribucin muestral de medias de cualquier manera
tender a aproximarse a la forma normal.
La dispersin en la distribucin de las medias muestrales es siempre menor que la dispersin de la
poblacin y ser mucho ms pequea mientras ms grande sea el tamao de la muestra.

INTERVALO DE CONFIANZA PARA LA MEDIA


PRIMER CASO: Varianza 2 supuesta conocida y no se conoce el tamao de la poblacin N:
Si x es el valor de la media para una muestra aleatoria de tamao n escogida de una poblacin con
varianza 2 supuesta conocida, el intervalo de confianza del (1 - ) x100% para es:

[ x z1 / 2

x z1 / 2

= media poblacional

x = media muestral
= desviacin estndar poblacional
s = desviacin estndar muestral
2 = varianza poblacional
s2 = varianza muestral
N = tamao de la poblacin
n = tamao de la muestra

Error estndar de la muestra (E.S):

Error mximo de estimacin de :

e z1 / 2

Tamao de muestra para estimar ,

x como una estimacin de , se tiene una confianza del (1 - ) x100% de que el error
( z1 / 2 ) 2
no ser mayor que el valor dado e se tiene un tamao de muestra de: n
e2
Si se utiliza

NOTA: Cuando menor sea el error de la estimacin mayor es el tamao de la muestra requerida.

SEGUNDO CASO:
Varianza 2 supuesta conocida, se conoce el tamao de la poblacin N y n 30:
Si x es el valor de la media para una muestra aleatoria de tamao n escogida de una poblacin con
varianza 2 supuesta conocida, e intervalo de confianza del (1 - ) x100% para es:

[ x z1 / 2

N n

x z1 / 2
N 1
n

Error estndar de la muestra (E.S):

N n
N 1

Error mximo de estimacin de : e z1 / 2

N n
]
N 1

N n
N 1

Tamao de muestra para estimar :


Si se utiliza x como una estimacin de , y se conoce N y se tiene una confianza del (1 - ) x100%
de que el error no ser mayor que el valor dado e se tiene un tamao de muestra de:

z 2 1 / 2 2 N
z 2 1 / 2 2 e 2 ( N 1)

TERCER CASO: Varianza 2 supuesta desconocida y n 30:


Cuando no se conoce la desviacin estndar de la poblacin (), se utiliza la desviacin estndar de
la muestra (s) como su estimador. = s

[ x z1 / 2

s
s
x z1 / 2
]
n
n

CUARTO CASO: Varianza 2 supuesta desconocida, n 30 y se conoce N:

[ x z1 / 2

s
n

N n
s
x z1 / 2
N 1
n

N n
]
N 1

QUINTO CASO: Varianza 2 supuesta desconocida, n < 30:


Si x y s son la media y la desviacin estndar respectivamente para una muestra aleatoria n < 30
escogida de una poblacin normal con varianza 2 supuesta desconocida, entonces el intervalo de
confianza de (1 - ) x100% para es:

[ x t1 / 2, n 1
El valor

s
s
x t1 / 2, n 1
]
n
n

t1 / 2,n1 se encuentra en la tabla t-student con n-1 grados de libertad

INTERVALO DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS MEDIAS


PRIMER CASO: Varianzas 12 y 22 supuestamente conocidas:
Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamao n 1 y n2
escogidas aleatoriamente con varianzas 12 y 22 supuestamente conocidas, entonces el intervalo de
confianza de (1 - ) x100% de 1 - 2 es:

[( x1 x 2 ) z1 / 2

12
n1

22
n2

1 2 ( x1 x 2 ) z1 / 2

12
n1

22
n2

SEGUNDO CASO: Varianzas 12 y 22 supuestamente desconocidas:


Varianzas supuestas iguales 12 = 22 = 2
Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamao n1 y n2
escogidas aleatoriamente con varianzas 12 y 22 supuestamente desconocidas e iguales, entonces
el intervalo de confianza de (1 - ) x100% de 1 - 2 es:
2

[( x1 x 2 ) t(1 / 2;n1 n2 2)

sc
s
c 1 2 ( x1 x 2 ) t(1 / 2;n1 n2 2)
n1
n2

sc
s
c ]
n1
n2

Donde Sc2 es la varianza comn definida por:

(n1 1) S12 (n2 1) S 22


S
n1 n2 2
2
c

Varianzas supuestas distintas 12 22


Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamao n 1 y n2
escogidas aleatoriamente con varianzas 12 y 22 supuestamente desconocidas y diferentes, entonces
el intervalo de confianza de (1 - ) x100% de 1 - 2 es:
2

[( x1 x 2 ) t(1 / 2;r )

s1
s
2 1 2 ( x1 x 2 ) t(1 / 2;r )
n1
n2

s1
s
2 ]
n1
n2

Donde r son los grados de libertad de la distribucin t student, siendo:


2

S12 S 22

n
n2
r 12
2
S12
S 22


n1 n2
n1 1 n2 1

Dado que r rara vez es un entero, se redondea al entero ms cercano.

DISTRIBUCIN DEL MUESTREO DE PROPORCIONES


Supongamos que una poblacin es infinita y que la probabilidad de ocurrencia de un suceso (su xito)
es p, mientras la probabilidad de que no ocurra es q = 1 p. Por ejemplo, la poblacin puede ser la
de todas las posibles tiradas de una moneda, en la que la probabilidad del suceso <<cara>> es p =
. Consideremos todas las posibles muestras de tamao N de tal poblacin, y para cada una de ellas
determinemos la proporcin de xitos P. En el caso de una moneda, P sera la proporcin de caras
en N tiradas. Obtenemos as una distribucin de muestreo de proporciones cuya media p y cuya
desviacin tpica p viene dada por:

p p

pq

p(1 p)
n

Para valores grandes de N (N30), la distribucin de muestreo est, muy aproximadamente,


normalmente distribuida, Ntese que la poblacin est binomialmente distribuida. Las ecuaciones
anteriores son vlidas tambin para una poblacin en la que se hace muestreo con reposicin. Para
poblaciones finitas en que se haga muestreo sin reposicin, dichas ecuaciones quedan sustituidas por
=py=

pq .

INTERVALO DE CONFIANZA PARA UNA PROPORCION


El estimador puntual de p es la estadstica proporcin de xitos en la muestra definida por:

x
;
n

Donde x es el nmero de xitos en la muestra.

PRIMER CASO: Si p es la proporcin de xitos en una muestra aleatoria de tamao n, entonces, el


intervalo de confianza (1 - ) x100% para p es:

[ p z1 / 2

p(1 p)
p p z1 / 2
n

Error estndar de p (E.S):

p(1 p)
]
n

p(1 p)
n

Error mximo de estimacin de p: e z1 / 2

p(1 p)
n

( z1 / 2 ) 2 p(1 p)
Tamao de muestra para estimar p: n
e2
SEGUNDO CASO: Si p es la proporcin de xitos en una muestra aleatoria de tamao n, y se conoce
el tamao de la poblacin N , entonces, el intervalo de confianza es:

[ p z1 / 2

p(1 p) N n
.
p p z1 / 2
n
N 1

Error estndar de p (E.S):

p(1 p)
n

Tamao de muestra para estimar p:

N n
N 1

p(1 p)
n

N n
]
N 1

Si se utiliza p como una estimacin de P, y se conoce N y se tiene una confianza del (1 - ) x100%
de que el error no ser mayor que el valor dado e se tiene un tamao de muestra de:

z 21 / 2 p(1 p) N
z 21 / 2 p(1 p) e 2 ( N 1)

INTERVALO DE
PROPORCIONES

CONFIANZA

Si no se tiene el dato p, se puede utilizar el valor p = 0.5

PARA

LA

DIFERENCIA

ENTRE

DOS

Si p1 y p2 son las proporciones de xitos en dos muestras aleatorias independientes n 1 y n2


respectivamente, entonces, el intervalo de confianza del (1 - ) x100% del parmetro p1 - p2 es

[( p1 p 2 ) z1 / 2 P1P2 p1 p2 ( p1 p 2 ) z1 / 2 P1P2 ]
Error estndar de la estadstica (p1 p2) (E.S):

P P
1

p 1 (1 p 1 ) p 2 (1 p 2 )

n1
n2

CONCEPTOS BSICOS

Estimacin: valor especfico de un estimador, calculado en base a una muestra dada.

Estimacin puntual: un solo nmero que se utiliza para estimar un parmetro de poblacin
desconocido.

Estimacin de intervalo: intervalo de valores utilizado para estimar un parmetro de poblacin


desconocido.

Estimacin de parmetros: Aproximacin del valor de parmetros poblacionales desconocidos


mediante el empleo de estadsticos muestrales.

Estimador: estadstico de muestra utilizada para estimar un parmetro de poblacin.


Conceptualmente es una variable aleatoria.

Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya
el valor real del parmetro de la poblacin.

Lmites de confianza: lmites inferior y superior de un intervalo de confianza.

Nivel de confianza: probabilidad que los estadsticos asocian con una estimacin de intervalo de
un parmetro de poblacin, sta indica qu tan seguros estn de que la estimacin de intervalo
incluir el parmetro de la poblacin. Probabilidad, designada de antemano, de que un intervalo
de confianza incluya al valor del parmetro desconocido.

PRUEBA DE HIPTESIS
INTRODUCCIN
Un Contraste o Test de Hiptesis es una tcnica de Inferencia Estadstica que permite comprobar
si la informacin que proporciona una muestra observada concuerda (o no) con la hiptesis estadstica
formulada sobre el modelo de probabilidad en estudio y, por tanto, se puede aceptar (o no) la hiptesis
formulada. Llamaremos hiptesis estadstica a una afirmacin respecto a una caracterstica de una
poblacin. Contrastar una hiptesis es comparar las predicciones que se deducen de ella con la
realidad que observamos: si hay coincidencia, dentro del margen de error admisible, mantendremos
la hiptesis; en caso contrario, la rechazaremos. La hiptesis estadstica puede ser:
Paramtrica: es una afirmacin sobre los valores de los parmetros poblacionales desconocidos. Las
hiptesis paramtricas se clasifican en:
Simple: si la hiptesis asigna valores nicos a los parmetros
Compuesta: si la hiptesis asigna un rango de valores a los parmetros poblacionales desconocidos
No Paramtrica: es una afirmacin sobre alguna caracterstica estadstica de la poblacin en estudio.
Por ejemplo, las observaciones son independientes, la distribucin de la variable en estudio es normal,
la distribucin es simtrica.
La hiptesis que se contrasta se denomina hiptesis nula y, normalmente, se denota por H0. Si se
rechaza la hiptesis nula es porque se asume como correcta una hiptesis complementaria que se
denomina hiptesis alternativa y se denota por H1 o Ha.
Rechazar una hiptesis implica sustituirla por otra capaz de explicar los datos observados.

Es interesante tener en cuenta que la veracidad de una hiptesis no puede ser probada nunca
Lo que se puede hacer es afirmar que tiene tal o cual probabilidad de ser falsa
Si esa probabilidad es muy alta (95% o 99%) por ejemplo, se concluye que la hiptesis es poco creble
y se califica provisoriamente como falsa. Si no se consigue "falsar" (rechazar) la hiptesis, se acepta
provisionalmente como verdadera. Esta calidad de provisorias de las conclusiones estadsticas no
debera sorprender a nadie: toda la ciencia es un constructo provisorio. La verificacin de hiptesis es
el proceso que lleva a juzgar la credibilidad de afirmaciones (hiptesis) relativas a las poblaciones
(habitualmente a sus parmetros) de las que fueron extradas las muestras.
Ejemplificando
La Hiptesis nula puede ser: un parmetro que tiene un valor k y la Hiptesis alternativa ser su
negacin. Es decir:
Ho: = k
H1: k

Si se toma una muestra y en ella se calcula un estadstico cuya distribucin en el muestreo en el


caso de que Ho sea verdadera se conoce, se puede determinar qu Probabilidad (P) hay de que si el
verdadero valor del parmetro es k se obtenga un valor observado del estadstico
ms) de k. Ver grafica siguiente:

, tan alejado (o

Si P es muy baja la probabilidad de que la muestra no


pertenezca a una poblacin con = k es muy alta, por lo
tanto se rechaza Ho. Consecuentemente se acepta H 1.

Una hiptesis es una afirmacin acerca de algo. En estadstica, puede ser una suposicin acerca del
valor de un parmetro desconocido. Una hiptesis estadstica es una afirmacin respecto a alguna
caracterstica de una poblacin. Contrastar una hiptesis es comparar las predicciones con la
realidad que observamos. Si dentro del margen de error que nos permitimos admitir, hay coincidencia,
aceptaremos la hiptesis y en caso contrario la rechazaremos.
La prueba de hiptesis comienza con una suposicin, llamada hiptesis, que hacemos con respecto
a un parmetro de poblacin. Despus recolectamos datos de muestra, producimos estadsticos de
muestra y usamos esta informacin para decidir qu tan probable es que sea correcto nuestro
parmetro de poblacin acerca del cual hicimos la hiptesis. Debemos establecer el valor supuesto o
hipotetizado del parmetro de poblacin antes de comenzar a tomar la muestra. La suposicin que
deseamos probar se conoce como hiptesis nula, y se simboliza H 0. Siempre que rechazamos la
hiptesis, la conclusin que s aceptamos se llama hiptesis alternativa y se simboliza H 1.

La hiptesis emitida se suele designar por H0 y se llama Hiptesis nula porque parte del supuesto
que la diferencia entre el valor verdadero del parmetro y su valor hipottico es debida al azar, es
decir no hay diferencia.

La hiptesis contraria se designa por H1 y se llama Hiptesis alternativa.

Los contrastes pueden ser unilaterales o bilaterales (tambin llamados de una o dos colas) segn
establezcamos las hiptesis, si las definimos en trminos de igual y distinto estamos ante una hiptesis
unilateral, si suponemos una direccin (en trminos de mayor o menor) estamos ante uno bilateral.
PASOS A SEGUIR EN UNA PRUEBA DE HIPTESIS:
Se trata, de extraer conclusiones a partir de una muestra aleatoria y significativa, que permitan
aceptar o rechazar una hiptesis previamente emitida, sobre el valor de un parmetro desconocido
de la poblacin. El mtodo que seguiremos es el siguiente:
1. Definir la hiptesis nula: suponer una hiptesis acerca de una poblacin. Se determina si es una
prueba de una o dos cola.
2. Formular una hiptesis alternativa: es una contra-hiptesis.
3. Elegir un nivel de significacin y construir la zona de aceptacin, intervalo fuera del cual slo
se encuentran el 100% de los casos ms raros. A la zona de rechazo la llamaremos Regin
Crtica, y su rea es el nivel de significacin o aceptacin.
4. Verificar la hiptesis extrayendo una muestra cuyo tamao se ha decidido en el paso anterior y
obteniendo de ella el correspondiente estadstico. Decida que distribucin (t o z) es la ms
apropiada y encuentre los valores crticos adecuados para el nivel de significancia escogido de la
tabla adecuada.
5. Recabar datos de la muestra.
6. Calcule el error estndar del estadstico de la muestra y utilice el error estndar para
convertir el valor observado del estadstico de la muestra a un valor estandarizado.
Determine si el valor calculado en la muestra cae dentro de la zona de aceptacin de ser as se
acepta la hiptesis y si no se rechaza.
7. Utilice el estadstico de la muestra para evaluar la hiptesis.

HIPTESIS NULA Y ALTERNATIVA


Llamaremos hiptesis nula, y la representaremos por H0, a la hiptesis que se desea contrastar. La
hiptesis nula es en general un supuesto simple que permite hacer predicciones sin ambigedad. La
hiptesis alternativa (H1 o Ha) da una suposicin opuesta a aquella presentada en la hiptesis nula. El
experimento se lleva a cabo para conocer si la hiptesis alternativa puede ser sustentada.
La hiptesis H0 nunca se considera probada, aunque puede ser rechazada por los datos. Por ejemplo,
la hiptesis de que todos los elementos de una poblacin tienen el mismo valor de una variable puede
ser rechazada encontrando un elemento que no lo contenga, pero no puede ser demostrada ms
que estudiando todos los elementos de la poblacin, tarea que puede ser imposible. De igual manera,
la hiptesis de que la media de una poblacin es diez puede ser rechazada fcilmente si la media
verdadera est muy lejos de diez analizando una muestra suficientemente grande. Sin embargo, no

puede ser demostrada mediante muestreo, ya que es posible que la media difiera de diez en un valor
pequeo imperceptible en el muestreo). Por esta razn no afirmamos que aceptamos H0, sino que no
podemos rechazarla.
Los tests ( o pruebas) asociados con las hiptesis pueden ser uni o bi laterales, segn las hiptesis
planteadas

Ho : = k

Ho : k

Ho : k

H1 : k

H1 : < k

H1 : > k

ESTADSTICO DE LA PRUEBA
Los datos se deben sintetizar en un estadstico de la prueba. Dicho estadstico se calcula para ver si
es razonablemente compatible con la hiptesis nula. En las pruebas de hiptesis es necesario trazar
una lnea entre los valores del estadstico de la prueba que son relativamente probables dada la
hiptesis nula y los valores que no lo son. En qu valor del estadstico de la prueba comenzamos a
decir que los datos apoyan a la hiptesis alternativa? Para contestar a esta pregunta se requiere
conocer la distribucin muestral del estadstico de la prueba. Los valores del estadstico de la prueba
que son sumamente improbables bajo la hiptesis nula (tal como los determina la distribucin
muestral) forman una regin de rechazo para la prueba estadstica.
INTERPRETACIN DEL NIVEL DE SIGNIFICANCIA.
El propsito de la prueba de hiptesis no es cuestionar el valor calculado del estadstico de la muestra,
sino hacer un juicio respecto a la diferencia entre ese estadstico de muestra y un parmetro de
poblacin hipotetizado. El siguiente paso despus de establecer la hiptesis nula y alternativa consiste
en decidir qu criterio utilizar para decidir si aceptar o rechazar la hiptesis nula. Si suponemos que
la hiptesis es correcta, entonces el nivel de significancia indicar el porcentaje de medias de muestra
que est fuera de ciertos lmites. Siempre que afirmemos que aceptamos la hiptesis nula, en realidad
lo que queremos decir es que no hay suficiente evidencia estadstica para rechazarla. El empleo
del trmino aceptar, en lugar de rechazar, se ha vuelto de uso comn. Significa simplemente que
cuando los datos de la muestra n hacen que rechacemos una hiptesis nula, nos comportamos como
si fuera cierta.
SELECCIN DEL NIVEL DE SIGNIFICANCIA.
Nuestra eleccin del estndar mnimo para una probabilidad aceptable, o el nivel de significancia, es
tambin el riesgo que asumimos al rechazar una hiptesis nula cuando es cierta. Mientras ms alto
sea el nivel de significancia que utilizamos para probar una hiptesis, mayor ser la probabilidad de
rechazar una hiptesis nula cuando es cierta.

LOS VALORES MS COMUNES PARA NIVELES DE SIGNIFICACIN


Nivel de significacin ()

0.10

0.05

0.01

0.005

0.002

Nivel de confianza

90%

95%

99%

99.5%

99.8%

Valores crticos de z para una cola

1.2817

1.645

2.327

2.575

2.88

Valores crticos de z para dos colas

1.645

1.96

2.575

2.81

3.08

ERROR TIPO I Y TIPO II EN CONTRASTE DE HIPTESIS


Error tipo I: Llamado tambin nivel de significacin, denotado por , es la probabilidad de rechazar
la Ho cuando sta es cierta. Es la probabilidad de que le valor de la Estadstica caiga en la Regin de
Rechazo.
Error tipo II: Denotado por , es la probabilidad de aceptar la Ho cuando sta es falsa. Donde (1 - )
se conoce como la potencia de la prueba.
Minimizar los errores no es una cuestin sencilla, un tipo suele ser ms grave que otro y los intentos
de disminuir uno suelen producir el aumento del otro. La nica forma de disminuir ambos a la vez es
aumentar el tamao de la muestra.
Decisin
Aceptar Ho

Rechazar Ho

Ho Cierta

Ho Falsa

Decisin correcta

Error tipo II

(1 - )

()

Error tipo I

Decisin correcta

()

(1 - )

El rechazo de una hiptesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que
es tambin el nivel de significancia) se simboliza como .
El hecho de que P sea muy bajo no califica el acontecimiento
como imposible. Simplemente que tiene poca probabilidad de
ocurrir al azar. A la probabilidad de cometer error tipo I se la
denomina nivel de significacin . Habitualmente el
investigador fija a priori el nivel de significacin crtico para
rechazar Ho (). Si P es menor que , se rechaza. En caso
contrario, se acepta Ho.
El hecho de aceptar una hiptesis nula cuando es falsa se denomina error de tipo II, y su
probabilidad se simboliza como . La probabilidad de cometer un tipo de error puede reducirse
slo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el propsito de
obtener una baja, tendremos que tolerar una alta. Los responsables de la toma de decisiones
deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas con
ambos tipos de errores

Las hiptesis nula y alternativa son aseveraciones sobre la poblacin que compiten entre s. O la
hiptesis nula H0 es verdadera, o lo es la hiptesis alternativa H1, pero no ambas. En el caso
ideal, el procedimiento de prueba de hiptesis debe conducir a la aceptacin de H0 cuando sea
verdadera y al rechazo de H0 cuando H1 sea verdadera. Desafortunadamente no siempre son
posibles las conclusiones correctas. Como las pruebas de hiptesis se basan en informacin de
muestra, debemos considerar la posibilidad de errores.
Debe tenerse en cuenta que slo se puede cometer uno de los dos tipos de error y, en la mayora
de las situaciones, se desea controlar la probabilidad de cometer un error de tipo I. Fijar el nivel
de significacin equivale a decidir de antemano la probabilidad mxima que se est dispuesto a
asumir para rechazar la hiptesis nula cuando es cierta. El nivel de significacin lo elige el
experimentador y tiene por ello la ventaja de tomarlo tan pequeo como desee (normalmente se
toma = 0.10, 0.05 o 0.01)

TIPOS DE PRUEBAS
Prueba de cola derecha: Si la regin de rechazo est a la derecha del puntaje crtico
Prueba de cola izquierda: Si la regin de rechazo est a la izquierda del puntaje crtico
Prueba de dos colas o bilateral: Si la regin de aceptacin es un intervalo abierto entre dos puntajes
crticos.

OBSERVACIN IMPORTANTE
En ocasiones pueden surgir dudas en el planteamiento de cul debe ser la hiptesis
H0 y cul la hiptesis H1, en estos casos debemos tener presente las siguientes reglas:
Cuando el problema de manera expresa pide que se contraste una hiptesis con
determinado nivel de significacin, la hiptesis que contrastamos es la hiptesis H0.
Cuando el problema pide explcitamente que seamos nosotros quienes planteemos
las hiptesis, para decidir qu poner en H0 y qu en H1, se pueden tener en cuenta
las siguientes indicaciones:
En H1 siempre debemos colocar lo que realmente queremos investigar con seguridad,
pues el error , el que fijamos de antemano, se comete cuando optamos por H1 y nos
equivocamos.
En caso de duda, siempre elegir un contraste de hiptesis con dos colas.

PRUEBA DE HIPTESIS ACERCA DE LA MEDIA POBLACIONAL ()


El estadstico de prueba se basa en la media muestral x , por lo que tambin se supondr que la
poblacin est distribuida de manera normal o que se aplican las condiciones del teorema del lmite
central. Esto significa que la distribucin de
varianza 2/n.

x es aproximadamente normal con una media y una

Reglas de decisin (o regiones ptimas) para docimar


Ho: = o. Para un nivel de significancia
Tipos de prueba

Hiptesis alternante

Se rechaza Ho, si

Cola izquierda

Ha : < o

Zc < -Z1-

tc < -t1-,n-1

Cola derecha

Ha : > o

Zc > Z1-

tc > t1-,n-1

Dos colas

Ha : o

|Zc| > Z1-/2

|tc| > t1-/2,n-1

Estadsticas:

Zc

x 0
/ n

tc

x 0
s/ n

, n-1 grados de libertad

Se usa la Estadstica Z, si:


-

La muestra es grande, varianza poblacional conocida y poblacin normal o no.

La muestra es grande, varianza poblacional desconocida (s ) y poblacin normal o no.

La muestra es pequea, varianza poblacional conocida y poblacional normal.

Se usa la estadstica t, si:


-

La muestra es pequea

Varianza poblacional desconocida

Poblacional Normal

PRUEBA DE HIPTESIS ACERCA DE LA DIFERENCIA DE DOS MEDIAS


Se tienen dos poblaciones y se toman muestras aleatorias independientes de tamaos n1 y n2 , se
puede comparar el comportamiento de dichas poblaciones a travs de los promedios.
La estadstica de trabajo depende de las caractersticas de las poblaciones y del tamao de las
muestras.

Reglas de decisin (o regiones ptimas) para docimar


Ho: 1 - 2 = 0. Para un nivel de significancia
Tipos de prueba

Hiptesis alternante

Se rechaza Ho, si

t1 / 2; n1 n2 2

Cola izquierda

Ha : 1 - 2 < 0

Zc < -Z1-

Cola derecha

Ha : 1 - 2 > 0

Zc > Z1-

tc >

t1 / 2; n1 n2 2

Dos colas

Ha : 1 - 2 0

|Zc| > Z1-/2

|tc| >

t1 / 2; n1 n2 2

tc <

Estadsticas:
Varianzas conocidas, muestras grandes

x1 x 2

s1
s
2
n1 n2

Varianzas desconocidas,
-

Varianzas supuestas iguales 12 = 22 = 2

x1 x 2

sc
s
c
n1 n2

S c2

(n1 1) S12 (n2 1) S 22


,
n1 n2 2

(n1+ n2 2) grados de libertad

Varianzas supuestas distintas 12 22

x1 x 2
2

s1
s
2
n1 n2

S12 S 22

n1 n2
2

S12
S 22


n1 n2
n1 1 n2 1

grados de libertad

Se usa la Estadstica Z, si:


-

La muestra es grande, varianza poblacional conocida y poblacin normal o no.

La muestra es grande, varianza poblacional desconocida (s ) y poblacin normal o no.

La muestra es pequea, varianza poblacional conocida y poblacional normal.

Se usa la estadstica t, si:


-

La muestra es pequea

Varianza poblacional desconocida

Poblacional Normal

PRUEBA DE HIPTESIS DE DOS MUESTRAS EMPAREJADAS


En este caso se trata de comparar dos mtodos o tratamientos, pero se quiere que las unidades
experimentales donde se aplican los tratamientos sean las mismas, los ms parecidas posibles,
para evitar influencia de otros factores en la comparacin, como por ejemplo cuando se desea
comparar dos medicamentos para curar una enfermedad es bastante obvio que el sujeto al cual se
aplica los medicamentos influye sustancialmente en la comparacin de los mismos. Otro ejemplo es
en educacin, supongamos que se da un seminario sobre un tpico en particular y queremos luego
evaluar la efectividad del seminario. Es natural pensar que algunos individuos entendern mejor el
material que otra tal vez, debido a la preparacin que tienen de antemano. As que lo ms justo es dar
un test antes y despus del seminario y comparar estos resultados individuo por individuo.

Reglas de decisin (o regiones ptimas) para docimar


Ho: d = 0. Para un nivel de significancia
Tipos de prueba

Hiptesis alternante

Se rechaza Ho, si

Cola izquierda

Ha : d < 0

tc < -t,n-1

Cola derecha

Ha : d > 0

tc > t,n-1

Dos colas

Ha : d 0

|tc| > t/2,n-1

Estadstica de prueba

sd
n

d
d
n

sd

2
i

nd

n 1

, n-1 grados de libertad

PRUEBA DE HIPTESIS ACERCA DE LA PROPORCIN POBLACIONAL (p)


Las pruebas de hiptesis con proporciones son necesarias en muchas reas del conocimiento. Se
considerar el problema de probar la hiptesis de que la proporcin de xito en un experimento
binomial sea igual a un cierto valor especifico. Es decir, se probar la hiptesis nula de que p = p0,
donde p es el parmetro de la distribucin binomial. La informacin de que suele disponerse para la
estimacin de una porcin real o verdadera (porcentaje o probabilidad) es una proporcin muestral

x
n

, donde x es el nmero de veces que ha ocurrido un evento en n ensayos. Por ejemplo, si una muestra
aleatoria de 600 compras realizadas en una tienda y 300 se realizan con tarjeta de crdito, entonces

x 300

0.50 se puede utilizar esa cifra como estimacin de punto de la proporcin real de
n 600
compras realizadas en ese negocio que se abonaron a tarjetas de crdito. De la misma forma muchas
compaas podran estimar las proporciones de muchas transacciones. La hiptesis alterna puede ser
una de las alternativas usuales unilateral o bilateral tales como:

p p0 , p p0 ,..o.. p p0 .

Reglas de decisin (o regiones ptimas) para docimar


Ho: p = po. Para un nivel de significancia
Tipos de prueba

Hiptesis alternante

Se rechaza Ho, si

Cola izquierda

Ha : p < p o

Zc < -Z1-

Cola derecha

Ha : p > p o

Zc > Z1-

Dos colas

Ha : p po

|Zc| > Z1-/2

Estadsticas: Z c

Zc

p p0
p o (1 p o )
n

p p0
po (1 po ) N n

n
N 1

Cuando se conoce el tamao de N

PRUEBA DE HIPTESIS ACERCA DE LA DIFERENCIA ENTRE PROPOCIONES


Reglas de decisin (o regiones ptimas) para docimar
Ho: p1 p2 = 0. Para un nivel de significancia
Tipos de prueba

Hiptesis alternante

Se rechaza Ho, si

Cola izquierda

Ha : p 1 p 2 < 0

Zc < -Z1-

Cola derecha

Ha : p 1 p 2 > 0

Zc > Z1-

Dos colas

Ha : p 1 p 2 0

|Zc| > Z1-/2

Zc

Estadsticas:

x1 x2
n1 n2

p1 p 2
1 1
p(1 p)
n1 n2

n1 p1 n2 p 2
n1 n2

p1

x1
n1

p2

x2
n2