You are on page 1of 55

DISEOS DE INVESTIGACIN Y ANLISIS DE DATOS

TEMA 2
Contrastes de hiptesis en los diseos de una muestra

Introduccin
En las investigaciones que
parten del conocimiento
proporcionado por los datos
recogidos de una muestra, el
objetivo es inferir las
caractersticas de la poblacin de
la cual los datos recolectados
constituyen una muestra
representativa.

En este tipo de investigaciones la


hiptesis a contrastar especifica una
caracterstica de la poblacin, por
ejemplo:
Si un determinado parmetro poblacional puede
tomar un valor concreto.
Si las variables medidas en la muestra son
independientes en la poblacin.
La forma de la distribucin de la variable, X, en la
poblacin.
Si los datos observados en la muestra son
independientes entre s.

Los dos primeros casos se incluyen


dentro de los contrastes
paramtricos ya que se relacionan
con el estudio de un parmetro
poblacional (media, varianza,
proporcin, correlacin, etc.) y
siempre que la variable de estudio
provenga de una poblacin con una
funcin de densidad de probabilidad
(fdp) conocida o supuesta.

Por su parte, los dos siguientes


contrastes se englobaran dentro de
los contrastes no paramtricos que o
bien no se relacionan con parmetros
poblacionales o se encuentran
referidas a datos que provienen de
una poblacin con una funcin de
densidad de probabilidad
desconocida.

Contrastes paramtricos
vs no paramtricos
Resulta difcil proporcionar una
definicin precisa del concepto de
tcnicas no paramtricas ya que
no existe un consenso absoluto al
respecto.
La literatura tcnica diferencia estas
tcnicas de formas muy diversas.

As, por ejemplo, Ross (2004) las


define como aquellas pruebas que se
aplican cuando los datos proceden
de una distribucin de probabilidad
cuya forma no viene especificada, es
decir, cuando no podemos asumir
una forma concreta de la distribucin
poblacional para los datos (normal,
exponencial, binomial, etc.).
Es por ello que muchos autores
denominan a estas pruebas como
pruebas sin supuesto distribucional

No obstante, sera equivocado


afirmar que los contrastes no
paramtricos no realizan ningn tipo
de supuestos (lo que en estadstica
se conoce como assumption-free)
aunque s es cierto que los supuestos
realizados por los contrastes no
paramtricos son menos rgidos
que los realizados por los contrastes
paramtricos.

Contrariamente a lo que se suele


afirmar, los contrastes no
paramtricos s realizan supuestos
aunque estos no estn referidos a la
forma especfica de la distribucin
poblacional.

Por ejemplo, un supuesto muy


utilizado en pruebas no paramtricas
es el supuesto de distribucin
simtrica de la variable
dependiente en la poblacin. Debido
a que existen otras muchas
distribuciones distintas de la normal
que tambin son simtricas, este
supuesto no nos obliga a trabajar
necesariamente con una distribucin

No obstante, s nos elimina del rea de


bsqueda todas las distribuciones
asimtricas (v.g., la F, la chi-cuadrado,
la Gamma). Esta es una de las razones
por las que algunos autores han
introducido otros trminos que
pretenden establecer matizaciones a
medio camino entre las tcnicas
paramtricas y las no paramtricas
(v.g., tcnicas semiparamtricas).

Eliminada

En relacin a las distinciones


anteriores, el estudiante debe
diferenciar entre los supuestos
realizados por el mtodo de inferencia
de las pruebas (criterio que diferencia
las tcnicas paramtricas de las no
paramtricas) de las distribuciones
muestrales utilizadas en los clculos
para el contraste de hiptesis en
cualquiera de estas tcnicas (tanto

Aunque la estadstica no paramtrica


no incluya entre sus supuestos a una
f.d.p. (funcin de densidad de
probabilidad) concreta como la
distribucin poblacional de la
variable dependiente, no obstante,
los estadsticos que se calculan en la
estadstica no paramtrica s se
distribuirn segn una u otra
distribucin paramtrica concreta.

Por ejemplo, cuando veamos la


prueba de los signos comprobaremos
que no se hace ningn supuesto
sobre cmo se distribuyen los datos
observados en la poblacin de la cual
se ha extrado la muestra de estudio
(en este sentido es un contraste no
paramtrico) pero, sin embargo,
utilizar la distribucin binomial
como distribucin muestral del
estadstico para realizar los clculos
de los niveles de probabilidad
asociados a la hiptesis nula.

La distribucin binomial es una


distribucin paramtrica pero la
prueba de los signos no la utiliza
como un supuesto necesario para
aplicarla, sino como una herramienta
para calcular niveles de probabilidad.

Otros autores hacen hincapi


simplemente en que, de forma
genrica, estas ltimas realizan
supuestos menos restrictivos o
rgidos que las tcnicas
paramtricas (Daniel, 1990). Desde
esta perspectiva, la distincin entre
paramtrico vs. no paramtrico no es
una distincin cualitativa sino
cuantitativa

Hay procedimientos que se acercan


ms al extremo paramtrico y otros
al extremo no paramtrico,
existiendo otros en puntos
intermedios del continuo. Aunque
esta clasificacin cuantitativa de los
contrastes es una definicin ms
vaga que las anteriores, resulta muy
til ya que hay tcnicas estadsticas
entre cuyos objetivos iniciales
explcitos se encuentra el realizar los
menos supuestos posibles sobre la
procedencia de los datos.

Una tercera opinin insiste en que lo


que caracteriza a las tcnicas no
paramtricas es el nivel de medida
de los datos. Las tcnicas no
paramtricas se suelen utilizar
cuando las escalas utilizadas para
medir la variable dependiente, es
decir, los datos recogidos en la
muestra, son de tipo nominal u
ordinal o bien cuando las escalas
sean de tipo de intervalo/razn
pero han sido recodificadas en
variables de tipo nominal u ordinal

Estamos de acuerdo con Wasserman


(2006) cuando subraya que el punto
esencial de las tcnicas no
paramtricas consiste en que los
mtodos estadsticos desarrollados
en este rea tratan de mantener los
supuestos lo menos restrictivos o
rgidos posibles.

Hemos de sealar que cuanto menos


restrictivos sean los supuestos que
se realicen a la hora de seleccionar la
prueba que se aplicar para el
contraste de hiptesis, ms amplias
sern las posibilidades que
tendremos que contemplar (ms
amplio el espacio de bsqueda).

Este espacio de bsqueda puede


llegar a ser infinito por lo que
tambin se conoce a las tcnicas no
paramtricas como tcnicas
paramtricas de dimensionalidad
infinita.
El concepto de no paramtrico no
tiene una definicin precisa y
universalmente aceptada.

Diagrama de flujo

Contraste sobre la media


poblacional.
Conocida la varianza poblacional.
Aunque esta situacin no es frecuente,
si por trabajos o informacin previa
podemos asumir un determinado
valor para la varianza poblacional,
entonces la distribucin muestral de
la media es una distribucin normal,
y el estadstico de contraste para la
media poblacional es:

El estadstico Z cuantifica la distancia


entre la media de la muestra
a la media poblacional asumida en H0

en unidades de error tpico de la


distribucin muestral.

Es una regla de tres


1 SX

Z= ?

-------------------------

-------------------------

Ejemplo 2.2
Por estudios previos conocemos
que la poblacin masculina de la
tercera edad de una determinada
Comunidad Autnoma tiene un gasto
medio en medicamentos de 215
euros/ao con una desviacin tpica
de 36 euros y queremos saber si la
poblacin femenina tiene el mismo
gasto.

Ejemplo 2.2
Con tal finalidad analizamos el gasto
medio de una muestra de 324
mujeres de la tercera edad de esa
misma comunidad observando que la
media es de 220 euros/ao.
Asumimos que esta variable se
distribuye normalmente en la
poblacin. Fijando un nivel de
confianza del 95%, contraste si el
gasto de las mujeres es

No hay dos muestras, solo una:


la de mujeres
Variable X
=
gasto
farmacutic
o

Gasto
farmacuti
co en
mujeres

MUESTRA
POBLACI
N

DM de la
media

Supuesto! -> Paramtrico

Variable X
=
gasto
farmacutic
o

Gasto
farmacuti
co en
mujeres

MUESTRA
POBLACI
N

DM de la
media

Condiciones y supuestos
El estudio utiliza un diseo de una
muestra de mujeres en la que la
variable gasto medio se mide en
una escala de razn (variable
cuantitativa) y sabemos que se
distribuye normalmente en la
poblacin.
Adicionalmente conocemos la
desviacin tpica poblacional que es
de 36 euros.

Condiciones y supuestos
Se trata de un contraste
paramtrico bilateral ya que, a
priori, no sabemos si el gasto de las
mujeres es mayor o menor de 220
euros/ao, solo queremos contrastar
que el gasto de las mujeres es
diferente a esa cantidad, pero sin
sealar el sentido de esa diferencia.

Formulacin de las hiptesis


La hiptesis de investigacin es que
las mujeres tienen un gasto distinto
a los 215 euros/ao (H1).
La hiptesis nula (H0) dice que el
gasto de las mujeres es de 215
euros/ao y la hiptesis alternativa
que el gasto medio de las mujeres es
un valor distinto.

Partimos de que, provisionalmente,


la hiptesis nula es verdadera, es
decir, que las mujeres tienen un
gasto de 215 euros/ao y se trata de
encontrar evidencia contra esta
hiptesis a partir de la informacin
proporcionada por una muestra
representativa.

La diferencia de 5 euros entre el


valor observado en la muestra y el
que planteamos en la hiptesis nula
significa realmente un gasto distinto
o esta diferencia puede deberse a
fluctuaciones aleatorias?. El rechazo
de la hiptesis nula y la consiguiente
aceptacin de la hiptesis alternativa
significar que la diferencia
observada es estadsticamente
significativa confirmando una
diferencia real que no puede
atribuirse al azar o a fluctuaciones

Estadstico de contraste
Para contrastar nuestra hiptesis se
calcula la discrepancia entre la
evidencia observada de que el gasto
medio es de 220 euros en la muestra
de mujeres con el valor
hipotticamente establecido para la
poblacin general de que el gasto
medio es de 215 euros.

Estadstico muestral
2.5,
Nivel p-crtico

Valores
crticos,
alpha

Regla de decisin
Los valores crticos representan la
mxima diferencia atribuible al azar
en la distribucin muestral que
puede existir entre los datos
empricos observados en la muestra
y los datos tericos que planteamos
en la hiptesis nula.

Regla de decisin
En la muestra el valor observado es
220 euros/ao y el valor hipottico
planteado es de 215 euros/ao. Esta
diferencia corresponde a 2,5
desviaciones tpicas de la
distribucin muestral lo cual es poco
probable si H0 es cierta
Poco probable significa menos
probabilidad que el nivel alpha.

Conclusin
El valor de este estadstico de
contraste obtenido en el paso
anterior, sobrepasa el valor mximo
de 1,96 por lo que debemos rechazar
la hiptesis nula con un nivel de
confianza del 95%.

De otra forma, al valor del estadstico


de contraste obtenido de Z=2,5 le
corresponde un nivel p-crtico de
0,0124. Esta probabilidad indica que
suponiendo verdadera la hiptesis de
que las mujeres tienen un gasto
medio de 215 euros/ao, la
probabilidad de observar un gasto de
220 euros/ao se obtiene buscando
en la tabla de la distribucin normal,

Z =0.9938

1-0.9938 =0.0062
Como el contraste es bilateral
0.0062 * 2 = 0.0124
Este valor es el nivel p-crtico y
resulta ser inferior al nivel alpha.
En consecuencia, rechazamos H0

Interpretacin
A la vista de los clculos podemos
decir que, con un nivel de confianza
del 95%, el gasto de las mujeres
difiere significativamente de 215
euros/ao, que es el que realizan los
hombres.

Interpretacin
Si hubiramos utilizado un nivel de
confianza del 99% no habra
evidencia suficiente para rechazar la
hiptesis nula ya que en este caso el
nivel p-crtico de p=0,0124 es mayor
que el nivel de significacin alfa de
0,01. Es decir que la diferencia
encontrada es significativa con
alfa=0,05 pero no lo es con un
nivel de significacin de 0,01.

Estas conclusiones ponen de


manifiesto:
a) la importancia de la replicacin de
la investigacin para aadir ms
evidencia a favor o en contra de la
hiptesis
b) la exigencia de informar del valor
del estadstico de contraste y el nivel
p-crtico

Contraste sobre la media


poblacional.
Desconocida la varianza
poblacional.
Si se desconoce la varianza
poblacional y la forma de la
distribucin de la variable en la
poblacin entonces la distribucin
muestral de la media es la
distribucin t de Student, que se
aproxima a la normal cuando se
utilizan muestras grandes (con ms

En estas circunstancias el estadstico


de contraste es:

El acento circunflejo representa


estimador.

es el estimador de la desviacin
tpica poblacional que se puede
realizar bien a partir de la varianza o
de la cuasi-varianza de la muestra
(aunque el mejor estimador es este
ltimo).

El estimador insesgado de la
varianza poblacional es la cuasivarianza muestral por lo que el
estadstico de contraste obtenido
utilizando la cuasi-varianza muestral
es:

Ejemplo 2.1
En un experimento sobre atencin,
un psiclogo presenta durante 300
mseg un grupo de 16 letras del
alfabeto (con una disposicin de 4
filas y 4 columnas). Cada uno de los
12 sujetos que participan en el
experimento debe verbalizar tantas
letras como recuerde. El promedio
obtenido de letras bien recordadas
es de 7 y la desviacin tpica

Ejemplo 2.1: En un experimento


sobre atencin, un psiclogo
presenta durante 300 mseg un grupo
de 16 letras del alfabeto (con una
disposicin de 4 filas y 4 columnas).
Cada uno de los 12 sujetos que
participan en el experimento debe
verbalizar tantas letras como
recuerde. El promedio obtenido de
letras bien recordadas es de 7 y la