You are on page 1of 11

1

UNIVERSIDAD CENTRAL DE VENEZUELA


FACULTAD DE CIENCIAS ECONMICAS Y SOCIALES
ESCUELA DE ESTADSTICA Y CIENCIAS ACTUARIALES
ESTADSTICA II SECCIN 21 SEG-2011

Parte 5. TEMA 2.
CONTRASTE RESPECTO DE LA DIFERENCIA ENTRE TRES O MS
MEDIAS POBLACIONALES. ANLISIS DE VARIANZA. ANOVA.


Trataremos ahora con la igualdad de medias de ms de dos poblaciones.
Por ejemplo, se puede estar interesado en averiguar si distintos mtodos
de entrenamiento aplicados a un grupo de trabajadores en una industria
producen iguales o diferentes efectos sobre la productividad; en este caso, la
igualdad o diferencia de los efectos de los distintos mtodos de entrenamiento
aplicados a una poblacin.
Un segundo ejemplo podra ser, analizar la influencia del nivel de
educacin en el ingreso, medido por los ingresos promedio obtenidos en
distintos niveles de educacin.
El problema se puede generalizar de la siguiente forma:

Se tienen k muestras aleatorias provenientes de poblaciones normales
con varianzas iguales y con medias
k
, , ,
2 1
, y se trata de contrastar la
hiptesis nula: = = = =
k
H
2 1 0
: .


CLASIFICACIN SIMPLE (ANLISIS DE VARIANZA DE UNA VIA)
(ANLISIS DE VARIANZA DE UN SOLO CRITERIO DE
CLASIFICACIN)


PLANTEAMIENTO DEL PROBLEMA:

Se tienen k poblaciones con medias
k
, , ,
2 1
, y se trata de
contrastar la hiptesis nula: = = = =
k
H
2 1 0
: de igualdad de medias
poblacionales, contra la hiptesis alternativa: :
1
H por lo menos dos de las
medias poblacionales son diferentes.

Se toma de cada poblacin una muestra aleatoria cuyo tamao puede
ser igual o diferente, con lo que se tienen k muestras independientes con un
determinado nmero de observaciones.

Sea , 1, 2, ,
j
n j k = el nmero de elementos en la j-sima muestra.



2
CASO DE TAMAOS DE MUESTRAS IGUALES

Se cumple en este caso que: n n n n
k
= = = =
2 1

Sea
ij
X la i-sima observacin de la variable en la j-sima muestra,
donde i=1,2,,n ; j=1,2,,k
As, por ejemplo:
53
X es la quinta observacin de la variable en la
tercera muestra.
La nomenclatura a ser utilizada ser:


nk n n
k
k
X X X
X X X
X X X
k Muestra Muestra Muestra

2 1
2 22 21
1 12 11
2 1






1 2
1 1 1
1 2
1 1 1
1 2
2 2
1 1
2 2 2 1 1
1
2 2
1 1 1 1
2 2 2 1 1
1
( ) ( )

1 1
( ) ( )

n n n
i i ik
i i i
n n n
i i ik
i i i
j k
n n
i ik k
i i
j k
n n
i i
i i
j k
SUMAS X X X
X X X
X X X X
n n n
X X X X
S S S
n n
X X X X
S S S
n n
= = =
= = =
= =
= =
= = =

= =


= =









GRAN MEDIA GLOBAL O MEDIA GLOBAL:
1 1 1
k n k
ij j
j i j
X X
X
kn k
= = =
= =


3
Veamos un ejemplo para ilustrar la notacin:


EJEMPLO 1:

En una industria se escogen 3 grupos de 5 obreros cada uno, y se les da
entrenamiento con base a 3 diferentes mtodos. Las productividades de los
obreros despus del entrenamiento fueron las siguientes:

METODO 1 METODO 2 METODO 3
20 25 16
25 26 18
23 20 15
18 29 20
19 30 21


Pr
1, 2, 3, 4, 5
1, 2, 3
ij
X oductividad del i simo obrero que
recibi el j simo mtodo de entrenamiento
i
j
=

=
=





MEDIAS MUESTRALES

1
1
1
2
1
2
2
1
3
20 25 23 18 19
21 Pr Pr
5
.1
26
18
n
i
i
n
i
i
n
i
i
X
X oductividad omedio de los obreros
n
que recibieron el mtodo de entrenamiento No
X
X
n
X
X
n
=
=
=
+ + + +
= = =
= =
= =









4
CUASIVARIANZAS MUESTRALES

2 2
1 1 1
2 1 1
1
2 2
2 2 2 2
2 1 1
2
2 2
3 3 3 3
2 1 1
3
( ) ( 21)
34

8, 5
1 4 4
( ) ( )
62

15, 5
1 1 4
( ) ( )
26

6, 5
1 1 4
n n
i i
i i
n n
i i
i i
n n
i i
i i
X X X
S
n
X X X X
S
n n
X X X X
S
n n
= =
= =
= =

= = = =


= = = =


= = = =








VARIANZAS MUESTRALES

2
1 1
2 1
1
2
2 2
2 1
12
2
3 3
2 1
3
( )
34
6, 8
5
( )
62
12, 4
5
( )
26
5, 2
5
n
i
i
n
i
i
n
i
i
X X
S
n
X X
S
n
X X
S
n
=
=
=

= = =

= = =

= = =




GRAN MEDIA o MEDIA GLOBAL

1 1 1
21 26 18 65
21, 67
3 3
Pr Pr 15
k n k
ij j
j i j
X X
X
kn k
oductividad omedio de los obreros en la muestra
= = =
+ +
= = = = =








5
DESCOMPOSICIN DE LA SUMA DE CUADRADOS


Consideremos la variable, SCT= SUMA DE CUADRADOS TOTALES,
donde
( )
2
1 1
k n
ij
j i
SCT X X
= =
=

, Suma de los cuadrados de las diferencias entre


todos los elementos de la muestra y la gran media. Es una medida de
dispersin de todas las observaciones con respecto a la media global.

Operando convenientemente, se puede descomponer la Variacin Total
medida por la Suma de Cuadrados Totales en dos componentes.

Esta particin de la SCT en dos partes es la relacin bsica en el mtodo
de Anlisis de Varianza (ANOVA).

Se demuestra que:


( ) ( )
2 2
2
1 1 1 1 1
( )
k n k n k
ij ij j j
j i j i j
SCT X X X X n X X
= = = = =
= = +



La variacin o dispersin total de los datos se ha dividido en dos
componentes, cada una de las cuales refleja la variacin debida a diferentes
causas o fuentes de variacin, as tenemos que:

SCT = SCD + SCE

donde: SCD= SUMA DE CUADRADOS DENTRO DE LAS MUESTRAS
SCE= SUMA DE CUADRADOS ENTRE LAS MUESTRAS


SCD= VARIABILIDAD O DISPERSIN DENTRO DE CADA UNA DE LAS
MUESTRAS

En nuestro ejemplo, tenemos que:


( )
2
1 1
34 62 26 122
k n
ij j
j i
SCD X X
= =
= = + + =



Por otra parte, SCE= VARIABILIDAD O DISPERSIN ENTRE LAS
MUESTRAS






6
En nuestro ejemplo, tenemos que:
( )
2
2 2 2
1
( ) 5 21 21, 67 (26 21, 67) (18 21, 67) 163, 33
k
j
j
SCE n X X
=
(
= = + + =


luego SCT= 122+163,33= 285,33


PROCEDIMIENTO DEL CONTRASTE

Tenemos la hiptesis nula:

= = = =
k
H
2 1 0
: contra la hiptesis alternativa

1
: H al menos dos medias son diferentes

Se demuestra que la variable aleatoria
gdl n con cuadrado Chi una como distribuye se
nS
j
1
2
2

o
, luego SCD, que es la
suma de k variables Chi-cuadrado independientes, cada una con k-1 grados de
libertad, es a su vez una variable Chi-cuadrado con k(n-1) grados de libertad.

Adems,
2
1
( )
1
n
ij j
i
X X
n
=

es un estimador insesgado de
2
o . Tenemos k
estimadores insesgados de
2
o , uno por cada muestra, el promedio de estos
ser:



2
1 1
( )
( 1) ( 1)
k n
ij j
j i
X X
SCD
k n k n
= =
(

(

=




que es a su vez un estimador insesgado de
2
o .

Tenemos as un estimador insesgado de la varianza poblacional, basado
en la dispersin de los datos dentro de las muestras, cuyo valor no depende de
la verdad o falsedad de la hiptesis de igualdad de medias (H
0
).

Por otro lado, si la hiptesis nula es verdadera, y bajo los supuestos de
normalidad y varianza comn, las k poblaciones pueden considerarse como
una sola poblacin normal con media y varianza
2
o , entonces al tomar una
muestra aleatoria de n elementos sabemos que la media muestral tambin se
distribuye normal con media y varianza
2
o /n. Las medias muestales de
las k muestras se pueden considerar como una muestra aleatoria de k
elementos de una poblacin normal (,
2
o /n).
7
La varianza muestral de esa muestra es:


( )
gdl k con cuadrado Chi iable una es
n
kS
adems y
k
X X
S
X
k
j
j
X
1 var
2
2
1
2
2

=

=
o


Adems, la cuasivarianza muestral
2
1
( )
1
k
j
j
X X
k
=

es un estimador
insesgado de la varianza
2
n
o
en consecuencia,


2
1
( )
1 1
k
j
j
n X X
SCE
k k
=

=

, es un estimador insesgado de la varianza


poblacional.

Hemos obtenido otro estimador insesgado de la varianza poblacional
independiente del anterior basado en la dispersin de las medias muestrales; el
valor de este estimador si est influenciado por la verdad o falsedad de la
hiptesis nula.

Si obtenemos el cociente, resultar el estadstico de contraste para H
0




gdl F una como distribuye se
SCD
SCE
k
n k
n k
SCD
k
SCE
F
n k k c ) 1 ( ); 1 (
1
) 1 (
) 1 (
1

=



Donde la Regin Crtica o de Rechazo es:

Si
1 ; ( 1), ( 1), c k k n
F F grados de libertad
o
> se rechaza H
0





Toda esta informacin puede ser resumida en la siguiente tabla que
llamaremos Tabla ANOVA:
8

FUENTE DE
VARIACIN
SUMA DE
CUADRADOS
GRADOS
DE
LIBERTA
D
CUADRADOS
MEDIOS
RAZO
N
F
(F
c
)
ENTRE LAS
MUESTRAS
(Inter-grupos)
2
1
( )
k
j
j
SCE n X X
=
=



k-1

1
SCE
CME
k
=



DENTRO DE
LAS
MUESTRAS
(Intra-grupos)
( )
2
1 1
k n
ij j
j i
SCD X X
= =
=



k(n-1)
( 1)
SCD
CMD
k n
=


CME
CMD


TOTAL
( )
2
1 1
k n
ij
j i
SCT X X
= =
=



kn-1






En nuestro ejemplo:

0 1 2 3
1
:
:
H
H al menos dos mtodos de entrenamiento registran productividades promedio diferentes
= = =


FUENTE DE
VARIACIN

SUMA DE
CUADRADOS
GRADOS
DE
LIBERTAD

CUADRADOS
MEDIOS
RAZON
F
(F
c
)
ENTRE LAS
MUESTRAS
(Inter-grupos)
2
1
( ) 163, 33
k
j
j
n X X
=
=



k-1=2


81, 667
1
SCE
k
=



CME
CMD
=8,033
DENTRO DE
LAS
MUESTRAS
(Intra-grupos)
( )
2
1 1
122
k n
ij j
j i
X X
= =
=



k(n-1)=12

10,167
( 1)
SCD
k n
=




TOTAL
( )
2
1 1
285, 33
k n
ij
j i
X X
= =
=



kn-1=14










9
A continuacin presentamos una salida del SPSS (versin 11.0)
ANOVA
PRODUCTI
163,333 2 81,667 8,033 ,006
122,000 12 10,167
285,333 14
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados gl
Media
cuadrtica F Sig.


Si
1 ; ( 1), ( 1), c k k n
F F grados de libertad
o
> se rechaza H
0




1 ; ( 1), ( 1) 0,95;2 , 12
0,95;2 , 12
8, 033 0, 05 3,89
8, 033 3,89
c k k n
c
F F F
F F
o
o

= = = =
= > =


En consecuencia, se rechaza la hiptesis nula, luego, EXISTEN
EVIDENCIAS MUESTRALES A UN 5% DE SIGNIFICACIN PARA AFIRMAR QUE
AL MENOS DOS MTODOS DE ENTRENAMIENTO REGISTRAN
PRODUCTIVIDADES PROMEDIO DIFERENTES.

En otras palabras, los distintos mtodos de entrenamiento afectan en
forma diferente las productividades.




CASO DE DISTINTOS TAMAOS DE MUESTRA


Cuando el nmero de elementos de cada muestra es diferente,
j
n , la
lgica del procedimiento anterior es la misma, solo que se producen algunas
modificaciones en las expresiones utilizadas.


MEDIAS MUESTRALES
1
1, 2, ,
n
ij
i
j
j
X
X j k
n
=
= =



CUASIVARIANZAS MUESTRALES
2
2 1
( )

1
j
n
ij j
i
j
j
X X
S
n
=

=




10
VARIANZAS MUESTRALES
2
2 1
( )
1
j
n
ij j
i
j
j
X X
S
n
=

=






GRAN MEDIA O MEDIA GLOBAL

1 1 1
1
j
n
k k
ij j j
j i j
k
j
j
X n X
X Media Ponderada
N N
N n
= = =
=
= =
=




TABLA ANOVA PARA CONTRASTAR = = = =
k
H
2 1 0
:
FUENTE DE
VARIACIN
SUMA DE
CUADRADOS
GRADOS
DE
LIBERTAD
CUADRADOS
MEDIOS
RAZON
F
(F
c
)
ENTRE LAS
MUESTRAS
(Inter-grupos)
2
1
( )
k
j j
j
SCE n X X
=
=



k-1

1
SCE
CME
k
=



DENTRO DE
LAS
MUESTRAS
(Intra-grupos)
( )
2
1 1
j
n
k
ij j
j i
SCD X X
= =
=



N-k
SCD
CMD
N k
=


CME
CMD


TOTAL
( )
2
1 1
k n
ij
j i
SCT X X
= =
=



N-1



libertad de grados F una como distribuye se
CMD
CME
F
k N k c
=
; 1



Luego, la Regin Crtica o de Rechazo es:

Si
1 ; ( 1), c k N k
F F grados de libertad
o
> se rechaza H
0








11
EJEMPLO 2:

Se desea comparar los ingresos medios diarios de la poblacin de cuatro
(4) parroquias de Caracas, para lo cual se toman muestras aleatorias de
tamao 10, 6, 10 y 9 elementos respectivamente. Los resultados fueron los
siguientes:


A B C D
12
15
8
10
9
11
12
14
13
10
15
8
16
13
14
12
15
17
5
13
14
8
10
10
10
12
10
5
12
14
16
13
12
8
12

N=35 k=4
1 2 3 4
10 6 10 9 n n n n = = = =

CALCULAR INGRESOS PROMEDIOS DIARIOS POR
PARROQUIA, CUASIVARIANZAS Y VARIANZAS
MUESTRALES E INGRESO PROMEDIO DIARIO
GLOBAL.

La correspondiente Tabla ANOVA del SPSS (versin 11.0)
ANOVA
INGRESOS
13,086 3 4,362 ,478 ,700
282,800 31 9,123
295,886 34
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados gl
Media
cuadrtica F Sig.

0,95 ; 3, 31
0, 478
c
CME
F F
CMD
= = <



En consecuencia, no podemos rechazar la hiptesis nula, por lo que
podemos concluir que: NO EXISTEN EVIDENCIAS MUESTRALES A UN 5% DE
SIGNIFICACIN PARA AFIRMAR QUE LOS INGRESOS PROMEDIOS DIARIOS DE
LA POBLACIN DE CUATRO PARROQUIAS DE CARACAS SE DIFERENCIAN.

You might also like