Professional Documents
Culture Documents
N(
, ) = 1, . . . , N.
Denotaremos X = (X
1
, . . . , X
N
) N(, I ), donde = (
1
, . . . ,
N
). Observemos que
si X
, 1
= (1, . . . , 1),
*
Escuela de Matem atica, Universidad de Costa Rica, 2060 San Jose, Costa Rica. E-Mail: jpvar-
gas@racsa.co.cr
**
Escuela de Matem atica, Universidad de Costa Rica, 2060 San Jose, Costa Rica. E-Mail: ad-
uarte@carari.ucr.ac.cr
31
32 j. poltronieri a. duarte
es una matriz simetrica idempotente; por lo tanto:
X(I
1
N
J) N(0, (I
1
N
J) ),
pues (I
1
N
J) = 0, y dado que rang(I
1
N
J) = N 1,
X(I
1
N
J)X
=
N
=1
(X
X)(X
X)
W(, N 1),
donde W(, N1) designa la distribusion Wishart de matriz de varianzas y N1 grados
de libertad.
Por otro lado, si X
N(m
un
vector r-dimensional y H = MM
=
N
=1
m
H
1
M es
idempotente. Se sabe que :
X N(M, I ),
X(I M
H
1
M) N(0, (I M
H
1
M) ),
puesto que M(I M
H
1
M) = 0 y la forma cuadratica:
X(I M
H
1
M)X
W(, N r),
donde r = rangH.
2. El modelo lineal
Consideremos X
1
, . . . , X
N
variables aleatorias independientes, tales que:
X
N(Z
, ), = 1, . . . , N,
con Z
= XZ
A
1
N
=
N
=1
(x
)(x
=
N
=1
X
,
donde A = ZZ
, i.e.
N(, A
1
), N
W(, N q).
Denotaremos un estimador con subndice cuando se trate del estimador de maxima
verosimilitud de la muestra, y con subndice cuando se trate del estimador de maxima
verosimilitud bajo la hipotesis H
0
.
algunas consideraciones sobre el modelo lineal multivariado 33
Consideremos Q = XZ
A
1
Z N(Z, Z
A
1
Z ), pues Z
A
1
Z es idempotente.
Suponemos que = (
1
,
2
) tales que
1
tiene q
1
columnas y
2
tiene q
2
columnas. Si
deseamos considerar la hipotesis H
0
:
1
=
1
, donde
1
es una matriz dada, se tiene que:
1
N(
1
, A
112
),
con
A =
_
A
11
A
12
A
21
A
22
_
, A
112
= A
11
A
12
A
1
22
A
21
.
As:
N(, A
1
), (
1
)A
112
(
1
) W(, q
1
), con q
1
= rang(A
112
).
Sea Y = X
1
Z
1
N(
2
Z
2
, I ), entonces:
2
= Y (Z
2
A
1
22
) = (XZ
1
A
12
)A
1
22
,
donde:
Z =
_
Z
1
Z
2
_
, A
11
= Z
1
Z
1
, A
22
= Z
2
Z
2
, A
12
= Z
1
Z
2
.
Bajo la hipotesis H
0
se tiene:
2
N(
2
, A
1
22
),
N
=
N
=1
Y
2
A
22
2
= Y (I Z
2
A
1
22
Z
2
)Y
W(, N q
2
),
pues I Z
2
A
1
22
Z
2
es idempotente de rango N q
2
(q = q
1
+q
2
).
Para probar la hipotesis H
0
:
1
=
1
se utiliza la estadstica:
U =
|N
|
|N
|
,
y se compara con U
p,q
1
,Nq
(), donde es el nivel. La cantidad |N
| denota el determi-
nante de N
.
3. Prueba de igualdad de medias
Consideremos Y
(i)
N(
(i)
, ) = 1, . . . , N
i
, i = 1, . . . , q, observaciones de q
poblaciones de igual matriz de covarianza. Sea H
0
la hipotesis de igualdad de medias para
las q poblaciones, i.e. H
0
:
(1)
= =
(q)
. Se dene X
N
1
++N
i1
+k
= Y
(i+1)
k
y tenemos:
= (
(1)
, . . . ,
(1)
, . . . ,
(q)
, . . . ,
(q)
),
X = (Y
(1)
1
, . . . , Y
(1)
N
1
, . . . , Y
(q)
1
, . . . , Y
(q)
Nq
),
por lo que:
X N(, I ), N =
q
i=1
N
i
.
34 j. poltronieri a. duarte
Se utiliza el modelo lineal, introduciendo las variables Z
, = 1, . . . , N, de la forma:
Z = (Z
1
, . . . , Z
N
) =
_
_
1 . . . 1 . . . 0 . . . 0
0 . . . 0 . . . 0 . . . 0
.
.
.
.
.
.
.
.
. . . .
.
.
.
.
.
.
.
.
.
0 . . . 0 . . . 1 . . . 1
1 . . . 1 . . . 1 . . . 1
_
_
,
y se dene = (
1
,
2
) por:
1
= (
(1)
(q)
, . . . ,
(q1)
(q)
),
2
=
(q)
.
As se obtiene que: X
N(Z
, ) = 1, . . . , N. La hipotesis H
0
es:
1
= 0. La matriz
A = Z Z
es:
_
_
N
1
. . . 0 N
1
.
.
.
.
.
.
.
.
.
.
.
.
0 N
q1
N
q1
N
1
N
q1
N
_
_
,
y
C = X Z
= (C
1
, C
2
) = (
Y
(1)
, . . . ,
Y
(q1)
i
Y
(i)
),
A
22
= N, C
2
=
i
Y
(i)
2
= C
2
A
1
22
=
1
N
i
Y
(i)
= Y N(
2
,
1
N
),
N
i
Y
(i)
Y
(i)
2
A
22
2
=
i
(Y
(i)
Y )(Y
(i)
Y )
= Y (I
1
N
J)Y
W(, N 1),
pues bajo la hipotesis H
0
se tiene (I
1
N
J) = 0.
El estimador
= C A
1
= (Y
(1)
Y
(q)
, . . . , Y
(q1)
Y
(q)
, Y
(q)
), donde
Y
(i)
=
1
N
i
N
i
=1
Y
(i)
. Ademas:
CA
1
C
=
q
i=1
N
i
Y
(i)
Y
(i)
,
N
i
(Y
(i)
Y
(i)
)(Y
(i)
Y
(i)
)
.
Sea H la matriz denida por:
H =
_
_
J
1
0
.
.
.
.
.
.
.
.
.
0 J
q
_
_
algunas consideraciones sobre el modelo lineal multivariado 35
con J
i
=
1
N
i
1
N
i
1
N
i
. As denida H es idempotente, de rango q y ademas :
Y H = (Y
(1)
, . . . , Y
(1)
, . . . , Y
(q)
, . . . , Y
(q)
) N(, H ),
pues H = . Por otro lado :
N
i
(Y
(i)
Y
(i)
)(Y
(i)
Y
(i)
)
W(, N q).
Si H
0
es la verdadera hipotesis, la estadstica: U = |N
|/|N
= Y (H
1
N
J)Y
W(, q 1).
N
i=1
i
= 0 ,
c
j=1
j
= 0.
El modelo se escribe :
Y = Z +E,
donde:
Y = (Y
11
, . . . , Y
1c
, . . . , Y
r1
, . . . , Y
rc
),
= (,
1
, . . . ,
r
,
1
, . . . ,
c
),
E = (E
11
, . . . , E
1c
, . . . , E
r1
, . . . , E
rc
),
y
Z =
_
_
1 . . . 1 . . . 1 . . . 1
1 . . . 1 . . . 0 . . . 1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 . . . 0 . . . 1 . . . 1
1 . . . 0 . . . 1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 . . . 1 . . . 0 . . . 1
_
_
.
36 j. poltronieri a. duarte
Sea Y
=
1
rc
i j
Y
ij
, Y
i
=
1
c
j
Y
ij
, Y
j
=
1
r
i
Y
ij
, entonces:
i j
(Y
ij
Y
)(Y
ij
Y
i j
(Y
ij
Y
i
Y
j
+Y
)(Y
ij
Y
i
Y
j
+Y
+c
i
(Y
i
Y
)(Y
i
Y
+r
j
(Y
j
Y
)(Y
j
Y
.
Vamos a determinar las matrices asociadas a cada una de las formas cuadraticas.
Sean las matrices:
H
1
=
1
c
_
_
J 0
.
.
.
.
.
.
.
.
.
0 J
_
_
,
con J = 1
c
1
c
, i.e. H
1
tiene r matrices J en la diagonal;
L =
1
rc
1
rc
1
rc
,
H
2
=
1
r
_
_
P
1
. . . P
c
.
.
.
.
.
.
.
.
.
P
1
. . . P
c
_
_
con P
i
=
_
_
0 . . . 0
.
.
.
.
.
.
.
.
.
1 . . . 1
.
.
.
.
.
.
.
.
.
0 . . . 0
_
_
,
donde el vector (1, . . . , 1) esta situado en la posicion i. La matriz P
i
es r r y P
i
P
j
= P
i
.
Las matrices H
1
, L, H
2
son idempotentes de rangos respectivos r, 1, c. As tenemos:
Y L = (Y
, . . . , Y
, . . . , Y
, . . . , Y
)
Y H
1
= (Y
1
, . . . , Y
1
, . . . , Y
r
, . . . , Y
r
)
Y H
2
= (Y
1
, . . . , Y
c
, . . . , Y
1
, . . . , Y
c
).
Sabemos que H
1
L es idempotente de rango r 1, y
Y (H
1
L) N((H
1
L), (H
1
L) ),
donde (H
1
L) = (
1
, . . . ,
1
, . . . ,
r
, . . . ,
r
).
La forma cuadratica:
B
1
= Y (H
1
L)Y
= c
r
i=1
(Y
i
Y
)(Y
i
Y
W(, r 1, ),
donde el parametro de decentraje = (H
1
L)
= c
r
i=1
i
.
La matriz H
2
L es idempotente de rango c 1, y
B
2
= Y (H
2
L)Y
= r
c
j=1
(Y
j
Y
)(Y
j
Y
W(, c 1, ),
algunas consideraciones sobre el modelo lineal multivariado 37
donde el parametro de decentraje = (H
2
L)
= r
c
j=1
j
.
La matriz I H
1
H
2
+L es idempotente de rango (r 1)(c 1):
Y (I H
1
H
2
+L) N(0, (I H
1
H
2
+L) ),
pues (I H
1
H
2
+L) = 0, por lo que:
A = Y (I H
1
H
2
+L)Y
ij
(Y
ij
Y
i
Y
j
+Y
)(Y
ij
Y
i
Y
j
+Y
W(, r 1).
De esta manera la estadstica:
U =
|A|
|A +B
1
|
U
p, r1, (r1)(c1)
.
Si se considera la hipotesis H
0
:
j
= 0, j = 1, . . . , c, es decir, el efecto del segundo
factor es nulo, se tiene que (H
2
L) = 0, y la estadstica:
B
2
= Y (H
2
L)Y
W(, c 1).
As la estadstica:
U =
|A|
|A +B
2
|
U
p , c1 , (r1)(c1)
.
En los dos casos se rechaza la hipotesis H
0
si :
U U
p , m, (r1)(c1)
()
para m = r 1, o m = c 1.
Este resultado se generaliza facilmente en el caso de n observaciones por celda, n > 1.
5. Aplicaciones
En esta seccion vamos a considerar algunos ejemplos., lo cuales nos ayudaran a com-
prender, la utilidad de la teora desarrollada en este trabajo.
1. Primeramente consideraremos un estudio realizado por Bernard (1935) (ver [1]), en el
cual realiza 4(= p) medidas sobre craneos egipcios, correspondiendo a 4(= p) poblaciones:
38 j. poltronieri a. duarte
Predinastica (i = 1), sexta a undesima dinasta (i = 2), duodecima y decimotercera dinasta
(i = 3), y la dinasta Ptolomeica (i = 4) .
El n umero de observaciones por poblaciones N
1
= 91, N
2
= 162, N
3
= 70, N
4
= 75.
La hipotesis H
0
que consideramos es que las cuatro poblaciones son iguales, es decir, las
medias de las poblaciones son identicas
(1)
=
(2)
=
(3)
=
(4)
.
Los datos sumarizados son:
(
Y
(1)
,
Y
(2)
,
Y
(3)
,
Y
(4)
) =
_
_
_
_
133,582 134,265 134,371 135,306
98,307 96,462 95,857 95,040
50,835 51,148 50,100 52,093
133,000 134,882 133,642 131,466
_
_
_
_
N
=
_
_
_
_
9661,997 445,573 11130,623 214,584
445,573 9073,115 1239,211 2255,812
1130,623 1239,211 3938,320 1271,054
2148,584 2255,812 1271,054 8741,508
_
_
_
_
.
De los datos tenemos:
N
=
_
_
_
_
9785,178 214,197 1217,929 2019,820
214,197 9559,460 1131,716 2381,126
2117,929 1131,716 4088,731 1133,473
2019,820 2381,126 1133,473 9382,242
_
_
_
_
.
La estadstica esta dada por:
U =
|N
|
|N
|
= 0,8214344,
N = 398, n = 394, p = 4, q = 4. Como n es grande, aproximamos mlogU
4,3,394
con
2
12
,
cuando la hipotesis H
0
es cierta. As mlogU = 77,30 y como
2
12
(0,01) = 26,2, se rechaza
la hipotesis H
0
, es decir, hay diferencias signicativas entre las poblaciones.
Para el analisis de varianza utilizamos un ejemplo discutido por Anderson(1958). En este
ejemplo, se considera como primera componente del vector de observaciones el rendimiento
de un campo de cebada; la segunda componente son las mismas medidas hechas al a no
siguiente (p = 2). Los datos aparecen en la tabla siguiente. Los ndices columna indican las
variedades de cebada y las las indican las localidades.
Se considera el modelo a dos factores, donde el primer factor es la variedad con r = 5
niveles, y el segundo factor es la localidad con c = 6 niveles. La hipotesis H
0
que se considera,
es que el efecto debido a la variedad es nulo, es decir, dentro del modelo:
Y
ij
= +
i
+
j
+E
ij
los
i
= 0, i = 1, . . . , r = 5. En otras palabras, las observaciones se explican por medio de
un valor general y el efecto debido a la localidad
j
, j = 1, . . . , c = 6.
As
i,j
Y
ij
Y
ij
=
_
380944 315381
315381 277625
_
,
algunas consideraciones sobre el modelo lineal multivariado 39
Variedades
Localidad M S V T P
UF 81 105 120 110 98
81 82 80 87 84
W 147 142 151 192 146
100 116 112 148 108
M 82 77 78 131 90
103 105 117 140 130
C 120 121 124 141 125
99 62 96 126 76
GR 99 89 69 89 104
66 50 97 62 80
D 87 77 79 102 96
68 67 67 92 94
Cuadro 1: Variedades de cebada por cada localidad
j
(6
Y
i
)(6
Y
j
)
=
_
2157924 1844346
1844346 1579583
_
,
i
(5
Y
i
)(5
Y
i
)
=
_
1874386 1560145
1560145 1353727
_
,
(30
)(30
) =
_
10705984 9145240
9145240 7812025
_
.
La suma de los cuadrados de los errores:
A =
_
3279 802
802 4017
_
,
5
i
(
Y
i
)(
Y
i
=
_
18011 7188
7188 10345
_
,
B =
_
2788 2550
2550 2863
_
.
La estadstica para la hipotesis H
0
es:
U =
|A|
|A+B|
= 0,4107.
40 j. poltronieri a. duarte
Este resultado se compara con U
2,4,20
(0,05), o bien se compara con el valor:
1
_
0,4017
_
0,4017
19
4
= 2,66
con un F
8,38
(0,05) = 2,18 lo que indica que hay diferencias entre variedades , con un error
del 5 %.
Referencias
[1] T.W. Anderson (1958) An introduction to multivariate statistical analysis. J. Wiley,
N.Y.
[2] J.R. Barra (1971) Notions fondamentales de statistique mathematique. Dunod, Paris.
[3] H. Muirhead (1982) Aspects of multivariate statistical theory. J. Wiley, N.Y.
[4] J. Poltronieri (1988) Estudio de formas cuadraticas en el caso multivariado. In: IV Sim-
posio de Metodos Matematicos Aplicados a las Ciencias Ed. U.C.R.
[5] J. Poltronieri (1988) Formas cuadraticas y formas lineales en estadstica multivariada.
In: IV Simposio de Metodos Matematicos Aplicados a las Ciencias Ed. U.C.R.
[6] K. Takeuchi, H. Yanai, B.N. Mukherjee (1984) The foundations of multivariate analysis.
Wiley Eastern Limited.
[7] M. Tenenhaus, F. Young (1987) An analysis and synthesis of multiple correspondance
analysis, optimal scaling, dual scaling, homogenity analysis and other methods for quan-
tifying categorical multivariate data, Psychometrica 50(1), pp. 91-119.