Professional Documents
Culture Documents
Motivacin
Un mdico est interesado en determinar si el estilo de
vida y los hbitos alimenticios de individuos tienen un
efecto en su salud midiendo variables como la
hipertensin, el peso, la ansiedad y el nivel de tensin
arterial.
El gerente comercial de una gran tienda est interesado en
determinar si existe relacin entre los tipos de productos
comprados y las personalidad y el estilo de vida de sus
clientes.
Dados dos vectores de variables aleatorias X
(1)
y X
2
el
anlisis de correlacin cannica consiste en encontrar
las combinaciones lineales en ambos conjuntos que
estn mayormente correlacionadas.
,
) 2 (
) 2 (
1
) 2 (
) 1 (
) 1 (
1
) 1 (
q p
X
X
X y
X
X
X
q p
s
|
|
|
.
|
\
|
=
|
|
|
.
|
\
|
=
Dados dos vectores de variables aleatorias X
1
y X
2
el
anlisis de correlacin cannica consiste en encontrar las
combinaciones lineales en ambos conjuntos que estn
mayormente correlacionadas.
Sea E
12
la matriz de covarianza entre X
1
y X
2
y sean
Z= aX
1
y W=bX
2
Luego queremos encontrar vectores a y b que maximicen
la correlacin entre Z y W.
Var(Z) = aE
11
a Var(W) = bE
22
b Cov(Z,W)=aE
12
b
Restricciones: Var(Z)=Var(W)=1
Corr(Z,W)=r
ZW
Luego el problema se transforma en determinar los valores
y vectores propios de las matrices:
(E
22
)
-1
E
21
(E
11
)
-1
E
12
(E
11
)
-1
E
12
(E
22
)
-1
E
21
Los valores propios son los mismos para cada matriz y son
t=min{p, q} (lo anterior se realiza generalmente con datos
muestrales).
Las variables cannicas estn construidas de manera
artificial, pero a menudo se pueden interpretar (cuidado).
Sean
1
>
2
>...>
t
los valores propios obtenidos y a
1
, ...,a
t
y
b
1
, ..., b
3
los vectores propios correspondientes, entonces
las la correlacin i-sima viene dada por la raz cuadrada
de
i
.
Las combinaciones lineales no estn correlacionadas entre
si y tambin se tiene que Cov(Z
k
,W
j
)=0 para todo k=j.
Cada autovector (llamado peso cannico) mide el impacto
marginal de cada variable sobre la variable cannica
(cuando las otras permanecen fijas).
Los nuevos pares de n valores son llamadas scores de las
variables cannicas.
Ejemplo