Professional Documents
Culture Documents
=
np nj n
ip ij i
p j
k k k
k k k
k k k
K
... ...
... ... ... ... ...
... ...
... ... ... ... ...
... ...
1
1
1 1 11
Dado que hemos optado por un ACP normado el primer paso -con caracter previo al ACP
propiamente dicho- sera la tipificacin de estos datos. (En caso de que se hubiera elegido
un ACP no normado seria suficiente con centrar los datos). Se obtendran de este modo
nuevos valores para cada uno de los cruces de individuos y variables:
j
j ij
ij
k k
x
=
con
=
=
n
i
ij j
k
n
k
1
1
( )
n
k k
n
i
j ij
j
=
1
2
Los valores obtenidos tras la tipificacin se recogeran en una matriz de dimensin nxp
cuyo nombre sera matriz X y que tendra la siguiente forma:
=
np nj n
ip ij i
p j
x x x
x x x
x x x
X
... ...
... ... ... ... ...
... ...
... ... ... ... ...
... ...
1
1
1 1 11
Esta matriz X sera la matriz de datos y, por tanto, el punto de partida del ACP.
Los individuos del ACP seran las filas de la matriz anterior pero, al igual que ocurria en el
caso del analisis factorial general, al referirnos a ellos fuera de la matriz los expresaremos
como un vector columna:
+
p
p
p ip
j
j ij
i
ip
ij
i
i
k k
k k
k k
x
x
x
X
...
...
...
...
1
1 1
1
Matriz de inercia de los individuos V
La inercia de un individuo respecto al origen de coordenadas viene dada por:
( ) ( ) ( )
=
= = =
p
j
ij
i i
i O
x X O X d m i I
1
2
2
2
,
Para el calculo de la inercia de un individuo respecto al origen de coordenadas a lo largo
de una direccin expresada por un vector unitario U basta con recurrir al producto
escalar:
( ) ( ) ( ) [ ]
2
2
,
' , U X U X m i I
i i
i U O
= =
Por tanto, la inercia de la nube de individuos -respecto al origen de coordenadas- a lo
largo de la direccin U viene dada por:
( ) ( ) [ ]
=
=
n
i
i
U O
U X I I
1
2
,
'
Pero
( ) ( ) [ ] ( ) ( )U X X U XU XU U X I I
n
i
i
U O
' ' ) ( ' '
1
2
,
= = =
=
es decir,
( ) VU U I I
U O
'
,
=
siendo
X X V ' =
la matriz de inercia de los individuos.
Recordemos que en el caso del analisis factorial la matriz de inercia de los individuos es:
B B V ' =
5
pero, en el ACP las masas de todos los individuos son iguales a 1 con lo que X B = y, por
tanto, X X B B V ' ' = = .
Relacin de la matriz de inercia de los individuos con la matriz de correlacin
entre las variables
Conviene estudiar con mas detenimiento la forma de la matriz de inercia de los individuos.
Si efectuamos el producto X X' encontramos lo siguiente:
=
np nj n
ip ij i
p j
np ip p
nj ij j
n i
x x x
x x x
x x x
x x x
x x x
x x x
X X
... ...
... ... ... ... ...
... ...
... ... ... ... ...
... ...
... ...
... ... ... ... ...
... ...
... ... ... ... ...
... ...
'
1
1
1 1 11
1
1
1 1 11
El trmino general de la matriz X X' es:
( )( )
( ) ( ) ' , ' ,
1
1
'
1
' '
' 1 '
' '
1
' '
j j nCorr j j nCov
k k k k
k k k k
x x v
j j
n
i
j ij j ij
j j
n
i j
j ij
j
j ij
n
i
ij ij jj
= =
= =
|
|
.
|
\
|
|
|
.
|
\
|
= =
= = =
Es decir, la matriz X X V ' = es una matriz de dimensin pxp cuyos componentes son
proporcionales a los coeficientes de correlacin entre las correspondientes columnas de la
matriz K -o de la matriz X , ya que el proceso de tipificacin no afecta a la correlacin
entre las variables-. En consecuencia podemos escribir que:
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
nC
p p Corr j p Corr p Corr
p j Corr j j Corr j Corr
p Corr j Corr Corr
n V =
|
|
|
|
|
|
.
|
\
|
=
, ... ' , ... 1 ,
... ... ... ... ...
, ... ' , ... 1 ,
... ... ... ... ...
, 1 ... ' , 1 ... 1 , 1
es decir, la matriz de inercia de los individuos de un ACP es proporcional a la matriz de
correlaciones entre las variables originales que se han medido a los individuos -o entre las
variables tipificadas-. La constante de proporcionalidad es igual al numero de individuos
del analisis. Como ( ) ( ) j j Corr j j Corr , ' ' , = resulta evidente que la matriz C -y por tanto la
matriz V - es una matriz simtrica. Adicionalmente, como ( ) 1 , = j j Corr , los elementos de
la diagonal principal de la matriz C son todos iguales a 1 -y los de la matriz V son todos
iguales a n-.
Tal como se vio en el analisis factorial general, la diagonal principal de la matriz V
proporciona una descomposicin de la inercia total de la nube de individuos en funcin de
6
la inercia atribuible a cada una de las variables originales. Asimismo, la inercia total de la
nube de individuos sera igual a la traza de la matriz V :
( )
( )
( )
|
|
|
|
|
.
|
\
|
=
I I
I I
I I
V
p
X O
X O
X O
,
,
,
...
2
1
( ) ( ) ( ) ( ) ( ) I I x x m I I V tr
O
n
i
p
j
ij
p
j
n
i
ij i
p
j
X O
j
= = = = =
= = = =
1 1
2
1 1
2
1
,
Dada la forma de la matriz V resulta que:
( ) n I I
n
n
n
V
j
X O
=
|
|
|
|
|
.
|
\
|
=
,
...
y que
( ) ( ) np I I V tr
O
= =
Es decir, la inercia de la nube de individuos de un ACP a lo largo de la direccin de
cualquiera de las variables originales es n y la inercia total de la nube de individuos es
igual a np.
Comparacin entre los valores y vectores propios de V y C
Como ya sabemos, la determinacin de los ejes de inercia -y de la inercia recogida a lo
largo de cada uno de ellos- consiste basicamente en el calculo de los valores y vectores
propios de la matriz de inercia de los individuos -matriz V -. Sin embargo, la estrecha
relacin entre las matrices V y C , que ha sido puesta de manifiesto en el apartado
anterior, puede hacernos pensar que existe alguna relacin entre los valores y vectores
propios de ambas matrices. Esta suposicin es cierta.
En efecto, si U es un vector propio de V asociado al valor propio resulta que:
U VU =
pero como
nC V =
podemos escribir
U nCU =
/
de donde se deduce muy facilmente que
U
n
CU
|
.
|
\
|
=
En resumen, los vectores propios de las matrices V y C son los mismos. En cuanto a los
valores propios, si es valor propio de V entonces
n
=1
0
8
COORDENADAS DE LOS INDIVIDUOS
Una vez obtenidos los ejes de inercia -o componentes principales- a partir bien de la
matriz V bien de la matriz C el inters recae en el calculo de las coordenadas de los
individuos sobre este sistema de referencia ortonormal alternativo al de las variables
originales tipificadas.
El calculo de la coordenada de un individuo
i
X en el -simo eje de inercia se consigue
mediante el producto escalar:
( ) ( )
U X U X i F
i i
' , = =
donde, al igual que en el analisis factorial general, la expresin ( ) i F
denota la
coordenada en el -simo eje de inercia del i-simo individuo.
Si desearamos calcular las coordenadas de todos los individuos sobre el -simo eje de
inercia bastaria con realizar la siguiente operacin:
( )
( )
( )
XU
U X
U X
U X
n F
i F
F
F
n
i
=
=
,
...
,
...
,
...
...
1
1
Por ultimo, para calcular las coordenadas de todos los individuos sobre todos los ejes de
inercia basta con realizar el siguiente calculo:
( )
( )
( )
( )
( )
( )
( )
( )
( )
XU
U X
U X
U X
U X
U X
U X
U X
U X
U X
n F
i F
F
n F
i F
F
n F
i F
F
F
p
n
p
i
p
n
i
n
i
p
p
p
=
=
,
...
,
...
,
...
...
...
...
...
,
...
,
...
,
...
...
...
...
...
,
...
,
...
,
...
...
1
...
...
...
...
...
...
...
1
...
...
...
...
...
...
...
1
1 1
1
1
1
1
1
1
1
donde
( )
p
U U U U ... ...
1
=
es una matriz cuyas columnas son los sucesivos componentes principales -es decir, los
vectores propios unitarios de la matriz de inercia V -.
9
Tres tipos de coordenadas en los individuos
Hasta el momento hemos considerado tres tipos de coordenadas para los individuos que
forman parte de un ACP: sus coordenadas en las variables originales (
ij
k ), sus
coordenadas en las variables originales tipificadas (
ij
x ) y sus coordenadas en el nuevo
sistema de referencia ( ( ) i F
Correlaciones entre
columnas
( ) ' , j j Corr ( ) ' , j j Corr 0
En efecto, si consideramos las coordenadas de los individuos en las variables
originales -las recogidas en la matriz K - cada columna -es decir, cada variable-
tiene su propia media
j
k y su propia desviacin estandar
j
. Asimismo, si
consideramos dos columnas de la matriz K -es decir, dos variables medidas en su
escala original- existira entre ellas un determinado coeficiente de correlacin lineal
-que denotaremos por ( ) ' , j j Corr -.
Si ahora tomamos en cuenta las coordenadas de los individuos recogidas en la
matriz X -que, recordemos, es el resultado de la tipificacin de las variables de la
matriz K - las medias resultaran ser nulas y las desviaciones estandar iguales a 1.
Esto resulta evidente si nos paramos a pensar en que se trata de variables
tipificadas. Ademas, el coeficiente de correlacin entre las variables originales y las
variables tipificadas es el mismo: la tipificacin de las variables no afecta a su
coeficiente de correlacin.
Por su parte, las coordenadas de los individuos en los ejes de inercia son nuevas
variables cuya media es nula, cuya desviacin estandar es igual a
n
y que estan
incorreladas entre si. Estas afirmaciones requieren alguna comprobacin adicional.
10
Comencemos por comprobar que la media de las coordenadas de todos los individuos en
un determinado eje de inercia es nula.
En efecto, la media de las coordenadas de todos los individuos en un determinado eje de
inercia viene dada por:
( ) ( ) ( ) [ ] ( ) ( ) ( ) 0
1
...
1
' '
1
1
...
1
'
1
1
...
1
'
1
... 1
1 1
1
=
= + + =
=
X U
n
XU
n
F
n
n F F
n
i F
n
n
i
ya que
0
...
0
1
...
1
' X
es un vector que recoge las sumas de las columnas de la matriz X , que son todas nulas.
En cuanto a la varianza de las coordenadas de todos los individuos en un determinado eje
de inercia su expresin es:
( ) [ ] ( ) [ ] ( ) [ ] ( ) ( ) ( ) ( ) ( )
n
U X X U
n
XU XU
n
F F
n
n F F
n
i F
n
n
i
= = = = + + =
=
' '
1
'
1
'
1
... 1
1 1
2 2
1
2
Por lo que respecta a la correlacin entre las coordenadas de los individuos en dos ejes de
inercia diferentes
U y
U su expresin es:
( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) [ ] ( )
( ) ( ) ( ) ( ) ( ) ( ) 0 ' '
1
' '
1
'
1
'
1
... 1 1
1 1
1
2
1
= = = = =
= = + + = =
=
=
U U U U U X X U XU XU
F F n F n F F F i F i F
n
n
i F i F
n
i
n
i
ya que
( ) 0 ' =
U U
por ser ortogonales dos a dos los vectores propios de la matriz de inercia V .
De esta manera, hemos puesto de manifiesto de forma explicita el efecto que tiene la
realizacin de un ACP sobre una matriz de datos originales -matriz K -:
La tipificacin -es decir, el paso de la matriz K a la matriz X - tiene un doble efecto:
11
Por una parte, la traslacin del origen de coordenadas al centro de gravedad de la
nube de individuos. En otras palabras, las medias de las variables tipificadas son
nulas.
Por otra, la igualacin de la inercia atribuible a cada una de las variables -dicha
inercia se hace igual al numero de individuos n o lo que es lo mismo, la desviacin
estandar de las variables tipificadas se hace igual a 1-.
El proceso de tipificacin, no obstante, no afecta a la correlacin existente entre las
variables originales -que se mantiene igual- ni supone una prdida de la identidad de las
variables originales. Con esta afirmacin se quiere poner de manifiesto que existe una
relacin biunivoca entre las variables sin tipificar y las variables tipificadas, pudiendo
establecerse sin ambigedad que cierta variable tipificada corresponde a cierta variable
sin tipificar y viceversa.
El proceso de obtencin de los ejes de inercia de la nube de individuos y el calculo de las
coordenadas de los individuos sobre dichos ejes -es decir, el paso de la matriz X a la
matriz F tiene un cuadruple efecto:
En primer lugar, y ste es el efecto mas llamativo, se rompe el vinculo que existia
entre las variables originales y las variables tipificadas. Una vez obtenidos los ejes
de inercia y calculadas las coordenadas de los individuos sobre ellos ya no es
posible establecer una relacin biunivoca entre variables originales -o tipificadas- y
coordenadas de los individuos sobre los ejes de inercia. De hecho, las coordenadas
de los individuos sobre los ejes de inercia son nuevas variables que no son sino
combinaciones lineales de las variables tipificadas. Tal y como se puede apreciar en
la siguiente expresin, el valor que toma un individuo en una de estas nuevas
variables es una combinacin lineal de los valores que toma en todas y cada una
de las variables tipificadas. El peso de cada una de las variables en esta
combinacin lineal dependera de los valores de los
j
u
+ + =
= =
p
n
p
i
p
n
i
n
i
U X
U X
U X
U X
U X
U X
U X
U X
U X
XU F
,
...
,
...
,
...
...
...
...
...
,
...
,
...
,
...
...
...
...
...
,
...
,
...
,
1 1
1
1
1
1
Por tanto, la matriz de los cuadrados de F tendra la siguiente forma:
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
n I
i I
I
n I
i I
I
n I
i I
I
U X
U X
U X
U X
U X
U X
U X
U X
U X
p
p
p
U O
U O
U O
U O
U O
U O
U O
U O
U O
p
n
p
i
p
n
i
n
i
,
,
,
,
,
,
,
,
,
2
2
2
1
2
2
2
1
2
1
2
1
2
1
1
...
...
1
...
...
...
...
...
...
...
1
...
...
...
...
...
...
...
1
,
...
,
...
,
...
...
...
...
...
,
...
,
...
,
...
...
...
...
...
,
...
,
...
,
1
1
1
es decir, el elemento genrico de la matriz de los cuadrados de F recoge la inercia del i-
simo individuo en el -simo eje de inercia.
La suma de los elementos de la columna -sima de la anterior matriz sera:
13
( ) ( ) ( )
= = =
= =
I I i I U X
U O
n
i
U O
n
i
i
,
1
,
1
2
,
Es decir, es la suma de los cuadrados de las proyecciones de todos los individuos a lo
largo del -simo eje de inercia. Se trata, en otras palabras, de la inercia de la nube de
individuos a lo largo del -simo eje de inercia, es decir,
.
En cuanto a las filas, la suma de los elementos de la i-sima fila de la matriz de los
cuadrados de F es:
( ) ( ) ( ) i I i I U X
O
p
U O
p
i
= =
= = 1
,
1
2
,
Es decir, se trata de la suma de los cuadrados de las proyecciones del i-simo individuo
sobre todos los ejes de inercia. Se trata, en otras palabras, de la inercia total del i-simo
individuo.
En resumen, hemos visto que la matriz de los cuadrados de F tiene la siguiente forma:
( )
( )
( )
( )
( )
( )
( )
( )
( )
n I
i I
I
n I
i I
I
n I
i I
I
p
p
p
U O
U O
U O
U O
U O
U O
U O
U O
U O
,
,
,
,
,
,
,
,
,
...
...
1
...
...
...
...
...
...
...
1
...
...
...
...
...
...
...
1
1
1
1
Las sumas de las columnas de la matriz de cuadrados de la matriz F conforman un
vector de dimensin 1xp que recoge la inercia de la nube de individuos a lo largo de cada
uno de los ejes de inercia:
( ) ( ) ( ) ( ) ( )
p U O U O U O
I I I I I I
p
n I
i I
I
O
O
O
...
...
1
A partir de los elementos de la matriz de los cuadrados de F y de la suma de sus filas y
sus columnas podremos calcular las contribuciones y los cosenos cuadrados de los
individuos en los distintos ejes de inercia.
1+
Contribuciones de los individuos en los ejes de inercia
Se define la contribucin de un individuo en un eje de inercia como la parte de la inercia
total a lo largo del eje que se debe al individuo. En concreto:
( )
( )
( )
( )
2
,
,
,U X
I I
i I
i CTR
i
U O
U O
= =
Expresado de modo mas directo: las contribuciones de los individuos en los ejes de inercia
se obtienen dividiendo los elementos de la matriz de los cuadrados de F entre la suma
de la columna correspondiente -porcentajes en vertical-.
La contribucin de un individuo a la inercia de un eje mide la importancia de dicho
individuo en el eje. Naturalmente debe ocurrir que:
( )
( )
( )
1
,
1
,
1
= =
=
=
I I
i I
i CTR
U O
n
i
U O n
i
Las contribuciones de los individuos en un determinado eje de inercia nos permiten
establecer cuales son los individuos que resultan ser importantes en esa direccin del
espacio. Debera prestarse especial atencin a aqullos cuya contribucin supere a la que
deberian tener si se diera un reparto equitativo de la inercia del eje entre todos los
individuos, es decir, habra que centrarse en aquellos individuos que cumplan que:
( )
n
i CTR
1
>
En el caso particular del ACP no ponderado -el que estamos tratando en este tema- todas
las masas resultan ser iguales a la unidad por lo que:
( )
( )
( )
( ) [ ] ( ) [ ]
( ) [ ]
=
= = =
n
i
U O
U O
i F
i F i F
I I
i I
i CTR
1
2
2 2
,
,
de donde se deduce que los individuos que tienen las mayores coordenadas sobre el eje -
en valor absoluto- son los que presentan una mayor contribucin sobre el eje y, por tanto,
son los individuos mas importantes en dicho eje. En este sentido, la informacin que
proporcionan las contribuciones de los individuos -en el caso del ACP- resulta redundante
en relacin con la que nos proporcionan las propias coordenadas de los individuos.
Cosenos cuadrados de los individuos en los ejes de inercia
En cuanto al coseno cuadrado de un individuo respecto a un eje de inercia se define como
la parte de la inercia del individuo que queda recogida en dicho eje. Tiene, por tanto, la
siguiente expresin:
15
( )
( )
( )
( )
( )
( ) [ ]
( )
2
2
2
2
2
2
,
cos
cos ,
2 = = = = =
i
i
i
O
i
O
U O
X
X
X
i F
i I
U X
i I
i I
i CO
donde es el angulo que forman entre si los dos vectores
i
X y
U . El coseno cuadrado
es, de verdad, el cuadrado del coseno de un angulo y es una medida de la calidad de la
representacin del i-simo individuo en el -simo eje de inercia. Si el valor del coseno
cuadrado es muy pequeno debemos concluir que slo una pequena parte de la inercia del
individuo queda recogida en dicho eje de inercia. Lo que es mas, si una vez elegido el
numero de ejes de inercia que vamos a considerar en nuestra representacin simplificada
de la nube de individuos resulta que la suma de los cosenos cuadrados de cierto individuo
en los ejes retenidos es reducida debemos concluir que la representacin del individuo en
el espacio elegido no resulta adecuada. No "vemos" dnde se encuentra situado el
individuo y para localizarlo deberemos recurrir a estudiar sus coordenadas en aquellos
ejes de inercia en los que presente un coseno cuadrado mas elevado.
Naturalmente, debe ocurrir que:
( )
( )
( )
1 2
1
,
1
= =
=
=
i I
i I
i CO
O
p
U O p
LA NUBE DE VARIABLES
Como ya se ha comentado repetidamente, el ACP no es sino un caso particular del analisis
factorial general. Las dos perspectivas desde las que se puede contemplar la tabla de
datos en el analisis factorial -la de los individuos y la de las variables- son tambin
trasladables al caso del ACP. Existen, no obstante, algunas particularidades que
deberemos tener en cuenta; en concreto, a diferencia de lo que ocurre en el analisis
factorial general, en el ACP la inercia de la nube de individuos no es igual a la inercia de la
nube de variables. Esto es asi por la forma peculiar en que definiremos las variables en el
ACP, forma que no coincide exactamente con la definicin establecida para dicho
concepto en el analisis factorial general.
Definicin de las variables en el ACP
Segun se vio en el caso del analisis factorial general las variables de un analisis son las
columnas de la matriz X -o de la matriz B , si quisiramos tomar en consideracin las
masas de los individuos-. Siguiendo esta definicin deberamos definir las variables de
un ACP del siguiente modo:
|
|
|
|
|
|
.
|
\
|
=
nj
ij
j
j
x
x
x
Y
...
...
1
16
Si definiramos las variables de este modo todo el analisis de la nube de variables
discurriria con normalidad y, en particular, ocurriria que la inercia de la nube de variables
coincidiria con la inercia de la nube de individuos. Tradicionalmente, sin embargo, se ha
optado por una definicin alternativa de la nube de variables, lo que arrastrara algunas
consecuencias positivas -como mas adelante veremos- pero supondra algunos desajustes
respecto a lo que cabria esperar al tratarse el ACP de un caso particular de analisis
factorial. En efecto, tradicionalmente -y nosotros adoptaremos esta definicin- las
variables de un ACP se definen del siguiente modo:
n
nj
ij
j
j
x
x
x
n
Y
|
|
|
|
|
|
.
|
\
|
=
...
...
1
1
Las consecuencias de esta definicin son una representacin e interpretacin mas sencilla
de la nube de variables. En particular:
Las variables de un ACP asi definidas son vectores de
n
situados en una
hiperesfera de radio 1.
El producto escalar entre dos variables asi definidas es igual al coeficiente de
correlacin entre las correspondientes columnas de la matriz X o de la matriz K ,
es decir, es igual al coeficiente de correlacin entre las correspondientes variables
originales o tipificadas.
La distancia entre dos variables asi definidas esta relacionada de forma muy
sencilla con la correlacin entre las variables, lo que permite interpretar la distancia
entre variables como una medida de su correlacin.
Por otro lado, esta comodidad y elegancia en la interpretacin de la nube de variables no
es gratuita. El precio a pagar adoptara la forma de algunos desajustes del ACP con
respecto al analisis factorial general, que habra que tomar en consideracin. Analicemos,
ahora, las propiedades mencionadas para la nube de variables.
Mdulo de las variables: la hiperesfera de radio unidad
Sea una variable de un ACP a la que llamaremos
j
Y :
n
nj
ij
j
j
x
x
x
n
Y
|
|
|
|
|
|
.
|
\
|
=
...
...
1
1
El cuadrado del mdulo de dicha variable es:
1/
( ) ( ) ( )
( ) 1
1 1 1
1
...
...
1
... ...
1
'
2
2
1
2
2
1
2
1
2
1
2
1
= = =
|
|
.
|
\
|
=
=
|
|
|
|
|
|
.
|
\
|
= =
= =
=
j
j
n
i
j ij
j
n
i j
j ij
n
i
ij
nj
ij
j
nj ij
j j j
n
n
k k
n
k k
n
x
n
x
x
x
n
x x x
n
Y Y Y
j
En consecuencia, hemos encontrado que:
1
2
=
j
Y
Y por tanto:
1 =
j
Y
En otras palabras, las variables de un ACP son vectores de mdulo 1 o, dicho de otro
modo, las variables de un ACP son vectores del espacio
n
situadas en una hiperesfera
2
de radio unidad.
El producto escalar entre dos variables es igual a su coeficiente de
correlacin
Consideremos ahora una pareja de variables
j
Y e
' j
Y . Su producto escalar sera:
2
Una hiperesfera de radio 1 en un espacio vectorial
n
es el conjunto de vectores del espacio
n
cuyo
mdulo es 1. Por ejemplo, una hiperesfera de radio 1 en
2
es una circunferencia; una hiperesfera de
radio 1 en
3
es una esfera, etctera.
18
( ) ( )
( )( )
( )( )
( )
( ) ' ,
' ,
1 1
1
...
...
... ...
1
' ,
' '
1
' '
1
' '
' 1 '
' '
1
'
'
'
' 1
1
' '
j j Corr
j j Cov
n
k k k k
k k k k
n
k k k k
n
x x
n
x
x
x
x x x
n
Y Y Y Y
j j j j
n
i
j ij j ij
n
i
j ij j ij
j j
n
i j
j ij
j
j ij
n
i
ij ij
nj
ij
j
nj ij j
j j j j
= =
= =
|
|
.
|
\
|
|
|
.
|
\
|
=
= =
|
|
|
|
|
|
.
|
\
|
= =
=
= =
=
Es decir, el producto escalar entre las variables de un ACP es una medida de la correlacin
que existe entre ellas. Si a esto anadimos el hecho de que las variables se encuentran
situadas en una hiperesfera de radio unidad -y que, en consecuencia, su mdulo es 1-, si
llamamos al angulo que existe entre los vectores
j
Y e
' j
Y :
( ) ' , cos cos ,
' '
j j Corr Y Y Y Y
j j j j
= = =
Por ejemplo, si el angulo que forman entre si las variables
j
Y e
' j
Y es nulo -es decir, si
ambas variables ocupan el mismo lugar en el espacio- es porque su correlacin es +1 -y
viceversa-. Analogamente, si las variables
j
Y e
' j
Y forman entre si un angulo de
radianes -es decir, si las variables se encuentran diametralmente opuestas en la
hiperesfera de radio 1- es porque su correlacin es -1. Por ultimo, si la correlacin entre
las variables es 0 entonces formaran un angulo de 2 radianes.
En resumen, existe una evidente relacin entre la correlacin entre las variables originales
-o las variables tipificadas, que es la misma- y la posicin relativa de
j
Y e
' j
Y en el
espacio
n
. A continuacin vamos a estudiar con un poco mas de detalle dicha relacin:
Relacin entre los conceptos de distancia y de correlacin entre variables.
Posiciones relativas de parejas de variables
Consideremos nuevamente las dos variables
j
Y e
' j
Y y calculemos el cuadrado de la
distancia que existe entre ellas:
( ) ( ) ( )
( ) ( ) [ ][ ] ( ) ( ) ( ) ( )
( ) ( ) ( ) [ ] ' , 1 2 , ' ' ,
' ' ' ' ' '
' ,
2
'
2
' ' ' ' ' '
' '
2
' ' 2
j j Corr Y j j Corr j j Corr Y
Y Y Y Y Y Y Y Y Y Y Y Y
Y Y Y Y Y Y Y Y d
j j
j j j j j j j j j j j j
j j j j j j j j
= + =
= + = =
= = =
19
Es decir, la distancia entre dos variables -en concreto, el cuadrado de dicha distancia-
esta relacionado con la correlacin entre las correspondientes variables originales -o
tpificadas-:
Cuando la correlacin entre las variables es +1, entonces ( ) [ ] ' , 1 2 j j Corr vale 0, es
decir, la distancia entre
j
Y e
' j
Y es nula: cuando dos variables tienen correlacin
lineal directa y perfecta
j
Y e
' j
Y se encuentran en el mismo punto del espacio
n
.
Cuando la correlacin entre las variables es -1, entonces ( ) [ ] ' , 1 2 j j Corr vale +, es
decir, la distancia entre
j
Y e
' j
Y es 2. Como
j
Y e
' j
Y se encuentran situadas en
una hiperesfera de radio 1 podemos deducir que cuando dos variables tienen
correlacin lineal inversa perfecta
j
Y e
' j
Y se encuentran en puntos
diametralmente opuestos de la hiperesfera de radio 1.
Por fin, cuando la correlacin entre las variables es 0, entonces ( ) [ ] ' , 1 2 j j Corr vale
2. La distancia entre
j
Y e
' j
Y es, por tanto, 2 . Dada la situacin de
j
Y e
' j
Y en
la hiperesfera de radio 1 en
n
podemos afirmar que, en este caso, el angulo que
forman
j
Y e
' j
Y entre si debe ser un angulo recto -es decir, son ortogonales-.
Definicin de la inercia de una variable
Una vez definidas las variables de un ACP e interpretado su significado geomtrico y su
relacin con la correlacin entre las variables originales estamos ya en disposicin de
estudiar la inercia de la nube de variables.
Para ello dotaremos a cada variable de una masa unitaria y consideraremos como punto
de referencia el origen de coordenadas en
n
. Dicho origen de coordenadas representa a
una variable nula, un vector en
n
cuyos componentes son todos nulos es decir:
|
|
|
|
|
|
.
|
\
|
=
0
...
0
...
0
1
n
O
lo que slo puede ocurrir si:
i x
ij
= 0
Es decir, si
i
k k
j
j ij
=
O lo que es lo mismo, si
20
i k k
j ij
=
En otras palabras, el origen de coordenadas de
n
representa a una variable en la que
todos los individuos toman el mismo valor que la media, es decir, una variable
constante".
Siempre que las variables originales tengan algun valor diferente a los demas, el proceso
de tipificacin, y la posterior definicin de las variables en la forma en que lo hemos
hecho haran que el mdulo de cualquier variable sea igual a la unidad. Por tanto, la
inercia de una variable en el ACP respecto al origen de coordenadas en
n
se definira
como:
( ) ( ) 1 ,
2
2
= = =
j j
j O
Y O Y d m j I
En otras palabras, la inercia de una variable es siempre igual a 1.
Ahora, para calcular la inercia de toda la nube de variables respecto al origen de
coordenadas en
n
no tendremos mas que sumar la inercia correspondiente a las p
variables. Es decir:
( ) ( ) p j I J I
p
j
O O
= =
=1
Es decir, la inercia de la nube de variables de un ACP respecto al origen de coordenadas
de
n
es igual al numero de variables.
Surge asi el primer desajuste respecto al analisis factorial general. En efecto, segun se vio
en el capitulo anterior, en el caso del analisis factorial general la inercia de la nube de
individuos y la de la nube de variables coinciden. Esta coincidencia entre la inercia de
ambas nubes no es sino un reflejo de la naturaleza dual de dichas nubes. Sin embargo,
esta igualdad no se cumple en el caso del ACP ya que ( ) p J I
O
= mientras que ( ) np I I
O
= .
El motivo es la heterodoxa definicin que se ha efectuado para las variables de un ACP y,
en concreto, la introduccin del coeficiente
n
1
.
Analogamente a lo que haciamos para el caso de los individuos tambin para las variables
podemos definir la inercia respecto al origen a lo largo de una direccin en
n
. En efecto,
si W es un vector unitario de
n
podemos definir la inercia de una variable
j
Y a lo largo
de la direccin W del modo siguiente:
( ) [ ] [ ] ( ) [ ]
2
2 2
,
' , , W Y W Y W Y m j I
j j j
j W O
= = =
Y la inercia de la nube de variables respecto al origen de
n
a lo largo de la direccin W
sera:
21
( ) ( ) [ ]
=
=
p
j
j
W O
W Y J I
1
2
,
'
La matriz de inercia de las variables
Dado que la expresin de la inercia de la nube de variables a lo largo de una direccin W
es una suma de p cuadrados podemos expresarla como el cuadrado del mdulo de un
vector en
p
. En efecto, si consideramos el vector:
( )
( )
( )
p
p
j
W
W Y
W Y
W Y
G
=
'
...
'
...
'
1
Resulta evidente que:
( ) ( )
W W W W O
G G G J I '
2
,
= =
veamos ahora cmo podemos obtener una expresin para el vector
W
G a partir de
elementos ya conocidos. Tenemos que:
( )
( )
( )
( )
( )
( )
W X
n
W
Y
Y
Y
W Y
W Y
W Y
G
p
j
p
j
W
'
1
'
...
'
...
'
'
...
'
...
'
1 1
=
=
Por lo tanto, la inercia de la nube de individuos respecto al origen a lo largo del vector W
se puede expresar como:
( ) ( ) W XX
n
W W X
n
W X
n
G G G J I
W W W W O
|
.
|
\
|
= |
.
|
\
|
= = = '
1
' '
1
' '
1
'
2
,
Esta expresin recuerda en gran medida a la que se obtuvo para la nube de individuos.
Recurdese que:
( ) ( )U X X U I I
U O
' '
,
=
La unica diferencia reside en el escalar
n
1
-que como se puede deducir proviene de la
peculiar definicin de las variables en el ACP- y en el orden de las matrices. A la matriz
que aparece entre parntesis en la expresin anterior la llamaremos y es la matriz de
inercia de la nube de variables. Es decir:
22
'
1
XX
n
=
La matriz es de dimensin nxn y su aspecto es el siguiente:
= =
np ip p
nj ij j
n i
np nj n
ip ij i
p j
x x x
x x x
x x x
x x x
x x x
x x x
n
XX
n
... ...
... ... ... ... ...
... ...
... ... ... ... ...
... ...
... ...
... ... ... ... ...
... ...
... ... ... ... ...
... ...
1
'
1
1
1
1 1 11
1
1
1 1 11
Por lo que su trmino general
' ii
es:
=
=
p
j
j i ij ii
x x
n
1
' '
1
En particular, los elementos de la diagonal principal son:
( ) ( ) i I
n
X
n
x
n
O
i
p
j
ij ii
1 1 1
2
1
2
= = =
=
Es decir, los elementos de la diagonal principal de la matriz proporcionan la inercia de
cada uno de los individuos dividida entre el numero de individuos. Naturalmente, la traza
de la matriz es igual a:
( ) ( ) ( ) ( ) J I p np
n
I I
n
i I
n
tr
O O
n
i
O
= = = = =
=
1 1 1
1
Determinacin de los ejes de inercia y las inercias de la nube de variables
Para determinar los ejes de inercia de la nube de variables debemos proceder igual que
en el caso de los individuos. Obtendremos los valores propios de la matriz y a partir de
ellos los vectores propios. Dichos vectores propios -que haremos unitarios- seran los ejes
de inercia de la nube de variables y constituiran una base ortonormal alternativa a la
cannica. Dicha base ortonormal permitira obtener una matriz semejante a -que
compartira su ecuacin caracteristica y, por tanto, su traza-.
Relacin entre los valores y vectores propios de V y de . Frmulas de
transicin
Las matrices de inercia de los individuos y de las variables -V y respectivamente-
tienen una expresin muy similar. Pero su similitud no acaba en lo parecido de su
expresin: existe una sencilla relacin entre los valores propios de V y -y tambin
entre sus vectores propios-.
23
En efecto, supongamos que
. Si esto es asi
podemos escribir:
U VU =
es decir,
U XU X = '
Si ahora premultiplicamos ambos miembros de la expresin anterior por X
n
1
tendremos:
( ) ( )
XU
n
XU XX
n
= '
1
Es decir,
( ) ( )
XU
n
XU =
En otras palabras, si
entonces podemos afirmar que
.
Ntese que no podemos afirmar que
XU :
( ) ( ) ( ) ( )
= = = = = U U VU U XU X U XU XU XU ' ' ' ' '
2
Por lo tanto, si
entonces
podemos afirmar que
n
XU W =
1
es vector propio unitario de asociado al valor
propio
n
, es decir, que
n
XU W =
1
es un eje de inercia de la nube de variables
y que la inercia que se explica a lo largo de este vector es
n
.
Reciprocamente, supongamos que
. Podemos escribir:
2+
W
n
W =
Es decir,
W
n
W XX
n
= '
1
Si ahora premultiplicamos ambos miembros de la expresin anterior por ' nX
obtendremos:
( ) ( )
W X W X X X ' ' ' =
Es decir,
( ) ( )
W X W X V ' ' =
Podemos afirmar que si
entonces
entonces
p
W X U =
'
1
es vector propio unitario de V asociado al valor propio
.
En resumen, los valores propios de la matriz de inercia de las variables -matriz - se
obtienen dividiendo entre n los valores propios de la matriz de inercia de los individuos -
matriz V -. En cuanto a los vectores propios de estas dos matrices existen unas frmulas
-llamadas de transicin- que permiten obtener los vectores propios de una de ellas a
partir de los de la otra. En concreto, las frmulas de transicin son:
n
XU W =
1
p
W X U =
'
1
Donde
U y
en el caso de -.
25
Relacin entre
U y
W y dualidad en el ACP
Ntese que
U y
U se encuentra en
p
-el espacio de las variables-
mientras que
W es un vector de
n
-el espacio de los individuos-. Sin embargo, a pesar
de que son diferentes hay un hecho que debemos resaltar: la inercia de la nube de
individuos a lo largo de
U es igual a
W es igual a
n
U o a
W .
El primer componente principal sera, por tanto, aquella direccin del espacio a lo largo de
la cual la inercia es maxima. Esta frase, que no hace referencia explicita a ningun espacio
concreto, recoge en su interior un doble sentido:
Por una parte, se refiere a la nube de individuos: el primer componente principal -
al que llamamos
p
U
1
- es la direccin del espacio
p
a lo largo de la cual la
inercia de la nube de individuos es maxima -y tiene como valor
1
, el mayor valor
propio de la matriz V -
Por otra parte, se refiere a la nube de variables: el primer componente principal -al
que llamamos
n
W
1
- es la direccin del espacio
n
a lo largo de la cual la inercia
de la nube de variables es maxima -y tiene como valor
n
1
W .
De esta expresin podemos deducir que el valor de la coordenada sobre un eje de inercia
sera siempre un valor comprendido entre -1 y +1. Esto resulta lgico si recordamos que el
mdulo de las variables en un ACP es igual a 1 y que la coordenada de una variable sobre
un eje de inercia es una proyeccin -es imposible que al proyectar un vector de mdulo 1
obtengamos un vector cuyo mdulo sea superior a 1-.
Coordenada de todas las variables en un eje de inercia
En ocasiones nos interesara disponer en un solo vector de las coordenadas de las p
variables sobre un determinado eje de inercia. En otras palabras, podriamos estar
interesados en obtener un vector de la forma:
( )
( )
( )
p
p G
j G
G
...
...
1
Llamaremos
W X
n
W
Y
Y
Y
W Y
W Y
W Y
p G
j G
G
G
p
j
p
j
'
1
'
...
'
...
'
'
...
'
...
'
...
...
1
1 1
=
=
2/
Coordenadas de todas las variables en todos los ejes de inercia. La matriz G
Por ultimo, si construimos una matriz W disponiendo uno al lado de otro los vectores
propios unitarios de la matriz -correspondientes a los ejes de inercia de la nube de
variables- podemos obtener una matriz que recoja las coordenadas de las p variables
sobre todos los ejes de inercia. Llamaremos G a dicha matriz, que recogera las
coordenadas de todas las variables en todos los ejes:
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
W X
n
W Y W Y W Y
W Y W Y W Y
W Y W Y W Y
p G p G p G
j G j G j G
G G G
G
n
p p p
n
j j j
n
n
n
n
'
1
' ... ' ... '
... ... ... ... ...
' ... ' ... '
... ... ... ... ...
' ... ' ... '
... ...
... ... ... ... ...
... ...
... ... ... ... ...
1 ... 1 ... 1
1
1
1 1
1
1
1
1
1
=
CONTRIBUCIONES Y COSENOS CUADRADOS DE LAS VARIABLES
Analogamente al caso de los individuos, tambin para las variables podemos hablar de su
contribucin y de su coseno cuadrado, con significados similares. En concreto:
La contribucin de una variable en un determinado eje de inercia es una medida de
la importancia de la variable en dicho eje y, en concreto, determina qu parte de la
inercia total que existe a lo largo del eje se debe a la variable.
El coseno cuadrado de una variable en un eje de inercia es una medida de la
calidad de la representacin de la variable en dicho eje y se calcula obteniendo la
proporcin de la inercia total de la variable que queda explicada a lo largo del eje
de inercia.
El calculo de los cosenos cuadrados y de las contribuciones de las variables se puede
efectuar muy facilmente una vez obtenida la matriz de los cuadrados de G .
La matriz de los cuadrados de G
Consideremos la matriz G a la que nos acabamos de referir:
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
=
n
p p p
n
j j j
n
W Y W Y W Y
W Y W Y W Y
W Y W Y W Y
G
' ... ' ... '
... ... ... ... ...
' ... ' ... '
... ... ... ... ...
' ... ' ... '
1
1
1 1
1
1
A partir de esta matriz vamos a obtener otra de igual dimensin cuyos elementos son los
cuadrados de los elementos de la matriz G . Dicha matriz tendra la siguiente forma:
28
( ) [ ] ( ) [ ] ( ) [ ]
( ) [ ] ( ) [ ] ( ) [ ]
( ) [ ] ( ) [ ] ( ) [ ]
2 2 2
1
2 2 2
1
2
1
2
1
2
1
1
' ... ' ... '
... ... ... ... ...
' ... ' ... '
... ... ... ... ...
' ... ' ... '
n
p p p
n
j j j
n
W Y W Y W Y
W Y W Y W Y
W Y W Y W Y
Tomemos la columna genrica -la -sima- y calculemos su suma:
( ) [ ]
=
p
j
j
W Y
1
2
'
Esta expresin es la suma de los cuadrados de las proyecciones de las variables sobre el
-simo eje de inercia, es decir, la inercia respecto al origen a lo largo de la direccin
W
de la nube de variables:
( ) [ ] ( ) ( )
n
J I W W W X
n
W X
n
W Y
W O
p
j
j
= = =
|
|
.
|
\
|
|
|
.
|
\
|
=
=
,
1
2
' '
1
' '
1
'
Por tanto, las sumas de las columnas de la matriz de los cuadrados de G es un vector de
la forma:
( ) ( ) ( ) [ ] J I J I J I
n
W O W O W O , , ,
... ...
1
Consideremos ahora la fila genrica -la j-sima- y calculemos su suma:
( ) [ ]
=
n
j
W Y
1
2
'
Esta expresin es la suma de los cuadrados de las proyecciones de la j-sima variable
sobre los ejes de inercia, es decir, es el mdulo de la variable
j
Y , que recordemos, es
igual a 1:
( ) [ ] ( ) ( ) [ ]
( )
( )
( ) ( ) 1 ' ' '
'
'
' ... ' '
1
1
1
2
= = =
=
j j j j
n
j
j
n
j j
n
j
Y Y Y WW Y
W Y
W Y
W Y W Y W Y
Por ultimo, el elemento genrico de la matriz de los cuadrados de G es de la forma:
( ) [ ]
2
'
W Y
j
es decir, es la inercia de la j-sima variable en el -simo eje de inercia.
En resumen, la matriz de los cuadrados de G tiene la forma:
29
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
p I p I p I
j I j I j I
I I I
n
n
n
W O W O W O
W O W O W O
W O W O W O
, , ,
, , ,
, , ,
... ...
... ... ... ... ...
... ...
... ... ... ... ...
1 ... 1 ... 1
1
1
1
las sumas por columnas son:
( ) ( ) ( ) [ ] J I J I J I
n
W O W O W O , , ,
... ...
1
y las sumas por filas son iguales a la unidad.
Contribuciones de las variables
La contribucin de la j-esima variable a la inercia explicada a lo largo del -simo eje de
inercia es una medida de su importancia y se define como el cociente entre la inercia de
la variable a lo largo del eje de inercia y la inercia de la nube de variables a lo largo de
ese mismo eje:
( )
( )
( )
( ) [ ]
n
j G
J I
j I
j CTR
W O
W O
2
,
,
= =
Las contribuciones de las variables se obtienen facilmente a partir de la matriz de los
cuadrados de G calculando los porcentajes por columnas.
Cosenos cuadrados de las variables
En cuanto a los cosenos cuadrados, son indices de la calidad de representacin de la
variable sobre el eje de inercia. En concreto, el coseno cuadrado de la j-sima variable
respecto al -simo eje de inercia se define como el cociente entre la inercia de la
variable a lo largo del eje de inercia y la inercia total de la variable:
( )
( )
( )
( ) [ ]
( ) [ ]
2
2
,
1
2 j G
j G
j I
j I
j CO
O
W O
= = =
La obtencin de los cosenos cuadrados
3
de las variables es, como se desprende de la
expresin anterior, sumamente sencilla: basta con obtener los cuadrados de las
coordenadas de las variables sobre los ejes de inercia.
3
La literatura sobre analisis de datos suele emplear el trmino comunalidad para referirse al coseno
cuadrado de las variables.
30
DUALIDAD EN EL ANLISIS DE COMPONENTES PRINCIPALES
Las frmulas de transicin presentadas en un apartado anterior ponen de manifiesto que
el analisis de la nube de variables y el de la nube de individuos son dos formas
alternativas -y complementarias- de estudiar la tabla de datos.
Esta relacin entre las nubes de individuos y de variables llega hasta el punto de que
solapamos" los vectores
U y
XU W
1
=
y la frmula que nos permite obtener las coordenadas de las variables en el nuevo
sistema de referencia:
XU F =
En la primera de las dos frmulas podemos sustituir
XU por
F y obtenemos:
F W
1
=
o de modo equivalente:
W F =
Ambas expresiones ponen de manifiesto que las coordenadas de los individuos sobre el
-simo eje de inercia de la nube de individuos son proporcionales al -simo vector
propio de la matriz de inercia de las variables -siendo
la constante de
proporcionalidad-.
Ntese que esta igualdad pone de manifiesto la existencia de una relacin de dualidad
entre el analisis de la nube de individuos y la de variables ya que un concepto
perteneciente a los individuos -como son sus coordenadas- se nos presenta directamente
31
relacionado con un concepto propio de la nube de variables -como son las direcciones de
maximo alargamiento de dicha nube-.
Relacin entre las coordenadas de las variables y los vectores propios de la matriz V
Analogamente, consideremos la frmula de transicin:
W X U '
1
=
y la frmula que nos permite obtener las coordenadas de las variables en el nuevo
sistema de referencia:
W X
n
G '
1
=
En la primera de las dos frmulas podemos sustituir
W X' por
G n y obtenemos:
G
n
U =
o de modo equivalente:
U
n
G =
Ambas expresiones ponen de manifiesto que las coordenadas de las variables sobre el -
simo eje de inercia de la nube de variables son proporcionales al -simo vector propio
de la matriz de inercia de los individuos -siendo
n
la constante de proporcionalidad.
Expresin de las coordenadas de los individuos en funcin de las coordenadas de las
variables
Tomemos ahora la expresin que nos permite obtener las coordenadas de los individuos
sobre los ejes de inercia:
XU F =
Consideremos, ademas, la relacin que acabamos de obtener entre las coordenadas de
las variables sobre los ejes de inercia y los vectores propios de la matriz V :
G
n
U =
32
Si sustituimos el valor de
XG
n
G
n
X XU F = = =
Esta expresin relaciona las coordenadas de los individuos sobre el -simo eje de
inercia con las coordenadas de las variables en ese mismo eje de inercia -con la
precaucin de que el primero es un eje de inercia de la nube de individuos y el segundo lo
es de la nube de variables-.
En particular, si consideramos el elemento genrico del vector
F tenemos que:
( ) ( ) j G x
n
i F
p
j
ij
=
=
1
Es decir, la coordenada del i-simo individuo en el -simo eje de inercia - ( ) i F
- es una
combinacin lineal de las coordenadas de las variables - ( ) j G
- en el -simo eje de
inercia. Los coeficientes de dicha combinacin lineal dependen de los valores que el
individuo i-simo toma en las variables -
ij
x -.
En resumen, las coordenadas de los individuos dependen de las coordenadas de las
variables y de los valores que tienen los individuos en dichas variables. Por ejemplo, si un
individuo tiene valores altos en variables con coordenada positiva y valores bajos en
variables con coordenada negativa en un eje de inercia entonces el individuo tendra una
coordenada positiva en dicho eje de inercia. Reciprocamente, si un individuo tiene valores
bajos en variables con coordenada positivas y valores altos en variables con coordenada
negativa en un eje de inercia entonces el individuo tendra coordenada negativa en dicho
eje.
Expresin de las coordenadas de las variables en funcin de las coordenadas de los
individuos
La dualidad del analisis de componentes principales nos permite obtener la relacin
simtrica a la presentada en el apartado anterior.
En efecto, si consideramos la frmula que nos permite obtener las coordenadas de las
variables sobre los ejes de inercia:
W X
n
G '
1
=
y ademas, la frmula que relaciona las coordenadas de los individuos con los vectores
propios de la matriz :
33
F W
1
=
podemos sustituir el valor de
F X
n
F X
n
G '
1 1
'
1
= =
Esta expresin relaciona las coordenadas de las variables en un determinado eje de
inercia con las coordenadas de los individuos en ese mismo eje de inercia.
Analogamente a nuestra forma de proceder en el caso de los individuos prestaremos a
continuacin atencin al elemento genrico del vector
G :
( ) ( ) i F x
n
j G
n
i
ij
=
=
1
1
Esta ultima expresin pone de manifiesto que la coordenada de la j-sima variable en el
-simo eje de inercia de la nube de variables - ( ) j G
=
nj
ij
j
j
x
x
x
X
...
...
1
y
( )
( )
( )
=
n F
i F
F
F
...
...
1
Se trata, en ambos casos, de variables que toman valores en todos y cada uno de los
individuos.
Pues bien, vamos a estudiar la correlacin entre estas dos variables, que dicho sea de
paso, coincidira con la correlacin entre
,
, , = =
Esta ultima expresin puede requerir una explicacin adicional. Recurdese que la
correlacin entre dos variables es el cociente entre su covarianza y el producto de sus
desviaciones estandar. Recurdese, asimismo, que la desviacin estandar de la variable
j
X es uno -por tratarse de una variable tipificada- y que la desviacin estandar de
F es
-como se demostr en un apartado anterior-
n
.
Centrmonos, por el momento, en el numerador de la expresin anterior, es decir, en la
covarianza entre las dos variables. Como sabemos la covarianza entre dos variables es el
cociente entre la suma de los productos de sus desviaciones respecto a sus respectivas
medias y el numero de observaciones. Debemos tener en cuenta que, como se demostr
en un apartado anterior, la media de las variables
F y
j
X es nula, por lo que tendremos
que:
( ) ( )
=
=
n
i
ij
j
i F x
n
X F Cov
1
1
,
Ahora, si consideramos la frmula que relaciona las coordenadas de las variables en el -
simo eje de inercia con las coordenadas de los individuos en ese mismo eje de inercia -
frmula que se acaba de obtener en el apartado anterior y que tiene la siguiente
expresin-:
35
( ) ( ) i F x
n
j G
n
i
ij
=
=
1
1
resulta que:
( ) ( ) j G n i F x
n
i
ij
=
=1
Sustituyendo el sumatorio en la expresin de la covarianza tenemos que:
( ) ( ) ( ) j G
n
j G n
n
X F Cov
j
= =
1
,
Por ultimo, sustituyendo la expresin obtenida para la covarianza en la expresin de la
correlacin tendremos:
( ) ( )
( )
( )
( ) j G
n
j G
n
n
X F Cov
K F Corr X F Corr
j
j j
= = = =
,
, ,
En resumen, hemos obtenido una nueva interpretacin para las coordenadas de las
variables en los ejes de inercia: la coordenada de una variable en un eje de inercia -
( ) j G
- es igual a la correlacin entre los valores que toman los individuos en dicha
variable -tipificada
j
X o sin tipificar
j
K - y los valores de los individuos en la nueva
variable resultante de considerar las coordenadas de los individuos en el eje de inercia -
W y
F -
recurdese que
W F = -. Por lo tanto, el angulo que forman entre si los
vectores
j
Y y
F . En
resumen, podemos interpretar la coordenada de una variable en un eje de inercia
como el coseno del angulo
+
que forman entre si los vectores
j
X y
F . Ntese que
+
Es muy facil demostrar que el coseno del angulo entre dos vectores cuyos componentes tienen media nula
es igual al coeficiente de correlacin entre los componentes de dichos vectores. En otras palabras, el
coeficiente de correlacin es, en realidad, un coseno. Este es el motivo por el que ambos indices toman
valores que oscilan entre -1 y +1.
36
tanto el coeficiente de correlacin como el coseno de un angulo toman valores
entre -1 y +1.
El hecho de que ( ) j G
2
,
,
i F
I I
i I
i CTR
U O
U O
= =
Por otra parte, hemos visto que existe una relacin entre las coordenadas de los
individuos y los vectores propios de la matriz , relacin que se concreta en la expresin:
W F =
De esta ultima expresin se deduce que la coordenada del i-simo individuo en el -
simo eje de inercia es:
( )
i
W i F
=
donde
i
W
W .
Si sustituimos esta expresin en la frmula de la contribucin tendremos:
( )
( ) [ ] ( )
( )
2
2
2
i
i
W
W
i F
i CTR
= = =
De manera que hemos encontrado que los cuadrados de los componentes del -simo
vector propio de la matriz de inercia son las contribuciones de los individuos en el -
simo eje de inercia.
Nueva interpretacin de las contribuciones de las variables
Finalizamos esta exposicin de la tcnica del ACP poniendo de manifiesto una relacin
analoga a la que se acaba de presentar pero referida, en esta ocasin, a las
contribuciones de las variables.
3/
En efecto, sabemos que la contribucin de una variable a la inercia recogida en el -
simo eje es:
( )
( )
( )
( ) [ ]
n
j G
J I
j I
j CTR
W O
W O
2
,
,
= =
Sabemos tambin que:
U
n
G =
por lo tanto, el elemento genrico del vector
=
donde
j
U
U .
Sustituyendo esta ultima expresin en la frmula de la contribucin de la variable
tenemos:
( )
( ) [ ]
( )
2
2
2
j
j
U
n
U
n
n
j G
j CTR
=
|
|
.
|
\
|
= =
En resumen, hemos encontrado que los cuadrados de los componentes del -simo
vector propio de la matriz de inercia V son las contribuciones de las variables a la inercia
recogida en el -simo eje.
Sirvan todas estas frmulas para poner de manifiesto el caracter dual del ACP, heredado
de su condicin de ser un caso particular del analisis factorial general presentado en el
capitulo anterior.