You are on page 1of 55

Analisis Factorial

Hector F Bonilla Londo no


Ponticia Universidad Javeriana Cali
hfbonilla@javerianacali.edu.co
Prof. Guillermo Leon Valdez
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 1 / 43
Contenido
1
Introduccion
La relacion entre el analisis factorial y el analisis de componentes prin-
cipales
2
Modelo Factorial Ortogonal
3
No singularidad de Cargas Factoriales
4
Estimacion de las Cargas y las Comunalidades
Metodo de Componentes principales
Metodo del Factor Principal
Metodo de Maxima Verosimilitud
5
Escogencia del N umero de Factores m
6
Rotacion
Rotacion ortogonal
Rotacion oblicua
7
Puntuacion de Factores
8
Validacion del Analisis Factorial
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 2 / 43
Introduccion
Que es el analisis factorial?
Es una tecnica estadstica multivariada, cuyo objetivo principal es reduccir
la dimension de los datos y su uso permite explicar las correlaciones entre
las variables observadas en terminos de un n umero menor de variables no
observadas llamadas factores. Las variables observadas se modelan como
combinaciones lineales de factores mas expresiones de error.
El analisis factorial puede ser exploratorio o conrmatorio. El analisis ex-
ploratorio se caracteriza porque no se conocen a priori el n umero de factores
y es en la aplicacion emprica donde se determina este n umero. Por el con-
trario, en el analisis de tipo conrmatorio los factores estan jados a priori,
utilizandose contrastes de hipotesis para su corroboracion.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 3 / 43
Introduccion
Que es el analisis factorial?
Es una tecnica estadstica multivariada, cuyo objetivo principal es reduccir
la dimension de los datos y su uso permite explicar las correlaciones entre
las variables observadas en terminos de un n umero menor de variables no
observadas llamadas factores. Las variables observadas se modelan como
combinaciones lineales de factores mas expresiones de error.
El analisis factorial puede ser exploratorio o conrmatorio. El analisis ex-
ploratorio se caracteriza porque no se conocen a priori el n umero de factores
y es en la aplicacion emprica donde se determina este n umero. Por el con-
trario, en el analisis de tipo conrmatorio los factores estan jados a priori,
utilizandose contrastes de hipotesis para su corroboracion.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 3 / 43
Introduccion
Que es el analisis factorial?
Es una tecnica estadstica multivariada, cuyo objetivo principal es reduccir
la dimension de los datos y su uso permite explicar las correlaciones entre
las variables observadas en terminos de un n umero menor de variables no
observadas llamadas factores. Las variables observadas se modelan como
combinaciones lineales de factores mas expresiones de error.
El analisis factorial puede ser exploratorio o conrmatorio. El analisis ex-
ploratorio se caracteriza porque no se conocen a priori el n umero de factores
y es en la aplicacion emprica donde se determina este n umero. Por el con-
trario, en el analisis de tipo conrmatorio los factores estan jados a priori,
utilizandose contrastes de hipotesis para su corroboracion.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 3 / 43
Denici on
Denicion
En el analisis factorial, las variables y
1
, y
2
, . . . , y
p
se representan como
una combinacion lineal de unas pocas variables aleatorias, denotadas:
f
1
, f
2
, . . . , f
m
y conocidas como factores. i.e m < p. Los factores son variables
que generan a las variables orginales y

s, estas variables varan de individuo


a individuo, pero a diferencia de las variables originales, los factores pueden
no ser medidos u observados.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 4 / 43
C omo realizar un analisis factorial?
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 5 / 43
Relaci on entre el analisis factorial y el analisis de
componentes principales
1
Los componentes principales se denen como combinaciones lineales de
las variables originales . En el analisis de factores, las variables originales
se expresan como combinaciones linealesde los factores .
2
En el analisis de componentes principales, se explica en gran parte de la
varianza total de las variables,

i
s
ii
. En el analisis factorial , se busca
dar cuenta de las covarianzas o correlaciones entre las variables .
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 6 / 43
Relaci on entre el analisis factorial y el analisis de
componentes principales
1
Los componentes principales se denen como combinaciones lineales de
las variables originales . En el analisis de factores, las variables originales
se expresan como combinaciones linealesde los factores .
2
En el analisis de componentes principales, se explica en gran parte de la
varianza total de las variables,

i
s
ii
. En el analisis factorial , se busca
dar cuenta de las covarianzas o correlaciones entre las variables .
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 6 / 43
Modelo Factorial Ortogonal
Denicion del Modelo y supuestos
El analisis factorial es basicamente un procedimiento para una sola muestra
de datos. Sea parte de una muestra aletoria y
1
, y
2
, . . . , y
n
con una poblacion
homogenenea con vector de media y matriz de covarianza .
Recordemos
que el modelo de analisis factorial, expresa a cada variable como una combi-
nacion lineal de los factores comunes subyacentes f
1
, f
2
, . . . , f
m
acompa nado
de un termino de error el cual es unico de cada variable. Entonces para cada
cualquier vector y el modelo se expresa de la siguiente manera:
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 7 / 43
Modelo Factorial Ortogonal
Denicion del Modelo y supuestos
El analisis factorial es basicamente un procedimiento para una sola muestra
de datos. Sea parte de una muestra aletoria y
1
, y
2
, . . . , y
n
con una poblacion
homogenenea con vector de media y matriz de covarianza . Recordemos
que el modelo de analisis factorial, expresa a cada variable como una combi-
naci on lineal de los factores comunes subyacentes f
1
, f
2
, . . . , f
m
acompa nado
de un termino de error el cual es unico de cada variable. Entonces para cada
cualquier vector y el modelo se expresa de la siguiente manera:
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 7 / 43
Modelo Matematico
Representacion
y
1

1
=
11
f
1
+
12
f
2
+ . . . +
1m
f
m
+
1
y
2

1
=
21
f
1
+
22
f
2
+ . . . +
2m
f
m
+
2
y
p

p
=
p1
f
1
+
p2
f
2
+ . . . +
pm
f
m
+
p
(1)
Donde : f
m
denota los factores de variable y
p
, con m < p y
ij
; denota
coecientes o (loadings) asociado a cada factor y a cada individuo y
i
, este
coeciente indica la importancia de el factor j -esimo f
j
y la i -esima variable
y
i
y es usado para dar una interpretacion de f
j
.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 8 / 43
Modelo Matematico-Supuestos
Se asume que para j = 1, 2, 3, . . . , m, E(f
j
) = 0, var (f
j
) = 1 y
cov(f
j
, f
k
) = 0, j = k.
Se asume que
i
, i = 1, 2, 31, 2, 3, . . . , p son similares, excepto que hay
que permitir que cada
i
tenga una variacion diferente, ya que esto
muestra que la parte residual de y
i
no es en com un con las otras
variables. Por lo tanto se supone que: E(
i
) = 0, var (
i
) =
i
y
cov(
i
,
k
) = 0, i = k, ademas se asume que cov(
i
, f
i
) = 0, i j .
Donde
i
es la varianza especca.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 9 / 43
Modelo Matematico-Supuestos
Los supuestos son una consecuencia natural del modelo (1) y son obje-
tivos del analisis factorial. Siendo E(y
i

i
) = 0, por tanto es necesario
que E(f
j
) = 0, j = 1, 2, 3, . . . , m, y el supuesto que la cov(f
j
, f
k
) = 0
se hace por la parsimonia en la expresion de las y

s en funcion del
menor n umero posible de factores.
Los supuestos que indican que la var (f
j
)) = 1, var (
i
) =
i
,cov(f
j
, f
k
) =
0 y cov(
i
,
k
) = 0 producen una expresion simple para el calculo de la
varianza para cada variable y
i
:
var (y
i
) =
2
i 1
+
2
i 2
+ . . . +
2
im
+
i
(2)
Tenga en cuenta que el supuesto cov(
i
,
k
) = 0 implica la cuenta de
todos los factores de las correlaciones entre las y

s, es decir, todo lo
que las y

s tienen algo en comn. As, el enfasis en el analisis de factores


es en el modelado de las covarianzas o correlaciones entre las y

s
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 10 / 43
Modelo Matematico-Supuestos
Los supuestos son una consecuencia natural del modelo (1) y son obje-
tivos del analisis factorial. Siendo E(y
i

i
) = 0, por tanto es necesario
que E(f
j
) = 0, j = 1, 2, 3, . . . , m, y el supuesto que la cov(f
j
, f
k
) = 0
se hace por la parsimonia en la expresion de las y

s en funcion del
menor n umero posible de factores.
Los supuestos que indican que la var (f
j
)) = 1, var (
i
) =
i
,cov(f
j
, f
k
) =
0 y cov(
i
,
k
) = 0 producen una expresion simple para el calculo de la
varianza para cada variable y
i
:
var (y
i
) =
2
i 1
+
2
i 2
+ . . . +
2
im
+
i
(2)
Tenga en cuenta que el supuesto cov(
i
,
k
) = 0 implica la cuenta de
todos los factores de las correlaciones entre las y

s, es decir, todo lo
que las y

s tienen algo en comn. As, el enfasis en el analisis de factores


es en el modelado de las covarianzas o correlaciones entre las y

s
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 10 / 43
Modelo factorial en forma matricial
Notacion matricial
La ecuacion del modelo (1) se puede escribir en forma matricial as:
y = f + (3)
Donde y = (y
1
, y
2
, . . . , y
p
)

, = (
1
,
2
. . . ,
p
)

, f = (f
1
, f
2
, . . . , f
m
)

,
= (
1
,
2
, . . . ,
p
)

.
=
_
_
_
_
_

11

12
. . .
1m

21

22
. . .
2m
.
.
.
.
.
.
.
.
.
.
.
.

p1

p2
. . .
pm
_
_
_
_
_
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 11 / 43
Modelo factorial matricial (2)
Notacion matricial de los supuestos
Para los otros supuesto la notacion matricial representativa es:
E(

f ) =

0, donde E(f
j
) = 0, j = 1, 2, ...m.
var (f
j
), j = 1, 2...m y cov(f
j
, f
k
) = 0, j = k, tenemos: cov(

f ) = I .
Cuando E(
i
) = 0, i = 1, 2...p, tenemos que E() = 0.
Cuando var (
i
) =
i
, i = 1, 2...p y cov(
j
,
k
) = 0, i = k, tenemos:
cov() = =
_
_
_
_
_

1
0 . . . 0
0
2
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
p
_
_
_
_
_
y cov(
i
, f
j
) = 0, i , j , tenemos:
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 12 / 43
Modelo factorial matricial (3)
Notacion matricial de los supuestos
cov(

f , ) =

O, esta notacion indica una matriz rectangular que con-
tiene la covarianza de f

s y

s, representada as:
cov(f , ) =
_
_
_
_
_

f
1
,
1

f
2
,
2
. . .
f
1
,
p

f
2
,
1

f
2
,
2
. . .
f
2
,
p
.
.
.
.
.
.
.
.
.
.
.
.

f
m
,
1

f
m
,
2
. . .
f
m
,
p
_
_
_
_
_
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 13 / 43
Representaci on simplicada Modelo factorial
Tenga en cuenta que la ecuacion (2) representa la esencia del analisis
factorial, puesto que modela las covarianza entre las variables y

s. Sin
embargo se puede expresar
1
2
p(p 1) covarianzas (y p-varianzas) en
terminos de las variables y
1
, y
2
, ...y
p
, en una expresion mas simple,
la cual involucre los pm-emesimos pesos o cargas
ij
y p varianzas
especcas
i
, es decir esto se puede expresar en terminos de y de
, . Esto se puede realizar si usamos la notacion matricial (3) y los
respectivos supuestos, de tal manera que la formula sera equivalente
a: = cov(y) = cov(f + ).
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 14 / 43
Representaci on simplicada Modelo factorial (2)
Si consideramos el supuesto que cov(

f , ) =

O, f y no estan cor-
relacionados, por lo tanto, la matriz de covarianza de su suma es la
suma de sus matrices de covarianza:
= = cov(f + ) + cov()
= cov(f )

+ (por (3.74) y (13.9) Libro Rencher.)


= I

+ (por (13.7) Libro Rencher.) (4)


=

+
Observacion: Si tiene unas pocas columnas, i.e, dos o tres entonces
=

+ representa una estructura simplicada para , en las que


las covarianzas son modeladas por el

ij
s solo ya que es la diagonal.
i.e. si m = 2 y escogemos los factores
12
esto deberia sera el producto
de las dos primeras las de , denotado as

12
= cov(y
1
, y
2
) =
11

21
+
12

22
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 15 / 43
Representaci on simplicada Modelo Matricial (3)
Notese que (
11

21
) es la primera la de y
12

22
es la segunda la de
. Si y
1
y y
2
tienen mucho en com un es decir que tienen cargas similares en
los factores comunes f
1
y f
2
, es decir, (
11
,
21
) seran similares a
21
,
21
.
En este caso, el producto de (
11

21
) o (
12

22
) puede ser probablemente
alto.Por otro lado, si y
1
y y
2
tienen poco en com un, entonces sus cargas
11
y
21
en f
1
seran diferentes y sus cargas
12
y
22
en
2
diferien tambien. En
este caso, los productos
11

21
y
12

22
tendran que ser peque nos.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 16 / 43
Representaci on simplicada Modelo Matricial (3)
Por otra parte hay una representacion para las covarianzas de las variables
y

s en terminos de los f

s y

s, considerando por ejemplo la cov(y


1
, f
2
) por
la ecuacion y
1

1
=
1
f
1
+
2
f
2
+...+
1m
f
m
+
1
. De los supuestos anteriores
en la notacional matricial sabemos que el factor f
2
no esta correlacionado
con los otros factores f

j
s y ademas no esta correlacionado con
1
. entonces
la nueva formulacion sera:
cov(y
1
, f
2
) = E [(y
1

1
) (f
2

f
2
)]
= E [(
11
f
1
+
12
f
2
+ . . . +
1m
f
m
) f
2
]
= E
_

11
f
1
f
2
+
12
f
2
2
+ . . . +
1m
f
m
f
2
_
(5)
=
11
cov(f
1
, f
2
) +
12
var (f
2
) + . . . +
1m
cov(f
m
, f
2
)
=
12
Notese que var (f
2
) = 1. Por lo tanto las propias cargas representan covari-
anzas de las variables con los factores. En general,
cov(y
i
, f
j
) =
ij
, i = 1, 2...p, j = 1, 2..., m (6)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 17 / 43
Propiedad de Comunalidad
La comunalidad: Es la suma de los pesos de los factores al cuadrado para
una determinada variable (la) es la varianza de la variable explicada por
todos los factores, y esto se llama la comunalidad. La comunalidad mide
el porcentaje de la varianza en una variable dada se explica por todos los
factores conjuntamente y puede ser interpretada como la abilidad del in-
dicador. El calculo de este indicador se establece de la varianza de cada
variable y
i
, y se determina as:

ii
= var (y
i
) = (
2
i 1
+
2
i 2
+ . . . +
2
im
) +
i
= h
2
i
+
i
= comunalidad + varianza especca.
Comunalidad = h
2
i
=
2
i 1
+
2
i 2
+ . . . +
2
im
(7)
Varianza especca =
i
(8)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 18 / 43
No singularidad de Cargas Factoriales
Las cargas en el modelo (1) se puede multiplicar por una matriz ortogonal
sin perjudicar su capacidad de reproducir la matriz de covarianza en =

+ . Para ver esto, sea T una matriz ortogonal arbitraria. Entonces,


por TT

= I , y podemos insertar TT

en el modelo bsico (1) para obtener:


y =

f

+ (9)
donde

= T (10)
f

= T

f (11)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 19 / 43
Estimacion de las Cargas y las Comunalidades
En esta seccion sintetizaremos cuatro enfoques distintos para la estimacion
de cargas y aspectos comunes (comunalidades).
1) Metodo de Componentes principales:
Dada una muestra aleatoria de y
1
, y
2
, ..., y
n
, se obtiene la ma-
triz de covarianza muestral S y luego se trata de encontrar el
estimador

que se aproxima a la expresion fundamental (4)
con S en lugar de :
S

=

+

(12)
En el enfoque de componentes principales ignoramos que y
el factor S en S =

. Con el n de obtener el factor S,


empleamos la descomposicion espectral de (2.29 ver Rencher),
por tanto la expresion para calcular la descomposicion es:
S = CDC

(13)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 20 / 43
Estimacion de las Cargas y las Comunalidades
En esta seccion sintetizaremos cuatro enfoques distintos para la estimacion
de cargas y aspectos comunes (comunalidades).
1) Metodo de Componentes principales:
Dada una muestra aleatoria de y
1
, y
2
, ..., y
n
, se obtiene la ma-
triz de covarianza muestral S y luego se trata de encontrar el
estimador

que se aproxima a la expresion fundamental (4)
con S en lugar de :
S

=

+

(12)
En el enfoque de componentes principales ignoramos que y
el factor S en S =

. Con el n de obtener el factor S,


empleamos la descomposicion espectral de (2.29 ver Rencher),
por tanto la expresion para calcular la descomposicion es:
S = CDC

(13)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 20 / 43
Estimacion de las Cargas y las Comunalidades
1) Metodo de Componentes principales:
Donde, C es una matriz ortogonal construida con los auto-
valores normalizados (c

i
c
i
= 1) de S como matriz columna y
D como matriz diagonal con valores propios
1
,
2
, ...,
p
de S
en la diagonal, y cuya representacion es:
D =
_
_
_
_
_

1
0 . . . 0
0
p
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
p
_
_
_
_
_
(14)
Para terminar la factorizacion en la formula (12) se observa
que el producto de estimaciones

se que todos los val-


ores propios son positivos o cero, luego se tiene una matriz S
semidenida positiva con el factor D, que se puede calcular
as:
D = D
1/2
D
1/2
(15)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 21 / 43
Donde D
1/2
=
_
_
_
_
_

1
0 . . . 0
0
_

p
. . . 0
.
.
.
.
.
.
.
.
.
0 0 . . .
_

p
_
_
_
_
_
Con la factorizacion D de (12)
se puede reformular la ecuacion (12), as:
S = CDC

= CD
1/2
D
1/2
C

= (CD
1/2
)(CD
1/2
)

(16)
Adicionalmente podemos estimar a por la primeras m columnas de CD
1/2
,
as:

= C
1
D
1/2
1
= (
_

1
c
1
,
_

2
c
2
, ....,
_

m
c
m
) (17)
Donde, es p m, C
1
es p m, y D
1/2
es m n
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 22 / 43
Representaci on componentes principales
Podemos ilustrar que la estructura de los

ij
s en () para p = 5 y m = 2, se
puede ver como una representacion
_
_
_
_
_
_
_

11

12

21

22

31

32

41

42

51

52
_
_
_
_
_
_
_
=
_
_
_
_
_
_
c
11
c
12
c
21
c
22
c
31
c
32
c
41
c
42
c
51
c
52
_
_
_
_
_
_
_

1
0
0

2
_
=
_
_
_
_
_
_

1
c
11

1
c
12

1
c
21

1
c
22

1
c
31

1
c
32

1
c
41

1
c
42

1
c
51

1
c
52
_
_
_
_
_
_
(18)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 23 / 43
Representaci on componentes principales
Podemos ver que en la matriz (15) es la solucion de las componentes prin-
cipales a largo plazo. Las columnas de

son proporcionales a los vectores
propios de S, de modo que las cargas sobre el factor j -esimo son propor-
cionales a los coecientes en la j -esima componente principal.
Los factores son las m principales componentes principales y parece que la
interpretacion sera la misma que las componentes principales. Pero despues
de la rotacion de las pesos, la interpretacion de los factores suele ser difer-
ente. El investigador normalmente preferira los factores rotados por razones
que se tratan en la siguientes secciones.
Por la ecuacion (2.52 ver Libro Rencher), la i-esima diagonal de los el-
ementos

es la suma de los cuadrados de las i -esimas las de



o

i
=

m
j =1

ij
2
. Por lo tanto para completar la aproximacion de S en
(), dene la siguiente ecuacion:

i
= s
ii

m

j =1

2
ij
(19)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 24 / 43
Representaci on componentes principales
Podemos ver que en la matriz (15) es la solucion de las componentes prin-
cipales a largo plazo. Las columnas de

son proporcionales a los vectores
propios de S, de modo que las cargas sobre el factor j -esimo son propor-
cionales a los coecientes en la j -esima componente principal.
Los factores son las m principales componentes principales y parece que la
interpretacion sera la misma que las componentes principales. Pero despues
de la rotacion de las pesos, la interpretacion de los factores suele ser difer-
ente. El investigador normalmente preferira los factores rotados por razones
que se tratan en la siguientes secciones.
Por la ecuacion (2.52 ver Libro Rencher), la i-esima diagonal de los el-
ementos

es la suma de los cuadrados de las i -esimas las de



o

i
=

m
j =1

ij
2
. Por lo tanto para completar la aproximacion de S en
(), dene la siguiente ecuacion:

i
= s
ii

m

j =1

2
ij
(19)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 24 / 43
Representaci on componentes principales
Podemos ver que en la matriz (15) es la solucion de las componentes prin-
cipales a largo plazo. Las columnas de

son proporcionales a los vectores
propios de S, de modo que las cargas sobre el factor j -esimo son propor-
cionales a los coecientes en la j -esima componente principal.
Los factores son las m principales componentes principales y parece que la
interpretacion sera la misma que las componentes principales. Pero despues
de la rotacion de las pesos, la interpretacion de los factores suele ser difer-
ente. El investigador normalmente preferira los factores rotados por razones
que se tratan en la siguientes secciones.
Por la ecuacion (2.52 ver Libro Rencher), la i-esima diagonal de los el-
ementos

es la suma de los cuadrados de las i -esimas las de



o

i
=

m
j =1

ij
2
. Por lo tanto para completar la aproximacion de S en
(), dene la siguiente ecuacion:

i
= s
ii

m

j =1

2
ij
(19)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 24 / 43
Representaci on componentes principales
y podemos escribir la anterior ecuacion como :
S

=

+

(20)
Donde = diag(

1
,

2
, ...,

p
). Esta ecuacion las varianzas en la diagonal
de S son modelados con exactitud, pero las covarianzas fuera de la diagonal
son solo son aproximadas. Una vez mas el resto es el analisis factorial.
En este metodo de calculo, la suma de los cuadrados de las las y columnas
de

son iguales a las comunalidades y autovalores, respectivamente. Esto se
demuestra facilmente. Por () y por analoga con (), la comunalidad i-esimo
se estima por:

h
2
i
=
m

j =1

2
ij
(21)
que es la suma de los cuadrados de la i -esima la de

. La suma de los
cuadrados de la columna jesima de

es jesimo valor propio de S:
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 25 / 43
Representaci on componentes principales
y podemos escribir la anterior ecuacion como :
S

=

+

(20)
Donde = diag(

1
,

2
, ...,

p
). Esta ecuacion las varianzas en la diagonal
de S son modelados con exactitud, pero las covarianzas fuera de la diagonal
son solo son aproximadas. Una vez mas el resto es el analisis factorial.
En este metodo de calculo, la suma de los cuadrados de las las y columnas
de

son iguales a las comunalidades y autovalores, respectivamente. Esto se
demuestra facilmente. Por () y por analoga con (), la comunalidad i-esimo
se estima por:

h
2
i
=
m

j =1

2
ij
(21)
que es la suma de los cuadrados de la i -esima la de

. La suma de los
cuadrados de la columna jesima de

es jesimo valor propio de S:
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 25 / 43
p

i =1

2
ij
=
p

i =1
_
_

j
c
ij
_
2
=
j
p

i =1
c
2
ij
=
j
(22)
ya que los vectores propios normalizados (columnas de C) tienen longitud
1. Ahora por las ecuaciones (19) y (21), la varianza de la variable i -esimo
esta dividido en una parte debido a los factores y en otra parte debido
unicamente a la variable:
s
i
i =

h
2
i
+

i
= (

2
i 1
+

2
i 2
+ . . . +

2
im
) +

i
(23)
Por lo tanto el factor jesimo contribuye

2
ij
as
ii
. Esta contribucion del j -
esimo factor es la muestra de la varianza total, tr (S) = s
11
+s
22
+... +s
pp
,
esto signica:
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 26 / 43
Representaci on Componentes Principales
La varianza debida al j -esimo factor =
p

i =1

2
ij
=

2
1j
+

2
12
+. . . +

2
pj
(24)
La proporcion de la muestra de la varianza del j -esimo factor es:
p

i =1

2
ij
tr (S)
=

j
tr (S)
(25)
Observaci on: Si las variables no son proporcionales, podemos utilizar vari-
ables estandarizadas y trabajar con la matriz de correlacion R.
Los valores propios y vectores propios de R se utilizan en lugar de las de S
en () para obtener estimaciones de las cargas. En la practica, R se utiliza
con mas frecuencia que S y es el valor predeterminado en la mayora de
paquetes de software. Puesto que el enfasis en el analisis de factores esta
en la reproduccion de las covarianzas o correlaciones.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 27 / 43
Representaci on Componentes Principales
La varianza debida al j -esimo factor =
p

i =1

2
ij
=

2
1j
+

2
12
+. . . +

2
pj
(24)
La proporcion de la muestra de la varianza del j -esimo factor es:
p

i =1

2
ij
tr (S)
=

j
tr (S)
(25)
Observaci on: Si las variables no son proporcionales, podemos utilizar vari-
ables estandarizadas y trabajar con la matriz de correlacion R.
Los valores propios y vectores propios de R se utilizan en lugar de las de S
en () para obtener estimaciones de las cargas. En la practica, R se utiliza
con mas frecuencia que S y es el valor predeterminado en la mayora de
paquetes de software. Puesto que el enfasis en el analisis de factores esta
en la reproduccion de las covarianzas o correlaciones.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 27 / 43
Representaci on de Componentes Principales
Si empleamos el factor R en la ecuacion () obtenemos :

p
i =1

2
ij
tr (R)
=

j
p
(26)
Donde p es n umero de variables. Podemos evaluar el ajuste del modelo de
analisis factorial mediante la comparacion de los lados izquierdo y derecho
de (). La matriz de error es:
E = S (

+

) (27)
tiene ceros en los elementos fuera de la diagonal diagonal pero no cero.

ij
e
2

2
m+1
+
2
m+2
+... +
2
p
(28)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 28 / 43
Ejemplo Metodo de Componentes principales
Para ilustrar el metodo de componentes principales, utilizamos un simple
conjunto de datos recogidos por Brown, Williams y Barlow (1984). Una ni na
de 12 aos de edad, hizo cinco notas en una escala de 9 puntos de diferencial
semantico para cada uno de siete de sus conocidos. Las calicaciones se
basan en los cinco adjetivos amable, inteligente, feliz,agradable y justo. Sus
calicaciones se dan en la Tabla 13.1.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 29 / 43
Ejemplo Metodo de Componentes principales
La matriz de correlaciones R es la siguiente:
Nota:Los valores en negrita indican dos grupos de variables: 1, 3, 4 y 2, 5.
Nos hara por lo tanto, esperan que las correlaciones entre las variables se
explican bastante as por dos factores.
Los valores propios de R son 3, 263, 1, 538, 0, 168, 0, 031, y 0. Por lo tanto
R es singular, que es posible en una situacion como esta con solo siete
observaciones sobre cinco variables registradas en una escala de un solo
dgito.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 30 / 43
Ejemplo Metodo de Componentes Principales
Por la ecuacion (26) los primeros dos factores son (3,263+1,538)/5 = 0,96
del total de la varianza de la muestra. Por lo tanto, extraemos dos factores.
Los dos primeros vectores propios son:
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 31 / 43
Ejemplo Metodo de Componentes Principales
La tabla que resumen el calculo de las cargas de cada factor por el metodo
de componentes principales es :
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 32 / 43
Ejemplo Metodo de Componentes Principales
Los dos factores explican el 96 % de la varianza total, por lo que representan
las cinco variables muy bien. Para ver lo bien que el modelo de dos factores
reproduce la matriz de correlacion, se examinan
La anterior matriz indica que el analisis de componentes principales esta
muy cerca de la matriz R original, luego trateremos en secciones posteriores
la interpretacion de los factores.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 33 / 43
Metodo de Factor Principal
En el enfoque de componentes principales en la estimacion de las cargas,
hemos descuidado

y factor S o R. El metodo de factor principal (tambien
conocido como metodo eje principal) utiliza una estimacion inicial y de
los factores S o R para obtener:
S

(29)
R

(30)
Donde

es un matriz pm calculada por la ecuacion () usando los valores y
vectores propios de S

o R

, obtendendramos las siguientes matrices


los elementos i -esimos de las matrices S

dados por s
ii

i
, donde la
comunalidad es

h
2
i
= 1

i
.(Claramente

i
y

h
2
i
tiene valores diferentes
para la matriz S o R. Con estos valores en la diagonal de S

y R

tienemos la siguiente forma:


Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 34 / 43
Representaci on matricial S

y R

S

=
_
_
_
_
_
_

h
2
1
s
12
. . . s
1p
s
12

h
2
2
. . . s
2p
.
.
.
.
.
.
.
.
.
s
p1
s
p2
. . .

h
2
p
_
_
_
_
_
_
(31)
R

=
_
_
_
_
_
_

h
2
1
r
12
. . . r
1p
r
12

h
2
2
. . . r
2p
.
.
.
.
.
.
.
.
.
r
p1
r
p2
. . .

h
2
p
_
_
_
_
_
_
(32)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 35 / 43
Metodo de Factor Principal
Ahora bien una estimacion muy utilizada para la comunalidad en R

es

h
2
i
= R
2
i
, es decir el cuadrado de la correlacion m ultiple entre la variable y
i
y las otras p 1 variables. Que se pueden encontrar de la siguiente forma:

h
2
i
= R
2
i
= 1
1
r
ii
(33)
Donde r
ii
es la i -esima componente de la diagonal de la matriz R
1
.
Para estimar la comunalidad en la matriz S R se usa frecuentemente una
estimacion analoga a la anterior ecuacion, que se puede representar as:

h
2
i
= s
ii
= 1
1
s
ii
(34)
Donde s
ii
es la i -esima componente de la diagonal de la matriz S
1
.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 36 / 43
Metodo de Factor Principal
Ahora bien una estimacion muy utilizada para la comunalidad en R

es

h
2
i
= R
2
i
, es decir el cuadrado de la correlacion m ultiple entre la variable y
i
y las otras p 1 variables. Que se pueden encontrar de la siguiente forma:

h
2
i
= R
2
i
= 1
1
r
ii
(33)
Donde r
ii
es la i -esima componente de la diagonal de la matriz R
1
.
Para estimar la comunalidad en la matriz S R se usa frecuentemente una
estimacion analoga a la anterior ecuacion, que se puede representar as:

h
2
i
= s
ii
= 1
1
s
ii
(34)
Donde s
ii
es la i -esima componente de la diagonal de la matriz S
1
.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 36 / 43
Metodo de Factor Principal
Como existe una equivalencia entre las ecuaciones (33) y (34) la estimacion
de la comunalidad se puede calcular as:

h
2
i
= s
ii
= 1
1
s
ii
= s
ii
R
2
i
(35)
que es una estimacion razonable para la cantidad de varianza que y
i
que
tiene en com un con los otros ys. Emplenado la ecuaciones (33) o (34),
donde R o S deben ser no singular. Si R es singular, podemos usar el valor
absoluto o el cuadrado del coeciente de correlacin ms grande de la la
i -esima de R como una estimacin de la comunalidad.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 37 / 43
Metodo de Factor Principal
Para obtener una estimacion de la comunalidad se calcula los valores y
vectores propios de S

o R

y usando () se pueden estimar las
cargas de cada factor,

. Las columnas y las de

pueden usarse para
obtener los nuevos valores propios (varianza explicada) y comunalidades
respectivamente. La suma de los cuadrados de cada j -esima columna de

es el j -esimo eigenvalor de S

o R

y la suma de los cuadrados de cada


i -esima la de

es la comunalidad de cada y
i
. La proporcion de la varianza
explicada para cada j -esimo factor esta dada por la siguiente ecuacion.

j
tr (S

)
=

j

p
i =1

i
(36)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 38 / 43
Metodo de Factor Principal-Ejemplo
Para ilustrar el metodo del factor principal utilizamos la percepcion de datos
de la Tabla 13.1. La matriz de correlacion como se indica en el Ejemplo
13.3.1 es singular. Por lo tanto, en lugar de m ultiples correlaciones como las
estimaciones de comunalidad, usamos (el valor absoluto de la correlacion
mas grande en cada la de R. [La correlacion m ultiple de y con varias vari-
ables es mayor que la correlacion simple de y con cualquier de las variables
individuales].
La diagonal de los elementos de R

esta dada por (32) y
son los siguientes valores 0.995,0.837,0.881,0.995 y 0.837, los cuales fueron
obtenidos para la matriz R. por otra parte los valores propios de R

son
: 3.202,1.395,0.030,-0.0002 y -0.080. Cuya suma es 4.546, entonces los dos
primeros vectores propios de R

son:
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 39 / 43
Metodo de Factor Principal-Ejemplo
Para ilustrar el metodo del factor principal utilizamos la percepcion de datos
de la Tabla 13.1. La matriz de correlacion como se indica en el Ejemplo
13.3.1 es singular. Por lo tanto, en lugar de m ultiples correlaciones como las
estimaciones de comunalidad, usamos (el valor absoluto de la correlacion
mas grande en cada la de R. [La correlacion m ultiple de y con varias vari-
ables es mayor que la correlacion simple de y con cualquier de las variables
individuales]. La diagonal de los elementos de R

esta dada por (32) y
son los siguientes valores 0.995,0.837,0.881,0.995 y 0.837, los cuales fueron
obtenidos para la matriz R. por otra parte los valores propios de R

son
: 3.202,1.395,0.030,-0.0002 y -0.080. Cuya suma es 4.546, entonces los dos
primeros vectores propios de R

son:
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 39 / 43
Metodo de Factor Principal-Ejemplo
Para calcular la varianza de cada uno de los anteriores casos (componentes
principales o factor principal) los cargas de los factores se obtiene dividiendo
la varianza total por cada suma de los valores propios, para este ejemplo es
: 3,202/4,546 = 0,704. A continuacion se presenta la tabla resumen de los
calculos por los dos metodos.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 40 / 43
Metodo Maxima Verosimilitud
Si asumimos que las observaciones y
1
, y
2
, ..., y
n
constituyen una muestra
aleatoria con N
p
(, ), las matrices y pueden ser estimdas por el metodo
de maxima verosimilitud, es decir estimando

y

, el cual satisface las
siguientes ecuaciones:
S

=

(I +

) (37)
La estimacion de las comunalidades se calcula atraves de la formula:
= diag(S

) (38)

1
es la diagonal (39)
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 41 / 43
Ejemplo Metodo de Maxima verosimilitud
Se ilustra el metodo de maxima verosimilitud con los datos Seishu de la
Tabla 7.1. La matriz de correlacion y sus valores propios se dan en el Ejemplo
13.3.3. Se extraen cuatro factores, como en el ejemplo 13.3.3. La solucion
de (39), (40) iterativo, y (41) produjo las cargas y aspectos comunes dadas
en Tabla 13.5. El patron de las cargas es diferente de la obtenida usando el
principal iterado metodo del factor en el ejemplo 13.3.3.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 42 / 43
Escogencia del N umero de Factores, m
A continuacion se presentan 4 criterios importantes para la seleccion ade-
cuada de los factores en el analisis factorial.
Elija m igual al n umero de factores necesarios para la varianza explicada
para lograr un porcentaje predeterminado, por ejemplo 80 %, de la varianza
total tr (S) o tR (R).
Elija m igual al n umero de valores propios mayores que el valor propio
promedio. Para R el promedio es 1, porque S es

p
j =1

j
p
.
Utilice el scree test basado en un graco de los valores propios de S o R. Si
el graco cae bruscamente, seguida por una lnea recta con una pendiente
mucho mas pequeo, elija m igual al n umero de valores propios antes de que
comience la lnea recta.
Emplee la prueba de hipotesis para el n umero correcto de factores m, H
0
:
=

+ donde es p m.
Hector F Bonilla Londo no (PUJ Cali) Exposicion Estadstica Avanzada 2013 Prof. Guillermo Leon Valdez 43 / 43

You might also like