Factorial

Anlisis factorial
Eliseo Martnez H.
1.
Introduccin
En esta seccin necesitaremos fuertes herramientas estadsticas. Observe que hasta ahora, en los mtodos de anlisis multivariante que hemos utilizado hemos trabajado con la matriz X de datos para reducir variables o clasificar observaciones y variables, que en definitiva son mtodos para reconocer patrones o estructuras subyacentes entre las observaciones o entre las respuestas a las variables. El mtodo del anlisis factorial sirve para explicar un conjunto de variables observadas mediante un pequeo nmero de variables latentes no observadas (no medidas). Estas variables latentes las llamaremos factores. Intentaremos explicar cmo estas variables observadas pueden ser explicadas por factores no observados mediante unos sencillos ejemplos. Supongamos que queremos medir la eficiencia de una empresa, y para esto aplicamos una serie de variables (preguntas) que nos dan informacin sobre la empresa para intentar medir su eficiencia. Por lo general ocurre que dentro de la serie de variables aplicadas a la empresa stras no son independientes entre s, y de tal forma que, conocidas las que estn fuertemente corelacionadas podemos conocer algunas de ellas para predecir las restantes con poco error; y adems, es lo que esperamos, se formarn grupos de alta correlacin que darn a conocer los factores latentes que darn sentido y simplificarn la serie de variables con que medimos la eficiencia de la empresa. Otro ejemplo. Supongamos que tomamos una veintena de mediciones del cuerpo humano. Es claramente intuitivo que varias de esas mediciones estarn fuertemente correlacionadas, por ejemplo la estatura de una persona estar fuertemente correlacionada con la longitud del pie, etctera. De tal forma que, en general las dimensiones del cuerpo humano dependern de ciertos factores, que si los descubrimos, podramos prever las dimensiones con menos variables y con erro mnimo. Un ltimo ejemplo. Supongamos que queremos estudiar el desarrollo humano en los pases del mundo o de un determinado continente, y para esto realizamos una serie de mediciones que tienen que se obtienen mediante aplicaciones de variables econmicas, sociales y demogrficas, y que con toda seguridad muchas de ellas estarn fuertemente correlacionadas, piense por ejemplo en la variable Producto Interno Bruto que estar fuertemente correlacionada con la variable presupuesto para la investigacin cientfica nacional. De modo que el desarrollo de un pas depender de unos ciertos factores que si son conocidos podemos prever el conjunto de las variables para cada pas. Es claro que estos factores, si son descubiertos, no deben estar correlacionados entre s. Es posible que la bsqueda de estos factotres se confunda con la bsqueda de las componentes principales de las variables. Algo de cierto hay en esto, sin embargo, recordemos que las componentes principales se construyen para explicar las varianzas entre las vari-
ables, mientras que, como lo veremos aqu, los factores se construirn para explicar las covarianzas o correlaciones entre las variables. Hay otra diferencia ms entre las componentes principales y los factores. Las primeras son una herramienta descriptiva o de tipo exploratoria, mientras que el anlisis factorial exige un modelo estadstico formal para la generacin de datos, y por lo tanto acude a las pruebas de hiptesis y a la inferencia.
2.
El modelo estadstico para el anlisis factorial
Supongamos que tenemos una serie de variables x1 , x2 , ..., xp que vamos a aplicar a una determinada unidad muestral que est bajo estudio. Entonces formamos un vector de variables x = (x1 , x2 , ..., xp )t . La hiptesis bsica es que el vector x admite la siguiente representacin x = + f + u (1) donde: (1) es un vector constante de p 1 (2) f es un vector de m 1 que representa las variables latentes o factores. Se supone que este vector sigue una distribucin normal Nm (0, I). Es decir cada componente tiene media cero, independientes entre las componentes y de varianza 1 por componente. (3) es una matriz de pm de constantes conocidas, con m < p. Contiene los coeficientes que describen como los factores explican o describen al vector de variables x. A esta matriz se le llama matriz de carga. (4) u es un vector de la misma dimensin de x, y describe las perturbaciones no explicadas por los factores. Se supone que u tiene distribucin Np (0, ), donde es una matriz de p p diagonal de la forma diag{2 , . . . , 2 }, y adems supondremos que u y f no 1 p estn correlacionados. Con estas hiptesis se deduce que: (a) E [x] = (b) El vector de variables x sigue una distribucin normal x N(, V) por ser suma de variables normales, y adems la matriz de varianzas y covarianzas V se calcula de la siguiente manera. i h i h t t V = E (x ) (x ) = E (f + u) (f + u) = E f f t t + f ut + u f t t + u ut = E f f t t + E f ut + E u f t t + E u ut = t + puesto que u y f no estn correlacionados. La matriz de varianza y covarianza V es la suma entre t , que es una matriz simtrica de rango m<p, y esta matriz contiene la parte comn al conjunto de las variables y depende de las covarianzas entre las variables y los factores; y entre , que contiene la variabilidad especfica de cada variables, que es independiente del resto. 2
La igualdad V = t + entrega bastante observacin. En efecto, la ecuacin (1) se detalla como x1 x2 = 1 + 11 f1 + 12 f2 + + 1m fm + u1 = 2 + 21 f1 + 22 f2 + + 2m fm + u2 . . . = i + i1 f1 + i2 f2 + + im fm + ui . . . = p + p1 f1 + p2 f2 + + pm fm + up
xi
xp
Luego si calculamos la varianza a la variable xi obtenemos m X 2j V [fj ] + V [ui ] V [xi ] = i

j=1
Y esta descomposicin de varianzas tiene la misma interpretacin que la descomposicin P para la ANDEV donde el primer sumandor m 2j es la parte de la varianza de 2 A, i j=1 i que es explicada por los factores y que llamaremos comunalidad, y el otro sumando es el efecto de la perturbacin no explicada por el modelo (1) o ruido blanco, o a veces llamada variabilidad comn. A la comunalidad de la variable xi la denotaremos por m X 2 i j h2 = i
j=1
y puesto que V [fj ] = 1, para todo j = 1, ..., p, y adems V [ui ] = i se tiene que m X V [xi ] = 2 = 2 j + 2 i i i
j=1
de manera que
En efecto, de la ecuacin (1) tenemos que
2 = h2 + 2 i i i Finalmente podemos obtener otra propiedad generada por el modelo (1), y esta es que E (x ) f t =
(x ) f t = f f t + u f t i h E (x ) f t = E f f t + E u f t i h E (x ) f t = puesto que E f f t = I y E u f t = 0 ya que no correlacionan. Finalmente la ecuacin (1) implica que dada una muestra i a la cual le aplicamos la variable xj , esto es xj (i) = xi j , entonces xi j = j + j1 f1i + j 2 f2 i + + j m fm i + ui j ; i = 1, ..., n ; j = 1, ..., p (2) 3
Y esta ecuacin est indicando que el valor observado por la isima muestra en respuesta a la jsima variable es causa de la media de la variable, j ; de los efectos de los m factores latentes j1 f1i + j 2 f2 i + + j m fm i ; y de un ruido blanco o perturbacin especfica de cada observacin ui j . Luego, para la matriz de datos X = (xi j ), la forma matricial generada por el modelo (1) es X = 1t + Ft + U donde 1 es el vector de n 1 de unos, F es una matriz de n m que contiene los m factores para las n unidaes muestrales, t es la traspuesta de la matriz de carga de m p cuyos coeficientes relacionan las variables y los factores y U es la matriz n p de las perturbaciones. V eamos un ejemplo para fijar ideas. Supongamos que tenemos tres variables x1 , x2 y x3 , y pensamos que hay dos factores latentes, esto es x1 1 11 12 u1 f1 x2 = 2 + 21 22 + u2 f2 x3 3 31 32 u3 De tal modo que la matriz de varianza y covarianzas del vector de variables satiisface 2 2 0 1 0 1 12 13 11 12 11 21 31 21 2 23 = 21 22 + 0 2 0 2 2 12 22 32 2 31 32 3 31 32 0 0 2 3
de manera que
siendo diag{2 , 2 , 2 } la matriz de varianza del vector de pertuurbaciones. Las comu1 2 3 nalidades son 2 X 2j = 2 + 2 ; i = 1, 2, 3. h2 = i i1 i2 i
j=1
2 i i j
Por otro lado si la muestra es de n = 4 elementos, entonces x11 x12 x13 1 2 3 x21 x22 x23 1 2 3 x31 x32 x33 = 1 2 3 + x41 x42 x43 1 2 3 f11 f21 f12 f22 11 f13 f23 12 f14 f24 u11 u12 u13 u21 u22 u23 u31 u32 u33 u41 u42 u43 4
= h2 + 2 ; i = 1, 2, 3 i i = i 1 j 1 + i 2 j 2 ; i = 1, 2, 3 ; i 6= j
21 22
31 32
3.
La unicidad del modelo

x = + f + u
Supongamos que tenemos el modelo con todas las hiptesis establecidas en (1). Por otro lado, sabemos que es posible encontrar matrices y f tal que f = f En efecto, supongamos que tenemos una matriz H de m m, no singular y no diagonal, entonces podemos escribir x = + H H1 f + u ahora haciendo las siguientes transformaciones = H y H1 f = f , obtenemos la representacin x = + f + u (3) Sin embargo, la distribucin de vector aleatorio f tiene una distribucin normal multivariante tal que E [f ] = 0 V [f ] = H1 (H1 )t de modo que las componentes de f estn correlacionadas, violando la hiptesis no 2 del modelo. De modo que la representacin dada en (3) no nos sirve para nuestros intereses. Sin embargo, si tenemos un vector de factores f que sigue una distribucin N (0, Vf ), donde Vf es una matriz no diagonal y definida positiva, entonces es posible encontrar una t matriz A tal que Vf = AAt , y entonces A1 Vf A1 = I, de modo que podemos escribir 1 x = + (A)( A f ) + u 1 y definiendo = A y f = A f , donde si esta vez el nuevo vector de factores f t tiene matriz de varianzas y covarianzas A1 Vf A1 = I, es decir sus componentes no correlacionan. De tal modo que, en este sentido la representacin del modelo es nica si tenemos un vector de factores no correlacionados, puesto que con una transformacin lineal adecuada lo podemos no correlacionar. Finalmente si tenemos el modelo (1), x = + f + u, cumpliendo todas las hiptesis, y tomamos una matriz ortogonal H, entonces es claro que x = + (H)(Ht f ) + u, luego ambos modelos son indistinguibles puesto que tanto f como Ht f son no correlacionadas en sus componnetes. De tal forma que podemos asegurar que el modelo es nico salvo transformaciones ortogonales (an cuando algunos autores dicen que el modelo est indeterminado bajo transformaciones ortogonales). Lo interesante que, toda vez que tengamos el modelo (1), podemos efectuar rotaciones ortogonales sobre el vector de factores, rotaciones adecuadas imponiendo condiciones a la matriz de carga (no olvidemos que la matriz de carga ser H, si decidimos ortogonalizar).
4.
Cuando realizar un anlisis factorial?
Realizar un anlisis factorial significa aceptar que el vector de variables satisface el modelo (1), y esto significa que x N(, V), de otra forma deben existir altas correlaciones entre las variables, que es cuando podemos suponer que se explican por factores comunes. El anlisis de la matriz de correlaciones de la muestra, ser pues el primer paso a dar. Podemos comprobar el grado de correlacin con las siguientes pruebas o test, Test de esfericidad de Bartlett. Suponiendo normalidad entre las variables se contrastan las siguientes hiptesis H0 : R = I v/s siendo R la matriz de correlacin del vector x, esto es R = D1/2 V D1/2 , con D = diag{ 2 , ..., 2 }, y el estadstico de prueba que se utiliza es 1 p siendo R la matriz de correlacin muestral, y donde B, bajo H0 , se distribuye segn una 2 (p1) / 2 . De tal forma que no es aconsejable hacer un anlisis factorial a los p datos si aceptamos la hiptesis H0 . Clculo del ndice KMO (Kaiser-Meyer-Olkin). El ndice KMO se define como PP 2 j6=k rj k PP KM O = P P 2 2 j6=k rj k + j6=k aj k B = (n 1 (2p + 5)/6) ln |R |
c H0 : R 6= I
(a) (b) (c)
Si el valor del M SA(j) fuera pequeo, no se aconsejara el anlisis factorial. Por el contrario, valores prximos a 1 indicaran que la variable xj es adecuada para incluirla con el resto en un anlisis factorial. En muchas ocasiones, se eliminan las variables con ndice M SA muy bajo.
donde rj k mide la correlacin lineal simple entre la variables observadas j y k; y aj k es el coeficiente de correlacin parcial entre j y k. Lo que trata de medir este ndice es que haya fuerte correlacin simple entre las variables, por s misma, y que adems el efector de correlacin entre dos variables no se deba al resto de las otras variables que es lo que mide prcisamente el coeficiente de correlacin parcial. Es decir la situacin ideal que este ltimo coeficiente no perturbe a los coeficientes lineales, de modo que un ndice KMO prximo a 1 es ptimo. Est comnmente aceptado que: Si KM O < 0.5 no resultara aceptable para hacer un anlisis factorial Si 0.5 < KMO < 0.6 grado de correlacin medio, y habra aceptacin media en los resultados del anlisis factorial. Si KM O > 0.7 indica alta correlacin y, por tanto, conveniencia de un anlisis factorial. El ndice MSA para cada variable. Este ndice es similar al ndice KMO pero est referido a cada variable, de modo que su definicin es P 2 j6=k rj k P MSA(j) = P 2 2 j6=k rj k + j6=k aj k
5.
Extraccin de los factores
Vamos a realizar algunas simplificaciones al modelo (1). Vamos a suponer que las variables xj estn estandarizadas. De tal forma que el modelo (1) queda como x = f + u De otra forma x1 = 11 f1 + 12 f2 + + 1m fm + u1 . . . = i1 f1 + i2 f2 + + im fm + ui . . . = p1 f1 + p2 f2 + + pm fm + up (4)
xi
xp y por lo tanto
2 representa la proporcin de varianza total de la variable xi explicada por el factor ih h. 2 + 2 + + 2 es la comunalidad de la variable xi y representa la proporcin i1 i2 im de varianza que los distintos factores en su conjunto explican de la variable xi . Es, por tanto, la parcela de esa variable que entra en contacto con el resto de variables. Vara entre 0 (los factores no explican nada de la variable) y 1 (los factores explican el 100% de la variable). V [ui ] es lo que se llama especificidad y representa la contribucin del factor nico a la variabilidad total de xi Si sumamos a traves de i = 1, .., p las ecuaciones en (1), obtenemos p p p p X X X X p= 2 + + 2h + + 2 m + V [ui ] i1 i i
i=1 i=1 i=1 i=1
V [xi ] = 1 = 2 + 2 + + 2 + V [ui ] i1 i2 im
(5)
P La cantidad gh = p 2h representa la capacidad del factor h para explicar la varii=1 i anza total de las variables. Como las variables originales estn estandarizadas, la varianza total es igual a p y gh / p representara el porcentaje de varianza total atribuible al factor h. Es decir Pp V [ui ] gh gm g1 ++ + + + i=1 1= p p p p Los valores gh son los autovalores de la matriz de correlacin R de la matriz X. En efecto, supongamos que queremos calcular los componentes principales de las variables estandarizadas xi , entonces estos componentes principales se obtienen calculando los vectores y valores propios de la matriz de correlacin R. Ahora si las races caracters-
donde la proporcin de la variacin explicada por i es precisamente i / p. Observe las ecuaciones (5) y (6), donde la aproximacin es evidente si los gh lo explican todo (o equivalentemente V [ui ] 0). De otra forma, con los autovalores obtenidos por R, calculamos los autovectores asociados construyendo una matriz ortogonal A, entonces la matriz de los valores de los componentes es Z = XA y como A es ortogonal entonces X = ZAt esto permite reconstruir las variables observadas originales como x1 = a11 z1 + + am1 zm + + ap1 zp . . . = a1i z1 + + am i zm + + ap i zp . . . = a1p z1 + + am p zm + + ap p zp
ticas de esta matriz las llamamos i , sabemos que p X i = traza(R) = p

i=1
(6)
xi
xp
sin embargo si consideramos solamente m componentes, el sistema anterior se puede escribir como x1 xi = a11 z1 + + am1 zm + u1 . . . = a1i z1 + + am i zm + ui . . . = a1p z1 + + am p zm + up z1 . . . zi + . . . zm u1 . . . ui . . . up
xp
Y de esta forma hemos obtenido el modelo a11 am1 x1 . . . . . . . . . xi = a1i ami . . . . . . . . . xp a1p amp
z1 . . . f = zi . . . zm son los factores. De otra forma, lo que se propone es que al anlisis factorial (que es la estimacin del modelo 1), se puede realizar (extraer) mediante el clculo de los componentes principales. Sin embargo, hay que hacer una advertencia. Si bien es cierto que las variables ui no estn correlacionadas con las variables z1 , ...zm , como lo exige el modelo factorial, tambin es cierto que las variables ui contienen a las variables zm+1 , .., zp , de tal forma que en esta representacin las variables u1 , ..., up estarn correlacionadas. No obstante lo anterior, si existen m componentes principales que explican una proporcin muy alta de la variabilidad, de manera que la variabilidad especfica de las variable ui es pequea, el anlisis factorial y el anlisis de componentes principales sobre la matriz de correlaciones darn resultados similares.
que si lo comparamos con el modelo (1) se tiene que a11 am1 . . . . . . = a1i ami . . . . . . a1p amp es la matriz de carga y

Factorial

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Factorial

Uploaded by

Copyright:

Available Formats

Anlisis factorial

El modelo estadstico para el anlisis factorial

La igualdad V = t + entrega bastante observacin. En efecto, la ecuacin (1) se detalla como x1 x2 = 1 + 11 f1 + 12 f2 + + 1m fm + u1 = 2 + 21 f1 + 22 f2 + + 2m fm + u2 . . . = i + i1 f1 + i2 f2 + + im fm + ui . . . = p + p1 f1 + p2 f2 + + pm fm + up

Luego si calculamos la varianza a la variable xi obtenemos m X 2j V [fj ] + V [ui ] V [xi ] = i

En efecto, de la ecuacin (1) tenemos que

La unicidad del modelo

Cuando realizar un anlisis factorial?

(a) (b) (c)

Extraccin de los factores

ticas de esta matriz las llamamos i , sabemos que p X i = traza(R) = p

You might also like