Tema 10 An´ alisis factorial

El an´ alisis factorial es una t´ ecnica cuyo prop´ osito es definir la estructura subyacente de un conjunto de datos, de tal manera que analiza la estructura de correlaci´ on entre las variables mediante la definici´ on de una serie de dimensiones subyacentes llamadas Factores. Esto se realiza con un doble fin: el resumen y la reducci´ on de los datos. A la hora de resumir se obtiene unas dimensiones que cuando son interpretadas describen los datos de una manera m´ as sencilla; con respecto a la reducci´ on, se pueden obtener los c´ alculos de las puntuaciones para cada dimensi´ on y sustituirlos por las variables originales. La ventaja que tiene el An´ alisis Factorial es que se tratan todas las variables simult´ aneamente, cada una relacionada con las dem´ as y no existe una variable dependiente y otras independientes.

10.1.

El an´ alisis factorial

El objetivo fundamental ser´ a el encontrar una manera de resumir la informaci´ on contenida en una serie de variables originales, mediante una serie de dimensiones compuestas (factores) o valores te´ oricos con una m´ ınima perdida de informaci´ on.

10.1.1.

Hip´ otesis previas

Dentro de las hip´ otesis previas la primera de ellas ser´ ıa la normalidad, aunque esta solo ser´ a necesaria si se realizan pruebas estad´ ısticas de significaci´ on. Tambi´ en es deseable que exista un cierto grado de multicolinealidad, ya que el objetivo es identificar variables relacionadas. El an´ alisis factorial debe tener suficientes correlaciones para poder aplicarse. Si no hay una n´ umero sustancial de correlaciones mayores de 0.3 entonces es probablemente inadecuado. Las correlaciones entre variables pueden ser analizadas mediante el c´ alculo de las correlaciones parciales de tal manera que si las correlaciones parciales son bajas, entonces no existen factores subyacentes verdaderos y el an´ alisis factorial es inapropiado. Esta hip´ otesis tambi´ en se puede contrastar buscando que los valores de la diagonal de la matriz anti-imagen sean altos.

125

10. Con la rotaci´ on se distribuye la varianza en otros factores para lograr un patr´ on de factores m´ as simple y m´ as significativo. Interpretaci´ on de los factores Para determinar la soluci´ on utilizaremos las cargas factoriales.3. y uno de 0.50 una explicaci´ on del 25 %.1. de tal manera que indican la correspondencia entre cada variable y el factor. Existen muchos m´ etodos de rotaci´ on y la selecci´ on de uno u otro depender´ a de las soluciones. Rotaci´ on de los factores La rotaci´ on consiste en girar los ejes factoriales. frente a ciencias sociales que es normal considerar sobre el 60 %-65 % de la varianza total. Estimaci´ on de los factores Para decidir el n´ umero de factores que se deben extraer. el cu´ al contiene los valores de 17 indicadores de tipo sanitario para 23 pa´ ıses.4. por ejemplo.An´ alisis factorial 126 10. 10. de tal manea que el primer factor explica la mayor parte de la varianza (y por lo tanto estar´ a en funci´ on de m´ as variables) y los siguientes factores van explicando progresivamente menor porcentaje de varianza. Son las correlaciones entre cada variable y el factor.30 implica una explicaci´ on del 10 % de la varianza del factor.2. El objetivo es realizar una an´ alisis factorial para encontrar una estructura subyacente en estos datos. 10.1.50 son significativas. Por ejemplo. Las comunalidades ser´ an el porcentaje de varianza de cada variable explicada por el n´ umero de factores escogido. de tal manera que esta se simplifique el m´ aximo posible. en ciencias naturales se toman factores hasta explicar al menos un 95 % de la varianza. utilizaremos el porcentaje de la varianza total de los datos. La soluci´ on inicial extrae los factores seg´ un su importancia. que son el medio para interpretar la funci´ on que cada variable desempe˜ na para definir cada factor. Las cargas con valores entre ±0.40 son m´ as importantes y de ±0. .1.2. una carga de 0. Por lo tanto cuanto mayor sea el valor absoluto de la carga m´ as importante es esa variable para interpretar el factor. de tal manera que el porcentaje de varianza debe explicar un valor que consideremos v´ alido.30 se consideran de nivel m´ ınimo. Para realizar una an´ alisis factorial tenemos que elegir los men´ us: Analizar Reducci´ on de datos An´ alisis factorial ´ ´ ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS. mayores de ±0. Aplicaci´ on mediante SPSS Como ejemplo de An´ alisis Factorial vamos a utilizar el fichero Factorial.

el n´ umero de casos v´ alidos y si hay alg´ un datos faltante. Matriz de correlaciones : 1. la desviaci´ on t´ ıpica. niveles de significaci´ on y determinante. Bot´ on Descriptivos Con este bot´ on podremos obtener: Estad´ ısticos : 1. Figura 10. anti-imagen 3.1. los autovalores y el porcentaje de varianza explicada. obtendremos los siguientes resultados: Con la opci´ on estad´ ısticos descriptivos obtenemos para todas las variables la media. Coeficientes. la desviaci´ on t´ ıpica y el n´ umero de casos v´ alidos para cada variable. 2. 2.An´ alisis factorial obteniendo el siguiente men´ u: Figura 10. Soluci´ on inicial muestra las comunalidades iniciales. .1: Men´ u an´ alisis factorial 127 10. Descriptivos univariados: la media. reproducida. KMO (medida de Kaiser-Meyer-Olkin) y prueba de esfericidad de Bartlett. Inversa. ´ ´ ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.2.2: Descriptivos Si seleccionamos todas las opciones.

4: Matriz de correlaciones KMO y prueba de esfericidad de Bartlett.35 ∗ 10 en este ejemplo. en caso de aceptarse esta hip´ otesis indicar´ ıa que el modelo factorial es inadecuado.3: Estad´ ısticos Con la matriz de correlaciones. La prueba de Bartlett contrasta si la matriz de correlaciones es una matriz identidad como hip´ otesis nula. como ocurre en este caso que los coeficientes de la matriz de correlaciones sean significativos en su mayor parte.An´ alisis factorial 128 Figura 10. Es conveniente. es decir. . 1. su significaci´ on y el determinante. Matriz anti-imagen. ´ ´ ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS. En un buen modelo factorial la mayor´ ıa de los elementos no diagonales deben ser peque˜ nos y los de la diagonal grandes. Tambi´ en es interesante que el determinate de la matriz de correlaciones −10 sea bajo. si es peque˜ no ser´ a inadecuado. Si es estad´ ıstico KMO es grande el procedimiento es adecuado. Figura 10. este estad´ ıstico oscila entre 0 y 1. En nuestro ejemplo ocurre esta circunstancia por los que el modelo factorial ser´ a bueno. que las variables est´ an incorreladas. Con la prueba KMO contrastamos que las correlaciones parciales sean peque˜ nas.

3. 7. Extraer. 4. Utilizaremos la matriz de correlaciones si las variables est´ an en diferente escala y la de covarianzas en caso contrario. M´ ınimos cuadrados generalizados. Mostrar : ofrece la soluci´ on sin rotar y el gr´ afico de sedimentaci´ on. Factorizaci´ on Imagen. de tal manera que el primer componente principal sea la combinaci´ on que m´ as varianza explique. Tambi´ en podemos indicar un n´ umero concreto de factores a extraer. Analizar. el segundo la segunda mayor y que est´ a incorrelado con el primero y as´ ı sucesivamente. 6. Factorizaci´ on Alfa. y el estudio de la matriz anti-imagen y la matriz de correlaciones y su significaci´ on resultan satisfactorias por lo que al an´ alisis factorial puede proporcionarnos buenos resultados. Factorizaci´ on de Ejes principales.5: KMO y Bartlett Las pruebas de KMO y Bartlett. Componentes principales. Se conoce como regla de Kaiser a quedarse con tantos factores como autovalores mayores que uno existan. Las opciones disponibles son: 1. ´ ´ ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS. M´ ınimos cuadrados no ponderados.2. 2. M´ axima verosimilitud. 10. . Extracci´ on Con este bot´ on obtendremos el an´ alisis factorial propiamente dicho. Las opciones m´ as importantes son: M´ etodo : con esta opci´ on seleccionaremos el m´ etodo para extraer los factores. 5. Nosotros usaremos el m´ etodo de componentes principales que consiste en realizar una combinaci´ on lineal de las variables.2. Podemos elegir entre utilizar tantos factores como autovalores mayores de un valor.An´ alisis factorial 129 Figura 10. Permite especificar o una matriz de correlaciones o una matriz de covarianzas.

´ ´ ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS. Mediante la regla de Kaiser tomamos tantos factores como autovalores mayores de 1.66 % de la varianza total. En principio tendremos tantos autovalores como variables tengamos. Con la tabla de Varianza Explicada obtenemos una tabla con todos los autovalores y el porcentaje de varianza explicada por cada uno de ellos. en este caso tomar´ ıamos 5 factores. el m´ etodo de componentes principales y usaremos la ya comentada regla de Kaiser.7: Comunalidades 2. para ello en el bot´ on extraer (10. Los resultados son: 1. Las comunalidades son la proporci´ on de varianza explicada por los factores de cada una de las variables. Estos cinco factores explican un 83. en problemas de tipo socioecon´ omico es suficiente con una explicaci´ on del 60-70 %. es decir. salvo quiz´ as las variables “PIB Gasto Publico en Salud” y “Heridos de Trafico”. si nos parece poco aumentar´ ıamos alg´ un factor y si queremos un modelo m´ as sencillo eliminar´ ıamos alg´ un factor. . A partir de ahora surge la decisi´ on del investigador. nos quedaremos con tantos factores como autovalores mayores que 1. Vemos que todas las variables van a ser bien explicadas por la estructura factorial.An´ alisis factorial 130 Figura 10. de tal manera que si este 83. por lo que ser´ ıa interesante para simplificar el problema quedarnos con una estructura de 3 o 4 factores. indicar´ ıamos el n´ umero concreto que nos interese.2. Como vimos anteriormente.6: Extraer En este ejemplo.2). Figura 10. por lo tanto usaremos la matriz de correlaciones.66 % nos parece suficiente nos quedar´ ıamos con esos cinco factores.

de tal manera que se suele usar para decidir el n´ umero de factores a utilizar. nos quedaremos con una estructura factorial con 3 o 4 factores. Figura 10.8: Varianza explicada 3. . tomando factores hasta que la pendiente de la recta sea paralela al Eje X. Dependiendo de esta decisi´ on las comunalidades ser´ an: Figura 10.9: Gr´ afico de sedimentaci´ on Por lo tanto.An´ alisis factorial 131 Figura 10.10: Comunalidades con tres y cuatro factores ´ ´ ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS. El gr´ afico de sedimentaci´ on es la representaci´ on gr´ afica de los autovalores. a partir del gr´ afico de sedimentaci´ on y principalmente del estudio de la varianza.

Heridos de Tr´ afico. Consumo de Alcohol. PIB en Gasto P´ ublico. El problema est´ a en que para la interpretaci´ on ser´ ıa interesante que una variable tuviera una importante carga factorial para un solo factor y no dependiese de varios. Esperanza de Vida Femenina. en definitiva es la correlaci´ on entre el factor y la variable. Tasa Hep´ atica. Esperanza de Vida Femenina. el problema est´ a en que este modelo es mas complejo que con tres factores.30. Porcentaje Protegido por Hospital. ´ ´ ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS. Esperanza de Vida Masculina. Esperanza de Vida Masculina.11: Bot´ on Opciones Resultando que el primer factor viene determinado por las variables Tasa de Mortalidad Perinatal. Poblaci´ on por Cama.Tasa de admisi´ on Hospitalaria y Dias en Cama. nos indica una estrecha relaci´ on entre la variable y ese factor. solo nos interesar´ an aquellos valores que tengan altas cargas factoriales. Esperanza de Vida Masculina. Gasto per Capita en M´ edico. el segundo factor viene determinado por Gasto per Capita en M´ edicos. Consumo de Alcohol. La matriz de componentes (tambi´ en conocida como Factor Scores) son las cargas de cada variable en cada uno de los factores originados. Por ello. PIB en salud. seleccionaremos el bot´ on de opciones y seleccionaremos las pesta˜ nas de ordenar valores y suprimir aquellas con un valor menor de 0. Figura 10. . PIB en salud. Poblaci´ on por Cama Hospitalaria. Esperanza de Vida Femenina y PIB en Salud. Tasa de Cancer de Pulm´ on.An´ alisis factorial 132 Evidentemente. Tasa de Mortalidad Infantil. Porcentaje Protegido por Ambulatorio. Tasa de Cancer de Pulm´ on. con cuatro factores las comunalidades son m´ as altas. 4. de modo que las variables con cargas m´ as altas en un factor. para intentar que se de esta situaci´ on se recurre a las rotaciones factoriales. por lo que habr´ a que decidir entre estas dos estructuras. Tasa de admisi´ on Hospitalaria y Dias en Cama y el tercer factor por Gasto per Capita en m´ edicos. Porcentaje Protegido por Hospital. pero con una peque˜ na restricci´ on. en nuestro ejemplo vamos a optar por una estructura con tres factores. Una vez decidido el n´ umero de factores obtendremos la soluci´ on final que es la matriz de componentes. para obtener estos valores. Porcentaje Protegido por Ambulatorio.

equamax. 31.406 frente a 23. 19. oblimin directo y promax.238 frente a 17. No se muestra el gr´ afico si s´ olo se extrae un factor. Rotaci´ on El fin de la rotaci´ on es ayudar a interpretar en los casos en los que las cargas factoriales no est´ en claras. Soluci´ on rotada: se selecciona un m´ etodo de rotaci´ on para obtener la soluci´ on rotada.2.12: Cargas factoriales 10.An´ alisis factorial 133 Figura 10. Si vemos la tabla de la varianza explicada. En este caso. observamos que no han cambiado la varianza total explicada (66. vamos a elegir una de las rotaciones que SPSS nos ofrece y concretamente la VARIMAX. quartimax.935 del tercer factor. Para una soluci´ on de dos factores. aunque no por cada eje. Mostrar : 1. el cu´ al nos permite escoger entre: M´ etodo : para elegir el m´ etodo de rotaci´ on entre: varimax.12 %) aunque si lo que explica cada factor. se representa un diagrama bidimensional.3. Lo que buscaremos ser´ a que cada factor tenga unos pocos pesos altos y el resto cercanos a cero. y que cada variable este saturada en solo un factor. Para realizar una rotaci´ on elegiremos el bot´ on rotaci´ on.052 % rotado. Adem´ as marcaremos la soluci´ on rotada y el gr´ afico de saturaciones.134 del segundo factor y 15. 2. .478 % en el primer factor y sin rotar frente a 25. Gr´ aficos de saturaciones: muestra las representaciones tridimensional de las saturaciones factoriales para los tres primeros factores. las rotaciones simplemente son movimientos de los ejes de tal manera que se mantenga la comunalidad y el porcentaje de varianza explicada por el modelo. ´ ´ ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.

Tasa de Mortalidad Perinatal. Porcentaje Protegido por Ambulatorio y Heridos de Tr´ afico. . Consumo de Alcohol. Tasa de Cancer de Pulm´ on. PIB en Salud y Gastos per Capita en M´ edicos y el tercer factor determinado por Porcentaje Protegido por Hospital. Estos gr´ aficos son las coordenadas de cada variable con respecto a los factores. PIB en Salud. ya que la idea es identificar las variables con mayor peso factorial. Lo ideal es que no est´ en centrados en torno al punto (0. y Consumo de Alcohol y Cirrosis Hep´ atica lo est´ an entre si y con el factor uno positivamente. Esperanza de Vida Femenina.14: Cargas factoriales rotadas En este caso el primer factor viene determinado por las variables Esperanza de Vida Masculina. que como hemos visto son valores entre -1 y 1. A partir de la posici´ on de las variables con respecto a los ejes es donde se puede deducir el sentido y significado de los factores. Gasto per Capita en M´ edico y Heridos de Tr´ afico. con respecto a las componentes 1 y 2. Dias en Cama. Tasa de Mortalidad Infantil. Tasa Hep´ atica. el segundo factor vendr´ a marcado por la Tasa de Mortalidad Infantil.0) sino pr´ oximos al borde del gr´ afico. Tasa de admisi´ on Hospitalaria. siendo mayor la contribuci´ on cuanto mayor sea este valor. por lo que podr´ ıamos concluir que el primer factor contrapone la Esperanza de ´ ´ ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS. En este caso los factores vienen determinados por menos variables y son m´ as sencillos. por lo que est´ an muy correladas entre si y a su vez con el factor 1 negativamente.13: Varianza explicada Tambi´ en vemos que como las soluciones rotadas se han simplificado: Figura 10. Por medio de los gr´ aficos podemos deducir el sentido y significado de los factores. vemos que las variables Esperanza de Vida Masculina y Femenina est´ an muy juntas. Tasa de Mortalidad Perinatal. Por ejemplo. A continuaci´ on vemos los gr´ aficos bidimensionales y tridimensionales. Poblaci´ on por Cama.An´ alisis factorial 134 Figura 10. Gasto per Capita en M´ edicos.

10. . si escogemos el Bot´ on Puntuaciones y seleccionamos Guardar como variables : Figura 10. por lo que este tercer eje marcar´ ıa la separaci´ on entre el gasto y la poblaci´ on protegida.4.17: Puntuaciones factoriales Obtenemos las puntuaciones factoriales.An´ alisis factorial Vida con el Consumo de Alcohol.2. que consisten en reducir el conjunto de variables de cada individuo al conjunto de factores o dicho en modo matem´ atico. frente a Poblaci´ on protegida por Hospital y Ambulatorio.15: Gr´ aficos Figura 10. vemos que las variables Gasto per Capita y PIB en salud est´ an correladas entre si y positivamente con el factor tres. 135 Figura 10. las puntuaciones ´ ´ ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS.16: Gr´ aficos Si estudiamos por ejemplo el gr´ afico de las componentes 2 y 3. Puntuaciones Factoriales Finalmente.

An´ alisis factorial 136 de cada individuo sobre el conjunto de factores extra´ ıdo. con los nombres FAC1 1. Dispersi´ on 3D. Los datos est´ an en el fichero factorial2. ¿Ser´ ıa factible alguna rotaci´ on? Obtener las puntuaciones factoriales y su gr´ afico tridimensional. identificar los factores num´ erica y gr´ aficamente. FAC1 3. como que Islandia tiene un Figura 10. .1.18: Gr´ afico puntuaciones factoriales comportamiento parecido a Suecia.3.3. FAC1 2. Intentar encontrar los factores de comportamiento latentes en los encuestados. Realizar el an´ alisis factorial del fichero Factorial3. Para ello se estudian siete variables sobre la empresa. 10. 10.3. 10. o que Espa˜ na es similar a Grecia y USA con Jap´ on. Introducir las tres variables nuevas en los ejes y establecer marcas por Pa´ ıs). Para ello realiza una encuesta a 20 individuos pregunt´ andoles 10 caracter´ ısticas de sus productos que valoran de 1 a 5. Ejercicio segundo Se estudian 100 individuos para comprobar la idea que los consumidores tienen sobre una empresa. Dispersi´ on. Se desea realizar un an´ alisis factorial para intentar reducir la dimensi´ on de 7 a menos variables.2. Estas puntuaciones se a˜ naden en el Fichero de Datos. ´ ´ ANALISIS MULTIVARIANTE PARA SOCIOLOGOS MEDIANTE SPSS. De tal manera que solo tendremos que representar estas tres variables (Men´ u Gr´ aficos. Ejercicios obligatorios Ejercicio primero Una empresa dedicada al dise˜ no de autom´ oviles desea estudiar cuales son los deseos del comprador. Resultando el siguiente gr´ afico: pudiendo sacar las conclusiones referentes a los pa´ ıses.