You are on page 1of 104

Análisis factorial

:
una técnica para evaluar
la dimensionalidad de las pruebas
6

Análisis factorial:
una técnica para evaluar
la dimensionalidad de las pruebas
Cuaderno técnico 6
Análisis factorial:
una técnica para evaluar la dimensionalidad de las pruebas
Cuaderno técnico 6
Salvador Zamora Muñoz
Lucía Monroy Cazorla
César Chávez Álvarez
Revisión técnica:
Antonio Saade Hazin
Análisis factorial:
una técnica para evaluar la dimensionalidad de las pruebas
Cuaderno técnico 6
D.R. © 2009, Centro Nacional de Evaluación
para la Educación Superior, A.C. (Ceneval)
Av. Camino al Desierto de los Leones 19,
Col. San Ángel, Deleg. Álvaro Obregón,
C.P. 01000, México, D.F.
www.ceneval.edu.mx
Diseño: Mónica Cortés Genis
Formación: Alvaro Edel Reynoso Castañeda
Abril de 2009
Impreso en México • Printed in México
Directorio
Dirección General
Rafael Vidal Uribe
Dirección General Adjunta de los EGEL
Jorge Hernández Uralde
Dirección General Adjunta de los EXANI
José O. Medel Bello
Dirección General Adjunta de Programas Especiales
Rocío Llarena de Thierry
Dirección General Adjunta Técnica y de Investigación
Lucía Monroy Cazorla
Dirección General Adjunta de Operación
Francisco Javier Apreza García Méndez
Dirección General Adjunta de Difusión
Javier Díaz de la Serna Braojos
Dirección General Adjunta de Administración
Francisco Javier Anaya Torres

Dirección de Procesos Ópticos y Califcación
María del Socorro Martínez de Luna
Dirección de Tecnologías de la Información
y las Comunicaciones
Francisco Manuel Otero Flores
Índice
Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Capítulo I
Antecedentes históricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Capítulo II
¿Qué es el análisis factorial? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
El modelo de factores 17
Supuestos del modelo 18
Métodos de extracción de factores 19
Selección del número de factores que serán extraídos 20
Criterio a priori (tipos de análisis factorial) 20
Criterio de la raíz latente (eigenvalor >1) 21
Criterio del gráfico de codo (contraste de caída) 22
Criterio del porcentaje de varianza explicada 23
Interpretación de la matriz de cargas factoriales 23
Un concepto muy controvertido: rotación de factores 26
Rotaciones ortogonales 26
Rotaciones oblicuas 27
Valoración de las comunalidades 28
Puntajes factoriales 25
Bondad de ajuste del modelo de factores 28
Análisis factorial con variables discretas 29
Capítulo III
Fundamentos técnicos del análisis factorial . . . . . . . . . . . . . . . . . . . 31
Aspectos formales 31
Soluciones múltiples al modelo 34
Número máximo de factores 35
Métodos de estimación 38
Máxima verosimilitud 39
Mínimos cuadrados 40
Mínimos cuadrados generalizados 40
Mínimos cuadrados ponderados 40
Método de rotación de ejes principales 41
Prueba sobre el número de factores en el modelo 41
Puntajes factoriales 42
Método de Bartlett o de mínimos cuadrados ponderados 42
Método de Thompson o de regresión 43
Capítulo IV
Aplicación con variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . 45
Descripción general del EXANI-I 45
Definición del ejemplo 46
Análisis en SPSS 48
Análisis en R 63
Capítulo V
Aplicación con variables discretas. . . . . . . . . . . . . . . . . . . . . . . . . . 69
Objetivo 69
Descripción de las variables 69
Análisis en R 86
Un comentario final 90
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Anexo 1
Códigos en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Índice de tablas
Tabla 1.
Artículos publicados sobre análisis factorial en diferentes
disciplinas, 1904-2004 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Tabla 2.
Matriz de cargas factoriales para un caso hipotético . . . . . . . . . . . . . . . . 24
Tabla 3.
Directrices para la identificación de cargas factoriales
significativas, basadas en el tamaño de la muestra . . . . . . . . . . . . . . . . . 25
Tabla 4.
Medidas de correlación entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Tabla 5.
Dominios evaluados por el EXANI-I. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Tabla 6.
Matriz de correlaciones entre las variables que evalúa el EXANI-I . . . . . . . 51
Tabla 7.
Pruebas KMO y de efericidad de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . 53
Tabla 8.
Comunalidades del modelo unifactorial del EXANI-I. . . . . . . . . . . . . . . . . 57
Tabla 9.
Total de la varianza explicada por el modelo unifactorial del EXANI-I. . . . . 57
Tabla 10.
Cargas factoriales de las variables manifiestas. . . . . . . . . . . . . . . . . . . . . 58
Tabla 11.
Matriz de correlaciones reproducidas por el modelo . . . . . . . . . . . . . . . . 60
Tabla 12.
Matriz de correlaciones con niveles de significancia . . . . . . . . . . . . . . . . . 62
Índice de figuras
Figura 1.
Crecimiento en las publicaciones sobre análisis factorial . . . . . . . . . . . . . 13
Figura 2.
Representación del modelo unifactorial . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Figura 3.
Representación del modelo multifactorial . . . . . . . . . . . . . . . . . . . . . . . . 16
Figura 4.
Explicación de la ecuación del modelo de factores. . . . . . . . . . . . . . . . . . 18
Figura 5.
Gráfico de codo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Figura 6.
Modelo unifactorial del EXANI-I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
9
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Prefacio
E
l Centro Nacional de Evaluación para la Educación Superior (Ceneval) es
una institución de carácter eminentemente técnico. A lo largo de tres lustros
su actividad esencial ha sido promover la calidad de la educación mediante eva-
luaciones válidas, confables y pertinentes de los aprendizajes.
Primordialmente, evalúa los conocimientos y habilidades adquiridos por los
individuos en los procesos de enseñanza-aprendizaje, formales o no forma-
les, de los sistemas educativos. Así contribuye a la toma de decisiones funda-
mentadas. De hecho, con sus servicios de evaluación atiende instituciones de
educación media superior y superior, autoridades educativas, organizaciones
profesionales y otras instancias públicas y privadas y, desde luego, al destinatario
fnal –y el más importante– de sus pruebas: el propio sustentante.
Con la serie Cuadernos técnicos el Centro promueve también el uso de herra-
mientas de análisis en círculos cada vez más amplios. El propósito de estos
títulos es contribuir a elevar la calidad de la educación mexicana y fomentar una
auténtica cultura de la evaluación.
La inteligencia, el nivel de ansiedad o el grado de satisfacción no pueden
medirse directamente. Los especialistas las denominan variables latentes o
constructos; y para estimarlas lo hacen mediante variables manifestas, como
podrían ser la respuesta a un reactivo o el número de aciertos en un examen.
La teoría que sustenta el empleo del análisis factorial –tema de estudio del
presente texto– asume que la variable latente es continua: los individuos pueden
ordenarse de mayor a menor nivel del atributo bajo estudio. El propósito es
analizar la estructura de correlación entre un grupo de variables medidas, asu-
miendo que la asociación entre ellas puede ser explicada por una o más varia-
bles latentes, que en el caso del análisis factorial se les reconoce como factores.
11
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
E
l primer planteamiento del análisis factorial se remonta a principios del siglo
XX, cuando Charles Spearman (1904) hizo un estudio sobre la medición de
la inteligencia. Conjeturó que si dos habilidades están correlacionadas, entonces
cada una está compuesta por dos factores: uno que les es común, responsable de
la correlación, y otro que es específco pues determina la diferencia entre ambas.
En los primeros años de esta herramienta metodológica el enfoque predo-
minante era asumir a priori que en los datos subyacía una estructura unifactorial.
Thurstone (1935) propuso un cambio en la conceptualización del análisis fac-
torial sugiriendo que los datos analizados podrían explicarse por más de una
variable latente (factor); que lo importante era determinar el número de factores
que podrían ser identifcados. El estudio de inteligencia Thurstone (1938) pro-
puso que la inteligencia puede ser explicada por siete factores.
En 1936 la Sociedad de Psicometría fundó una revista de investigación es-
pecializada: Psychometrika, en cuyas páginas se publicaron entre fnales de los
años treinta y principios de los cincuenta numerosos artículos sobre cuestiones
relacionadas con el desarrollo del análisis factorial, tales como la estimación
de las comunalidades, la extracción de factores comunes, la determinación del
número de factores, la rotación de los factores, la estimación de los puntajes
factoriales, los métodos para acelerar la velocidad de los cálculos y la indeter-
minación de los modelos.
En la actualidad, el uso del análisis factorial como herramienta metodológi-
ca se ha extendido a diversos ámbitos del quehacer científco: la psicología (en
estudios de habilidades, motivación, aprendizaje, etcétera); la pedagogía (en es-
tudios relacionados con el aprovechamiento escolar, la tipología de profesores,
etcétera); la sociología (en dimensiones de grupo, actitudes políticas, afnidad
política, etcétera), y en muchas otras disciplinas (ecología, economía, medicina,
metrología...).
Capítulo I
Antecedentes históricos
12
Cuaderno técnico 6
Como una muestra del uso de esta técnica estadística en los años recientes,
Kaplunovsky (2006) presentó los resultados de una exploración realizada en in-
ternet en mayo de 2004. Detectó 3,460 artículos relacionados con este método
cuantitativo y los clasifcó de acuerdo con los campos del conocimiento en que
se habían generado los datos, los cuales se muestran en la tabla 1.
En la fgura 1 se muestra el incremento que han tenido, en los últimos 15
años, los estudios que utilizan el análisis factorial en la información.
Tabla 1. Artículos publicados sobre análisis factorial
en diferentes disciplinas, 1904-2004
Área
1904-
1980
1981-
1985
1986-
1990
1991-
1995
1995-
2000
2000-
2004
Total
Biología
Química
Cromatografía
Ecología
Economía
Alimentación
Geriatría
Procesamiento de imágenes
Industria
Resonancia magnética
Medicina
Metodología
Investigación de operaciones
Fisiología
Psiquiatría
Psicología
Espectroscopia
166
280
88
138
85
50
88
147
78
49
418
391
95
203
365
1280
326
18
12
4
2
14
1
8
2
4
1
30
10
1
20
15
93
11
17
14
7
4
12
4
5
7
0
1
32
25
1
26
14
86
27
20
36
16
11
9
5
10
22
2
3
64
31
1
38
39
159
40
23
53
22
15
4
2
9
27
6
6
67
49
9
39
61
219
50
41
77
15
45
26
21
31
51
28
13
116
151
41
29
99
344
90
47
88
24
61
20
17
25
38
38
25
109
125
42
51
137
379
108
13
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Figura 1. Crecimiento en las publicaciones sobre análisis factorial
Publicaciones
Publicaciones
sin Psychology
15
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Capítulo II
¿Qué es el análisis factorial?
E
l análisis factorial es una técnica estadística multivariada que se incorpora a
la metodología cuantitativa que involucra variables latentes.
1
Estas variables
no observables, denominadas frecuentemente constructos, son variables que no
pueden medirse de manera directa: se estiman a través de variables manifestas
(observadas). Ejemplos de variables latentes podrían ser la inteligencia, el nivel
de ansiedad, el nivel socioeconómico, el capital cultural, el grado de satisfacción
con un producto o el nivel de razonamiento verbal. Variables observadas po-
drían ser la respuesta a un reactivo de un examen, el número de aciertos en un
examen, la intensidad con que se lanzó una pelota, el número de computadoras
en una vivienda, etcétera.
En el análisis factorial se asume que la variable latente es continua: los indi-
viduos pueden ordenarse de mayor a menor nivel del atributo bajo estudio. El
objetivo primordial de esta herramienta es estudiar la estructura de correlación
entre un grupo de variables medidas, asumiendo que la asociación entre las
variables puede ser explicada por una o más variables latentes, que en el caso
del análisis factorial se les reconoce como factores. Dicho de otra manera, la
correlación entre el grupo de variables se explica por la presencia de los factores
subyacentes a ellas.
En el caso de que esta estructura de correlación pueda explicarse a través
de un solo factor, estaremos ante un modelo unifactorial; por el contrario, si
necesitamos más de un factor para explicar estas correlaciones, utilizaremos
un modelo multifactorial. En este último caso, se espera que las variables que
componen cada uno de estos factores estén fuertemente correlacionadas, y con
correlaciones débiles con las variables que componen el resto de los factores.
Cuando se representa gráfcamente un modelo latente, como el análisis fac-
torial, es común representar los factores con un óvalo o círculo, y las variables
manifestas con un cuadrado o rectángulo. Las fechas van del factor a las varia-
1
Véase el Cuaderno técnico sobre análisis de clases latentes para una defnición más extensa de
este tipo de variables.
16
Cuaderno técnico 6
bles, indicando que el factor es una variable explicativa y las variables manifes-
tas son variables dependientes. En las fguras 2 y 3 se muestra la representación
gráfca de un modelo unifactorial y otro multifactorial, respectivamente.
Figura 2. Representación del modelo unifactorial
Figura 3. Representación del modelo multifactorial
V
1
V
2
V
3
V
4
V
5
V
6
V
7
V
8
V
9
V
10
Habilidad
matemática
V
1
V
2
V
3
V
4
V
5
V
6
V
7
V
8
V
9
V
10
Series
numéricas
Resolución
problemas
17
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Los factores f
1
, f
2
,...,f
k
, juegan el papel de variables explicativas, y cada una de
las X’s el de variables de respuesta; las λ’s son los coefcientes asociados a cada
factor, y reciben el nombre de cargas factoriales; por último, los errores del mode-
lo son las u’s. En este sentido, el modelo está determinando por las variables y
no por los individuos.
Las cargas factoriales indican la correlación entre cada variable y el factor
correspondiente; así, una variable con mayor carga factorial será más represen-
tativa del factor. De este modo, las cargas factoriales sirven para interpretar la
función que cumple cada variable para defnir cada uno de los factores. En la
fgura 4 se identifcan las variables que intervienen en el modelo factorial.
El modelo de factores
En este apartado se explicarán los aspectos básicos de la teoría que sustenta el
análisis factorial y se pospone su explicación formal, en términos matemáticos,
hasta el capítulo 3: Fundamentos técnicos del análisis factorial.
Supongamos que tenemos un conjunto de variables observadas X
1
, X
2
,...,
X
p
y se asume que en este conjunto subyacen k factores (el número de factores
debe ser estrictamente menor al número de variables observadas). De acuerdo
con lo que hemos planteado en secciones anteriores, los factores son variables
latentes que explican la asociación entre las variables manifestas (en este caso
las X’s); entonces, podemos pensar el modelo de factores de manera similar al
modelo de regresión lineal, en el que se exprese esta relación entre factores y
variables, de la siguiente forma:
18
Cuaderno técnico 6
Supuestos del modelo
En el modelo de factores, a f
1
, f
2
,...,f
k
se les denomina factores comunes y a u
1
, u
2
,...,u
p

factores específcos. Los supuestos básicos sobre los que se construye el modelo
son los siguientes:
1. Los factores comunes f
j
j=1,2,...,k no están correlacionados y tienen media
cero y varianza uno.
2. Los factores específcos ui no están correlacionados y tienen media cero y
varianza Ψ
i
i=1,2,...,p.
3. Los factores comunes no están correlacionados con los factores específcos.
Bajo estos supuestos es posible descomponer la varianza de cada una de
las variables observables del modelo o variables indicadoras (X
i
), en dos compo-
nentes no correlacionados. Por un lado la varianza común, conocida como la
Figura 4. Explicación de la ecuación del modelo de factores
Variable observada
Cargas factoriales
Factores
Error
19
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
comunalidad de la variable y que representa la varianza de la variable X
i
que es
explicada por los factores comunes y, por el otro, la varianza específca conocida
como especifcidad y que es la varianza no explicada por estos factores comunes.
Los factores comunes y sus características asociadas (comunalidades, especifci-
dades, número, etcétera) representan el objeto de interés en el análisis factorial.
Métodos de extracción de factores
Todas las técnicas de estimación del modelo factorial parten del supuesto de
que los factores iniciales que serán extraídos de la matriz de correlaciones de las
variables indicadoras no estarán correlacionados. El objetivo de los métodos de
extracción de factores es minimizar la distancia entre la matriz de correlaciones
observada y la matriz de correlaciones que se desprende del modelo (matriz que
especifca el modelo de factores). La diferencia entre los métodos radica en la
defnición de “distancia” que utilizan para llegar a la solución. El método de mí-
nimos cuadrados, por ejemplo, se ocupa de minimizar la suma de cuadrados de
las diferencias entre estas dos matrices, por lo que los valores de los parámetros
que logren este objetivo serán los estimadores fnales.
Uno de los métodos más comunes para la extracción de factores es el cono-
cido como Factorización de ejes principales (Principal axis factoting). Se trata de un mé-
todo iterativo para estimar las comunalidades y subsecuentemente extraer los
factores. Este método es igual al que se usa en la técnica multivariada conocida
como Análisis de componentes principales, salvo que no se realiza sobre la matriz
original de correlación (véanse detalles en el capítulo 3). Los factores se extraen
de manera sucesiva, por lo que la solución fnal consiste en factores ortogona-
les. El primer factor se obtiene de forma que explique la mayor cantidad de la
varianza común; el segundo se extrae de una matriz de correlación residual que
se obtiene una vez que se toma en cuenta la infuencia del primer factor. Este
20
Cuaderno técnico 6
proceso continúa hasta que se ha extraído un número sufciente de factores. En
el siguiente apartado revisaremos algunos criterios para determinar el número
de factores con que se debería detener este proceso.
Selección del número de factores por ser extraídos
Uno de los objetivos del análisis factorial es la reducción de los datos originales
a un número menor de variables, pero podría ocurrir que –dado un conjunto de
datos– se tengan soluciones muy diferentes, dependiendo del número de facto-
res considerado. Por tal motivo son varios los criterios que pueden servirnos de
guía para determinar cuántos factores extraer.
En el capítulo 3 determinaremos el número máximo de factores que se pue-
den extraer, dependiendo del número de variables indicadoras que se incluyan
en el modelo; y a continuación explicaremos la lógica de algunos criterios uti-
lizados para la selección del número de factores por extraer en el análisis; co-
menzaremos con los criterios teóricos que defnen el análisis factorial confrmatorio
y con algunos criterios estadísticos que nos ayudarán a seleccionar el número
exacto de factores por extraer en el marco del análisis factorial exploratorio.

Criterio a priori (tipos de análisis factorial)
En muchas ocasiones no se tiene certeza sobre el número de factores k que
subyacen en la estructura de datos; por ende, se puede realizar la extracción de
factores de manera secuencial, se inicia con k=1 y se llega hasta un número de
factores que permita lograr un buen ajuste del modelo a los datos. Este proce-
dimiento de incorporar factores hasta lograr un buen ajuste da lugar al llamado
análisis factorial exploratorio, en el que el investigador no conoce de antemano el
número de factores que subyacen en las variables observadas. Una desventaja
de este tipo de análisis: puede ocurrir que los factores encontrados no tengan
21
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
ninguna interpretación para el investigador. Por el contrario, cuando en una in-
vestigación se determina de forma precisa el número de factores, se está ante un
análisis factorial confrmatorio. La forma usual de proponer este número de factores
es en atención a alguna teoría propuesta en el área de aplicación. En este caso,
los objetivos de la investigación se centran en la confrmación del número de
factores y, consecuentemente, en la validación de esta teoría mediante la eviden-
cia empírica proporcionada por los datos. Si el ajuste estadístico de los datos al
modelo teórico es satisfactorio, se podrá concluir que el modelo es adecuado.
Entonces, cuando el análisis factorial es de tipo exploratorio, se tiene la nece-
sidad de decidir cuántos factores se deben retener en el análisis. En seguida se
enuncian algunos criterios establecidos para decidir este número.
Criterio de la raíz latente (eigenvalor >1)
La lógica que sigue este criterio se basa en la idea de que cada uno de los facto-
res extraídos debería justifcar, al menos, la varianza de una variable individual
(de lo contrario se incumpliría con el objetivo de reducir la dimensión de los
datos originales).
El análisis factorial –al igual que otras técnicas multivariadas– utiliza eigen-
valores (raíces latentes) y sus correspondientes eigenvectores para consolidar
la varianza en una matriz. En el contexto del análisis factorial, los eigenvalores
representan la cantidad de varianza de todas las variables indicadoras que puede
ser explicada por un factor determinado. Cada una de las variables contribuye
con un valor de 1 en el eigenvalor (varianza) total.
2
Por lo tanto, de acuerdo con
este criterio, deberían elegirse los factores con eigenvalores mayores a 1 para
garantizar que explican la varianza de al menos una variable.
2
Esto se debe a que el análisis se realiza con variables estandarizadas, por lo que la varianza
de cada una de ellas es igual a uno.
22
Cuaderno técnico 6
Criterio del gráfico de codo (contraste de caída)
Este criterio consiste en analizar el comportamiento de los eigenvalores aso-
ciados a los factores extraídos, para determinar un punto de corte entre la pen-
diente pronunciada de los eigenvalores altos y la pendiente (más bien plana) de
los eigenvalores bajos.
La siguiente fgura representa los primeros 11 factores extraídos en el análi-
sis factorial de un conjunto de reactivos que componen el área de un examen.
Del lado izquierdo de la gráfca un punto sobresale de los demás, haciendo
que la pendiente de la línea que une todos los puntos cambie drásticamente en
el lugar correspondiente al segundo factor. En este sitio, todo el conjunto de
Figura 5. Gráfico de codo
Gráfico de codo (scree - plot)
Criterio de contraste de caída
E
i
g
e
n
v
a
l
o
r
3.5
3.0
2.5
2.0
1.5
1.0
0.5
1 2 3 4 5 6 7 8 9 10 11
23
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
factores se divide en dos grupos, el primero compuesto solamente por el primer
factor, que explica una cantidad mayor de varianza que cualquiera de los diez
factores restantes pertenecientes al segundo grupo y para los que la cantidad
de varianza explicada parece haberse estabilizado. Por lo tanto, con este criterio
deberíamos incluir sólo el primer factor.
Criterio del porcentaje de varianza explicada
Este criterio consiste en analizar el porcentaje acumulado de la varianza total
extraída. Esto es, se busca asegurar que el número de factores extraídos alcance
a explicar un porcentaje determinado de la varianza total de los datos. Aunque
no se ha determinado un porcentaje preciso de varianza explicada que sirva
como umbral para concluir con la extracción de factores, algunos autores su-
gieren que en el caso de aplicaciones concernientes a las Ciencias Naturales se
puede detener el proceso cuando se alcance 95% de la varianza o cuando la
inclusión de un factor adicional contribuya con menos de 5% a la varianza ex-
plicada acumulada. Para el caso de las Ciencias Sociales los criterios propuestos
son más laxos. Se habla de continuar la extracción de factores hasta lograr 60%
de la varianza total (Hair et al., 1998/1999).
Interpretación de la matriz de cargas factoriales
Una vez que se han estimado las cargas factoriales es importante establecer
criterios que permitan interpretar los resultados obtenidos. Esta interpretación
hará posible establecer una conexión entre los resultados vertidos por el análisis
factorial y los constructos teóricos relacionados con los datos. En este sentido,
la extracción de un determinado número de factores por los criterios estadís-
ticos ya mencionados, carecerá de sentido si no podemos darle un signifcado
lógico a cada uno de ellos, que además esté justifcado teóricamente.
24
Cuaderno técnico 6
Las cargas factoriales indican la correlación entre cada variable y el factor
correspondiente, de ahí que una variable con mayor carga factorial será más
representativa del factor. Tomando en cuenta esto, un análisis de la matriz de
cargas factoriales puede ayudarnos a identifcar cómo se agrupan las variables
manifestas para conformar cada uno de los factores resultantes del modelo, e
incluso a etiquetarlos. Una vez que sabemos cuáles de las variables manifestas
“cargan” en el factor 1, por ejemplo, podemos deducir qué tipo de constructo
teórico está representado por dicho factor.
En la siguiente tabla se muestra la matriz de cargas factoriales para un ejem-
plo hipotético en el que se realizó un análisis factorial con las respuestas a 10
reactivos de opción múltiple de una prueba. Los primeros 5 (RM1 a RM5) son
reactivos del área de Razonamiento matemático, mientras que los últimos cinco
(RV1 a RV5) corresponden al área de Razonamiento verbal.
De acuerdo con estos resultados, podemos identifcar al factor 1 con una
infuencia común en las primeras cinco variables y al factor 2 con una infuen-
cia común en las últimas cinco. De esta manera podríamos dividir el total de
Área
Variable
(Reactivo)
Factor
Razonamiento verbal
Razonamiento matemático
RM1
RM2
RM3
RM4
RM5
1 2
0.6
0.5
0.6
0.6
0.5
0.1
0.1
0.2
0.1
0.1
0.1
0.2
0.1
0.2
0.2
0.6
0.6
0.6
0.6
0.7
RV1
RV2
RV3
RV4
RV5
Tabla 2. Matriz de cargas factoriales para un caso hipotético
25
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Carga factorial
(a) La significancia se basa en un nivel de significación de 0.05, una
potencia de 80% y los errores estándar supuestamente dos veces
mayores que los coeficientes convencionales de correlación
Tamaño muestral necesario
para la significancia- (a)
0.30
0.35
0.40
0.45
0.50
0.55
0.60
0.65
0.70
0.75
352
250
200
150
120
100
85
70
60
50
Tabla 3. Directrices para la identificación de cargas factoriales
significativas, basadas en el tamaño de la muestra
variables (reactivos) en dos grupos, que no se traslapan, y que son indicativos
de dos variables latentes diferentes: Razonamiento matemático (factor 1) y Ra-
zonamiento verbal (factor 2).
¿Cómo podemos determinar si una carga factorial es lo sufcientemente
“grande” para concluir que la correlación entre la variable y el factor es signif-
cativa? Hair et al. (1998/1999) proponen ciertas directrices para determinar si
una carga factorial es o no signifcativa, dependiendo del tamaño de la muestra
utilizada para el análisis (esta tabla se basa en estudios de potencia estadística):
En el ejemplo anterior la interpretación fue muy sencilla, porque cada va-
riable resultó estadisticamente signifcativa para un solo factor. Sin embargo,
este no es el caso frecuente. A continuación se describe un procedimiento que
puede ayudar a clarifcar la interpretación de los resultados.
26
Cuaderno técnico 6
Un concepto muy controversial: rotación de factores
Cuando el modelo en cuestión está determinado por un solo factor, su solución
es única; sin embargo, las soluciones de los modelos multifactoriales, no son
siempre únicas, ya que cuando existen dos o más factores signifcativos, las dis-
tintas combinaciones posibles pueden interpretarse de distintas maneras (véan-
se “soluciones múltiples al modelo” en el capítulo 3). Este aspecto ha suscitado
críticas sobre el análisis factorial, ya que se piensa que depende de cuestiones
subjetivas, que pudieran encaminar las soluciones a resultados preconcebidos
por el investigador. Estas críticas son erróneas en dos aspectos: primero, el in-
vestigador no obtiene la solución que él desea; segundo, es más adecuado decir
que la misma solución puede expresarse de diferentes maneras; de hecho, varias
características de las soluciones –por ejemplo las comunalidades– permanecen
inalteradas. Rotación –nombre que se le da al proceso de cambiar de una solución
a otra– proviene de la representación geométrica de este procedimiento.
La razón principal para rotar una solución es clarifcar la estructura de las
cargas factoriales. Los factores deben tener un signifcado claro para el inves-
tigador, a partir del contexto de aplicación. Si la estructura que muestran las
cargas factoriales de la solución inicial son confusas o difíciles de interpretar,
una rotación puede proporcionar una estructura más fácil de interpretar.
Rotaciones ortogonales
Uno de los patrones de cargas factoriales más usuales y de hecho más deseables
es la llamada estructura simple de cargas factoriales. Se dice que las cargas factoriales
presentan una estructura simple si cada variable tiene una gran carga en un
solo factor, con cargas cercanas a cero en el resto de los factores. Una de las
rotaciones ortogonales (los nuevos ejes después de la rotación siguen siendo
ortogonales) que procura generar una estructura de cargas simple es la rotación
27
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
varimax, implementada en la mayoría de los paquetes estadísticos. No hay ga-
rantía de que una rotación produzca necesariamente una estructura de cargas
simple, pero, de hacerlo, puede ayudar a una interpretación mucho más fácil de
los factores. Existen otras rotaciones ortogonales (como quartimax y equimax),
pero ninguna tiene la popularidad de varimax.
Rotaciones oblicuas
Contrario a las rotaciones ortogonales, las rotaciones oblicuas permiten relajar
la restricción de ortogonalidad con el fn de ganar simplicidad en la interpre-
tación de los factores. Con este método los factores resultan correlacionados,
aunque generalmente esta correlación es pequeña. El uso de rotaciones oblicuas
se justifca porque en muchos contextos es lógico suponer que los factores es-
tán correlacionados. Pese a que pueden ser de utilidad en algunas situaciones,
estas rotaciones raramente se usan, a diferencia de las ortogonales. Entre las
rotaciones oblicuas, promax es conceptualmente simple; sin embargo, la más
popular es oblimin.
Valoración de las comunalidades
Además del análisis de la matriz de cargas factoriales, es importante verifcar si
cada una de las variables incluidas en el análisis son explicadas aceptablemente
por el modelo. Esto puede lograrse analizando la estimación fnal de las comu-
nalidades. Puesto que la comunalidad representa la proporción de la varianza
de la variable indicadora que es explicada por los factores comunes del modelo,
Hair et al. (1998/1999) proponen que las variables con una comunalidad menor a 0.5
carecen de una explicación sufciente y no deberían ser consideradas en la interpreta-
ción fnal del análisis.
28
Cuaderno técnico 6
Puntajes factoriales
Una vez realizado el análisis factorial, quizá con alguna rotación de los factores,
el paso fnal es asignar los puntajes factoriales (scores) a cada individuo en la
muestra. Esta construcción de puntajes genera una nueva variable por cada
factor en el modelo. Usualmente estas variables derivadas del análisis factorial
pueden utilizarse como insumo para otros procedimientos estadísticos de in-
terés. Existen dos métodos para construir estos puntajes factoriales, a saber:
el método de Bartlett o de mínimos cuadrados ponderados y el método de
Thompson o de regresión (capítulo 3).
Bondad de ajuste del modelo de factores
Dado que el análisis factorial se realiza a través de un modelo, ¿qué tan bien
ajusta este modelo a nuestros datos? Un primer elemento de juicio lo constituye
la matriz de residuos, defnida por:
que es la diferencia entre nuestra matriz observada de correlaciones y la matriz
de correlaciones reproducida por el modelo de factores. Si estas diferencias son
pequeñas, se puede afrmar que el modelo de factores ajusta bien a los datos.
Los valores de estas matrices están acotados entre –1 y 1, de modo que las dife-
rencias deben ser realmente pequeñas. Paquetes estadísticos como SPSS remar-
can diferencias menores o iguales a 0.05. Obsérvese además que los elementos
en la diagonal de esta matriz de residuos son las especifcidades del modelo. Un
buen ajuste signifca, en este caso, que el modelo con k factores es adecuado
para nuestra información.
29
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Análisis factorial con variables discretas
El análisis factorial estándar se realiza con variables continuas; sin embargo, en
muchas áreas de aplicación lo usual es tener variables medidas en escalas no-
minal u ordinal. En estos casos, lo adecuado es realizar el análisis respetando el
orden de medición de las variables involucradas. Dado que el análisis factorial se
basa en el uso de la matriz de correlación, una manera de considerar la escala de
medición de las distintas variables involucradas en el estudio es calcular el tipo
de correlación que corresponda a cada par de variables, de acuerdo con su es-
cala particular. En este sentido, la tabla siguiente muestra el tipo de correlación
que conviene calcular, de acuerdo con el orden de medición de las variables
involucradas.
El análisis factorial supone la existencia de una variable latente continua con
distribución normal. De esta manera, cuando se utilizan variables discretas (or-
dinales y dicotómicas), estás se utilizan como si fueran continuas.
Escala de medición Continua
Continua Pearson
Tetracórica
Policórica Policórica
Poliserial Punto biserial
Ordinal
Ordinal
Dicotómica
Dicotómica
Tabla 4. Medidas de correlación entre variables
31
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Capítulo III
Fundamentos técnicos del análisis factorial
Aspectos formales
E
n este apartado presentaremos algunos aspectos formales de la teoría que
sustenta este análisis. La presentación se hará de manera general, consi-
derando el modelo multifactorial del que se desprende, como caso particular,
el modelo unifactorial. A lo largo de la exposición se defnirán algunos de los
conceptos relacionados con esos modelos.
Supongamos que tenemos un conjunto de variables observadas X
1
, X
2
,...,
X
p
y se asume que en este conjunto subyacen k factores con k<<p. Sin perder
generalidad, podemos suponer que las variables están centradas sobre sus me-
dias, i.e.; tienen media cero.
Una manera usual de escribir el modelo factorial es a través de su represen-
tación en forma matricial:
Donde,
Con X, la matriz de datos, Λ la matriz de cargas factoriales, y f y U son los
vectores de variables no observables.
A f
1
, f
2
,...,f
k
se les denomina factores comunes (comunalidad) y a u
1
, u
2
,...,up
factores específcos (especifcidad).
32
Cuaderno técnico 6
Algunos supuestos sobre los que se construye el modelo son:
1. Los factores comunes f
j
j=1,2,...,k no están correlacionados y tienen media
cero y varianza uno.
2. Los factores específcos ui no están correlacionados y tienen media cero y
varianzaΨ
i
i=1,2,...,p.
3. Los factores comunes no están correlacionados con los factores específcos.
Bajo estos supuestos tenemos que:
con h
i
2
conocida como la comunalidad de la variable, que es la varianza de la
variable X
i
, explicada por los factores comunes, y Ψ
i
conocida como especifcidad,
la varianza no explicada por estos factores comunes.
Además, podemos observar que los factores comunes explican las relaciones
entre las variables medidas del estudio, y así se convierten en el objeto de inte-
rés de este análisis. Es por lo tanto importante que estén bien determinados y
puedan ser interpretados en el contexto de la aplicación que les dio origen. La
inclusión de los factores específcos en el modelo obedece al hecho de que es
generalmente imposible expresar de manera exacta a nuestras p variables por
medio de un número más reducido k de factores.
33
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Es común hacer el análisis factorial con las variables estandarizadas, i.e.,
variables con media cero y varianza uno; entonces lo que tenemos son corre-
laciones entre las variables, en lugar de covarianzas. Si denotamos como R a la
matriz de correlación de X la matriz de datos estandarizados, la descomposi-
ción anterior se puede escribir, de forma matricial, como
con Ψ una matriz diagonal con elementos , e I la matriz idéntica, que tiene
unos en la diagonal y ceros fuera de ella. De aquí tenemos
entonces, el objetivo del análisis factorial es determinar k: número de factores,
Λ y Ψ utilizando la matriz de correlación muestral R
^
.
para toda i ≠ j además
34
Cuaderno técnico 6
Soluciones múltiples al modelo
Un aspecto muy importante es que la solución del modelo de factores no es
única, en el sentido de que si tenemos una matriz ortogonal M (la condición de
ortogonalidad => MM’=I), podemos escribir:
Entonces, si Λ es una matriz de cargas factoriales, ΛM también lo es, para
toda matriz ortogonal, M. Por lo tanto, la matriz de cargas factoriales no es
única, y esto implica que los factores tampoco son únicos.
Para garantizar una solución única en este modelo debemos anexar alguna res-
tricción. La forma usual de este tipo de restricciones es alguna de las siguientes:
con Λ y D matrices diagonales.
Obsérvese que el producto de Λ’Λ no genera una matriz diagonal, aunque
las restricciones del modelo exigen que lo sea, es decir que los elementos fuera
de la diagonal de este producto sean cero. Por ello, y ya que fuera de la diagonal
tenemos k(k-1) elementos, entonces es necesario este número de restricciones
para garantizar una solución única del modelo.
35
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
A partir de esta desigualdad podemos observar que el mínimo de variables
requeridas para extraer un factor es 3 (véase que en este caso se cumple la igual-
dad). Con cinco variables manifestas podemos tener a lo más dos factores; con
20 el número máximo de factores puede ser hasta de 14; sin embargo, en la prác-
tica no se busca encontrar este número máximo, sino aquel que nos permita ex-
plicar de la mejor manera posible las correlaciones entre estas variables medidas.
Número máximo de factores
De acuerdo con la discusión anterior, conviene saber cuál es el máximo núme-
ro de factores que podemos extraer de un conjunto de p variables manifestas.
En este tipo de análisis ¿quién o qué constituye nuestra información? Como la
idea es descomponer la matriz de correlación, entonces los elementos no redun-
dantes de ésta, representan nuestra información. En el caso de que tengamos
p variables indicadoras, el número de elementos no redundantes es p(p+1)/2.
Ahora bien, necesitamos estimar p*k cargas factoriales totales y p especifcida-
des, entonces necesitamos estimar p(k+1) parámetros de nuestro modelo. Y
necesitamos imponer a este número de parámetros por estimar, k(k-1) restric-
ciones para obtener una solución única. Es lógico suponer que esta diferencia
entre los parámetros por estimar y las restricciones no debe exceder el número
de elementos no redundantes de la matriz de correlación (nuestra información
observada). Entonces, se debe cumplir que:
36
Cuaderno técnico 6
Un ejemplo interesante
Como acotamos en el párrafo anterior, cuando se tienen tres variables mani-
festas y un solo factor, se cumple la igualdad en este criterio para el número
máximo de factores. Al respecto, Everitt (2001) proporciona el siguiente ejem-
plo, que, además de tratar con detalle esta situación, nos proporcionará una
visión clara de los procesos inmersos en la solución de estos modelos.
Se tienen las califcaciones de exámenes de un grupo de estudiantes, en las asig-
naturas de X
1
: Literatura clásica, X
2
: Francés y X
3
: Inglés, de las que se obtiene
la siguiente matriz de correlaciones:
como no puede ser de otra forma, asumimos que un único factor subyace a
este conjunto de variables, que podríamos denominar habilidades lingüísticas,
por ejemplo. Entonces, el proceso para estimar los parámetros es el siguiente:
Escribamos inicialmente el modelo de factores:
como comentamos líneas arriba, el objetivo es encontrar, a partir de la matriz
de correlación R, las matrices Λ
ˆ
y Ψ
ˆ
. En este caso tenemos:
X
1
X
2
X
3
37
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
de este sistema se desprenden las ecuaciones:
λ
1
λ
2
=0.83
λ
1
λ
3
=0.78
λ
2
λ
3
=0.67
de donde concluimos que λ
1
λ
2
λ
3
= √ 0.83 * 0.78 * 0.67 = 0.6586 y fnalmente
obtenemos que:
De las relaciones se tiene que
por lo que
38
Cuaderno técnico 6
podemos observar que todos los parámetros estimados tienen valores admisibles.
Supongamos ahora que tomamos una nueva muestra sobre estos exámenes,
que arroja la siguiente matriz de correlación:
entonces, realizando el procedimiento anterior llegamos a:
que tiene dos parámetros estimados inadmisibles, var(X
1
)= Ψ
ˆ

1
=-0.44 y λ
ˆ

1
=1.2.
Este último debido a que estima la correlación entre X
1
y f
1
, por lo que no puede
ser mayor que uno. El ejemplo muestra que la igualdad en el criterio del número
máximo de factores que se pueden extraer, puede generar resultados inapropia-
dos, por lo que es preferible considerar la desigualdad estricta. También ilustra
el principio sobre el que se basa el proceso de estimación: igualar la matriz de
correlaciones generada por el modelo, que involucra a los parámetros que lo
componen, con la matriz de correlación estimada con la información.
Métodos de estimación
Si defnimos como Σ( θ

) a la matriz de correlaciones que se desprende del
modelo, y a S, la respectiva de los datos, entonces el objetivo de los métodos de
39
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
estimación es minimizar alguna función de distancia entre estas dos matrices, es
decir, la función por minimizar es de la forma:
con G alguna función específca. Los valores en Σ( θ

) que minimicen esta fun-
ción de distancia serán los estimadores de sus parámetros. Tomando en cuenta
que Σ se puede descomponer como:
los procesos que minimizan esta función de distancia entre estas dos matrices
son equivalentes a encontrar los estimadores de Λ y Ψ tales que:
aunque en este método el objetivo es maximizar la verosimilitud, cabe recordar
que maximizar es equivalente a minimizar el negativo de esta verosimilitud.
Este método de estimación demanda que X tenga una distribución normal
multivariada, hecho que en la práctica es muy difícil que se cumpla. No obstante,
se ha encontrado que el método es robusto ante desviaciones de la normalidad.
Sin embargo, es inadecuado su uso con variables nominales u ordinales.
este hecho ya se había evidenciado en el ejemplo mostrado anteriormente.
Máxima verosimilitud
En este caso, la función de distancia se desprende de la verosimilitud del mo-
delo, y tiene la forma
40
Cuaderno técnico 6
Mínimos cuadrados
En este caso, la función que se minimiza es:
que también puede considerarse una medida de distancia entre la matriz obser-
vada S y la matriz generada por el modelo Σ. Se minimiza la suma de cuadrados
de las diferencias entre estas dos matrices. Nuevamente, los valores de los pará-
metros que minimicen esta función serán los estimadores.
Mínimos cuadrados generalizados
Este método es una generalización del de mínimos cuadrados; la función por
minimizar es:
la intención es minimizar la suma de cuadrados de todos los elementos en este
producto de matrices.
Mínimos cuadrados ponderados
En este método el objetivo es minimizar la diferencia entre la matriz generada
por el modelo y la estimada por nuestros datos, ponderando estas diferencias
por una matriz de pesos. Concretamente, la función que debemos minimizar
tiene la forma:
con Ψ la matriz defnida anteriormente.
41
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Método de rotación de ejes principales
En este caso se utiliza la llamada matriz reducida S* defnida como
por lo que los elementos en la diagonal de S* son las comunalidades estimadas.
Este proceso requiere de una estimación inicial de estas comunalidades. Los
métodos más frecuentes para estas estimaciones iniciales son:
• El coefciente de correlación múltiple entre cada X
i
y el resto de las variables, y
• El mayor coefciente de correlación, en valor absoluto, entre X
i
y cualquiera
de las otras variables, es decir:
a partir de las estimaciones iniciales de las comunalidades se hace un proce-
so de componentes principales sobre S* para encontrar las cargas factoriales.
Posteriormente se actualizan los estimadores de las comunalidades. El proceso
continúa de forma iterativa, hasta que el cambio en las estimaciones entre dos
iteraciones consecutivas es prácticamente nulo.
Prueba sobre el número de factores en el modelo
En esta prueba el objetivo es contrastar si el modelo con k factores que hemos
propuesto ajusta bien a los datos. En otras palabras: si k factores son sufcientes
para explicar la estructura de correlación subyacente a las variables medidas.
Esta prueba supone que la matriz de datos X tiene una distribución normal
multivariada. Bajo este supuesto tenemos que:
42
Cuaderno técnico 6
cuyo estadístico de prueba es:
que se distribuye como una χ
2
v
con v = ½[( p - k)
2
- ( p + k)], entonces rechazar
H
0
implica que el número de factores elegido no es sufciente para la descrip-
ción adecuada de la estructura de correlación, y hay necesidad de agregar más
factores. Esta prueba se basa en la normalidad multivariada de X, que es difícil
de cumplir, por lo que, en la mayoría de los casos, sólo se podrá usar como una
referencia.
Puntajes factoriales
Método de Bartlett o de mínimos cuadrados ponderados
El desarrollo de este método de construcción de puntajes es como sigue:
Generamos Z: Matriz de datos estandarizados. Entonces, el modelo de factores
se puede expresar en función de Z, como:
Z=Λf+U con U~(0,Ψ) De donde tenemos que:
U’U=(Z-Λf )’(Z-Λf ) (Mínimos cuadrados) o
U’ Ψ
-1
U=(Z-Λf )’ Ψ
-1
(Z-Λf ) (Mínimos cuadrados ponderados) con Ψ una matriz
de pesos.
43
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
entonces, se toma a f
i
como el puntaje factorial del individuo i, i=1,2,...,n.
Método de Thompson o de regresión
Se supone X, f normales. Los puntajes son:
Bartlett sugiere encontrar f que minimice:
expresión es:
El valor f
i
que minimiza esta
45
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Capítulo IV
Aplicación con variables continuas
E
n este capítulo ejemplifcaremos cómo realizar un análisis factorial con va-
riables continuas. Los análisis se presentan en dos paquetes: SPSS que es, tal
vez, uno de los paquetes estadísticos más usados en las ciencias sociales, y R,
que es un paquete gratuito, de gran desarrollo en estos tiempos. En el ejemplo
vamos a trabajar utilizando datos de aplicaciones reales del Examen Nacional
de Ingreso a la Educación Media Superior (EXANI-I).
Descripción general del EXANI-I
El EXANI-I es un examen de selección que elabora el Ceneval y que presentan
los estudiantes que terminaron la secundaria y desean continuar sus estudios
de educación media superior. Este examen evalúa sólo los conocimientos y ha-
bilidades que se consideran indispensables para el progreso de los alumnos en
el bachillerato. El examen cuenta con dos secciones:
1. Habilidades intelectuales, que se integra con las subáreas de habilidad de razo-
namiento verbal y de habilidad de razonamiento matemático.
2. Conocimientos disciplinarios, que se estructura con ocho subáreas relativas a las
asignaturas del plan de estudios de educación secundaria: español, historia,
geografía, formación cívica y ética, matemáticas, física, química y biología.
El Ceneval otorga a las instituciones educativas una califcación global de
los sustentantes, que es utilizada para seleccionar a los estudiantes que podrán
ingresar a su oferta educativa. Esta califcación global se proporciona en una
escala (índice Ceneval) que va de 700 a 1300 puntos, que es una transformación
lineal del número total de aciertos obtenido por cada sustentante.
Hasta fnales de 2008, la califcación global del examen incluía a las 10 áreas
evaluadas. Sin embargo, en 2009, con la intención de responder a las demandas
de los usuarios, el EXANI-I fue modifcado sustancialmente, convirtiéndolo en
46
Cuaderno técnico 6
un examen alineado al nuevo currículo de la secundaria, que ofrece una prueba
para selección (examen normativo) y diversas opciones para diagnóstico (exá-
menes criteriales). Dado que aún no se cuenta con datos sufcientes del EXANI-I
de nueva generación, el ejemplo que presentamos considera información del
2008, aunque los resultados no se puedan generalizar para la nueva estructura
del examen.
Definición del ejemplo
Objetivo
Comprobar que la variable latente “habilidad académica” es un factor que pue-
de explicar la asociación de los dominios que se evalúan en el EXANI-I .
Descripción de las variables
En este primer ejemplo se consideró la información de 1011 sustentantes que
presentaron el EXANI-I en junio de 2008.
Las variables manifestas del modelo reportan el número de aciertos que ob-
tienen los sustentantes del EXANI-I en cada una de las 10 áreas que se evalúan
en el examen. En la tabla 5 se presentan los dominios que explora el EXANI-I ,
y el número de reactivos con los que se explora esa variable.
47
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
En la fgura 6 se muestra gráfcamente el modelo factorial que se comproba-
rá mediante un factorial confrmatorio.
Dominio Núm. de reactivos
1. Habilidad verbal (HV)
2. Español (ESP)
3. Historia (HIS)
4. Geografía (GEO)
5. Educación cívica y ética (FCE)
6. Habilidad matemática (HM)
7. Matemáticas (MAT)
8. Física (FIS)
9. Química (QUI)
10. Biología (BIO)
16
12
12
12
12
16
12
12
12
12
Tabla 5. Dominios evaluados por el EXANI-I
Figura 6. Modelo unifactorial del EXANI-I
HV
ESP
HIS
GEO
FCE
HM
MAT
FIS
QUIM
BIO
Habilidad
académica
48
Cuaderno técnico 6
Análisis en SPSS
Antes de iniciar el análisis factorial conviene que el investigador analice la es-
tructura de correlación de las variables bajo estudio y obtenga algunos datos
descriptivos. El paquete SPSS ofrece algunas opciones que permiten explorar
los datos antes de realizar el análisis factorial. En esta sección mostraremos
algunas de estas herramientas y mencionaremos su utilidad.
En el módulo Reducción de Datos (Data Reduction) de SPSS se encuentra la op-
ción para realizar el análisis factorial (Factor).
En esta sección el paquete estadístico tiene la posibilidad de efectuar algu-
nos análisis descriptivos.
49
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Si presionamos el botón Descriptivos (Descriptives), aparecerá una ventana para
seleccionar varias estadísticas relacionadas con la matriz de correlación genera-
da por nuestros datos.
Veamos qué información nos proporcionan algunas de sus opciones (esta
información se desplegará una vez que se activaron las opciones y al momento
de ejecutar el análisis factorial):
50
Cuaderno técnico 6
Coeficientes (Coeficients)
Reporta la matriz de correlaciones entre las variables involucradas en nuestro
estudio. Al analizarla podemos ver la magnitud de asociación entre las variables,
identifcando las variables que están muy asociadas (correlaciones altas) y las
que no lo están (correlaciones bajas). Determinar si las correlaciones son fuertes
o importantes depende del ámbito de aplicación y del tamaño de la muestra. En la
tabla 6 se muestra la matriz de correlación de las variables de nuestro ejemplo.
La primera tabla (Correlación) muestra las correlaciones entre las variables. El
rango va de 0.558 (correlación entre habilidad matemática (HM) y matemáticas
(MAT)) a 0.360 (correlación entre física (FIS) y educación cívica y ética (FCE)).
En la segunda tabla (Sig. Unilateral) se aprecia que todas estas correlaciones son
estadísticamente signifcativas (p-value=0). Estas correlaciones pueden conside-
rarse como importantes en el ámbito de las investigaciones educativas.
51
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Tabla 6. Matriz de correlaciones entre las variables que evalúa el EXANI-I
Determinante de la matriz
Una medida global de la correlación entre todas las variables la proporciona el
Determinante de la matriz. Si este determinante está cercano a cero, será indicativo
de que existe una estructura de correlación importante entre las variables, y el
análisis factorial puede ser pertinente. En este conjunto de datos, el determinante
(en la parte inferior izquierda de la tabla anterior) es: 0.021, que es cercano a cero,
e indica que la estructura de correlación en este conjunto de variables es buena.
52
Cuaderno técnico 6
KMO, una prueba de adecuación muestral
La llamada medida de adecuación muestral (Measure of Sampling Adequacy)está
defnida por:
Esta prueba es un índice que compara los coefcientes de correlación (r
2
ij
)
con los coefcientes de correlación parcial (r
2
ij·m
). Esta última correlación es la
correlación entre dos variables, eliminando el efecto de las restantes variables
incluidas en el análisis. Entonces, si un par de variables está fuertemente corre-
lacionada con el resto, la correlación parcial debe ser pequeña, ya que implica
que buena parte de la correlación entre estas variables puede ser explicada por
las otras variables en el análisis. Esto signifca que está presente una fuerte
estructura de correlación entre ellas y, por lo tanto, tiene sentido realizar el
análisis de factores.
En el ejemplo, el denominador de la expresión anterior será cercano en mag-
nitud al numerador, puesto que la contribución de las correlaciones parciales
es prácticamente nula, y el índice KMO estará cercano a uno. Por el contrario,
si esta correlación parcial es grande, implica que estas variables tienen poca
correlación con el resto, lo que signifca una estructura de correlación débil
entre el conjunto, y pone en tela de duda el análisis factorial. En este escenario,
la contribución de las correlaciones parciales es importante, y el denominador
será mucho mayor que el numerador, con KMO próximo a cero. Como regla
empírica se considera que si KMO<0.6, es inadecuado realizar un análisis facto-
rial a los datos. En la tabla 7 se muestra que el resultado de esta prueba fue de
0.94, lo que indica que sí conviene realizar el análisis factorial.
53
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
La prueba de esfericidad de Bartlett
Si no hubiera estructura de correlación entre las variables involucradas en el
análisis factorial, la matriz de correlación sería la matriz identidad, es decir, ten-
dría ceros fuera de la diagonal (no habría correlación entre cualesquiera dos
variables) y unos en la diagonal. Entonces, debemos probar –como parte fun-
damental para iniciar nuestro análisis factorial– que la matriz de correlaciones
de nuestros datos es distinta de la identidad. A este respecto, la prueba de es-
fericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlación
es la identidad contra la hipótesis alternativa de que es distinta de la identidad.
Desafortunadamente, esta prueba asume que las variables tienen una distribu-
ción normal multivariada, por lo que en muchas aplicaciones debe usarse úni-
camente como una referencia. Los resultados de esta prueba, en nuestro caso,
pueden consultarse en la tabla 7.
Ambas pruebas evidencian que la estructura de correlación entre nuestras
variables es fuerte. Una vez que tenemos una idea de las variables que se encuen-
tran asociadas y las que no, y que las pruebas KMO y de Bartlett nos indiquen
que en general todas nuestras variables están correlacionadas, iniciaremos el
análisis factorial de los datos.
KMO y pruebas de Bartlett
Medida de adecuación muestral
de Kaiser-Meyer-Olkin
Prueba de esfericidad de Bartlett
Sig.
gl
Chi-cuadrado aproximado
0.94
3872.928
45
.000
Tabla 7. Pruebas KMO y de esfericidad de Bartlett
54
Cuaderno técnico 6
Estimación del modelo factorial
En el módulo de análisis factorial se deberán especifcar ciertas condiciones
medulares antes de iniciar el análisis de los datos, tales como el número de
factores y el método de extracción. Estas opciones pueden seleccionarse en la
ventana Extracción (Extraction) que se despliega desde la ventana principal del
Análisis factorial.
Nota: El programa SPSS tiene seleccionado, por defecto, el método de ex-
tracción de Componentes principales. Sin embargo, este método representa un aná-
lisis conceptualmente diferente al análisis factorial común que se abordó en este
cuaderno. Además, no debe confundirse con el método de Factorización de ejes
principales que es el que utilizaremos en todos los ejemplos.
Número de factores
Existen dos posibilidades de análisis factorial: una es el análisis confrmatorio
(cuando se desea probar una estructura factorial) y la otra es el análisis explora-
torio (cuando se desconoce la estructura de factores).
Cuando se realiza un análisis exploratorio se suele utilizar como criterio
inicial retener en el análisis todos los factores cuyo Eigenvalor (Valor propio) aso-
55
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
ciado sea mayor que uno. La razón para esta decisión es que, ya que el análisis
se realiza con las variables estandarizadas, entonces cada una de ellas tiene
varianza uno, por lo que se considera que si un factor no explica más varianza
que la de una variable, entonces no tiene sentido considerarlo.
Sin embargo, en el ejemplo que estamos trabajando realizaremos un análisis
confrmatorio, dado que deseamos probar que las variables que se evalúan en el
EXANI-I pueden ser ajustadas en una estructura unidimensional.
Método de extracción
Aquí decidiremos qué método de estimación debemos utilizar. Se acostum-
bra utilizar el de máxima verosimilitud, pero este método es muy demandante
de supuestos que deben cumplir las variables bajo estudio. Un método menos
demandante de supuestos –y por lo tanto más recomendable para las variables
que se incorporaran en el modelo– es el método de Factorización de ejes principales
(Principal axis factoring). Fue escogido para nuestro análisis de los datos.
En la ventana Extracción (Extraction) se presentan opciones para elegir la
matriz por utilizar: de correlación o covarianza. Asimismo, una ventana para
desplegar la solución de los factores sin rotar y, fnalmente, en esta parte del
módulo se puede solicitar que en los resultados se incluya una gráfca de sedi-
mentación (gráfca de codo o scree plot).
Para llevar a cabo el análisis de los datos del ejemplo que estamos trabajan-
do, elegimos las siguientes opciones:
• Método: Factorización de ejes principales (Principal axis factoring)
• Analizar: Matriz de correlación (correlation matrix)
• Número de factores: 1
Como sólo tendremos un factor, no podremos rotarlo ni observar el gráfco
de codo.
56
Cuaderno técnico 6
Resultados del análisis
Una vez seleccionadas las opciones para el análisis, debemos elegir las 10 va-
riables que incluiremos y presionar el botón Aceptar en la pantalla principal de
Análisis factorial.
La tabla 8 muestra las comunalidades de las variables involucradas. Podemos
observar que la proporción de varianza de cada variable (Extracción), que explica
este factor, fuctúa entre 35% y 53.1%, lo que implica que una gran parte de
estas varianzas no son explicadas por el factor. En la salida del paquete una
columna denominada Inicial (Initial ) corresponde al valor inicial utilizado por
el proceso iterativo.
En la tabla 9 se muestran los Eigenvalores asociados a cada factor, y su res-
pectivo porcentaje de varianza explicada. Como nosotros sólo seleccionamos
un factor, el porcentaje correspondiente es 44.448%, cercano al 60% recomen-
dado en aplicaciones en Ciencias Sociales.
57
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Comunalidades
HV
ESP
HIS
GEO
FCE
HM
MAT
FIS
QUI
BIO
.486
.465
.361
.389
.350
.449
.460
.324
.435
.358
.531
.522
.396
.427
.380
.483
.494
.350
.474
.392
Inicial Extracción
Tabla 8. Comunalidades del modelo
unifactorial del EXANI-I
Varianza total explicada
Sumas de las saturaciones
al cuadrado de la extracción
Autovalores iniciales
Factor Total
% de la
varianza
%
acumulado Total
% se la
varianza
%
acumulado
1
2
3
4
5
6
7
8
9
10
4.996
.760
.678
.634
.569
.549
.493
.476
.447
.398
4.449 49.965
7.603
6.775
6.338
5.692
5.489
4.933
4.756
4.469
3.981
44.448 49.965
57.567
64.343
70.680
76.373
81.862
86.794
91.550
96.019
100.000
44.448
Tabla 9. Total de la varianza explicada por modelo unifactorial del EXANI-I
58
Cuaderno técnico 6
Finalmente, la tabla 10 muestra las cargas factoriales de cada una de las varia-
bles observadas con el factor. Estas cargas representan la correlación de la variable
con el factor. En este caso, puede observarse que las cargas van de 0.591 a 0.729.
El juicio sobre qué tan fuertes son estas correlaciones se deja a criterio del
área de aplicación. En investigaciones educativas, estas correlaciones podrían
considerarse como buenas, con lo que confrmamos que el EXANI-I tiene una
estructurara unifactorial subyacente.
Con los resultados del ejemplo podríamos concluir que la variable latente
“habilidad académica” es sufciente para explicar la relación que mantienen las
10 variables manifestas (dominios), así que brindar una califcación global del
EXANI-I no resulta inadecuado, ya que todas las variables que se evalúan están
asociadas entre sí.
Matriz factorial
a
HV
ESP
HIS
GEO
FCE
HM
MAT
FIS
QUI
BIO
.729
.723
.629
.654
.616
.695
.703
.591
.688
.626
Factor
1
Método de extracción: Factorización del eje
principal.
a
1 factores extraídos. Requeridas 4 iteraciones.
Tabla 10. Cargas factoriales
de las variables manifiestas
59
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Es muy importante que el investigador detecte si hay un grupo de variables
con cargas factoriales bajas –un claro indicio de que esas variables no pueden
ser explicadas por el factor. En este caso convendría revisar la teoría o evaluar
otro modelo.
Bondad de ajuste
¿Qué tan bien ajusta a los datos este modelo unifactorial? Para responder esta
pregunta analizaremos la matriz de residuos (para desplegar esta matriz es ne-
cesario seleccionar la opción Reproducida (Reproduced) en la ventana Descriptivos
(Descriptives).
En la primera sección de la tabla 11, denominada Correlación reproducida, se
muestra la matriz que reproduce el modelo con nuestro único factor extraído.
La diagonal son las comunalidades (compárese con la tabla correspondiente).
Los valores fuera de la diagonal son las correlaciones entre las variables, re-
producidas por el modelo unifactorial. Para juzgar qué tan bien las reproduce,
observamos la segunda sección de la tabla: Residual. La diagonal, no mostrada
en la salida, debe ser la especifcidad de cada variable (1 - comunalidad). Si la cal-
culamos, confrmaremos que mucha de la varianza de nuestras variables no es
explicada por el modelo. En la tabla 11 se observa que únicamente 8% de las
diferencias entre las correlaciones observadas y calculadas por este modelo de
un factor sobrepasan el corte por defecto de SPSS (0.05), lo que establece un
buen ajuste sobre las correlaciones entre las variables.
Desafortunadamente, SPSS no despliega una prueba formal sobre el ajuste
que se logra con este factor, así que no podemos determinar si es sufciente para
lograr un buen ajuste.
60
Cuaderno técnico 6
Tabla 11. Matriz de correlaciones reproducidas por el modelo
Puntajes factoriales
Finalmente, podemos obtener los puntajes que le corresponden a cada uno
de los individuos en la base, dado el modelo unifactorial. En este paquete se
encuentran en la ventana Puntuaciones (Scores) y contiene tres opciones: Regresión
(Regression), Bartlett y Anderson-Rubin.
Las dos primeras fueron descritas previamente. Estos puntajes podrían ser
de utilidad en algún análisis posterior.
61
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Análisis en R
¿Por qué realizar este análisis con este software gratuito? La justifcación radica
en el hecho de que, además de ser libre (http://www.gnu.org), en este momento es
uno de los paquetes más utilizados en la investigación estadística.
El programa R es mantenido y actualizado esencialmente por la comunidad
de investigadores en estadística, lo que le sitúa a la vanguardia de los desarrollos
recientes en esta disciplina. Una característica que comparte con S-PLUS es la
enorme riqueza gráfca que posee.
Intentemos rehacer en este paquete todos los pasos que hicimos en SPSS.
Importa aclarar que R funciona a base de comandos, así que hay que escribirlos
para ejecutarlos. En seguida se presentan los principales resultados del análisis
y en el anexo 1 se describen las instrucciones para obtenerlos.
62
Cuaderno técnico 6
Descriptivos
Tabla 12. Matriz de correlaciones con niveles de significancia
HV
ESP
HIS
GEO
FCE
HM
MAT
FIS
QUI
BIO
1.000
0.546
0.487
0.516
0.494
0.511
0.465
0.374
0.476
0.449
0.000
1.000
0.453
0.454
0.453
0.525
0.510
0.438
0.475
0.433
0.000
0.000
1.000
0.428
0.424
0.396
0.394
0.367
0.429
0.420
0.000
0.000
0.000
1.000
0.429
0.457
0.472
0.365
0.408
0.392
0.000
0.000
0.000
0.000
1.000
0.386
0.392
0.360
0.401
0.385
0.000
0.000
0.000
0.000
0.000
1.000
0.558
0.422
0.466
0.408
0.000
0.000
0.000
0.000
0.000
0.000
1.000
0.439
0.513
0.437
0.000
0.000
0.000
0.000
0.000
0.000
0.000
1.000
0.459
0.361
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
1.000
0.490
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
1.000
HV ESP HIS GEO FCE HM MAT FIS QUI BIO
Obsérvese que por arriba de la diagonal están los niveles de signifcancia y,
por debajo, las correlaciones entre pares de variables.
• Determinante de la matriz de correlaciones
0.0212698
• La prueba KMO arroja el siguiente valor
0.9131283
• Prueba de esfericidad de Bartlett
El estadístico de prueba en este caso es:
63
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
con n, el número de individuos en el estudio, p el número de variables, y |R|, el
determinante de la matriz de correlación. En nuestro caso tenemos:
n =1011, p=10 y |R|=0.0212698
Tras realizar los cálculos obtenemos:
T = 3872.928, que al comparar contra una χ
2
(45)
, nos proporciona un p-value
de cero.
Todos los análisis mostrados indican que es adecuado realizar el análisis
factorial. Implementaremos un análisis confrmatorio con un único factor y
método de extracción: Factorización de ejes principales. Al hacerlo en R, obtenemos
los siguientes resultados:
f.solЅ/values
4.449 0.195 0.118 0.029 0.005 -0.038 -0.049 -0.066 -0.080 -0.114
f.solЅ/rotation
"none"
f.solЅ/n.obs
1011
f.solЅ/communality
HV ESP HIS GEO FCE HM MAT FIS QUI BIO
0.531 0.522 0.396 0.427 0.380 0.483 0.494 0.350 0.474 0.392
f.solЅ/loadings
64
Cuaderno técnico 6
HV
ESP
HIS
GEO
FCE
HM
MAT
FIS
QUI
BIO
PA1
PA1
0.729
0.723
0.629
0.654
0.616
0.695
0.703
0.591
0.688
0.626
4.449
0.445
SS loadings
Proportion Var
Loadings:
f.solЅ/residual
HV
ESP
HIS
GEO
FCE
HM
MAT
FIS
QUI
BIO
0.469
0.019
0.028
0.040
0.045
0.005
-0.047
-0.057
-0.025
-0.007
0.019
0.478
-0.002
-0.019
0.007
0.022
0.002
0.011
-0.023
-0.020
0.028
-0.002
0.604
0.017
0.036
-0.041
-0.049
-0.005
-0.004
0.026
0.040
-0.019
0.017
0.573
0.026
0.002
0.013
-0.022
-0.042
-0.017
0.045
0.007
0.036
0.026
0.620
-0.042
-0.041
-0.005
-0.023
0.000
0.005
0.022
-0.041
0.002
-0.042
0.517
0.070
0.011
-0.012
-0.027
-0.047
0.002
-0.049
0.013
-0.041
0.070
0.506
0.023
0.029
-0.003
-0.057
0.011
-0.005
-0.022
-0.005
0.011
0.023
0.650
0.052
-0.009
-0.025
-0.023
-0.004
-0.042
-0.023
-0.012
0.029
0.052
0.526
0.059
-0.007
-0.020
0.026
-0.017
0.000
-0.027
-0.003
-0.009
0.059
0.608
HV ESP HIS GEO FCE HM MAT FIS QUI BIO
65
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
f.solЅ/ft
0.885
f.solЅ/ft.off
0.995
f.solЅ/dof
35
f.solЅ/objective
0.1269227
f.solЅ/STATISTIC
123.3586
f.solЅ/PVAL
8.903534e-12
f.solЅ/communality.iterations
4.996 4.503 4.454 4.449 4.449
La identifcación de los elementos mostrados en la salida es:
Values: Eigenvalores de la matriz. En nuestro caso, sólo es de interés el pri-
mer eigenvalor, 4.449 asociado a nuestro único factor.
Rotation: Indica el tipo de rotación que se eligió. Cuando se extrae un solo
factor, no existe posibilidad de rotación, por eso se indicó none.
n.obs: Número de observaciones en la base de datos.
Communality: Las comunalidades de cada variable en el modelo.
Loadings: Las cargas factoriales de cada variable.
SS loading y proportion Var: El eigenvalor y la proporción de varianza asocia-
dos al factor extraído.
Residuals: La matriz de residuos, que resulta de restar a la matriz original, la
matriz reproducida por el modelo. Observamos que en la diagonal aparecen las
especifcidades de cada variable, cuyo rango va de 0.469 a 0.650, que comprue-
ba que mucha de la varianza de cada variable no es explicada por el modelo
unifactorial.
66
Cuaderno técnico 6
ft: Medida de bondad de ajuste del modelo. Esta medida estima el grado de
reducción en la matriz correlación, que logra el modelo. Una reducción óptima
sería 1.
ft.off: Medida de bondad de ajuste del modelo, para los elementos fuera de la
diagonal de la matriz de correlación. Es decir, qué tan bien ajusta el modelo a
las correlaciones entre variables, y no a la correlación de cada variable.
dof: Grados de libertad, que es el número de correlaciones observadas no
redundantes, menos el número de parámetros independientes en el modelo
en este caso, tenemos p =10 y k =1, por lo que tenemos 35 g.l.
objective: Valor que toma la función que se va a maximizar por el método de
máxima verosimilitud, cuando se evalúa en los puntos máximos encontrados.
Se usa para calcular la prueba de bondad de ajuste.
STATISTIC: Esta estadística se basa en el valor de la función (objective=f ), y
es similar a la prueba de Bartlett.
y se usa para probar si el número de factores extraído proporciona una bondad
de ajuste adecuada.
PVAL: El valor de signifcancia descritivo ( p- value) asociado a la estadística
anterior. Como podemos observar, este valor indica que un factor no es sufciente
para explicar totalmente la estructura de correlación de nuestros datos.
Communality.iterations: Historia de las iteraciones de las comunalidades.
scores ( f.solЅ/scores): Guarda los puntajes factoriales de los sujetos, por cada uno
de los factores extraídos.
67
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Como hemos observado, es posible reproducir los resultados del análisis
factorial que obtuvimos a través de SPSS, utilizando R. Observamos que no
todos estos resultados están disponibles de forma automática; para generar al-
gunos de ellos tuvimos que recurrir a programas sencillos.
69
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Capítulo V
Aplicación con variables discretas
Objetivo
C
omprobar que el dominio de Matemáticas del EXANI-II es un constructo
unidimensional.
Descripción de las variables
Este ejemplo utiliza una base de datos de los sustentantes del Examen Nacional
de Ingreso a la Educación Superior (EXANI-II). En esta ocasión las variables
manifestas son los reactivos de opción múltiple que exploran el dominio, de
modo que la base de datos está conformada por vectores que incluyen valores
de 0 y 1. Se asignó 1 a la respuesta correcta y 0 a la incorrecta.
Evaluaremos la dimensionalidad del constructo de Matemáticas, que es ex-
plorado con 16 preguntas. Desafortunadamente, el paquete SPSS no considera
la escala de medición de las variables en el análisis de factores; por ende, no es
un programa que pueda ser usado cuando las variables manifestas son discre-
tas (ordinales o dicotómicas). En su lugar, usaremos STATISTICA (otro paquete
estadístico comercial), que sí permite realizar el análisis con este tipo de varia-
bles, pero que no calcula los puntajes factoriales asociados a cada sujeto en la
base. Como en el área de educación se presentan muchos casos en los que las
variables se miden en escala dicotómica (respuesta correcta o incorrecta), mos-
traremos detalladamente el uso de este paquete para construir un factor con
este tipo de variables.
Lo primero que debemos mencionar es que para considerar la escala di-
cotómica de las variables, es necesario construir una matriz de correlaciones
tetracórica (véase la tabla correspondiente). La correlación tetracórica estima
la correlación de Pearson que obtendríamos si las variables fueran medidas en
70
Cuaderno técnico 6
escala continua. En otras palabras, la correlación tetracórica de nuestras va-
riables dicotómicas observadas es igual a la correlación de Pearson entre sus
correspondientes variables latentes continuas.
La base de datos
La siguiente pantalla muestra un segmento de la base de datos:
Como queremos realizar el análisis factorial, a partir de la matriz de correla-
ciones tetracóricas, debemos calcularla antes de hacer la extracción del factor.
STATISTICA no construye estas matrices en su módulo de análisis de factores,
pero la calcula en el modulo de confabilidad. La trayectoria que hay que seguir es:
Statistics → Multivariate Exploratory Techniques → Reliability / Item Analysis.
71
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Activando este último menú, se despliega la siguiente ventana:
72
Cuaderno técnico 6
En Variables vamos a seleccionar las variables que intervendrán en este análi-
sis. La activamos y aparecen los nombres de las variables en nuestra base, como
se muestra en la siguiente ventana:
Seleccionamos las 16 variables correspondientes a los reactivos de Matemá-
ticas (Mat_1 a Mat_16) y presionamos el botón OK. Ahora aparece la siguiente
ventana:
73
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Observemos que aparece el rango de variables que elegimos. En seguida,
seleccionamos la pestaña Advanced y tenemos la ventana siguiente:
En este punto, en Correlation matrix seleccionamos Tetrachoric r (quick cos p
approx.)
74
Cuaderno técnico 6
Calculamos la matriz tetracórica pulsando OK y tenemos la siguiente ventana:
Observamos que se ha calculado la matriz que se deseaba: tetracórica. Pul-
samos Matrix y Matrix en la siguiente pantalla, para que se despliegue la matriz:
75
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Con esto se desplegará la siguiente ventana:
Manteniendo abierta esta ventana, realizamos la trayectoria:
Statistics → Multivariate Exploratory Techniques → Factor Analysis.
76
Cuaderno técnico 6
Observemos que en Input fle aparece seleccionada la opción Correlation Ma-
trix, que signifca que tomará la matriz tetracórica que calculamos, para realizar
el análisis de factores correspondiente. Pulsamos Variables y aparecerá:
En esta ventana hay que seleccionar las variables que intervendrán en el aná-
lisis de factores. Seleccionamos todas las variables y pulsamos OK.
77
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
En la ventana del análisis factorial aparecerá marcado ALL después de Va-
riables, para indicar que hemos elegido todas las variables de la matriz de corre-
lación tetracórica, para realizar el análisis. Nuevamente pulsamos OK y obtene-
mos la siguiente ventana:
En Maximum no. of factors ajustamos a un factor y después seleccionamos la
pestaña Advanced:
78
Cuaderno técnico 6
Elegimos el método de extracción: Principal axis method, y ejecutamos el aná-
lisis presionando el botón OK. Aparecerá la siguiente ventana:
79
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Observamos que se realizó el proceso con 16 variables. El método de extrac-
ción fue el seleccionado (Principal axis factoring). El número de factores extraídos
es uno con un eigenvalor asociado de 7.83974. Pero éste no es todo el des-
pliegue de resultados: observamos otras opciones de información en Explained
variance, Loading, Scores, Descriptive, Eigenvalues y Summarary factor loadings. Veamos
qué contiene cada una de estas posibilidades.
Al activar el menú Explained variance tenemos la siguiente ventana:
Que contiene tres menús:
• Eigenvalues: Despliega los eigenvalores, que sirven para calcular el porcentaje
de varianza que explica cada factor, y el porcentaje que explica un conjunto
de factores.
• Communalities: Contiene las comunalidades de cada variable, es decir, la va-
rianza de cada variable que es explicada por este único factor.
• Reproduced/residual corrs: Contiene la matriz de correlaciones reproducida por
el modelo y la matriz resultante de restar las correlaciones reproducidas de
80
Cuaderno técnico 6
las correlaciones observadas (matriz de residuos). Obsérvese que se recal-
carán en color rojo las diferencias mayores a 0.1. Este punto de corte pue-
de modifcarse en el menú correspondiente. Mostramos en seguida las tres
pantallas descritas:
Obsérvese que sólo 48.99% de la varianza es explicada por este factor.
81
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Las comunalidades (From 1 Factor) oscilan entre 0.166344 (Mat_9) y 0.806765
(Mat_1), lo que signifca que una cantidad considerable de la varianza de estas
variables es explicada por el factor extraído.
82
Cuaderno técnico 6
Matriz de correlaciones reproducida:
83
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Matriz de residuales:
En esta última pantalla aparecen las diferencias entre las correlaciones ob-
servadas y las reproducidas por el modelo. Como ninguna diferencia es supe-
rior a 0.1, nada aparece marcado de color rojo. Si queremos tomar el mismo
criterio que tiene por defecto SPSS, debemos ajustar esta diferencia a 0.05, con
lo que obtendríamos la siguiente matriz:
84
Cuaderno técnico 6
Podemos observar que el número de diferencias mayores a 0.05 es de 22,
que representa aproximadamente 9% del total de correlaciones.
La siguiente ventana es Loadings:
85
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
En esta ventana se muestra la opción Summary Factor Loadings que servirá
para mostrar las cargas factoriales. Pero además aparece la opción Highlight factor
loadings greather than que permitirá establecer un punto de corte a partir del cual
se señalarán con color rojo las cargas factoriales; por defecto esta opción mues-
tra el valor de 0.70. Este punto de corte es excesivo en áreas como la educativa,
en donde se asume que una carga mayor que 0.3 es importante. Presentamos
en la siguiente pantalla los resultados de estos menús, señalando las cargas ma-
yores de 0.3 (en valor absoluto):
Observemos que ninguna variable está por debajo de este punto de corte (de
hecho la carga más baja fue de -0.4078, para el reactivo 9), lo que implica que la
formación de este factor resulta, en principio, una decisión adecuada. Todas las
cargas factoriales resultan negativas, hecho curioso ya que esperaríamos correla-
86
Cuaderno técnico 6
ciones positivas de las variables con el factor. Una simple refexión de las cargas
factoriales las haría positivas, para que estuvieran más acorde con lo esperado.
Finalmente, el menú de Scores ofrece la opción Factor score coefcients, Factor
scores y Save factor scores. Estos dos últimos menús permiten ver los puntajes facto-
riales asignados a cada observación en la base, además de que permite salvarlas
como nuevas variables, para usos posteriores. Como adelantamos, STATISTICA
no construye los puntajes factoriales cuando se trabaja a partir de una matriz
de correlaciones tetracóricas, por lo que estos dos menús no están activados.
Análisis en R
El reto para realizar el análisis factorial con variables discretas es calcular la
matriz que corresponda, en este caso, a variables medidas en escala dicotómica,
es decir, una matriz de correlaciones tetracóricas.
Para hacer este análisis en R, hay que llamar al paquete polycor para calcular la
matriz tetracórica. Y posteriormente analizarla con cualquiera de las rutinas
para hacer análisis factorial. Al igual que en el ejemplo con variables continuas,
a continuación presentaremos los resultados del análisis y en el anexo 1 propor-
cionaremos las instrucciones necesarias para llevarlo a cabo.
• Matriz de correlaciones tetracóricas
Dado el tamaño de esta matriz, no conviene desplegarla. Está guardada en la
variable tetra.corre.
• Estadística KMO
0.874379
• Determinante de la matriz
0.0003244013
87
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Tanto el determinante de la matriz como la estadística KMO sugieren que el
análisis factorial puede ser adecuado para estas variables.
Los resultados del análisis factorial están guardados en el objeto: f.cat, para
saber qué elementos componen este objeto, tecleamos:
names(f.cat)
"values” "rotation" "n.obs" "communality" "loadings" "residual" "ft" "unique-
nesses" "ft.off" "dof" "objective" "criteria" "STATISTIC" "PVAL" "communality.
iterations" "factors"
Varios de estos elementos han sido discutidos con anterioridad.
Resultados del análisis factorial
f.catЅ/values
7.147 0.307 0.194 0.112 0.094 0.048 0.041 -0.002 -0.026 -0.051
-0.075 -0.081 -0.097 -0.124 -0.157 -0.182
Sólo nos interesa el primer eigenvalor: 7.147
f.catЅ/rotation
"none"
No realizamos rotaciones, ya que extrajimos un solo factor
f.catЅ/n.obs
3943
Trabajamos con 3943 sujetos en la base
f.catЅ/communality
M1 M2 M3 M4 M5 M6 M7 M8
0.690 0.708 0.275 0.696 0.381 0.608 0.352 0.226
M9 M10 M11 M12 M13 M14 M15 M16
0.156 0.385 0.544 0.529 0.344 0.395 0.265 0.592
Las comunalidades muestran poca varianza explicada por este factor, para al-
gunas de las variables del análisis.
f.catЅ/loadings
88
Cuaderno técnico 6
M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
M13
M14
M15
M16
PA1
PA1
0.831
0.842
0.524
0.835
0.617
0.780
0.593
0.475
0.395
0.621
0.737
0.727
0.586
0.628
0.515
0.770
7.147
0.447
SS loadings
Proportion Var
Loadings:
Las cargas factoriales están, en general, por arriba de 0.4. Ninguna muestra
una carga menor a este punto de corte. La proporción de varianza que explica
este factor es del 44.7%.
f.catЅ/ft
0.912
f.catЅ/ft.of
0.995
89
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Se tiene un buen ajuste fuera de la diagonal de la matriz, es decir, el modelo de
factores reproduce bien las correlaciones entre las variables, y hay un buen grado
de reducción de la matriz de correlación, ya que el valor de ft está cercano a uno.
f.catЅ/uniquenesses
M1 M2 M3 M4 M5 M6 M7 M8
0.310 0.292 0.725 0.304 0.619 0.392 0.648 0.774
M9 M10 M11 M12 M13 M14 M15 M16
0.844 0.615 0.456 0.471 0.656 0.605 0.735 0.408
Algunas de las varianzas específcas son muy grandes, lo que confrma la
poca explicación del factor sobre las varianzas de ciertas variables.
f.catЅ/dof
104
f.catЅ/objective
0.5111483
f.catЅ/STATISTIC
2008.113
f.catЅ/PVAL
0.00
Este último valor (PVAL) evidencia que un solo factor no es sufciente para
explicar las asociaciones entre las variables.
Finalmente, la función que utilizamos para realizar este análisis ( factor.pa) no
construye de forma automática los puntajes factoriales de los sujetos en la base.
Lo que debemos hacer es utilizar algunos de los elementos que ya tenemos,
para construir “paso a paso” dichos puntajes. En seguida mostramos los pun-
tajes de los primeros 20 individuos en la base:
factores[1:20]
90
Cuaderno técnico 6
1.1954 1.0955 1.1349 0.9218 1.1192
1.1684 1.2468 1.1312 1.0182 1.3128
1.2650 1.3128 1.2344 1.1954 1.3128
1.2793 1.0053 1.0749 1.2087 1.2564
Un comentario final
El objetivo de este trabajo fue mostrar la teoría que sustenta el análisis de fac-
tores, de uso común en las investigaciones educativas. Asimismo, se ejempli-
fcaron, con casos prácticos, los elementos que se desprenden de este análisis.
Estos ejemplos se presentaron en los paquetes estadísticos SPSS, STATISTICA y R.
91
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Bibliografía
Bartholomew, D.J. et al. (2000). The analysis and interpretation of multivariate data for
social scientists. Boca Raton, Florida: Chapman & Hall/CRC.
Bartholomew, D.J. y Knott, M. (1999). Latent Variable Models and Factor Analysis.
London: Arnold Publishers.
Brown, T.A. (2006). Confrmatory Factor Analysis for Applied Research. Nueva York:
The Guilford Press.
Everitt, B.S. y Graham, D. (2001). Applied Multivariate Data Analysis. Nueva
York: Oxford University Press.
Hair, J.F. et al. (1999). Análisis Multivariante (E. Prentice & D. Cano, trads.). Ma-
drid, España: Pearson/Prentice Hall. (Trabajo original publicado en 1998).
Kaplunovsky, A.S. (2006). Why using factor analysis? (dedicated to the centenary of factor
analysis). Israel: Holon Academic Institute of Technology, Research Center
for Quantum Communication Engineering.
Pett, M.A. et al. (2003). Making Sense of Factor Análisis: The Use of Factor Analysis
for Instrument Development in Health Care Serearch. California: SAGE.
Spearman, C. (1904). General Intelligence, objectively determined and mesured. Illinois:
American Journal of Psychology.
Thurstone, L.L. (1935). The vectors of mind. Illinois: University of Chicago Press.
Thurstone, L.L. (1938). Primary mental abilities. Illinois: University of Chicago
Press.
Yanai, H. y Ichikawa, M. (2007). Factor analysis. En C. R. Rao y S. Sinharay
(Eds.), Handbook of statistics: Vol. 26. Psychometrics (pp. 257–296). Amster-
dam: North-Holland.
93
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
Anexo I
Códigos en R
E
n seguida se muestra el código utilizado para los dos ejemplos del paquete R.
Se recomienda al lector que intente reproducir esta secuencia de instruccio-
nes con sus propios datos, para que pueda apreciar el despliegue de información
que proporciona este paquete.
Para desplegar los resultados es sufciente teclear el nombre de la variable
donde están guardados; (a<- b) signifca que en a se guardan los resultados ge-
nerados por la instrucción b. Si no hay esta asignación, el resultado se despliega
en la pantalla del paquete. Cuando el paquete básico de R no posee alguna
rutina se puede recurrir a paquetes especializados, que se cargan a voluntad
del usuario. Una forma simple de cargar estos paquetes es con la instrucción:
install.packages (“nombre del paquete”), para lo que se necesita estar conectado
a Internet.
La secuencia de instrucciones
#Instrucciones para los ejemplos en R
#Ejemplo con variables continuas
# Importar datos de un archivo .dat
ceneval<-read.table("C:/Documents and
Settings/guero/Desktop/facejem.dat",header=TRUE)
#Se selecciona la sub base de interés: De la variable 33 a la 42.
EJ1<-ceneval[,33:42]
# Función que calcula la matriz de correlación y su nivel de signifcancia
corProb <- function(X, dfr = nrow(X) - 2) {
R <- cor(X)
above <- row(R) < col(R)
r2 <- R[above]^2
94
Cuaderno técnico 6
Fstat <- r2 * dfr / (1 - r2)
R[above] <- 1-pf(Fstat, 1, dfr)
class(R) <- "corProb"
R
}
#Se ejecuta la función con la matriz de datos
corr.sig<-corProb(EJ1,nrow(EJ1)-2)
# Se da formato a la matriz de correlación, identifcando las variables que la
constituyen
EJ1.matrix<-matrix(corr.sig,nrow=10,ncol=10,byrow=TRUE,
list(c("HV","ESP","HIS","GEO","FCE","HM","MAT","FIS","QUI","BIO"),c("
HV","ESP","HIS","GEO","FCE","HM","MAT","FIS","QUI","BIO")))
# Se despliega la matriz con los valores redondeados a tres cifras.
mat.corre<-round(EJ1.matrix,digits=3)
# Función que calcula el valor del estadístico KMO
kmo.test <- function(M){
library(corpcor)
cor.sq = cor(M)^2
cor.sumsq = (sum(cor.sq)-dim(cor.sq)[1])/2
pcor.sq = cor2pcor(cor(M))^2
pcor.sumsq = (sum(pcor.sq)-dim(pcor.sq)[1])/2
kmo = sum(pcor.sq)/(sum(pcor.sq)+pcor.sumsq)
return(kmo)
}
#Se ejecuta la función con la matriz de correlación de nuestros datos.
kmo.test(EJ1.matrix)
#Se calcula el determinante de la matriz
det(EJ1.matrix)
# Paquete que permite el uso del método de principal axis factor
95
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas
library(psych)
# Se corre el análisis a partir de la base de datos: EJ1
f.sol<-factor.pa( EJ1, nfactors=1, residuals=TRUE, rotate="none", n.
obs=1011,min.err=0.001,digits=3,max.iter=50,scores=TRUE)
===============================================
=========================================
#Ejemplo con variables dicotómicas
# Base que contiene las variables dicotómicas
cencat<-read.table("C:/Documents and Settings/USUARIO/Desktop/BASE-
MAT.txt",header=TRUE,colClasses="factor")
# Paquete que permite el cálculo de la matriz tetracórica
library(polycor)
#Paquete para extraer los factores a través del método de factores principales
(principal axis)
library(psych)
# Cálculo de la matriz tetracórica con las 16 variables en la base: M1-M16
cor.mat2<-hetcor(cencat[,1:16],ML=FALSE,digits=3)
# Se le da formato a la matriz anterior
# Se redondean los resultados de esta matriz a tres dígitos
mat.cor2<-matrix(cor.mat2$correlations,nrow=16,ncol=16,byrow=TRUE,
list(c("M1","M2","M3","M4","M5","M6","M7","M8","M9","M10","M11","M12","
M13","M14","M15","M16"), c("M1","M2","M3","M4","M5","M6","M7","M8","M
9","M10","M11","M12","M13","M14","M15","M16")))
tetra.corre<-round(mat.cor2,digits=3)
# Función que calcula el estadístico KMO
kmo.test <- function(M){
library(corpcor)
cor.sq = cor(M)^2
cor.sumsq = (sum(cor.sq)-dim(cor.sq)[1])/2
96
Cuaderno técnico 6
pcor.sq = cor2pcor(cor(M))^2
pcor.sumsq = (sum(pcor.sq)-dim(pcor.sq)[1])/2
kmo = sum(pcor.sq)/(sum(pcor.sq)+pcor.sumsq)
return(kmo)
}
kmo.test(tetra.corre)
det(tetra.corre)
# Extracción de los factores por el método de principal axis factor y a partir de
la matriz de correlaciones
f.cat<-factor.pa(tetra.corre,nfactors=1,residuals=TRUE,rotate="none",
n.obs=3943,min.err=0.0001,digits=3,max.iter=50)
#Todos los resultados que guarda el objeto f.cat. Para ver cada resultado hay
que escribir f.cat$nombre
names(f.cat)
#Para construir los puntajes factoriales, cargamos la base pero sin declarar
como factores(STRINGS) a las variables
X<-read.table("C:/Documents and Settings/USUARIO/Desktop/BASE-
MAT.txt",header=TRUE)
#Vamos a construir "a mano" los factores.
R<-tetra.corre
L<-f.cat$loadings
Y<-X[,1:16]
factores<-t(t(L)%*%solve(R)%*%t(Y))
El Centro Nacional de Evaluación para la Educación Superior es una asociación civil sin fnes
de lucro constituida formalmente el 28 de abril de 1994, como consta en la escritura pública
número 87036 pasada ante la fe del notario 49 del Distrito Federal. Sus órganos de gobierno
son la Asamblea General, el Consejo Directivo y la Dirección General. Su máxima autoridad es
la Asamblea General, cuya integración se presenta a continuación, según el sector al que perte-
necen los asociados, así como los porcentajes que les corresponden en la toma de decisiones:
Asociaciones e instituciones educativas (40%): Asociación Nacional de Universidades e Instituciones
de Educación Superior, A.C. (ANUIES); Federación de Instituciones Mexicanas Particula-
res de Educación Superior, A.C. (FIMPES); Instituto Politécnico Nacional (IPN); Instituto
Tecnológico y de Estudios Superiores de Monterrey (ITESM); Universidad Autónoma del
Estado de México (UAEM); Universidad Autónoma de San Luis Potosí (UASLP); Universi-
dad Autónoma de Yucatán (UADY); Universidad Nacional Autónoma de México (UNAM);
Universidad Popular Autónoma del Estado de Puebla (UPAEP); Universidad Tecnológica de
México (UNITEC).
Asociaciones y colegios de profesionales (20%): Barra Mexicana Colegio de Abogados, A.C.; Colegio
Nacional de Actuarios, A.C.; Colegio Nacional de Psicólogos, A.C.; Federación de Colegios y
Asociaciones de Médicos Veterinarios y Zootecnistas de México, A.C.; Instituto Mexicano de
Contadores Públicos, A.C.
Organizaciones productivas y sociales (20%): Academia de Ingeniería, A.C.; Academia Mexicana de
Ciencias, A.C.; Academia Nacional de Medicina, A.C.; Fundación ICA, A.C.
Autoridades educativas gubernamentales (20%): Secretaría de Educación Pública.
• Ceneval, A.C.®, EXANI-I®, EXANI-II® son marcas registradas ante la Secretaría de Co-
mercio y Fomento Industrial con el número 478968 del 29 de julio de 1994. EGEL®, con
el número 628837 del 1 de julio de 1999, y EXANI-III®, con el número 628839 del 1 de
julio de 1999.
• Inscrito en el Registro Nacional de Instituciones Científcas y Tecnológicas del Consejo
Nacional de Ciencia y Tecnología con el número 506 desde el 10 de marzo de 1995.
• Organismo Certifcador acreditado por el Consejo de Normalización y Certifcación de
Competencia Laboral (CONOCER) (1998).
• Miembro de la International Association for Educational Assessment.
• Miembro de la European Association of Institutional Research.
• Miembro del Consortium for North American Higher Education Collaboration.
• Miembro del Institutional Management for Higher Education de la OCDE.
La publicación de esta obra la realizó
el Centro Nacional de Evaluación
para la Educación Superior, A.C.
Se terminó de imprimir el 24 de abril de 2009
en los talleres de Winkilis, Bugambilias 131,
Col. El Rosario, México, D.F., C.P. 09930,
con un tiraje de 1000 ejemplares