Professional Documents
Culture Documents
TEMA:
Anlisis de correspondencias simple (Anacor)
Osvaldo Blanco Socilogo
busca
diferentes niveles de medicin (nominal, ordinal, intervalar o razn). Por tanto, cuando no existe correlacin lineal entre las variables.
En el fondo, el anlisis de escalamiento ptimo no dejan de ser tcnicas
factoriales, pero aparte de reducir dimensionalmente un nmero amplio de variables, descubre afinidades entre las variables.
Por tanto, debemos repasar la nocin de correlacin para variables cualitativas, avanzando ms all de la prueba chi-cuadrado (x2).
Recordemos que
El nivel de medicin de las variables es clave al determinar el
procedimiento a utilizar. Hoy vamos a ir ms all del chi-cuadrado al hablar de asociaciones entre dos variables cualitativas. Revisemos algunas tcnicas importantes
ANACOR
Anlisis de Correspondencias Simples
Pretende describir las relaciones existentes entre 2 variables nominales (aunque podemos usar ordinales) recogidas en una tabla de contingencia sobre un espacio de pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las categoras de cada variable. El objetivo del ANACOR es establecer relaciones entre variables cualitativas, enriqueciendo la informacin que ofrecen las tablas de contingencia bivariadas y el anlisis de chi-cuadrado y otros coeficientes (V de Cramer, Gamma, etc.). El ANACOR revela, adems, en qu grado contribuyen a esa relacin los distintos valores de las variables (categoras), informacin que suele ser proporcionada en modo grfico. El ANACOR evala la asociacin entre las categoras de mltiples variables cualitativas, pudiendo obtenerse un mapa perceptual que ponga de manifiesto esta asociacin de manera grfica.
Las diversas categoras de las variables estarn representadas en el grfico ms prximas o alejadas en las diversas dimensiones en funcin de su grado de similitud o diferencia.
Osvaldo Blanco Socilogo
Punto de partida
El que se usen variables cualitativas implica que no se usan como datos de partida mediciones individuales, sino frecuencias de una tabla. Vale decir, nmero de individuos contenidos en cada casilla. De este modo, se trata de buscar la estructura de relacin, semejanza o desemejanza, proximidad o lejana entre los objetos/sujetos y los atributos (variables). El ANACOR parte su anlisis desde los siguientes formatos de tablas:
Tablas de contingencia: dos variables cruzadas en una tabla. Tablas de frecuencia: en fila van las diferentes categoras de una sola variable. En las columnas van las variables (tambin denominadas atributos). Las frecuencias pueden ser absolutas o relativas. Tablas de valoracin: los valores no vienes en frecuencias, sino en puntuaciones numricas por escalas de diferencial semntico, escalas de valoracin de 1 a 7, etc. Estas puntuaciones pueden ser medias, sumatorios o ndices de cualquier tipo. Tablas de 0 y 1: resultado de un test preferencias de marcas, etc. Tablas con otras medidas de correspondencia entre filas y columnas y referidas a su similitud, afinidad, asociacin, interaccin, distancia, etc. Tablas mltiples: tres o ms entradas: marcas, atributos, estilos de vida, hbitat, etc.
Dimensin
Las dimensiones resultantes son las que mejor resumen el total de
las dimensiones resultantes no explican por igual el porcentaje de variabilidad de los datos de la tabla.
La interpretacin de la estructura de relaciones entre categoras de
plano equivale a un mayor o menor grado de relacin o interdependencia entre las mismas.
Masa
Las distancias entre las categoras estn basadas
en el concepto de masa.
La masa es la influencia que ejerce una categora
Centroide
La masa afecta al centroide. En el Anacor, el centroide es la media del perfil (ya
Pearson.
Cada dimensin tiene su propio eigenvalue.
Inercia
Para cada dimensin, el cuadrado del eigenvalue es la inercia y,
por tanto, una medida de la importancia de esta dimensin al explicar los datos de la tabla.
Es la suma ponderada de todas las distancias al centroide dividida
Tiene que ver con una decisin del investigador. Por default, el SPSS tiene 2 dimensiones (veremos
esto ms adelante).
Pasos
El procedimiento del Anacor es muy sencillo. Bsicamente se pueden mencionar dos grandes pasos:
1.
Realizar contraste para averiguar la existencia de asociacin estadsticamente significativa (se realiza Chi-cuadrado)
Realizar el procedimiento del Anacor.
2.
IMPORTANTE
El Anacor se usar slo cuando comprobemos la
Anacor en SPSS
Modelo
Aqu debemos dejar las opciones por defecto. Ntese que el resultado nos arrojar 2 dimensiones por default. Nosotros podemos especificar el nmero de dimensiones que queramos.
Osvaldo Blanco Socilogo
Estadsticos
Grficos
1 Ejemplo
Usemos la base de datos trabajo.sav Recodifiquemos Estado civil (c3) en una nueva variable (c3rec) con slo tres categoras:
1.
2.
3.
Respecto de los comandos para ejecutar el Chi-cuadrado, en el curso Socioestadstica aprendimos que
Para obtener una tabla de contingencia y un contraste chi-cuadrado de asociacin debemos ir al men Analizar (Analyce) Estadsticos Descriptivos (Descriptive Statistics) Tablas de contingencia... (Crosstabs...). Recuerde seleccionar Estadsticos. Elija Chi-Cuadrado.
c3rec y a1 (Aspecto de la vida que ms le preocupa) con x2, tendramos los siguientes resultados:
Chi-Square Te s ts Value 55,464 a 54,751 44,175 1158 df 6 6 1 Asy mp. Sig. (2-s ided) ,000 ,000 ,000
Pearson Chi-Square Likelihood Ratio Linear-by -Linear Ass ociation N of Valid Cases
a. 0 cells (,0%) have ex pected count less than 5. The minimum ex pec ted count is 6,20.
Rechazamos H0 (independencia de ambas variables) y aceptamos la hiptesis que seala que ambas variables estn asociadas (mutuamente dependientes), con un valor p = 0,000
Osvaldo Blanco Socilogo
Es la tabla de doble entrada de resumen de los datos. Se debe leer como cualquier tabla de contingencia, pero con frecuencias absolutas (no porcentajes). Vemos que el aspecto que ms le preocupa a la gente entrevistada es la salud, con un total de 525 personas de 1158 y el que menos le preocupa es la vida afectiva, con 63 casos de 1158. Para la variable recodificada del estado civil, los casados, con un total de 743 personas de 1158, representan una mayor proporcin, mientras que el menor son los otros (114 de 1158 personas).
Osvaldo Blanco Socilogo
Tabla que refleja las proporciones que el nmero de individuos de cada celda
Tabla que refleja las proporciones que el nmero de individuos de cada celda
Resumen
Res um e n Proporc in de inerc ia Conf ianz a para el V alor propio Desv iacin tpica ,029 ,029 Correlacin 2 ,046
Dimensin 1 2 Total
Chi-c uadrado
Sig.
55,464
,000 a
a. 6 grados de libertad
En esta tabla destacaremos varios aspectos: Inercia: Es la raz cuadrada del valor propio. Mide la importancia de un eje (dimensin o Factor) a la hora de explicar los datos. El primero tiene una inercia de 0,043 (0,208 2), el segundo 0,005 (0,0682). Inercia total: explicacin total de los factores. En este caso, los factores explican un total de 0,048. Proporcin de Inercia: aunque los dos primeros factores parecieran tener valores de inercia pequeos (0,043 y 0,005 respectivamente) ambos acumulan un 100% de la varianza explicada (no total). Ms concretamente, el primero 90,4%, el segundo 9,6%.
Osvaldo Blanco Socilogo
Puntuacin en la dimens in De los puntos a la inerc ia de la dimens in 1 2 ,129 ,220 ,547 ,008 ,035 ,567 ,289 ,205 1,000 1,000
Contribuc in De la dimensin a la inercia del punto 1 2 Total ,848 ,152 1,000 ,999 ,001 1,000 ,367 ,633 1,000 ,930 ,070 1,000
Preocupaciones: aspecto que ms le preocupa Su vida af ectiv a El dinero A rmona f amiliar Su salud Total ac tivo a. Normalizacin Simtrica
Con la inercia vemos lo que aporta cada categora al total de inercia. Por ejemplo, del total de inercia (0,048) las personas que valoran mucho ms al dinero aportan 0,024. La seccin contribucin de los puntos a la inercia de la dimensin mide la importancia de un punto a la hora de explicar un eje o factor. Por ejemplo, el dinero es el aspecto ms importante para el primer factor, mientras que para el segundo lo es la armona familiar (crculos verdes). La seccin contribucin de la dimensin a la inercia del punto mide el porcentaje de cada categora explicado por cada eje. Por ejemplo, el primer factor explica el 99,9% del aspecto del dinero, mientras que el segundo factor slo explica al dinero en un 0.1% (crculos azules)
Puntuacin en la dimens in De los puntos a la inerc ia de la dimens in 1 2 ,634 ,106 ,091 ,268 ,276 ,626 1,000 1,000
Contribuc in De la dimensin a la inercia del punto 1 2 Total ,983 ,017 1,000 ,762 ,238 1,000 ,807 ,193 1,000
a. Normalizacin Simtrica
Igual que el caso anterior, podemos ver que el primer factor viene muy determinado por la categora de los solteros, con una contribucin de 0,634 (Contribucin de los puntos a la inercia de la dimensin), mientras que el segundo eje est determinado principalmente por la categora otros. Tambin podemos ver que el primer eje explica el 98.3% de la varianza de la categora de los solteros, mientras que el segundo eje un 1,7%.
Osvaldo Blanco Socilogo
Los solteros prefieren el dinero y su vida afectiva, mientras que los casados la armona familiar y la salud.
2 Ejemplo
Chi-c uadrado de Pears on Razn de v eros imilitudes A sociacin lineal por lineal N de casos v lidos
a. 0 casillas (,0%) tienen una f rec uencia es perada inf erior a 5. La f recuenc ia mnima esperada es 5715,19.
La prueba chi-cuadrado es significativa (p < ). Por tanto, realizaremos el Anacor entre ambas variables para
NIV EL EDUCACIONA L SIN EDUC. FORMA L BASICA INCOM. BASICA COMPL. M.HUM. INCOMPLETA M.TEC.PROF. INCOMPLETA M.HUM. COMPLETA M.TEC COMPLETA TEC. O UNIV . INCOMPLETA . TECNICA O UNIV. COMPLETA Margen ac tivo
I 150878 635797 393454 464265 139496 400077 142088 94102 53037 2473194
II 107251 515265 363718 498033 149816 520760 213256 152327 84162 2604588
Margen ac tivo 386832 1906536 1444723 2045758 574113 2478427 980417 1137354 1364113 12318273
La tabla de correspondencias es exactamente igual que la de contingencia. Vemos que la modalidad ms importante entre la gente entrevistada es la media humanista completa, con 2.478.427 personas. El Quintil de ingreso ms alto es el II, con 2.604.588 personas.
Tabla que refleja las proporciones que el nmero de individuos de cada celda representan sobre el total de la fila. Son el resultado de dividir cada valor por el total de su fila. El Quintil II es el que tiene una mayor proporcin respecto del total de personas encuestadas.
Osvaldo Blanco Socilogo
Tabla que refleja las proporciones que el nmero de individuos de cada celda representan sobre el total de las columnas. Valor de la proporcin que representa cada casilla respecto del total columna. La enseanza media humanista completa es la que tiene una mayor proporcin respecto del total de personas encuestadas.
Tabla resumen
Res um e n Proporc in de inerc ia Conf ianz a para el V alor propio Desv iacin tpica ,000 ,000 Correlacin 2 ,308
Dimensin 1 2 3 4 Total
Chi-c uadrado
Sig.
2634449,460
,000 a
a. 32 grados de libertad
En esta tabla destacaremos varios aspectos: Inercia: Es la raz cuadrada del valor propio. Mide la importancia de un eje (dimensin o Factor) a la hora de explicar los datos. El primero tiene una inercia de 0,197 (0,4442), el segundo 0,016 (0,1282), etc. Inercia total: explicacin total de los factores. En este caso, los factores explican un total de 0,214. Proporcin de Inercia: aunque los dos primeros factores parecieran tener valores de inercia pequeos (0,197 y 0,016 respectivamente) ambos acumulan un 99,7% de explicacin de la varianza. Ms concretamente, el primero 92,1%, el segundo 7,7%. El tercer y cuarto factor, siendo muy pequeos, ayudan a completar el 100% de la varianza total.
Puntuacin en la dimens in De los puntos a la inerc ia de la dimens in 1 2 ,047 ,132 ,155 ,202 ,058 ,002 ,025 ,001 ,011 ,000 ,000 ,111 ,594 1,000 ,002 ,212 ,198 ,052 ,199 1,000
Contribuc in De la dimensin a la inercia del punto 1 2 Total ,807 ,191 ,998 ,902 ,098 1,000 ,994 ,003 ,997 ,972 ,004 ,976 ,932 ,017 ,008 ,956 ,973 ,016 ,980 ,971 ,037 ,027 ,948 ,997 ,979 ,993 1,000
NIV EL EDUCACIONA L SIN EDUC. FORMA L BASICA INCOM. BASICA COMPL. M.HUM. INCOMPLETA M.TEC.PROF. INCOMPLETA M.HUM. COMPLETA M.TEC COMPLETA TEC. O UNIV . INCOMPLETA . TECNICA O UNIV. COMPLETA Total ac tivo
Mas a ,031 ,155 ,117 ,166 ,047 ,201 ,080 ,092 ,111 1,000
Inerc ia ,011 ,034 ,012 ,005 ,002 ,004 ,003 ,023 ,120 ,214
a. Normalizacin Simtrica
Con la inercia vemos lo que aporta cada categora al total de inercia. Por ejemplo, del total de inercia (0,214) las personas sin educacin formal aportan 0,011. Con contribucin de los puntos a la inercia de la dimensin se mide la importancia de un punto a la hora de explicar un eje o factor. Por ejemplo, Tcnica o Univ. Completa es el ms importante para el primer factor, mientras que la Media humanista completa para el segundo (crculos verdes).
Con contribucin de la dimensin a la inercia del punto vemos el porcentaje de cada categora explicado por cada eje. Por ejemplo, el primer factor explica el 99,4% de la modalidad bsica completa, mientras que el segundo factor slo explica a la enseanza bsica completa en un 0.3% (crculos azules)
Puntuacin en la dimens in De los puntos a la inerc ia de la dimens in 1 2 ,204 ,394 ,100 ,001 ,021 ,150 ,025 ,312 ,650 ,143 1,000 1,000
Contribuc in De la dimensin a la inercia del punto 1 2 Total ,860 ,138 ,998 ,990 ,001 ,991 ,620 ,364 ,985 ,483 ,500 ,982 ,982 ,018 1,000
a. Normalizacin Simtrica
Igual que el caso anterior, podemos ver que el primer factor viene muy determinado por el Quintil V (Contribucin de los puntos a la inercia de la dimensin) con una contribucin de 0.650, mientras que el Quintil I 0.394. Tambin podemos ver que el primer eje explica el 99.9% de la varianza del II Quintil, mientras que el segundo eje el 50% del IV Quintil.
Simtrica Normalizacin
NIVEL EDUCACIONAL Quintil Autnomo Nacional
El Quintil I (el de menores ingresos) tiende a agruparse a las modalidades de sin educacin, bsica completa e incompleta. El Quintil II se relaciona con la educacin bsica completa, la media humanista y tcnica (ambas incompletas).
Dimensin 2
M.TEC.PROF. INCOMPLE M.HUM. INCOMPLETA IV TEC. O UNIV. INCOMP 0,5 1,0 1,5 2,0
El Quintil IV tambin con la media humanista y tcnica completas, as como la tcnica o universitaria incompleta. Por ltimo, el Quintil V con la tcnica o universitaria completa.
-0,3 -0,6
Dimensin 1
Bibliografa
PREZ, Csar (2004): Mtodos factoriales en general. Anlisis
de correspondencias, Captulo 7 de Tcnicas multivariantes de datos. Aplicaciones con SPSS, Ed. Pearson, Madrid, pp.219250.
Anlisis estadstico con SPSS para Windows, Volumen II, Estadstica multivariante, Mc Graw Hill, Madrid, pp.245-260.