ANÁLISIS MULTIVARIANTE APLICADO AL ESTUDIO DEL PARENTESCO: REPRESENTACIONES HOMALS

por

Francisco Javier López de Ipiña Mattern
Ensayo propuesto para el periodo de docencia del doctorado en

Antropología Social y Cultural

UNED 2008

A la atención de:

D. Ángel Díaz de Rada Brun relaciones étnicas (Sápmi-Noruega). Un examen concreto de un proceso de investigación.

Profesor de la asignatura: La interpretación de un espacio de

Fecha:

1 de septiembre de 2008

UNED Descripción breve Cronotopos: referentes de memoria y de cultura por: Francisco Javier López de Ipiña Mattern Profesor supervisor: D. Ángel Díaz de Rada Brun Dpto. de Antropología Social y Cultural

Este ensayo trata de presentar alguna de las técnicas del Análisis Multivariante aplicadas a datos de Antropología que se han difundido en la extensa literatura sobre tales aplicaciones. Dentro de la aún más extensa literatura sobre aplicaciones de la Inferencia Estadística, y más general aún, de las Matemáticas en el ámbito de la Antropología. Este ensayo presenta un humilde botón de muestra, sacado a la luz del abismo de lo ya realizado y de las ideas y proyectos por realizar. He elegido centrarme en la aplicación a un tema de Antropología de una técnica concreta queriendo evitar la dispersión y la extensión inherente a una introducción donde se pretendiera abarcar las aplicaciones y técnicas más utilizadas actualmente. Independientemente de lo anterior, y antes incluso del propósito de llevar a cabo alguna de las aplicaciones de las técnicas aludidas, hay un vasto dominio de conocimientos acerca de la utilización de software aplicado a la recopilación, gestión, alumbramiento de hipótesis, teorías y análisis previo que parece más adecuado para un ensayo más genérico en otra asignatura de doctorado. Es lo que en el mundo anglo-sajón se conoce como Qualitative Data Analysis (QDA) y que se refiere más bien a datos textuales, adjetivo este último que evita confusión con el tipo de “datos cualitativos” que se maneja en Inferencia Estadística.

Representaciones HOMALS .

Representaciones HOMALS TABLA DE CONTENIDOS PRECEDENTES INTRODUCCIÓN EL MODELO LA CODIFICACIÓN DE DATOS CATEGÓRICOS Cuantificación La matriz indicador incompleta EL ALGORITMO Notación Optimización de la función objetivo Diagnóstico 1 1 2 4 8 10 11 11 12 14 EJEMPLO. RESULTADOS E INTERPRETACIÓN 16 EJEMPLO DATOS RESULTADOS E INTERPRETACIÓN CONCLUSIONES Y SOFTWARE CONCLUSIONES SOFTWARE BIBLIOGRAFÍA 16 20 23 29 29 30 31 . DATOS.

Representaciones HOMALS .

Por una parte. Se interpretan después los agrupamientos y configuraciones resultantes con la referencia del marco más tradicional del parentesco en la cultura de la que provienen los datos. El modelo proporciona representaciones. El modelo HOMALS elegido (Homogeneous Alternating Least Squares) es una forma de Análisis de Componentes Principales (PCA) pero para datos categóricos.Representaciones HOMALS C a p í t u l o 1 PRECEDENTES Se trata aquí del problema de analizar las características estructurales de un conjunto de datos razonablemente grande sobre parentesco mediante técnicas del Análisis Multivariante. Desde su punto de vista. están los antropólogos que se centran en las relaciones de los términos con otros aspectos de la sociedad en los que se utilizan. En lo referente al estudio de las terminologías de parentesco. los enfoques teóricos principales han evolucionado a través de perspectivas distintas. la terminología y comportamiento del parentesco sólo se puede entender en términos del sistema total de ideas y símbolos de cada cultura específica. con atractivo intuitivo. INTRODUCCIÓN La mayor parte del debate sobre parentesco y organización social se ha centrado en un tema fundamental: el significado mismo de “parentesco”. Cualquier comparación formal de la terminología del sistema de parentesco es así problemática como mínimo. estas categorías no deben aislarse artificialmente de las categorías generales basadas en la notación diferencial de códigos de naturaleza biológica-genealógica. puesto que el significado de parentesco es al cabo específico de la cultura y fuertemente dependiente del contexto. de la estructura subyacente de los datos representando tanto los individuos como los términos de parentesco en el mismo espacio geométrico. 1 . Por tanto.

desde el nivel de la forma estructural así como en lo que se refiere al contenido semántico. Se pueden interpretar los resultados a partir de o en contraste con las conclusiones deducidas a partir de cualquier punto de vista teórico compatible con los pocos supuestos sencillos del modelo y. 2 . El análisis de parentesco que se propone en este ensayo es básicamente el análisis de un tipo particular de datos mediante un modelo formal específico (la representación geométrica de los datos en el espacio euclídeo de dimensión suficientemente pequeña). El procedimiento HOMALS (Homogeneous Alternating Least Squares) pertenece a una familia de modelos matemáticos del Análisis Multivariante. La perspectiva con la que se aborda esta tarea es pragmática y no se deduce exclusivamente de cualquiera de los dos enfoques mencionados antes.Representaciones HOMALS Por otra parte están los antropólogos que intentan estudiar los sistemas de parentesco (incluida su terminología) como estructuras lógicas coherentes generadas mediante la aplicación de una cantidad limitada de principios fundamentales. Aunque distintos autores situarán el campo de acción de los sistemas en diferentes niveles o acentuarán diferentes principios generadores. Esta última fuente incluye también una exposición clara de la relación entre HOMALS y otros modelos no lineales del análisis de datos multivariantes. Se puede encontrar una descripción formal del modelo en De Leeuw y Van Rijckevorsel (1980). compararlos con otros análisis llevados a cabo mediante la aplicación de modelos adecuados a conjuntos de datos similares. Se pretende centrar la atención sobre un conjunto de relaciones estructurales subyacentes en los datos. aplicado aquí a datos categóricos. su metodología se interesa generalmente en la comparación controlada de sistemas de parentesco. EL MODELO Damos aquí un resumen no técnico del modelo. y ello aplicando un modelo matemático (cuya elección está motivada sobre fundamentos teóricos así como prácticos). y en Gifi (1981). finalmente.

Bajo esta interpretación el HOMALS esta muy relacionado con las técnicas no métricas (es decir. los individuos cuyo perfil de términos de parentesco difieren para tal conjunto de personas. Hablando de datos sobre parentesco. El propósito general del MDS es doble: Evidenciar de alguna manera cualquier patrón o estructura de la matriz de datos empíricos que de otra forma permanecería oculto/a. ordinales) de escalado multidimensional (MDS). y ello de forma tal que las características significativas de los datos acerca de estos objetos queden evidenciadas en las relaciones geométricas entre los puntos. se sitúan a cierta distancia unos de otros. que son el tipo de datos habitualmente recogidos por los antropólogos. se representan como puntos próximos entre sí. Los individuos que establecen más o menos a combinaciones similares de términos al conjunto de personas por las que se les pregunta. las categorías de cada variable). Se describe la relación entre el HOMALS y el MDS en Gifi (1981). como puntos en el mismo espacio euclídeo. el HOMALS representa tanto a los individuos como a los términos de parentesco (de forma general. ya que los conceptos intuitivos de “distancia” y “similitud” empleados en la teoría del parentesco quedan reflejados fácilmente de manera formal en la representación HOMALS. Es decir. los 3 . Dada una matriz de datos categóricos se busca representar el conjunto de observaciones en el espacio euclídeo de la menor dimensión posible consistente con una interpretación viable o interesante desde el punto de vista teórico de los datos. Se representan los objetos en estudio mediante puntos en el modelo espacial. Representar esta estructura de forma que sea mucho más accesible al ojo humano. como un modelo geométrico o cuadro. De forma más específica. que tanto han llamado la atención de algunos antropólogos. el procedimiento HOMALS proporciona un medio para cuantificar datos categóricos. Al mismo tiempo. Inversamente.Representaciones HOMALS Es muy útil la interpretación geométrica del HOMALS.

. Una matriz de frecuencias de perfil completa dará una lista de todos los perfiles posibles e indicará cuan a menudo 4 . en cuyo caso.) LA CODIFICACIÓN DE DATOS CATEGÓRICOS Partimos de un conjunto finito de n objetos (o individuos). . cda una de ellas perteneciente a un kj distinto. dimensiones de componentes. Una variable hj relaciona el conjunto de objetos con un conjunto finito de kj categorías. La representación geométrica proporcionada por el HOMALS nos permite abordar simultáneamente y dentro del mismo marco general dos problemas importantes: El problema de definir la estructura de las relaciones sociales entre individuos (distancia social y genealógica. etc. m ).Representaciones HOMALS términos de parentesco suscitados en la identificación de cada persona del grupo de personas anterior. agrupamientos de individuos. La matriz de datos H tiene dimensión n m con elementos hij que dan la categoría que la variable hj asigna al objeto i. uno puede preferir una matriz de frecuencias de perfil.) El problema de proporcionar una descripción adecuada a la estructura de la terminología del sistema de parentesco (características. y separados si se suscitan a distintas personas. este conjunto de categorías se denomina rango (o recorrido) de hj . Sus elementos son todas las combinaciones posibles de m categorías.. se representarán próximos si se obtienen de la misma persona encuestada. El producto cartesiano de todos los conjuntos de categorías kj se denomina rango multivariante. m La cantidad de posibles perfiles es j 1 k j . En su lugar. la matriz de datos no es la forma más eficiente de codificación. Suponemos que hay una cantidad finita de m variables hj (j = 1. Estos elementos no son necesariamente números. Puede ocurrir que esta cantidad sea mucho menor que n. y se denominan perfiles. el producto de todas las kj . etc.

MFPR(H). Se pueden recoger tales matrices en una matriz m partida G = G1 . Si hay muchos perfiles con frecuencia nula.. En este ejemplo tenemos que la frecuencia de w es cero.. con lo que se consigue una tabulación cruzada de gran dimensión... Por ejemplo. Otra posible codificación consiste en asignar la frecuencia del perfil a la casilla de la disposición k1 k2 … km de dimensión m. „c „. kj = 3 (j = 1. y donde las categorías de la primera variable son „a ‟. G j . r }. G m de dimensión n j 1 kj = n k . y la tabulación cruzada de gran dimensión serían: 5 . c }. Tal matriz tiene j 1 k j filas y (m + 1) columnas: los primeros m elementos de cada fila son las categorías del perfil y el último elemento es su frecuencia. m = 3. es más cómodo eliminar las filas correspondientes de la matriz de frecuencias de perfil. A partir de la matriz H arbitraria. la matriz de frecuencias de perfil reducida. y para la segunda y tercera variables tenemos k2 = {p. k3 = {u. consideramos la matriz H con n = 10. 3).Representaciones HOMALS m ocurre cada perfil. w }. que es crucial para el tipo de análisis que se aborda aquí. denominada también matriz indicador (sin referencia a variable alguna). Para cada variable hj se define una matriz Gj tomando g j ir = 1 si al objeto i se le asigna la categoría r de h j 0 si al objeto i no se le asigna la categoría r de h j Gj es la matriz indicador de hj . „b „. es decir k1 = {a.. Hay una tercera manera de codificar los datos. con lo que se obtiene la matriz reducida. q.. v. cuyos elementos son etiquetas de categorías.. b..

a b c 1 0 0 0 1 0 1 0 0 1 0 0 p q r 1 0 0 0 1 0 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 u v w 1 0 0 0 1 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 0 0 1 0 0 1 0 0 1 0 r 0 0 0 a b c p 2 1 2 q 0 1 0 v r 1 0 0 a b c p 0 0 0 q 0 0 0 w r 0 0 0 G = G1 G2 G3 = 0 1 0 0 0 1 1 0 0 1 0 0 0 0 1 1 0 0 Se dice que la matriz indicador Gj es completa si cada fila de Gj tiene sólo un elemento igual a 1 y el resto igual a 0. donde us 6 . de modo que las sumas por filas de Gj son igual a 1.Representaciones HOMALS a b a a b c a a c a p u q r v v a a a b b c p u p v r q v v p v p v 3 2 1 1 1 2 p u p v p v p u p v p v p v H= . Se puede expresar esto mismo mediante Gj u k j = un . MFPR(H) = Tabulación cruzada de gran dimensión p A B C 3 0 0 q 0 0 0 u Mientras que la matriz indicador G sería.

tenemos una tabulación cruzada de entrada doble de las variables hj y hl . las frecuencias marginales. esta matriz combina todas las Cj l .Representaciones HOMALS es el vector columna de dimensión s 1 y cuyos elementos son todos iguales a 1. Si definimos Cj l = G tj Gl . la suma de los elementos de dj debe ser igual a u tk j dj = n . las columnas de Gj son ortogonales (el resultado de multiplicar dos columnas distintas es cero). mientras que D tiene todos sus elementos nulos fuera de las submatrices diagonales. Además. o sea. Como sólo aparece un 1 a lo sumo en cada fila de Gj . Definimos ahora D como la matriz diagonal partida de C. de modo que si definimos mediante el producto la matriz Dj = G tj Gj tenemos una matriz diagonal. entendiendo que los elementos de D y de C son iguales en las submatrices diagonales Cj j = Dj . Aunque D es realmente una matriz diagonal para una matriz indicador completa. ya que es más conveniente en determinadas aplicaciones. los elementos de dj. es habitual pensar en ella como matriz diagonal partida. es decir. cuyos elementos corresponden a la frecuencia de los objetos caracterizados por una combinación particular de una categoría de hj y una categoría de hl . y entonces se verifica que G uk = m un . En la literatura francesa. Sea dj el vector columna de totales por columnas de Gj . y en su “diagonal” tiene las submatrices Cj j = Dj . la matriz G se dice también que es completa. tenemos una matriz G 7 . Si todas las Gj son completas. a C se le denomina “matriz de Burt”. d j r . Dicha matriz C es una matriz de marginales bivariantes. cuya dimensión es k kl . los elementos de su diagonal son las columnas de Gj por sí mismas. Para el ejemplo dado anteriormente. las filas de G suman todas m lo mismo: m. El elemento r . y además. D es una matriz de marginales univariantes. Consideramos k. La matriz Cj l tiene dimensión kj ahora C = Gt G. donde k = j 1 kj . corresponde a la frecuencia marginal de la categoría r de hj .

C y D son las presentadas en las tablas siguientes.Representaciones HOMALS completa. Se observa que las submatrices de dimensión 3 3 en la diagonal de D son las mismas que las de la diagonal de C. además. en este caso. la matriz de 8 . Matriz C de marginales bivariantes a a b c p q r u v w 6 0 0 5 0 1 3 3 0 b 0 2 0 1 1 0 0 2 0 c 0 0 2 2 0 0 0 2 0 p 5 1 2 8 0 0 3 5 0 q 0 1 0 0 1 0 0 1 0 r 1 0 0 0 0 1 0 1 0 u 3 0 0 3 0 0 3 0 0 v 3 2 2 5 1 1 0 7 0 w 0 0 0 0 0 0 0 0 0 Matriz D de marginales univariantes a a b c p q r u v w 6 0 0 0 0 0 0 0 0 b 0 2 0 0 0 0 0 0 0 c 0 0 2 0 0 0 0 0 0 p 0 0 0 8 0 0 0 0 0 q 0 0 0 0 1 0 0 0 0 r 0 0 0 0 0 1 0 0 0 u 0 0 0 0 0 0 3 0 0 v 0 0 0 0 0 0 0 7 0 w 0 0 0 0 0 0 0 0 0 Cuantificación Las categorías de las variables pueden ser valores numéricos. como los puntos medios de intervalos sobre alguna variable continua.

podemos saltarnos su columna en la matriz indicador). entonces definimos la cuantificación de categorías inducida de una categoría en particular. y diremos que x es la puntuación inducida de los objetos para alguna cuantificación directa yj . Formalmente: yj = D j 1 G tj x (se supone aquí que Dj tiene inversa. si x es alguna cuantificación directa de los objetos. Entonces. sino que indicamos de una forma general como hacer factible la cuantificación de una matriz indicador. en otras palabras. lo que implica que no hay categorías con frecuencia nula. No vemos ahora función de pérdida alguna.Representaciones HOMALS datos H es una matriz de datos multivariante clásica y puede manejarse con las técnicas clásicas del Análisis Multivariante (MVA) lineal. Definamos x como el vector media de todos los qj : x= 1 m m qj j 1 Este vector x contendrá la cuantificación de los objetos (depende de). Por supuesto que la cuantificación de categorías seguirá reglas con la intención de optimizar algún criterio o. la variable cuantificada se queda en un único vector qj = Gj yj que da un resultado numérico para cada objeto. podría ignorarse y remplazarse por una categorización “nominal”. Sin embargo aquí no se supone tal cuantificación a priori. como el promedio de las puntuaciones de aquellos objetos a los que se les asigna dicha categoría. Como regla práctica. Por otra parte. respecto de hj . Aún en el caso de que tuviéramos disponible tal cuantificación a priori. 9 . con la intención de minimizar alguna función de pérdida. La cuantificación de las categorías de la variable hj implica que a sus kj categorías se les asigna los kj valores numéricos de un vector (columna) yj . si alguna categoría tiene frecuencia nula.

se debe verificar que M* = m I. sino que además da lugar a una minimización de funciones de pérdida habituales. x . sea proporcional a las puntuaciones inducidas de los objetos. Sea yj una cuantificación directa de las categorías de la variable j. Definimos además m la matriz M* = j 1 M j . las cuantificaciones de categoría inducidas aparecen en las matrices de dimensión kj La matriz indicador incompleta Hasta aquí hemos considerado sólo matrices indicador completas. En general. p cuantificaciones de los objetos. Sea y un vector que m combina todos los yj en un vector único de k = j 1 k j elementos. Una matriz indicador Gj es incompleta si tiene alguna fila cuyos elementos son todos nulos. De forma similar. Las puntuaciones de objeto inducidas están en la matriz de p dada por Gy/m. 10 . y viceversa. Su característica es que cada fila de Gj suman 1. La exposición anterior no debería sugerir que hay sólo una solución para x e y. Se puede establecer esto más formalmente definiendo Mj como la matriz diagonal cuyos elementos no nulos son los totales por filas de Gj . Para una matriz indicador completa G. podemos estar interesados en p soluciones distintas. Para una matriz indicador completa Gj debe verificarse entonces que Mj = I (la matriz identidad). Esto implica que la cuantificación de categoría corresponde a una matriz Yj de dimensión kj dimensión n p. se muestra que este requisito no sólo hace factibles las soluciones para x e y. Necesitamos ahora que una solución para la cuantificación directa de los objetos.Representaciones HOMALS Se pueden conectar los dos procedimientos como sigue. que la cuantificación directa de categoría yj sea proporcional a la cuantificación inducida de categoría D j 1 G tj x. En la argumentación que justifica el algoritmo presentado en este ensayo (y que no vemos aquí). Las puntuaciones inducidas de los objetos son entonces Gy/m. dadas las n p dadas por D j 1 G tj X.

las puntuaciones de objeto serán más parecidas a medida que los dos objetos tengan más categorías en común. La razón es que. en general. m 11 . 1982). Notación Se utiliza la siguiente notación a no ser que se especifique otra cosa: n m p número de casos (objetos) número de variables número de dimensiones Para la variable j . se basa en establecer ponderaciones en la función de pérdida igualándola a cero. y viceversa. 1981. y se describió en primer lugar por De Leeuw y Van Rijckevorsel (1980). Formalmente. buscamos: x yj M 1 Gy D j 1 G tj x Una solución basada en estos requisitos será diferente a una solución basada en la matriz indicador completa. Buscamos otra vez puntuaciones de objetos que sean proporcionales al vector promedio de las cuantificaciones de categoría. que se describe más abajo.Representaciones HOMALS Una matriz indicador incompleta puede cuantificarse de acuerdo con los mismos principios vistos para el caso de matriz indicador completa. cuantificaciones de categoría proporcionales a la puntuación promedio de los objetos dentro de la categoría. …. Existen otras posibilidades y pueden llevarse a cabo recodificando los datos (Gifi. El tratamiento de los valores perdidos. para las categorías a las que el objeto se asigna. Meulman. EL ALGORITMO El algoritmo iterativo HOMALS es una versión actualizada del de Guttman (1941). con j = 1.

kj ]. las sumas por columnas de Gj . Las matrices de cuantificación son X Yj Y m puntuaciones de los objetos de orden n cuantificaciones de categoría. de orden kj p j 1 Optimización de la función objetivo El objetivo de HOMALS es hallar puntuaciones de los objetos X y un conjunto de Yj (para j = 1. e I es la matriz identidad X. de orden kj p p matriz de cuantificaciones de categoría concatenadas. m ) de modo que sea mínima la función 1 m m X. valores que pueden ser 12 . …. es decir. Y asegura que no habrá influencia de los valores observados fuera del recorrido [1. k j Dj matriz diagonal que contiene las marginales univariantes. donde la matriz M* es la suma de las matrices diagonales M* = p p. con elementos de la diagonal definidos 1 cuando la observación i está dentro del recorrido 1. La inclusión de Mj en j M j .Representaciones HOMALS hj kj Gj g j ir vector de dimensión n conteniendo las observaciones categóricas número de categorías válidas (valores distintos) de la variable j matriz indicador para la variable j. k j j ii 0 cuando la observación i está fuera del recorrido 1. Y = tr j 1 X G j Yj t M j X G j Yj bajo las restricciones de normalización Xt M* X = m n I. de orden n kj 1 cuando el objeto i está en la categoría r de la variable j 0 cuando el objeto i no está en la categoría r de la variable j Mj por m matriz binaria diagonal n n .

lo que da lugar a X . Contraste de convergencia: repetir los pasos del 2 a 4 o continuar 6. centradas. Ortonormalización. Ortonormalización 4. Después se obtienen las cuantificaciones de categorías a partir de Y j = D j 1Gtj X . Actualización de las puntuaciones de los objetos 3. Se alcanza la optimización a través del siguiente esquema iterativo: 1. Se inician las puntuaciones de los objetos X con números aleatorios.Representaciones HOMALS realmente valores perdidos o simplemente considerados como tales. 3. En HOMALS. que sea lo más próxima a Z en el sentido de mínimos cuadrados. 1. Iniciado 2. además. que se normalizan de modo que ut M* X = 0 y Xt M* X = m n I. Actualización de las puntuaciones de los objetos. 2. satisfacen ut M* X = 0. Se calcula primero la matriz auxiliar de puntuaciones Z a partir de m Z j 1 M jG j Yj y se centra respecto de M* : Z M M uut M ut M u Z Estos dos pasos dan lugar localmente a las actualizaciones óptimas cuando no se imponen restricciones de ortogonalidad. Iniciado. M* contiene la cantidad de valores observados activos para cada objeto. El problema de ortonormalización es hallar una matriz X+ ortonormal a M* . donde u denota un vector de dimensión n de unos. Rotación Se explican a continuación estos pasos. es decir. esto se hace estableciendo 13 . Actualización de las cuantificaciones de categorías 5. Las puntuaciones de los objetos son.

Y X . 4. la orientación de X e Y con respecto al sistema de coordenadas no es necesariamente la correcta. Se utiliza la notación GRAM( ) para denotar la transformación de Gram-Schmidt (Björk y Golub. esto refleja también que X.Representaciones HOMALS X+ m M GRAM MZ que es igual a la estimación por mínimos cuadrados habitual. X.Y . Contraste de convergencia. Diagnóstico Rango máximo (puede emitirse como aviso cuando se excede) 14 . m a partir de Y j = D j 1Gtj X . la solución con dimensión p debe ser igual a las primeras p columnas de la solución con dimensión p+1. Se repiten los pasos del 2 al 4 en tanto que la diferencia de pérdidas sea mayor que . Se calculan las nuevas cuantificaciones de categorías para j = 1. con el criterio de convergencia especificado por el usuario (un número positivo pequeño). Y sea invariante bajo rotaciones simultáneas de X e Y. Los autovalores correspondientes se presentan después del mensaje de convergencia alcanzada. 1973). 6. Se alcanza el anidamiento calculando los autovalores de la matriz 1 m j Y tj D j Y j . 5. Rotación. Actualización de las cuantificaciones de categorías. …. Se compara la diferencia entre los valores de la función de pérdida consecutivos. excepto por una rotación. durante la iteración. es decir. 1965). Los cálculos implican tridiagonalización con transformaciones de Householder mediante el algoritmo implícito QL (Wilkinson. Como se indicó en el paso 3. Se sabe a partir de la teoría que las soluciones con dimensión distinta deben estar anidadas.

Frecuencias marginales La tabla de frecuencias proporciona las marginales univariantes y el número de valores perdidos (es decir. Medida de discriminación Son las varianzas a través de las dimensiones de las variables cuantificadas. Debido al hecho de que la suma de los autovalores es igual a la traza de la matriz original.Representaciones HOMALS El rango máximo pmax indica la cantidad máxima de dimensiones que pueden calcularse para cualquier conjunto de datos.1 m j s 2 js . El valor de X. los valores que se considera están fuera del recorrido en el análisis actual) para cada variable. HOMALS permite dimensionar todo el trayecto hasta pmax. Gj y(j )s . se puede calcular la suma a partir de 1m j s 2 js . 15 . bajo el encabezado “Ajuste total”. Se puede presentar también la suma de los autovalores durante la iteración. correspondiente a la variable cuantificada s . Aunque la cantidad de dimensiones no triviales pude ser menor que pmax cuando m = 2. En general tenemos: pmax = min n 1 j kj max m 1. tenemos 2 j s = yt j s D j y n )s j s donde y(j es la columna s de Yj . Autovalores Como se dijo en el paso 6. Y es igual a p . se presentan los autovalores calculados después del aviso de convergencia alcanzada. Se calculan como las sumas de columnas de Dj y las sumas totales de Mj .1 donde m1 es el número de variables sin valores perdidos. Para la variable j y la dimensión s.

II E A F 16 .Representaciones HOMALS C a p í t u l o 2 Ejemplo. resultados e interpretación EJEMPLO Consideremos el sistema de relaciones resumido en la siguiente figura: 1 2 3 4 5 Suponemos que los cinco parientes utilizan los términos de parentesco neerlandeses para referirse a cada uno de los otros. y que también tenemos disponible la información sobre sus edades y familia. La matriz de datos correspondiente es la de la tabla siguiente: h1 h2 h3 h4 h5 h6 h7 n1 F n3 C A B E E 2 E B B 2 E E 1 A 1 1 E F D F I II I II II n2 A F n4 D C n5 D C Variables/terminología (h1 a h5 ): A = boer B = zoon D = oom E = neef C = vader F = zeif Variable h6 (edad): 1 = 0-20 años 2 = mayor de 20 años Variable h7 (grupo familiar): I. datos.

Denotamos el conjunto finito de individuos por {n1. h7} el conjunto de variables.Representaciones HOMALS Las variables de terminología forman una submatriz de dimensión 5 5. La matriz indicador binaria de la variable hj se denota por Gj y tiene como elementos. n5} y por {h1. y es la que figura en la tabla siguiente: G1 A n1 n2 n3 n4 n5 0 1 0 0 0 C 0 0 1 0 0 D 0 0 0 1 1 F 1 0 0 0 0 A 1 0 0 0 0 C 0 0 0 1 1 G2 D 0 0 1 0 0 F 0 1 0 0 0 B 1 0 0 0 0 G3 E 0 1 0 1 1 F 0 0 1 0 0 A 0 0 0 0 1 0 1 0 0 0 G4 B E 1 0 1 0 0 F 0 0 0 1 0 A 0 0 0 0 1 0 1 0 0 0 G5 B E 1 0 1 0 0 F 0 0 0 1 0 1 0 0 1 1 1 G6 2 1 1 0 0 0 I 1 0 1 0 0 G7 II 0 1 0 1 1 Se pueden interpretar intuitivamente los elementos g j ir de G como indicadores de una relación de “asociación”: el individuo ni está asociado con la categoría r de la variable hj si y solo si g j ir = 1. La matriz binaria G se construye adosando todas las matrices binarias indicador Gj . A los individuos y categorías recogidos en G se les hace corresponder los puntos adecuados en este espacio geométrico mediante 17 . Se puede remplazar sin perdida de información esta matriz de datos 5 7 de la tabla anterior por la matriz indicador de codificación binaria G. Se representa ahora esta relación de asociación en un espacio euclídeo de baja dimensión p con una métrica cuya distancia es . …. como ya se ha visto: g j ir = 1 si al individuo i se le asigna la categoría r de h j 0 si al individuo i no se le asigna la categoría r de h j Es claro que krj es la cantidad de individuos a los que se les asigna la categoría r de la variable j. Para cada variable hj tenemos que kj = {krj } es el conjunto finito de categorías de la variable hj . tal y como sigue. complementadas con dos variables añadidas. ….

Se recogen los valores de siempre es posible construir en una matriz de distancias. F3 de G3 (ver la siguiente figura) F1 A2 n1 B3 F3 n3 C1 D2 F2 A1 E3 n2 E3 n4 n5 D1 C2 Si ahora tratamos de incluir los puntos de categorías de G4 . y colocar los puntos de categorías (términos de parentesco) A1. especialmente el requisito de que la dimensión p sea suficientemente pequeña. Esta nueva configuración de tres grupos distintos 18 . E3. F2 de G2 . Representamos ahora los cinco individuos y las cuatro categorías (términos de parentesco) de G1 en el espacio de dimensión 2 (p = 2). D2. D1. no = 0 si y solo si g = 1 cualesquiera que sean i. C1. F1 directamente sobre los puntos de individuos asociados. puesto que están asociados al mismo punto de categoría de E4 . En la práctica. Por tanto es necesaria una medida numérica de la adecuación relativa de la cuantificación (ver Gifi 1981). r j ir j ir de modo que se verifiquen todos los requisitos. La configuración resultante permanece estable cuando se añaden los puntos de categorías A2. y los puntos de categorías B3. consistente con los requisitos formales. distribuir arbitrariamente los cuatro grupos resultantes distintos de puntos de individuos sobre el espacio de dimensión 2. Una solución sencilla. es agrupar n4 y n5 . j.Representaciones HOMALS el siguiente requisito: δ (para p pequeño). los puntos de individuos de n1 y n3 deberán mezclarse. C2.

Representaciones HOMALS de puntos de individuos y categorías permanece estable si incluimos ahora las categorías A5. de hecho se mezclan en la primera representación geométrica de las dos anteriores. Esto es consistente con la identificación del parentesco patrilineal del sistema neerlandés. la representación de los cinco puntos de individuos como dos grupos separados ({n1. E5. puesto que su inclusión no altera la configuración previa. Los individuos n4 y n5 son hermanos del mismo sexo (varón). B5. son estructuralmente equivalentes dentro del reducido sistema de parentesco neerlandés. Queda claro también que ciertas variables son formalmente redundantes. n4. se mezclan n1 y n3. y finalmente n2 con n4 y n5 . la terminología y las variables “sociales” son formalmente interdependientes. Por ejemplo. Por tanto. se mezclan finalmente todos los puntos en un único grupo. n3} frente a {n2. F5 (ver la siguiente figura) B3 F1 A2 B4 F2 A1 B5 E3 n2 A5 E4 n1 n3 F3 C1 D2 E5 E3 F4 n4 n5 A4 D1 C2 F5 Cuando se consideran las categorías de las variables restantes. La serie de representaciones geométricas descritas más arriba pueden proporcionar una interpretación antropológica extremadamente interesante. y como tales. Los hermanos son parientes cercanos genealógicamente. n5}) obtenida a partir del análisis de las variables de terminología solamente. se expresa de forma más directa como las categorías I y II de la variable h7 (grupos familiares). Como hemos visto. 19 . a medida que progresa la serie.

durante un periodo de tiempo corto de 1962. es decir. de modo que solo puedo hacer referencia a lo que se puede leer en Tjon Sie Fat (1986). Rose suscita el uso de términos de parentesco Pitjandjara haciendo uso de la técnica siguiente. (1979).Representaciones HOMALS Aún las representaciones no triviales vistas en este sencillo ejemplo dan alguna idea de las posibilidades de la representación HOMALS. mientras que se iguala a una constante la suma de todas las distancias al cuadrado. Al primero tampoco he tenido acceso y las tablas que se presentan en el segundo no corresponden a una tabla de datos como la presentada en el apartado anterior. El conjunto de datos en Rose (1965) se refiere a los Pitjandjara de Angas Downs. añadir variables generalmente dará lugar a que la configuración de puntos degenere en un único grupo. El modelo da lugar entonces a una partición de los datos de forma que los grupos o subconjuntos de puntos son internamente tan homogéneos como sea posible. En primer lugar tenemos la tabla de datos sobre los términos de parentesco utilizados entre 150 personas. Es decir. mientras que al mismo tiempo se maximiza le heterogeneidad entre los subconjuntos de la partición. se minimiza la suma de todas las distancias al cuadrado de las observaciones dentro del grupo. no he sido capaz de acceder a la publicación de Rose (1965). donde se sugiere la posibilidad de realizar un estudio similar al suyo a partir de los datos tabulados sobre los Wanindiljaugwa en Rose (1960) o a partir de la base de datos sobre los Alyawara dada en Denham et al. Se toman fotografías personales de todos los individuos y se presenta después el 20 . Como acabamos de ver. El conjunto de datos sobre el que se llevó a cabo el análisis puede dividirse en dos subconjuntos de variables. Esto se evita en el procedimiento HOMALS representando cada punto individual como el centroide de todos los puntos con los que está asociado. DATOS Desgraciadamente. no he tenido acceso a la matriz de datos a la que se hace referencia en Tjon Sie Fat (1986).

En segundo lugar. De estas variables añadidas. con valores para las 150 variables de terminología y las otras tres variables (las columnas) registrados para los 105 individuos (las filas). para los que utiliza las letras mayúsculas A. idealmente. deberían reflejar el uso de términos para la población entera. los datos de terminología que. De las posibles 22350 identificaciones (son 150 150 – 150. ya que no se incluyen los 150 casos de autoreferencia). De modo que el conjunto de datos completo se puede visualizar como una matriz de dimensión 105 153. C. ya que sus dimensiones por piezas pueden contrastarse con las dimensiones deducidas a partir del modelo matemático. 21 . Tjon Sie Fat (1986) utiliza el análisis realizado por Scheffler (1978) sobre la terminología de los Pitjandjara. la matriz de datos real de términos de parentesco es rectangular. están de hecho sesgados de una forma que no es aleatoria. Rose obtuvo 11700 entradas.Representaciones HOMALS conjunto completo de fotografías a cada persona para obtener así el término “correcto” utilizado para la persona de la fotografía. …. Tjon Sie Fat (1986) proporciona una tabla resumen de tipos de parentesco y su definición por piezas del significado primario de cada término de parentesco. Por tanto. Rose identifica 17 términos distintos. edad y grupo familiar. por considerarlo más adecuado que el de Rose. solo se incluyen 3 en el análisis que realiza Tjon Sie Fat (1986): sexo. Q. La entrada de la fila i y la columna j corresponde al término usado por el individuo i (ego) para el individuo j (alter). pero sólo 105 filas. Los términos perdidos se deben a que los niños y los jóvenes no son capaces de identificar las fotografía. B. Rose también recogió información sobre otras características de cada uno de sus informantes. En lugar de una matriz 150 150. y a que hubo adultos que abandonaron el área antes de completar sus respuestas. más o menos el 52%. con 150 columnas.

L . L . m ego . I. + . I. + . La mayoría de los parientes políticos (I) se consideran parientes por los Pitjandjara. . G1 . X . I. // Las dimensiones del análisis de componentes (piezas) de Scheffler quedan especificadas por las siguientes características básicas: (1) Pariente (K) frente a no pariente (-K).. G1 . . G1 . Col . G= .. + . . G1 . . . f . m ego . G2 . L . + . f . K . G1 . // . + .Representaciones HOMALS SIMBOLO DE ROSE A B C E D F I J K N P O Q G H M L tjamu pakali kami puliri mama kamaru nguntju kuntill kuta kangkuru malany-pa watjira yuntal-pa katja ukari waputju umari minkayi inkani tjuwari marutju inkilyi kuru D S mZC. fBC WF WM HF. f K . G= K . L . L . SS. WB CSpP H. G= . + . I. m K . Col . HB fBW. W TÉRMINO TIPO DE PARENTESCO FF.. G= . L . X K . I. DD SD. G1 . G2 . . -. 22 . m . . Col . f K . m K . WZ. G= . G2 . . HM mBW. DS FM.. G1 . . m K . f K . m . m . G1 . C1 . m K . fZH. f K . G= . DS SS. . G= . m K . L . MM. SD. DD F MB M FZ B+ Z+ SbDEFINICIÓN POR PIEZAS K . C1 . G2 . + . f K . C1 . X K . G1 . HZ mZH. G1 . MF. f ego . f . C4 . + . X I. L . .

para todos los miembros de la propia generación de ego y las generaciones alternativas. El espacio producto de clases semánticas asociado es no ortogonal. La descripción por piezas de Scheffler de los términos de parentesco de los Pitjandjara es una ordenación simple de unidades de contraste por medio de las que las características y dimensiones del “significado” subyacente en la terminología se hacen corresponder con el conjunto de lexemas. Sexo relativo: el mismo (//) frente a opuesto (X). y tjanamiltjan. Los relativos colineales (Col) son un caso especial de colaterales de primer grado. puesto que uno está obligado a hacer hipótesis añadidas para la estimación de los datos perdidos o a borrar aquellas observaciones para las que la información es incompleta. Sexo de ego: varón (m ego) frente a mujer (f ego). Este no es el caso con el procedimiento HOMALS. Es generalmente problemático el análisis de matrices tan escasas por medio de otras técnicas de escalado multidimensional (MDS). ya que las combinaciones de características de las dimensiones subyacentes no son independientes. a dos generaciones de distancia (G2).Representaciones HOMALS (2) Parientes lineales (L) frente a colaterales (C). para todos los miembros de las generaciones adyacentes a la generación de ego. (3) Distancia generacional: misma generación que ego (G=). ya que la ubicación de los 23 . (4) (5) (6) (7) Antigüedad: mayor que ego (+) frente a menor que ego (-). Rose (1965) utiliza dos términos adicionales: nanandaruka. RESULTADOS E INTERPRETACIÓN La elección del HOMALS para el análisis de los datos de los Pitjandjara está motivada también en cuestiones prácticas. Sexo de alter: varón (m) frente a mujer (f). La matriz de datos de Rose contiene un gran número de entradas perdidas (aproximadamente el 48%). a una generación de distancia (G1).

utilizando el lenguaje R: 24 . a partir de su tabla de puntuaciones en cada dimensión de cada uno de los 105 individuos. obtengo. Tjon Sie Fat (1986) dice haber obtenido una representación geométrica de los datos en un espacio de 3 dimensiones.Representaciones HOMALS puntos de individuos y los puntos de categorías en el espacio euclídeo está sólo restringido a las entradas no perdidas de la matriz de datos. el modelo elegido hace una utilización óptima de todos los datos disponibles. pero presenta las proyecciones de la nube de puntos sobre los planos cartesianos. Por tanto. Personalmente.

Representaciones HOMALS 25 .

Alude Tjon Sie Fan (1986) a la información que obtiene utilizando los programas del paquete SLSS (Software Leiden for the Social Sciences). en 2007. que Tjon Sie Fan no presenta.143. Dicha información incluye la tensión para cada dimensión. que refleja la importancia relativa (cuanto menor tensión hay mejor representación). y Mair. escrito por De Leeuw. Las puntuaciones 26 . 0.456. utilizando el programa HOMALGS del SLSS. Incluso Tjon Sie Fan da el valor para cada dimensión (0. cuya tabla con individuos por filas y funciones por columnas. obtengo la representación tridimensional de la tabla anterior. no proporciona. J.682 para las dimensiones 1. 2 y 3). Más concretamente. 0. Pero lo que interesa para completar este ensayo el conjunto de datos de Rose (1965). Esta información es la habitual y se puede obtener también del paquete HOMALS para lenguaje R. al parecer compatible con el SPSS. P. También incluye dicha información las medidas de discriminación para cada una de las 153 variables y por dimensión.Representaciones HOMALS Utilizando después el SAS.

La configuración podría describirse como las “alas” de una mariposa que han sido giradas: la primera ala se despliega en el plano definido por las dimensiones 1 y 2 (primer grafico plano). Rose (1965) recogió información añadida sobre los enlaces genealógicos básicos (relaciones padres-hijos y entre hermanos) así como sobre matrimonios entre los aborígenes de Angas Downs. Tjon Sie Fan informa de que el programa que utilizó le proporcionó la solución de tres dimensiones después de cinco iteraciones del algoritmo.0003. hay dos grupos principales situados en planos perpendiculares separados. Como puede verse combinando la información de los tres gráficos planos y ayudándose del gráfico tridimensional anterior. sino sólo los gráficos de algunas variables seleccionadas frente a las dimensiones 2 y 3). El grupo desplegado por las dimensiones 1 y 2 contiene tanto a los padres como a los hijos de los individuos del grupo desplegado por las dimensiones 1 y 3. en el que el criterio de convergencia por defecto tiene el valor 0. Tjon Sie Fan interpretó las informaciones del HOLMALS con el respaldo de esta fuente de información independiente. las puntuaciones (coordenadas) de las categorías de cada una de las 153 variables sobre cada dimensión (Tjon Sie Fan ni siquiera proporciona la tabla correspondiente. mientras que la segunda ala se despliega en el plano definido por las dimensiones 1 y 3 (segundo gráfico plano). pero no los padres e hijos. 0. dentro del primer grupo hay dos 27 . y obtuvo los resultados siguientes: Los hermanos y las esposas se sitúan dentro del mismo grupo (“ala” de mariposa). Además. Aún cuando esta información es incompleta. Estas “alas” se unen en el origen (con coordenadas (0. Y finalmente.Representaciones HOMALS (coordenadas) de cada uno de los 105 individuos sobre cada dimensión (es la tabla a partir de la que se construyen los gráficos anteriores). 0)). da una tosca referencia para asociar el conjunto de individuos con los niveles generacionales.

mientras que los de generaciones menores tienen puntuaciones negativas. cuya tabla soporte no proporciona. No hay un agrupamiento obvio de los individuos de acuerdo con el sexo o el grupo familiar.Representaciones HOMALS subconjuntos de individuos denominados como abuelos y nietos. Aparte de encontrar otra vez una estructura con forma de alas de mariposa giradas. 28 . los hermanos y las esposas se representan generalmente por puntos próximos entre sí. Dentro de cada grupo. Tjon Sie Fan (1986) alude después a la posible interpretación de los gráficos de un grupo de variables seleccionadas frente a las dimensiones 2 y 3. quizá las conclusiones más reseñables que expone son las que se presentan en el capítulo siguiente a modo de resumen. y los miembros de las generaciones mayores tienen puntuaciones positivas sobre la dimensión 2.

para concluir que como transformación geométrica sobre el espacio tridimensional. G-2. Es decir. deja invariante la estructura de terminología generacional. los hermanos relacionados genealógicamente están incrustados dentro de grupos mayores de personas con terminología equivalente. Además. Además. no hay una interpretación sencilla de los seis grupos considerados a partir de los gráficos de las variables seleccionadas frente a las dimensiones 2 y 3.Representaciones HOMALS C a p í t u l o 3 Conclusiones y software CONCLUSIONES Podemos decir como conclusión que el análisis HOMALS tridimensional de los puntos de individuos extrae de los datos una configuración geométrica que puede ser razonablemente y consistentemente asociada con la información genealógica disponible. reconocido por los mismos Pitjandjara: los individuos del mismo grupo se denominan nanandaruka. la estructura de alas de mariposa giradas es una representación visual llamativa del principio de clasificación de generaciones alternativas. Finalmente. G+1. como clases de matrimonios exógamos. Por otra parte. anterior y posterior. G+2). G-1. También expone Tjon Sie Fan (1986) la transformación para pasar de un grupo a otro de los seis grupos 29 . y para dos generaciones anteriores o posteriores (G=. y que la aplicación de tal transformación cuatro veces nos devuelve al estado original (lo que da una idea del periodo de tiempo que abarca). los grupos obtenidos a partir de una partición de las variables terminológicas son enteramente compatibles con los datos generacionales así como con la estructura de puntos de individuos descrita antes. los individuos de grupos diferentes se llaman entre sí tjanamiltjan. Tjon Sie Fan (1986) alude a la transformación entre las denominaciones para la misma.

s ) es sólo el primer paso de un posible análisis exhaustivo de la estructura terminológica.edu/ 30 .Representaciones HOMALS aludidos. y de lo que se pueda encontrar en los paquetes de Estadística habituales en el mercado. pero no he podido aplicarlo a matriz de datos alguna. Desde luego. y para más concreción aún.org/projects/psychor Pagina de inicio del profesor De Leeuw: http://gifi. Acaba proponiendo explorar todas las combinaciones posibles de estas dos transformaciones que denomina r (entre generaciones) y s (para la misma generación).ucla. alguno de los paquetes escritos para el lenguaje R. Y concluye que dichas combinaciones constituyen un grupo algebraico: el grupo no comunicante G(r. s ) de orden 8.stat.r-project. definido por r4 = s2 = e . En cualquier caso. mi intención era utilizar software de libre distribución. SOFTWARE Independientemente del software que Tjon Sie Fan (1986) ha utilizado para elaborar su análisis.r-project. la aplicación de esta transformación dos veces nos devuelve al estado original. y r s = s r3 . donde e es la transformación identidad. para llegar a la conclusión que ahora. más concretamente. ayudaría a la comunidad científica y antropológica que proporcionara un acceso razonablemente fácil al conjunto de datos con el que trabaja. el paquete HOMALS escrito por Jan De Leeuw y Patrik Mair.org/ Página de inicio para aplicaciones psicométricas de esta técnica y similares: http://r-forge. Dice Tjon Sie Fan (1986) que este grupo corresponde a una subestructura particular del sistema terminológico de los Pirjandjara. El análisis parcial que resulta en G(r. las páginas de Internet donde recabar más información sobre las herramientas que estoy dispuesto a usar son: Página de inicio del lenguaje R: http://www.

(1982) Homogeneity analysis of incomplete data. (1960) Classification of kin. (1965) The wind of change in Central Australia. Rose.. 31 . Mathematics of Computation. C. (1969) The Elementary Structures of Kinship. J.. J. Wilkinson. E. Levi-Strauss. CH. Diday et al. (1981) Nonlinear multivariate analysis. Oxford: Clarendon Press. Leiden: Department of Data Theory. (1979) Aranda and Alyawara kinship: a quantitative argument for a double helix model. En New Trends in Mathematical Anthropology. Leiden: DSWO Press. (1986) Multidimensional analysis of Pitjandjara kin term usage: HOMALS representatons.Representaciones HOMALS Bibliografía Björk. 27: 579594. (1973) Numerical methods for computing angles between linear subspaces. G. J. & Golub. London: Routledge & Kegan Paul. McDaniel. Denham. Boston: Beacon Press Meulman. W.. De Leeuw. American Ethnologist. G.A study in method and a theory of Australian kinship. J (1980) HOMALS and PRINCALS – Some generalizations of principal components analysis. & Van Rijckevorsel. F.H. (1965) The algebraic eigenvalue problem. Rose. Berlin: Akademie Verlag Tjon Sie Fat. J. eds. Berlin: Akademie Verlag. A. De Meur. A. Amsterdm: NorthHolland. 1962. Gifi. En: Data Analysis and Informatics. The aborigenes at Angas Downs. ed.H. 6: 1-24. age structure and marriage amongst the Groote Eylandt aborigenees. F. F. and Atkins.