25

ANLISIS MULTIVARIANTE DE VARIABLES CATEGRICAS ORDINALES: APLICACIN AL ESTUDIO DE LA ELECCIN DE ENTIDAD BANCARIA (Cajas vs.
Bancos) EN EXTREMADURA Marcelino Snchez Rivero - sanriver@unex.es Juan Luis Corral Snchez - jlcorral@unex.es Jess Prez Mayo - jperez@unex.es Universidad de Extremadura
Reservados todos los derechos. Este documento ha sido extrado del CD Rom Anales de Economa Aplicada. XIV Reunin ASEPELT-Espaa. Oviedo, 22 y 23 de Junio de 2000. ISBN: 84-699-2357-9
-1-
ANLISIS MULTIVARIANTE DE VARIABLES CATEGRICAS ORDINALES: APLICACIN AL ESTUDIO DE LA ELECCIN DE ENTIDAD BANCARIA ( Cajas vs Bancos ) EN EXTREMADURA
Marcelino SNCHEZ RIVERO sanriver@unex.es Juan Luis CORRAL SNCHEZ jlcorral@unex.es Jess PREZ MAYO jperez@unex.es Universidad de Extremadura
ABSTRACT: Las limitaciones de la modelizacin log-lineal convencional en el tratamiento de variables categricas ordinales son superadas, en gran medida, por una modelizacin alternativa que tiene en cuenta la informacin subyacente en la ordenacin de las categoras de las variables analizadas. Esta modelizacin, que es una extensin de los modelos RC bidimensionales, permite formular diversas hiptesis ( en trminos de homogeneidad o heterogeneidad ) sobre la asociacin condicionada y la asociacin parcial existente entre variables ordinales. A partir de estos fundamentos tericos, el objetivo de nuestro trabajo es cuantificar la asociacin entre la preferencia del consumidor financiero extremeo por un banco o p or una caja de ahorros y algunos de sus condicionantes sociodemogrficos ( edad, nivel de estudios, tamao del hbitat, ... ). Los resultados que se presentan se han obtenido a partir de la informacin estadstica suministrada por una investigacin de mercado sobre el consumidor de productos y servicios financieros en Extremadura realizada en 1996 sobre una base emprica de 1.923 encuestas personales. Palabras clave: Tablas de contingencia, variables ordinales, log-lineal, asociacin condicionada, asociacin parcial, eleccin de entidad.
-2-
1. INTRODUCCIN. La modelizacin logartmico-lineal es una tcnica estadstica cuyo uso se ha extendido en los ltimos aos, debido, entre otras razones, al incremento de libros de textos sobre los mismos ( Agresti, 1990; Andersen, 1990; Christensen, 1990 ) y a la aparicin de software informtico para su estimacin. Bsicamente, el planteamiento de los modelos log-lineales consiste en descomponer el logaritmo de las frecuencias esperadas de una tabla de contingencia multidimensional en una serie de trminos, algunos de los cuales ( trminos de interaccin de segundo, tercer, cuarto,..., orden ) cuantifican la asociacin existente entre dos o ms variables que forman la tabla. Se consigue de esta forma superar los inconvenientes derivados del anlisis marginal de las tablas bidimensionales obtenidas a partir de una tabla multidimensional inicial y evitar la aparicin de la llamada paradoja de Simpson, que conduce en muchos casos a conclusiones errneas sobre la asociacin existente entre dos variables, al obviar los efectos que terceras variables tienen ( o pueden tener ) sobre las mismas. Los modelos log-lineales consideran a la totalidad de las variables categricas que analizan como nominales, en el sentido de que las estimaciones de sus parmetros y los tests chi-cuadrado de bondad de ajuste son invariantes ante la ordenacin de las categoras de una o ms variables categricas. En consecuencia, al tratar variables ordinales como nominales a travs de modelos log-lineales se plantean diversos problemas, entre los que destacan los derivados de la no utilizacin de la informacin estadstica que proporciona el orden que guardan entre s las categoras de las variables ordinales. Surge, por consiguiente, la necesidad de considerar otros modelos de asociacin que exploten el carcter ordinal de ciertas variables en una tabla de contingencia multidimensional. En este sentido, Agresti ( 1984, pp. 75-76 ) apunta algunas de las ventajas de utilizar estos modelos de asociacin: a) Los parmetros de asociacin de los modelos para variables ordinales permiten describir determinados tipos de tendencias con mucha mayor facilidad que los modelos log-lineales nominales. b) La gama de modelos entre el de independencia completa y el saturado ( que es aquel que incluye todos los efectos de interaccin posibles entre las variables de la tabla de contingencia ) es mucho ms amplia en el caso de modelos para variables ordinales que en el caso de modelos log-lineales convencionales. c) Los modelos ordinales proporcionan una forma ms estructurada para los trminos de interaccin y de asociacin entre las variables, sin la necesidad, por otra parte, de agotar la totalidad de grados de libertad del modelo. d) Los tests estadsticos basados en modelos ordinales son ms poderosos a la hora de detectar las alternativas a la hiptesis nula de independencia, de independencia condicionada y de no interaccin entre las variables.
-3-
Ante la evidencia de las limitaciones de la modelizacin log-lineal convencional, el presente artculo se plantea dos objetivos esenciales: 1) Presentar diferentes modelos de asociacin para el anlisis de mltiples variables ordinales en tablas de contingencia multidimensionales, proponiendo para ello hiptesis de homogeneidad y de heterogeneidad de los efectos responsables de la asociacin. 2) Demostrar la idoneidad de estos modelos para desvelar la asociacin entre la eleccin de entidad bancaria ( bancos o cajas de ahorros ) y variables sociodemogrficas, como la edad, el nivel de estudios o la zona de residencia habitual, algunas de las cuales son de naturaleza categrica ordinal.
2. MODELOS DE ASOCIACIN PARA TABLAS BIDIMENSIONALES. Sea n ij la frecuencia observada en la casilla ( i,j ) de una tabla de contingencia de dimensin IxJ, obtenida de la clasificacin cruzada de las variables A y B, y sea mij la frecuencia esperada de dicha casilla. Asumiendo una distribucin multinomial para las IxJ casillas de la tabla, para cada subtabla de dimensin 2x2 formada a partir de dos filas y de dos columnas contiguas ( esto es, filas i e i+1 y columnas j y j +1 ) se puede definir un cociente de ventajas local, expresado en funcin de las frecuencias esperadas de la siguiente forma: ij = mij mi +1, j +1 mi , j +1 mi +1, j (2.1.)
Para estos ( I-1)(J-1) cocientes de ventajas, Goodman (1979) propone diferentes modelos segn los valores que tomen los mismos: ij = 1 para i = 1,2, K , I 1 para j = 1,2, K , J 1 ij = para i = 1,2, K , I 1 para j = 1,2, K , J 1 ij = i . ij = . j para i = 1,2,K , I 1 para j = 1,2, K , J 1 para i = 1,2, K , I 1 para j = 1,2, K , J 1 (2.2.)
(2.3.)
(2.4.)
(2.5.)
La expresin (2.2.) es el conocido modelo de independencia completa entre las dos variables de la tabla. La expresin (2.3.) representa un modelo de asociacin uniforme. Por su parte, la expresin (2.4.) corresponde a un modelo de asociacin de
-4-
efectos de filas. Finalmente, la expresin (2.5.) es la de un modelo de asociacin de efectos de columnas. Sin embargo, la modelizacin ms interesante surge cuando los modelos de las expresiones (2.4.) y (2.5.) se generalizan para incluir tanto efectos de filas como efectos de columnas. Goodman (1979) considera dos posibles generalizaciones: Modelo I: ij = i . . j para i = 1, 2, K, I 1 para j = 1,2,K , J 1 (2.6.)
Modelo II: log ij = i . . j para i = 1,2,K , I 1 para j = 1,2, K, J 1 (2.7.)
Estos dos ltimos modelos pueden ser expresados tambin en trminos de frecuencias esperadas. As, bajo el modelo I las frecuencias esperadas mij pueden expresarse de la siguiente forma: mij = 1( i ) 2 ( j ) ij ij ij i , j (2.8.)
mientras que bajo el modelo II la descomposicin de las frecuencias esperadas sera la siguiente: mij = 1( i ) 2 ( j ) e
i j
i, j
(2.9.)
Teniendo en cuenta las expresiones (2.8.) y (2.9.), las expresiones de los modelos I y II en trminos de los cocientes de ventajas y del logaritmo de los cocientes de ventajas, respectivamente, seran las siguientes: Para el modelo I: ij = (i +1 i ) ( j +1 j ) Para el modelo II: log ij = ( i +1 i ) ( j +1 j ) (2.11.) (2.10.)
De todos los parmetros introducidos hasta el momento, 1 (i ) y 2 ( j ) carecen de inters para nuestro propsito. Sin embargo, los parmetros y del modelo I y los parmetros y del modelo II tienen gran importancia en el planteamiento global de los modelos de asociacin, ya que representan los valores asignados a las I categoras ordinales de la variable fila y a las J categoras ordinales de la variable columna,
-5-
respectivamente. De esta forma, i . y . j representan la distancia ( expresada en forma de cociente ) entre los valores asignados a dos categoras consecutivas de la variable fila ( i e i+1 ) y de la variable columna ( j y j +1 ), respectivamente. De la misma forma, i . y . j representan tambin esta distancia, pero expresada, en este caso, en forma de diferencia. Los parmetros y de la variable fila y los parmetros y de la variable columna pueden ser constantes conocidas o variables desconocidas. En este ltimo caso, y reciben el nombre de efectos de filas , mientras que y reciben el nombre de efectos de columnas . La estimacin de estos dos tipos de efectos permite realizar la asignacin ptima de valores a las categoras de las variables ordinales de la tabla y calcular la distancia ptima que debe existir entre ellas. Por su parte, los parmetros y de las expresiones (2.10.) y (2.11.) reciben el nombre de efecto global o asociacin intrnseca entre las variables A y B, y son los trminos que recogen la asociacin existente entre dichas variables cuando los parmetros y del modelo I y los parmetros y del modelo II son constantes conocidas que verifican que i = i , j = j , i = i , j = j 1.
3. MODELOS DE ASOCIACIN CONDICIONADA. Considrense ahora un total de K grupos, de forma que para cada uno de ellos se tiene la clasificacin cruzada de dos variables ordinales. Sea n ijk la frecuencia observada en la casilla (i,j ) de la k -sima tabla y sea mijk la frecuencia esperada correspondiente a dicha casilla ( i = 1, 2, ..., I; j = 1, 2, ..., J; k = 1, 2, ..., K ). El diseo muestral considerado es el producto-multinomial, ya que se partir de K distribuciones multinominales IJ-dimensionales. Nuestro inters se centrar en el anlisis de la heterogeneidad intragrupal existente entre las tres variables de la tabla. Para los K grupos considerados, se pueden definir un total de K(I-1)(J-1) cocientes de ventajas condicionados, que vendrn dados por la siguiente expresin: ij ( k ) = mijk mi +1, j +1, k mi , j +1, k mi +1, j , k (3.1.)
Para establecer la relacin entre estos cocientes de ventajas condicionados y las frecuencias esperadas habr que tener en cuenta las siguientes expresiones:
1
Si i = i en el modelo II, se verificar que i +1 i = 1 i , con lo que la expresin (2.11.) quedara
reducida a log ij = j + 1 j , que es la expresin de un modelo de efectos de columnas. Si, por el
contrario, j = j la expresin (2.11.) se reducira a log ij = ( i +1 i ) , que representa a un modelo de efectos de filas. Finalmente, si ambas condiciones se verifican ( i = i ; j = j ), estaramos ante un modelo de asociacin uniforme, cuya expresin en funcin del logaritmo de los cocientes de ventajas sera log ij = . En consecuencia, los modelos de las expresiones (2.3.) a (2.5.) no son ms que casos especiales del modelo de efectos multiplicativos de filas y de columnas, o modelo II. Los mismos comentarios seran vlidos para el modelo I.
-6-
mijk = 13 (ik ) 23( jk ) ij( k ) ij ( k ) mijk = 13 (ik ) 23( jk ) e

( i ( k ) j ( k ) )
(3.2.) (3.3.)
Partiendo de la expresin (3.2.) se demuestra que: ij ( k ) = mientras que partiendo de (3.3.), se llega a: log ij ( k ) = ( i +1 ,( k ) i ( k ) )( j +1, ( k ) j ( k ) ) La expresin (3.4.) puede reescribirse de la siguiente forma: ij ( k ) = i .( k ) . j ( k ) y la expresin (3.5.) puede ser expresada de la siguiente forma: log ij ( k ) = i .( k ) . j ( k ) (3.7.) (3.6.) (3.5.) i +1 ,( k ) i ( k ) j +1 ,( k ) j ( k ) (3.4.)
Tanto el modelo (3.6.) como el modelo (3.7.) establecen que existen efectos de filas que difieren de un grupo a otro y que existen efectos de columnas que tambin difieren de un grupo a otro. Por este motivo, los modelos de estas expresiones reciben el nombre de modelo de asociacin condicionada de efectos heterogneos de filas y de columnas . Para diferenciar ambos modelos, llamaremos Modelo I al modelo de la expresin (3.6.) y Modelo II al modelo de la expresin (3.7.). El modelo que se acaba de presentar recoge la situacin ms general que puede presentarse ( heterogeneidad de todos los efectos, tanto de filas como de columnas, en los grupos considerados ). A partir de este caso general, pueden proponerse varios casos particulares, representados por otros tantos modelos, que se describen a continuacin: a) Modelo de asociacin condicionada nula: este modelo se obtiene cuando: ij ( k ) = 1 (3.8.) y supone la independencia condicionada de las variables A y B, dada la categora k de la variable grupal K. b) Modelo de asociacin uniforme homognea: este modelo se verifica cuando: ij ( k ) = (3.9.) y postula que la asociacin en cada tabla es uniforme y que esta asociacin uniforme es homognea en los distintos grupos considerados.
-7-
c) Modelo de asociacin uniforme heterognea: se obtiene cuando: ij ( k ) = ..( k ) (3.10.) expresin que establece que existe asociacin uniforme en cada tabla considerada pero que esta asociacin uniforme no es homognea para los K grupos analizados. d) Modelo de efectos de filas homogneos : este modelo postula lo siguiente: ij ( k ) = i .. (3.11.) es decir, que slo existen efectos de filas en la asociacin entre las variables A y B, y que estos efectos de filas son los mismos para los K grupos. e) Modelo de efectos de filas simples heterogneos : la hiptesis que recoge este modelo se puede expresar como sigue: ij ( k ) = i .. ..( k ) (3.12.) que establece que los efectos de filas son homogneos para las K tablas de contingencia consideradas, pero los efectos globales ( ..( k ) ) son diferentes para cada uno de los K grupos objeto de anlisis. f) Modelo de efectos de filas heterogneos : este modelo permite la existencia de heterogeneidad tanto para los efectos globales como para los efectos de filas, por lo que su expresin es la siguiente: ij ( k ) = i .( k ) (3.13.)
Todos estos modelos ( en los que, adems del efecto global, se han considerado efectos de filas ) pueden formularse en el caso de que consideren nicamente efectos de columnas. Incluso, pueden proponerse generalizaciones de los modelos I y II anteriormente presentados, en las que existen tanto efectos de filas como efectos de columnas. Adems, se puede establecer una jerarqua entre todos estos modelos, ya que, como habr podido apreciarse, unos son casos especiales de otros. En la TABLA 3.1. se enumeran todos estos modelos con sus grados de libertad y con especificacin de los modelos de los que son casos especiales. En lo que se refiere a la estimacin de todos estos modelos, debemos sealar que, a excepcin de los modelos tipo II, puede emplearse el mtodo de ajuste proporcional iterativo ( IPF ) o el algoritmo de Newton-Raphson, dada la naturaleza log-lineal de los mismos. Sin embargo, el programa informtico2 empleado en la estimacin de los modelos de asociacin del epgrafe siguiente utiliza una generalizacin del mtodo presentado por Goodman ( 1979, pp. 549-551 ) para la estimacin de los modelos de asociacin RC para tablas bidimensionales. Bsicamente,
2
Subcomando COND del programa CDAS versin 3.50.
-8-
a partir del logaritmo de la funcin de verosimilitud, el mtodo de estimacin del subcomando COND plantea un sistema de ecuaciones de verosimilitud, cuya solucin se obtiene mediante un procedimiento iterativo. Para ms detalles de este procedimiento de estimacin mximo-verosmil, puede consultarse Clogg ( 1982, pp. 813-814 ).
TABLA 3.1. Modelos de asociacin condicionada para un conjunto de K tablas IJ-dimensionales con especificacin de sus grados de libertad y de los modelos ms generales de los que son casos especiales
Modelo de asociacin condicionada Efectos sobre ij ( k ) Grados de libertad K(I-1)(J-1) menos ... 0 1 K (I-1) K + (I-2) K + K(I-2) (J-1) K + (J-2) K + K(J-2) 1 + (I-2) + (J-2) K + K(I-2) + (J-2) K + (I-2) + K(J-2) K + K(I-2) + K(J-2) Es un caso especial de los modelos ...
1. Asociacin condicionada nula 2. Asociacin uniforme 2a. Uniforme homognea 2b. Uniforme heterognea 3. Asociacin con efectos de filas 3a. Efectos homogneos 3b. Efectos simples heterogneos 3c. Efectos heterogneos 4. Asociacin con efectos de columnas 4a. Efectos homogneos 4b. Efectos simples heterogneos 4c. Efectos heterogneos 5. Asociacin con efectos de filas y de columnas 5a. Efectos de filas y de columnas homogneos 5b. Efectos de filas heterogneos 5c. Efectos de columnas heterogneos 5d. Efectos de filas y de columnas heterogneos Fuente: Clogg ( 1982 ).
2a-5d 2b-5d 3b-3c, 4b-4c, 5b-5c 3b-3c, 5a-5d 3c, 5b-5d 5b, 5d 4b-4c, 5a-5d 4c, 5b-5d 5c, 5d 5b-5d 5d 5d -
..(k )
i ..
..(k ) i .. i .(k ) . j. ..(k ) . j . . j ( k ) i .. . j . i .(k ) . j. i .. . j (k ) i .(k ) . j ( k )
En todos los modelos presentados hasta ahora se ha considerado la clasificacin cruzada de dos variables categricas ordinales, A y B, para un total de K grupos, sin que exista una ordenacin intrnseca en los mismos . Dicho en otros trminos, la variable grupal, aunque de naturaleza categrica, no es ordinal. Sin embargo, en mltiples ocasiones podemos encontrarnos con la clasificacin cruzada de tres o ms variables categricas ordinales, de forma que podra suceder que una de ellas fuese la variable que designa a diferentes grupos considerados en el anlisis. Cuando nos enfrentemos a esta situacin, habr que considerar la informacin que arroja la ordenacin que los distintos grupos guardan entre s, para lo cual Clogg ( 1982 ) propone diversos modelos de asociacin parcial.
-9-
Sin entrar en detalle en estos modelos ( ya que no constituye el objetivo ltimo de este artculo ), a partir de los cocientes de ventajas locales ij ( k ) , i ( j )k y (i ) jk , que describen la asociacin parcial entre cada par de variables, se pueden obtener generalizaciones del modelo I de Goodman ( 1979 ). Designando por A a la variable fila, por B a la variable columna y por C a la variable estrato, es posible designar efectos de filas, efectos de columnas y efectos de estratos. Los modelos de asociacin parcial consideran las mltiples combinaciones posibles de estos tres tipos de efectos. As, se puede formular un modelo de asociacin parcial nula, que postula la independencia mutua de las variables A, B y C. Tambin pueden formularse varios modelos de asociacin parcial uniforme , como el modelo de asociacin uniforme RC ( filas-columnas ), el modelo de asociacin uniforme RC y RL ( filas-columnas y filasestratos ) o el modelo de asociacin uniforme RC, RL y CL ( filas-columnas, filasestratos, columnas-estratos ). Otra posibilidad son los modelos con efectos de filas y con efectos uniformes, algunos de cuyos ejemplos seran el modelo de efectos de filas sobre la asociacin parcial entre las variables A y B ( efectos de filas sobre RC ), el modelo de efectos de filas sobre la asociacin parcial entre las variables A y C ( efectos de filas sobre RL ) o el modelo de efectos de filas sobre la asociacin parcial entre las variables A y B y entre las variables A y C ( efectos de filas sobre RC y RL ). Generalizando los modelos anteriores se obtendran los modelos con efectos de filas, con efectos de columnas y con efectos uniformes, entre los que se pueden citar el modelo de efectos de filas y de columnas sobre la asociacin parcial entre las variables A y B ( efectos de columnas sobre RC ), el modelo de efectos de filas y de columnas sobre la asociacin parcial entre las variables A y C ( efectos de columnas sobre RL ) y, finalmente, el modelo de efectos de filas y de columnas entre las variables B y C ( efectos de columnas sobre CL ). Por ltimo, el modelo ms general que puede considerarse es el modelo de efectos de filas, de efectos de columnas y de efectos de estratos , del que se pueden considerar tres versiones: un modelo con efectos de estratos sobre la asociacin parcial entre las variables A y B ( efectos de estratos sobre RC ), un modelo con efectos de estratos sobre la asociacin parcial entre A y C ( efectos d e estratos sobre RL ) y un modelo con efectos de estratos sobre la asociacin parcial entre B y C ( efectos de estratos sobre CL ). Como habr podido apreciarse, la gama de modelos de asociacin que permiten analizar las relaciones de dependencia existentes entre un conjunto de tres ( o ms ) variables categricas ordinales es tremendamente variada. Para mayor informacin sobre estos modelos de asociacin parcial, puede consultarse Clogg ( 1982 ).
4. APLICACIN DE LOS MODELOS DE ASOCIACIN CONDICIONADA AL ESTUDIO DE LA ELECCIN DE ENTIDAD BANCARIA EN EXTREMADURA. Los modelos presentados en el apartado anterior se erigen en una herramienta estadstica muy til para el anlisis de problemas econmicos. Al objeto de mostrar su
- 10 -
versatilidad se considerar el estudio titulado Anlisis del comportamiento del consumidor de servicios financieros de Extremadura , realizado en 1996 por un equipo investigador del Departamento de Economa Aplicada y Organizacin de Empresas de la Universidad de Extremadura. El objetivo de la investigacin era el anlisis detallado de la configuracin del mercado bancario regional, la determinacin de las cuotas de participacin de cada entidad bancaria que opera en Extremadura, el estudio del comportamiento de los ahorradores y la estimacin del nivel de consumo financiero de los mismos. El trabajo de campo consisti en la realizacin de 1.923 encuestas en la poblacin de consumidores de servicios financieros mayores de 18 aos de la Comunidad Autnoma de Extremadura. De la informacin aportada por este proceso de encuestacin, hemos seleccionado cuatro variables categricas: el tipo de entidad bancaria 3 del que es cliente el encuestado ( variable T ), la zona en la que se reside ( Z ), su edad ( E ) y su nivel de estudios ( N ). La clasificacin cruzada de estas cuatro variables se muestra en el ANEXO 1. En primer lugar, hemos estimado el modelo log-lineal ( nominal ) que mejor explica la asociacin existente entre estas cuatro variables. Dicho modelo viene dado por [TEZ][NEZ], el cual posee 31 grados de libertad, arroja un valor del test estadstico de la razn de verosimilitud de G 2 = 29,17 ( lo que significa que el ajuste de este modelo a las frecuencias observadas de la tabla de contingencia del ANEXO 1 es bastante satisfactorio, ya que p = 0,5606 ), posee un coeficiente de determinacin ajustado de 0,903390 y un criterio de informacin de Akaike de 32,83. El modelo [TEZ][NEZ] interpreta las relaciones entre las cuatro variables consideradas de la siguiente forma: La preferencia de los consumidores financieros extremeos hacia bancos o hacia cajas de ahorros est condicionada tanto por su edad como por la zona en la que residen. Sin embargo, dicha preferencia es condicionalmente independiente de su nivel de estudios, dadas las variables edad y zona de residencia. Es decir, cuando se fija una categora concreta de una de estas dos ltimas variables, el hecho de ser cliente de un banco o de una caja de ahorros es independiente del nivel de estudios del entrevistado. Por otro lado, la interpretacin de las estimaciones mximo-verosmiles de los parmetros del anterior modelo permite extraer las siguientes conclusiones: TE a) Efectos de interaccin entre las variables T y E ( ): los individuos ij menores de 28 aos manifiestan una mayor preferencia por los bancos que por las cajas de ahorros, mientras que los consumidores financieros que tienen entre 28 y 40 aos, y aquellos otros que superan los 60 aos, son ms partidarios de las cajas de
3
De la muestra global ( 1.923 encuestas ) se han eliminado aquellos encuestados que son clientes simultneamente de uno o ms bancos y de una o ms cajas de ahorros debido a la indeterminacin que estos individuos introducen en los objetivos que se persiguen en el presente artculo. Una vez eliminadas tambin aquellas encuestas en las que el entrevistado no se ha manifestado ( no sabe / no contesta ) respecto a las cuatro variables consideradas, la muestra operativa final ha ascendido a 1.247 encuestas.
- 11 -
ahorros. Entre aquellos individuos cuya edad est comprendida entre los 41 y los 60 aos no se detecta una inclinacin evidente hacia un tipo u otro de entidad bancaria. TZ b) Efectos de interaccin entre las variables T y Z ( ik ): en los municipios de la regin con menos de 5.000 habitantes, la preferencia de los consumidores financieros por las cajas de ahorros es bastante evidente, circunstancia posiblemente motivada por la mayor implantacin de estas entidades en municipios de escasa poblacin. Sin embargo, en las entidades de poblacin que forman lo que hemos denominado zona intermedia ( municipios con una poblacin comprendida entre los 5.000 y los 75.000 habitantes ), el consumidor financiero se inclina mayoritariamente por los bancos. Por ltimo, la ausencia de un liderazgo claro de los bancos o de las cajas de ahorros es la nota dominante en los grandes ncleos de poblacin de la regin ( ciudades que superan los 75.000 habitantes ). Al objeto de precisar y aquilatar estas conclusiones, procederemos a continuacin a determinar cul es el modelo de asociacin condicionada ptimo para las cuatro variables que estn siendo consideradas. La oportunidad de estos modelos se justifica por el carcter ordinal de tres de estas cuatro variables. El anlisis estadstico que se llevar a cabo se restringir a las variables que se asocian de una forma directa con la variable T, es decir, a las variables E y Z, quedando al margen la variable N, dada su independencia condicionada con la variable T. La clasificacin cruzada de las variables T, E y Z se muestra en la TABLA 4.1.
TABLA 4.1. Clasificacin cruzada de las variables T ( tipo de entidad ), E ( edad ) y Z ( zona de residencia ) del entrevistado Clientes de bancos: Menos de 28 aos 84 96 46 Entre 28 y 40 aos 17 74 38 Entre 41 y 60 aos 31 88 34 Ms de 60 aos 15 55 32
Zona urbana Zona intermedia Zona rural
Clientes de cajas de ahorros: Menos de 28 aos Zona urbana 43 Zona intermedia 62 Zona rural 49
Entre 28 y 40 aos 25 72 82
Entre 41 y 60 aos 43 46 73
Ms de 60 aos 24 39 79
Fuente: Anlisis del comportamiento del consumidor de servicios financieros de Extremadura ( 1996 ).
Como se observa en la tabla anterior, estamos en realidad ante dos tablas de contingencia de dimensin 3x4 ( formadas por las variables ordinales E y Z ) observadas en 2 grupos o poblaciones diferentes ( clientes de bancos y clientes de cajas de ahorros ) que no guardan entre s orden alguno. En consecuencia, la modelizacin
- 12 -
estadstica ms adecuada para esta situacin son los modelos de asociacin condicionada.
TABLA 4.2. Bondad de ajuste de los modelos de asociacin condicionada estimados para los datos de la TABLA 4.1. Modelo de asociacin condicionada Asociacin condicionada nula Asociacin uniforme: Uniforme homognea Uniforme heterognea Asociacin con efectos de filas: Efectos homogneos Efectos simples heterogneos Efectos heterogneos Asociacin con efectos de columnas: Efectos homogneos Efectos simples heterogneos Efectos heterogneos Asociacin con efectos de filas y con efectos de columnas ( Modelo I ): - Efectos de filas y de columnas homogneos - Efectos de filas heterogneos - Efectos de columnas heterogneos - Efectos de filas y de columnas heterogneos Asociacin con efectos de filas y con efectos de columnas ( Modelo II ): - Efectos de filas y de columnas homogneos - Efectos de filas heterogneos - Efectos de columnas heterogneos - Efectos de filas y de columnas heterogneos g.l. 12 11 10 10 9 8 9 8 6 X2 65,5919 40,0461 39,1621 39,8538 39,0192 26,4926 22,4769 22,1574 21,2593 G2 65,8746 41,6340 41,0062 p4 0,0000 0,0000 0,0000
41,4401 0,0000 40,8617 0,0000 28,28329 0,0004 22,65777 0,0070 22,3439 0,0043 21,3181 0,0016
8 6 5 4
22,4315 9,6460 21,2327 9,3302
22,6155 9,7331 21,2990 9,3720
0,0039 0,1364 0,0007 0,0524
8 6 5 4
18,2533 12,9326 14,6231 11,6983
18,3538 12,8894 14,7228 11,8099
0,0187 0,0448 0,0116 0,0188
Fuente: elaboracin propia a partir de los clculos realizados por el subcomando COND del programa CDAS versin 3.50.
En la TABLA 4.2. se muestra la bondad de ajuste de varios modelos de asociacin condicionada aplicados a los datos de la TABLA 4.1. De estos modelos, e l nico que arroja un ajuste satisfactorio ( a un nivel de significacin del 5 % ) es el modelo de asociacin con efectos aditivos ( modelo I ) de filas heterogneos y de
Este valor de p se refiere al test estadstico de la razn de verosimilitud ( G 2 ), puesto que ste es el estadstico de uso recomendado para el anlisis de la bondad de ajuste de modelos de asociacin, dada su propiedad de particionabilidad ( Agresti, 1990, pp. 210-213 ). Al no verificar esta propiedad el test chicuadrado de Pearson ( X 2 ) y, por consiguiente, ser menos empleado en el anlisis de bondad de ajuste, no se reproduce en la tabla el valor de p asociado a dicho estadstico.
- 13 -
columnas homogneos ( p = 0,1364 ). Este modelo postula que la asociacin entre las variables E y Z est determinada por efectos de filas y por efectos de columnas, pero mientras stos ltimos son iguales ( homogneos ) para los clientes de bancos y para los clientes de cajas de ahorros, los efectos de filas son diferentes ( heterogneos ) para los dos grupos considerados.
TABLA 4.3. Estimaciones mximo-verosmiles del modelo de asociacin con efectos aditivos de filas heterogneos y de columnas homogneos ( ij ( k ) = i .( k ) . j . ) Estimaciones de ij ( k ) para los clientes de bancos ( k = 1 ): j=1 j=2 j=3 i=1 2.1781 0.9631 1.7577 i=2 1.4928 0.6601 1.2047 Estimaciones de ij ( k ) para los clientes de cajas de ahorros ( k = 2 ): j=1 j=2 j=3 i=1 1.3839 0.6119 1.1168 i=2 2.0464 0.9049 1.6515 Estimaciones de . j . ( homogneos ) y de i .( k ) ( heterogneos ): = 1.814315 = 0.802252 = 1.464153
.1 . .2 . .3 .
1 .(1 ) = 1.200492 1 .( 2 ) = 0.762776
2 .(1) = 0.822767 2 .( 2 ) = 1.127946
ijk ) para los clientes Estimaciones de las frecuencias esperadas estimadas ( m de bancos ( k = 1 ): j=1 j=2 j=3 j=4 i=1 79.7094 23.1076 31.6567 12.5264 i=2 102.8273 64.9264 85.6653 59.5810 i=3 43.4633 40.9660 35.6780 29.8927 ijk ) para los clientes Estimaciones de las frecuencias esperadas estimadas ( m de cajas de ahorros ( k = 2 ): j=1 j=2 j=3 j=4 i=1 41.8083 28.3723 39.8304 24.9890 i=2 66.1373 62.1138 53.3605 37.3884 i=3 46.0544 88.5139 68.8091 79.6226
- 14 -
Las estimaciones del modelo seleccionado se muestran en la TABLA 4.3., en la que se observa que los cocientes de ventajas condicionados estimados ij ( k ) difieren de un grupo a otro, dada la heterogeneidad de los efectos de fila que postula el modelo. As, el cociente de ventajas estimado 11( k ) alcanza un valor mayor en el grupo de clientes de bancos ( k = 1 ) que en el grupo de clientes de cajas de ahorros ( k = 2 ). Esta misma circunstancia se aprecia en los cocientes 12 ( k ) y 13 ( k ) . Por el contrario, los cocientes , y son ms elevados entre los clientes de cajas de ahorros
21( k ) 22 ( k ) 23 ( k )
que entre los clientes de bancos. La causa principal de estas diferencias radica en el hecho de que 1 .(1 ) >> 2 .(1) y 1 .( 2 ) << 2 .( 2 ) .
TABLA 4.4. Anlisis de asociacin condicionada para el modelo seleccionado Modelos Grados de Diferencia de Proporcin Efectos sobre la asociacin empleados libertad verosimilitud sobre el total Efecto general: 1-2a Efectos generales heterogneos: 2a-2b 11-10 = 1 0,6278 0,95 % Efectos de filas homogneos, dados efectos generales heterogneos: 2b-3b 10-9 = 1 0,1445 0,22 % Efectos de filas heterogneos, dados efectos de filas homogneos y efectos generales heterogneos: 3b-3c 9-8 = 1 12,5784 19,09 % Efectos de columnas homogneos, dados efectos de filas heterogneos: 3c-5b 8-6 = 2 18,5502 28,16 % Efectos de columnas heterogneos, dados efectos de columnas homogneos y efectos de filas heterogneos: 5b-5d 6-4 = 2 0,3611 0,55 % Otros efectos: 5d 4 9,3720 14,23 % Efectos totales: 1 12 65,8746 100 %
12-11 = 1
24,2406
36,80 %
Por otro lado, al objeto de cuantificar el porcentaje de la asociacin total existente entre las variables analizadas del que son responsables los diferentes parmetros del modelo, se puede construir una tabla de anlisis de asociacin similar a la propuesta por Goodman ( 1979 ) para el anlisis de tablas bidimensionales5 . Dicha
5
La tabla ANOAS ( ANalysis Of ASsociation ) de Goodman es una tabla que particiona el estadstico razn de verosimilitud del modelo seleccionado de forma similar a como se particiona la suma de cuadrados en una anlisis de la varianza bifactorial. Estas particiones, basadas en diferencias de
- 15 -
tabla de asociacin es la TABLA 4.4., en la que se puede observar que el efecto general explica el 36,80 % de la asociacin total existente entre las tres variables de la TABLA 4.1. Por su parte, los efectos de filas heterogneos son responsables del 19,09 % de la asociacin total, mientras que otro 28,16 % de la misma est causado por los efectos de columnas homogneos. Para finalizar nuestro anlisis, calcularemos las probabilidades condicionadas k ij para determinar en qu colectivos de consumidores financieros se estimadas p concentra la mayor probabilidad de eleccin de un banco o de una caja de ahorros. Estas probabilidades condicionadas sern funcin de las frecuencias esperadas estimadas y se calcularn mediante la siguiente expresin: k ij = p ijk m ij . m
La TABLA 4.5. muestra estas probabilidades, de forma que la inspeccin de los valores que recoge justifica los siguientes comentarios finales: a) La mayor probabilidad de ser cliente de un banco corresponde a los individuos menores de 28 aos que residen en municipios con ms de 75.000 habitantes ( 65,60 % ), mientras que los consumidores que superan los 60 aos y residen en ncleos rurales de la regin ( menos de 5.000 habitantes ) son los que o stentan la ms alta probabilidad de ser cliente de una caja de ahorros ( 72,70 % ).
TABLA 4.5. Probabilidades estimadas de ser cliente de un banco o de una caja de ahorros, condicionadas a las categoras i y j de las variables categricas ordinales Z y E Clientes de bancos: Menos de 28 aos 0,6560 0,6086 0,4855 Entre 28 y 40 aos 0,4489 0,5111 0,3164 Entre 41 y 60 aos 0,4428 0,6162 0,3415 Ms de 60 aos 0,3339 0,6144 0,2730
Zona urbana Zona intermedia Zona rural
Clientes de cajas de ahorros: Menos de 28 aos Zona urbana 0,3440 Zona intermedia 0,3914 Zona rural 0,5145
Fuente: elaboracin propia .
Entre 28 y 40 aos 0,5519 0,4889 0,6836
Entre 41 y 60 aos 0,5572 0,3838 0,6535
Ms de 60 aos 0,6661 0,3856 0,7270
verosimilitud, permiten cuantificar el porcentaje de la asociacin total que queda explicado por los efectos de los modelos de asociacin.
- 16 -
b) Cuanto ms elevada es la edad del consumidor, mayor es tambin, con carcter general, la probabilidad de ser cliente de una caja de ahorros, y menor, por tanto, la probabilidad de ser cliente de un banco. Esta circunstancia es muy evidente en la zona urbana ( donde los entrevistados pasan de tener una probabilidad de ser clientes de un banco de un 65,60 % cuando son menores de 28 aos a tan slo un 33,39 % cuando superan los 60 aos ) y en la zona rural ( donde la probabilidad se reduce de un 48,55 % para los individuos ms jvenes a un 27,30 % para los sujetos ms ancianos ). c) En lneas generales, es ms probable que un consumidor financiero sea cliente de una caja de ahorros, especialmente cuando el mismo reside en una zona rural y, en menor medida, cuando reside en las dos capitales de provincia ( que son los dos municipios de la regin que superan los 75.000 habitantes ). La situacin contraria se constata en los municipios de tamao medio, en los que, con la excepcin de los sujetos que tienen entre 28 y 40 aos, los consumidores financieros tan slo tienen una probabilidad de un 38 % de ser clientes de una caja de ahorros.
5. CONCLUSIONES. A la luz de todo lo expuesto, se pueden destacar las siguientes conclusiones finales: a) Cuando se analiza simultneamente la asociacin entre dos variables categricas en dos o ms grupos o poblaciones, es posible formular varios modelos de asociacin condicionada que postulan hiptesis relativas a la igualdad ( homogeneidad ) o diversidad ( heterogeneidad ) de los efectos de asociacin de las variables fila y columna en las poblaciones consideradas. b) La eleccin de entidad bancaria en Extremadura ( bancos o cajas de ahorros ) est condicionada tanto por la edad del individuo como por la zona en la que reside habitualmente. c) La mayor inclinacin por los bancos se produce entre los sujetos menores de 28 aos, mientras que los que superan los 60 aos evidencian una clara preferencia por las cajas de ahorros. d) Los ncleos rurales de la regin, es decir, aquellos municipios que no superan los 5.000 habitantes, son los que registran una mayor implantacin de cajas de ahorros. Sin embargo, en los municipios de mayor tamao ( hasta 75.000 habitantes ), el consumidor financiero se inclina mayoritariamente por los bancos. e) La estimacin de los parmetros del modelo de asociacin condicionada ms adecuado para los datos presentados en este trabajo permite afirmar que la probabilidad de ser cliente de un banco se estima en un 65 % cuando el individuo no supera los 28 aos y reside en ncleos poblacionales con ms de 75.000 habitantes, reducindose hasta un 27 % cuando el sujeto supera los 60 aos y vive en un ncleo rural de la regin.
- 17 -
f) A mayor edad del consumidor financiero extremeo, menor probabilidad de ser cliente de un banco.
6. BIBLIOGRAFA. AGRESTI, A. (1984): Analysis of Ordinal Categorical Data. Ed. John Wiley & sons. New York. CLOGG, C.C. (1982): Some models for the Analysis of Association in Multiway Cross-Classifications having ordered categories. En Journal of the American Statistical Association, vol. 77, n 380, pp.803-805. CLOGG, C.C. y SHIHADEH, E.S. (1994): Statistical models for ordinal variables. Advanced Quantitative Techniques in the Social Sciences Series, n 4. Sage Publications, Inc. Thousand Oaks, California. CORRAL, J.L. y otros (1996): Anlisis del comportamiento del consumidor de servicios financieros de Extremadura. Caja de Extremadura. Cceres. ELIASON, S.R. (1990): Categorical Data Analysis System, Version 3.50. Users manual. Departamento de Sociologa. Universidad de Iowa. GOODMAN, L.A. (1979): Simple models for the analysis of association in crossclassifications having ordered categories. En Journal of the American Statistical Association, vol. 74, n 367, pp. 537-552. GOODMAN, L.A. (1981): Association models and the bivariate normal for contingency tables with ordered categories. En Biometrika, n 68, pp. 347-355. GOODMAN, L.A. (1983): The analysis of dependence in cross-classifications having ordered categories, using log-linear models for frequencies and log-linear models for odds. En Biometrics, n 39, pp. 149-160. GOODMAN, L.A. (1984): The Analysis of Cross-Classified Data having ordered categories. Harvard University Press. Massachusetts. ISHII-KUNTZ, M. (1994): Ordinal Log-Linear Models. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-097. Thousand Oaks, CA: Sage Pubns. KNOKE, D. Y BURKE, P.J. (1980): Log-linear models. Beverly Hills, CA: Sage.
- 18 -
ANEXO 1 TABLA A.1. Clasificacin cruzada de las variables categricas T, E, N y Z NIVEL DE TIPO DE ENTIDAD ZONA ESTUDIOS EDAD Caja Banco Menos de 28 aos 0 0 Sin Entre 28 y 40 aos 1 0 estudios Entre 41 y 60 aos 4 1 Ms de 60 aos 10 2 Total 15 3 Menos de 28 aos 8 4 Estudios Entre 28 y 40 aos 3 2 primarios Entre 41 y 60 aos 24 13 Ms de 60 aos 10 10 Zona Total 45 29 Urbana Menos de 28 aos 4 8 Estudios Entre 28 y 40 aos 3 2 medios Entre 41 y 60 aos 7 7 Ms de 60 aos 1 1 Total 15 18 Menos de 28 aos 31 72 Estudios Entre 28 y 40 aos 18 13 universitarios Entre 41 y 60 aos 8 10 Ms de 60 aos 3 2 Total 60 97 Menos de 28 aos 1 0 Sin Entre 28 y 40 aos 1 2 estudios Entre 41 y 60 aos 9 10 Ms de 60 aos 17 27 Total 28 39 Menos de 28 aos 18 42 Estudios Entre 28 y 40 aos 30 33 primarios Entre 41 y 60 aos 26 58 Ms de 60 aos 19 21 Zona Total 93 154 intermedia Menos de 28 aos 22 23 Estudios Entre 28 y 40 aos 27 21 medios Entre 41 y 60 aos 7 15 Ms de 60 aos 3 7 Total 59 66 Menos de 28 aos 21 31 Estudios Entre 28 y 40 aos 14 18 universitarios Entre 41 y 60 aos 4 5 Ms de 60 aos 0 0 Total 39 54 Contina en la pgina siguiente ...
Total 0 1 5 12 18 12 5 37 20 74 12 5 14 2 33 103 31 18 5 157 1 3 19 44 67 60 63 84 40 247 45 48 22 10 125 52 32 9 0 93
- 19 -
Viene de la pgina anterior NIVEL DE ZONA ESTUDIOS Sin estudios
Estudios primarios Zona Rural Estudios medios
Estudios universitarios
EDAD Menos de 28 aos Entre 28 y 40 aos Entre 41 y 60 aos Ms de 60 aos Total Menos de 28 aos Entre 28 y 40 aos Entre 41 y 60 aos Ms de 60 aos Total Menos de 28 aos Entre 28 y 40 aos Entre 41 y 60 aos Ms de 60 aos Total Menos de 28 aos Entre 28 y 40 aos Entre 41 y 60 aos Ms de 60 aos Total
TIPO DE ENTIDAD Caja Banco 2 1 10 2 29 9 50 21 91 33 19 16 38 17 40 22 23 8 120 63 14 15 20 13 3 3 4 1 41 32 14 14 14 6 1 0 2 2 31 22
Total 3 12 38 71 124 35 55 62 31 183 29 33 6 5 73 28 20 1 4 53
Fuente: elaboracin propia a partir de los datos de Anlisis del comportamiento del consumidor de Servicios Financieros de Extremadura (1996).
OBSERVACIONES: a) El significado de las categoras de la variable zona ( Z ) es el siguiente: - Zona urbana: municipios extremeos con ms de 75.000 habitantes. - Zona intermedia: municipios extremeos con una poblacin comprendida entre los 5.000 y los 75.000 habitantes. - Zona rural: municipios extremeos con menos de 5.000 habitantes. b) El significado de las categoras de la variable nivel de estudios ( N ) es el siguiente: - Sin estudios: individuos sin certificado escolar. - Con estudios primarios: individuos con estudios completos de Educacin General Bsica ( con certificado escolar ) o de Formacin Profesional de primer grado. - Con estudios medios: individuos con estudios completos de Bachillerato o de Formacin Profesional de segundo grado. - Con estudios superiores: individuos con estudios completos de cualquier diplomatura o licenciatura universitaria.
- 20 -

25

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

25

Uploaded by

Copyright:

Available Formats

ANLISIS MULTIVARIANTE DE VARIABLES CATEGRICAS ORDINALES: APLICACIN AL ESTUDIO DE LA ELECCIN DE ENTIDAD BANCARIA (Cajas vs.

Modelo II: log ij = i . . j para i = 1,2,K , I 1 para j = 1,2, K, J 1 (2.7.)

Si i = i en el modelo II, se verificar que i +1 i = 1 i , con lo que la expresin (2.11.) quedara

reducida a log ij = j + 1 j , que es la expresin de un modelo de efectos de columnas. Si, por el

mijk = 13 (ik ) 23( jk ) ij( k ) ij ( k ) mijk = 13 (ik ) 23( jk ) e

Subcomando COND del programa CDAS versin 3.50.

..(k ) i .. i .(k ) . j. ..(k ) . j . . j ( k ) i .. . j . i .(k ) . j. i .. . j (k ) i .(k ) . j ( k )

Zona urbana Zona intermedia Zona rural

22,4315 9,6460 21,2327 9,3302

22,6155 9,7331 21,2990 9,3720

0,0039 0,1364 0,0007 0,0524

18,2533 12,9326 14,6231 11,6983

18,3538 12,8894 14,7228 11,8099

0,0187 0,0448 0,0116 0,0188

1 .(1 ) = 1.200492 1 .( 2 ) = 0.762776

2 .(1) = 0.822767 2 .( 2 ) = 1.127946

Zona urbana Zona intermedia Zona rural

Entre 28 y 40 aos 0,5519 0,4889 0,6836

Entre 41 y 60 aos 0,5572 0,3838 0,6535

Ms de 60 aos 0,6661 0,3856 0,7270

Total 0 1 5 12 18 12 5 37 20 74 12 5 14 2 33 103 31 18 5 157 1 3 19 44 67 60 63 84 40 247 45 48 22 10 125 52 32 9 0 93

Viene de la pgina anterior NIVEL DE ZONA ESTUDIOS Sin estudios

Estudios primarios Zona Rural Estudios medios

TIPO DE ENTIDAD Caja Banco 2 1 10 2 29 9 50 21 91 33 19 16 38 17 40 22 23 8 120 63 14 15 20 13 3 3 4 1 41 32 14 14 14 6 1 0 2 2 31 22

Total 3 12 38 71 124 35 55 62 31 183 29 33 6 5 73 28 20 1 4 53

You might also like