Professional Documents
Culture Documents
7
Solomon Fabricant
todo el mundo parece hoy coincidir en que la estadstica puede ser til para comprender, evaluar y controlar el funcionamiento de la sociedad
Cuando tratamos de buscar relaciones entre diversas variables, nos encontramos dentro del rea de la correlacin. Para expresar cuantitativamente el grado en que dos variables estn relacionadas, es necesario calcular un coeficiente de correlacin. Existen muchos tipos de coeficiente de correlacin. La decisin de cul se ha de emplear para un conjunto especfico de datos depende de factores tales como: (1) el tipo de escala de medida en que cada variable est expresada (nominal, ordinal, intervalo o razones); (2) la naturaleza de la distribucin (continua o discreta); (3) la caracterstica de la correlacin (lineal o no lineal). Aunque el anlisis de correlacin es interesante, las conclusiones pueden ser muy precipitadas. Primero que nada, el hecho de encontrar una fuerte asociacin entre dos variables, no implica que necesariamente dicha relacin sea de carcter causal. Dado que el anlisis de correlacin se utiliza mayormente en estudios donde no es posible manipular libremente la variable independiente, puede introducirse el efecto de terceras variables, siendo stas responsables de la correlacin observada. En segundo lugar, si no se examina la naturaleza de la relacin entre dos variables, podra aplicarse una tcnica propia para tendencias lineales a una de ndole curvilneo (no lineal) o viceversa. En ambos casos es posible que no se encuentre correlacin cuando realmente existe. Sea cual sea la tcnica de correlacin que se use, lo fundamental es que todas tienen ciertas caractersticas comunes:
198
1.
Los valores de los coeficientes de correlacin varan entre negativo uno (-1.00) y positivo uno (+1.00). Ambos extremos representan relaciones perfectas entre las variables, y 0.00 representa la ausencia de asociacin. Una relacin positiva o directa significa que los individuos que obtienen calificaciones altas en una variable tienden a obtener calificaciones altas en la otra, es decir, cuando X aumente, Y aumenta. La aseveracin contraria tambin es vlida; es decir, los individuos que obtienen calificacin baja en una variable tienden a obtener calificacin baja en la otra, es decir, cuando disminuye X, Y disminuye Una relacin negativa o inversa significa que los individuos que obtienen calificacin baja en una variable tienden a obtener calificacin alta en la segunda variable y viceversa. Es inversa cuando las variables se mueven en direcciones opuesta; esto es, cuando X aumente, Y se reduce o viceversa.
2.
. 3.
La relacin directa o inversa slo es posible en situaciones donde las escalas son ordinales, de intervalos o de razones y cuando la naturaleza de la relacin es lineal. Si las escalas son nominales, no hay gradacin numrica; por lo tanto, el coeficiente a obtenerse no puede interpretarse como indicando relacin directa o inversa. Ms an, los coeficientes que se obtienen para estas variables suelen ser siempre positivos (cero 0" hasta uno positivo +1"). Con miras a operacionalizar la interpretacin de los ndices de correlacin (Champion, 1981) se sugiere la siguiente clasificacin:
0.00 a .25 baja o ninguna correlacin 0.26 a .50 correlacin moderada baja 0.51 a .75 correlacin moderada alta 0.76 a 1.00 alta a perfecta correlacin
Con el propsito de introducir el tema sobre la correlacin y a tenor con el inters de seguir desarrollando todas aquellas tcnicas que estn asociadas a las variables cualitativas, introduciremos los siguientes coeficientes de correlacin: el coeficiente PHI y el coeficiente de V de Cramer.
El coeficiente de correlacin frecuentemente utilizado para determinar la intensidad de la asociacin es el coeficiente PHI. El coeficiente de correlacin de PHI el smbolo asignado es . El coeficiente flucta entre cero (0) y uno (1). Segn se acerca a cero (0), ms baja es la asociacin entre las variables. Las variables no estn afectadas o relacionadas entre si, estableciendo que las variables seran independientes. Si el coeficiente es igual a uno (1) lo que podemos sugerir es que las dos (2) variables estn relacionadas o asociadas, es decir, las variables son dependientes. La forma operacional del coeficiente de PHI (), puede desarrollarse bajo dos (2) circunstancias: 1. Si los totales de las lneas y columnas son iguales, (Snchez, 1992) el coeficiente se obtendra de la siguiente manera;
200
[ AD BC ] (A + C) (B + D) (C + D) (A + B)
2. Si los totales de las lneas y columnas no son iguales entonces ser necesario ajustar el coeficiente obtenido, siendo la frmula de la siguiente manera :
obtenido =
donde:
[ AD BC ] .5 (n) (A + C) (B + D) (C + D) (A + B)
= Coeficiente de correlacin de PHI AD = La multiplicacin del valor o frecuencia observada en la celda A por el valor o frecuencia observada en la celda D BC = La multiplicacin del valor o frecuencia observada en la celda B por el valor o frecuencia observada en la celda C. AD - BC = Valor absoluto de AD menos BC. El valor absoluto implica que si el resultado de la resta diera negativo se debe cambiar a positivo. A+B = La suma de los valores o frecuencias observadas de las celdas A y B. C+D = La suma de los valores o frecuencias observadas de las celdas C y D. A+C = La suma de los valores o frecuencias observadas de las celdas A y C. B+D = La suma de los valores o frecuencias observadas de las celdas B y D. n = Es el total de casos o frecuencias.
La ltima situacin ser elaborada en el texto porque usualmente los totales de las lneas y columnas de las variables dicotmicas organizadas en tablas de 2x2 son diferentes. Para lograr un anlisis completo de dicho coeficiente debemos completar tres (3) pasos: el coeficiente de PHI obtenido, el coeficiente de PHI mximo y el coeficiente de PHI corregido, siendo el ltimo paso donde se realiza el anlisis. Para poder comprender el coeficiente de correlacin de PHI analizaremos el siguiente caso. En el 1998, bajo el auspicio de la Vicepresidencia de Asuntos Estudiantiles de la Pontificia Universidad Catlica de Puerto Rico, Recinto de Ponce, se realiz un trabajo de campo titulado Estudio Descriptivo sobre las Caractersticas y Percepciones de los Estudiantes Subgraduados, PUCPR, Recinto de Ponce, PR, 1998 (Vera, 1998). Una de las preguntas realizadas en el estudio fue sobre el consumo de alcohol. La respuesta de la muestra de estudiantes subgraduado por gnero fue la siguiente: Alcohol Consumo No consumo TOTAL
3 casos no informaron
Supongamos que usted quisiera conocer si el consumo de alcohol entre los estudiantes universitarios subgraduado de la Pontificia Universidad Catlica de Puerto Rico, Recinto de Ponce, para el ao 1998, vara en funcin del gnero. Para el primer paso tendramos que buscar el coeficiente de obtenido
202
obtenido =
[ AD BC ] .5 (n) (A + C) (B + D) (C + D) (A + B)
obtenido =
obtenido =
obtenido =
obtenido =
obtenido =
obtenido = obtenido =
.23
Luego de conseguir el coeficiente de obtenido, obtener el coeficiente de mximo. La frmula de mximo sera:
Medidas de Correlacin
203
mximo =
[ AD BC ] .5 (n) (A + C) (B + D) (C + D) (A + B)
donde:
Es necesario reorganizar la tabla original con el propsito de obtener el valor mximo que podra alcanzar PHI (). El procedimiento para obtener el coeficiente de mximo sera de la siguiente forma:
Primer Paso: Eliminar los valores originales que se encuentran en las celdas A;
B; C y D. Se tiene que mantener los subtotales de las columnas y las lneas y no se debe alterar bajo ninguna circunstancia. Alcohol Consumo No consumo TOTAL Hombres (A) (C) 152 (A + C) Mujeres (B) (D) 322 (B + D) TOTAL 229 (A + B) 245 (C + D) 474 (n)
Segundo Paso: De las cuatros celdas hay que seleccionar una, utilizando las
siguientes estrategias. a. Comenzaremos con las columnas que estn representando las categoras de la variable gnero. La columna que representa la categora hombre est compuesta de las celdas (A) y (C). La columna que representa la categora mujer est compuesta de las celdas (B) y (D). En esta fase se eliminarn dos celdas. Las celdas que estn localizadas en la columna con el subtotal ms alto sern seleccionadas, mientras las celdas que estn localizadas en la columna con el subtotal ms bajo sern eliminadas. Observemos que la primera columna (hombres) tiene un total de 152 y la segunda columna (mujeres) tiene un total de 322. El subtotal mayor recae en la segunda columna (mujeres) con 322 casos. Esto significa que la celda (B) o la celda (D) han sido
204
seleccionadas, mientras que las celdas (A) y (C) sern eliminadas. No obstante, de las celdas seleccionadas ( B o D), una ser escogida y la otra ser eliminada. Alcohol Consumo No consumo TOTAL Hombres (A) (C) 152 (A + C) Mujeres (B) (D) 322 (B + D) TOTAL 229 (A + B) 245 (C + D) 474 (n)
Tercer Paso: Buscar que valor tendr la celda seleccionada. En dicha celda
se colocar el valor menor entre el subtotal mayor de columna vs. el subtotal mayor de lnea. Segn en el paso anterior se pudo determinar que la celda seleccionada era la (D).El subtotal mayor de la columna que corresponde a la categora mujeres fue de 322. El subtotal mayor de la lnea que corresponde a
Medidas de Correlacin
205
la categora no-consume fue de 245. De esos dos subtotales seleccionados el menor corresponde a la categora no-consume con 245. Est valor ser ubicado en la celda (D). Alcohol Consumo No consumo TOTAL Hombres (A) (C) 152 (A + C) Mujeres (B) 245 (D) 322 (B + D) TOTAL 229 (A + B) 245 (C + D) 474 (n)
206
maximo =
[ AD BC ] .5 (n) (A + C) (B + D) (C + D) (A + B)
maximo =
maximo =
maximo =
.71
Con el coeficiente de obtenido y el coeficiente de mximo podemos buscar el coeficiente corregido de . Dicho coeficiente se obtiene dividiendo el coeficiente obtenido con el coeficiente mximo, es decir: obtenido mximo
corregido =
Medidas de Correlacin
207
Teniendo los dos coeficientes necesarios para obtener el coeficiente corregido, el clculo sera de la siguiente forma y se sugiere que existe una correlacin moderada baja de .32 entre el consumo de alcohol y el gnero de los estudiantes universitarios subgraduados de la PUCPR, Recinto de Ponce, PR, para el ao 1998.
corregido =
corregido =
corregido =
208
Medidas de Correlacin
209
Ejercicio 7.1.1 Frecuencia de la opinin de estudiantes universitarios subgraduados si el alcohol debe estar disponible en las fiestas, Pontificia Universidad Catlica de Puerto Rico, Recinto de Ponce,1992
Hombre 71 61 132
210
Hombre
Mujer
132
281
413
[7.1.1.b] Favor de calcular el coeficiente de Phi mximo. Complete las celdas para poder elaborar el ejercicio.
Medidas de Correlacin
211
Ejercicio 7.1.2 Frecuencia sobre la percepcin de la pena de muerte como reductor de la criminalidad, estudiantes de criminologa por zona residencial, Puerto Rico, 1995.
Urbano 90 10 100
212
Urbano
Rural
TOTAL
[7.1.2.b] Favor de calcular el coeficiente de Phi mximo. Complete las celdas para poder elaborar el ejercicio.
Medidas de Correlacin
213
2 = n(k 1)
donde;
V = coeficiente de correlacin de Cramer = Chi cuadrado k = nmero de lneas o columnas; lo que sea menor De todos los nacimientos ocurridos en Puerto Rico para el ao 1993, unos 39,322 nacimientos ocurrieron en los hospitales pblicos y 25,622 nacimientos ocurridos en hospitales privados. Si usted como investigador quisiera saber si los nacimientos ocurridos en diversos sectores de servicios (pblicos o privados) de Puerto Rico para el ao 1993, est asociada a la escolaridad de la madre, podemos buscar el coeficiente de correlacin V de Cramer.
214
Escolaridad 0 - 11 12 + 13 TOTAL
Pblico
a
Privado
d
25,622
Para poder obtener el coeficiente de correlacin V de Cramer debemos obtener el chi cuadrado , siendo sta la frmula:
2 =
donde;
(o - e)2 e
o =
Frecuencia observada es el valor, cantidad o casos en cada una de las celdas. La o es un dato suministrado por la tabla. Por ejemplo, la o de la celda de las madres de 0 a 11 aos de escolaridad que tuvieron sus hijos en hospitales pblicos fue de 19,260 casos. Frecuencia esperada es un valor que se calcular en cada celda que tenga una o. Para obtener la e es meritorio reconocer que cada celda esta localizada en una columna que tiene un subtotal y en una lnea que tiene un subtotal. Por consiguiente, se multiplica el subtotal de columna por el subtotal de lnea que le corresponda a la celda de inters. Obtenido el resultada el mismo se divide por N. La frmula puede ser presentada de la siguiente manera:
e =
e =
Medidas de Correlacin
215
Notemos que sin contar las celdas de los subtotales, existen seis (6) celdas con sus respectivas frecuencia observada (o). Para cada o se debe buscar la frecuencia esperada (e). Por ejemplo, en la celda (a) con una o de 19,260 se puede obtener la e de la siguiente forma: multiplicando el subtotal de la columna que corresponde a la celda a (39,322) por el subtotal de la lnea que le corresponde a la celda a (21,097); dividido por el total del universo (N= 64,944), es decir: e = (subtotal de columna) (subtotal de lnea) N
e a = (39,322)(21,097)
64,944 e a = 12,773.72
Para efectos prcticos se recomienda que al lado de la o se coloque la e: Escolaridad 0 - 11 12 +13 TOTAL
a
216
Luego de obtener la e para cada celda podemos realizar el siguiente clculo por celda para obtener el Chi-cuadrado :
(o e) e celda d = ( 1,837 - 8,323.28 ) 8,323.28 = 5,054.72 celda e = ( 5,516 - 7,062.38 ) 7,062.38 = 338.60 celda f = ( 18,269 - 10,236.33 ) 10,236.33 = 6,303.41
celda a = ( 19,260 - 12,773.72 ) 12,773.72 = 3,293.62 celda b = ( 12,385 - 10,838.62 ) 10,838.62 = 220.63 celda c = ( 7,677 - 15,709.67 ) 15,709.67 = 4,107.27
Obtenido
el
podemos
buscar
el
V= V=
coeficiente de correlacin de V de Cramer. La correlacin de V de Cramer fue .55 y podemos sugerir que existe una correlacin moderada alta entre los nacimientos ocurridos en diversos sectores de servicios (pblico o privado) de Puerto Rico para el ao 1993 y la escolaridad de la madre.
V= V=
Medidas de Correlacin
217
Ejercicios de V de Cramer
Favor de identificar las hojas de ejercicios y elaborar todos los problemas segn lo establecido en el texto. Desprenda las hojas de ejercicios y entrguelas al profesor, SI FUESE NECESARIO.
Ejercicio 7.2.1 Segn la data del Departamento de Salud de Puerto Rico para el ao 1990 podemos observar los nacimientos ocurridos por la escolaridad de la madre y el tipo de hospital usado. Favor de calcular y analizar la correlacin de V de Cramer.
Escolaridad 0 - 11 12 + 13 TOTAL
Pblico
a b c
Privado
d e f
40,770
25,491
218
Ejercicio 7.2.2 Segn la data del Departamento de Salud de Puerto Rico para el ao 1987 podemos observar los nacimientos ocurridos por la escolaridad de la madre y el tipo de hospital usado. Favor de calcular y analizar la correlacin de V de Cramer.
Escolaridad 0 - 11 12 + 13 TOTAL
Pblico
a b c
Privado
d e f
41,703
22,369
Medidas de Correlacin
219
[7.3] Frmulas
Coeficiente de Phi = [ AD BC ] .5 (n) (A + C)(B + D)(C + D)(A + B)
2 =
Frecuencia esperada
e =
(Subtotal de columna) N
(Subtotal de lnea)
220
(a) Preg. Gnero Hombre Mujer Si No TOTAL (b) Preg. Zona residencial TOTAL Urbano Si No TOTAL 70 42 112 Rural 8 80 88 78 122 200 60 15 75 15 110 125 75 125 200 TOTAL
[7.4.2] Se le pregunt a un grupo de estudiantes del rea de ciencias sociales de la Universidad Pitirre para el ao 2001 sobre la necesidad del estado benefactor. Favor de desarrollar y analizar el Coeficiente de correlacin de V de Cramer.
Pregunta Si No
C. Pol. 10 20 30
TOTAL 150