You are on page 1of 10
ESTADISTICA BIVARIADA INTRODUCCION En el campo de la estadistica hay muchos problemas que requieren un andlisis combinado de dos variables. En administracién, en educacién y en muchas otras materias, a menudo es necesario contestar proguntas como las siguientes: “,Est4n relacionadas ostas dos variables? En caso afirmativo, {de qué manera? {Existe una correlacién entre las variables?” Las relaciones bajo analisis no son de causa efecto, sino de las de tipo matematico que permiten predecir el comportamiento de una variable con base en el conocimiento que se tiene sobre la otra. Considere los siguientes ejemplos: — A medida que una persona crece, por lo general aumenta de peso. Alguien podria preguntar:”; Existe alguna relacién entre la estatura y el peso?” — Los médicos que se dedican a la investigacién prueban farmacos nuevos (y obsoletos también) al prescribir dosis diferentes y observar las respuestas de sus pacientes. Una pregunta que podria plantearse es: *{La dosis del medicamento prescrito determina la Cantidad de tiempo de recuperacién gue necesita ol paciento?” — La orientadora vocacional de una universidad desea predecir el éxito académico que tendran en la universidad los egresados de su escuela. En casos como éste, el valor predicho (nota promedio de las calfficaciones en la universidad) depende de muchos Tasgos de los estudios: 1° cuan aceptable fue su desempeno en la universidad, 2° su inteligencia y habilidades, 3°su deseo por tener éxito en la universidad, eto. Para contestar las preguntas anteriores, se requiere del analisis de datos bivariados 0 de dos Variables, es decir, .dada cierta poblacion y dos variables asociadas a esa poblacién, se requiere estudiar las posibles relaciones que existen entre elias. Ejemplo: La siguiente informacién representa una tabla de doble entrada, con variables; X = Edad. Y = Suoldo (on miles de §) EDAD SUELDO (en miles de $) 400-200 | 200-300 | 300-400 | 400-500 ny MC; 20-30 6 12 3 8 29 25 30-40 2 7 4 10 23 35 40-50 0 1 2 5 8 45 nj 8 20 9 23 N=00 Mc, 150 250 350 450 Observacion: Las trecuencias para cada una de las variables en forma independiente 1, y nn, $e llaman *Frecuencias Marginales”. Las frecuencias marginales, asi como las marcas de clase (para variables continuas), s puede escribir de la siguiente manera: Frecuencia M arginal de la variable xn; = fy Marca de Clase de la variable x: MC, = MC, Frecuencia M arginal de la variable yin; Marea de Clase de la variable y: MC; =MCy Interpretaci6n de la tabla de doble entrada. Interprete: n,m... my YN n, = 6 personas con edad entre 20 y 30 afos cuyo sueldo esta entre $100.000 y $200.000. 1n,,= 4 personas con edad entre 30 y 40 afos cuyo sueldo esta entre $300.000 y $400.00. nn, = 8 patsonas cuyo sueldo esta entre $100.00 y $200,000 n, = 8 porsonas con edad entro 40 y 50 anos. N = 60 personas (la tabla de doble entrada tiene una poblacion de 60 personas) PROMEDIOS DE LAS VARIABLES. EMC on, 25-29+35-23 = 18905) N 60 60 Interpretacion: la edad promecio de las personas es de 31,5 ahos. IMC .-n J y 150-8+250-20+350-9+450-23 19.700 _ N 60, 60 328,33 Interpretacion: el suekio promedio de las personas es de $328,333. PROMEDIOS CONDICIONALES. Es el promedio de una de las variables, s6lo para aquellos elementos de la poblacién que cumplan cierta condicién para la otra variable. Podemos estar interesados en determinar el promedio de una de las variables, sdlo para aquellos elementos de la poblacién que cumplen cierta condicién para la otra variable. Consideremos el ejemplo anterior, para calcular los siguientes promedios condicionales: a) La edad promadio de las personas que tienen un suoldo igual o mayor a $200.000. MC, n, MC; -n, 25 23 575 35 2t 735 45 8 360 TOTAL 52 1.670 1.670 2.1 52 Interpretaci6n: la edad promacio de las personas que tienen un sueldo igual 0 mayor a $200.000 es de 32,1 afios. b) El sueldo promedio de las personas que tienen entre 30 y 40 aos. Mc, n, MC ion, 150 2 300 250 7 1.750 350 4 1.400 450 10 4.500 TOTAL 23 7.950 Interpretaci6n: las personas que tienen entre 30 y 40 afios de edad tienen un sueldo promedio de $345.652 c) El sueldo promedio de las personas que tienen menos de 40 afios MC, nj MC, nj 150 8 1.200 250 19 4.750 350 7 2.450 450 18 8.100 TOTAL b2 16.500 16.500 _ 317,308 c Interpretaci6n: las personas que tienen menos de 40 afios de edad tienen un sueldo promedio de $317.308 PROBLEMA PROPUESTO. La siguiente tabla muestra las utilidades (en millones de $) y el numero de trabajadores de un grupo de empresas de la region metropolitana. Consideremos para ol problema: X = Utilidades (en millones de $). Y¥ = N°do trabajadores UTILIDADES N° DE TRABAJADORES (en millones de $) 0-100 100-200 | 200-300 0-6 10 1 5 6-12 0 10 0 12-18 4 4 1 18-24 1 3 12 a) Determine el numero de empresas estudiadas. b) {Cual es promedio de trabajadores del grupo de empresas? c) {Cual es la utilidad promedio de las empresas? d) ;Cual es el promedio de trabajadores de las empresas con utilidades menores de $12.000.000? ©) {Cual es /a utilidad promedio do las empresas que tienen mas de 100 trabajadoros? Soluciones: a) 51 empresas. b) El promedio de trabajadoros os do aprox. 156 trabajadoros. ©) Lautilidad promedio es de aprox. $11.941.118. d) EI ntimero de trabajadores promedio que tienen las empresas con utlidades menores de $12.000.000 es de aprox. 131 trabajadores. e) Las empresas que tienen mas de 100 trabajadores tienen utilidades promedio de aprox. $13,833,333. MEDIDAS DE CORRELACION La Correlacién es una técnica estadistica usada para determinar si existe una relacién entre dos o mas variables. Algunas medidas de Correlacién gue estudiaremos, son: 1° Covarianza(S) xy La covarianza entre dos variables es una medida estadistica para valorar la relacién entre estas variables. MC,-MC .-n, = ey Formula: XY-X-¥ ; Donde XY Qbservaciones: © Lacovarianza pertenoce a los nUmeros reales. * SiS, > 0= La rolacién ontro fa variablo x @ y es DIRECTA, os decir, si una do las variables aumenta la otra también o si una de ellas disminuye la otra también. Si S,, <0= La felacion entre la variable x e y es INVERSA, es dectr, si una de las variables aumenta la otra disminuye o si una de ellas disminuye la otra aumenta. # SiS, =0= No existe relacién entre la variable xe y. Ejemplo: Una empresa desea estudiar la relacién entre la edad de sus trabajadores y los dias no trabajados Consideremos para el problema: Edad Y= N&de dias no trabajados. EDAD N° DIAS NO TRABAJADORES 0-6 6-12 | 12-18 ni; MC; 20-25 0/0 4/810 | 1/ 3975 5 22,5 25-30 | 12/990 | 6/1485 | 0/0 18 25 30-40 | 3/315 | 4/1200 | 6/ 3.150 13 35 4o-50 | 1/135 | 2/810 | 8/ 5.400 11 45 nj 16 16 15 N=4T MC; 3 9 15 a) Cul es la edad promedio de trabajadores con menos de 12 dias no trabajados? b) Calcule e interprete la covarianza (‘,..) c) ZQué es mas variable, la edad o los dias no trabajados? SOLUCION: a) ¢Cual es la edad promedio de trabajadores con menos de 12 dias no trabajados? MC. i n MC a 22,5 4 90 27.8 18 495 35 7 245 45 3 135 TOTAL 32 965 Interpretacion: la edad promedio de los trabajadores con menos de 12 dias trabajados es de aprox. 30 afios. b) Calcule e interprete la covarianza (5). ) +27.5:18 47 47 == 33.138 316491641515 _ 417 _ gy 47 47 — = 315.606 S.=XY-X-Y = 5), = 315,606 ~ 33.138: 8,872 S = 21,6>0 Interpretacién: Ia relacién entre la edad y los dias no trabajados de los trabajadores de la empresa es directa, es decir, a mayor edad, mayor nimero de dias no trabajados. ¢) Qué es mas variable, la edad o los dias no trabajados? MC, 0, MC,-n, MC?-n, 22,5 5 1125 2.531,25 275 18 495 13.6125 35 13 455 15.925 45 4 495 22.275 TOTAL 47 1.557,5 54.343,75 MC, n. MC ;-n, MC2-n. ii i i 3 16 48 144 9 16 144 1.296 15 15 225 3.375 TOTAL a7 a7 4.815 815 (417) \ 23,728 a7 (a7) Sy 4871 » 100% = 487" a0% = 54.9% ¥ 3872 Interpretacién: es més variable el n&mero de dias no trabajados que la edad de los trabajadores, debido a que tiene un mayor coeficiente de variacién. 2° Coeficiente de Correlacién ( r,.) En una distribuci6n bidimensional (bivariada) puede ocurrir que las dos variables tengan alguin tipo de relacién entre si. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relacién entre ambas variables: mientras més alto sea el alumno, mayor sera su peso. El Coeficiente de Correlacion mide el grado de intensidad de esta posible relacion entre las Variables. Este coeficiente se aplica cuando la relacién que puede existir entre las vatiables es lineal (es decir, si representamos en un grafico los pares de valores de las dos variables la nube de puntos se aproximaria a una recta), No obstante, puede que exista una relacién que no sea lineal, sino exponencial, parabilica, etc. En estos casos, el coeficiente de correlacién lineal mediria mal la intensidad de la relacién de las variables, por lo que convendria utilizar otro tipo de coeficiente mas apropiado. Formula: Qbservaciones: ® Elcoeficiente de correlacion pertenece al intervalo: -1< 1, <1 * Si 7,, =1= La relaci6n ente la variable x e y es LINEAL CON PENDIENTE POSITIVA, es decir, la nube de puntos puede aproximarse por una linea recta con pendiente positiva (una recta creciente). Por ejemplo, altura y peso: los alumnos mas altos suelen pesar mas © Sir, =-1=> La relacién entre la variable x @ y es LINEAL CON PENDIENTE NEGATIVA, es decir, la nube de puntos puede aproximarse por una linea recta con pendiento negativa (una recta decrecionte). Por ejemplo, peso y velocidad: los alumnos mas gordos suslen correr menos. © Si 7, =0= No existe relacién lineal entre la variable x e y. Aunque podiia r xr existir otro tipo de correlacién (parabdlica, exponencial, ete.) Las graticas de los casos mencionados anteriormente se verdn en clases. Elemplo: La siguiente tabla muestra el numero de trabajadores y las utilidades (en millones de §) de un grupo de 56 empresas. Consideremos para el problema: X = N°de trabajadores Y = Utilidades (en millones de $) NDE (en milones de 8) TRABAJADORES: 1-4 4-8 8-12 ny MC, 0-100 12/ 1.500 | 6/ 1.800 oo 18 50 100 - 200 6/ 2.250 | 3/2700 | 1/ 1.500 10 150 200 - 300 4/2500 | 5/ 7.500 | 3/ 7.500 12 250 300 - 400 oro 6/ 12.600 | 10/ 35.000 16 350 nj 22 20 14 N=50 MC, 25 6 10 Calcule e interprete el coeficiente de correlaci6n (ry } SOLUCION: IMC.-n. 50-18 +150-10+ 250-12+ 350-16 _ 11.000 _ 56 56 196,428 >s| 315 2,5.22+6-20+10-14 56 74.850 = 1.336,607 56,607 — 196,428 5,625 23,6995 xy (la covarianza indica que existe relacion directa entre el n° de trabajadores y las utilidades de las empresas, es decir, a mayor n° de trabajadores, mayor utlidades) Por |o tanto la covarianza, es: 980.000 56 14,630,102 ay r ws xy Interpretacién: el coeficiente de correlacion nos indica que existe relacion lineal entre el n° de trabajadores y las utilidades, con pendiente positiva (la proyeccién es regular, como veremos en la siguiente gula que explica el modelo de regresién lineal)

You might also like