0$(675Ë$ (1 &,(1&,$6 62&,$/(6 < +80$1,'$'(6

3URIHVRU María Eugenia Angel &ODVH 1ž   GH MXQLR GH 

(67$'Ë67,&$
Ã

&RQWHQLGRV: $QiOLVLV GH &RUUHODFLyQ \ GH 5HJUHVLyQ 

$QiOLVLV GH &RUUHODFLyQ

El análisis de correlación se utiliza para medir el grado de asociación lineal entre dos variables

aleatorias cuantitativas a través de un coeficiente, “el coeficiente de correlación U ó U ´, entendiendo por asociación a la covariación entre las dos variables dividida por el desvío de cada una de ellas. Si YDULDEOHV LQWHUYLQLHQWHV \ GH ODV TXH VH TXLHUH VDEHU VX JUDGR GH DVRFLDFLyQ VRQ FXDQWLWDWLYDV. (O FRHILFLHQWH GH FRUUHODFLyQ ³U´ YDUtD GH ± D  \ PLGH HO VHQWLGR \ OD IXHU]D GH DVRFLDFLyQ OLQHDO HQWUH GRV YDULDEOHV HQ IRUPD VLPpWULFD Mide HO VHQWLGR de la asociación porque: bien hay múltiples coeficientes de correlación veremos sólo el de Pearson TXH VH XWLOL]D FXDQGR ODV

Si su signo HV SRVLWLYR VLJQLILFD TXH ODV YDULDEOHV HVWiQ GLUHFWDPHQWH UHODFLRQDGDV. Cuando los valores de una aumentan los valores de la otra también; lo mismo cuando disminuyen. Si su signo HV QHJDWLYR VLJQLILFD TXH HVWiQ LQYHUVDPHQWH UHODFLRQDGDV. Cuando los valores de una variable aumentan los de la otra disminuyen; y viceversa. Mide OD IXHU]D de la asociación porque cuanto más se acerca su valor a –1 ó a +1 más fuerte será la asociación, y cuanto más cerca esté de 0 más débil será la asociación. La fuerza de asociación la da el valor absoluto del coeficiente, un valor de –0.85 es tan importante como otro de +0.85, igual fuerza con distinto sentido.2
1 2

U en el caso de obtenerse de una muestra ó U (ro, letra del alfabeto griego) en el caso de obtenerse de una población. Algunos textos utilizan como escala la fuerza de asociación lo siguiente: 0: asociación nula, de 0,1 a 0,9: despreciable, de 0,10 a 0,29: baja, de 0,3 a 0,49: moderada, de 0,5 a 0,69: fuerte, de 0,7 a 0,99: muy fuerte y 1: asociación perfecta

0DUtD (XJHQLD $QJHO
à 

Ã

(GDG 3URPHGLR                                           Ã Ã !Ã "Ã #Ã $Ã %Ã &Ã 'Ã (Ã Ã Ã !Ã "Ã #Ã $Ã %Ã &Ã 'Ã (Ã !Ã ! Ã Calculamos el coeficiente de correlación:  Utilizando las funciones de excel se elige COEF.CORREL y se obtiene el valor: U  .'$'(6 Es VLPpWULFD porque la asociación que existe entre las variables D y E es la misma que entre las variables E y D.  U  para edad con promedio Observamos que el valor obtenido por cualquiera de los dos caminos es el mismo.(1&.$6 62&.DE. donde: U  para edad con edad y promedio con promedio y. pueden hacerlo por el que quieran. (VWH YDORU  LQGLFD TXH H[LVWH FLHUWR JUDGR GH DVRFLDFLyQ OLQHDO LQYHUVD SXHV HO VLJQR HV QHJDWLYR.0$(675Ë$ (1 &.Utilizando de herramientas el análisis de datos se elige Coeficiente de correlación y se obtiene la tabla: (GDG 3URPHGLR   (GDG 3URPHGLR En la tabla se nota la VLPHWUtD.$/(6 < +80$1. Analizaremos si existe relación lineal entre ambas variables.&$ Ã (MHPSOR Los siguientes datos se refieren a la edad y al promedio de calificaciones obtenidos por una muestra de 21 estudiantes. $ PD\RU YDORU DEVROXWR GHO FRHILFLHQWH GH FRUUHODFLyQ PD\RU VHUi HO JUDGR GH DVRFLDFLyQ OLQHDO HQWUH ODV YDULDEOHV HVWXGLDGDV (67$'Ë67.

HQWUH ODV YDULDEOHV 0DUtD (XJHQLD $QJHO Ã  Ã .

Estas estimaciones se realizan sobre una variable dependiente a partir del cambio que se observa en una o varias variables independientes. que como dice su nombre DE[ a x 'RQGH: \ es la variable dependiente.$/(6 < +80$1.(1&.'$'(6  (67$'Ë67.0$(675Ë$ (1 &. y E es la pendiente (inclinación de la recta). Utilizando los datos del HMHPSOR voy a graficar el GLDJUDPD GH GLVSHUVLyQ R 6FDWWHUJUDP  " 3 En el asistente para gráficos de excel se elige XY (Dispersión)  Ã 0DUtD (XJHQLD $QJHO Ã . la regresión lineal se utiliza principalmente SDUD HVWLPDU.&$ Ã 5HJUHVLyQ /LQHDO Así como el coeficiente de correlación se utiliza para medir el grado de asociación lineal entre un par de variables. D es la ordenada al origen (donde la recta corta al eje y).$6 62&. [ es la variable independiente. Así como la correlación permite medir la fuerza y sentido de una relación lineal entre dos variables. OD UHJUHVLyQ SHUPLWH JUDILFDU HVWD UHODFLyQ OLQHDO \ HVWLPDU YDORUHV GH OD YDULDEOH GHSHQGLHQWH D SDUWLU GH FDPELRV HQ ODV YDULDEOHV LQGHSHQGLHQWHV GHQWUR GH VX UDQJR tiene la forma de la ecuación de la recta: \ y DE[ \ A partir del análisis de regresión lineal se obtiene una recta de regresión.

se apoya en el método de mínimos cuadrados. 2.Todos los errores (referidos a la misma x) tienen la misma varianza.$/(6 < +80$1.$6 62&.Todos los errores (referidos a la misma x) tienen esperanza cero. La mejor recta de regresión es aquella donde la suma de todos los residuos es mínima.0 10 11 12 13 Why‚…Âi†r…‰hq‚à Why‚…Ãr†‡v€hq‚à (GDG 14 15 16 17 18 La recta de regresión es aquella recta que mejor se ajusta a los datos.0 8. 4 En excel clicleamos con el botón derecho del mause en los puntos del diagrama (se iluminan todos) y elegimos de la leyenda “Agregar línea de tendencia” al aceptar.0 1.0 6. es la que va a pasar más cerca de todos los puntos del diagrama de dispersión. La distancia que hay entre un punto (valor observado o real) y la recta (valor estimado) se llama residuo o error5.0 2.'$'(6 (67$'Ë67.0 6.0 5.0 4.0$(675Ë$ (1 &.0 0.0 4.0 0.&$ à 'LDJUDPD GH 'LVSHUVLyQ (Q OD QXEH GH SXQWRV VH REVHUYD OD WHQGHQFLD GHFUHFLHQWH WDO FRPR IXHUD LQGLFDGD SRU ³U´ 10.0 Sr†vqˆ‚ 3URPHGLR 7.0 10 11 12 13 14 15 16 17 18  'DWRV REVHUYDGRV (GDG Completamos el gráfico con la UHFWD GH UHJUHVLyQ  # 'LDJUDPD GH 'LVSHUVLyQ 10. en el cuadro de tipo elegimos lineal. 5 Los supuestos más importantes para el análisis de regresión son: 1. 0DUtD (XJHQLD $QJHO à  à .0 2.0 9.(1&.0 3.0 3URPHGLR 8.

(FXDFLyQ GH OD UHFWD GH UHJUHVLyQ Para hallar la HFXDFLyQ VH OD UHFWD.Los errores son independientes entre sí.0 5. 0DUtD (XJHQLD $QJHO Ã  Ã . luego la condición es que la suma de los residuos al cuadrado sea mínima6.Los errores tienen distribución normal.0 9.0 4. 6 ∑ (residuos)2= mínima. Por eso se llama método de mínimos cuadrados.'$'(6 (67$'Ë67.479 y La pendiente es negativa dado que la recta es decreciente porque la relación es inversa.0 3.&$ Ã pero para que los valores positivos (de arriba de la recta) no anulen los valores negativos (de debajo de la recta) se elevan al cuadrado los residuos.0 6. [   donde la ordenada al origen D vale 14.0 10 11 12 13 \ [   5  3URPHGLR (GDG 14 15 16 17 18 Entonces la ecuación de la recta es: \ la pendiente E es -0.0 2. 4.0 0.$6 62&.(1&. la pendiente tiene siempre el mismo signo que el coeficiente de correlación. 3.6554.0 8.0$(675Ë$ (1 &. cuando se grafica la línea de tendencia con el excel se tilda en opciones “presentar ecuación en el gráfico” y “presentar el valor R cuadrado en el gráfico” obteniéndose el siguiente gráfico 'LDJUDPD GH 'LVSHUVLyQ 10.0 1.$/(6 < +80$1.0 7.

lo conveniente en este caso es tomar otra muestra en lo posible de mayor tamaño y volver a hacer el análisis.$/(6 < +80$1.4% la variación del promedio en función de la edad de los alumnos (bastante poco) A mayor coeficiente de determinación mejor será el ajuste del modelo lineal. En el ejemplo este coeficiente es  esto indica que el modelo de regresión explica en un 29. Indica la bondad de ajuste de la recta de regresión y se lo expresa como porcentaje.96 puntos.(1&. Los datos obtenidos no nos permiten asegurar que el promedio de calificaciones disminuye a medida que aumenta la edad de los alumnos. 0DUtD (XJHQLD $QJHO Ã  Ã . (     ) Podríamos estimar de igual modo el promedio para un chico de 18 años (no nos alejamos mucho del valor máximo de la variable que es 17) pero no sería conveniente estimar el promedio de un chico de 20 años ni de uno de 9 años.$6 62&.0$(675Ë$ (1 &.'$'(6 (67$'Ë67. Si todos los valores observados estuvieran sobre la recta este coeficiente sería del 100% 2EVHUYDFLyQ En el ejemplo que estudiamos obtuvimos un coeficiente de correlación lineal entre las variables no muy alto  que indica que existe cierto grado de asociación lineal inversa entre ellas. lo mismo pudo observarse en el diagrama de dispersión y en la ecuación de la recta ya que la pendiente es negativa  sin embargo el modelo lineal ajusta sólo en un  la relación entre las variables. &RHILFLHQWH GH GHWHUPLQDFLyQ El valor 5 regresión. ! !  que aparece junto a la ecuación de la recta es muy importante en el análisis de 5 VH GHQRPLQD FRHILFLHQWH GH GHWHUPLQDFLyQ (es el valor de r elevado al cuadrado).&$ Ã Esta recta permite estimar valores de promedio en función de la edad siempre y cuando nos mantengamos dentro del rango de edades estudiado porque no se sabe si el modelo o la tendencia se conserva si nos alejamos mucho del mismo Por ejemplo: el promedio estimado para un chico de 13 años es de 5.

479 R2 = 0.&$ à 2WUR WUDWDPLHQWR SDUD HO HMHPSOR Para analizar el ejemplo pueden utilizar directamente “Regresión” de “Análisis de datos” de las herramientas de excel y les va a aparecer.294 10 11 12 13 Pronóstico Promedio de calificaciones Lineal (Promedio de calificaciones) 14 (GDG 15 16 17 18 Promedio de calificaciones P…qrhqhÃhy…vtrÃ qrÃyhÅrp‡hà . los siguiente: 5HVXPHQ (VWDGtVWLFDV GH OD UHJUHVLyQ &RHILFLHQWH GH FRUUHODFLyQ P~OWLSOH   &RHILFLHQWH GH GHWHUPLQDFLyQ 5A 5A DMXVWDGR   (UURU WtSLFR 2EVHUYDFLRQHV  Why‚…Ãhi†‚yˆ‡‚ÃqryÃp‚rsvpvr‡rÅà 8‚rsvpvr‡rÃqrÃqr‡r…€vhpvyÃS !à Trȇyv“hÆyy‚Ãpˆhq‚Ãuh’Ài†Ãqrȁhà ‰h…vhiyrÃvqrƒrqvr‡rà 10 9 8 7 6 5 4 ‚ v q 3 r € 2 ‚ … 1 Q 0 † r  ‚ v p h p v s v y h p à r q à (GDG &XUYD GH UHJUHVLyQ DMXVWDGD y = -0.QWHUFHSFLyQ (GDG &RHILFLHQWHV (UURU WtSLFR     (VWDGtVWLFR W 3UREDELOLGDG     QÉhy‚…r†Ã Qrqvr‡rÃqrÃyhÅrp‡hà Las hipótesis sobre los parámetros poblacionales pendiente y ordenada de la recta siempre son: /D +LSyWHVLV QXOD +R.6554x + 14.$6 62&. entre otras cosas.'$'(6  (67$'Ë67.0$(675Ë$ (1 &.(1&.$/(6 < +80$1.

HV TXH ORV SDUiPHWURV VRQ FHUR /D +LSyWHVLV DOWHUQDWLYD +.

GH TXH VRQ GLVWLQWR GH FHUR. 0DUtD (XJHQLD $QJHO Ã  Ã .

01 se acepta Ho).valor de la pendiente  si bien es menor a 0. duda que confirma lo expuesto en la observación. Si la pendiente es cero no hay asociación. nos dan el resultado de realizar la prueba de hipótesis.               <               8WLOL]DQGR ([FHO 0DUtD (XJHQLD $QJHO Ã  Ã .  2WUR HMHPSOR  Se tiene la siguiente tabla que relaciona las variables x e y .05) lo que permite rechazar la Ho. Si la pendiente es cero quiere decir que entre la variable independiente dependiente no hay y la variable ningún tipo de relación.$6 62&. quiere decir que la recta pasa por el origen.(1&.&$ Ã El estadístico de prueba para ambos casos es una distribución T de Student ¿Qué pasa si la ordenada ó la pendiente son cero? • • Si la ordenada es cero. el p. En este caso.'$'(6 (67$'Ë67.$/(6 < +80$1. No nos genera problema. Sin embargo el p. (Gráficamente la recta es paralela al eje X. es decir que la ordenada es distinta de cero.05 podría hacernos dudar (si tomamos un nivel de significación de 0.) Las columnas estadístico t y probabilidad.0$(675Ë$ (1 &.valor de la ordenada  es muy chico (bastante menor a 0.

27445731 3 (VWDGtVWLFR W 4.QWHUFHSFLyQ 9DULDEOH .'$'(6 Al ingresar en +HUUDPLHQWDV y luego $QiOLVLV GH GDWRV y seleccionar 5HJUHVLyQ.74736973 1.&$ à < 8 6 4 2 0 0 1 2 3 Wh…vhiyrÃYà Y 4 Pronóstico para 5 6Y Lineal (Y) Lineal (Y) 7DEOD  5HVXPHQ (VWDGtVWLFDV GH OD UHJUHVLyQ &RHILFLHQWH GH FRUUHODFLyQ P~OWLSOH &RHILFLHQWH GH GHWHUPLQDFLyQ 5A 5A DMXVWDGR (UURU WtSLFR 2EVHUYDFLRQHV Tabla 2 .3454x + 4.06973134 6.0$(675Ë$ (1 &.(1&.36883817 4.1289 (67$'Ë67.90189468      4 3UREDELOLGDG .QIHULRU  6XSHULRU  0.00036478 0. aparece la siguiente información: 14 12 10 y = 1.$6 62&.  1 &RHILFLHQWHV   (UURU WtSLFR 0.94335192 Al ingresar en +HUUDPLHQWDV y luego $QiOLVLV GH GDWRV y seleccionar &RHILFLHQWH GH FRUUHODFLyQ.94507185 0.18800062 0.00091405 2. aparece: Tabla 3 Columna 1 Columna 2 &ROXPQD  &ROXPQD  1  1 ¢&yPR VH LQWHUSUHWD WRGD OD LQIRUPDFLyQ EULQGDGD" 0DUtD (XJHQLD $QJHO à  à .$/(6 < +80$1.

34 unidades. +DVWD OD SUy[LPD FODVH 0DUtD (XJHQLD 0DUtD (XJHQLD $QJHO Ã  Ã .'$'(6 D Las variables x e y están correlacionadas linealmente. varía en 1.12. la variable y G Observando las columnas 3 y 4 de la segunda tabla se puede afirmar que la pendiente y la H Se puede estimar valores de y para distintos valores de x que no se alejen demasiado del rango por ejemplo puede interesarnos saber cuál será el valor de y si la x vale 6. 6 + 4. Bueno. Reemplazando en la recta se tiene: y = 1. ordenada al origen de la recta son distintas de cero (ambos p valores son muy pequeños).&$ Ã F Observando la columna 1 de la tabla 2 se obtiene que la recta de regresión lineal es  [  .19. de tabla 1) \ (el coeficiente es 0.12 = 12.$6 62&.(1&. esta correlación es PX\ EXHQD \ GLUHFWD E El modelo de regresión lineal H[SOLFD HQ XQ  coeficiente de determinación es 0.3454 .  (MHUFLFLR Utilizando los datos de la encuesta docente analizar si existe relación entre la edad de los docentes y la cantidad de hijos. Si x es cero y es 4. además para una variación en una unidad de la variable x.$/(6 < +80$1.6669. espero que se haya entendido.8166 de tabla 1 y tabla 3) la variación de y respecto de x (el (67$'Ë67.0$(675Ë$ (1 &. No se podría estimar el valor de y si x es 9 porque se aleja demasiado del rango.