You are on page 1of 34

Unidad II

Medidas de asociación entre variables


cuantitativas:
Correlación y Regresión

Docente Marisol Salgado.


Kinesióloga Licenciada en Kinesiología.
Magister en Salud Pública y Epidemiología.
OBJETIVOS DE LA CLASE

Conocer las Medidas de asociación entre variables cuantitativas:

• Coeficiente de Correlación Lineal de Pearson.


• Regresión Lineal Simple
• Método de Mínimos Cuadrados
• Coeficiente de Determinación (Bondad de ajuste o confiabilidad del modelo lineal).
Coeficiente de
Correlación
Lineal de
Pearson

Karl Pearson 1857-1936


Coeficiente de Correlación Lineal de Pearson

• El coeficiente de correlación de Pearson, indica la fuerza y la


dirección de una relación lineal entre dos variables aleatorias.

Fuerza Dirección
Coeficiente de Correlación Lineal de Pearson
• La coeficiente de correlación lineal de Pearson de dos variables, r, nos
indica si los puntos tienen una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).

• r es útil para determinar si hay relación lineal entre dos variables,


pero no servirá para otro tipo de relaciones (cuadrática,
logarítmica,...)
Examina la dirección y la magnitud de la
asociación entre dos variables aleatorias
Cuantitativas Continuas.
Coeficiente de Correlación Lineal de Pearson
• El coeficiente de correlación de Pearson, indica la fuerza y la dirección
de una relación lineal entre dos variables aleatorias.

S xy La covarianza entre dos variables


r nos indica si la posible relación entre dos
SxS y variables es directa o inversa.
Coeficiente de Correlación Lineal de Pearson

S xy La covarianza entre dos variables

r nos indica si la posible relación entre dos


variables es directa o inversa.
SxS y
*Directa: Sxy >0
*Inversa: Sxy <0
*No correlacionada: Sxy =0

* El signo de la covarianza nos dice si el aspecto de la nube de


puntos es creciente o no, pero no nos dice nada sobre el grado
de relación entre las variables.
Interpretación
• El valor del índice de correlación varía en el intervalo [-1,1], indicando el signo el sentido de la relación:

* Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son 
independientes: pueden existir todavía relaciones no lineales entre las dos variables.
• Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos
variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en
proporción constante.
• Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos
variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción
constante.

• Si 0 < r < 1, existe una correlación positiva.


• Si -1 < r < 0, existe una correlación negativa.
• Sólo toma valores en [-1,1]
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación
lineal.
* Las variables son no correlacionadas  r=0
* Relación lineal perfecta entre dos variables  r=+1 o r=-1

𝑟 𝑥𝑦 Correlación

cercano
cercano a 1
a -1 a0
Relación Inversa No hay relación Relación Directa
Diagrama de
dispersión o Cada punto es la
de nube de unión entre X e Y

puntos
(‘scatterplot’) r = 0,87
Correlaciones positivas

330 130
120
280 110
230 100
90
180 80
70
130 60
50
80 r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

110 100
100 90
90 80
80
70
70
60
60
50 50

40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Correlaciones positivas

100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Correlaciones negativas

90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
y
• Directa y • Inversa

x x
Interpretación
Coeficiente Interpretación
Correlación Perfecta
Muy Alta
Alta
Moderada
Baja
Muy baja
Nula
Otros coeficientes de correlación
*Cuando las variables en vez de ser numéricas son
ordinales, es posible preguntarse sobre si hay algún
tipo de correlación entre ellas.

*Disponemos para estos casos de dos estadísticos: Maurice George Kendall

*ρ (‘ro’) de Spearman (dos variables aleatorias


tanto continuas como discretas).
*τ (‘tau’) de Kendall (Asociación de rango,
variables ordinales, u medidas ordinales)

Charles Edward Spearman

16
80

¿Existe correlación entre el


70
peso y la talla? r = 0,87 ?
60

SI
50

¿Cómo seria esta Cada punto es la

Peso en Kg
40 unión entre X e Y
correlación? 30

r = 0,87 ? r = 0,87
20

Directa
10
Positiva
Muy Alta
0
140 145 150 155 160 165 170

Talla en cm
Regresión Lineal Simple
 El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889)
refiriéndose a la “ley de la regresión universal”:

“Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un


grado menor.”
 Regresión a la media
Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una
variable) a partir de los de sus padres (otra variable).
Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares
observando una relación del tipo:

 Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

 Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de
esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede
decirse de los padres muy bajos.

Hoy en día el sentido de regresión es el de predicción de una medida


basándonos en el conocimiento de otra.
Modelos de análisis de regresión

1 variable explicativa Modelos de regresión 2+ variables explicativas

Simple Múltiple

Lineal No lineal Lineal No lineal

20
Regresión
• El análisis de regresión sirve para predecir una medida en función de
otra medida (o varias).

Y
Y = Variable X = Variable
dependiente D
e independiente
predicha p
e predictora
explicada n
 explicativa
di
e
n
t
e

Independiente X
Regresión
• En un modelo de regresión lineal • Mediante las técnicas de regresión
simple tratamos de explicar la de una variable sobre una
relación que existe entre la variable , buscamos una función
variable respuestay una única que sea una buena aproximación
variable explicativa . de una nube de puntos

¿Es posible descubrir una relación?


Y = f(X) + error
*f es una función de un tipo determinado
*el error es aleatorio, pequeño, y no depende de X
La aproximación de
Ecuación de Regresión es denotada por Y Hat o Y gorro

250

200
(𝑥𝑖 , 𝑦 𝑖 )

150
Variable

Pueden existir infinitas


100

soluciones (rectas). Pero


debemos determinar 50 la
mejor.
0
0 2 4 6 8 10 12 14 16

Variable
Ecuación de la regresión
• El modelo entonces tiene la forma
 (ordenada en el origen,
constante)
 (pendiente de la recta)

Con los coeficientes de regresión

• es el valor medio de la variable


dependiente cuando la predictora es cero.

• es el efecto medio (positivo o negativo)


sobre la variable dependiente al aumentar
en una unidad el valor de la predictora .
Estimación de los parámetros “Método de Mínimos Cuadrados”

• La estimación de los parámetros se realiza para calcular la mejor


ecuación de regresión (recta).

• El criterio usado es llamado estimador de mínimos cuadrados


ordinario (EMCO).

• Este criterio proporciona un valor para y , de tal manera que


minimice la diferencia entre el valor aproximado y el observado.
Estimación de los parámetros
Y
𝑦 =^
^ 𝛽0 + ^
𝛽1 𝑥

^
𝛽 1 Es el efecto medio sobre la
variable Y
al aumentar en una unidad
X

^
𝛽0

𝑥 𝑥+1 X
En el modelo de regresión lineal simple, dado dos variables
Y (dependiente)
X (independiente, explicativa)

buscamos encontrar una función de X muy simple (lineal) que nos


permita aproximar Y mediante
Ŷ = b0 + b1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)

Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de


regresión. A la cantidad
 e=Y-Ŷ se le denomina residuo o error residual.
Bondad de un ajuste
 La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación
R2

 R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1] 2


2 S
R  1 e
2
 Cuando un ajuste es bueno, R2 será cercano a uno.
S Y
 Cuando un ajuste es malo R2 será cercano a cero.

 A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.

 R2 puede ser pesado de calcular en modelos de regresión general, pero en el modelo lineal simple, la
expresión es de lo más sencilla: R2=r2

28
Regresión

El ejemplo del estudio de la altura en grupos familiares de


Pearson resume lo visto.

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

 Si el padre mide 200cm ¿cuánto mide el hijo?


 Se espera (predice) 85 + 0,5x200=185 cm.
 Alto, pero no tanto como el padre. Regresa a la media.

 Si el padre mide 120cm ¿cuánto mide el hijo?


 Se espera (predice) 85 + 0,5x120=145 cm.
 Bajo, pero no tanto como el padre. Regresa a la media.

29
La tabla de correlaciones nos muestra que r=0,759
Ejemplo: Correlaciones
Alta Correlación
Alturas de hijos y Altura del
lineal directa,
positiva.
padres (n=60 c/u)
Altura del hijo Padre
Correlación de Pearson Altura del hijo 1,000 ,759

e la ción Altura del Padre ,759 1,000


R
Predicción
190 Coeficientesa

Coeficientes no
El modelo de regresión lineal
180
estandarizados simple es
Modelo B Error típ. Altura hijo = b0 + b1 Altura del padre
1 (Constante) 89,985 9,180
Altura del Padre ,466 ,053
b0=89,985
170

a. Variable dependiente: Altura del hijo

b1=0,466
Altura del hijo

160

¿SI el padre mide 170 cm


cuanto medirá el hijo? :
150
150 160 170 180 190 200 Resumen del modelo

Altura del Padre R cuadrado Error típ. de la Altura del hijo = 89,985 + 0,46
Modelo R R cuadrado corregida estimación
1 ,759 a ,577 ,569 3,480
x 170= 168,185 cm
Diagrama de dispersión: se aprecia a. Variables predictoras: (Constante), Altura del Padre

una clara relación lineal directa.


La bondad del ajuste es de R2=0,577= 57,7% (Se denomina
porcentaje de variabilidad explicado por el modelo de regresión.)
Tarea: Regresión lineal simple Correlación de pearson
talla
talla
1
peso

peso 0,87417927 1

80
  Coeficientes Error típico
70 Intercepción -58,8038644 15,40955949
Variable X 1 0,750902998 0,098317029
60

50
Peso en Kg

40

30
Estadísticas de la regresión
20 Coeficiente de correlación múltiple 0,874179271
Coeficiente de determinación R^2 0,764189398
10 R^2 ajustado 0,751088809
r = 0,87 Error típico 3,33257023
0 Observaciones 20
140 145 150 155 160 165 170
Talla en cm
Resolución Tarea: Correlación de pearson talla peso
MUY ALTA CORRELACIÓN LINEAL,
Regresión lineal simple
talla 1
DIRECTA, POSITIVA
peso 0,87417927 1

80
  Coeficientes Error típico
70 Intercepción -58,8038644 15,40955949
Variable X 1 0,750902998 0,098317029
60
¿SI el Sujeto mide 170 cm, cuál será su peso?
50
Peso en Kg

40 Peso (kg) = -58,80 + 0,75 x 170= 68,7 kg


30
Estadísticas de la regresión
20 Coeficiente de correlación múltiple 0,874179271
Coeficiente de determinación R^2 0,764189398
10 R^2 ajustado 0,751088809
r = 0,87 Error típico 3,33257023
0 Observaciones 20
140 145 150 155 160 165 170
Talla en cm

La bondad del ajuste es de R2=0,8741= 87,41% (Se denomina porcentaje de variabilidad
explicado por el modelo de regresión) El modelo explica en un 87,41% la variabilidad del
modelo de regresión.
Gracias por su atención !!

You might also like