CorrelacioÌ - N y Regresioì - N

Unidad II
Medidas de asociación entre variables

cuantitativas:
Correlación y Regresión
Docente Marisol Salgado.

Kinesióloga Licenciada en Kinesiología.
Magister en Salud Pública y Epidemiología.
OBJETIVOS DE LA CLASE
Conocer las Medidas de asociación entre variables cuantitativas:
• Coeficiente de Correlación Lineal de Pearson.

• Regresión Lineal Simple
• Método de Mínimos Cuadrados
• Coeficiente de Determinación (Bondad de ajuste o confiabilidad del modelo lineal).
Coeficiente de
Correlación
Lineal de
Pearson
Karl Pearson 1857-1936

Coeficiente de Correlación Lineal de Pearson
• El coeficiente de correlación de Pearson, indica la fuerza y la

dirección de una relación lineal entre dos variables aleatorias.
Fuerza Dirección
• La coeficiente de correlación lineal de Pearson de dos variables, r, nos
indica si los puntos tienen una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).
• r es útil para determinar si hay relación lineal entre dos variables,

pero no servirá para otro tipo de relaciones (cuadrática,
logarítmica,...)
Examina la dirección y la magnitud de la
asociación entre dos variables aleatorias
Cuantitativas Continuas.
• El coeficiente de correlación de Pearson, indica la fuerza y la dirección
de una relación lineal entre dos variables aleatorias.
S xy La covarianza entre dos variables

r nos indica si la posible relación entre dos
SxS y variables es directa o inversa.
S xy La covarianza entre dos variables
r nos indica si la posible relación entre dos

variables es directa o inversa.
SxS y
*Directa: Sxy >0
*Inversa: Sxy <0
*No correlacionada: Sxy =0
* El signo de la covarianza nos dice si el aspecto de la nube de

puntos es creciente o no, pero no nos dice nada sobre el grado
de relación entre las variables.
Interpretación
• El valor del índice de correlación varía en el intervalo [-1,1], indicando el signo el sentido de la relación:
* Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son
independientes: pueden existir todavía relaciones no lineales entre las dos variables.
• Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos
variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en
proporción constante.
• Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos
variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción
constante.
• Si 0 < r < 1, existe una correlación positiva.

• Si -1 < r < 0, existe una correlación negativa.
• Sólo toma valores en [-1,1]
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación
lineal.
* Las variables son no correlacionadas  r=0
* Relación lineal perfecta entre dos variables  r=+1 o r=-1
𝑟 𝑥𝑦 Correlación
cercano
cercano a 1
a -1 a0
Relación Inversa No hay relación Relación Directa
Diagrama de
dispersión o Cada punto es la
de nube de unión entre X e Y
puntos
(‘scatterplot’) r = 0,87
Correlaciones positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
50
80 r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
110 100
100 90
90 80
80
70
70
60
60
50 50
40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Correlaciones positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Correlaciones negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
y
• Directa y • Inversa
x x
Interpretación
Coeficiente Interpretación
Correlación Perfecta
Muy Alta
Alta
Moderada
Baja
Muy baja
Nula
Otros coeficientes de correlación
*Cuando las variables en vez de ser numéricas son
ordinales, es posible preguntarse sobre si hay algún
tipo de correlación entre ellas.
*Disponemos para estos casos de dos estadísticos: Maurice George Kendall
*ρ (‘ro’) de Spearman (dos variables aleatorias

tanto continuas como discretas).
*τ (‘tau’) de Kendall (Asociación de rango,
variables ordinales, u medidas ordinales)
Charles Edward Spearman
16
80
¿Existe correlación entre el

70
peso y la talla? r = 0,87 ?
60
SI
50
¿Cómo seria esta Cada punto es la
Peso en Kg
40 unión entre X e Y
correlación? 30
r = 0,87 ? r = 0,87
20
Directa
10
Positiva
Muy Alta
0
140 145 150 155 160 165 170
Talla en cm
Regresión Lineal Simple
 El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889)
refiriéndose a la “ley de la regresión universal”:
“Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un

grado menor.”
 Regresión a la media
Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una
variable) a partir de los de sus padres (otra variable).
Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares
observando una relación del tipo:
 Altura del hijo = 85cm + 0,5 altura del padre (aprox.)
 Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de
esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede
decirse de los padres muy bajos.
Hoy en día el sentido de regresión es el de predicción de una medida

basándonos en el conocimiento de otra.
Modelos de análisis de regresión
1 variable explicativa Modelos de regresión 2+ variables explicativas
Simple Múltiple
Lineal No lineal Lineal No lineal
20
Regresión
• El análisis de regresión sirve para predecir una medida en función de
otra medida (o varias).
Y
Y = Variable X = Variable
dependiente D
e independiente
predicha p
e predictora
explicada n
 explicativa
di
e
n
t
e
Independiente X
Regresión
• En un modelo de regresión lineal • Mediante las técnicas de regresión
simple tratamos de explicar la de una variable sobre una
relación que existe entre la variable , buscamos una función
variable respuestay una única que sea una buena aproximación
variable explicativa . de una nube de puntos
¿Es posible descubrir una relación?

Y = f(X) + error
*f es una función de un tipo determinado
*el error es aleatorio, pequeño, y no depende de X
La aproximación de
Ecuación de Regresión es denotada por Y Hat o Y gorro
250
200
(𝑥𝑖 , 𝑦 𝑖 )
150
Variable
Pueden existir infinitas

100
soluciones (rectas). Pero

debemos determinar 50 la
mejor.
0
0 2 4 6 8 10 12 14 16
Variable
Ecuación de la regresión
• El modelo entonces tiene la forma
 (ordenada en el origen,
constante)
 (pendiente de la recta)
Con los coeficientes de regresión
• es el valor medio de la variable

dependiente cuando la predictora es cero.
• es el efecto medio (positivo o negativo)

sobre la variable dependiente al aumentar
en una unidad el valor de la predictora .
Estimación de los parámetros “Método de Mínimos Cuadrados”
• La estimación de los parámetros se realiza para calcular la mejor

ecuación de regresión (recta).
• El criterio usado es llamado estimador de mínimos cuadrados

ordinario (EMCO).
• Este criterio proporciona un valor para y , de tal manera que

minimice la diferencia entre el valor aproximado y el observado.
Estimación de los parámetros
Y
𝑦 =^
^ 𝛽0 + ^
𝛽1 𝑥
^
𝛽 1 Es el efecto medio sobre la
variable Y
al aumentar en una unidad
X
^
𝛽0
𝑥 𝑥+1 X
En el modelo de regresión lineal simple, dado dos variables
Y (dependiente)
X (independiente, explicativa)
buscamos encontrar una función de X muy simple (lineal) que nos

permita aproximar Y mediante
Ŷ = b0 + b1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)
Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de

regresión. A la cantidad
 e=Y-Ŷ se le denomina residuo o error residual.
Bondad de un ajuste
 La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación
R2
 R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1] 2

2 S
R  1 e
2
 Cuando un ajuste es bueno, R2 será cercano a uno.
S Y
 Cuando un ajuste es malo R2 será cercano a cero.
 A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.
 R2 puede ser pesado de calcular en modelos de regresión general, pero en el modelo lineal simple, la
expresión es de lo más sencilla: R2=r2
28
Regresión
El ejemplo del estudio de la altura en grupos familiares de

Pearson resume lo visto.
Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)
 Si el padre mide 200cm ¿cuánto mide el hijo?

 Se espera (predice) 85 + 0,5x200=185 cm.
 Alto, pero no tanto como el padre. Regresa a la media.
 Si el padre mide 120cm ¿cuánto mide el hijo?

 Se espera (predice) 85 + 0,5x120=145 cm.
 Bajo, pero no tanto como el padre. Regresa a la media.
29
La tabla de correlaciones nos muestra que r=0,759
Ejemplo: Correlaciones
Alta Correlación
Alturas de hijos y Altura del
lineal directa,
positiva.
padres (n=60 c/u)
Altura del hijo Padre
Correlación de Pearson Altura del hijo 1,000 ,759
e la ción Altura del Padre ,759 1,000

R
Predicción
190 Coeficientesa
Coeficientes no
El modelo de regresión lineal
180
estandarizados simple es
Modelo B Error típ. Altura hijo = b0 + b1 Altura del padre
1 (Constante) 89,985 9,180
Altura del Padre ,466 ,053
b0=89,985
170
a. Variable dependiente: Altura del hijo
b1=0,466
Altura del hijo
160
¿SI el padre mide 170 cm

cuanto medirá el hijo? :
150
150 160 170 180 190 200 Resumen del modelo
Altura del Padre R cuadrado Error típ. de la Altura del hijo = 89,985 + 0,46
Modelo R R cuadrado corregida estimación
1 ,759 a ,577 ,569 3,480
x 170= 168,185 cm
Diagrama de dispersión: se aprecia a. Variables predictoras: (Constante), Altura del Padre
una clara relación lineal directa.

La bondad del ajuste es de R2=0,577= 57,7% (Se denomina
porcentaje de variabilidad explicado por el modelo de regresión.)
Tarea: Regresión lineal simple Correlación de pearson
talla
talla
1
peso
peso 0,87417927 1
80
Coeficientes Error típico
70 Intercepción -58,8038644 15,40955949
Variable X 1 0,750902998 0,098317029
60
50
Peso en Kg
40
30
Estadísticas de la regresión
20 Coeficiente de correlación múltiple 0,874179271
Coeficiente de determinación R^2 0,764189398
10 R^2 ajustado 0,751088809
r = 0,87 Error típico 3,33257023
0 Observaciones 20
140 145 150 155 160 165 170
Talla en cm
Resolución Tarea: Correlación de pearson talla peso
MUY ALTA CORRELACIÓN LINEAL,
Regresión lineal simple
talla 1
DIRECTA, POSITIVA
peso 0,87417927 1
80
Coeficientes Error típico
70 Intercepción -58,8038644 15,40955949
Variable X 1 0,750902998 0,098317029
60
¿SI el Sujeto mide 170 cm, cuál será su peso?
50
Peso en Kg
40 Peso (kg) = -58,80 + 0,75 x 170= 68,7 kg

30
Estadísticas de la regresión
20 Coeficiente de correlación múltiple 0,874179271
Coeficiente de determinación R^2 0,764189398
10 R^2 ajustado 0,751088809
r = 0,87 Error típico 3,33257023
0 Observaciones 20
140 145 150 155 160 165 170
Talla en cm
La bondad del ajuste es de R2=0,8741= 87,41% (Se denomina porcentaje de variabilidad
explicado por el modelo de regresión) El modelo explica en un 87,41% la variabilidad del
modelo de regresión.
Gracias por su atención !!

CorrelacioÌ - N y Regresioì - N

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

CorrelacioÌ - N y Regresioì - N

Uploaded by

Copyright:

Available Formats

Unidad II

Medidas de asociación entre variables

Docente Marisol Salgado.

Conocer las Medidas de asociación entre variables cuantitativas:

• Coeficiente de Correlación Lineal de Pearson.

Karl Pearson 1857-1936

• El coeficiente de correlación de Pearson, indica la fuerza y la

• r es útil para determinar si hay relación lineal entre dos variables,

S xy La covarianza entre dos variables

S xy La covarianza entre dos variables

r nos indica si la posible relación entre dos

* El signo de la covarianza nos dice si el aspecto de la nube de

• Si 0 < r < 1, existe una correlación positiva.

*Disponemos para estos casos de dos estadísticos: Maurice George Kendall

*ρ (‘ro’) de Spearman (dos variables aleatorias

Charles Edward Spearman

¿Existe correlación entre el

¿Cómo seria esta Cada punto es la

“Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un

 Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Hoy en día el sentido de regresión es el de predicción de una medida

1 variable explicativa Modelos de regresión 2+ variables explicativas

Lineal No lineal Lineal No lineal

¿Es posible descubrir una relación?

Pueden existir infinitas

soluciones (rectas). Pero

Con los coeficientes de regresión

• es el valor medio de la variable

• es el efecto medio (positivo o negativo)

• La estimación de los parámetros se realiza para calcular la mejor

• El criterio usado es llamado estimador de mínimos cuadrados

• Este criterio proporciona un valor para y , de tal manera que

buscamos encontrar una función de X muy simple (lineal) que nos

Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de

 R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1] 2

 A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.

El ejemplo del estudio de la altura en grupos familiares de

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

 Si el padre mide 200cm ¿cuánto mide el hijo?

 Si el padre mide 120cm ¿cuánto mide el hijo?

e la ción Altura del Padre ,759 1,000

a. Variable dependiente: Altura del hijo

¿SI el padre mide 170 cm

una clara relación lineal directa.

40 Peso (kg) = -58,80 + 0,75 x 170= 68,7 kg

You might also like