You are on page 1of 25

UNIVERSIDAD NACIONAL FACULTAD DE INGENIERIA

ME MINAS GEOLOGÍA Y
METALURGÍA
“SANTIAGO ANTÚNEZ DE
MAYOLO” ESCUELA ACADÉMICO
PROFESIONAL ING MINAS.

REGRESIÓN
LINEAL

1
Lic. Martha Vanessa Poma Blas.
Independencia - Dependencia
Cuando se estudian dos características simultáneamente sobre
una muestra, se puede considerar que una de ellas influye sobre
la otra de alguna manera. Por ejemplo la altura y el peso o las
horas de estudio y la calificación en un examen.
El objetivo principal de la regresión es descubrir el modo en que
se relacionan.
Dos variables pueden considerarse:
Variables independientes  No tienen relación (una de ellas no
sirve para explicar los movimientos de la otra)
Dependencia funcional  Y=f(x)
Dependencia estadística

Dependencia
Independencia estadística Dependencia funcional
estadística

- +
2

Grado de asociación entre dos variables


DIAGRAMA E DISPERSIÓN

3
GRÁFICOS DE DISPERSIÓN: Permite ver si hay asociación

Dadas dos variables X y Y tomadas sobre el mismo elemento de la


población, el diagrama de dispersión es simplemente un gráfico de
dos dimensiones, donde en un eje (la abscisa) se sitúa una variable, y
en el otro eje (la ordenada) se sitúa la otra variable. Si las variables
están correlacionadas, el gráfico mostraría algún nivel de correlación
(tendencia) entre las dos variables. Si no hay ninguna correlación, el
gráfico presentaría una figura sin forma, una nube de puntos
dispersos en el gráfico.

Asociación
positiva. Si
aumenta X
aumenta Y

4
GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN
La relación entre dos variables métricas puede ser representada mediante la línea
de mejor ajuste a los datos. Esta recta se le denomina recta de regresión, que puede
ser negativa o positiva, la primera con tendencia decreciente y la segunda creciente
y la otra ninguna relación.

Su magnitud indica el grado de asociación entre las variables


ANALISIS DE REGRESION LINEAL

Regresión: conjunto de técnicas que son usadas para


establecer una relación entre una variable cuantitativa
llamada VARIABLE DEPENDIENTE y una o mas
VARIABLES INDEPENDIENTES, llamadas prodictoras.

Modelos de regresión: Ecuación que representa la


relación entre las variables
Análisis de regresión consiste en emplear métodos que
permitan determinar la mejor relación funcional entre
dos o mas variables concomitantes (o relacionadas). El
análisis de correlación estudia el grado de asociación
de dos o mas variables. 6
ANALISIS DE REGRESION LINEAL
Para el cálculo de la recta de regresión se aplica el método de mínimos cuadrados
entre dos variables. Esta línea es la que hace mínima la suma de los cuadrados de
los residuos, es decir, es aquella recta en la que las diferencias elevadas al
cuadrado entre los valores calculados por la ecuación de la recta y los valores
reales de la serie, son las menores posibles.

y = a + bx

7
ANALISIS DE REGRESIÓN LINEAL

Suposiciones de la regresión lineal


1. Los valores de la variable independiente X son "fijos".
2. La variable X se mide sin error.
3. Existe valores Y normalmente distribuido para cada
valor de X.
4. Las variancias de valores de Y son todas iguales.
5. Todas las medias de los de Y están sobre la misma
recta.
6. Los valores de Y están normalmente distribuidos y
son estadísticamente independientes.
Los supuestos del 3 al 6 equivalen a decir que los errores
son aleatorios, que se distribuyen normalmente con
8

media cero y variancia σ.


Recta de regresión Pendiente

yn
yn 1 yˆ i
y3
u3 ui
yi
y1 yi
y2

Intercepto
x1 x2 x3 xi xn 1 xn

yi  a  bxi   i ui  yi  yˆi
Error
ANALISIS DE REGRESIÓN LINEAL

Cuando la relación funcional entre las variables dependiente (Y)


e independiente (X) es una línea recta, se tiene una regresión
lineal simple, dada por la ecuación.
ˆ
Yi  a  bX i   i ........Yi  Yi   i
Yˆi  a  bX i . ............. i  Yi  Yˆi

a: El valor de la ordenada donde la línea de regresión se


intersecta al eje Y.
b: El coeficiente de regresión poblacional (pendiente de la
línea recta)
ε : El error. 10
RECTA DE REGRESIÓN


y i  a  bxi
IDEA: hacer MÍNIMA la suma de los CUADRADOS de los residuos.

n n

u  ( yi  yˆi )
2
i
2
u
i 1
2
i  (y
i 1
i y
ˆi ) 2

 n n n
2
min
a ,b
 
 i1
ui
2
 
i 1
( yi  ˆ
y i ) 2
 
i 1

 yi   a  bxi  
 

EQUIVALE a buscar los coeficientes de la recta hace MÍNIMA la suma de los
CUADRADOS de los residuos.

La recta de regresión de y sobre x es


S xy S xy
yˆ  y  2
x 2
x
S x S x

Es decir, los valores de los coeficientes son


S xy S xy
ay 2
x b
S x S 2
x

1 n 1 n
Covarianza S xy   ( xk  x )( yk  y )   xk yk  x y
n k 1 n k 1
¿Es la recta de regresión una buena aproximación de la nube de puntos?
Coeficiente de determinación:
n
Diferencia entre el valor estimado y la
  yˆ  y
2
k media observada
R 2
 k 1
n
Diferencia entre lo observado y la media
 y  y
2

k 1
k
observada

Varianza residual ó error cuadrático medio: Ayuda a medir la dependencia.

  S 2 
   yˆi 
2
y   SY 1   XY  
S 2
u  i
  S X SY  
N  
Coeficiente de correlación lineal de Pearson r:
 S XY  S XY S XY
yˆi   y  2 x   2 xi   y r
SY
 xi  x  r
 SX  SX SX S X SY
Covarianza de dos variables X e Y
1 n 1 n
S xy   ( xk  x )( yk  y )   xk yk  x y
n k 1 n k 1

 La pendiente de la recta de regresión es Sxy/ S2X


 El signo de la covarianza indica si la posible relación entre dos
variables es directa o inversa.
 Directa: Sxy >0
 Inversa: Sxy <0
 Incorreladas: Sxy =0
 La covarianza no dice nada sobre el grado de relación entre las
variables.
Coeficiente de correlación lineal
de Pearson
 La coeficiente de correlación lineal de Pearson
de dos variables, r, nos indica si los puntos
tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales
y verticales).

 tiene el mismo signo que Sxy por tanto de su S xy


signo obtenemos el que la posible relación sea r
directa o inversa. SxS y

 r es útil para determinar si hay relación lineal


entre dos variables
Propiedades de coeficiente de correlación r
 Es adimensional
 Sólo toma valores en [-1,1]
 Las variables son incorreladas  r=0
 Relación lineal perfecta entre dos variables  r=+1 o r=-1
 Excluimos los casos de puntos alineados horiz. o verticalmente.
 Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal.
 Siempre que no existan observaciones anómalas.
Relación
inversa Relación
perfecta directa
Variables
casi
incorreladas
perfecta

-1 0 +1
ANALISIS DE REGRESIÓN LINEAL

Para encontrar el valor de la ordenada a el valor del coeficiente


b, se utilizara las siguientes formulas, son dos procedimientos
una por los parámetros estadísticos y el otro por el método de
MINIMOS CUADRADOS.

a  Y  bX A  Y  BX

b
cov( x, y ) B
 XY  nXY
v( x)  X  nX 2 2

17
y obtenemos que la recta de regresión de Y sobre X: y = a + bx
con los valores a y b anteriormente calculados, o bien la siguiente expresión:

S xy
y y 
2
x  x 
Sx
Aplicando el mismo razonamiento llegaríamos a la expresión de la recta de

regresión de X sobre Y: x = a’ + b’y con los valores a’ y b’


calculados como:
S xy
b' y a' x b' y
2
Sy
S xy
Por tanto, se podría expresar como:
x x 
2
y y 
Sy
SUPUESTOS DEL MODELO DE
REGRESION LINEAL

La relación entre las variables es lineal.


Los errores en la medición de las variables
explicativas son independientes entre si.
Los errores tienen varianza constante
(homocedasticidad)
Los errores tienen una esperanza matemática
igual a cero (los errores de una misma magnitud y
distinto signo son equiprobables)
El error total es la suma de todos los errores.
20
COEFICIENTE DE
DETERMINACIÓN

Sí mide cuanto de la variabilidad se explica por la ecuación de


regresión estimada.

El coeficiente de determinación mide la proporción de


variabilidad total de la variable dependiente respecto a su
media que es explicada por el modelo de regresión.

Es usual expresar esta medida en tanto por ciento,


multiplicándola por cien.
Es el coeficiente de correlación elevado al cuadrado.

R r
2 2 2
S xy S xy  S xy 
2
R bb'   r 2
S x2 S y2  S x S y  xy
xy 
Valor Significado
-1 Correlación negativa grande y perfecta
-0,9 a -0,99 Correlación negativa muy alta
-0,7 a -0,89 Correlación negativa Alta
-0,4 a -0,69 Correlación negativa moderada
-0,2 a -0,39 Correlación negativa baja
-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a 0,99 Correlación positiva muy alta

1 Correlación positiva grande y perfecta


22
S XY
yˆi  qa  bpxi  y  2  xi  x 
SX
El objetivo último de la regresión es la predicción de una variable para un
valor determinado de la otra. La predicción de Y para X = x0 será
simplemente el valor obtenido en la recta de regresión de Y sobre X al
sustituir el valor de x por x0. La fiabilidad de esta predicción será tanto
mayor cuando mayor sea la correlación entre las variables (es decir mayor
sea R2 )
Dado un valor de la variable “X” que no ha sido observado, estimar el
correspondiente valor de “Y”
Dado x0 estimar yˆ0

S XY
yˆ 0  aq  bpx0  y  2  x0  x 
SX
Las estaturas y pesos de 10 jugadores de baloncesto de
un equipo son:

Estatura
186 189 190 192 193 193 198 201 203 205
(X)

Pesos
85 85 86 90 87 91 93 103 100 101
(Y)

Calcular:
La recta de regresión de Y sobre X.
El coeficiente de correlación.
El peso estimado de un jugador que mide 208 cm.
25

You might also like