You are on page 1of 8

Estadística I

Cuadernillo N°12
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

INTRODUCCIÓN
En esta parte del curso vamos a determinar la relación matemática que existe entre dos
variables.
Existen dos formas de estudiar la asociación o relación entre dos variables cuantitativas.
La primera forma se denomina correlación, que como ya vimos en el capítulo anterior,
consiste en estudiar el tipo o sentido y el nivel o grado de relación que presentan dos
variables. La medida que indica el tipo o sentido de la relación se denomina Covarianza, y
la medida que indica el nivel o grado de relación se denomina Coeficiente de Correlación.
La segunda forma se denomina regresión, que consiste en determinar una relación
matemática y funcional (denominada línea o ecuación de regresión), que nos permita
predecir el valor de una de las variables (denominada variable dependiente), en base al
valor de la otra variable (denominada variable independiente o explicativa).
La ecuación de regresión será confiable si existe un alto grado de correlación entre las
variables indicado por el coeficiente de determinación.

REGRESIÓN LINEAL SIMPLE


Tiene como objetivo estimar y analizar una ecuación o modelo matemático, que describa
la relación funcional existente entre una variable en estudio Y, denominada variable
dependiente, y otra variable en estudio X, denominada variable independiente o
explicativa.
y = f(x) → ecuación o modelo de regresión

Es decir, se trata de encontrar un modelo o ecuación que permita utilizar la información


proporcionada por la variable explicativa o independiente X, para describir adecuadamente
el comportamiento de la variable dependiente Y.

-2- www.grupolamatriz.com
Análisis de Regresión Lineal Simple

Variable dependiente (Y): Es la variable que se desea predecir.


Variable independiente (X): Es la variable que proporciona los datos para la predicción
de la variable dependiente.

Ecuación o Modelo de regresión lineal simple.


Expresión matemática que define la relación lineal entre dos variables, una dependiente y
la otra independiente.

Modelo de regresión lineal simple Poblacional o Matemático o Paramétrico.


Se forma sobre el supuesto de linealidad, el que indica que todas las medias de la variable
Y para los diferentes valores de Xi, caerán sobre una línea recta, lo que generará la
siguiente línea o ecuación de regresión:

 y.x i =  0 +  1 .X i

Donde:
 0 : Coeficiente de intersección poblacional. (Intercepto de la línea de regresión)

Expresa el valor de la media de Y cuando X = 0.


1 : Coeficiente de regresión poblacional. (Pendiente de la línea de regresión)

Mide el cambio promedio en Y cuando X aumenta una unidad.

Observaciones:
Si  1  0 entonces, la media de Y aumenta.

Si  1  0 entonces, la media de Y disminuye.

Modelo de regresión lineal simple Estadístico.


Es el que incluye un componente aleatorio.
El término aleatorio residual o del error, expresa el efecto del muestreo aleatorio y el
efecto de no haber incluido en el modelo a otras variables explicativas.

El valor observado de Y (Yi) será igual al valor medio de Y para cada valor de X (  yx i ),

más una desviación i, es decir: Yi =  yx i +  i

Por lo tanto: Y i =  y x i +  i =  0 +  1 X i +  i

www.grupolamatriz.com -3-
Análisis de Regresión Lineal Simple
Donde: Yi = Valor observado.
 yx i = Valor medio de Y para cada valor de X.

 i = Término aleatorio residual o del error.

SUPUESTOS sobre MODELO ESTADÍSTICO de RLS

1. La relación funcional entre X e Y puede ser expresada por:

Yi =  0 +  1 X i +  i , i = 1, 2,...,k

Siendo:  yx i =  0 +  1 X i  Yi =  yx i +  i ,

2. Los términos aleatorios de error residual  i son independientes, y son tales que:
i. i = 0    i = E  i  = 0

ii.  2 i = E  i2 

iii. E[ i   j ] = 0 i  j

iv. La distribución de los errores o residuales se ajusta a la distribución Normal.

3. Los valores de Xi son fijados y medidos sin error.

4. Para cada valor de Xi, los valores de Y tienen una distribución normal:

2
Y  N( y.x ,  y.x ) .

5. Las distribuciones de Y para los diferentes valores de X tienen igual variancia, a esto
se le denomina HOMOCEDASTICIDAD.

 2y.x 1 =  2y.x 2 = ...... =  2y.x k =  2

6. Los valores de Y, para cada valor de X, son obtenidos de una muestra aleatoria.

-4- www.grupolamatriz.com
Análisis de Regresión Lineal Simple

ESTIMACIÓN DE LOS PARÁMETROS  0 y 1


Para la estimación de los parámetros  0 y 1 solo se requiere el cumplimiento de algunos
de los supuestos establecidos anteriormente.
El objetivo es determinar las características de los estimadores b 0 y b1 para los
parámetros 0 y 1, en base a un conjunto de n pares de observaciones o puntos
muestrales (Xi, Yi).
Es decir, se desea obtener la siguiente ecuación o línea de regresión estimada:

Ŷ i = 
ˆ y x i = b 0 + b 1 X i

Donde: b0: coeficiente de intersección muestral (estimador de  0 )

b1: coeficiente de regresión muestral (estimador de  1 )

Para el caso de una muestra, cada valor observado de Y (Y i) será:


ˆi + e i = 
Yi = Y ˆ y x i + e i  Yi = b 0 + b 1 X i + e i

Donde e i = y i − ŷ i mide la desviación de cada valor observado Y i con respecto a la línea de

regresión estimada.

(xi ,yi ) ŷ = bo + b1x


Yi •
(yi − yˆ i )
(yi − Y)
Ŷi •
ŷi − Y
Y •

X xi X

Lo que buscamos es determinar las características de los estimadores b 0 y b1 que hacen


más pequeñas las desviaciones ei: e i = Yi − b 0 − b 1 X i

www.grupolamatriz.com -5-
Análisis de Regresión Lineal Simple

Ecuación de Regresión Lineal Simple Estimada

Se expresa de la siguiente manera: Ŷ = b 0 + b 1 X

A partir del Método de Mínimos Cuadrados Ordinarios se obtiene el sistema de


ecuaciones normales:

nb o + b 1  X i =  Yi (1)

b 0  X i + b 1  X i2 = X i Y i (2)

Donde b0 y b1 son las incógnitas.


La solución de este sistema genera los llamados: “estimadores mínimos cuadráticos”
que son los estimadores de los parámetros 0 y 1.
Así tenemos:

n X i Yi −  X i. Yi SP(X, Y) S XY
b1 = ó b1 = =
n X i2 − [ X i ] 2 SC(X) S 2X

b 0 = Y − b1 X ó b 0 =
 Yi − b 1  X i
n

Siendo:

* SP(X, Y) =  X i Yi − nXY =  X i Yi −  X i  Yi
n

2 2 [ X i ] 2
* SC(X) =  X i − nX =  X i2 −
n

n n  Xi   Yi
 Xi Yi − nXY  Xi Yi −
n
* S XY = i=1 = i=1
n −1 n −1
n
2 2 n
2 [ Xi ]2
 Xi − nX  Xi −
n
* S2x = i=1 = i=1
n −1 n −1

-6- www.grupolamatriz.com
Análisis de Regresión Lineal Simple

Propiedades de la línea de regresión estimada:


n
1. 
i =1
ei = 0

n
2. 
i =1
ei2 es un valor mínimo.

3. El punto (X, Y) pertenece a la línea de regresión estimada.

4. Los estimadores b0 y b1 son insesgados, consistentes, suficientes y eficientes.


n n
5. 
i =1
yi =  yi
i =1

n
6. 
i =1
x i ei = 0

n n
7. 
i =1
xi yi =  xi yi
i =1

n
8. 
i =1
y i ei = 0

COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación se define como el cociente entre la variación explicada por
la regresión y la variación total del modelo.
Expresa la proporción de la variación total que es explicada por la línea de regresión
estimada.
SC(Reg.)
r2 = 0  r2  1
SC(Total)

El coeficiente de determinación r2 es una medida de la proximidad del ajuste de la recta


de regresión. Cuanto mayor sea r2, mejor será el ajuste a la recta de regresión y más útil
será dicha ecuación de regresión como instrumento de predicción de los valores de Y.
Si su valor es 0, expresa que el 0 % de la variación total observada en la variable Y, es
explicada por la línea de regresión estimada.
Si su valor es 1, se expresa que el 100 % de la variación total observada en la variable Y,
es explicada por la línea de regresión estimada.
Coeficiente de Determinación = [Coeficiente de Correlación de Pearson]2

www.grupolamatriz.com -7-

You might also like