Cuadernillo 12 (Regresión Lineal Simple)

Estadística I
Cuadernillo N°12
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE
INTRODUCCIÓN
En esta parte del curso vamos a determinar la relación matemática que existe entre dos
variables.
Existen dos formas de estudiar la asociación o relación entre dos variables cuantitativas.
La primera forma se denomina correlación, que como ya vimos en el capítulo anterior,
consiste en estudiar el tipo o sentido y el nivel o grado de relación que presentan dos
variables. La medida que indica el tipo o sentido de la relación se denomina Covarianza, y
la medida que indica el nivel o grado de relación se denomina Coeficiente de Correlación.
La segunda forma se denomina regresión, que consiste en determinar una relación
matemática y funcional (denominada línea o ecuación de regresión), que nos permita
predecir el valor de una de las variables (denominada variable dependiente), en base al
valor de la otra variable (denominada variable independiente o explicativa).
La ecuación de regresión será confiable si existe un alto grado de correlación entre las
variables indicado por el coeficiente de determinación.
REGRESIÓN LINEAL SIMPLE

Tiene como objetivo estimar y analizar una ecuación o modelo matemático, que describa
la relación funcional existente entre una variable en estudio Y, denominada variable
dependiente, y otra variable en estudio X, denominada variable independiente o
explicativa.
y = f(x) → ecuación o modelo de regresión
Es decir, se trata de encontrar un modelo o ecuación que permita utilizar la información

proporcionada por la variable explicativa o independiente X, para describir adecuadamente
el comportamiento de la variable dependiente Y.
-2- www.grupolamatriz.com
Análisis de Regresión Lineal Simple
Variable dependiente (Y): Es la variable que se desea predecir.

Variable independiente (X): Es la variable que proporciona los datos para la predicción
de la variable dependiente.
Ecuación o Modelo de regresión lineal simple.

Expresión matemática que define la relación lineal entre dos variables, una dependiente y
la otra independiente.
Modelo de regresión lineal simple Poblacional o Matemático o Paramétrico.

Se forma sobre el supuesto de linealidad, el que indica que todas las medias de la variable
Y para los diferentes valores de Xi, caerán sobre una línea recta, lo que generará la
siguiente línea o ecuación de regresión:
 y.x i =  0 +  1 .X i
Donde:
 0 : Coeficiente de intersección poblacional. (Intercepto de la línea de regresión)
Expresa el valor de la media de Y cuando X = 0.

1 : Coeficiente de regresión poblacional. (Pendiente de la línea de regresión)
Mide el cambio promedio en Y cuando X aumenta una unidad.
Observaciones:
Si  1  0 entonces, la media de Y aumenta.
Si  1  0 entonces, la media de Y disminuye.
Modelo de regresión lineal simple Estadístico.

Es el que incluye un componente aleatorio.
El término aleatorio residual o del error, expresa el efecto del muestreo aleatorio y el
efecto de no haber incluido en el modelo a otras variables explicativas.
El valor observado de Y (Yi) será igual al valor medio de Y para cada valor de X (  yx i ),
más una desviación i, es decir: Yi =  yx i +  i
Por lo tanto: Y i =  y x i +  i =  0 +  1 X i +  i
www.grupolamatriz.com -3-
Donde: Yi = Valor observado.
 yx i = Valor medio de Y para cada valor de X.
 i = Término aleatorio residual o del error.
SUPUESTOS sobre MODELO ESTADÍSTICO de RLS
1. La relación funcional entre X e Y puede ser expresada por:
Yi =  0 +  1 X i +  i , i = 1, 2,...,k
Siendo:  yx i =  0 +  1 X i  Yi =  yx i +  i ,
2. Los términos aleatorios de error residual  i son independientes, y son tales que:
i. i = 0    i = E  i  = 0
ii.  2 i = E  i2 
iii. E[ i   j ] = 0 i  j
iv. La distribución de los errores o residuales se ajusta a la distribución Normal.
3. Los valores de Xi son fijados y medidos sin error.
4. Para cada valor de Xi, los valores de Y tienen una distribución normal:
2
Y  N( y.x ,  y.x ) .
5. Las distribuciones de Y para los diferentes valores de X tienen igual variancia, a esto
se le denomina HOMOCEDASTICIDAD.
 2y.x 1 =  2y.x 2 = ...... =  2y.x k =  2
6. Los valores de Y, para cada valor de X, son obtenidos de una muestra aleatoria.
ESTIMACIÓN DE LOS PARÁMETROS  0 y 1

Para la estimación de los parámetros  0 y 1 solo se requiere el cumplimiento de algunos
de los supuestos establecidos anteriormente.
El objetivo es determinar las características de los estimadores b 0 y b1 para los
parámetros 0 y 1, en base a un conjunto de n pares de observaciones o puntos
muestrales (Xi, Yi).
Es decir, se desea obtener la siguiente ecuación o línea de regresión estimada:
Ŷ i = 
ˆ y x i = b 0 + b 1 X i
Donde: b0: coeficiente de intersección muestral (estimador de  0 )
b1: coeficiente de regresión muestral (estimador de  1 )
Para el caso de una muestra, cada valor observado de Y (Y i) será:

ˆi + e i = 
Yi = Y ˆ y x i + e i  Yi = b 0 + b 1 X i + e i
Donde e i = y i − ŷ i mide la desviación de cada valor observado Y i con respecto a la línea de
regresión estimada.
(xi ,yi ) ŷ = bo + b1x

Yi •
(yi − yˆ i )
(yi − Y)
Ŷi •
ŷi − Y
Y •
X xi X
Lo que buscamos es determinar las características de los estimadores b 0 y b1 que hacen

más pequeñas las desviaciones ei: e i = Yi − b 0 − b 1 X i
Ecuación de Regresión Lineal Simple Estimada
Se expresa de la siguiente manera: Ŷ = b 0 + b 1 X
A partir del Método de Mínimos Cuadrados Ordinarios se obtiene el sistema de

ecuaciones normales:
nb o + b 1  X i =  Yi (1)
b 0  X i + b 1  X i2 = X i Y i (2)
Donde b0 y b1 son las incógnitas.

La solución de este sistema genera los llamados: “estimadores mínimos cuadráticos”
que son los estimadores de los parámetros 0 y 1.
Así tenemos:
n X i Yi −  X i. Yi SP(X, Y) S XY
b1 = ó b1 = =
n X i2 − [ X i ] 2 SC(X) S 2X
b 0 = Y − b1 X ó b 0 =
 Yi − b 1  X i
n
Siendo:
* SP(X, Y) =  X i Yi − nXY =  X i Yi −  X i  Yi
n
2 2 [ X i ] 2
* SC(X) =  X i − nX =  X i2 −
n
n n  Xi   Yi
 Xi Yi − nXY  Xi Yi −
n
* S XY = i=1 = i=1
n −1 n −1
n
2 2 n
2 [ Xi ]2
 Xi − nX  Xi −
n
* S2x = i=1 = i=1
n −1 n −1
Propiedades de la línea de regresión estimada:

n
1. 
i =1
ei = 0
n
2. 
i =1
ei2 es un valor mínimo.
3. El punto (X, Y) pertenece a la línea de regresión estimada.
4. Los estimadores b0 y b1 son insesgados, consistentes, suficientes y eficientes.

n n
5. 
i =1
yi =  yi
i =1
n
6. 
i =1
x i ei = 0
n n
7. 
i =1
xi yi =  xi yi
i =1
n
8. 
i =1
y i ei = 0
COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación se define como el cociente entre la variación explicada por
la regresión y la variación total del modelo.
Expresa la proporción de la variación total que es explicada por la línea de regresión
estimada.
SC(Reg.)
r2 = 0  r2  1
SC(Total)
El coeficiente de determinación r2 es una medida de la proximidad del ajuste de la recta

de regresión. Cuanto mayor sea r2, mejor será el ajuste a la recta de regresión y más útil
será dicha ecuación de regresión como instrumento de predicción de los valores de Y.
Si su valor es 0, expresa que el 0 % de la variación total observada en la variable Y, es
explicada por la línea de regresión estimada.
Si su valor es 1, se expresa que el 100 % de la variación total observada en la variable Y,
es explicada por la línea de regresión estimada.
Coeficiente de Determinación = [Coeficiente de Correlación de Pearson]2

Cuadernillo 12 (Regresión Lineal Simple)

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cuadernillo 12 (Regresión Lineal Simple)

Uploaded by

Copyright:

Available Formats

Estadística I

REGRESIÓN LINEAL SIMPLE

Es decir, se trata de encontrar un modelo o ecuación que permita utilizar la información

Variable dependiente (Y): Es la variable que se desea predecir.

Ecuación o Modelo de regresión lineal simple.

Modelo de regresión lineal simple Poblacional o Matemático o Paramétrico.

Expresa el valor de la media de Y cuando X = 0.

Mide el cambio promedio en Y cuando X aumenta una unidad.

Si  1  0 entonces, la media de Y disminuye.

Modelo de regresión lineal simple Estadístico.

más una desviación i, es decir: Yi =  yx i +  i

 i = Término aleatorio residual o del error.

SUPUESTOS sobre MODELO ESTADÍSTICO de RLS

1. La relación funcional entre X e Y puede ser expresada por:

Siendo:  yx i =  0 +  1 X i  Yi =  yx i +  i ,

iv. La distribución de los errores o residuales se ajusta a la distribución Normal.

3. Los valores de Xi son fijados y medidos sin error.

 2y.x 1 =  2y.x 2 = ...... =  2y.x k =  2

ESTIMACIÓN DE LOS PARÁMETROS  0 y 1

Donde: b0: coeficiente de intersección muestral (estimador de  0 )

b1: coeficiente de regresión muestral (estimador de  1 )

Para el caso de una muestra, cada valor observado de Y (Y i) será:

Donde e i = y i − ŷ i mide la desviación de cada valor observado Y i con respecto a la línea de

(xi ,yi ) ŷ = bo + b1x

Lo que buscamos es determinar las características de los estimadores b 0 y b1 que hacen

Ecuación de Regresión Lineal Simple Estimada

Se expresa de la siguiente manera: Ŷ = b 0 + b 1 X

A partir del Método de Mínimos Cuadrados Ordinarios se obtiene el sistema de

Donde b0 y b1 son las incógnitas.

Propiedades de la línea de regresión estimada:

3. El punto (X, Y) pertenece a la línea de regresión estimada.

4. Los estimadores b0 y b1 son insesgados, consistentes, suficientes y eficientes.

El coeficiente de determinación r2 es una medida de la proximidad del ajuste de la recta

You might also like