Regresión Lineal Simple

REGRESIÓN LINEAL SIMPLE
MONTERO PÉREZ JAIRO ANDRÉS
PRESENTADO A
EVERTH ANAYA COHEN. DOCENTE
ESTADÍSTICA II
INGENIERÍA INDUSTRIAL
FACULTAD DE INGENIERÍAS
CORPORACIÓN UNIVERSITARIA DEL CARIBE
CECAR©
KM 1 VÍA A COROZAL
2008-10-29
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
TABLA DE CONTENIDO
INTRODUCCIÓN
IV. OBJETIVOS ................................................................................................................ 4
V. REGRESIÓN LINEAL SIMPLE .................................................................................... 5
1. GENERALIDADES ....................................................................................................... 5
2. FUNCIÓN DE REGRESIÓN POBLACIONAL ............................................................... 6
3. FUNCIÓN DE REGRESIÓN MUESTRAL..................................................................... 7
4. PASOS PARA REALIZAR LA REGRESIÓN LINEAL SIMPLE ..................................... 7
5. DIAGRAMAS DE DISPERSIÓN ................................................................................... 8
6. ESTIMACIÓN DE LOS COEFICIENTES DEL MODELO............................................ 10
7. INTERPRETACIÓN DE LOS COEFICIENTES ESTIMADOS..................................... 17
8. DISTRIBUCIÓN DE PROBABILIDAD DEL ERROR ................................................... 18
9. PROPIEDADES DE LOS ESTIMADORES ................................................................. 19
10. INFERENCIAS SOBRE LOS ESTIMADORES ....................................................... 21
11. COEFICIENTE DE DETERMINACIÓN ( ) ........................................................... 24
12. COEFICIENTE DE CORRELACIÓN ....................................................................... 25
BIBLIOGRAFÍA
2
INTRODUCCIÓN
Cuando se posee información acerca de dos o más variables relacionadas, es natural

buscar un modo de expresar la forma de la relación funcional entre ellas. Además, es
deseable conocer la consistencia de la relación. Es decir, no se busca solamente una
relación matemática que nos diga de qué manera están relacionadas las variables, sino
que se desea saber también con qué precisión se puede predecir o pronosticar el valor
de una variable, si se conocen o suponen valores para las otras variables. Las técnicas
usadas para lograr estos dos objetivos se conocen como método de regresión y
correlación.
Los modelos de regresión fueron utilizados por Laplace y Gauss en sus trabajos de
astronomía y física desarrollados durante el siglo XVIII, pero el nombre de modelos de
regresión tiene su origen en los trabajos de Galton en biología de finales del siglo XIX.
La expresión de Galton: “regression towards mediocrity” dio nombre a la regresión.
Los métodos de regresión se usan para elegir la "mejor" relación funcional entre las
variables, es decir, la función o ecuación que mejor se ajuste a los datos. El Análisis de
Regresión es una técnica que se ocupa de analizar la dependencia entre una variable
dependiente o endógena ( ) y una o más variables explicativas o exógenas
(digamos ). Su objetivo consiste en estimar y/o predecir el valor medio
poblacional de la variable dependiente a partir de los valores conocidos y fijos de las
variables explicativas, obtenidos mediante un proceso de muestras repetidas. Entonces,
se infiere que las variables independientes no son variables aleatorias y por tanto no
tienen propiedades de distribución. En tanto que, los métodos de correlación se utilizan
para medir el grado de asociación o de relación entre las distintas variables.
La relación que se ajusta a un conjunto de datos experimentales se caracteriza por una
ecuación de predicción que se denomina ecuación de regresión. En el caso de una sola
y solo una , la situación se convierte en una regresión de sobre .
Si denotamos una muestra aleatoria de tamaño con el conjunto ,
y se toman muestras adicionales mediante el uso de exactamente los mismos valores
de , debemos esperar que varíen los valores de . De aquí el valor en el par
ordenado es un valor de alguna variable aleatoria . Por conveniencia se define
como la variable aleatoria que corresponde a un valor fijo , indicando su media y
varianza con y , respectivamente. Es claro que si , el símbolo
representa la variable aleatoria con media y varianza .
Cabe resaltar, que el análisis estadístico es solamente un instrumento que ayuda en el
razonamiento e interpretación de los datos y que finalmente el investigador o persona
investigativa es quien toma las decisiones a partir de estos resultados.
3
IV. OBJETIVOS
GENERAL.
Analizar, describir e interpretar el tópico de regresión lineal simple, reconociéndolo

como herramienta o método fundamental para modelar mediante funciones la relación
de variables en problemas, situaciones-problema propias de ingeniería a través de la
aplicación fidedigna de nuestro conocimiento.
ESPECÍFICOS.
 Identificar las variables fundamentales del modelo de regresión lineal simple.

 Reconocer la importancia de los diagramas de dispersión.
 Definir las funciones de regresión tanto poblacional como muestral.
 Estimar los coeficientes del modelo, utilizando el método adecuado.
 Interpretar correctamente los coeficientes estimados.
 Implementar el contraste de hipótesis ecuánime para el modelo.
 Analizar la capacidad explicativa del modelo.
4
REGRESIÓN LINEAL SIMPLE
1. GENERALIDADES.
Con frecuencia nos encontramos en ingeniería con modelos en el que el

comportamiento de una variable puede ser explicado a través de una variable , lo
que se representa mediante:
Si consideramos que la relación que liga con , es lineal, entonces la relación

anterior se representa como
Que corresponde a la ecuación de regresión de población, donde los coeficientes de

regresión son parámetros a estimar a partir de los datos muestrales.
La relación anterior supone una relación exacta entre las variables. A este modelo se le
denomina determinista, en el que siempre se puede determinar a con exactitud
cuando se conoce valor de , es decir, no hay margen de error en esa predicción. Sin
embargo, estas leyes son válidas con exactitud sólo bajo condiciones ideales. Rara vez
los experimentos reproducen con exactitud esas leyes. Es por lo anterior que, en
general, se tendrá un error aleatorio introducido por el experimento, lo que hará que las
leyes solo expresen una aproximación a la realidad. A este modelo se le denomina
probabilista o probabilístico, el cual comprende tanto un componente determinista como
un componente de error aleatorio.
1.1 Forma General de los modelos Probabilísticos.
Donde es la variable aleatoria que se tiene que predecir. Siempre se supondrá que el
valor promedio del error aleatorio es igual a cero. Esto equivale a suponer que el valor
promedio de , es igual al componente determinista del modelo.
Pero donde es una constante. Sin embargo, esto no significa que sea
exactamente igual a , sino que será igual a más o menos un error aleatorio. En
especial si se supone que se distribuye normalmente con promedio y varianza ,
entonces se puede formular el modelo probabilista , en el que el componente
aleatorio se distribuye normalmente con promedio y varianza .
5
2. FUNCIÓN DE REGRESIÓN POBLACIONAL. (Modelo probabilístico de la recta)
Una función de regresión poblacional es la unión de los promedios condicionales de la

variable dependiente para los valores fijos de la variable independiente o explicativa
, así que:
Si es una función lineal de , se tiene:
Lo cual nos indica que el valor promedio de varía con . Como sabemos , son
coeficientes de regresión, donde es la ordenada en el origen de la recta y la
pendiente.
Para un valor dado de , los valores de se concentran alrededor del promedio de , lo
cual indica que se van a presentar algunas diferencias o desviaciones de un valor
individual de alrededor de su valor esperado, por lo tanto teniendo en cuenta la
sección anterior:
Donde es el componente aleatorio de error. Este se puede considerar como una

variable sustitutiva de todas las variables omitidas que pueden afectar a , pero que por
una u otra razón no pudieron incluirse en el modelo de regresión.
Reemplazando el se tiene:
Que es la función de regresión poblacional. La expresión anterior refleja una relación

lineal, y en ella sólo figura una única variable explicativa, recibiendo el nombre de
relación lineal simple. En cada caso los símbolos representan parámetros de población
que necesitarán estimarse mediante los datos de la muestra.
La frase variable independiente se usa en el análisis de regresión para representar una
variable predictora de la respuesta .
6
3. FUNCIÓN DE REGRESIÓN MUESTRAL.
Generalmente es necesario trabajar con información muestral y no poblacional, por lo

tanto, se plantea una ecuación que nos permita estimar los valores de , así
que el objetivo es estimar la función de regresión poblacional con base en la función de
regresión muestral:
Donde:
Debido a que los valores observados no forman exactamente una línea recta, es
necesario elegir un método para estimar los coeficientes de regresión que haga
mínima la diferencia entre los valores observados y los estimados o ajustados, este
método es el de los mínimos cuadrados (generalmente usado).
4. PASOS PARA REALIZAR EL ANÁLISIS DE REGRESIÓN.
Resulta útil imaginarse que el análisis de regresión es un procedimiento de cinco pasos:
 Paso 1: Suponer la forma que tiene el promedio (componente determinista del

modelo).
 Paso 2: Reunir datos de muestra (representarlos en diagrama de dispersión) y
utilizarlos para estimar los parámetros desconocidos del modelo.
 Paso 3: Especificar la distribución de probabilidad de , el componente aleatorio de
error, y estimar cualesquiera parámetros desconocidos de esta distribución.
 Paso 4: Comprobar estadísticamente la adecuación del modelo.
 Paso 5: Cuando se quede satisfecho con la adecuación, usar el modelo para
predicciones, estimaciones, etc.
7
5. DIAGRAMAS DE DISPERSIÓN.
Una vez especificadas las variables es necesario determinar la relación entre ellas, de
la cual se puede tener una idea general, graficando las variables. A partir de un
conjunto de observaciones de dos variables e sobre una muestra de individuos, se
puede representar estos datos sobre unos ejes coordenados , en un sistema de
coordenadas, en donde, en el eje de las abscisas se ubica la variable independiente y
en el de las ordenadas la variable dependiente; esta gráfica se llama nube de puntos o
diagrama de dispersión. Nos puede ayudar mucho en la búsqueda de un modelo que
describa la relación entre las dos variables. Entonces, el diagrama de dispersión se
obtiene representando cada observación como un punto en el plano cartesiano
Ejemplos de diagramas de dispersión
En los casos y tenemos que las observaciones se encuentran sobre una recta.
En el primer caso, con pendiente negativa, que nos indica que a medida que
aumenta, la es cada vez menor y lo contrario en el segundo caso, en el que la
pendiente es positiva. En estos dos casos los puntos se ajustan perfectamente sobre la
recta, de manera que tenemos una relación funcional entre las dos variables, dada por
la ecuación de la recta.
En el caso los puntos se encuentran situados en una franja bastante estrecha que
tiene una forma bien determinada. No será una relación funcional, ya que los puntos no
se sitúan sobre una curva, pero sí que es posible asegurar la existencia de una fuerte
relación entre las dos variables. De todos modos, se observa que no se trata de una
relación lineal (la nube de puntos tiene forma de parábola).
En el caso ) no se tiene ningún tipo de relación entre las variables. La nube de puntos
no presenta una forma “tubular” bien determinada; los puntos se encuentran
absolutamente dispersos.
8
En los casos y se puede observar que sí existe algún tipo de relación entre las
dos variables. En el caso se puede ver un tipo de dependencia lineal con pendiente
negativa, ya que a medida que el valor de aumenta, el valor de disminuye. Los
puntos no están sobre una línea recta, pero se acercan bastante, de manera que
podemos pensar en una fuerte relación lineal. En el caso se observa una relación
lineal con pendiente positiva, pero no tan fuerte como la anterior.
Ejemplo de aplicación:
Supóngase que se realizó un estudio sobre la relación entre el contenido promedio de

alquitrán en el flujo saliente de un proceso químico y la temperatura de entrada.
A continuación, se muestran los datos registrados durante 10 días en una industria.
1 95 214
2 82 152
3 90 156
4 81 129
5 99 254
6 100 266
7 93 210
8 95 204
9 93 213
10 87 150
270
Contenido medio de alquitrán
250
230
210
190
170
150
130
110
80 85 90 95 100
Temperatura de entrada
9
6. ESTIMACIÓN DE LOS COEFICIENTES DEL MODELO: MÉTODO DE LOS

MÍNIMOS CUADRADOS.
Una vez que hemos hecho el diagrama de dispersión y después de observar una
posible relación lineal entre las dos variables, nos proponemos encontrar la ecuación de
la recta que mejor se ajuste a la nube de puntos. Esta recta se denomina recta de
regresión. Ahora bien, por supuesto son parámetros desconocidos. La línea
ajustada es una estimación de la línea que produce el modelo estadístico. Se debe
tener en cuenta que la línea no se conoce, sino que más bien,
es una noción conceptual simple de cómo se generaron los datos en el proceso
científico. Como resultado, la realización de , en realidad nunca se observa. Sin
embargo, se observa su residuo . A menudo la suma de los cuadrados de los residuos
se le llama suma de cuadrados de los errores aleatorios alrededor de la línea de
regresión.
Con el uso de la línea de regresión estimada o ajustada , cada par de
observaciones satisface la relación: entonces:
, también recibe el nombre de residuo, describe el error en el ajuste del

modelo en el punto de los datos.
Teniendo en cuenta el ejemplo del ítem anterior. Como hipótesis se considera que el
modelo tiene la forma:
y se desea emplear los datos de la muestra para calcular . Un método, el de los

cuadrados mínimos o mínimos cuadrados selecciona el estimador que hace mínima la
suma de los errores elevados al cuadrado ( ). Entonces, se encontrarán de
modo que se minimice .
Es decir, se escoge el estimador tal que:
n n
SSE e2 i ( y y ) 2
i
i 1 i 1
Se reduzca al mínimo. Se puede obtener la forma de este estimador derivando a

con respecto a , e igualando a cero, y luego despejar . Entonces,
10
n
d ( SSE ) y)
2 ( yi 0
d y i 1
Simplificando,
n
2 yi 2n y 0
i 1
Despejando y,
n n
n
2 yi yi
2n y 2 yi y i 1 y i 1
y
i 1 2n n
Por tanto, el promedio muestral es el estimador que reduce al mínimo la suma de los
errores elevados al cuadrado, y se llama estimador de para cuadrados mínimos.
1 214
2 152
3 156
4 129
5 254
6 266
7 210
8 204
9 213
10 150
Para los datos de la el promedio muestral es:
1948
y 194.8
10
y
n
SSE ( yi y ) 2 19263.6
i 1
De manera que, ya se sabe que ningún otro estimador de dará tan baja como
éste, porque es el estimador de mínimos cuadrados.
Presúmase ahora que se decide modelar el contenido promedio de alquitrán en el flujo

saliente como función de la temperatura de entrada del día. En especial, se modelará
11
el contenido promedio de alquitrán como función lineal de . Los datos aparecen

registrados en la . La gráfica de esos datos se ilustra en la .
Diagrama de dispersión.
Se supone el modelo probabilístico de la línea recta.
y se quiere usar los datos de la muestra para estimar la ordenada en el origen y la

pendiente . Se utiliza el mismo principio para estimar en el modelo de línea
recta que para estimar a en el modelo de promedio constante: el método de los
mínimos cuadrados. Por lo tanto se escoge la estimación
De modo que
n n
SSE ( yi y ) 2 ( yi   x )2
0 1 i
i 1 i 1
Se reduzca al mínimo. Se deriva con respecto a , se igualan los resultados a

cero y se despeja .
n n n n
( SSE )   x) ( SSE )  
2 ( yi 0 2( yi xi )
 i 1
0 1 i
 i 1 i 1
0 1
i 1
0 0
n n
2
2
( 2( yi n 0 
1 xi ))
( SSE ) i 1 i 1
2 n 0 Hay un mínimo
2 2
0 0
n n n n
yi n 0 
1 xi 0 1 yi n0 
1 xi 1
i 1 i 1 i 1 i 1
Ahora se deriva parcialmente con respecto a , también tiene mínimo, luego, se iguala
a cero
n n n n
( SSE )   x)  
2 xi ( yi 0 xi yi xi xi2 0
 i 1
0 1 i
i 1
0
i 1
1
i 1
1
n n n
xi yi  xi  xi2 2
0 1
i 1 i 1 i 1
De despejamos
n n n n
yi  xi yi  xi
1 1
 i 1 i 1  i 1 i 1  y  x
0 0 0 1
n n n
12
Reemplazamos  0 en y hallamos
n n n
xi yi (y  x) xi  xi2
1 1
i 1 i 1 i 1
n n n n
n
xi yi xi xi n
xi yi i 1 i 1  i 1 i 1  xi2
1 1
i 1 n n i 1
n 2
n n
n
xi yi xi n
xi yi i 1 i 1  i 1
xi2
1
i 1 n n i 1
n n n
xi yi n xi yi n n n n n n
i 1 i 1 i 1
xi yi n xi yi xi yi n xi yi
 n  i 1 i 1 i 1  i 1 i 1 i 1 1
1 2 1 2 1 2
n n n n n n 1
xi n xi2 xi n xi2 xi n xi2
i 1 i 1 i 1 i 1 i 1 i 1
n
n n n n
n
xi yi n
xi yi
i 1 i 1 i 1 i 1
n n n
n xi yi n xi yi
i 1 n i 1 n
n xi yi xi yi
 i 1 i 1 i 1  
1 2 1 2 1 2
n n n n
2
n x i xi xi xi
n n
i 1 i 1 2 i 1 2 i 1
n x i n x
i
i 1 n i 1 n
n n
n
xi yi n n
i 1 i 1
xi yi ( xi x)( yi y) ( xi x)( yi y)
 i 1 n i 1  i 1
1 2 n 1 n
n
2
xi ( xi x) ( xi x) 2
n i 1 i 1
i 1
xi2
i 1 n
 SS xy
1
SS xx
13
Entonces, la solución viene dada por:
n
( xi x)( yi y)
 i 1
SS xy  
1 n
; 0 y 1 x
SS xx
( xi x)2
i 1
En donde, SS xy / n es la covarianza muestral de las observaciones y SS xx (n 1)

es la varianza muestral de las observaciones .
( xi ) 2
1 95 214 20330 9025
2 82 152 12464 6724
3 90 156 14040 8100
4 81 129 10449 6561
5 99 254 25146 9801
6 100 266 26600 10000
7 93 210 19530 8649
8 95 204 19380 9025
9 93 213 19809 8649
10 87 150 13050 7569
915 1948 180798 84103 837225
Para los datos de la

n n
n n
xi yi
i 1 i 1
SS xy ( xi x)( yi y) xi yi
i 1 i 1 n
(915)(1948)
180798 2556
10
n 2
n n
xi
2 2 i 1
SS xx ( xi x) x i
i 1 i 1 n
837225
84103 380.5
10
y
915
x 91.5 ; y 194.8
10
Entonces, las estimaciones de mínimos cuadrados son
14
 SS xy 2556
1 6.7175
SS xx 380.5
 y 1 x 194.8 (6.7175)(91.5)  419.85
0 0
Por tanto, la recta de regresión estimada está dada por
1 95 214 218.31 -4.31 18.58

2 82 152 130.98 21.02 441.84
3 90 156 184.72 -28.72 824.84
4 81 129 124.27 4.73 22.37
5 99 254 245.18 8.82 77.79
6 100 266 251.90 14.10 198.81
7 93 210 204.88 5.12 26.21
8 95 204 218.31 -14.31 204.78
9 93 213 204.88 8.12 65.93
10 87 150 164.57 -14.57 212.28
2093.43
Entonces la recta de regresión, obtenida por mínimos cuadrados es , la

cual es usada en los problemas.
270
Contenido medio de alquitrán
250 y = 6,7175x - 419,85

230
210
190
170
150
130
110
80 85 90 95 100
Temperatura de entrada
15
Además de que estimados, minimizan la suma de cuadrados de los residuos;

son estimadores insesgados de . Es decir que:
Se puede observar que los errores son las distancias verticales entre los puntos
observados y la línea de predicción, ( ). Los valores predichos, el error ( )
y se muestran en la . La es . De esta manera se sabrá
que ninguna otra recta minimizará la tan pequeña como la hallada.
En forma de sinopsis, se ha definido la recta que mejor se ajusta como la que satisface
el método de los mínimos cuadrados. Esta recta es la denominada recta de los mínimos
cuadrados, y la ecuación se llama ecuación de predicción de mínimos cuadrados.
7. INTERPRETACIÓN DE LOS COEFICIENTES ESTIMADOS.
Es la ordena en el origen, es decir el punto donde la recta corta o interseca el eje .
Es el valor promedio de la variable dependiente cuando la independiente vale cero.

También se interpreta como el efecto promedio sobre la variable dependiente de todas
las variables omitidas en el modelo de regresión.
Cuando el valor del coeficiente de intersección sea negativo y su interpretación no
sea lógica, se interpreta como cero, pero para efectos de proyección se deja el valor
obtenido.
16
Es la pendiente, es decir, la cantidad en que aumenta (o disminuye) el promedio de

por cada aumento unitario de .
Si la relación entre las variables es directa y mide el incremento de la variable

dependiente por cada aumento de una unidad en la variable independiente. Si
la relación entre las variables es inversa y mide el decremento de la variable
dependiente por cada aumento de una unidad en la variable independiente o viceversa.
Si , nos indica que no existe relación lineal entre las dos variables
8. DISTRIBUCIÓN DEL COMPONENTE ALEATORIO DE ERROR.
En los ítems anteriores se establecieron los dos primeros pasos del modelado de
regresión: se ha supuesto la forma de y empleado los datos de la muestra para
estimar los parámetros desconocidos en el modelo. La estimación de cuadrados
mínimos de es
En el paso 3, se debe especificar la distribución de probabilidad del término de error

aleatorio y estimar cualquier parámetro desconocido de esa distribución.
El componente aleatorio de error está distribuido normalmente con promedio cero y

varianza constante . Los errores asociados con distintas observaciones
son independientes.
Para estimar se usa del modelo de mínimos cuadrados. La estimación de

se calcula dividiendo la entre el nº de grados de libertad asociados con el
componente de error. Se utilizan 2 grados de libertad para estimar la ordenada en el
origen y la pendiente del modelo de línea recta, y se deja grados de libertad
para estimar la varianza del error. Así
n 2
SSE y )  SS
s2 , en la cual SSE ( yi i SS yy 1 xy
n 2 i 1
y
17
n 2
n 2 n
yi
2 i 1
SS yy ( yi yi ) y i
i 1 n i 1
En el ejemplo del contenido medio de alquitrán,
SSE 2093.43
s2 261.68
n 2 8
y s s2 261.68 16.18
9. PROPIEDADES DE LOS ESTIMADORES DE MÍNIMOS CUADRADOS.
En lo que sigue, se demuestra que el estimador es insesgado para y se muestran

las varianzas para . Esto iniciará una serie de desarrollos que conducen a la
prueba de hipótesis y a la estimación del intervalo de confianza sobre la pendiente y la
intersección.
9.1 Demostración De Que Es Insesgado.

n
( xi x)(Yi Y)
 SS xy i 1
1 n
SS xx
( xi x) 2
i 1
Utilizando los siguientes criterios:
a.
b.
c.
Se encuentra que,
n
( xi x)(Yi Y) n
1
E( 1 ) E i 1
n
E( 1 ) n
( xi x) E (Yi Y)
2 2 i 1
( xi x) ( xi x)
i 1 i 1
n
1
E( 1 ) ( xi x) E[( 0 x
1 i i ) ( 0 x
1 i i )]
SS xx i 1
n n
1 1
E( 1 ) ( xi x)[ 1 ( xi xi )] E( 1 ) ( xi x)[ 1 ( xi xi )]
SS xx i 1 SS xx i 1
18
SS xx
E( 1 ) 1 E( 1 ) 1
SS xx
Lo cual demuestra que  1 es un estimador insesgado de 1 . Asimismo
9.2 Deducción De La Varianza de  1 y ecuación para la varianza de
n
( xi x)(Yi Y) n
1
2
Var ( 1 ) Var i 1
n
2
2
Var ( xi x)(Yi Y)
1 1 n
2 i 1
( xi x) ( xi x) 2
i 1 i 1
n n n
2 1
( xi x) 2 Var (Yi Y) ( xi x)( x j x)Cov (Yi Y ), (Y j Y)
1 SS xx2 i 1 i 1 j 1
Tenemos que
Var (Yi Y ) Var ( 0 x
1 i i ) ( 0 1 xi i ) Var (Yi Y ) Var ( i )
2 2 2
2 2
Var (Yi Y) 2
n n n
y
Cov (Yi Y ), (Y j Y) Cov ( i ), ( j ) Cov( i ) Cov( j ) Var ( )
2 2 2 2
Cov (Yi Y ), (Y j Y)
n n n n
Se han empleado los siguientes hechos:
2
a. Var ( i )
b. Cov( i , j ) 0, i j
n
i
i 1 1 n
n 2 2
c. Var ( ) Var Var ( i )
n n2 i 1 n2 n
j 2
j 1 Var ( i )
d. Cov( i , ) Cov i,
n n n
De esta forma,
19
n 2 n n 2
2 1 2 2
( xi x) ( ) ( xi x)( x j x)
1 SS xx2 i 1 n i 1 j 1 n
2 n 2 2 n
2 1 2
SS xx ( xi x) , utilizando ( xi x) 0
1 SS xx2 n i 1 SS xx i 1
Por lo tanto la desviación estándar de  1 es

SS xx
n
xi 2
La varianza de  0 es n
i 1 2
n ( xi x)2
i 1
10. INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN
10.1 Prueba De Hipótesis Sobre La Pendiente
En el paso nº 4 se debe comprobar en forma estadística la adecuación del modelo.

Teniendo especificada la distribución de probabilidad de y estimado al varianza , se
pueden hacer inferencias estadísticas acerca de la adecuación del modelo para
representar el promedio y para poder predecir los valores de para valores dados
de .
Es posible observar que, si en el modelo de regresión lineal la pendiente es cero,
entonces la variable no tiene ningún efecto sobre la variable . En este caso diremos
que no es una variable explicativa del modelo. Esto significa que el promedio
No se modifica cuando cambia . En este modelo de línea recta, lo anterior significa

que la pendiente verdadera es igual a cero. Entonces, si , el modelo es
simplemente . Por lo tanto, para probar la hipótesis nula de que no
contribuye con información para predecir , contra la hipótesis alternativa que esas
variables se relacionan en forma lineal con una pendiente diferente de cero, se
contrasta
Comparándola con
20
Si los datos respaldan la hipótesis alternativa, se llega a la conclusión de que si

aporta información para predecir a empleando el modelo la línea recta.
Se encuentra la medida estadística de prueba si se considera la distribución de
muestreo de , el estimador de mínimos cuadrados de la pendiente .
Si se supone que los componentes de error son variables aleatorias normales,

independientes, con media cero y varianza constante, la distribución de muestreo del
estimador de mínimos cuadrados de la pendiente será normal, con promedio y
desviación estándar
SS xx
Como la desviación estándar de , que es se desconoce en general, normalmente la

medida estadística de prueba adecuada será una distribución de Student que se
forma así:
Donde , la desviación estándar estimada de la distribución de muestreo

de . En general, se prueba la hipótesis nula , de manera que la estadística
se vuelve
Para el ejemplo del contenido de alquitrán en el flujo saliente en un proceso químico

tenemos:
Se escoge ,
La prueba es de dos Colas; tanto a la derecha, como a la izquierda.
21
La región de rechazo es:
Anteriormente se calculó , y
Como este valor de calculado está en la región de rechazo en la cola superior, se

rechaza la hipótesis nula y se llega a la conclusión de que la pendiente no es cero.
La evidencia no respalda la afirmación, entonces se concluye que la temperatura de
entrada si influye en el contenido medio de alquitrán en flujo de salida en un proceso
químico.
10.2 Intervalo De Confianza 100(1- )% Para La Pendiente
 Para ambas colas

 Para cola a la derecha
 Para cola a la izquierda
Puesto que,
Donde
Este intervalo está centrado en la estimación puntual del parámetro, es decir, en , y la

cantidad en la que se alarga a cada lado de la estimación depende del nivel deseado de
confianza, (mediante el valor crítico ta/2, n - 2) y de la variabilidad del estimador
(mediante ).
Para el ejemplo, el intervalo de confianza de para la pendiente es
22
Este intervalo de confianza confirma la conclusión de la prueba de hipótesis nula,

porque significa que la pendiente verdadera está entre .
11. COEFICIENTE DE DETERMINACIÓN
La medida más importante de la bondad del ajuste es el coeficiente de determinación

R2. Este coeficiente nos indica el grado de ajuste de la recta de regresión a los valores
de la muestra, y se define como la proporción de varianza explicada por la recta de
regresión, es decir:
SS yy SSE SSE SCR

R2 1
SS yy SS yy SS yy
Donde es la suma de cuadrados para la regresión.
En el ejemplo
23
Esto significa que la variabilidad muestral del contenido de alquitrán con respecto a su
promedio se reduce en cuando se modela el contenido de alquitrán como función
lineal de la temperatura de entrada diaria.
12. COEFICIENTE DE CORRELACIÓN.
Se suele decir que X e Y tienen una relación positiva si los valores grandes de X están
aparejados con valores grandes de Y y valores pequeños de X, con valores pequeños
de Y. De manera análoga, se dice que X e Y tienen una relación negativa si los valores
grandes de X están aparejados con los valores pequeños de Y y los pequeños de X,
con grandes de Y.
24
Correlación Negativa Perfecta
Correlación Positiva Perfecta
No Existe Correlación.
25
BIBLIOGRAFÍA
[1] MCCLAVE, SCHEAFFER, Probabilidad Y Estadística Para Ingeniería,

Iberoamericana.
[2] WALPOLE, RONALD, Probabilidad Y Estadística Para Ingenieros, Sexta Edición,
1999.
26

Regresión Lineal Simple

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresión Lineal Simple

Uploaded by

Copyright:

Available Formats

REGRESIÓN LINEAL SIMPLE

MONTERO PÉREZ JAIRO ANDRÉS

Cuando se posee información acerca de dos o más variables relacionadas, es natural

Analizar, describir e interpretar el tópico de regresión lineal simple, reconociéndolo

 Identificar las variables fundamentales del modelo de regresión lineal simple.

REGRESIÓN LINEAL SIMPLE

Con frecuencia nos encontramos en ingeniería con modelos en el que el

Si consideramos que la relación que liga con , es lineal, entonces la relación

Que corresponde a la ecuación de regresión de población, donde los coeficientes de

1.1 Forma General de los modelos Probabilísticos.

2. FUNCIÓN DE REGRESIÓN POBLACIONAL. (Modelo probabilístico de la recta)

Una función de regresión poblacional es la unión de los promedios condicionales de la

Si es una función lineal de , se tiene:

Donde es el componente aleatorio de error. Este se puede considerar como una

Que es la función de regresión poblacional. La expresión anterior refleja una relación

3. FUNCIÓN DE REGRESIÓN MUESTRAL.

Generalmente es necesario trabajar con información muestral y no poblacional, por lo

4. PASOS PARA REALIZAR EL ANÁLISIS DE REGRESIÓN.

Resulta útil imaginarse que el análisis de regresión es un procedimiento de cinco pasos:

 Paso 1: Suponer la forma que tiene el promedio (componente determinista del

Ejemplos de diagramas de dispersión

Supóngase que se realizó un estudio sobre la relación entre el contenido promedio de

6. ESTIMACIÓN DE LOS COEFICIENTES DEL MODELO: MÉTODO DE LOS

, también recibe el nombre de residuo, describe el error en el ajuste del

y se desea emplear los datos de la muestra para calcular . Un método, el de los

Se reduzca al mínimo. Se puede obtener la forma de este estimador derivando a

Para los datos de la el promedio muestral es:

Presúmase ahora que se decide modelar el contenido promedio de alquitrán en el flujo

el contenido promedio de alquitrán como función lineal de . Los datos aparecen

y se quiere usar los datos de la muestra para estimar la ordenada en el origen y la

Se reduzca al mínimo. Se deriva con respecto a , se igualan los resultados a

Entonces, la solución viene dada por:

En donde, SS xy / n es la covarianza muestral de las observaciones y SS xx (n 1)

Para los datos de la

1 95 214 218.31 -4.31 18.58

Entonces la recta de regresión, obtenida por mínimos cuadrados es , la

250 y = 6,7175x - 419,85

Además de que estimados, minimizan la suma de cuadrados de los residuos;

7. INTERPRETACIÓN DE LOS COEFICIENTES ESTIMADOS.

Es la ordena en el origen, es decir el punto donde la recta corta o interseca el eje .

Es el valor promedio de la variable dependiente cuando la independiente vale cero.

Es la pendiente, es decir, la cantidad en que aumenta (o disminuye) el promedio de

Si la relación entre las variables es directa y mide el incremento de la variable

8. DISTRIBUCIÓN DEL COMPONENTE ALEATORIO DE ERROR.

En el paso 3, se debe especificar la distribución de probabilidad del término de error

El componente aleatorio de error está distribuido normalmente con promedio cero y

Para estimar se usa del modelo de mínimos cuadrados. La estimación de

9. PROPIEDADES DE LOS ESTIMADORES DE MÍNIMOS CUADRADOS.

En lo que sigue, se demuestra que el estimador es insesgado para y se muestran

9.1 Demostración De Que Es Insesgado.

Lo cual demuestra que  1 es un estimador insesgado de 1 . Asimismo

9.2 Deducción De La Varianza de  1 y ecuación para la varianza de

Por lo tanto la desviación estándar de  1 es

10. INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN

10.1 Prueba De Hipótesis Sobre La Pendiente

En el paso nº 4 se debe comprobar en forma estadística la adecuación del modelo.

No se modifica cuando cambia . En este modelo de línea recta, lo anterior significa

Si los datos respaldan la hipótesis alternativa, se llega a la conclusión de que si

Si se supone que los componentes de error son variables aleatorias normales,

Como la desviación estándar de , que es se desconoce en general, normalmente la

Donde , la desviación estándar estimada de la distribución de muestreo

Para el ejemplo del contenido de alquitrán en el flujo saliente en un proceso químico

La prueba es de dos Colas; tanto a la derecha, como a la izquierda.