You are on page 1of 26

Tercera

Parte
Regresión Lineal

Y = a + bX + c

Y es llamada la variable de respuesta o dependiente


X es llamada la variable predictora o independiente
a es el intercepto de la línea con el eje Y y
b es la pendiente de la línea de regresión
c es un error aleatorio, el cual se supone que tiene media 0 y varianza constante 2.
El estimado  de a y el estimado  de b son hallados usando el método de mínimos
cuadrados, que se basa en minimizar la suma de cuadrado de los errores
n n

  i
e 
i 1
( 2
y
i  a 
i 1
bxi ) 2
. Usando técnicas de cálculo diferencial para minimizar una

función de dos variables a y b se obtienen:

s xy
   yx
s xx


la ecuación Y    X es llemada la línea de regresión estimada, para obtener esta línea en
Ejemplo 1. Se desea hallar una línea de regresión que permita predecir el precio de una
casa (Y) basado en el áreas de la misma ( X) .Se recolectaron 15 datos.

Casa Area Precio Casa Area Precio Casa Area Precio


1 3060 179000 6 1956 164000 11 2025 160000
2 1600 126500 7 2400 146000 12 1800 152000
3 2000 134500 8 1200 129000 13 1100 122500
4 1300 125000 9 1800 135000 14 3000 220000
5 2000 142000 10 1248 118500 15 2000 141000
En la ventanita Response se entra la variable de respuesta Y, en la ventana de Predictors se
entra la variable independiente X.

El botón Results permite controlar los resultados que aparecerán en la ventana session. Hay
4 alternativas para controlar la salida según se muestra en la Figura 1.

El botón Storage permite guardar algunas medidas importantes que aparecen el análisis de
regresión y que posteriormente se pueden usar, por ejemplo en el análisis de residuales.
Regression Analysis

The regression equation is


Precio = 73168 + 38.5 Area

Predictor Coef StDev T P


Constant 73168 12674 5.77 0.000
Area 38.523 6.391 6.03 0.000

S = 14118 R-Sq = 73.6% R-Sq(adj) = 71.6%

Analysis of Variance

Source DF SS MS F P
Regression 1 7241245891 7241245891 36.33 0.000
Residual Error 13 2591087442 199314419
Total 14 9832333333

Unusual Observations
Obs Area Precio Fit StDev Fit Residual St Resid
14 3000 220000 188737 7923 31263 2.68R

R denotes an observation with a large standardized residual


Interpretación de los
coeficientes de regresión
Interpretación de a:
Indica el valor promedio de la variable de respuesta Y cuando X es cero. Aunque algunas
veces ésta interpretación no tiene lógica. En el ejemplo anterior a = 73.168 indicaría que si
la casa no tiene área su precio promedio será 73,158, lo cual no suena muy razonable. Lo
más lógico aquí es hallar una línea de regresión que no tenga intercepto.

Interpretación de b:
Indica el cambio promedio en la variable de respuesta Y cuando X aumenta en una unidad
adicional. En el ejemplo anterior indica que por cada pie cuadrado adicional de la casa su
precio aumentará en promedio en 38.5 dólares.
Inferencia en Regresión
Lineal
Se pueden hacer prueba de hipótesis acerca del intercepto a y de la pendiente b de la línea
de regresión poblacional. Lo más frecuente es tratar de probar las hipótesis :

Ho: a=oversus Ha: a=0; y


Ho: b=0versus Ha: b=0.

Enambos casos laprueba estadísticaque seusaes unaprueba de t de Student. Paraqueesta


pruebasea válidadse debeasumir quelos errores e, se distribuyenenformanormal. Sólo
discutiremos laprueba dehipótesis paralapendiente. Lapruebaestadística será:

 
t 
s.e.( ) s
Sxx
n 
i1
( y i  y i )2
L a c u a l s e d is trib u y e c o m o u n a t c o n n -2 g ra d o s d e lib e rta d . A q u í s  e s la
n 2
n n

d e s v ia c ió n e s tá n d a r d e l e rro r " y " S xx  


i 1
x  (  x i2 ) 2 / n e s l a s u m a d e c u a d r a d o s
i
2

i 1

c o rre g id a d e la v a ria b le X .

E n e l e j e m p l o 1 , s = 1 4 .1 1 8 y s . e (  )  s / s xx  6 . 391
En MINITAB aparece el valor de la prueba estadística y el " p-value" de la prueba, él cual
se puede usar para llegar a una decisión. Un " p-value" cercano a 0, digamos menor que
0.05 lleva a la conclusión de rechazar la hipótesis nula. Si se rechaza la hipótesis nula
quiere decir que de alguna manera la variable X es importante para predecir el valor de Y.
En cambio si se acepta la hipótesis nula se llega a la conclusión de que la variable X no es
importante para predecir el comportamiento Y.

En el Ejemplo 1 el valor de la prueba estadística de t es 6.03 y el P= value= .0000 por lo


que se rechaza la hipótesis nula. Luego hay suficiente evidencia estadística para concluir
que la variable área de la casa puede ser usada para predecir el precio de la casa.
ANVA para regresión lineal
simple

El análisis de varianza que fue introducida por Fisher, consiste en descomponer la variación
total de una variable en varias partes , cada una de las cuales es llamada una fuente de
variación . En el caso de regresión , la descomposición de la variación de la variable de
respuesta Y es como sigue:

VAR. TOTAL DE Y = VAR. DEBIDO A LA REGRESION + VAR. DEBIDO AL ERROR


Cada variación es representada por una suma de cuadrados, definidas
de la siguiente manera:
n

Suma de Cuadrados Total = SST= i


2
( y  y )
i1
n 
Suma de Cuadrados de Regresión =SSR=  i
2
( y  y )
i1

n 
Suma de Cuadrados del Error =SSE= i
2
( y  y )
i1
Cada una de estas sumas de cuadrados tiene una distribución Ji - Cuadrado, SSR tienen
una distribución Ji- Cuadrado No central con 1 grado de libertad, SSE tiene una
distribución Ji- Cuadrado con n-2 grado de libertad y SST se comporta como un Ji-
Cuadrado con n-1 grados de libertad. Al dividir las sumas de cuadrados por sus grados de
libertad se obtienen los Cuadrados Medios. Si la hipótesis de que la pendiente b es 0 es
cierta entonces la división del cuadrado medio de la regresión por el cuadrado medio del
error se distribuye como una F con 1 grado de libertad en el numerador y n-2 en el
denominador. Luego la hipótesis Ho: b= o se rechaza si el "p-value" de la prueba de F es
menor que .05.

Fuentes de variación Grados de Suma de Cuadrados F


Libertad Cuadrados Medios
Debido a la regresión 1 SSR MSR=SSR/1 MSR/MSE
Error n-2 SSE MSE=SSE/n-2
Total n-1 SST

En el ejemplo 1 anterior la prueba de F es 36.33 y el " P-value" = .0000, por lo que se


2
rechaza la hipótesis Nula,. Notar que el valor de la prueba de F= 36.33 = (6.03) es el
cuadrado de la prueba t.
Coeficiente de
Determinación
2
El coeficiente de determinación(R) es una medida de la bondaddel modelode regresión
hallado. Se calcula por:
2 SSR
R 
SST
Donde SSRrepresenta la suma de cuadrado debido a la regresión y SSTrepresenta la suma
de cuadrado del total. El coeficiente de Determinación varia entre 0 y 1 , aunque es bastante
2
común expresarlo en porcentaje Un R mayor del 70% indica una buena asociación lineal
entre las variables yla variable Xse puede usar para predecir Y.
2
También R indica que porcentaje de la variabilidad de la variable de respuesta. Y, es
explicada por surelaciónlineal conXmientras más alto sea este valor es la predicción de Y
usandoX.
Intervalos de Confianza para
el valor medio Y e Intervalo
de predicción
Dado un valor de la variable X se puede hallar un intervalo de confianza para el valor
medio de todos los valores Y correspondientes a dicho valor y también un intervalo de
confianza para el valor estimado de Y que le correspondería a la X dada, éste último es
llamado un intervalo de predicción.

Unintervalodeconfianzadel 100(1-)%parael valor mediodadoqueX=Xoesdela


forma:

1 (xo x
Yot(1/ 2,n2)s 
n Sxx
Un intervalo de confianza del 100(1-  )% para el valor predicho de Y dado que X=Xo es de
la forma:

1 ( xo  x
Y o  t ( 1   / 2 ,n  2 ) s 1  
n S xx
Es más riesgoso hacer predicciones para un solo valor que para un valor medio, por esta
razón el intervalo de predicción de Y, es más ancho que el intervalo de confianza para el
valor medio.

Es más riesgoso hacer predicciones para un solo valor que para un valor medio, por esta
razón el intervalo de predicción de Y, es más ancho que el intervalo de confianza para el
valor medio.
El botón Options de la ventana regression permite hallar estos intervalos de confianza. La
figura 4 muestra la ventana de diálogo que aparece cuando se oprime el botón Options. En
este ejemplo se trata de hacer estas predicciones cuando la casa tiene un área de 3500 pies
cuadrados.
En la ventana session aparecerá el siguiente resultado:
Predicted Values

Fit StDev Fit 95.0% CI 95.0% PI


207998 10861 ( 184536, 231461) ( 169518, 246479) X
X denotes a row with X values away from the center

Interpretación: Hay un 95% de confianza de que el valor medio de todas las casas de 3500
pies cuadrados de área se encuentre entre 1184.536 y 231.461.
Hay un 95% de confianza de que el valor de una casa de 3500 pies cuadrados se encuentre
entre 169.518 y 2246.479
Asimismo, la opción Fitted line Plot del menú de Regression permite hallar bandas de
confianza tanto para el valor predicho como para el valor medio de las Y. Con laas bandas
de confianza se pueden tener intervalos de confianzas para cualquier valor dado de X . Para
el presente ejemplo.
Bandas de Confianza
Y = 73167.7 + 38.5231X
R-Sq = 73.6 %

200000
Precio

150000

Regression
100000
95% CI
95% PI

1000 2000 3000

Area

N
o
t
ar
q
ue
l
a
sb
a
n
da
s
d
ec
o
n
fi
a
n
za
s
on
a
nc
h
as
e
nl
o
se
x
t
re
m
o
sy
a
n
go
s
t
a
se
n
el
c
e
nt
r
o.
E
n
r
e
a
l
id
a
d
la
s
b
an
d
as
a
n
go
s
t
a
nc
u
an
d
ol
o
s
va
l
or
e
s
de
Xq
u
es
e
t
om
a
n
es
t
á
nc
e
r
ca
d
el
p
r
o
me
d
i
oX
.
Análisis de los residuales

Unresidual es la diferencia entre el valor observadoyel valor estimadopor la línea de



regresión. Esdecir, rYY.

El residual puedeserconsideradocomoel errorobservado. Tambiénseacostumbraausar


el Residual estandarizado, el cual seobtieneal dividirel residual entreladesviación
estándardelosresiduales, queesigual a MSE yel Residual"deleted", queessimilar
alanteriorperoeliminandodeloscálculos laobservacióncuyoresidual sedeseahallar.
Se puede detectar:
a) Si efectivamente la relación entre las variables X y Y es lineal.
b) Si hay normalidad de los errores.
c) Si hay valores anormales en la distribución de errores.
d) Si hay varianza constante (propiedad de Homcedaticidad) y
e) Si hay independencia de los errores.
En esta manera cada plot de residual sale una ventana gráfica separada. Hay cinco
plots que se usan:
Plot de Normalidad
Histograma de Residuales
Plot de Residuales versus lso valores predichos (FITS)
Plot de Residuales versus el indice de la observación
Plot de residuales versus la variable predictora.
La segunda manera de obtener los plots de residuales es escogiendo primero el botón
Storage de la ventana de diálogo de Regression como aparece en la figura N° 8 para
almacenar los residuales y los valores estimados de la variable de respuesta (Fits).
Análisis de Residuales
Normal Plot of Residuals I Chart of Residuals
3 4
3.0SL=3.388
3
2 2

Residual

Residual
1
1
0 X=0.01614

0 -1
-2
-1 -3 -3.0SL=-3.355
-4
-2 -1 0 1 2 0 5 10 15
Normal Score Observation Number

Histogram of Residuals Residuals vs. Fits


4 3

2
3
Frequency

Residual
1
2
0
1
-1
0
-1.5-1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 120000
130000
140000
150000
160000
170000
180000
190000
Residual Fit

Interpretación: Los puntos del plot de normalidad no caen cerca de una línea recta y en el
extremo superior se detecta un outlier. Similarmente el histograma no es simétrico con un
pico central y también muestra un outlier en el extremo superior. En conclusión No Hay
Normalidad de los errores.
Elplot de residuales versus el índice de la observación muestra que, la observación 14 es un
"outlier" , pues el residual estandarizado cae más allá de dos. El plot de los residuales
versus los valores predichos muestra que la varianza de errores no es constante con respecto
a la variable de respuesta, pues tiende a aumentar cuando el valor de la variable de
respuesta aumenta.
Gracias...

Departamento de Calidad

You might also like