Professional Documents
Culture Documents
=
n
x
x SS
x
2
2
( )
=
n
y
y SS
y
2
2
( )( )
=
n
y x
xy SS
xy
-gina @
+ + = x y
1 0
ANLISIS DE REGRESIN
x
xy
SS
SS
b =
1
x b y b
1 0
=
Donde0
SS E suma de cuadrados
b5 E pendiente
b3 E ordenada al origen
n E n1mero de pares de datos
En la tabla incluimos las sumatorias )ue utili'aremos para el clculo de las frmulas!
,alculando b3 # b5 tenemos0
SS& E 52>2!23
SS# E 9=!99
SS&# E H=5=!=2
b5 E H3!5@:>=
b3 E :C!@8388
La ecuacin de prediccin de mFnimos cuadrados es0
.
1 0
x b b y + = EI
x y 37472 . 0 30 . 4! =
Error
Los errores se denominan frecuentemente residuales! -odemos observar en la grfica de
regresin los errores indicados por segmentos verticales!
-gina :
Gr%&i!a de la e!ua!in de regresin
# E:C!@85 H3!5@:>&
3
53
=3
@3
:3
23
3 23 533 523
'aria"le (
)
J
Lineal "J.
coc$es compactos tama7o del motor "pcd. & millas?galn "mpg.% # &K= #K= &#
,$evrolet ,avalier 5=5 @3 5:C:5 833 @C@3
Datsun Nissan Stan'a 5=3 @5 5::33 8C5 @>=3
Dodge Amni 8> @: 8:38 552C @=89
Bord Escort 89 => 8C3: >=8 =C:C
4a'da C=C 5== =8 5:99: 9:5 @2@9
-l#mout$ Dori'on 8> @: 8:38 552C @=89
Renault Alliance?Encore 92 @9 >==2 5::: @=@3
*o#ota ,orolla 5== @= 5:99: 53=: @83:
S/4AS 9C= =22 8::2C 9=55 =>=C:
4edia 53>!>2 @5!9>2
ANLISIS DE REGRESIN
-gina 2
LMu+ tan normales
son los residualesN
LResiduales individuales H
tendencias; o separados?
Distograma H
c!r"a de
ca#pana?
$%n&rese
para %r!pos
pe'!e(os de
in)or#aci&n
(*3+)
,-eatorio
a-rededor de
cero, sin
tendencias?
*us!ar las in!onsisten!ias
ma+ores
*us!ar las in!onsisten!ias
ma+ores
Diagnstico del 4odelo de Residuales
Grfica Normal de Residuales *abla de Residuales
Distograma de Residuales Residuales vs! A(ustes
4arcador Normal
N1mero de Abservacin
A(uste
B
r
e
c
u
e
n
c
ia
52 53 2 3 H2 H53 H52 H=3 H=2
@
=
5
3
53 2 3
23
:3
@3
=3
53
3
H53
H=3
H@3
H:3
H23
OE3!333
@!3SLE:@!=C
H@!3SLEH:@!=C
223 233 :23
=3
53
3
H53
H=3
= 5 3 H5 H=
=3
53
3
H53
H=3
52 53 2 3 H2 H53 H52 H=3 H=2
@
=
5
3
53 2 3
23
:3
@3
=3
53
3
H53
H=3
H@3
H:3
H23
OE3!333
@!3SLE:@!=C
H@!3SLEH:@!=C
223 233 :23
=3
53
3
H53
H=3
= 5 3 H5 H=
=3
53
3
H53
H=3
R
e
s
i
d
u
a
l
R
e
s
i
d
u
a
l
R
e
s
i
d
u
a
l
Al usar el criterio de mFnimos cuadrados para obtener la recta )ue me(or se a(uste a nuestros
datos% podemos obtener el valor mFnimo para la suma de cuadrados del error "SSE.
xy y
SS b SS SSE
1
=
A la varian'a de los errores e se le llama ,arian-a residual siendo denotada por
2
e
s % se encuentra
dividiendo SSE entre nH=
2
2
=
n
SSE
S
e
La raF' cuadrada positiva de la varian'a residual se llama error est%ndar de estima!in # se
denota por Se!
Aplicando las frmulas en obtenemos la suma de cuadrados del error% la varian'a residual # el
error estndar de la estimacin0
SSE E 9=!99H"H3!5@:>=."H=5=!=2. E2:!=9:8
047" .
!
2#4 . "4
2
= =
e
S
Se E @!33>
Ejemplo . /na firma de renta de coc$es recab los datos ad(untos sobre los costos de
mantenimiento y% # las millas recorridas x para siete de sus automviles!
Encuentre0
a. /na estimacin puntual para
0
!
b. /na estimacin puntual para
. 1
!
d. /na estimacin puntual para el costo promedio del mantenimiento de un coc$e con @C%333
millas recorridas!
e. -rediga el costo para un coc$e con =8%333 millas recorridas!
Automvil 4illas recorridas x ,ostos de manteniH
en miles miento y "dlares.
A 22 =88
P => 5C3
, @C =52
D := =22
E C2 @23
B :9 =>2
G =8 =3>
Automvil x y &K= #K= &#
A 22 =88 @3=2 98:35 5C::2
P => 5C3 >=8 =2C33 :@=3
, @C =52 5=8C :C==2 >>:3
D := =22 5>C: C23=2 53>53
E C2 @23 :==2 5==233 ==>23
B :9 =>2 =@3: >2C=2 5@=33
G =8 =3> 9:5 :=9:8 C33@
Suma @3= 5>C5 5:59: :C>==2 955C9
4edia :@!5: =25!2>
ANLISIS DE REGRESIN
SS& E 552:!9C
SS# E =:=3>!>5
SS&# E 258@!:@
b5 E :!:8>3
b3 E2>!22C>
SSE E 92=!>3
2
e
S E 5>3!2:
# E 2>!22C> Q :!:8>&
a. b3 E2>!22C>
b. b5 E :!:8>3
c.
2
e
S E 5>3!2:
d. 2>!22C> Q :!:8>"@C. E =58!:: usd
e. 2>!22C> Q :!:8>"=8. E 59>!8C usd
In&eren!ias so"re el modelo de regresin lineal/
-ara usar la ecuacin de regresin x y
1 0
+ = % con propsitos de prediccin% )ueremos estar
ra'onablemente seguros de )ue la pendiente
1
de la ecuacin de regresin
( ) x x y E
1 0
+ = no es cero! Ja )ue si 0
1
= % entonces para cual)uier valor de &% ( ) x y E
serFa id+ntica a
0
% como se muestra en la figura! Siendo este el caso el modelo no serFa
apropiado!
,on el propsito de determinar si la pendiente de la regresin poblacional es diferente de cero%
separemos SS# en dos componentes% SSE # SSR!
*enemos la siguiente relacin0
SS# E SSE Q SSR
Donde0
SSE E Suma de cuadrados del error
SSR E Suma de cuadrados de la regresin
SSE E SS#Hb5SS&#
SSR E b5SS#
-gina 9
ANLISIS DE REGRESIN
-rueba de $iptesis utili'ando la distribucin B
Si fuera cierta 0 $
1 0
= H % el estadFstico B servirFa como estadFstico de prueba0 B est definido
como0
2
e
S
SSR
F =
,on gl E "5%nH=.% se puede usar el estadFstico B para determinar si
1
es diferente de cero! Si la
pendiente de la ecuacin de regresin poblacional es diferente de cero% entonces la ecuacin se
puede usar con propsitos de prediccin!
Ejemplo 0 -ara los datos del e(emplo 5 $aga una prueba para determinar si 0
1
% usando
0" . 0 =
0 $
0 $
1 1
1 0
H
H
En el e(emplo 5 # = obtuvimos los siguientes valores0
SS&# E H=5=!=2
b5 E H3!5@:>=
047" .
2
=
e
S
La suma de cuadrados para la regresin SSR se calcula mediante0
SSR E b5SS&# E "H=5=!=2."H3!5@:>. E=9!2835
Dallamos el estadFstico de prueba B0
2
e
S
SSR
F =
E 1! . 3
047" .
"01 . 2#
=
Se encuentra el valor crFtico = % 2 , 1 & n F
H
H
-gina 8
ANLISIS DE REGRESIN
SSx Se
b
t
1
=
E
777" . 1
" . 1"7" 047" .
1347 . 0
=
Anlisis de residuos0 muestra los pronsticos # residuos para cada observacin% asF como
el grfico de residuales% en el cual observamos inconsistencias #a )ue la ma#orFa de los
puntos se encuentran en la regin positiva!
ANLISIS DE REGRESIN
AN7LISIS DE REGRESIN M8L9IPLE
En ocasiones la informacin de una variable independiente no es suficiente% por e(emplo en el caso
de los autos compactos adems de tener la variable del tama7o del motor% podrFamos tener otras
variables% )ue nos permitan tener ma#or informacin como por e(emplo el peso del coc$e% el tipo
de recorrido% el tama7o de las llantas% estos factores tambi+n influ#en sobre la ra'n del consumo
de gasolina!
,uando se usa ms de una variable independiente para predecir los valores de una variable
dependiente% el proceso se llama anlisis de regresin m1ltiple% inclu#e el uso de ecuaciones
lineales # no lineales% en este estudio nos ocuparemos de las ecuaciones de regresin lineales!
Ejemplo : 4uc$os programas de estudios prem+dicos usan los promedios de las calificaciones del
4,A* de los estudiantes egresados como un indicador de la calidad de sus programas! Las
variables )ue se sabe influencian esos promedios del 4,A*"y) son0 la combinacin de las
calificaciones del SA* en matemticas # en oratoria "x1. # el G-A (x2) de los prospectos a m+dicos!
La tabla muestra las medidas de x1, x2 # y de seis estudiantes )ue $an cursado un programa de
premedicina # )ue $an presentado el 4,A*
,on esta informacin podemos encontrar una ecuacin lineal )ue nos permita predecir el promedio
de calificaciones del 4,A* para un estudiante si se conocen su G-A # su calificacin combinada
del SA*!
La ecuacin lineal para los datos del e(emplo tiene la forma .
2 2 1 1 0
x b x b b y + + = Es posible
encontrar los valores de b3% b5% # b= usando el m+todo de mFnimos cuadrados% al igual )ue en el
m+todo de regresin lineal simple! El m+todo en este caso re)uiere resolver tres ecuaciones
lineales con tres incgnitas% estas ecuaciones% conocidas como ecuaciones normales% son0
( ) ( )
+ + =
2 2 1 1 0
x b x b nb y
( ) ( ) ( )
+ + =
2
2 2
2
1 1 1 0 1
x b x b x b y x
( ) ( ) ( )
+ + =
2
2 2 2 1 1 2 0 2
x b x x b x b y x
-gina 59
,alificacin ,alificacin proH
Estudiante SA* "O5. G-A "O=. medio del 4,A* "J.
5 5=33 @!9 5=!:
= 5@23 @!: 5@!@
@ 5333 =!8 8!=
: 5=23 @!@ 53!C
2 5:=2 @!8 5@!=
C 5@:3 @!5 55!=
La siguiente tabla organi'a los clculos para obtener las ecuaciones0
Las ecuaciones normales para este e(emplo son0
2 1 0
2 1 0
2 1 0
12 . 70 " . ##! , 2" 4 . 20 2 . 240
" . ##! , 2" 22" , !"1 , 7"!" 103 , #
4 . 20 "!" , 7 ! . !
b b b
b b b
b b b
+ + =
+ + =
+ + =
Resolviendo el sistema de ecuaciones lineales obtenemos0
b3 E H=!2@>% b5E3!332:=2% b= E =!5C5!
La ecuacin de regresin es0
2 1
1!1 . 2 00"42" . 0 "37 . 2 x x y + + =
Suma de !uadrados
La suma total de cuadrados SS*% se descompone en dos componentes0 suma de cuadrados para
la regresin% # suma de cuadrados del error!
SS* E SSR Q SSE
La suma de cuadrados para la regresin es a)uella parte de la suma total de cuadrados )ue se
atribu#e a las variables independientes! 4ientras )ue la suma de cuadrados del error es a)uella
porcin de la suma de cuadrados total # )ue no se debe a las variables independientes% por ello se
llama suma de cuadrados del error!
( )
= = "0 . 12
2
y y SST
( ) 2403 . 2
2
= =
y y SSE
7"47 . 10 = = SSE SST SSR
Grados de li"ertad para la regresin
% 1 &
1
+ =
=
=
+ =
k n gl
k gl
n gl
gl gl gl
E
R
T
E R T
donde0
U E n1mero de variables independientes
$%l!ulo de !uadrados medios
O5 O= J O5K= O=K= O5O= O5J O=J
5=33 @!9 5=!: 5::3333 5:!:: :2C3 5:993 :>!5=
5@23 @!: 5@!@ 59==233 55!2C :283 5>822 :2!==
5333 =!8 8!= 5333333 9!:5 =833 8=33 =C!C9
5=23 @!@ 53!C 52C=233 53!98 :5=2 5@=23 @:!89
5:=2 @!8 5@!= =3@3C=2 52!=5 222>!2 59953 25!:9
5@:3 @!5 55!= 5>82C33 8!C5 :52: 52339 @:!>=
>2C2 =3!: C8!8 8C25==2 >3!5= =299C!2 9853@ =:3!=
ANLISIS DE REGRESIN
3773 . "
2
7"47 . 10
= = =
R
gl
SSR
MSR
74!# . 0
3
2403 . 2
= = =
E
gl
SSE
MSE
Donde0
4SRE ,uadrado medio de la regresin
4SEE ,uadrado medio del error!
Prue"a de ;iptesis
-ara determinar si el modelo lineal describe adecuadamente los datos% se usa la prueba B!
-ara los datos del e(emplo las $iptesis son0
0 2 1 0
$ = = H
0 0 $
2 1 1
o H
El valor del estadFstico B se encuentra dividiendo 4SR entre 4SE!
20 . 7
74!# . 0
3773 . "
= = =
MSE
MSR
F
Puscando el valor crFtico para ( ) 4 , 1 % 2 , 1 &
0" . 0
F n F =
E>!>5!
,omo >!>5 I >!=3 no podemos rec$a'ar D3% lo cual nos indica )ue podrFa ser arriesgado utili'ar la
ecuacin de regresin con propsitos predictivos!
$oe&i!iente de determina!in m<ltiple
SST
SSR
R =
2
/tili'ando los datos del e(emplo0
' # . #2 #27! . 0
" . 12
7"47 . 10
2
= = R
Esto significa )ue apro&imadamente el 9@V de la variacin en el promedio de las calificaciones se
atribu#e a la variacin de las variables independientes # solamente el 5>V de la variacin de la
variable dependiente no se atribu#e a eso!
Regresin m<ltiple en Minita"
-gina =3
ANLISIS DE REGRESIN
Ejemplo = La tabla enlista el consumo de combustible en millas por galn ba(o condiciones
normales de mane(o% los pesos de los coc$es en libras # la capacidad del motor en cc
para seis coc$es deportivos modelo 5883!
C(che de)(rti*( Ca)acidad +es( C(nsum(
Che*r(,et "73" 3330 17,
-agiar ./0S "344 401" 1#,7
1ercedes02en3 "00 S4 2174 2#!" 1!,"
+(rsche 11 3!00 3320 17
1aserrati 22# 270 3020 1","
21W 32"i 244 3100 22
a. Determine una ecuacin de regresin para predecir el promedio de consumo de
combustible usando la capacidad del motor # el peso% # calcule el coeficiente de
determinacin R
=
!
/na ve' capturados los datos de las variables en 4initab seleccionamos
S9A9>REGRESIN>REGRESIN # se presenta la siguiente pantalla
Seleccionamos la variable de respuesta "response) )ue corresponde a la ,olumna @ 33, # las
variables de prediccin (predictors)0 31 y 32.
-gina =5
ANLISIS DE REGRESIN
Damos ,lic en el Icono 4rap5s, # en la opcin grficos de residuos ;resid!a- p-ots de(amos la
opcin )ue el sistema da por de fault0 ;6e%!-ar. # seleccionamos la opcin resid!a- "s. )its y
nor#a- p-ot o) resid!a-s. *ambi+n e&isten otras opciones de grficos )ue podemos usar en caso de
ser necesario!
-gina ==
ANLISIS DE REGRESIN
En la opcin Resultados ;6es!-ts seleccionamos el circulo0 6e%resi&n e'!ation....
Damos clic en oU!
Regression Anal+sis
*$e regression e)uation is
,@ E 53%8 H 3%33323 ,5 Q 3%33=>3 ,=
-redictor ,oef StDev * -
,onstant 53%85 5=%83 3%92 3%:C3
,5 H3%333:8C 3%335@=8 H3%@> 3%>@:
,= 3%33=>3= 3%33:89= 3%2: 3%C=2
S E =%932 RHS) E 8%5V RHS)"ad(. E 3%3V
Anal#sis of Gariance
Source DB SS 4S B -
Regression = =%@C9 5%59: 3%52 3%9CC
Residual Error @ =@%C32 >%9C9
*otal 2 =2%8>@
Anali'ando los resultados tenemos0
De la tabla resultante podemos determinar )ue la ecuacin de Regresin es J E 53!8 S
3!33323O5Q!33=>3O=
Donde O5 representa el tama7o del motor "capacidad. # O= el peso del coc$e% J representa el
rendimiento predic$o para el consumo del combustible!
El coeficiente de determinacin RHS) o R
=
es 8!5V # esto indica )ue el 8!5V de la variacin en el
consumo de combustible se atribu#e a la capacidad # al peso! El 83!8V no se atribu#e a estas
variables!
-gina =@
ANLISIS DE REGRESIN
E&aminando el valor del estadFstico B"BE3!52.% )ue es significativo al nivel - E 3!9CC concluimos
)ue el modelo no es adecuado para fines de predicciWn en un nivel 0" . 0 =
Anali'ando los grficos anteriores% podemos observar en el grafico de probabilidad )ue las
observaciones aparentan ser normales! Sin embargo en el grfico de residuales observamos una
tendencia #a )ue la ma#orFa de los puntos se encuentran a ba(o del cero!
-gina =:
: @ = 5 3 H5 H=
5
3
H5
N
o
r
m
a
l
S
c
o
r
e
Residual
Normal -robabilit# -lot of t$e Residuals
"response is ,@.
58 59 5>
:
@
=
5
3
H5
H=
Bitted Galue
R
e
s
i
d
u
a
l
Residuals Gersus t$e Bitted Galues
"response is ,@.