You are on page 1of 78

Econometria

Estimació

Dr. Toni Mora


MRLM

y = f (x1 , x 2 ,%, x k ) + g(x k +1 ,%, x n )


$!!#!! "
e

Distinció part aleatòria del model de la sistemàtica

yi = b1x i,1 + b2 x i,2 + ! + bk x i,k + ei


MRLM: especificació

l yi és la variable endògena o dependent, la variable a


explicar
l xj són les k variables exògenes (explicatives,
independents, control o regressors)
l bk són els paràmetres del model a estimar (pendents)
l ei és el terme de pertorbació del model
l i és el nombre d ’ individus, j és el nombre de
regressors
Els paràmetres: interpretació

l Són els efectes marginals dels regressors. Aquella variable que


presenti un coeficient superior serà la que més influencia en el
comportament de l’endògena, sempre i quan les unitats de
mesura coincideixin i el model estigui expressat en nivells
(sense cap mena de transformació).

l Per exemple b1 representa el canvi en la variable dependent


quan el primer regressor s’incrementa en una unitat mentre la
resta de regressors es mantenen constants.
¶y
= bj
¶x j
Criteri d’interpretació

Dŷ = Dbˆ 1x1 + Dbˆ 2 x 2 + ... + Dbˆ k x k

Mantenint x2,...,xk fixes

Dŷ = Dbˆ 1x1

És a dir, cada bj té una interpretació ceteris paribus


Coeficients beta

l Si les variables no estan expressades en les mateixes


unitats de mesura o
l No és possible transformar-les adequadament

Per a mesurar quina variable presenta major


influència cal calcular els coeficients beta
Obtenció dels coeficients beta

La major influència vindrà per un coeficient beta superior.


Poden obtenir-se mitjançant dues alternatives:

Sx j
ˆ
bj*
= bˆ j
Sy

* x i,1 * x i,2 * x i,k


yi = b 1 + b2 +!+ bk + e'i
Sx1 Sx 2 Sx k
Supòsits generals del MRLM

l Forma funcional del model


l Identificabilitat dels paràmetres
l Valor esperat de la pertorbació
l Variàncies i covariàncies de les pertorbacions
l Naturalesa de la mostra sobre les variables
independents
l Distribució de probabilitat de la part estocàstica
Supòsits MRLM: linealitat

b1 és un vector d’uns (terme constant)

y i = b1 + b 2 x i, 2 + ! + b k x i,k + e i
Y = Xb + e
La linealitat fa referència a la forma en que els
paràmetres i la pertorbació formen part de l’equació i
no necessàriament a la relació entre les variables (la
potència a la que s’eleva Xj)
Exemples linealitat en els paràmetres

y = b0 + b1x + e
y = b 0 + b1·(1 / x) + e Model
recíproc

y = b0 + b1x + b2 x 2 + e

y = b 0 + b1 x1 + b 2 x2 + b3 x1 x2 + e

No linealitat als paràmetres y = b0eb1x + e


Model logarítmic-lineal

K
y = eb1 x b22 x b3 3 ···x bkk e e = eb1 Õ
k =2
x bkk e e

ln y = b1 + b 2 ln x 2 + b3 ln x 3 +···+b k ln x k + e

¶y y ¶ ln y
= = bj Elasticitat constant, no varia davant
¶x j x j ¶ ln x j canvis a x

¶y y x jb j
= ¹ bj Això no succeeix al model lineal
¶x j x j x ' b + e
El model logístic

Davant la incorporació de noves tecnologies o nous


productes a un mercat. Presenta una taxa de creixement
lenta inicialment per expandir-se ràpidament per
acabar estancant-se al final del període.
1
yt =
1+ e ( - x 't b + d t + e t )
yt Transformació logística
log it ( y t ) = ln = x 't b + d t + e t
1 - yt
Formes funcionals & significat paràmetres

Nivel-nivel y x Dy = b1Dx

Nivel-log y log(x) Dy = (b1 / 100)%Dx

Log-nivel log(y) x D% y = (100 b1 )Dx

Log-log log(y) log(x) %Dy = b1 %Dx


Elasticitat

Un 1% d’increment en x apuja un 0.25% la variable


endógena

%Dy = b1 %Dx
log( y) = 256 + 0.25 log( x)
Criteris selecció forma funcional

l La teoria subjacent
l Conèixer tant la pendent com l’elasticitat
l Els coeficients han de satisfer les expectatives
l Les comparances de R2 obliguen a la presència de la
mateixa exògena
l No s’ha de sobrevalorar el criteri basat en R2
Funcions del terme de pertorbació estocàstic

e i = y - E( y / X = x i )

l Recull les variables explicatives omeses al model (principi de


parsimònia, utilització de variables proxy inadequades,
manca d’informació, mancances al model teòric)
l Recull les especificacions incorrectes de la forma funcional
l Recull els errors de mesura de les variables
l Recull el comportament aleatori o imprevisible dels agents
econòmics
Forma matricial del MRLM

æ1 x11 ! x k1 ö
ç ÷
Y = Xb + e X = ç" " ÷
ç1 x ! x ÷
è 1n kn ø

é y1 ù é b1 ù é e1 ù
êy ú êb ú êe ú
Y = ê 2ú b=ê 2ú e = ê 2ú
ê! ú ê ! ú ê!ú
ê ú ê ú ê ú
ëyn û ëb K û ëe n û
Hipòtesis bàsiques del MRLM

Hipòtesis generals del model:

1. El MRLM és estocàstic i la relació de dependència


entre endògena i exògenes és lineal
2. Suposarem l’existència d’informació estadística
suficient. Llavors, el nombre d’individus ha de
superar el nombre de paràmetres a estimar
N³k fet que implica suficients graus de llibertat
Hipòtesis sobre el terme de pertorbació (I)

1. Suposarem que l’esperança matemàtica dels termes


de pertorbació és zero (exogeneïtat estricta)
E (e i / X ) = 0
2. Suposarem que presenta variància constant per a
totes les observacions. Aquesta propietat rep el nom
d’homoscedasticitat
2
V (e i / X ) = se
Hipòtesis sobre el terme de pertorbació (II)

3. Referent a la covariància entre els termes de pertorbació, es


demana que existeixi no autocorrelació

[ (
COV(ei , e j / X) = E (ei - E(ei )) e j - E(e j ) )]
davant E (e i / X ) = 0

COV (e i , e j / X ) = E (e i ·e j ) = 0
Pertorbacions esfèriques

Si es compleixen els supòsits 2 i 3 en relació amb els termes de


pertorbació, llavors es diu que el terme de pertorbació és esfèric

é E (e 12 ) E (e 1e 2 ) ... E (e1e n ) ù és e2 0 ... 0ù


ê ú ê ú
ê E (e e ) E (e 2
2) ... E (e 2e n )ú ê 0 s e2 ... 0ú
E (ee ' | X ) = 2 1
= = s e2 I n
ê ... ú ê ... ú
ê 2 ú ê 2ú
êë E (e ne 1 ) E (e ne 2 ) ... E (e n ) úû êë 0 0 ... s e úû
Hipòtesis sobre el terme de pertorbació (III)

4. Les pertorbacions es troben distribuïdes normalment


amb una mitjana nul·la i variància constant

ei ~ N(0, se2 ·I n )
Hipòtesis sobre les variables exògenes

1. Suposarem que són fixes o deterministes. L’únic


component estocàstic és el terme de pertorbació
2. Es troben mesurades sense error
3. Es troben incorrelacionades amb el terme de
pertorbació: exogeneïtat
E(X ki e i ) = 0

4. Rang complet (diapositiva següent)


Rang complet

X és una matriu n·k amb rang k

Significa que X té un rang complet: les columnes de


X són linealment independents.

Aquest supòsit rep el nom de condició d’identificació


Hipòtesi en relació amb els paràmetres

L’única hipòtesi sobre el seu comportament és


la de permanència estructural: els paràmetres del
MRLM (bk) són constants a tota la mostra
Estimació del MRLM

l Mètode per mínims quadrats ordinaris (MQO)

l Mètode de la màxima versemblança (MV)

l Estimacions no lineals (MQNL)


Estimació MQO
600
500
400
300
200

400 500 600 700 800


despt

95% CI Fitted values


despm
MQO: l’aproximació pel MRLS

y ei = yi - ŷi = yi - bˆ 0 - bˆ 1·x i

yi

û i

ŷi

xi x
Metodologia MQO

Es selecciona aquella recta de regressió que minimitza els


errors, per tant, la diferència entre el valor estimat i el valor
de la variable endògena ha de ser la més petita possible

Atès que minimitzar la suma dels errors no resulta útil ja que es


compensen els errors positius amb els negatius i la impossibilitat
de diferenciar els valors absoluts dels errors, l’alternativa final és
la de minimitzar la suma de quadrats dels errors (SQE)
Objectiu
å( )
n

å
2
min e i2 = y i - bˆ 0 - bˆ 1 ·x i
i =1

MRLS: dues variables - MQO

ï
å
ì ¶ e i2
å
= -2 ( y i - bˆ 0 - bˆ 1 ·x i ) = 0 åy i = nbˆ 0 +bˆ 1 åx i
ï ¶bˆ 0
í
ï ¶å e 2

å ˆ - bˆ ·x ) = 0
å x i yi = bˆ 0 å x i + bˆ 1 å
i
ï ¶bˆ = -2 x i ( y i - b 0 1 i x i2
î 1

å yi nbˆ 0 ˆ å xi y = bˆ 0 + bˆ 1 ·x
= + b1
n n n

bˆ 0 = y - bˆ 1 ·x
Estimació puntual del paràmetre - tendència

n åy i

bˆ 1 =
å x åx y
i i i
=
n å x y - å x å y = å x y - nxy
i i i i i i

n åx i
n å x - (å x )
2
i i å x - nx
2 2
i
2

åx åx i
2
i

bˆ 1 =
(å x y n ) - xy S
i i
=
xy
= rxy
Sy
(å x n )- x S
2
i
2 2
x Sx
Notació matricial

SQE(bˆ ) = ( y - Xbˆ )' ( y - Xbˆ ) =


= y' y - y' Xbˆ - bˆ ' X' y + bˆ ' X' Xbˆ =
= y' y - 2bˆ ' X' y + bˆ ' X' Xbˆ
La condició necessària de mínim

¶SQE (bˆ )
= -2X' y + 2X' Xbˆ = 0
¶bˆ
Obtenció de les estimacions

Resultant un sistema de k equacions


normals de mínims quadrats

X' Xbˆ = X' y ˆb = (X' X) -1 (X' y)

La condició per que es minimitzi SQE, és que la


segona derivada resulti definida positiva

¶ 2SQE (bˆ )
= 2X ' X
¶bˆ ¶bˆ '
Forma de càlcul matricial

é n n n
ù é n ù
ê n åx 2i åx 3i ... å x ki ú ê å y i ú
ê i =1 i =1 i =1 ú ê i =1 ú
ê n n n n
ú ê n
ú
å
ê x 2i å x 22i åx 2 i x 3i ... å x 2i x ki ú ê å x y
2i i ú
ê i =1 i =1 i =1 i =1 ú ê i =1 ú
X' X = ê n n n n
ú X' y = ê n ú
å
ê x 3i åx 3i x 2i åx 2
3i ... å x 3i x ki ú ê å x y
3i i ú
ê i =1 i =1 i =1 i =1 ú ê i =1 ú
ê n ... n
...
n
... ...
n
... ú ê n ... ú
ê ú ê ú
å
ê x ki
ë i =1
åx
i =1
ki x 2i åx
i =1
ki x 3i ... å i =1
x 2ki ú
û
ê å
ë i =1
x y
ki i ú
û

Si les variables a un MRLM no es troben correlacionades (són


ortogonals), llavors les pendents de la regressió múltiple són les
mateixes que les pendents de les regressions simples individuals
Exemple numèric.
Beneficis=f(Vendes,Inversió)

Vendes - Inversió Beneficis


æ 64 ö æ 8 672 1176 ö
æ1 58 111 ö ç ÷ ç ÷
ç ÷ ç 78 ÷ X ' X = ç 672 57822 100453 ÷
ç1 84 131 ÷ ç 83 ÷
ç1 78 158 ÷ ç1176 100453 176758 ÷
ç ÷ è ø
ç ÷ ç 88 ÷
ç1 81 147 ÷ y=ç ÷
X =ç
1 82 121 ÷ ç 89 ÷
ç ÷ ç 99 ÷ æ 704 ö
ç1 102 165 ÷ ç ÷ 1
ç ÷
ç ÷
X 'Y = ç 60251 ÷ (X' X) -1 = Adj(X' X)
ç 101 ÷ X' X
ç1 85 174 ÷ ç102 ÷ ç105288÷
ç1 102 169 ÷ è ø è ø
è ø

b' = (X' X) -1 X' y = (b0 b1 b2 ) = (9.05 0.52 0.24)


Propietats dels estimadors MQO

l Linealitat

l No esbiaixament

l Eficiència

l Consistència
(P1) Linealitat

ˆb = (X' X ) -1 (X' y) = (X' X) -1 X' (Xb + e) =


= (X' X ) -1 X' Xb + (X' X ) -1 X' e =
-1
= b + (X' X) X' e

Així doncs, el vector de paràmetres és una combinació lineal


del terme de pertorbació, de les variables exògenes i dels
paràmetres poblacionals
Aleatorietat dels estimadors MQO

Atès que el vector d’estimadors és una combinació lineal


del terme de pertorbació, i aquest origina la aleatorietat del
model, llavors, els estimadors es consideren també un vector
de variables aleatòries que segueix una llei normal

Individualment
bˆ ~ N(E[bˆ ], V[bˆ ])
bˆ j ~ N(E[bˆ j ], V[bˆ j ])

Per mostres finites (no aplicable el TCL), llavors la


normalitat del terme de pertorbació és un tema crític
Supòsit de normalitat

Així doncs, el supòsit de normalitat al terme de


pertorbació és un tema rellevant atès que les propietats
dels estimadors dels paràmetres depenen d’aquest factor.

La seva violació serà tractada més endavant. A partir


d’ara suposem normalitat
(P2) No esbiaixament

Biaix (bˆ ) = E(bˆ ) - b

E[bˆ ] = E[b + (X' X) -1 X' e] =


-1 -1
E[b] + E[(X' X) X' e] = b + (X' X) X' E[e] = b
(P3) Eficiència

Els estimadors MQO són eficients o òptims. Aquesta


propietat doncs, fa referència a la variància dels estimadors

V(bˆ ) = E{(bˆ - b)(bˆ - b)'} =


= E{[(X' X) -1 X' e][(X' X) -1 X' e]'} = E{( X' X) -1 X' ee' X(X' X) -1} =
= (X' X) -1 X' E[ee' ]X(X' X) -1} = (X' X) -1 X' s e2 I n X(X' X) -1 =
= s e2 (X' X) -1 X' X(X' X) -1 = s e2 (X' X) -1
Es considera el fonament teòric del mètode MQO

Teorema de Gauss-Markov

a. Els valors de la V.A. depenent venen generats pel model lineal


b. Les pertorbacions ei no es troben correlacionades
c. Les pertorbacions presenten la mateixa variància (homoscedasticitat)
d. Les pertorbacions són independents de les V.A. exògenes
e. Les exògenes no presenten errors de mesura
f. Els estimadors han de ser no esbiaixats i funcions lineals
g. L’estimador òptim és el que és no esbiaixat i de variància mínima

Gauss-Markov asseguren que els estimadors MQO són “òptims” en el sentit


restringit donat per f) - g), independentment de la distribució de e.
(P4) Consistència

ˆ ˆ ˆ
EQM(b) = V(b) + [biaix(b)]2

Multipliquem i dividim per n,


ˆ ˆ 2
EQM(b) = V(b) = se (X' X) -1
tot suposant que X’X/n
existeix i és un nombre finit
sempre que n®¥

[ ]
lim n®¥ EQM ( bˆ ) = lim n®¥ V ( bˆ ) = lim n®¥ s e2 ( X ' X ) -1 =
és e2 æ X ' X ö -1 ù
= lim n®¥ ê ç ÷ ú=0
êë n è n ø úû
Estimadors MQO

ˆb ~ N[b, s 2 (X' X) -1 ]
e

Individualment

ˆb ~ N(b , s2a ) "j = 1,..., k


j j e jj

bˆ j - b j
bˆ j ~ N(b j , sb2ˆ ) "j = 1,..., k z= ~ N(0,1)
j sb j
Anàlisi dels residus (I)

ˆ -1
e = y - ŷ = y - Xb = y - X(X' X) (X' y) =
(1)
= [I n - X(X' X ) -1 X' ]y = My
Propietats de M

• És una matriu quadrada, simètrica, idempotent (M·M=M) i


singular (determinant nul, pel que no té inversa)
• És ortogonal a la matriu X (M·X=0)
•La traça de M és igual al nombre de graus de llibertat (n-k)
Anàlisi dels residus (II)

(2) e = My = M ( Xb + e ) = MXb + Me = Me
A partir de (1) i (2)

(3) X' e = X' My = X' Me = 0 Matriu X ortogonal als residus


(4) La mitjana mostral dels residus és zero, sempre que hi
hagi un terme independent
n n
1
åe
i =1
i =0 e=
n
åe i =0
i =1
Anàlisi dels residus (III)

(5) e ~ N[E(e), V(e)]

E(e) = E[Me] = ME[e] = 0 n

E(ee' ) = E[(Me)(Me)' ] = E[Mee' M' ] =


= ME[ee' ]M' = Ms e2 I n M' = s e2 MM' = s e2 M

2
e~ N[0 n , se M]
Estimació variància del terme de
pertorbació (s e2 )

És necessari obtenir la variància del terme de pertorbació per


poder conèixer la variància del vector d’estimador dels
paràmetres i per la posterior utilització a la contrastació del model

E(SQE) = E(e' e) = E[(Me)' (Me)] = E[eM' Me] = E(eMe)


Atès que eMe és un escalar
E(eMe) = tr{E[e' Me]} = tr{ME[ee' ]} = tr{Ms e2 I n } =
= s e2 tr{MIn } = s e2 tr{M} = s e2 (n - k )
2
sˆ e : Obtenció

e' e SQE
ˆs e2 = = 2
~ c n -k
n-k n-k

Ara, ja es pot obtenir una estimació de la matriu de


variàncies i covariàncies

ˆ 2
V(b) = se (X' X) -1 ˆ 2
V̂(b) = se (X' X)
ˆ -1
Obtenció de SQE (e’e)

SQE = y' y - bˆ ' X' y


Dues SQE = y' y - ŷ' ŷ
alternatives
Exemple càlcul
ì åY ü ì 1052 ü
ï ï ï ï
{b1 b 2 b 3 }·íå YX 2 ý = {- 49'3413 1'3642 0'1139}í119750ý =
ï YX ï ï111433ï
î å 3 þ î þ
= (- 51907'9 + 163367'48 + 12690'06 ) = 124150'45

SQE=124228-124150’45=77’541
e' e 77'541
sˆ e2 = = = 12'923 sˆ e = 12'923 = 3'59
n-k 6
Estadístic dels paràmetres bj

bˆ j - b j
bˆ j ~ N(b j , se2a jj ) ~ N(0,1) ~ ?
sˆ b j

sˆ b2 = sˆ e2 (X' X) -1

Tot dividint per s el numerador i el denominador

( bˆ j - b j )· åx 2
i s
=
( bˆ j - b j )· åa jj s
=
( bˆ j - b j )· åa jj s
~
N (0,1)
= tn-k
S s
2 2
S (n - k ) (s (n - k ))
2 2
e' e (s (n - k ))
2
c 2
n-k n-k
Errors estàndard dels paràmetres

sˆ b2 = sˆ e2 (X' X) -1
é 44'796 - 0'208 - 0'199ù
(X' X )-1 = êê- 0'208 0'001 0'0003 úú
êë - 0'199 0'0003 0'001 úû
sˆ b2 j = sˆ e2 a jj

e' e sˆ b21 = sˆ e2a11 = 12'923·44'796 = 578'9


sˆ e2 = = 12'923
n-k
sˆ b22 = sˆ e2a 22 = 12'923·0'001 = 0'0129

sˆ b23 = sˆ e2a 33 = 12'923·0'001 = 0'0129


Estimació per interval per a bj

bˆ j - b j
sˆ b j
~ t n -k [
P - ta 2 £ t £ ta 2 =1- a ]
é bˆ j - b j ù
P ê- t a 2 £ £ ta 2 ú = 1- a
ê Sbˆ ú
ë j û

Interval de confiança [bˆ ± t


j a / 2 ·Sbˆ j ]
Intervals de confiança: exemple

[bˆ ± t
j a / 2 ·Sbˆ j
] sˆ b21 = 578'9 sˆ b22 = 0'0129 = sˆ b23

sˆ b1 = 578'9 = 24'06 sˆ b2 = 0'0129 = 0'1136 = sˆ b3


errors estàndard (e.s.)

[bˆ 2 ]
± t 6,0'05 ·Sbˆ = [1'3642 ± 2'447·0'1136] = [1'0862,1'6422]
2

[bˆ ± t
3 6,0'05 ·Sbˆ 3 ]= [0'1139 ± 2'447·0'1136] = [- 0'1641,0'3919]
Estimació per interval per a s2

[ ]
P c 21-a 2 £ c 2 £ c 2a 2 = 1 - a

é (n - k )sˆ 2 ( n - k )sˆ 2ù

ê 2 < s 2
< 2 ú=
êë ca 2,n - k c1-a 2,n -k úû
é 6·12,92 6·12,92 ù
ê 2 <s < 2
2
ú
êë ca 2,n - k c1-a 2,n -k úû
Estimació màxim versemblant (MV)

MV és un mètode que proposa un estimador que maximitza la


probabilitat d’obtenir les observacions mostrals disponibles. Es
parteix de la funció densitat dels termes de pertorbació

1 ì 1 2ü
f (e i ) = exp í- 2 e i ý
2ps e2 î 2s e þ
Funció densitat conjunta
n
ì 1 n

f (e i ) = Õ 2 -n / 2
f (e i ) = (2ps e ) exp í- 2 å ei ý
i =1 î 2s e i =1 þ
Estimador MV

Funció de versemblança

-n / 2 ì 1 ü
L( y; b, se2 ) = (2p) (se2 ) - n / 2 exp í- 2 ( y - Xb)' ( y - Xb)ý
î 2s e þ

Derivant parcialment la funció i igualant a zero. Habitualment,


però, es treballa amb el logaritme de la funció

bˆ MV = (X' X) -1 (X' y) = bˆ MQO Sempre que ei~N


Propietats estimador MV
l Coincideix amb l’estimador de MQO, pel que també és lineal, no esbiaixat,
òptim i consistent
l L’estimador MV de la variància del terme de pertorbació presenta biaix,
però asimptòticament és no esbiaixat
e' e
sˆ 2MV,e =
n
e' e 1 1 2 n-k 2
E[sˆ 2MV,e ] = E[ ] = E[e' e] = s e (n - k ) = s e ¹ s e2
n n n n

én - k 2ù
lim n ®¥ ê sˆ e ú = s e2
ë n û
Estimació MQ no lineal (MQNL)

Suposem que la relació entre l’endògena i les exògenes ve donada per la


següent relació:

yi = f ( xib ) + ei on f és una funció no lineal

De nou, la funció a minimitzar es correspon amb SQE. Els càlculs poden


resultar extremadament complexes atès que les derivades parcials pot ser
que no garanteixin l’assoliment d’un mínim absolut. Per aquest motiu
s’ha de procedir a emprar mètodes iteratius per obtenir solucions que
s’acostumen a basar en aproximacions a f mitjançant algoritmes per a
garantir propietats asimptòtiques.
Propietats estimador MQNL

l No és possible garantir propietats per a mostres finites

l Les propietats asimptòtiques són idèntiques a MV i MQO si s’acompleixen


les propietats clàssiques

l L’estimador MQNL és consistent i asimptòticament és no esbiaixat sempre


que pugui garantir-se una distribució normal asimptòtica

l Mètode d’obtenció a partir d’assignar valors inicials i anar iterant les


solucions fins arribar a un mínim local (no s’arriba al global fins assolir el
mateix mínim local iniciant amb diferents valors inicials)
Inferència al MRLM

Introducció a la lliçó 3

l Contrastos de significació estadística


l Mesures de bondat a priori
l Validesa del model a posteriori
Mesures de bondat de l’ajust

SQE = y' y - bˆ ' X' y = y' y - ŷ' ŷ


n n n

y' y = ŷ' ŷ + SQE å


i =1
y i2 = å
i =1
ŷ i2 + å
i =1
e i2

Sumant i restant

2 2
y' y - ny = ŷ' ŷ - ny + e' e
Descomposició SQT

n n n n
SQT = å
i =1
2
( y i - y) = å
i =1
y i2 - ny 2
SQR = å ( yˆ i - y ) = å yˆ i2 - ny 2
i =1
2

i =1

Descomposta la suma de quadrats totals (SQT) en la suma de quadrats


de la regressió (SQR) i la suma de quadrats dels errors (SQE)

Cal que el MRLM tingui


y' y - ny 2 = ŷ' ŷ - ny 2 + e' e
terme independent
n

SQT = SQR + SQE åe


i =1
i =0
Obtenció SQR

n n
SQR = å ( yˆ i - y ) 2 = å yˆ i2 - ny 2
i =1 i =1

Dues alternatives d’obtenir la SQR

SQR = bˆ ' X' Xbˆ - ny 2 = bˆ ' X' y - ny 2


Coeficient de determinació (R2)

2 SQE e' e
R =1- =1-
å (y
2
SQT - y)
i

Si el MRLM consta de terme independent, llavors equival a:


(si no existeix, llavors no es pot garantir que SQT³SQE)

2 SQR Per tant, indica la variabilitat de l’endògena


R = que vindria explicada per la regressió lineal
SQT
Models sense intersecció

Als MRLM que no presenten terme constant és usual no


presentar l’estadístic ja que no satisfà la relació 0£R2£1
És millor obtenir estimacions amb terme constant atès que:

• Si resulta no significatiu (estadísticament igual a zero) tindrem


una regressió que passa per l’origen
• Si el model ha de tenir intersecció, però insistim en ajustar a
través de l’origen, hi haurà un error d’especificació
Interpretació de R2

2 Si R2 1, llavors el model ajusta bé


0 £ R £1
Si R2 0, llavors el model ajusta malament

Amb dades de secció creuada un valor de R2=0,5 pot ser elevat. Per sèries
temporals, els valors són superiors. A dades individuals, un valor de 0,2 és digne
Qualsevol comparança necessita que les grandàries mostrals siguin les mateixes

A mida que D el nombre de regressors, D també la bondat a


causa de Ñ la SQE. Per tant, quan es volen fer comparances
hem de calcular el coeficient de determinació corregit
Exemple càlcul anterior

SQT = å å
y2 = Y 2 - nY 2 = 1260'89

SQR = SQT - SQE = å y' y -åe' e = 1261 - 77'541 = 1183'459

SQR 1183'459
2
R = = = 0'9385
SQT 1261
Coeficient de determinació corregit

Aquest coeficient té en compte els graus de llibertat (així doncs,


el nombre de regressors al MRLM). També s’anomena R2
ajustat (pels graus de llibertat). Pot arribar a ser negatiu

2 n -1
R =1- (1 - R 2 )
n-k
Als models ennierats (“anidados”) és el coeficient a emprar.
Dos models es consideren ennierats si el conjunt de regressors
d’un dels models és un subconjunt de l’altre
Anàlisi de la variància

Font de variació Graus de llibertat


n
Regressió SQR = å yˆ i2 - ny 2 k-1 (amb terme constant)
i =1

Errors SQE = y' y - ŷ' ŷ = e' e n-k


n
Total SQT = å
i =1
y i2 - ny 2 n-1

SQE
R2 R2 =1-
SQT
ANOVA: exemple numèric

Font de variació Graus de llibertat Ponderat

Regressió 1183’459 2 591’73

Errors 77’541 6 12’923

Total 1261 8

R2 0’9385
Aproximació a R2

És la correlació al quadrat entre els valors observats de y i les


prediccions calculades per l’equació de regressió estimada

(å (y - y )(ŷ - ŷ ))
i i
2

(å (y - y) )æçè å (ŷ - ŷ) ö÷ø


2 2
R = 2
=ryŷ
2
i i

Resulta útil, però no és una mesura del percentatge de variació


explicada pel model
Prova de normalitat del MRLM

l Histograma de residus (a abscisses es col·loquen els residus i es


dibuixa una campana de Gauss)
l Gràfica de probabilitat normal (abscisses els residus i a
l’ordenada el valor esperat si ~ una normal). Cal que el resultat
es situï sobre una recta). Possibilitat de fer gràfic dels quantils
sota la normal
l Prova de normalitat de Jarque-Bera, basada en l’asimetria i la
curtosi. Vàlid a nivell asimptòtic.
l Alternatives: asimetria/curtosi i Shapiro-Wilk
Prova de Jarque-Bera

é s (k - 3) 2 ù 2
JB = n ê + ú ~ ck
ë6 24 û

Asimetria i Curtosi

Si e~N, llavors el coeficient d’asimetria pren valor 0 i la curtosi 3


Per tant, s’espera que JB valgui 0
Regressions: particionada i parcial

Al MRLM per MQO de y sobre dos conjunts de variables (X1,X2),


si ambdós conjunts són ortogonals (no es troben correlacionats),
els vectors de coeficients separats poden obtenir-se mitjançant la
regressió de y sobre X1 i de y sobre X2 de forma separada

y = Xb + e = X1b1 + X 2b 2 + e
Coeficients del MRLS vers MRLM

~ ~ ~
MRLS y = b0 + b1x1

MRLM ˆ +b
ŷ = b ˆ x +b
ˆ x
0 1 1 2 2

~ ˆ
b1 ¹ b 1
Excepte:
• b̂ 2=0 (sense efecte parcial)
• x1 i x2 es troben incorrelacionats a la mostra
Coeficients de regressió parcials

bˆ 1 =
å r̂ y
i1 i

å r̂ 2
i1

r̂i1 són els residus de la regressió estimada: x̂1 = gˆ 0 + gˆ 2 x̂ 2

D’aquesta forma es parcialitza o extrau l’efecte de x2. Això


significa que només la part de x1 que està incorrelacionada amb
x2 està essent relacionada amb yi. És a dir, estem estimant
l’efecte de x1 sobre yi després d’haver extret fora x2
Coeficients de correlació parcial

rij.v = coeficient de correlació parcial entre i, j, mantenint constant v

r12 - r13r23 r13 - r12 r32


r12.3 = ; r13.2 =
(1 - r132 )(1 - r23
2
) (1 - r122 )(1 - r322 )
r23 - r21r31
r23.1 =
2
(1 - r21 )(1 - r312 )

El nombre de variables que es mantenen constants suposa l’ordre del


coeficient de correlació parcial. A l’exemple són els de primer ordre

You might also like