Regresiona Analiza

Ocena b parametra u linearnom modelu y = X + " dobija se metodom najmanjih kvadrata iz
uslova da predvianje X b bude ortogonalna projekcija vektora y na prostor Im X , odnosno

X 0 ( y X b) = 0 ) b = (X 0 X ) 1 X 0 y
kada je X 0 X regularna matrica. Ortogonalne projekcije vektora y na prostore Im X , (Im X )?
nazivamo predvianjem modela y^ odnosno ostatkom e, pri £emu su odgovaraju¢i projektori
H = X (X 0 X ) 1 X 0 M =I H
simetri£ne i idempotente matrice. Budu¢i da su H; X ? M , ostatak e moºemo izraziti u funkciji "
e = M y = M (X + ") = M "
Pri uslovu Gaus-Markova da vaºi
E y=X cov( y) = 2 I odnosno;
E"= 0 cov(") = 2 I
ocena b je nepristrasna ocena paramera a kovarijacione matrice e, y^ i parametra b imaju oblik
cov(e) = 2 M cov( y^) = 2 H
(1)
cov(b) = 2 (X 0 X ) 1 X 0 X (X X 0) 1 = 2 (X X 0) 1
a o£ekivanje rezidualne suma kvadrata s2 = e 0 e = " 0 M " dobijamo kao

E s2 = 2 Tr M = (n k 1) 2
kada parametar b sadrºi slobodan £lan i koecijente uz k nezavisnih promenljivih, odakle imamo
nepristrasnu ocenu disperzije
s2 = n 1k 1 e2i
X
U slu£aju normalnog modela, ova ocena ima uniformno najmanju disperziju u klasi kvadratnih
nepristrasnih ocena 2 oblika y 0 A y, kao i u slu£aju ne²to ²ire klase raspodela [Rao, 1952, Hsu ..]
Kada je dimenzija n matrice X dovoljno velika, 4 s je pribliºna ²irina 95% intervala poverenja (2)
za vrednost y0 = x0 + " u ta£ki x0 fx1; ; xn g.
Ako se matrica X moºe razloºiti na blokove
X = [ X1 X2 Xn ]
tako da vektorski prostori Im X1; ; Im Xn budu meusobno ortogonalni, kovarijaciona matrica
2 3
6
(X10 X1) 1 0 7
cov(b) =4 5
0 (Xn0 Xn) 1
pa su (b1; ; bn ), (bn +1; ; bn +n ), , (b1 nn; ; bnn) nekorelisane slu£ajne promenljive.
1 1 1 2
1
U tom slu£aju, ortogonalni projektor HX na prostor Im X i rezidualna suma kvadrata s se mogu
predstaviti u obliku sume
HX = HX + + HXn
1
s2 = y 0 (I HX ) y = y y 0 y HX y + + y 0 HXn y
1
pa se hipoteze o parametrima i mogu testirati nezavisno jedna od druge. Primetimo jo² da na

osnovu prethodnog, slede¢a tri modela
(1) y = X1 1 + X2 2 + " (2) y = X1 1 + " (3) y~ = X1 1 + "
daju iste ocene parametra 1, a modeli (1) i (3) iste rezidualne vektore e za y~ = (I HX ) y, pro
2
jekciju vektora y na prostor (Im X2)?. Zaista, rezidualni vektor
(I HX ) y = (I HX 1 HX ) y = (I HX ) (I HX ) y = (I HX ) y~
2 1 2 1
Budu¢i da smo projekcijom vektora y na (Im X2)? potro²ili rank X2 stepena slobode, testovi na
modelu (3) daju isti rezultat kao oni na (1).
Theorem 1. Pri uslovima Gaus-Markova, ocene l 0 b i L b linearnih kombinacija l 0 odnosno

L su BLUE.
Proof. Ako su l 0 b i c 0 y dve nepristrasne ocene l 0 = E (c 0 y) = c 0X ) l 0 = c0 X pa je razlika
disperzija
D (c 0 y) D(l 0 b) = c 0 cov( y) c l 0 cov(b) l
= 2 c 0 c 2 c 0 X ( X X 0) 1 X 0 c
= 2 c 0 ( I X ( X X 0) 1 X 0) c = 2 c 0 M c > 0
budu¢i da je matrica M pozitivno denitna, kao korelaciona matrica slu£ajnog vektora e.
U slu£aju normalnog modela, ocena l 0 b ima minimalnu disperziju i u ²iroj klasi svih nepristrasnih
ocena l 0 , a s2 u klasi svih neprirstrasnih ocena 2 [Rao, 1973, strana 319].
2
Funkcija verodostojnosti normalnog modela
L( y; ; 2) = 1
n /2 exp k y 2 X
2
k2
(2 )
2
exp kPXMi2y2 X k exp k QXM i yk

1 2 2
= n /2 2 2
(2 )
2
dostiºe svoj maksimum kada 2 Mi u ta£ki ^ = PXMi y, ^2 = k QXMi y k2/n i to vrednost
n/2
L( y; ^; ^2) = 1 k QXMi y k2 exp( n/2 )
(2 ) n/2 n
pa je koli£nik verodostojnosti za testiranje hipoteze H0: C = protiv alternative H1: C
sup 2Rk L( y; ; 2) = k QXQC ( y )k2 n/2

( y) = sup k QX y k2
2 QC L( y ; ; 2)
Imenilac i brojilac koli£nika su zapravo rezidualne sume kvadrata odgovaraju¢a dva modela.
Za monotono rastu¢u funkciju f () = (2/n 1) r(C )/(n r(X ))
f = k QXQC ( yk Q )ykk2 k QX y k n r(rC()X )

2 2
X
= kPXk QXQyCk2y k n r(rC()X )

2
X
pod pretpostavkom da vaºi hipoteza H0. Budu¢i da su kvadratne forme sa obe strane razloma£k
crte meusobno ortogonalne i, kao u prethodnom odeljku
k y k2 = kQX y k2 + kPX XQC y k2 + kPXQC y k2
na osnovu Kokranove teoreme obe imaju r2(C );kPX XQC k2 odnosno 2n r(X );0 raspodele, a test
statistika
F = f Fr(C );n r(X ) (kPX XQC k2).
3
3. Testiranje pretpostavke o normalnosti modela
Da bi testirali hipotezu da "i N (0; 2) posmatramo ostatke ei, jer iz
e = (I H ) " ) ei = "i hi "
za H = (h1; ; hn) 0 = (hij)i;j =1 n i disperzija razlike
D("i ei) = hi0 hi 2 = hii 2 ! 0

kada hii ! 0, pa na osnovu ebi²ovljeve nejednakosti ei P "i u verovatno¢i. Meutim, poslednji
uslov hii ! 0 povla£i da kriti£ne oblasti i intervali poverenja iz prethodnog odeljka vaºe asimpto-
tski bez obzira na raspodelu slu£ajnog vektora ". Naime,
Theorem 2. Ako vaºe uslovi Gaus-Markova i 1max h ! 0 kada n ! 0, slu£ajna promenljiva

6i6n ii
s2 (C b C ) 0 [C (X 0 X ) 1 C 0] 1 (C b C ) ! 2r
asimptotski, kada n ! 1 , gde je C proizvoljna r (k + 1) matrica ranga r 6 (k + 1). Svi testovi i
kriti£ne oblasti iz prethodnog odeljka su zasnovane upravo na ovoj statistici.
Ako su ostaci ei N (0; 1) normalno raspodeljeni, statistike poretka e(i) imaju pribliºna o£ekivan

E e(i) i = 1 ni + 3/8
1/4
a ako je ei N ( ; 2) ) E e(i) + i pa su ta£ke (e(i); i) pribliºno rasporeene duº prave i
linije i ovakav grak se moºe koristiti da se neformalno testra hipoteza o normalnosti ostataka.
Sa druge strane, moºemo koristiti Shapiro-Wilks ili Kolmogorovoljev test posredstvom statistika
W=
X ai e(i)
s2
D = sup jF (x) H (x)j
x
ili na osnovu koecijenta korelacije izmeu e(i) i i kao aproskimacije Shapiro-Wilks testa. Prvo
od njih odgovara funkcija shapiro.test, drugom lillie.test iz library(nortest) za testi-
ranje sloºene hipoteze o normalnosti odnosno ks.test(x,"pnorm",m,) u slu£aju proste
hipoteze (recimo kada testiramo interno studentizirane ostatke koji imaju raspodelu N (0; 1)).
4
4. Testiranje pretpostavke o konstantnosti disperzije
Da li se disperzija y menja sa promenom yî odnosno xij moºemo proveriti na neformalan na£in,
pregledom odgovaraju¢ih graka, ili formalno, na osnovu neke od slede¢ih test statistika
Spearmanovim koecijentom korelacije izmeu jei j i yî ili nekih od xij;
2
S^ = sn X 0 X n1 e2i xi xi0 ! 0 kada n ! 1 ako je disperzija konstantna i svi hii ! 0
X
n R(2h), gde je R2(h) koecijent korelacije dobijen OLS regresijom e2i 1 + P xi + P xi xj

koji ima asimptoski 2n raspodelu.
U slu£aju kada disperzija slu£ajne promenljive y nije konstantna a poznate su nam (1) disperzije
D "i = ci ili D yi = 2( i), zamenom y sa f ( y) za pogodno izabranu funkciju f moºemo dobiti m.
sa konstantnom disperzijom. Na primer, ako je D "i = ci 2 i
yi = 0 + 1 x1 + + n xn + "i
yi = 1 + x1 + + xn + "i
ci 0 ci 1 ci nc
i ci
prelaskom sa prvog na drugi model dobijamo slabo-sferi£no raspodeljene ostatke; koecijente !i=
1/c2i nazivamo teºinskim koecijentima , jer ols ocena poslednjeg modela minimizira ponderisanu
sumu
X
!i ( yi 0 1 x1 n xn)2
Ako je C = diag(c1 1; ; cn 1),

= diag(c21; ; c2n) zamenom y(
) = C y, X (
) = C X , i "(
) = C " u
jednakosti
bWLS = (X 0
1 X ) X 0
1 y cov(bWLS) = 2 (X 0
1 X ) 1
bOLS = (X 0 X ) 1 X 0 y cov(bOLS) = 2 (X 0X ) 1 X 0
X (X 0 X ) 1
Budu¢i da su bWLS i bOLS nepristrasne ocene parametra , na osnovu teoreme Gaus-Markova

D a 0 bWLS 6 D a 0 bOLS
za proizvoljan kontrast vektor a, pa ponderisana regresija u slu£aju nejednakih disperzija uvek
daje bolje ocene od obi£ne.
2. Ako disperzija slu£ajne promenljive yi zavisi od o£ekivanja i = E yi tako da je D yi = 2(i),
prira²taj glatke funkcije f ( yi) se moºe, na osnovu Tejlorovog razvoja, aproksimirati sa
f ( yi) f ( i) f 0( i) ( yi i)
kada je ( yi i)2 dovoljno malo, pa kvadriranjem i zatim integriranjem obe strane dobijamo
D f ( yi) ( f 0( i))2 2( i)

odnosno kada je f 0( i) = c/( i), konstantnu disperziju c. U tabeli 1 ispod date su odgovaraju¢e
stabilizacione funkcije f (x) za neke raspodele slu£ajne promenljive yi.
5
Raspodela 2( i) f ( i)
Puasonova P ( i) i p i
i (1 i)
pn
Binomna B ( i ; n) ni 2 sin pi
i
Linearna 2i log i
Table 1. Stabilizaciona transformacija f (z ) slu£ajne promenljive y koja predstavlja re²enje odgovaraju¢e

diferencijalne jedna£ine f ( i) = c/ ( i) i prevodi Puasonov, Binomni, odnosno model kod koga je disper.
0
ostataka linearna funkcija o£ekivanja u slabo-sferi£ni model. Videti takoe, tabelu 6.7. na strani 123 u [1]
6
5. Outlieri i uticajne ta£ke
Motivaciju da dijagonalni element hii matrice projektora H koristimo kao meru uticaja i-te ta£k
na regresiju dobijamo iz £injenice da je on mera njenog uticaja na ocenu yî (@yî/@yi = hii)
yî = hi1 y1 + hi2 y2 + + hii yi + hin yn
Theorem 3. Uticaji hii = xi0 (X 0 X ) xi i hii = (xi x) 0 (Z 0 Z ) (xi x) za Z = (x1 x; ; xn x)
ta£aka xi odnosno xi x su povezani relacijom
hii = hii n1
Budu¢i da je Z 0 Z /n uzora£kaPkovarijaciona matrica, hii je kvadrat standardizovanog rastojanja

izme²u ta£aka xi i x. Suma hii = k + 1 pa bi u idealnom slu£aju ºeleli da su svi
hii = k +n 1
Kada su regresori nezavisni i zajedni£ki imaju vi²edimenzionalnu normalnu raspodelu, raspodela

n k 1 hii 1/n F
k 1 hii k;n k 1
odakle dobijamo pribliºan uslov hii > 2 k +n 1 da bi se ta£ka smatrala uticajnom. Primetimo jo² i
to da su zbog simetri£nosti i idempotentnosti projektora H i na osnovu T3. uticaji hii 2 [1/n; 1].
5.2. Outlieri
Interno odnosno eksterno studentizirani ostaci imaju slede¢e raspodele
ri = p ei N (0; 1) ti = pei t
s 1 hii s(i) 1 hii n p 1
Prva od njih vaºi samo asimptotski, kada n ! 1 budu¢i da je ta£na raspodela

ri2 B ( 1 ; n p 1 )
n p 2 2
Ako u posmatranom modelu regresorima dodamo indikator i-tog slu£aja, t-vrednost koja odgova
koecijentu uz njega je upravo eksterno studentizirani ostatak ti; ovakav model su literaturi sre¢e
kao mean shift outlier model .
Da bi ove rezultate o raspodeli ostataka upotrebili za detekciju pojedina£nih outliera izmeu n
ta£aka koje obuhvata analiza koristimo Bonferroni korekciju (videti, na primer, outlier.test iz
library(car)) u slu£aju kada je n relativno malo, odnosno qqnorm grake za veliko n.
7
Dok ostaci i standardizovani ostaci ukazuju na neobi£ne vrednosti osmotrenih podataka, velike
varijacije u disperzijama ostataka ukazuju na neravnomeran raspored redova matrice X u faznom
prostoru. Imaju¢i na umu (1 ) 100% interval poverenja za parametar
( ^) 0 (X 0 X ) ( ^) 6 F
( p + 1) s2 p;n p 1; 1
za meru uticaja i-te ta£ke na ocenu parametra posmatramo Cookovo rastojanje

^ ^0 0 ^ ^
Di = ( (i) )( p(X+ 1)Xs)2( (i) ) = p r+i 1 1 hiih
2
ii
koje moºemo uporediti sa odgovaraju¢om F raspodelom. Ako uklanjanje neke ta£ke pomera oce-
nu na ivicu 95% intervala poverenja sa centrom u ^, moºemo zaklju£iti da ova ta£ka ima velik
uticaj na ocenu ^; vrednost Di odgovara pragu zna£ajnosti za koji elipsa poverenja za sa cen-
trom u ^ prolazi kroz ^(i).
8
6. Kovarijaciona analiza
Ako je M~ = M + N direktna suma vektorskih prostora M i N koji, meutim, vi²e nisu meu-
sobno ortogonalni, ocene y^N = PN ;M PM y, y^M = PM ;N PM y o£ekivanja E yN , E yM se mogu
napisati kao
y^N = PN ;M QM PM y = PN ;M PM M y
y^M = PM (I PN ;M ) PM y = PM y PM y^N
pa se ocena o£ekivanja E yM menja za PM y^N dodavanjem modelu y = M + " prediktora koji
odgovaraju potprostoru N . Sli£no, ocene (xN ; y^N ), (xM ; y^M ) kontrasta (xN ; E y^N ), (xN ; E y^M )
za xN 2 N , xM 2 M se mogu napisati kao
(xN ; y^N ) = (xN ; PN ;M PM M y) = (PN0 ;M xN ; PM M y) = (PN0 ;M xN ; y)
(xM ; y^M ) = (xM ; PM y PM y^N ) = (xM ; y) (xM ; y^N )
budu¢i da je (PM x; y) = (PM x; PM y) = (x; PM y). tavi²e, poslednji skalarni proizvod je jednak
(xM ; y^M ) = (xM ; y) (PN0 ;M xM ; y) = (xM PN0 ;M xM ; y)
Jedan takav kontrast je i j -ta koordinata ^j = (xNj ; y^N ) ocene y^N u odnosu na bazu z1; ; zh pr.
Imaju¢i u vidu da je Cov((b; x); (c; y)) = (b; Cov(x ; y) c) odnosno Cov((x1; y); (x2; y)) = 2 (x1; x2)
Cov((xN 1; y^N ); (xN 2; y^N )) = 2 (PN0 ;M xN 1; PN0 ;M xN 2)
Cov((xM 1; y^M ); (xM 2; y^M )) = 2 (xM 1 PN0 ;M xM 1; xM 2 PN0 ;M xM 2)

= 2 (xM 1; xM 2) + (PN0 ;M xM 1; PN0 ;M xM 2)

pa su disperzije D (xN ; y^N ) = 2 kPN0 ;M xN k2 odnosno D (xM ; y^M ) = 2 kPN0 ;M xM k2 + kxM k2 a
Cov( î ; ^j) = 2 (PN0 ;M xNi; PN0 ;M xNj). Koordinate vektora PN0 ;M xNj u odnosu na bazu QM z1;
QM zh su date sa
d j = G( QM z1; ; QM zh) 1 [(z1; xNj); ; (zh ; xNj)] = C (z; xNj)
odakle
X X X
Cov( î ; ^j) = 2 d(ik) QM zk ; d(jl) QM zl = 2 d(ik) ( QM zk ; QM zl) d(jl)
k;l (1)
= 2 di0 C 1 d j = 2 (z; xNi) 0 C (z; xNj) = 2 Cij
pa je Cov( ^) = C . Ocena ^2 disperzije 2 se moºe izraziti kao
^2 =
k QM y k2 = kQM y k2 kPM M yk
2
(2)
d(M~ ?) d(M ?) d(N )
pri £emu je korektivni faktor u brojiocu
X
kPM M yk
2= ^j ( QM zj ; QM zk) ^k = ^ 0 G( QM z1; ; QM zh) ^
= ( QM z; y) 0 G( QM z1; ; QM zh) 1 ( QM z; y)
9
Za proizvoljan vektorski prostor L~ linearnih funkcionela nad M~ imamo Scheé intervale
^(PM y) Sd(L~);d(M )() ~ kx k
Ako je L vektorski prostor linearnih funkcinela nad nad M , proizvoljnu linearnu funkcinonelu
(m) = (x ; m) 2 L pro²irimo do funkcionele ~ nad M~ tako da
~( y) = (x ; PM ;N y) = (PM0 ;N x ; y)
i L~ = f ~ j 2 Lg, Scheé intervali poverenja su dati sa
k Q y k qkx k2 + kP 0 x k2
(PM y) Sd(L);d(M )() q M N ;M
d(M~ ?)
budu¢i da je L~ = PM0 ;N L a PM0 ;N = PN ?;M ? je regularan na L M odakle d(L~) = d(L); osim toga
PM0 ;N x = x PN0 ;M x je razlika dva ortogonalna vektora.
10
6.1 Scheé metod
Za x 2 M , posmatrajmo ocenu ^( y) = (x; y) kontrasta ^ = (x; E y) sa disperzijom ^2 = 2 kx k2 i
njenom ocenom ^2 = (k QM y k2/d(M ?)) kx k2. Neka je K neki skup takvih kontrasta i
K = fx 2 M j (x; y) 2 Kg L = Sp(K) L = Sp(K )
Da bi interval ^( y) C ^ pokrivao ( y) za svako 2 L, potrebno je i dovoljno da
^ 2
sup ( ( y) ^ ( y)) 6 C 2
2L
odnosno
1
^2 xsup ( kxxk ; PL ( y E y))2 = ^12 kPL ( y E y)k2 6 C 2
2L
pri £emu poslednja jednakost vaºi na osnovu nejednakosti Ko²i-varc-Bunjakovskog. Budu¢i da
je M ?L? raspodela
kPL ( y E y)k2/d(L) F
k QM y k2/d(M ?) d(L);d(M ?)
p
pa za Scheé mnoºitelj Sd(L);d(M ?)() = d(L) Fd(L);d(M ?)() intervali ^( y) Sd(L);d(M ?)()
pokrivaju sa ukupnom verovatno¢om .
6.2. Tukey test parova

Posmatrajmo sada balansiran ANOVA model yij = i + ij, i = 1 g, j = 1 n sa n1 = = ng = n.
Ako je N (0; 2 I ), slu£ajna promenljiva
max ( yip i) max ( yi i) q ( g; g (n 1))
kQM y k2/n
ima Studentiziranu raspodelu q( g; g (n 1)) pa
( )
1 = P max ( yip i) max ( yi i) 6 q ( g; g (n 1)

k QM y k /n
2
n p o
= P j( yi yj ) ( i j)j 6 q( g; g (n 1) kQM y k2/n za sve i; j = 1 n
n p o
= P ( yi yj ) q( g; g (n 1) k QM y k2/n 3 i j za sve i; j = 1 n
U slu£aju kada model nije balansiran, moºe se primeniti slede¢a Tukey-Kramer aproksimacija
s
( yi yj ) q( g; p
g (n 1) kQ y k2 1 + 1
M ni nj
2
11
Neka je slu£ajni vektor y slabo sverno raspodeljen na ortogonalnoj sumi V = V (1) + V (2) potpros
V (1) i V (2) tako da je
yi = PV i y; i = 1; 2
( )
pri £emu raspolaºemo samo vrednostima y1, dok vrednosti y2 iz nekog razloga nedostaju. Ovim
je obuhva¢en takozvani standardni model , u kome za V = Rn sa uobi£ajenim skalarnim proiz.
V (1) = f y 2 Rn j ym+1 = = yn = 0g V (2) = f y 2 Rn j y1 = = ym = 0g
gde su y1; ; ym raspoloºive, a ym+1; ; yn nedostaju¢e vrednosti, ali i me²oviti model u kome
V (1) = f y 2 Rn j y1 = = yn g V (2) = f y 2 Rn j y1 + + ym = 0; ym+1 = = yn = 0g
gde je poznata samo suma y1 + + ym ali ne i pojedina£ne vrednosti y1; ; ym. Vektor raspolo-
ºivih vrednosti y1 je i sam slabo sferno raspodeljen na V (1) sa o£ekivanjem
(1) = PV 2 M (1) = PV M
(1) (1)
Ako je dim M = dim M (1) odnosno M \ V (2) = ? ) PV (1) je regularan na M i postoji jedinstven
vektor ^ 2 M takav da
PV ^ = (1)
(1)
12
Posmatrajmo linearni model y = X + ". Matri£nim diferenciranjem skalarne sume kvadrata
s2 = ( y X ) 0 ( y X ) = y 0 y 2 0 X 0 y + 0 X 0 X
@ s2 = 2 X 0 y + 2 X 0 X
@ 2
dobijamo ocenu b = (X 0 X ) 1 X 0 y parametra , tako da se slu£ajni vektor y moºe razloºiti na
ortogonalnu sumu predvianja y^ = X b i ostatka e = y y^, pri £emu je
H = X (X 0 X ) 1 X 0
y = y^ + e = H y + M y za
M =I H
Projektor M je ortogonalan na matrice H i X (²to se, ina£e, lako proverava direktnim izra£una-
vanjem) pa se ostatak e moºe prikazati kao
e = M y = M (X + ") = M "
Pri uslovu Gaus-Markova da vaºi
E y=X cov( y) = 2 I odnosno;
E"= 0 cov(") = 2 I
ocena b je nepristrasna ocena paramera i, budu¢i da su projektori M i H idempotentni, vaºe
cov(e) = 2 M cov( y^) = 2 H
cov(b) = 2 (X 0 X ) 1 X 0 X (X X 0) 1 = 2 (X X 0) 1
Disperziju 2 moºemo oceniti pomo¢u rezidualne sume kvadrata
n
X X
s2 = e 0 e = " 0 M 0 M " = " 0 M " = mii "2i + mij "i "j
i=1 i j
n
X X
E s2 = mii E( "2i ) + mij E("i "j) = 2 Tr M = (n k 1) 2
i=1 i j
kada parametar b sadrºi slobodan £lan i koecijente uz k nezavisnih promenljivih, odakle imamo
nepristrasnu ocenu disperzije
s2 = n 1k 1 e2i
X
U slu£aju normalnog modela, ova ocena ima uniformno najmanju disperziju u klasi kvadratnih
nepristrasnih ocena 2 oblika y 0 A y, kao i u slu£aju ne²to ²ire klase raspodela [Rao, 1952, Hsu ..]
Kada je dimenzija n matrice X dovoljno velika, 4 s je pribliºna ²irina 95% intervala poverenja za
predvianje modela.
Theorem 4. Pri uslovima Gaus-Markova, ocene l 0 b i L b linearnih kombinacija l 0 odnosno

L su BLUE.
13
Proof. Ako su l 0 b i c 0 y dve nepristrasne ocene l 0 = E (c0 y) = c 0X ) l 0 = c 0 X pa je razlika
disperzija
D (c 0 y) D(l 0 b) = c 0 cov( y) c l 0 cov(b) l
= 2 c 0 c 2 c 0 X ( X X 0) 1 X 0 c
= 2 c 0 ( I X ( X X 0) 1 X 0) c = 2 c 0 M c > 0
budu¢i da je matrica M pozitivno denitna, kao korelaciona matrica slu£ajnog vektora e.
U slu£aju normalnog modela, ocena l 0 b ima minimalnu disperziju i u ²iroj klasi svih nepristrasnih
ocena l 0 , a s2 u klasi svih neprirstrasnih ocena 2 [Rao, 1973, strana 319].
P
Ako od svake kolone j = 1 n matrice X oduzmemo xj = n 1 xij tako da je suma elemenata
svake od kolona nula, linearni model (1) se moºe zapisati u centriranom obliku kao

y = 0 1 + Z (0) + " =
0
1 Z (0) + "
gde je Z na ovaj na£in dobijena matrica, 0 = 0 + 1 x1 + + n xn i (0) = ( 1; ; n) 0.

Stavljaju¢i X = 1 Z u ve¢ dobijenu ocenu b = (X 0 X ) 1 X 0 y metodom najmanjih kvadrata,
dobijamo
!
0 = n 0 0 1 10
n 1 00 n y

y

(0) 0 ZZ0 Z 0 y = 0 (Z Z 0) 1 Z 0 y = (Z Z 0) 1 Z 0 y
1
0
cov 0 = 2 n0 Z0Z 0
(0)
a rezidualna suma kvadrata
" #
n 00 1 10
e0 e = y 0 I 1 Z 0 Z Z0 Z0 y = y 0 (I n 11 1 0 Z (Z 0 Z ) 1 Z 0) y
= ( y 0 y n y2) y 0 Z (Z 0 Z ) 1 Z 0 y
Kao ²to vidimo, u ovom slu£aju su 0 i (0) nekorelisane slu£ajne promenljive. Gornja jednakost
zna£i da se ukupna ispravljena suma kvadrata y y 0 n y2 moºe predstaviti kao suma rezidualne i
sume kvadrata poreklom od (0), pri £emu se ova poslednja razlikuje od y 0 X (X 0 X ) 1 X 0 za n y
Zaista, dovoljno je setiti se da je
e 0 e = y M y = y 0 y y 0 X (X 0 X ) 1 X 0 y
14
Testiranje linearnih hipoteza
Diferenciranjem funkcije verodostojnosti normalnog modela

L( y; ; 2) = 1 exp 2 12 ( y X ) 0 ( y X ) ()
(2 2)n/2
dobijamo slede¢e ocene maksimalne verodostojnosti
b = (X 0 X ) 1 X 0 y s2 = n1 ( y X b) 0( y X b)
parametara , 2 odnosno metodom Lagranºovih mnoºitelja, njihove ocene maksimalne verodos-
tojnosti pod uslovom da vaºi H : C =
bH = b + (X 0 X ) 1 C 0 (C (X 0 X ) 1 C 0) 1 (C b )
2 = ( y X bH ) 0 ( y X bH )/n
pri £emu se poslednja ocena moºe predstaviti kao
n 2 = ( y X b) 0( y X b) + (C b ) 0 (C (X 0 X ) 1 C 0) 1 (C b )
budu¢i da su ostatak modela bez ograni£enja ( y X b) 0( y X b) i proizvod X (b bH ) 2 Im X ,
meusobno ortogonalni, to jest
( y X bH ) = y X b X (X 0 X ) 1 C 0 (C (X 0 X ) 1 C 0) 1 (C b )
( y X b) 0 X (X 0 X ) 1 C 0 (C (X 0 X ) 1 C 0) 1 (C b ) = y 0 (X X (X 0 X ) 1 X 0 X )
(X 0 X ) 1 C 0 (C (X 0 X ) 1 C 0) 1 (C b ) = 0
Sada moºemo izra£unati koli£nik verodostojnosti
L(X ; b ; 2) (2 2) n/2 exp( n/2) 2 2 n/2
= L(X ; b ; 2) = = 1 + 2 H
H (2 H2 ) n/2 exp( n/2)
()
0 0 1 0 1
2/n = 1 + (C b ) ((yC (XX bX) 0)( y CX) b) (C b )
pri £emu drugi sabirak u poslednjem redu pomnoºen s koecijentom (n k 1)/m ima Fi²erovu
raspodelu Fm;n k 1 pod pretpostavkom da vaºi hipoteza H , odnosno u suprotnom, necentralnu
Fi²erovu raspodelu Fm;n k 1 sa parametrom
2 = 12 (C ) 0 (C (X 0 X ) 1 C 0) 1 (C )
Interval poverenja I1 za o£ekivanje predvianja E y^ = x00 u ta£ki x0, kao i interval poverenja I2
za vrednost y0 = x00 + " u tra£ki x0 fx1; ; xn g
(I1) y^0 tr;/2 s (x00 (X 0 X ) 1x0)1/2
(I2) y^0 tr;/2 s (1 + x00 (X 0 X ) 1x0)1/2
zadovoljavaju slede¢e kriterijume optimalnosti s obzirom na uslove (1) i (2),
15
Theorem 5. Ako je (N1; ; Nr) M (n; p1(); ; pr()) i ^ = (^1; ; ^r) ocena metodom maks.
verdostojnosti parametra = (1; ; r) , slu£ajna promenljiva
r
Q2 =
X (Nj n pj(^))2 ! 2
r k 1
j =1 n pj(^)
kada n ! 1. Specijalno, kada pi ne zavise od
r
Q2 =
X (Nj n pj)2 ! 2
n pj r 1
j =1
Kada je n elemenata slu£ajnog uzorka klasifkovano prema vrednostima svoja dva atributa u r c
tablicu kontingencije fNij gr c
(N11; ; N1c ; ; Nr 1; ; Nrc) M (n; p11; ; prc)
na osnovu Teoreme 5 test hipoteze o nezavisnosti ove dve klasikacije H0: pij = p i+ p+ j ima kri-
ti£nu oblast oblika
( r X
c )
W=
X (Nij Ni+ N+ j/n)2 > 2
Ni+ N+ j/n (r 1)(c 1)
i=1 j =1
Ista ta kriti£na oblast vaºi i u slu£aju kada su marginalne sume redova unapred ksirane, tako
(Ni1; ; Nic) M (Ni+; p1ji; ; pn ji); i = 1; ; r
za testiranje hipoteze o homogenosti ovih raspodela H0: pj j1 = = pj jr = pj za sve j = 1; ; c.
7.2 Log linearni model

U slu£aju prvog od dva modela iz prethodnog odeljka, koli£nik verodostojnosti za testiranje H0
Q Q
+)Ni + j (N+ j )Nj + Y Y Ni+ N+ j Nij

= i (NiQ Q =
nn i j (Nij)Nij n Nij
je monotona funkcija statistike
Nij log (N NNij )/n 2(r

XX
G2 = 2 log = 2 1)(r c)
i j i+ + j

asimptotski kada n ! 1. Razlika Q2 G2 P 0 u raspodeli, a G2 se moºe predstaviti kao suma
logaritama verodostojnosti
G = G21 + + G2s
koji odgovaraju podtablicama
16

Regresiona Analiza

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresiona Analiza

Uploaded by

Copyright:

Available Formats

Ocena b parametra u linearnom modelu y = X + " dobija se metodom najmanjih kvadrata iz

uslova da predvianje X b bude ortogonalna projekcija vektora y na prostor Im X , odnosno

a o£ekivanje rezidualne suma kvadrata s2 = e 0 e = " 0 M " dobijamo kao

pa se hipoteze o parametrima i mogu testirati nezavisno jedna od druge. Primetimo jo² da na

Theorem 1. Pri uslovima Gaus-Markova, ocene l 0 b i L b linearnih kombinacija l 0 odnosno

exp kPXMi2y2 X k exp k QXM i yk

sup 2Rk L( y; ; 2) = k QXQC ( y )k2 n/2

f   = k QXQC ( yk Q )ykk2 k QX y k n r(rC()X )

= kPXk QXQyCk2y k n r(rC()X )

Theorem 2. Ako vaºe uslovi Gaus-Markova i 1max h ! 0 kada n ! 0, slu£ajna promenljiva

 n R(2h), gde je R2(h) koecijent korelacije dobijen OLS regresijom e2i  1 + P xi + P xi xj

Ako je C = diag(c1 1;  ; cn 1),

Budu¢i da su bWLS i bOLS nepristrasne ocene parametra , na osnovu teoreme Gaus-Markova

D f ( yi)  ( f 0( i))2 2( i)

Table 1. Stabilizaciona transformacija f (z ) slu£ajne promenljive y koja predstavlja re²enje odgovaraju¢e

Budu¢i da je Z 0 Z /n uzora£kaPkovarijaciona matrica, hii je kvadrat standardizovanog rastojanja

Kada su regresori nezavisni i zajedni£ki imaju vi²edimenzionalnu normalnu raspodelu, raspodela

Prva od njih vaºi samo asimptotski, kada n ! 1 budu¢i da je ta£na raspodela

za meru uticaja i-te ta£ke na ocenu parametra posmatramo Cookovo rastojanje

6.2. Tukey test parova

Theorem 4. Pri uslovima Gaus-Markova, ocene l 0 b i L b linearnih kombinacija l 0 odnosno

7.2 Log linearni model

Nij log (N NNij )/n  2(r

You might also like

uslova da predvianje X b bude ortogonalna projekcija vektora y na prostor Im X , odnosno

exp kPXMi2y2 X k exp k QXM i yk

sup 2Rk L( y; ; 2) = k QXQC ( y )k2 n/2

f = k QXQC ( yk Q )ykk2 k QX y k n r(rC()X )

n R(2h), gde je R2(h) koecijent korelacije dobijen OLS regresijom e2i 1 + P xi + P xi xj

Ako je C = diag(c1 1; ; cn 1),

D f ( yi) ( f 0( i))2 2( i)

Budu¢i da je Z 0 Z /n uzora£kaPkovarijaciona matrica, hii je kvadrat standardizovanog rastojanja

Nij log (N NNij )/n 2(r