You are on page 1of 16

Ocena b parametra u linearnom modelu y = X + " dobija se metodom najmanjih kvadrata iz

uslova da predvižanje X b bude ortogonalna projekcija vektora y na prostor Im X , odnosno


X 0 ( y X b) = 0 ) b = (X 0 X ) 1 X 0 y
kada je X 0 X regularna matrica. Ortogonalne projekcije vektora y na prostore Im X , (Im X )?
nazivamo predvižanjem modela y^ odnosno ostatkom e, pri £emu su odgovaraju¢i projektori
H = X (X 0 X ) 1 X 0 M =I H
simetri£ne i idempotente matrice. Budu¢i da su H; X ? M , ostatak e moºemo izraziti u funkciji "
e = M y = M (X + ") = M "
Pri uslovu Gaus-Markova da vaºi
E y=X cov( y) = 2 I odnosno;
E"= 0 cov(") = 2 I
ocena b je nepristrasna ocena paramera a kovarijacione matrice e, y^ i parametra b imaju oblik
cov(e) = 2 M cov( y^) = 2 H
(1)
cov(b) = 2 (X 0 X ) 1 X 0 X (X X 0) 1 = 2 (X X 0) 1

a o£ekivanje rezidualne suma kvadrata s2 = e 0 e = " 0 M " dobijamo kao


E s2 = 2 Tr M = (n k 1) 2
kada parametar b sadrºi slobodan £lan i koecijente uz k nezavisnih promenljivih, odakle imamo
nepristrasnu ocenu disperzije
s2 = n 1k 1 e2i 
X

U slu£aju normalnog modela, ova ocena ima uniformno najmanju disperziju u klasi kvadratnih
nepristrasnih ocena 2 oblika y 0 A y, kao i u slu£aju ne²to ²ire klase raspodela [Rao, 1952, Hsu ..]
Kada je dimenzija n matrice X dovoljno velika, 4 s je pribliºna ²irina 95% intervala poverenja (2)
za vrednost y0 = x0 + " u ta£ki x0  fx1;  ; xn g.
Ako se matrica X moºe razloºiti na blokove
X = [ X1 X2  Xn ]
tako da vektorski prostori Im X1;  ; Im Xn budu mežusobno ortogonalni, kovarijaciona matrica
2 3
6
(X10 X1) 1 0 7
cov(b) =4 5
0 (Xn0 Xn) 1
pa su (b1;  ; bn ), (bn +1;  ; bn +n ),  , (b1 nn;  ; bnn) nekorelisane slu£ajne promenljive.
1 1 1 2

1
U tom slu£aju, ortogonalni projektor HX na prostor Im X i rezidualna suma kvadrata s se mogu
predstaviti u obliku sume
HX = HX +  + HXn
1

s2 = y 0 (I HX ) y = y y 0 y HX y +  + y 0 HXn y
1

pa se hipoteze o parametrima i mogu testirati nezavisno jedna od druge. Primetimo jo² da na


osnovu prethodnog, slede¢a tri modela
(1) y = X1 1 + X2 2 + " (2) y = X1 1 + " (3) y~ = X1 1 + "
daju iste ocene parametra 1, a modeli (1) i (3) iste rezidualne vektore e za y~ = (I HX ) y, pro
2
jekciju vektora y na prostor (Im X2)?. Zaista, rezidualni vektor
(I HX ) y = (I HX 1 HX ) y = (I HX ) (I HX ) y = (I HX ) y~
2 1 2 1

Budu¢i da smo projekcijom vektora y na (Im X2)? potro²ili rank X2 stepena slobode, testovi na
modelu (3) daju isti rezultat kao oni na (1).

Theorem 1. Pri uslovima Gaus-Markova, ocene l 0 b i L b linearnih kombinacija l 0 odnosno


L su BLUE.
Proof. Ako su l 0 b i c 0 y dve nepristrasne ocene l 0 = E (c 0 y) = c 0X ) l 0 = c0 X pa je razlika
disperzija
D (c 0 y) D(l 0 b) = c 0 cov( y) c l 0 cov(b) l
=  2 c 0 c  2 c 0 X ( X X 0) 1 X 0 c
=  2 c 0 ( I X ( X X 0) 1 X 0) c =  2 c 0 M c > 0
budu¢i da je matrica M pozitivno denitna, kao korelaciona matrica slu£ajnog vektora e. 
U slu£aju normalnog modela, ocena l 0 b ima minimalnu disperziju i u ²iroj klasi svih nepristrasnih
ocena l 0 , a s2 u klasi svih neprirstrasnih ocena 2 [Rao, 1973, strana 319].

2
Funkcija verodostojnosti normalnog modela

L( y; ; 2) = 1
n /2 exp k y 2 X
 2
k2
(2   )
2

exp kPXMi2y2 X k exp k QXM i yk


1 2 2
= n /2 2 2
(2   )
2

dostiºe svoj maksimum kada 2 Mi u ta£ki ^ = PXMi y, ^2 = k QXMi y k2/n i to vrednost
  n/2
L( y; ^; ^2) = 1 k QXMi y k2 exp( n/2 )
(2 ) n/2 n
pa je koli£nik verodostojnosti  za testiranje hipoteze H0: C = protiv alternative H1: C 

sup 2Rk L( y; ; 2) = k QXQC ( y )k2 n/2


 
( y) = sup k QX y k2
2 QC L( y ; ;  2)

Imenilac i brojilac koli£nika  su zapravo rezidualne sume kvadrata odgovaraju¢a dva modela.
Za monotono rastu¢u funkciju f () = (2/n 1) r(C )/(n r(X ))

f   = k QXQC ( yk Q )ykk2 k QX y k n r(rC()X )


2 2
X

= kPXk QXQyCk2y k n r(rC()X )


2
X

pod pretpostavkom da vaºi hipoteza H0. Budu¢i da su kvadratne forme sa obe strane razloma£k
crte mežusobno ortogonalne i, kao u prethodnom odeljku
k y k2 = kQX y k2 + kPX XQC y k2 + kPXQC y k2

na osnovu Kokranove teoreme obe imaju r2(C );kPX XQC k2 odnosno 2n r(X );0 raspodele, a test
statistika
F = f    Fr(C );n r(X ) (kPX XQC k2).

3
3. Testiranje pretpostavke o normalnosti modela
Da bi testirali hipotezu da "i  N (0; 2) posmatramo ostatke ei, jer iz
e = (I H ) " ) ei = "i hi "
za H = (h1;  ; hn) 0 = (hij)i;j =1 n i disperzija razlike
D("i ei) = hi0 hi 2 = hii 2 ! 0


kada hii ! 0, pa na osnovu ƒebi²ovljeve nejednakosti ei P "i u verovatno¢i. Mežutim, poslednji
uslov hii ! 0 povla£i da kriti£ne oblasti i intervali poverenja iz prethodnog odeljka vaºe asimpto-
tski bez obzira na raspodelu slu£ajnog vektora ". Naime,

Theorem 2. Ako vaºe uslovi Gaus-Markova i 1max h ! 0 kada n ! 0, slu£ajna promenljiva


6i6n ii

s2 (C b C ) 0 [C (X 0 X ) 1 C 0] 1 (C b C ) ! 2r
asimptotski, kada n ! 1 , gde je C proizvoljna r  (k + 1) matrica ranga r 6 (k + 1). Svi testovi i
kriti£ne oblasti iz prethodnog odeljka su zasnovane upravo na ovoj statistici.

Ako su ostaci ei  N (0; 1) normalno raspodeljeni, statistike poretka e(i) imaju pribliºna o£ekivan
 
E e(i)  i =  1 ni + 3/8
1/4
a ako je ei  N ( ; 2) ) E e(i)   +  i pa su ta£ke (e(i); i) pribliºno rasporežene duº prave i
linije i ovakav grak se moºe koristiti da se neformalno testra hipoteza o normalnosti ostataka.
Sa druge strane, moºemo koristiti Shapiro-Wilks ili Kolmogorovoljev test posredstvom statistika

W=
X ai e(i)
s2
D = sup jF (x) H (x)j
x
ili na osnovu koecijenta korelacije izmežu e(i) i i kao aproskimacije Shapiro-Wilks testa. Prvo
od njih odgovara funkcija shapiro.test, drugom lillie.test iz library(nortest) za testi-
ranje sloºene hipoteze o normalnosti odnosno ks.test(x,"pnorm",m,) u slu£aju proste
hipoteze (recimo kada testiramo interno studentizirane ostatke koji imaju raspodelu N (0; 1)).

4
4. Testiranje pretpostavke o konstantnosti disperzije
Da li se disperzija y menja sa promenom y^i odnosno xij moºemo proveriti na neformalan na£in,
pregledom odgovaraju¢ih graka, ili formalno, na osnovu neke od slede¢ih test statistika
 Spearmanovim koecijentom korelacije izmežu jei j i y^i ili nekih od xij;
2
 S^ = sn X 0 X n1 e2i xi xi0 ! 0 kada n ! 1 ako je disperzija konstantna i svi hii ! 0
X

 n R(2h), gde je R2(h) koecijent korelacije dobijen OLS regresijom e2i  1 + P xi + P xi xj


koji ima asimptoski 2n raspodelu.
U slu£aju kada disperzija slu£ajne promenljive y nije konstantna a poznate su nam (1) disperzije
D "i = ci ili D yi = 2( i), zamenom y sa f ( y) za pogodno izabranu funkciju f moºemo dobiti m.
sa konstantnom disperzijom. Na primer, ako je D "i = ci 2 i
yi = 0 + 1 x1 +  + n xn + "i
yi = 1 + x1 +  + xn + "i
ci 0 ci 1 ci nc
i ci

prelaskom sa prvog na drugi model dobijamo slabo-sferi£no raspodeljene ostatke; koecijente !i=
1/c2i nazivamo teºinskim koecijentima , jer ols ocena poslednjeg modela minimizira ponderisanu
sumu
X
!i ( yi 0 1 x1  n xn)2

Ako je C = diag(c1 1;  ; cn 1),


= diag(c21;  ; c2n) zamenom y(
) = C y, X (
) = C X , i "(
) = C " u
jednakosti

bWLS = (X 0
1 X ) X 0
1 y cov(bWLS) = 2 (X 0
1 X ) 1
bOLS = (X 0 X ) 1 X 0 y cov(bOLS) = 2 (X 0X ) 1 X 0
X (X 0 X ) 1

Budu¢i da su bWLS i bOLS nepristrasne ocene parametra , na osnovu teoreme Gaus-Markova


D a 0 bWLS 6 D a 0 bOLS
za proizvoljan kontrast vektor a, pa ponderisana regresija u slu£aju nejednakih disperzija uvek
daje bolje ocene od obi£ne.
2. Ako disperzija slu£ajne promenljive yi zavisi od o£ekivanja i = E yi tako da je D yi = 2(i),
prira²taj glatke funkcije f ( yi) se moºe, na osnovu Tejlorovog razvoja, aproksimirati sa
f ( yi) f ( i)  f 0( i) ( yi i)
kada je ( yi i)2 dovoljno malo, pa kvadriranjem i zatim integriranjem obe strane dobijamo

D f ( yi)  ( f 0( i))2 2( i)


odnosno kada je f 0( i) = c/( i), konstantnu disperziju c. U tabeli 1 ispod date su odgovaraju¢e
stabilizacione funkcije f (x) za neke raspodele slu£ajne promenljive yi.

5
Raspodela 2( i) f ( i)
Puasonova P ( i) i p i
i (1 i)
pn
Binomna B ( i ; n) ni 2 sin pi
i
Linearna 2i log i

Table 1. Stabilizaciona transformacija f (z ) slu£ajne promenljive y koja predstavlja re²enje odgovaraju¢e


diferencijalne jedna£ine f ( i) = c/ ( i) i prevodi Puasonov, Binomni, odnosno model kod koga je disper.
0

ostataka linearna funkcija o£ekivanja u slabo-sferi£ni model. Videti takože, tabelu 6.7. na strani 123 u [1]

6
5. Outlieri i uticajne ta£ke
Motivaciju da dijagonalni element hii matrice projektora H koristimo kao meru uticaja i-te ta£k
na regresiju dobijamo iz £injenice da je on mera njenog uticaja na ocenu y^i (@y^i/@yi = hii)
y^i = hi1 y1 + hi2 y2 +  + hii yi +  hin yn

Theorem 3. Uticaji hii = xi0 (X 0 X ) xi i hii = (xi x) 0 (Z 0 Z ) (xi x) za Z = (x1 x;  ; xn x)
ta£aka xi odnosno xi x su povezani relacijom

hii = hii n1

Budu¢i da je Z 0 Z /n uzora£kaPkovarijaciona matrica, hii je kvadrat standardizovanog rastojanja


izme²u ta£aka xi i x. Suma hii = k + 1 pa bi u idealnom slu£aju ºeleli da su svi

hii = k +n 1

Kada su regresori nezavisni i zajedni£ki imaju vi²edimenzionalnu normalnu raspodelu, raspodela


n k 1 hii 1/n  F
k 1 hii k;n k 1

odakle dobijamo pribliºan uslov hii > 2 k +n 1 da bi se ta£ka smatrala uticajnom. Primetimo jo² i
to da su zbog simetri£nosti i idempotentnosti projektora H i na osnovu T3. uticaji hii 2 [1/n; 1].

5.2. Outlieri
Interno odnosno eksterno studentizirani ostaci imaju slede¢e raspodele

ri = p ei  N (0; 1) ti = pei t
s 1 hii s(i) 1 hii n p 1

Prva od njih vaºi samo asimptotski, kada n ! 1 budu¢i da je ta£na raspodela


ri2  B ( 1 ; n p 1 )
n p 2 2
Ako u posmatranom modelu regresorima dodamo indikator i-tog slu£aja, t-vrednost koja odgova
koecijentu uz njega je upravo eksterno studentizirani ostatak ti; ovakav model su literaturi sre¢e
kao mean shift outlier model .
Da bi ove rezultate o raspodeli ostataka upotrebili za detekciju pojedina£nih outliera izmežu n
ta£aka koje obuhvata analiza koristimo Bonferroni korekciju (videti, na primer, outlier.test iz
library(car)) u slu£aju kada je n relativno malo, odnosno qqnorm grake za veliko n.

7
Dok ostaci i standardizovani ostaci ukazuju na neobi£ne vrednosti osmotrenih podataka, velike
varijacije u disperzijama ostataka ukazuju na neravnomeran raspored redova matrice X u faznom
prostoru. Imaju¢i na umu (1 )  100% interval poverenja za parametar

(  ^) 0 (X 0 X ) (  ^) 6 F
( p + 1) s2 p;n p 1; 1

za meru uticaja i-te ta£ke na ocenu parametra posmatramo Cookovo rastojanje


^ ^0 0 ^ ^
Di = ( (i) )( p(X+ 1)Xs)2( (i) ) = p r+i 1 1 hiih
2
ii

koje moºemo uporediti sa odgovaraju¢om F raspodelom. Ako uklanjanje neke ta£ke pomera oce-
nu na ivicu 95% intervala poverenja sa centrom u ^, moºemo zaklju£iti da ova ta£ka ima velik
uticaj na ocenu ^; vrednost Di odgovara pragu zna£ajnosti za koji elipsa poverenja za sa cen-
trom u ^ prolazi kroz ^(i).

8
6. Kovarijaciona analiza
Ako je M~ = M + N direktna suma vektorskih prostora M i N koji, mežutim, vi²e nisu mežu-
sobno ortogonalni, ocene y^N = PN ;M PM y, y^M = PM ;N PM y o£ekivanja E yN , E yM se mogu
napisati kao
y^N = PN ;M QM PM y = PN ;M PM M y
y^M = PM (I PN ;M ) PM y = PM y PM y^N
pa se ocena o£ekivanja E yM menja za PM y^N dodavanjem modelu y = M + " prediktora koji
odgovaraju potprostoru N . Sli£no, ocene (xN ; y^N ), (xM ; y^M ) kontrasta (xN ; E y^N ), (xN ; E y^M )
za xN 2 N , xM 2 M se mogu napisati kao
(xN ; y^N ) = (xN ; PN ;M PM M y) = (PN0 ;M xN ; PM M y) = (PN0 ;M xN ; y)
(xM ; y^M ) = (xM ; PM y PM y^N ) = (xM ; y) (xM ; y^N )
budu¢i da je (PM x; y) = (PM x; PM y) = (x; PM y). ’tavi²e, poslednji skalarni proizvod je jednak
(xM ; y^M ) = (xM ; y) (PN0 ;M xM ; y) = (xM PN0 ;M xM ; y)
Jedan takav kontrast je i j -ta koordinata ^j = (xNj ; y^N ) ocene y^N u odnosu na bazu z1;  ; zh pr.
Imaju¢i u vidu da je Cov((b; x); (c; y)) = (b; Cov(x ; y) c) odnosno Cov((x1; y); (x2; y)) = 2 (x1; x2)
Cov((xN 1; y^N ); (xN 2; y^N )) = 2 (PN0 ;M xN 1; PN0 ;M xN 2)
Cov((xM 1; y^M ); (xM 2; y^M )) = 2 (xM 1 PN0 ;M xM 1; xM 2 PN0 ;M xM 2)
 
= 2 (xM 1; xM 2) + (PN0 ;M xM 1; PN0 ;M xM 2)
 
pa su disperzije D (xN ; y^N ) = 2 kPN0 ;M xN k2 odnosno D (xM ; y^M ) = 2 kPN0 ;M xM k2 + kxM k2 a
Cov( ^i ; ^j) = 2 (PN0 ;M xNi; PN0 ;M xNj). Koordinate vektora PN0 ;M xNj u odnosu na bazu QM z1; 
QM zh su date sa
d j = G( QM z1;  ; QM zh) 1 [(z1; xNj);  ; (zh ; xNj)] = C (z; xNj)
odakle
X X  X
Cov( ^i ; ^j) = 2 d(ik) QM zk ; d(jl) QM zl = 2 d(ik) ( QM zk ; QM zl) d(jl)
k;l (1)
= 2 di0 C 1 d j = 2 (z; xNi) 0 C (z; xNj) = 2 Cij
pa je Cov( ^) = C . Ocena ^2 disperzije 2 se moºe izraziti kao

^2 =
k QM y k2 = kQM y k2 kPM M yk
2
(2)
d(M~ ?) d(M ?) d(N )
pri £emu je korektivni faktor u brojiocu
X
kPM M yk
2= ^j ( QM zj ; QM zk) ^k = ^ 0 G( QM z1;  ; QM zh) ^
= ( QM z; y) 0 G( QM z1;  ; QM zh) 1 ( QM z; y)

9
Za proizvoljan vektorski prostor L~ linearnih funkcionela nad M~ imamo Scheé intervale
^(PM y)  Sd(L~);d(M )( ) ~ kx k

Ako je L vektorski prostor linearnih funkcinela nad nad M , proizvoljnu linearnu funkcinonelu
(m) = (x ; m) 2 L pro²irimo do funkcionele ~ nad M~ tako da
~( y) = (x ; PM ;N y) = (PM0 ;N x ; y)
i L~ = f ~ j 2 Lg, Scheé intervali poverenja su dati sa
k Q  y k qkx k2 + kP 0 x k2
(PM y)  Sd(L);d(M )( ) q M N ;M
d(M~ ?)
budu¢i da je L~ = PM0 ;N L a PM0 ;N = PN ?;M ? je regularan na L  M odakle d(L~) = d(L); osim toga
PM0 ;N x = x PN0 ;M x je razlika dva ortogonalna vektora.

10
6.1 Scheé metod
Za x 2 M , posmatrajmo ocenu ^( y) = (x; y) kontrasta ^ = (x; E y) sa disperzijom ^2 = 2 kx k2 i
njenom ocenom ^2 = (k QM y k2/d(M ?)) kx k2. Neka je K neki skup takvih kontrasta i
K = fx 2 M j (x; y) 2 Kg L = Sp(K) L = Sp(K )
Da bi interval ^( y)  C ^ pokrivao ( y) za svako 2 L, potrebno je i dovoljno da
^ 2
sup ( ( y) ^ ( y)) 6 C 2
2L
odnosno
1
^2 xsup ( kxxk ; PL ( y E y))2 = ^12 kPL ( y E y)k2 6 C 2
2L
pri £emu poslednja jednakost vaºi na osnovu nejednakosti Ko²i-’varc-Bunjakovskog. Budu¢i da
je M ?L? raspodela
kPL ( y E y)k2/d(L)  F
k QM y k2/d(M ?) d(L);d(M ?)

p
pa za Scheé mnoºitelj Sd(L);d(M ?)( ) = d(L) Fd(L);d(M ?)( ) intervali ^( y)  Sd(L);d(M ?)( )
pokrivaju sa ukupnom verovatno¢om .

6.2. Tukey test parova


Posmatrajmo sada balansiran ANOVA model yij = i + ij, i = 1 g, j = 1 n sa n1 =  = ng = n.
Ako je   N (0; 2 I ), slu£ajna promenljiva
max ( yip i) max ( yi i)  q ( g; g (n 1))
kQM y k2/n
ima Studentiziranu raspodelu q( g; g (n 1)) pa
( )
1 = P max ( yip i) max ( yi i) 6 q ( g; g (n 1)

k QM y k /n
2
n p o
= P j( yi yj ) ( i j)j 6 q ( g; g (n 1) kQM y k2/n za sve i; j = 1 n
n p o
= P ( yi yj )  q ( g; g (n 1) k QM y k2/n 3 i j za sve i; j = 1 n

U slu£aju kada model nije balansiran, moºe se primeniti slede¢a Tukey-Kramer aproksimacija
s  
( yi yj )  q ( g; p
g (n 1) kQ y k2 1 + 1
M ni nj
2

11
Neka je slu£ajni vektor y slabo sverno raspodeljen na ortogonalnoj sumi V = V (1) + V (2) potpros
V (1) i V (2) tako da je
yi = PV i y; i = 1; 2
( )

pri £emu raspolaºemo samo vrednostima y1, dok vrednosti y2 iz nekog razloga nedostaju. Ovim
je obuhva¢en takozvani standardni model , u kome za V = Rn sa uobi£ajenim skalarnim proiz.
V (1) = f y 2 Rn j ym+1 =  = yn = 0g V (2) = f y 2 Rn j y1 =  = ym = 0g
gde su y1;  ; ym raspoloºive, a ym+1;  ; yn nedostaju¢e vrednosti, ali i me²oviti model u kome
V (1) = f y 2 Rn j y1 =  = yn g V (2) = f y 2 Rn j y1 +  + ym = 0; ym+1 =  = yn = 0g
gde je poznata samo suma y1 +  + ym ali ne i pojedina£ne vrednosti y1;  ; ym. Vektor raspolo-
ºivih vrednosti y1 je i sam slabo sferno raspodeljen na V (1) sa o£ekivanjem
(1) = PV  2 M (1) = PV M
(1) (1)

Ako je dim M = dim M (1) odnosno M \ V (2) = ? ) PV (1) je regularan na M i postoji jedinstven
vektor ^ 2 M takav da
PV ^ = (1)
(1)

12
Posmatrajmo linearni model y = X + ". Matri£nim diferenciranjem skalarne sume kvadrata

s2 = ( y X ) 0 ( y X ) = y 0 y 2 0 X 0 y + 0 X 0 X
@ s2 = 2 X 0 y + 2 X 0 X
@ 2
dobijamo ocenu b = (X 0 X ) 1 X 0 y parametra , tako da se slu£ajni vektor y moºe razloºiti na
ortogonalnu sumu predvižanja y^ = X b i ostatka e = y y^, pri £emu je

H = X (X 0 X ) 1 X 0
y = y^ + e = H y + M y za
M =I H
Projektor M je ortogonalan na matrice H i X (²to se, ina£e, lako proverava direktnim izra£una-
vanjem) pa se ostatak e moºe prikazati kao
e = M y = M (X + ") = M "
Pri uslovu Gaus-Markova da vaºi
E y=X cov( y) = 2 I odnosno;
E"= 0 cov(") = 2 I
ocena b je nepristrasna ocena paramera i, budu¢i da su projektori M i H idempotentni, vaºe
cov(e) = 2 M cov( y^) = 2 H
cov(b) = 2 (X 0 X ) 1 X 0 X (X X 0) 1 = 2 (X X 0) 1
Disperziju 2 moºemo oceniti pomo¢u rezidualne sume kvadrata
n
X X
s2 = e 0 e = " 0 M 0 M " = " 0 M " = mii "2i + mij "i "j
i=1 i j
n
X X
E s2 = mii E( "2i ) + mij E("i "j) = 2 Tr M = (n k 1) 2
i=1 i j

kada parametar b sadrºi slobodan £lan i koecijente uz k nezavisnih promenljivih, odakle imamo
nepristrasnu ocenu disperzije
s2 = n 1k 1 e2i
X

U slu£aju normalnog modela, ova ocena ima uniformno najmanju disperziju u klasi kvadratnih
nepristrasnih ocena 2 oblika y 0 A y, kao i u slu£aju ne²to ²ire klase raspodela [Rao, 1952, Hsu ..]
Kada je dimenzija n matrice X dovoljno velika, 4 s je pribliºna ²irina 95% intervala poverenja za
predvižanje modela.

Theorem 4. Pri uslovima Gaus-Markova, ocene l 0 b i L b linearnih kombinacija l 0 odnosno


L su BLUE.

13
Proof. Ako su l 0 b i c 0 y dve nepristrasne ocene l 0 = E (c0 y) = c 0X ) l 0 = c 0 X pa je razlika
disperzija
D (c 0 y) D(l 0 b) = c 0 cov( y) c l 0 cov(b) l
=  2 c 0 c  2 c 0 X ( X X 0) 1 X 0 c
=  2 c 0 ( I X ( X X 0) 1 X 0) c =  2 c 0 M c > 0
budu¢i da je matrica M pozitivno denitna, kao korelaciona matrica slu£ajnog vektora e. 
U slu£aju normalnog modela, ocena l 0 b ima minimalnu disperziju i u ²iroj klasi svih nepristrasnih
ocena l 0 , a s2 u klasi svih neprirstrasnih ocena 2 [Rao, 1973, strana 319].

P
Ako od svake kolone j = 1 n matrice X oduzmemo xj = n 1 xij tako da je suma elemenata
svake od kolona nula, linearni model (1) se moºe zapisati u centriranom obliku kao
 
y = 0 1 + Z (0) + " =
 0
1 Z (0) + "
gde je Z na ovaj na£in dobijena matrica, 0 = 0 + 1 x1 +  + n xn i (0) = ( 1;  ; n) 0.

Stavljaju¢i X = 1 Z u ve¢ dobijenu ocenu b = (X 0 X ) 1 X 0 y metodom najmanjih kvadrata,
dobijamo
    !
0 = n 0 0 1  10 
n 1 00 n y
 
y


(0) 0 ZZ0 Z 0 y = 0 (Z Z 0) 1 Z 0 y = (Z Z 0) 1 Z 0 y
    1
0
cov 0 = 2 n0 Z0Z 0
(0)
a rezidualna suma kvadrata
"   #
 n 00 1  10
e0 e = y 0 I 1 Z 0 Z Z0 Z0 y = y 0 (I n 11 1 0 Z (Z 0 Z ) 1 Z 0) y
= ( y 0 y n y2) y 0 Z (Z 0 Z ) 1 Z 0 y
Kao ²to vidimo, u ovom slu£aju su 0 i (0) nekorelisane slu£ajne promenljive. Gornja jednakost
zna£i da se ukupna ispravljena suma kvadrata y y 0 n y2 moºe predstaviti kao suma rezidualne i
sume kvadrata poreklom od (0), pri £emu se ova poslednja razlikuje od y 0 X (X 0 X ) 1 X 0 za n y
Zaista, dovoljno je setiti se da je
e 0 e = y M y = y 0 y y 0 X (X 0 X ) 1 X 0 y

14
Testiranje linearnih hipoteza
Diferenciranjem funkcije verodostojnosti normalnog modela
 
L( y; ; 2) = 1 exp 2 12 ( y X ) 0 ( y X ) ()
(2  2)n/2
dobijamo slede¢e ocene maksimalne verodostojnosti
b = (X 0 X ) 1 X 0 y s2 = n1 ( y X b) 0( y X b)
parametara , 2 odnosno metodom Lagranºovih mnoºitelja, njihove ocene maksimalne verodos-
tojnosti pod uslovom da vaºi H : C =
bH = b + (X 0 X ) 1 C 0 (C (X 0 X ) 1 C 0) 1 (C b )
2 = ( y X bH ) 0 ( y X bH )/n
pri £emu se poslednja ocena moºe predstaviti kao
n 2 = ( y X b) 0( y X b) + (C b ) 0 (C (X 0 X ) 1 C 0) 1 (C b )
budu¢i da su ostatak modela bez ograni£enja ( y X b) 0( y X b) i proizvod X (b bH ) 2 Im X ,
mežusobno ortogonalni, to jest
( y X bH ) = y X b X (X 0 X ) 1 C 0 (C (X 0 X ) 1 C 0) 1 (C b )
( y X b) 0 X (X 0 X ) 1 C 0 (C (X 0 X ) 1 C 0) 1 (C b ) = y 0 (X X (X 0 X ) 1 X 0 X ) 
(X 0 X ) 1 C 0 (C (X 0 X ) 1 C 0) 1 (C b ) = 0
Sada moºemo izra£unati koli£nik verodostojnosti
L(X ; b ;  2) (2   2) n/2 exp( n/2)   2 2 n/2
 = L(X ; b ; 2) = = 1 + 2 H
H (2  H2 ) n/2 exp( n/2)
()
0 0 1 0 1
2/n = 1 + (C b ) ((yC (XX bX) 0)( y CX) b) (C b )

pri £emu drugi sabirak u poslednjem redu pomnoºen s koecijentom (n k 1)/m ima Fi²erovu
raspodelu Fm;n k 1 pod pretpostavkom da vaºi hipoteza H , odnosno u suprotnom, necentralnu
Fi²erovu raspodelu Fm;n k 1 sa parametrom
2 = 12 (C ) 0 (C (X 0 X ) 1 C 0) 1 (C )
Interval poverenja I1 za o£ekivanje predvižanja E y^ = x00 u ta£ki x0, kao i interval poverenja I2
za vrednost y0 = x00 + " u tra£ki x0  fx1;  ; xn g
(I1) y^0  tr; /2 s (x00 (X 0 X ) 1x0)1/2
(I2) y^0  tr; /2 s (1 + x00 (X 0 X ) 1x0)1/2
zadovoljavaju slede¢e kriterijume optimalnosti s obzirom na uslove (1) i (2),

15
Theorem 5. Ako je (N1;  ; Nr)  M (n; p1();  ; pr()) i ^ = (^1;  ; ^r) ocena metodom maks.
verdostojnosti parametra  = (1;  ; r) , slu£ajna promenljiva
r
Q2 =
X (Nj n pj(^))2 ! 2
r k 1
j =1 n pj(^)
kada n ! 1. Specijalno, kada pi ne zavise od 
r
Q2 =
X (Nj n pj)2 ! 2
n pj r 1
j =1

Kada je n elemenata slu£ajnog uzorka klasifkovano prema vrednostima svoja dva atributa u r  c
tablicu kontingencije fNij gr c
(N11;  ; N1c ;  ; Nr 1;  ; Nrc)  M (n; p11;  ; prc)
na osnovu Teoreme 5 test hipoteze o nezavisnosti ove dve klasikacije H0: pij = p i+ p+ j ima kri-
ti£nu oblast oblika
( r X
c )
W=
X (Nij Ni+ N+ j/n)2 > 2
Ni+ N+ j/n (r 1)(c 1)
i=1 j =1

Ista ta kriti£na oblast vaºi i u slu£aju kada su marginalne sume redova unapred ksirane, tako
(Ni1;  ; Nic)  M (Ni+; p1ji;  ; pn ji); i = 1;  ; r
za testiranje hipoteze o homogenosti ovih raspodela H0: pj j1 =  = pj jr = pj za sve j = 1;  ; c.

7.2 Log linearni model


U slu£aju prvog od dva modela iz prethodnog odeljka, koli£nik verodostojnosti za testiranje H0
Q Q
+)Ni + j (N+ j )Nj + Y Y Ni+ N+ j Nij
 
= i (NiQ Q =
nn i j (Nij)Nij n Nij
je monotona funkcija statistike

Nij log (N NNij )/n  2(r


XX
G2 = 2 log  = 2 1)(r c)
i j i+ + j


asimptotski kada n ! 1. Razlika Q2 G2 P 0 u raspodeli, a G2 se moºe predstaviti kao suma
logaritama verodostojnosti
G = G21 +  + G2s
koji odgovaraju podtablicama

16

You might also like