You are on page 1of 115

Bevezetes a matematikai statisztikaba

Dr. Ketskemety Laszlo, Pinter Marta


Budapest, 1999. november 1.

Lektoralta: Dr. Gyor Laszlo


Szerkesztette: Gy}ori Sandor
2
Tartalomjegyzek
1. A matematikai statisztika alapfogalmai 5
2. Becsleselmelet 9
2.1. Torztatlan, konzisztens becsles . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Hatasos becslesek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3. Elegsegesseg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4. Maximum-likelihood becsles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5. Intervallumbecslesek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3. Hipotezisvizsgalat 43
3.1. Alapfogalmak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2. Neyman{Pearson- es Stein-lemma . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3. Parameteres probak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.1. Egymintas u-proba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2. A ketmintas u-proba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.3. Az egymintas t-proba . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.4. A ketmintas t-proba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3.5. Az F-proba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3.6. A Welch-proba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4. Nemparameteres probak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.1. 2 -probak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.2. Kolmogorov{Szmirnov-probak . . . . . . . . . . . . . . . . . . . . . . . . 59
4. Regresszioanalzis 61
4.1. Veletlen meg gyeles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.1. Linearis regresszio ket valtozo kozott . . . . . . . . . . . . . . . . . . . . 61
4.1.2. Polinomialis regresszio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1.3. Linearisra visszvezethet}o ketparameteres regresszios osszefuggesek kere-
sese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.1.4. A regresszios illeszkedes josaganak merese . . . . . . . . . . . . . . . . . 65
4.2. Tervezett (determinisztikus) meg gyeles . . . . . . . . . . . . . . . . . . . . . . 66
4.3. Sztochasztikus approximacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3.1. Linearis regresszios feladat . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.3.2. Negyzetes hiba minimalizalasa . . . . . . . . . . . . . . . . . . . . . . . 74
5. Eloszlasbecsles 77
5.1. Eloszlasfuggveny becslese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2. Vapnik{Chervonenkis-elmelet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3
4 Tartalomjegyzek

6. S}ur}usegfuggveny becslese 87
6.1. Az L1 hiba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2. A hisztogram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7. Regressziobecsles 95
7.1. A regresszios problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.2. Lokalis atlagolason alapulo becsl}ok . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.3. Empirikus hibaminimalizalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8. Alakfelismeres 107
8.1. A Bayes-dontes es kozeltese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2. Lokalis tobbsegen alapulo dontesek . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.3. Empirikus hibaminimalizalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Ajanlott irodalom 115
1. fejezet

A matematikai statisztika
alapfogalmai
A valoszn}usegszamtas elmeleteben az ( ; F; P) Kolmogorov valoszn}usegi mez}on fogalmaztuk
meg a teteleinket, azaz a P valoszn}usegi merteket vegig adottnak teteleztuk fel. A gyakorlati
problemaknal azonban a valoszn}useg nem ismert, legfeljebb logikus el}ofeltetelezeseink van-
nak rola. A matematikai statisztika alapfeladata eppen az, hogy a veletlen kserletre, vagy
a veletlen tomegjelensegre vonatkozo meg gyelessorozat segtsegevel kovetkeztetni tudjunk a
jelenseghez tartozo adekvat valoszn}usegi mertekre vagy annak egy jellemz}ojere, azt megfelel}o
pontossaggal kozelteni tudjuk. Ilyen ertelemben a veletlen jelensegek matematikai modelle-
zesenel a matematikai statisztika modszerei megel}ozik a valoszn}usegszamtas modszereit. A
matematikai statisztika fogalomkore, modszertana viszont a valoszn}usegszamtas fogalmain
es modszerein alapul, es ilyen szempontbol a matematikai statisztika koveti a valoszn}usegsza-
mtast.
Ugyanugy, mint a valoszn}usegszamtasnal, a veletlen kserlet (K) alapfogalmabol indu-
lunk ki. Azt is feltesszuk, hogy ismert az elemi esemenyek halmaza es az esemenyek F
halmazrendszere. A P valoszn}useg pontosan nem ismert, csak azt tudjuk, hogy a K veletlen
kserlethez tartozo valoszn}useg eleme egy P halmaznak. Tehat 8P 2 P eseten Kolmogorov-
fele valoszn}usegi mez}ot kapunk. A matematikai statisztika alapfeladata ezen P halmazbol
kivalasztani azt a valoszn}usegi merteket, amely tenylegesen a kserlethez tartozik. A P va-
loszn}usegi mertekosztalyra esetenkent szokasos bizonyos megkotesekkel elni. Ilyen pl. az,
amikor P-t dominaltnak tetelezzuk fel valamilyen adott  -veges mertekre nezve. Ezen azt
ertjuk, hogy adott az ( ; F) merhet}o teren olyan  -veges mertek, amelyre 8P 2 P abszolut
folytonos, azaz ha valamely A 2 F eseten  (A) = 0, akkor P (A) = 0 is 8P 2 P-re.
A K veletlen kserlethez meg gyelessorozatot szervezunk, azaz adatokat gy}ujtunk. Mate-
matikailag ezt ugy fogalmazzuk meg, hogy adottnak tetelezunk fel egy X1 ; : : : ; Xn Rd ertek}u
fuggetlen, azonos eloszlasu valoszn}usegi vektorvaltozo sorozatot, amelyet statisztikai minta-
nak nevezunk. A P 2 P valoszn}useg eseten a minta kozos eloszlasa X (A) = P(X1 2 A) lesz,
ahol A 2 Bd d-dimenzios Borel-halmaz. Tehat minden P 2 P eseten (Rd ; Bd ; X ) Kolmogo-
rov-fele valoszn}usegi mez}o lesz. Jelolje QX ezen X eloszlasok osztalyat. Az (Rnd ; Bnd ; QX )
harmast statisztikai mez}onek nevezzuk. A statisztikai vizsgalatok celja ezutan az, hogy a QX
eloszlascsaladbol valasszuk ki az X1 ; : : : ; Xn mintahoz tartozo eloszlast.
Statisztikai modellekben altalaban adott egy # : QX ! Rk funkcional, amelynek erte-
keit akarjuk minel pontosabban megbecsulni. Ha teljesul, hogy #((1) (2)
X ) 6= #(X ) eseten
(1) (2)
X 6= X , a # funkcionalt parameternek (parametervektornak) nevezzuk. Ilyenkor a #-nak
megfelel}o eloszlast # -val fogjuk jelolni: QX = f# ; # 2 g, ahol  a parameterter, azaz a #
5
6 1. FEJEZET A matematikai statisztika alapfogalmai

lekepezes ertekkeszlete. Parameteres problema dominalt statisztikai mez}o eseten praktikusan


azt jelenti, hogy a minta eloszlasa valamilyen parametert}ol fugg}o diszkret vagy folytonos el-
oszlascsaladbol szarmazhat csak. Peldaul, ha feltesszuk, hogy a mintank eloszlasa normalis,
akkor a # = (m; D) parametervektor egyertelm}uen meghatarozza a
8 Z 9
< =
QX = :# : # (B ) = dnm;D (x);
B
ketparameteres eloszlasosztalyt, ahol
Yn Zxi
p 1 e, 2D2 dt:
(t,m)
m;D (x) =
n
i=1,1 2D
Abban az esetben viszont, ha ilyen # parameterfuggveny nem ismert, a statisztikai mez}o es
a rajta megfogalmazott problemak nemparameteresek. Peldaul, ha feltesszuk, hogy az X sta-
R
tisztikai minta 8P 2P eseten veges varhato ertekkel rendelkezik, azaz jEP X1 j = X1 dP <
1; 8P 2P-re. Ilyenkor a # (P) = EPX1 funkcional nem feltetlenul parameter, # jo becslese
nem jelenti meg jo valoszn}usegi mertek megvalasztasat.
Adott tovabba egy t : Rn ! Rk merhet}o lekepezes, melyet statisztikai fuggvenynek ne-
vezunk. A t(X1 ; X2 ; : : : ; Xn ) osszetett fuggveny a statisztika. A statisztika tehat nem mas,
mint 8P 2 P eseten egy valoszn}usegi vektorvaltozo az ( ; F; P) Kolmogorov-fele valoszn}usegi
mez}on.
1.1. de ncio: Legyen ( ; F) merhet}o ter, es P valoszn}usegi mertekek egy halmaza, ahol
8P 2 P eseten ( ; F; P) Kolmogorov-fele valoszn}usegi mez}o. Az X = (X1 ; X2 ; : : : ; Xn )T
statisztikai meg gyelest statisztikai mintanak nevezzuk, ha Xi -k teljesen fuggetlen, azonos
eloszlasu valoszn}usegi valtozok 8P 2 P eseten ( ; F; P)-n, azaz 8P 2 P-re
P(Xi < x) = FP (x) (i = 1; 2; 3; : : : ; n)
es
Yk
P(Xi1 < xi1 ; Xi2 < xi2 ; : : : ; Xik < xik ) = FP (xi ) (82  k  n):
=1
n a minta elemszama, FP (x) a minta eloszlasfuggvenye, Xi az i-edik mintaelem, P (A) =
P(Xi 2 A), A 2 Bd a minta eloszlasa. Egy ! 2 eseten az
X1 (!) = x1 ; X2 (!) = x2 ; : : : ; Xn (!) = xn
szam n-es a minta egy realizacioja.
Megjegyzes :
1. Amikor egy statisztikai modszert alkalmazunk, mindig egy statisztikai minta realizaltja
all a rendelkezesunkre. Ez a szam n-es azonban a veletlent}ol fugg, hiszen ha megisme-
telnenk a mintavetelezest, egeszen biztos, hogy mas adatokhoz jutnank. A modszerek
elmeletenek targyalasakor ezert a mintat fuggetlen, azonos eloszlasu valoszn}usegi val-
tozok sorozatanak tekintjuk.
7

2. Ha az X statisztikai minta,  a Lebesgue-mertek, akkor a P eloszlasosztaly dominalt-


saga most azt jelenti, hogy a minta abszolut folytonos, azaz 8P 2P eseten letezik a
minta s}ur}usegfuggvenye, amelyet fP (x)-szel jelolunk. Ha viszont  a szamlalo mertek,
vagyis  (B ) azt adja meg, hogy a B halmazban mennyi elem van a minta megszamlal-
hato ertekkeszleteb}ol, a P dominaltsaga -ra nezve azt jelenti, hogy a statisztikai minta
eloszlasa diszkret.
8 1. FEJEZET A matematikai statisztika alapfogalmai
2. fejezet

Becsleselmelet
2.1. Torztatlan, konzisztens becsles
Legyen P = fPg egy parameteres valoszn}usegi mertek-csalad.
Feladat olyan tn(X1 ; X2 ; : : : ; Xn ) 2 Rk (n = 1; 2; : : :) statisztikasorozat megadasa, amely
segtsegevel "jol" tudjuk becsulni a # parametervektort. Ha a parametert "pontosan" meg
tudjuk becsulni, akkor ez egyben azt is jelenti, hogy az adekvat # eloszlast is kozelt}oleg
megkapjuk. Az alabbiakban az elvarando "jo", "pontos" becslesi tulajdonsagokat de nialjuk.
2.1.1. de ncio: A tn(X1 ; X2 ; : : : ; Xn ) 2 Rk statisztika a # 2 Rk parameter torztatlan
becslese, ha 8P 2 P eseten a tn -nek mint valoszn}usegi vektorvaltozonak letezik varhatoertek-
vektora es EP tn = # (P) :
Megjegyzes :
1. Az EP tn azt jeloli, hogy a varhatoertek-vektor fugg attol, hogy melyik P valoszn}usegi
mertek alapjan szamoljuk az
 
Ftn (x1 ; x2 ; : : : ; xk ) = P t(1) (2) (k )
n < x1 ; tn < x2 ; : : : ; tn < xk
eloszlasfuggvenyt, majd abbol a varhato erteket.
2. Tudjuk, hogy egy valoszn}usegi valtozo ertekei a varhato erteke korul ingadoznak, tehat,
hogy egy statisztika a parameter torztatlan becslese, azt az elvarhato tulajdonsagot fe-
jezi ki, hogy a becslesi statisztika realizaltjai az ismeretlen parameter korul ingadoznak
a parameterterben.
2.1.2. de ncio: A tn(X1 ; X2 ; : : : ; Xn) 2 Rk statisztikasorozat a # 2 Rk parameter
aszimptotikusan torztatlan becslese, ha 8P 2 P eseten a tn -nek, mint valoszn}usegi vek-
torvaltozonak letezik varhatoertek-vektora es nlim E t = # (P) :
!1 P n
A torztatlansagbol nyilvanvaloan kovetkezik az aszimptotikusan torztatlansag, tehat ez
utobbi a gyengebb tulajdonsag.
2.1.3. de ncio: A tn(X1 ; X2 ; : : : ; Xn ) 2 Rk statisztikasorozat a # 2 Rk parameter kon-
zisztens becslese, ha 8P 2 P es 8" > 0 eseten nlim P ( k t , # k > " ) = 0, azaz t st #, t
,!
!1 n n n
sztochasztikusan konvergal a # parameterhez.
9
10 2. FEJEZET Becsleselmelet

Megjegyzes :
1. A konzisztencia mas kovetelmenyt fejez ki, mint a torztatlansag. A konzisztencia tulaj-
donsaga azt a jogos elvarast fogalmazza meg, hogy a meg gyelesek szamanak noveked-
tevel javuljon a becsles pontossaga.
2
2. Mivel t(ni) , #i 
Pk 2
t(nj ) , #j = ktn , #k2  k  1max
2
t(nj) , #j ; ezert a valo-
j =1 j k
szn}usegi vektorvaltozo sztochasztikus konvergenciaja ekvivalens a koordinantankenti
sztochasztikus konvergenciaval.
2.1.4. de ncio: A tn(X1 ; X2 ; : : : ; Xn ) 2 Rk statisztikasorozat a # 2 Rk parameter negy-
!1 EP jjtn , #jj = 0.
zetes kozepben konzisztens becslese, ha nlim 2

2.1.1. tetel: Ha a tn (n = 1; 2; : : :) statisztikasorozat negyzetes kozepben konzisztens


becslese #-nak, akkor konzisztens becslese is.
Bizonytas : A Markov-egyenl}otlensegb}ol:
 
P ktn , #k2 > "2  E#jjtn"2, #jj ! 0
2
(n ! 1):

2.1.2. tetel: Ha a tn (n = 1; 2; : : :) statisztikasorozat aszimptotikusan torztatlan becslese


(i)
!1  P tn = 0 (i = 1; 2; : : : ; k), akkor konzisztens becslese is.
#-nak es nlim
Bizonytas :
EP (t(ni) , #i)2 = EP(t(ni) , EPt(ni) + EPt(ni) , #i)2 =
h i
= EP (t(ni) , EP t(ni) )2 + (EP t(ni) , #i )2 + 2EP (t(ni) , EP t(ni) )(EP t(ni) , #i) =
=  2P (t(ni) ) + (EP t(ni) , #i )2 ! 0; n ! 1:
Viszont a Markov-egyenl}otlenseg szerint:
    (i)
P t(ni) , #i > " = P (t(ni) , #i)2 > "2  EP(tn"2, #i) ! 0;
2

amib}ol mar kovetkezik az alltas.

2.1.1. pelda: (Varhato ertek becslese)


Az
X
n
Xn = n1 Xi
i=1
statisztikat az X1 ; X2 ; : : : ; Xn statisztikai minta atlag- vagy empirikus kozep statisztikajanak
nevezzuk.
Legyen az X valoszn}usegi valtozo adott. Tegyuk fel, hogy 8P 2 P-re 9EPX . Legyen
most a parameter # = #(P) = EP X . Legyen tovabba X1 ; X2 ; : : : ; Xn ; : : : statisztikai minta,
amelynek eloszlasfuggvenye X -evel azonos 8P 2 P-re. Akkor
2.1 Torztatlan, konzisztens becsles 11
P n
(i) Az X n = n1 Xi empirikus kozep statisztika a # varhato ertek torztatlan becslese.
i=1
(ii) Ha a feltetelekhez azt is hozzavesszuk, hogy 8P 2 P-re  2P X < 1 is, ugy X n negyzetes
kozepben konzisztens becsles is.
Bizonytas :
Pn  Pn 
(i) EP X n = EP n1 Xi = n1 EP Xi = n1 n# = #:
i=1 i=1
,   Pn  Pn
(ii) EP Xn , # =  P Xn = P n1 Xi = n1  2P Xi = n1 n 2P X = PnX ! 0:
 2  2
2 2 2 2
i=1 i=1

2.1.2. pelda: (Szorasnegyzet becslese)


Az
1X
n
 2
s2n = n (Xi , Xn)
i=1
statisztikat az Xp1 ; X2 ; : : : ; Xn statisztikai minta empirikus szorasnegyzet statisztikajanak ne-
vezzuk. sn = + s2n az empirikus szoras statisztika. Az
X
n
sn 2 = n ,1 1 (Xi , X n )2
i=1
statisztikat az X1 ; X2 ; : :p
: ; Xn statisztikai minta korrigalt empirikus szorasnegyzet statisztika-

janak nevezzuk. sn = + sn2 a korrigalt empirikus szoras statisztika.
Legyen az X valoszn}usegi valtozo adott. Tegyuk fel, hogy 8P 2 P-re  2P X < 1. Legyen
most a parameter # = #(P) =  2P X . Legyen tovabba X1 ; X2 ; : : : ; Xn ; : : : statisztikai minta,
amelynek eloszlasfuggvenye X -evel azonos 8P 2 P-re.
Pn
(i) Az s2n = n1 (Xi , X n )2 empirikus szorasnegyzet statisztika a # szorasnegyzet aszimp-
i=1
Pn
totikusan torztatlan becslese, az sn 2 = n,1 1 (Xi , X n )2 korrigalt empirikus szoras-
i=1
negyzet statisztika pedig a # szorasnegyzet torztatlan becslese.
(ii) Ha a feltetelekhez azt is hozzavesszuk, hogy 8P 2 P-re EP X 4 is, ugy s2n konzisztens,
sn2 negyzetes kozepben konzisztens becsles is.
Bizonytas :
Fel fogjuk hasznalni a Steiner-tetelt:
Segedtetel: (Steiner)
Tetsz}oleges a; x1 ; x2 ; : : : ; xn valos szamokra
1Xn
, 2 = (a , x )2 + 1 X(
n
, 2  1 X(
n
n xn , xi ) :
( a x ) x x ) 2
n i n n n i
i=1 i=1 i=1
Masreszt a = 0 valasztassal, atrendezes utan:
1X
n
1 X
n
n (xn , xi ) = n xi , xn:
2 2 2
i=1 i=1
12 2. FEJEZET Becsleselmelet

A segedtetel bizonytasa:
1Xn
( a , x ) 2 = 1 X(a , x + x , x )2 =
n
n i n n n i
i=1 i=1
Xn X
n
= (a , xn )2 + 2(a , xn ) n1 (xn , xi ) + n1 (xn , xi )2 :
i=1 i=1
A kozeps}o tag nulla, gy az alltast igazoltuk.
Az alltas bizonytasa:
(i)
Xn , ! X X !
 n n
EP s2n = EP n1 Xi , Xn 2 = EP n1 Xi2 , (Xn )2 = n1 EPXi2 ,EP(Xn )2 =
i=1 i=1 i=1
,   
= n1  n  # + (EP X1 )2 , n# + (EP X1 )2 = n ,
n
1 # ! # (n ! 1)

Mivel sn 2 = n,n 1 s2n =) EP sn2 = n,n 1 EP s2n = #:


(ii) Belathato, hogy
n2  EP X 4 n , 3

2 2
n , n(n , 1) # ! 0; P sn ! 0:
2 2
 P sn = 2
(n , 1)2
Hivatkozva a 2.1.2. tetelre s2n konzisztenciaja bizonytott.

2.1.3. pelda: (Kovariancia es korrelacios egyutthat


 o becslese)
T
Legyen most az (X1 ; Y1 )T ; (X2 ; Y2 )T ; : : : ; (Xn ; Yn )T statisztikai meg gyeles ketdimenzios
statisztikai minta, ahol az (Xi ; Yi )T parok azonos eloszlasu, teljesen fuggetlen valoszn}usegi
vektorvaltozok. Ekkor a
1 X n , , 
cn = n , 1 Xi , X n Yi , Yi
i=1
statisztika az (X1 ; Y1 )T ; (X T T
minta empirikus kovarianciaja, n = sXcnsY
2 ; Y2 ) ; : : : ; (Xn ; Yn )
pedig az empirikus korrelacios egyutthatoja, ahol pl.
v
u
u 1 X
n , 2
sX = t

n , 1 i=1 Xi , X n

az X1 ; X2 ; : : : ; Xn statisztikai minta korrigalt empirikus szorasat jeloli.


(i) A cn empirikus kovariancia az EP (X , EP X )(Y , EP Y ) kovariancia torztatlan becs-
lese. Ha meg azt is feltehetjuk, hogy 9EP X 4 ; EP Y 4 is, akkor cn negyzetes kozepben
konzisztens becsles is.
(ii) Az n empirikus korrelacios egyutthato a korrelacios egyutthato aszimptotikusan torz-
tatlan becslese. Ha meg azt is feltehetjuk, hogy 9EP X 4 ; EP Y 4 is, akkor n konzisztens
becsles is.
2.1 Torztatlan, konzisztens becsles 13

Bizonytas :
(i) Jelolje cov (Xi ; Yi ) = c; EXi EYi = m: Ekkor
EXiYi = c + m; EXi Y = EXY  i = 1 (c + nm) = c + m; EX Y = c + m:
n n n
Tehat
X
n , ,  X ,X Y , X Y , Y X + X Y  ;
n
(n , 1) cn = Xi , X Yi , Y = i i i i
i=1 i=1
azaz
E ((n , 1) cn) = (nc + nm) , (c + nm) , (c + nm) + (c + nm) = (n , 1) c:
Megmutathato, hogy
m ss
2 cn = 22 + 1 2
c
n n(n , 1) + n(n , 1) ;
ahol  
m22 = E (Xi , EXi )2 (Yi , EYi)2 ; s1 = 2 Xi ; s2 =  2 Yi :
Mivel  2 cn ,! 0; gy a konzisztencia mar kovetkezik.
(ii) Nem bizonytjuk. Bizonytasa megtalalhato Cramer: Mathematical statistics c. konyv-
ben.

2.1.4. pelda: (Eloszlasfuggveny becslese)


Tekintsuk azokat az ordk (x1 ; x2 ; : : : ; xn ) skalar{vektor fuggvenyeket, melyek de ncioja:
xk = ord (x ; x ; : : : ; xn ) = xj ;
k 1 2
ha xj a k-adik legnagyobb elem x1 ; x2 ; : : : ; xn kozott. Az
Xk = ord
k
(X1 ; X2 ; : : : ; Xn ) (k = 1; 2; : : : ; n)
statisztikak a rendezett mintaelem-statisztikak.
Megjegyzes :
1. A rendezett mintaelem-statisztikak kozott 8P 2P eseten 1 valoszn}useggel fennall, hogy
X1  X2      Xn . Specialisan X1 = min fX1 ; X2 ; : : : ; Xn g, es
Xn = max fX1 ; X2 ; : : : ; Xn g :
2. Ha a minta eloszlasfuggvenyet F (x)-szel jeloljuk, konny}u megmutatni, hogy a rendezett
mintaelemek eloszlasfuggvenyeit es egyuttes eloszlasfuggvenyeit az alabbi modon lehet
szamolni:
Xn  

Fk (x) = P (Xk < x) = n [F (x)]i [1 , F (x)]n,i ;
i
i=k
Fk;l (x; y) = P (Xk < x; Xl < y) =
14 2. FEJEZET Becsleselmelet
X
n X
i
n!
= j !(i , j )!( n , i )! [F (x)]j [F (y) , F (x)]i,j [1 , F (y)]n,i ;
i=k j =l
P (X1 < x1; X2 < x2; : : : ; Xn < xn) =
Xn Xin Xi2
=    i !(i , i )!n!  (n , i )! [F (x1 )]i1 [F (x2 ) , F (x1 )]i2 ,i1    [1 , F (xn)]n,in :
in =n in,1 =n,1 i1 =1 1 2 1 n
Az 8 0;
< ha x  X1
Fn (x) = : nk ; ha Xk < x  Xk+1 (k = 1; 2; : : : ; n , 1)
1; ha x > Xn
veletlen fuggvenyt az X1 ; X2 ; : : : ; Xn statisztikai minta empirikus eloszlasfuggvenyenek nevez-
zuk.
Pn
Hasznalatos az el}oz}ovel ekvivalens Fn (x) = IfXi <xg de ncio is, ahol
i=1
 1; ha X < x
IfXk <xg = 0; ha Xk  x :
k
Az empirikus eloszlasfuggveny minden rogztett x 2 R eseten statisztika, azaz valoszn}use-
gi valtozo! Fn (x) minden realizacioja diszkret eloszlasfuggveny, azaz olyan lepcs}os fuggveny,
melynek ugrashelyei a veletlen mintatol fuggenek, es az ugrasok magassaga 1 valoszn}useggel
1
n:
Legyen az X valoszn}usegi valtozo adott. Legyen tovabba X1 ; X2 ; : : : ; Xn ; : : : statisztikai
minta, amelynek eloszlasfuggvenye X -evel azonos. Rogztsuk most az x 2 R valos szamot.
Ekkor X eloszlasfuggvenye az x pontban a parameter: # = #(P) = FP (x). Akkor az Fn (x)
empirikus eloszlasfuggveny erteke a # eloszlasfuggveny-ertek torztatlan, negyzetes kozepben
konzisztens becslese.
Bizonytas : Az empirikus eloszlasfuggveny de nciojabol nyilvanvalo, hogy
0  nFn (x)  n
es
P(nFn (x) = k) = P(k db i indexre Xi < x; (n , k) db j indexre j 6= i Xj  x) =
n
= k [FP (x)]k [1 , FP (x)]n,k =) nFn (x) 2 B (n; #):
Azaz nFn (x) binomialis eloszlasu n es FP (x) = # parameterekkel. Viszont ekkor
EP(nFn (x)) = n#
es
 2P (nFn (x)) = n#(1 , #):
Innet pedig
EP(Fn (x)) = #
es
 2P (Fn (x)) =
#  (1 , #)  1 ! 0 (n ! 1)
n 4n
kovetkezik, ami az alltast igazolja. Felhasznaltuk, hogy #(1 , #)  14 .
2.1 Torztatlan, konzisztens becsles 15

Mivel a negyzetes kozepben valo konzisztenciabol kovetkezik a konzisztencia, ezert 8" >
0; 8x 2 R; 8P 2 P-re P(jFn (x) , FP (x)j > ") ! 0 (n ! 1): Ennel az alltasnal lenyegesen
er}osebbet fogalmaz meg a kovetkez}o tetel: az empirikus eloszlasfuggveny 1 valoszn}useggel,
egyenletesen konvergal az eloszlasfuggvenyhez. Elmeleti jelent}osege miatt a tetelt a matema-
tikai statisztika alaptetelenek is hvjak.
2.1.3. tetel: (A matematikai statisztika alaptetele, Glivenko{Cantelli)
Legyen X1 ; X2 ; : : : ; Xn ; : : : a statisztikai minta. Jelolje F (x) a minta eloszlasfuggvenyet, es
Fn (x) az empirikus
 eloszlasfuggvenyt. 
Akkor P nlim!1
sup jFn (x) , F (x)j = 0 = 1:
x2R
Bizonytas : Legyen " > 0; x 2 R tetsz}oleges! Megmutatjuk, hogy 9 N > 0 es C 2
F : P(C ) = 1; hogy 8 ! 2 C eseten, ha n > N , ugy jFn(x) , F (x)j < ". Legyen m
olyan pozitv egesz szam, hogy m1 < 2" , es legyenek R egy m intervallumbol allo rendszerenek

osztopontjai x(0m) = ,1 ; x(mm) = +1; x(km) = sup x : F (x)  mk : Jelolje az intervallu-
 i x2R
mokat: Jk = x(km) ; x(km+1) ; k = 0; 1; : : : ; m , 1: Tegyuk fel, hogy a szoban forgo x-re eppen
x 2 Jk,1 =) x(km,)1 < x  x(km) teljesul most. Az eloszlasfuggveny tulajdonsagai miatt:
)
F (x(km) )  mk  F (x(km) + 0) k  F (x(m) + 0) + 1 :
=) () F (x(km) )  m
F (x(km,)1 )  km,1  F (x(km,)1 + 0) k,1 m
A nagy szamok er}os torvenye ertelmeben a relatv gyakorisag 1 valoszn}useggel kozelti az
elmeleti valoszn}useget:
!
9Ak 2 F : P(Ak ) = 1 es 8 ! 2 Ak : nlim 1X
n
I (m)
!1 n i=1 fXi <x(km) g (!) = F (xk ):
!
9Bk 2 F : P(Bk ) = 1 es 8 ! 2 Bk : nlim 1X
n
I (m)
!1 n i=1 fXi x(km,)1 g (!) = F (xk,1 + 0):
Y
m Y
m !
Legyen C = Ak Bk,1. Akkor P(C ) = P Ak Bk,1 = 1 =) P(C ) = 1:
k=1 k=1
Tehat 8! 2 C eseten 9N : n > N; akkor
1X
n
(m) Xn
< 2 ; es n IfXi x(km,)1g , F (x(km,)1 + 0) < 2" :
" 1
I
n i=1 fXi <x(km) g , F (xk )
i=1
Igy x 2 Jk,1 -re
F (x) , Fn(x)  F (x(km) ) , Fn (x(km,)1 )  F (x(km,)1 + 0) + m1 , Fn (x(km,)1 + 0)  m1 + 2" :
Masreszt
F (x) , Fn (x)  F (x(km,)1 + 0) , Fn (x(km) )  F (x(km) ) , m1 , Fn (x(km) )  , m1 , 2" :
Azaz jF (x) , Fn (x)j < 2" + m1 < " =) alltas.
16 2. FEJEZET Becsleselmelet

2.2. Hatasos becslesek


2.2.1. de ncio: Legyenek t^ es t~ a # 2 R parameter torztatlan becslesei, ahol 9 2Pt^ es
 2 t~ (8P 2 P).
P Azt mondjuk, hogy t^ hatasosabb becslese #-nak mint t~, ha  2P t^   2P t~ 8P 2 P-
re es 9P0 2 P :  2P0 t^ <  2P0 t~:
2.2.1. pelda: Legyen az X valoszn}usegi valtozo adott. Tegyuk fel, hogy X egyenletes
eloszlasu valoszn}usegi valtozo a [0; #] intervallumon, ahol # > 0 ismeretlen parameter.
Most 8P 2 P-re FX;# (x) = #x ; dFX;# d x
(x) = f (x) = 1 ; x 2 (0; #) ;
X;# #
E#X = 2 ; #X = 12 : Legyen tovabba X1; X2 ; : : : ; Xn ; : : : statisztikai minta, amelynek elosz-
# 2 # 2

lasfuggvenye X -evel azonos.


Tekintsuk a
1 T = n + 1 X;
n n
T2 = Xn + X1 ;
T3 = nn ,
+ 1 (X  , X  ) ;
1 n 1
T4 = 2X n
statisztikakat! Megmutatjuk, hogy mindegyikuk torztatlan, de kulonboz}o szorasu becsles,
tehat elter a hatasossaguk.
E#T4 = E#2 Xn = 2E#Xn = 2E# X = 2 #2 = # =) T4 torztatlan:
2 X #2 = #2 ! 0 =) T negyzetes kozepben konzisztens:
 2# T4 = 4 2# Xn = 4 # = 4 4
n 12n 3n
Az Xn eloszlasfuggvenye:
 n
P (Xn < x) = [FX;# (x)]n = #x ; x 2 [0; #]
=) s}ur}usegfuggvenye
n,1
fn;#(x) = n x#n ; x 2 (0; #) :

Z# Z# xn 1
 xn+1 # n
E#Xn = x fn;#(x) dx = n #n dx = n #n n + 1 = n + 1 #
0 0 0

=) E# T1 = #; torztatlan.
 n + 1 2 Z# n,1
 2# T1 = E# T12 , (E# T1 )2 =
n x2 n x#n dx , #2 =
0

n+2 # 
= (n +n 1) #1n nx + 2 , #2 = (n + 2 n n+(n1 , n2 , 2 n)#2 = #2 ! 0:
2 2
0 + 2) n(n + 2)
=) T1 is negyzetes kozepben konzisztens.
2.2 Hatasos becslesek 17

Az X1 eloszlasfuggvenye:
 n
P (X1 < x) = 1 , [1 , FX;#(x)]n = 1 , # ,# x ; x 2 [0; #]
n,1
=) f (x) = n (# , x) ; x 2 (0; #) :
1;# #n
n # + Z x f (x) dx = n # + n Z x(# , x)n,1 dx =
# #
E#T2 = E#X  + E#X  =
n 1 n+1 1;# n + 1 #n
0 0
dy = ,1 valtozocseret,
Vegrehajtva a # , x = y =) dx

n # , n Z (# , y) yn,1 dy = n # + n yn # , n yn+1 # = #;
0    
= n + 1 #n n + 1 #n,1 n 0 #n n + 1 0
#
azaz T2 is torztatlan.
 2# T2 = 2# Xn +  2# X1 + 2 cov# (Xn ; X1 ):
X1 es Xn nem fuggetlenek, gy ki kell szamolnunk a kovarianciajukat:
P(X1 < x; Xn < y) = P(Xn < y) , P(X1  x; Xn < y) =
= [FX;# (y)]n , P(x  X1 < y; x  X2 < y; : : : ; x  Xn < y) =
Yn
= [FX;# (y)]n , P(x  Xi < y) =
i=1
= [FX;# (y)]n , [FX;# (y) , FX;# (x)]n ; x; y 2 [0; #] ; x < y:
X1 es Xn egyuttes s}ur}usegfuggvenye gy:
@ 2 P(X1 < x; Xn < y) =
@x @y
n,2
= n (n , 1) [FX;# (y) , FX;# (x)]n,2 fX;#(y)fX;# (x) = n (n , 1) (y ,#xn) :
Z# Zy  y , x n,2 1 dxdy , E X  E X  =
cov#(X  ; X  ) =
n 1 xyn(n , 1) # #2 # n # 1
0 0
u = y , x helyettestessel
Z# 0Zy  n,2
1
= @ (y2 , y u) n (n , 1) u #
1 duA dy ,
#2
n 2
(n + 1)2 # =
0 0
Z# yn+1
= #n dy , (n +n 1)2 #2 =
0
18 2. FEJEZET Becsleselmelet

= n +1 2 #2 , (n +n 1)2 #2 = (n + 2) 1(n + 1)2 #2 :


Mivel
E (X1 )2 = #2 , n2+n 1 #2 + n +n 2 #2 =
= (n + 3 n + 2 , 2 n , 4 n + n + n) #2 =
2 2 2 2 2
(n + 1) (n + 2) (n + 1) (n + 2) # ;
gy:
2# X1 =
2 # 2, 1 #2 = n 2
(n + 1) (n + 2) (n + 1)2 (n + 1) (n + 2) # :
2
Hasonloan:
Z# n,1  2
x2  n  x#n dx , nn+ #1 n #2 , n #2 = 2
n# 2
 2 Xn = = n+ 2 (n + 1)2 (n + 1)2 (n + 2) :
0
Tehat
2# T2 =  2# Xn + 2# X1 + 2 cov# (Xn ; X1 ) =
= (n + 1)n2 (n + 2) #2 + (n + 1)n2 (n + 2) #2 + (n + 1)22 (n + 2) #2 = (n + 1)(2 n + 2) #2 ! 0;
T2 is negyzetes kozepben konzisztens.
 n + 1 2 , 
= n , 1  2# Xn +  2# X1 , 2 cov# (Xn ; X1 ) = (n , 1)(n n + 2) #2 ! 0;
 2# T3

T3 is negyzetes kozepben konzisztens. Vegul:


n + 1 n + 1
 n 1

 
E#T3 = n , 1 (E#Xn , E#X1 ) = n , 1 n + 1 # , n + 1 # = # =) torztatlan:
Az eredmenyt osszegezve:  2# T1 <  2# T2 < 2# T3 <  2# T4 .
2.2.2. pelda: A lineanris statisztikak kozott a Xn statisztika anleghatasosabb, azaz, ha
P P
tetsz}oleges c1 ; c2 ; : : : ; cn ; ci = 1 valos sulyokkal tekintjuk a tn = ci  Xi linearis becslest,
i=1 i=
akkor tn torztatlan, es  2P X n  2P tn :
Bizonytas : El}oszor is megjegyezzuk, hogy a ci = n1 (i = 1; 2; : : : ; n) sulyvalasztassal az
atlagstatisztikat kapjuk, tehat az atlagstatisztika is linearis becsles. Legyen "i = ci , n1
(i = 1; 2; : : : ; n): Ekkor
Xn Xn
"i = ci , 1 = 0:
i=1 i=1
Igy ! X
X
n n X
n n 
X 2
2 P ciXi = c2i 2P Xi =  2P X  c2i = 2 X 
P "i + n1 =
i=1 i=1 i=1 i=1
X
n X
n ! 2
= 2 X
P "2i + n2 "i + n1  PnX =  2P Xn
i=1 i=1
2.2 Hatasos becslesek 19

2.2.2. de ncio: Ha a t torztatlan statisztikara igaz, hogy


2P t = min  2P t (8P 2 P);
Et=#
 2P t<1

akkor t -ot hatasos becslesnek nevezzuk.


A Csebisev-egyenl}otlensegb}ol tudjuk, hogy egy valoszn}usegi valtozo annal kisebb mertek-
ben ingadozik a varhato erteke korul, minel kisebb a szorasa. Ez az oka, hogy a torztatlan
becslesek kozott a hatasos becsles megkeresese a cel, hisz varhatoan ez pontosabb, mint bar-
mely mas torztatlan becsles. A kovetkez}o tetel azt mondja ki, hogy ha van hatasos becsles,
akkor lenyegeben csak egy van.
2.2.1. tetel: Ha t es t a parameter hatasos becslesei, akkor P(t = t ) = 1 (8P 2 P):
Bizonytas : Legyen t egy tetsz}oleges torztatlan becsles.
EP t = EPt = EPt = #; 2Pt = 2P t  2Pt:
Ez akkor is igaz, ha t = t +2t : Igy
 t + t   
 2 t
P  2
P 2 = 14 2P t +  2P t + 2EP (t , #)(t , #) :
Innen atrendezes utan
0   2P t =  P t P t  EP (t , #)(t , #) = cov(t ; t ):
Viszont tudjuk a Cauchy{Bunyakovszkij{Schwartz-fele egyenl}otlensegb}ol, hogy
cov(t ; t )  Pt P t :
Ez csak ugy lehet, ha cov(t ; t ) =  P t  P t ; vagyis t es t kozott 1 valoszn}useggel
linearis kapcsolat all fenn: P(t = ct ) = 1 (8P 2 P):
Viszont  2P t =  2P (ct ) =  2P t =) c2 = 1; cov(t ; t )  0 =) c = +1: Ahonnan
mar kovetkezik az alltas.

2.2.2. tetel: (Cramer{Rao-egyenl}otlens T


eg)
Tegyuk fel, hogy az X = (X1 ; X2 ; : : : ; Xn ) statisztikai minta egyparameteres FP (x) = F# (x)
eloszlasfuggvenye abszolut folytonos: 9 dFd#x(x) = f# (x); # 2 (a; b). Jelolje
Yn
L# (x) = L# (x1 ; x2 ; : : : ; xn) = f# (xi)
i=1
a minta egyuttes s}ur}usegfuggvenyet!
Feltetelek:
a) In (#) =
R  @L#(x) 2  1 dx < 1 (Fisher-fele informacios mennyiseg.)
@# L# (x)
Rn
b) Legyen g : (a; b) ! R tetsz}oleges di erencialhato fuggveny.
20 2. FEJEZET Becsleselmelet

c) Legyen a t(X) statisztika a g(#) torztatlan becslese, azaz E# (t) = g(#) (8 # 2 (a; b) ):
R
d) 9  2# t = (t(x) , g(#))2 L# (x) dx:
Rn
e) @#@
R ti(x)L (x) dx = R ti(x) @L# (x) dx; (i = 0; 1):
# @#
Rn Rn
Ekkor
 2# t 
[g0(#)]2 :
In(#)
Bizonytas : A c) tulajdonsagbol, mindket oldalt derivalva # szerint:
@ Z t(x)L (x) dx = Z t(x) @L# (x) dx = dg(#) : (*)
@# n # @# d#
R n R
Masreszt, mivel L# (x) egyuttes s}ur}usegfuggveny:
Z
L# (x) dx = 1:
Rn
Ezt is derivalva # szerint:
@ Z L (x) dx = Z @L#(x) dx = @ 1 = 0:
@# n # n
@# @#
R R
Mindket oldalt beszorozva g(#)-val:
Z # (x) dx = 0:
g(#) @L@# (**)
Rn
() es () kulonbseget veve:
Z # (x) dx = dg(#) :
(t(x) , g(#) ) @L@# d#
Rn
Most a Cauchy{Bunyakovszkij{Schwarz-fele egyenl}otlenseget alkalmazva:
0 12
,g0 (#)2 = @Z (t(x) , g(#)) @L# (x) dxA =
@#
Rn
0Z 1
 p   1 @L#(x) p  2
= @ (t(x) , g(#)) L# (x) L (x)  @#  L# (x) dxA 
#
Rn
Z Z  1 @L#(x) 2
 (t(x) , g(#) )2L#(x) dx L#(x) @# L#(x)dx = 2# t In(#):
Rn Rn
Innen atosztassal, mar kovetkezik az alltas.
2.2 Hatasos becslesek 21

Megjegyzes :
1. A Cramer{Rao-egyenl}otlenseg elvi also korlatot ad a torztatlan becslesek szorasnegyze-
teire. Ha tehat egy statisztikara belatjuk, hogy szorasnegyzete eppen az also korlattal
egyenl}o, akkor az biztosan hatasos, s}ot a 2.2.1. tetel szerint az egyetlen hatasos becsles.
2. A bizonytas soran felhasznalt Cauchy{Bunyakovszkij{Schwarz-egyenl}otlensegben akkor
# (x) (= @ ln L# (x) ) = v (#)  (t(x) , g (#))
es csak akkor van egyenl}oseg, ha 9 v(#) : L#1(x) @L@# @#
majdnem minden x-re fennall.
3. Ha specialisan g(#) = #, akkor  2# t  In1(#) :
4. Mivel
Yn X
n
L#(x) = L# (x1 ; x2 ; : : : ; xn) = f#(xi ) =) ln L#(x) = ln f#(xi ):
i=1 i=1
Ebb}ol
 @ ln L (X)  X ! n  
In(#) = 2# # = 2#
n
@ ln f#(Xi ) = X  2 @ ln f # ( X i ) =
@# @# # @#
i=1 i=1
 @ ln f (Xi ) 
= n 2# # = nI1(#):
@#
A levezetesben a szumma kiemeleset a mintaelemek teljes fuggetlensege miatt tehetjuk
meg.
5. A Cramer{Rao-egyenl}otlenseg diszkret valoszn}usegeloszlasok eseten is ervenyben ma-
rad, ha L# (x) = L# (x1 ; x2 ; : : : ; xn )-t mint a minta egyuttes eloszlasat ertelmezzuk:
L#(x) = L# (x1 ; x2 ; : : : ; xn ) = P(X1 = x1 ; X2 = x2; : : : ; Xn = xn):
A feltetelekben a tobbes integralok helyett tobbszoros szummakat kell venni, az e) regu-
laritasi tulajdonsagok a derivalas es az osszegzes sorrendjenek felcserelhet}oseget kovetelik
meg.
6. A Cramer{Rao-egyenl}otlenseg az elemi (cov(X; Y ))2   2 X   2 Y egyenl}otlensegnek
felel meg, amikor X = t; Y = @ ln @# L# (X) . Ugyanis
 @ ln L (X)   @ ln L (X) 
cov t; # = E# t  # ;
@# @#
mert  @ ln L (X)  Z @L (x)
E# # = # dx = 0:
@# @#
Rn
Igy  @ ln L (X)  Z
E# t  @## # (x)  L (x) dx =
= t(x)  L 1(x)  @L@# #
n #
R
@ Z
= @# t(x)  L#(x) dx = g0 (#):
Rn
22 2. FEJEZET Becsleselmelet
 L# (X) 
7. Belathato, hogy In (#) = 2# @ ln @# , hiszen
 1 @L (X)   1 @L (X) 2   1 @L (X) 2
#2 # = E# L (X) @# # #
, E# L (X) @# ;
L# (X) @# # #
R # (x) dx = 0 miatt
de @L@#
Rn
 1 @L (X )

Z 1 @L# (x) Z @L# (x)
#
E# L (X) @# = L (x) @# L#(x) dx =
# n # n
@# dx = 0
R R
es gy    
 2#
1 @L# (X) = E 1 @L# (X) 2 =
L# (X) @# # L (X) @#
Z  1 @L#(x) 2 #
= L# (x) @# L# (x) dx = In(#):
R n
2.2.3. pelda: (Az atlagstatisztika hatasossaga normalis esetben)
Legyen az X valoszn}usegi valtozo adott. Legyen tovabba X1 ; X2 ; : : : ; Xn ; : : : statisztikai min-
ta, amelynek eloszlasfuggvenye X -evel azonos valamilyen m; D0 parameter}u normalis eloszlas-
hoz tartozik, ahol D0 > 0 ismert, m ismeretlen. Ennel a feladatnal az ismeretlen parameter
tehat a normalis eloszlas varhato erteke: # = m = EP X .
A 2.1.1. peldaban bizonytottuk, hogy altalaban az X n atlagstatisztika az m torztatlan
becslese. A normalis eloszlasnak valamennyi momentuma letezik, tehat X n negyzetes ko-
zepben konzisztens becsles is. A Cramer{Rao-egyenl}otlenseg segtsegevel most megmutatjuk,
hogy hatasos is. A minta egyuttes s}ur}usegfuggvenye most:
Yn  
n , 1 2 (xi ,m)2 n
P
Lm (x) = 'm;D0 (xi ) = p 1 e 2D0 i=1 :
i=1 2 D 0
A Cramer{Rao-tetel utani 2. megjegyzest gyelembe veve:
Xn p 1 X
n
ln Lm (x) = ln 'm;D0 (xi ) = ,n ln( 2D0 ) , 2 (xi , m)2 ;
i=1 2D0 i=1
@ ln Lm (x) = Xn
@ ln ' (x ) = 1 X n
(x , m ) = n (x , m) =) x hatasos:
@m m;D i i D02 n n
i=1 @m D0 i=1
0 2

2.2.4. pelda: (Az atlagstatisztika hatasossaga exponencialis esetben)


Legyen X egy valoszn}usegi valtozo. Legyen tovabba X1 ; X2 ; : : : ; Xn statisztikai minta, amely-
nek eloszlasfuggvenye X -evel azonos valamilyen ismeretlen  > 0 parameter}u exponencialis
eloszlashoz tartozik. # = 1 = EP X . A minta egyuttes s}ur}usegfuggvenye most:
Yn Pn
, xi , # xi
1 Pn
L# (x) = e,xi = ne i=1 = #1n e i=1 :
i=1
0 , #1 P
1 n !
@ ln L# (x) = @ @ln 1
n
x
i=1 i @
A = ,n ln # , 1 X n 1 X
n
@# @# #n e @# # xi = , # + #2 xi =
i=1 i=1
= #n2 (xn , #) =) xn hatasos becsles:
2.2 Hatasos becslesek 23

2.2.5. pelda: (Az atlagstatisztika hatasossaga a Poisson-eloszlas eseteben)


Legyen X diszkret valoszn}usegi valtozo. Legyen tovabba X1 ; X2 ; : : : ; Xn statisztikai minta,
amelynek eloszlasfuggvenye X -evel azonos valamilyen ismeretlen  > 0 parameter}u Poisson-el-
oszlashoz tartozik. Ennel a peldanal legyen az ismeretlen parameter a Poisson-eloszlas elmeleti
varhato erteke: # =  = EP X . L# (x) most a minta egyuttes eloszlasa lesz:
Y
n Yn #xi ,#
L# (x) = P(X1 = x1 ; X2 = x2 ; : : : ; Xn = xn ) = P(Xi = xi ) = e =
i=1 i=1 (xi )!
n
P
xi !
,n# =) ln L# (X) = (ln #) X xi , ln Y(xi )! , n  #:
n n
#
=Y
i=1
e
n
(xi )! i=1 i=1
i=1
# szerinti derivalas utan:
@ ln L# (x) = 1 Xn
n
@# # i=1 xi , n = # (xn , #) =) xn hatasos becslese #-nak:

2.2.6. pelda: (Az egyenletes eloszlas esete)


Legyen most az X1 ; X2 ; : : : ; Xn minta eloszlasa U (0; #), ahol # > 0 ismeretlen parameter.
Lattuk a 2.2.1. peldaban, hogy a T1 = n+1 
n Xn statisztika torztatlan becsles volt g(#) = #-ra,
ahol  2 T1 = n(n#+2) . Szamoljuk ki ebben az esetben az In1(#) informacios also hatart!
2

Z# , @ 1 2
I1 (#) = @# #
1 dx = #12 ;
0 #

azaz
1 = 1 = #2 :
In(#) nI1 (#) n
Az a meglep}o eredmenyt kaptuk, hogy a T1 torztatlan becsles szorasnegyzete kisebb, mint a
Cramer{Rao-tetelben az informacios also hatar!
Az ellentmondas abbol adodik, hogy az egyenletes eloszlas eseten nem teljesulnek a Cra-
mer{Rao-tetel e) regularitasi feltetelei. Most
 n
L# (x) = #1 ; 8xi 2 (0; #);

es
@ Z L (x) dx = 0;
@# n #
R
mg
Z @ Z# Z# Z#
@# L# (x) dx =    ,n  #n1+1 dx = , #n :
Rn 0 0 0
24 2. FEJEZET Becsleselmelet

2.3. Elegsegesseg
A statisztikak elvart, jo tulajdonsagai kozott alapvet}o fontossagu az elegsegesseg. Ezen azt
fogjuk erteni, hogy a statisztika a minta eloszlasanak parameterere vonatkozoan minden in-
formaciot magaba s}urt, egymaga kepes helyettesteni a mintat. A parameterek becsleseihez
a megfelel}o statisztikakat "elegseges" az elegseges statisztika fuggvenyei kozott keresni.
2.3.1/a. de ncio: Legyen adott a P parameteres eloszlascsalad, es az X1 ; X2 ; : : : ; Xn
statisztikai minta, amelyek eloszlasfuggvenye abszolut folytonos 8P# 2 P-re:
Zx
F# (x) = f#(t) dt; x 2 R:
,1
f#(x) a minta s}ur}usegfuggvenye. Jelolje a tn (X1 ; X2 ; : : : ; Xn ) statisztika s}ur}usegfuggvenyet
gn;#(y); az X1 ; X2 ; : : : ; Xn es tn egyuttes s}ur}usegfuggvenyet pedig h# (x1 ; x2 ; : : : ; xn ; y). Ha az
X1 ; X2 ; : : : ; Xn mintanak a tn-re vonatkozo egyuttes felteteles s}ur}usegfuggvenye nem tartal-
mazza a # parametert, vagyis
fX1;X1;:::;X1 jtn (x1 ; x2 ; : : : ; xn j y ) = h#(x1 ; gx2 ; :(:y:); xn; y) ;
n;#
nem fugg #-tol, akkor , a tn statisztika a # parameter elegseges becslese.
2.3.1/b. de ncio: Legyen adott a P = fP# ; # 2 g, valoszn}usegi mertekek egy te-
re es az X1 ; X2 ; : : : ; Xn statisztikai minta, amelyek eloszlasa diszkret 8P# 2 P-re. Legyen
tn(X1 ; X2 ; : : : ; Xn ) statisztika. Ha az X1 ; X2 ; : : : ; Xn mintanak a tn -re vonatkozo egyuttes
felteteles eloszlasa nem tartalmazza a # parametert, vagyis
P(X1 = x1; X2 = x2 ; : : : ; Xn = xn j tn = y ) = P# (X1 = x1 ; X2 P= x(t2; :=: :y; )Xn = xn; tn = y) ;
# n
nem fugg #-tol, akkor a tn statisztika a # parameter elegseges becslese.
2.3.1. pelda: (Az atlagstatisztika elegsegessege normalis esetben)
Legyen X valoszn}usegi valtozo. Legyen tovabba X1 ; X2 ; : : : ; Xn statisztikai minta, amelynek
eloszlasfuggvenye X -evel azonos valamilyen m; D0 parameter}u normalis eloszlashoz tartozik
8P 2 P-re, ahol D0 > 0 ismert, m ismeretlen. Az ismeretlen parameter a normalis eloszlas
elmeleti varhato erteke: # = m = EP X .
Az atlagstatisztika teljesen fuggetlen, N ( n# ; Dn0 ) eloszlasu valoszn}usegi valtozok konvolu-
cioja, tehat maga is normalis eloszlasu, # es pDn0 parameterekkel. Igy az X1 ; X2 ; : : : ; Xn minta
egyuttes X n = y-ra vett felteteles s}ur}usegfuggvenye:
8 Pn x
>
< fX1 ;X2 ;:::;Xn (x1 ;x2 ;:::;xn)
, ha n y = i
fX ;X ;:::;Xn jX n (x1; x2 ; : : : ; xn j y) = > fXn (y) i=1 :
1 2
: 0 egyebkent
Mivel
p ,n , (xi ,#)
1
n
P 2
fX1;X2 ;:::;Xn (x1 ; x2 ; : : : ; xn ) = 2 D,ne 2D02 i=1
0
es pn , 2Dn 2 (y,#)2
fXn (y) = p e 0 ;
2D0
2.3 Elegsegesseg 25

ezert
fX1 ;X2 ;:::;XnjX n (x1 ; x2 ; : : : ; xn j y) =
8 n 
>
< 1 n,1 e , 2D1 2 P
(xi ,#)2 ,n(y,#)2
, ha n y =
Pn x
=> pn(p2D 0 i=1 i :
0) i=1
: 0 egyebkent
Pn Pn Pn
Mivel (xi , #)2 , n(y , #)2 = x2i , n y2 ; ha xi = n y =) a felteteles s}ur}usegfugg-
i=1 i=1 i=1
veny nem fugg a parametert}ol, amib}ol mar kovetkezik az alltas.
2.3.2. pelda: (Az atlagstatisztika elegsegessege exponencialis esetben)
Legyen az X valoszn}usegi valtozo adott. Legyen tovabba X1 X2 ; : : : ; Xn statisztikai minta,
amely eloszlasfuggvenye X -evel azonos valamilyen # = 1 parameter}u exponencialis eloszlashoz
tartozik. Az ismeretlen parameter tehat,az exponencialis eloszlas varhato erteke: E#X = #.
Az atlagstatisztika teljesen fuggetlen, E #1 eloszlasu valoszn}usegi valtozok konvolucioja, el-
oszlasa n; n# parameter}u gamma eloszlas, melynek s}ur}usegfuggvenye:
 n n xn,1e, nx#
fXn (x) = # (n , 1)! x > 0:
A minta egyuttes s}ur}usegfuggvenye most
Pn
Yn 1 ,
x
i=1 i
fX1;X2 ;:::;Xn (x1 ; x2 ; : : : ; xn ) = fXi (xi) = #n e # 8xi > 0:
i=1
Az
8 Pn
< fX1 ;X2 ;:::;Xn (x1 ;x2 ;:::;xn )
, ha n y = xi
fX ;X ;:::;Xn jX n (x1 ; x2 ; : : : ; xn j y) = :
1 2
fX n (y) i=1
0 egyebkent
kepletbe behelyettestve:
8 Pn xi
>
> Pn x
< , i=1
#n e # ny
1
, ha n y =
fX ;X ;:::;XnjXn (x1 ; x2 ; : : : ; xn j y) = > ,
( n# )n yn(,n1,e1)!# i=1
i :
>
1 2
: 0 egyebkent
Egyszer}ustesek utan:
8 Pn
>
< (n,1)!e, i # xi ny#
fX ;X ;:::;Xn jX n (x1 ; x2 ; : : : ; xn j y) = > ,
=1 + Pn
ha n y = xi =
nn yn, 1
:0 i=1
1 2

egyebkent
8 (n,1)!
< nn yn, , ha n y = Pn xi
=: 1
i=1 :
0 egyebkent
Lathato, hogy a fuggveny nem fugg a parametert}ol, azaz az atlagstatisztika ebben az
esetben is elegseges becslest ad.
26 2. FEJEZET Becsleselmelet

2.3.3. pelda: (Az atlagstatisztika elegsegessege a Poisson-eloszlas eseteben)


Legyen az X diszkret valoszn}usegi valtozo adott. Legyen tovabba X1 ; X2 ; : : : ; Xn statisztikai
minta, amelynek eloszlasfuggvenye X -evel azonos valamilyen # > 0 parameter}u Poisson-elosz-
lashoz tartozik. Az ismeretlen parameter tehat a Poisson-eloszlas varhato erteke: # = EP X .
Az atlagstatisztika eloszlasa most:
X
n !
P(n Xn = y) = P Xi = y = (n# )y e,n# y = 0; 1; 2; : : : :
i=1 y!
A minta egyuttes eloszlasa:
Pn x
Yn i=1 i
# e,n#:
P(X1 = x1 ; X2 = x2; : : : ; Xn = xn) = P(Xi = xi) = Yn
i=1 xi !
i=1
Igy a mintanak az atlagra vonatkozo felteteles eloszlasa:
Y
n
P(Xi = xi)
P(X1 = x1; X2 = x2; : : : ; Xn = xn j nXn = y) = P nX = y = Q
i=1, y! ;
n
n ny xi!
i=1
Pn
ha y = xi , ami nem fugg a parametert}ol, azaz az atlagstatisztika a Poisson-eloszlas eseten
i=1
is elegseges.
2.3.4. pelda: (Pelda nemelegseges statisztikara)
Vizsgaljuk meg a t = X1 "statisztikat"! Most
8 Yn
>
>
< i P# (Xi=xi)
P(X1 = x1; X2 = x2; : : : ; Xn = xn jX1 = y ) = > P# (X =y) ;
=1
ha x1 = y =
>
: 0;
1

ha x1 6= y
8 Yn
>
<
= > i=2 P# (Xi = xi ); ha x1 = y
: 0; ha x1 6= y
ami lathato, hogy tartalmazza a parametert.
2.3.1. tetel: (Rao{Blackwell{Kolmogorov)
Legyen adott P, valoszn}usegi mertekek egy #-parameteres tere, es az X1 ; X2 ; : : : ; Xn statiszti-
kai minta, amelyek eloszlasfuggvenye abszolut folytonos 8P 2 P-re. Jelolje Tn (X1 ; X2 ; : : : ; Xn )
a # parameter egy elegseges statisztikajat, tn (X1 ; X2 ; : : : ; Xn ) pedig a parameter g fuggvenye-
nek tetsz}oleges torztatlan becsleset: E# tn = g(#). Akkor letezik olyan h fuggveny, hogy
E#(h(Tn )) = g(#) es 2#(h(Tn ))  2#tn. Tovabba h(Tn ) = E#(tn jTn ).
Bizonytas : A h(Tn ) nem fugg #-tol, csak a mintatol, hiszen Tn elegseges statisztika volt.
Tehat h(Tn ) tenyleg statisztika. A felteteles varhato ertek tulajdonsagait felhasznalva:
E#(h(Tn )) = E#(E#(tn jTn )) = E#tn = g(#); h(Tn ) torztatlan:
2.3 Elegsegesseg 27

Masreszt:
 2# tn = E# (tn , g(#))2 = E# [tn , h(Tn ) + h(Tn ) , g(#)]2 =
= E# (tn , h(Tn ))2 +  2# (h(Tn )) + 2 E# [(tn , h(Tn ))(h(Tn ) , g(#))] :
De
E# [(tn , h(Tn ))(h(Tn ) , g(#))] = E# [E# [(tn , h(Tn))(h(Tn ) , g(#)) jTn ]] =
= E# [(h(Tn ) , g(#))E# [(tn , h(Tn )) jTn ]] = 0;
mert
E# [(tn , h(Tn )) jTn ] = E# [tn jTn ] , h(Tn) = 0:
Innen mar  2# tn   2# (h(Tn )) adodik.

Ha letezik hatasos becsles, akkor az az elegseges becsles fuggvenyekent all el}o. A tetel
azt nem alltja, hogy a h(Tn ) mar hatasos lenne, csak azt, hogy egy tetsz}olegesen adott tn
torztatlan becslesnel az elegseges statisztika segtsegevel lehet hatasosabbat el}oalltani, de az
nem biztos, hogy egyben hatasos is!
2.3.2. tetel: (Neymann{Fisher faktorizacios tetel)
Legyen adott P, valoszn}usegi mertekek egy #-parameteres tere, amelyhez adott az X1 ; X2 ; : : : ; Xn
statisztikai minta, amelyek eloszlasfuggvenye abszolut folytonos 8P 2 P-re.
A Tn statisztika a # parameter elegseges becslese () 9 k : Rn ! R es g : R2 ! R
fuggvenyek, hogy 8x = (x1 ; x2 ; : : : ; xn )T 2 Rn es 8#-ra
L# (x1 ; x2 ; : : : ; xn ) = k(x1 ; x2 ; : : : ; xn)g(Tn (x1 ; x2 ; : : : ; xn); #):
Bizonytas : Nem bizonytjuk. A bizonytas megtalalhato Lehman: Testing Statistical
Hipotheses, 49. old.
2.3.5. pelda: (A faktorizacios tetel alkalmazasa egyenletes eloszlasra)
Legyen az X1 ; : : : ; Xn statisztikai minta egyenletes eloszlasu a (0; #) intervallumon. Ekkor a
minta egyuttes s}ur}usegfuggvenye
1 Yn
L# (x) = #n  u(0; xi )u(xi ; #)
i=1
alakban rhato, ahol  1;
ha a < b :
u(a; b) =
0 egyebkent
Mivel az X1 < #; X2 < #; : : : ; Xn < # () Xn = max fXi g < #, ezert
Yn
u(xi ; #) = u(xn; #):
i=1
Igy
 Yn 
L#(x) = #1n  u(xn ; #)  u(0; xi );
i=1
azaz teljesul a faktorizacios tetel az n-edik rendezett mintaelem statisztikara. Belattuk tehat,
hogy az Xn = max fX1 ; : : : ; Xn g statisztika elegseges a # parameterre.
28 2. FEJEZET Becsleselmelet

A maradek n , 1 elem}u mintanak az Xn = t feltetelre vonatkoztatott s}ur}usegfuggvenye


Qn
nem fugg a # parametert}ol. Megmutathato, hogy ez a s}ur}usegfuggveny fF##((xti)) alaku, most
, i=1
specialisan 1t n,1 . Vagyis a maradek minta egyenletes eloszlasu a (0; t) intervallumban. Ha
szimulalunk n , 1 veletlen szamot a (0; t)-n, az t-vel egyutt statisztikailag ekvivalens mintat
fog alkotni, mint az eredeti X1 ; : : : ; Xn , amelynek eloszlasa meg fuggott #-tol. Az Xn tel-
jes statisztika "kepviseli" a # parametert, jobban mondva magaba tomorti a #-ra vonatkozo
informaciokat.

2.4. Maximum-likelihood becsles


Eddig csak arrol volt szo, hogy milyen jo tulajdonsagai lehetnek egy statisztikanak, de meg
nem tudjuk, milyen modszerekkel lehet egy adott becslesi problemahoz alkalmas statisztikat
el}oalltani. A kovetkez}okben ket altalanos becslesi modszert fogunk ismertetni.
2.4.1/a. de ncio: Legyen adott P, valoszn}usegi mertekek egy tere es az X1 ; X2 ; : : : ; Xn
statisztikai minta, amelyek eloszlasfuggvenye abszolut folytonos 8P# 2 P-re. Jelolje most
Yn
L(x; #) = f#(xi )
i=1
a minta egyuttes s}ur}usegfuggvenyet. A # parameter maximum-likelihood becslesen azt a
 n (X1 ; X2 ; : : : ; Xn ) statisztikat ertjuk, melyre
L(x;  n(x)) = maxk L(x; #)
#2R
teljesul (8x 2 Rn ).
2.4.1/b. de ncio: Legyen adott P, valoszn}usegi mertekek egy tere es az X1 ; X2 ; : : : ; Xn
diszkret eloszlasu statisztikai minta E  R ertekkeszlettel 8P# 2 P-re.
Jelolje most
Yn
L(x; #) = P# (X1 = x1; X2 = x2 ; : : : ; Xn = xn) = P# (Xi = xi)
i=1
a minta egyuttes eloszlasat. A # parameter maximum-likelihood becslesen azt a
 n (X1 ; X2 ; : : : ; Xn ) statisztikat ertjuk, melyre
L(x;  n(x)) = maxk L(x; #)
#2R
teljesul (8x 2 E n ).
Megjegyzes :
1. L(x; #)-t likelihood fuggvenynek is nevezik. Az elnevezes jogos, mert most az egyuttes
s}ur}usegfuggvenyben nem x-et, hanem #-t tekintjuk valtozonak.
2. A modszer alapgondolata a kovetkez}o: mintavetelezes soran az x realizaciot kaptuk.
Feltetelezzuk, hogy azert eppen ezt a realizaciot kaptuk, es nem mast, mert az osz-
szes realizaciok kozul ennek a legnagyobb a bekovetkezesi valoszn}usege. Vegyuk tehat,
az osszes # parametervektor kozul azt, amelynel eppen az x realizacio bekovetkezese
a maximalis. A valaszt mind a folytonos, mind a diszkret esetben a L(x; #) ! maxk
#2R
szels}oertek-feladat megoldasabol kapjuk meg.
2.4 Maximum-likelihood becsles 29

3. Mivel a termeszetes alapu logaritmusfuggveny szigoruan monoton novekv}o, az L(x; #) !


max feladat helyett sokszor celszer}u az ln L(x; #) ! maxk szels}oertek-feladatot megol-
#2Rk #2R
dani, ugyanis ugyanott lepnek fel a maximumhelyek. Az l(x; #) = ln L(x; #) fuggvenyt
log-likelihood fuggvenynek nevezzuk.
X
n
l(x; #) = ln f# (xi ):
c=1
(x;#) = 0; i = 1; 2; : : : ; k egyenletrendszer megoldasai kozott
4. A maximumhelyet az @l@# i
kereshetjuk.
2.4.1. pelda: (A varhato ertek maximum-likelihood becslese normalis esetben, amikor is-
mert a szoras.)
Legyen
f#(x) = p 1 e 2D02
, 1 (x,#)2
;
2  D0
ahol D0 > 0 ismert, # 2 R az ismeretlen parameter.
Most a likelihood fuggveny:
1
n , 1 2 Pn (xi ,#)2
L(x; #) = p e 2D0 i=1 ;
2  D0
a log-likelihood fuggveny pedig
 1

1 Xn
l(x; #) = n ln p , 2 D2 (xi , #)2 :
2  D0 0 i=1
A maximumhely keresese:
dl(x; #) = 1 X n
1 Xn
d# D02 i=1 (xi , #) = 0 =) # = n i=1 xi = xn:
Mivel
d2 l(x; #) = , 1 < 0;
d#2 D02
a kapott stacionarius hely maximumhely. Tehat az atlagstatisztika normalis esetben a varhato
ertek maximum-likelihood becslese.
2.4.2. pelda: (A varhato ertek es a szorasnegyzet maximum-likelihood becslesei normalis
esetben.)
Legyen
f#1;#2 (x) = p 1 e, 2#2 (x,#1 ) ;
1 2

2  #2
ahol #2 > 0 es #1 2 R az ismeretlen parameterek.
Most a likelihood fuggveny:
 1
n , 2#1 Pn (xi,#1 )2
L(x; #1 ; #2 ) = p e 2 i=1 ;
2  #2
30 2. FEJEZET Becsleselmelet

a log-likelihood fuggveny pedig


p Xn
l(x; #1 ; #2 ) = ,n ln 2 , n2 ln #2 , 2 1# (xi , #1 )2 :
2 i=1
A maximumhely keresese:
@l(x; #1 ; #2 ) = 1 X n
x , # ) # 1X n
@#1 #2 i=1 ( i 1 ) = 0 = 1 = n i=1 xi = xn
@l(x; #1 ; #2 ) = , n + 1 X n
1 Xn
2#2 2#22 i=1 (xi , #1 ) = 0 =) #2 = n i=1 (xi , #1 ) = sn
2 2 2
@#2
Mivel
@ 2 l(x; #1 ; #2 ) = , n ;
@#21 #2
@ 2 l(x; #1 ; #2 ) = n , 1 X n
(x , # )2 ;
@#22 2#22 #32 i=1 i 1
@ 2 l(x; #1 ; #2 ) = , 1 X n
@#2 @#1 #22 i=1 (xi , #1 );
a kapott stacionarius hely Hesse-matrixa:
0 ,2n 0
1
sn
@ ,n
A;
0 2 (s2n )2
amib}ol latszik, hogy a hely maximumhely, tehat az atlagstatisztika es az empirikus szoras-
negyzet statisztikak normalis esetben az elmeleti varhato ertek es szorasnegyzet maximum-li-
kelihood becslesei.
2.4.3. pelda: (A varhato ertek maximum-likelihood becslese Poisson-eloszlas eseteben.)
Most a minta eloszlasa: i
p#;i = #i! e,# i = 0; 1; 2; : : : :
A likelihood fuggveny, a minta egyuttes eloszlasabol szamolhato:
n
P
xi
Yn xi #i
L(x; #) = #x ! = Y e,n# ;
=1
n
i=1 i xi !
i=1
a log-likelihood fuggveny pedig:
X
n Yn !
l(x; #) = ln # xi , n# , ln xi ! :
i=1 i=1
A stacionarius helyek megkeresese:
@l(x; #) = 1 Xn
1 Xn
@# # i=1 xi , n = 0 =) # = n i=1 xi = xn:
2.4 Maximum-likelihood becsles 31

Mivel
@ 2l(x; #) = , 1 Xn
@#2 #2 i=1 xi < 0;
a kapott stacionariushely maximum. Tehat a Poisson-eloszlas eseten is a parameternek maxi-
mum-likelihood becslese az atlagstatisztika.
2.4.4. pelda: (Maximum-likelihood becsles egyenletes eloszlas eseten)
Legyen az X1 ; : : : ; Xn statisztikai minta eloszlasa U (0; #), ahol # > 0 a becsulend}o parameter.
A likelihood fuggveny most
1 Yn
L(x; #) = #n u(0; xi )u(xi ; #);
i=1
ahol  1; ha a  b
U (a; b) = 0; ha a > b :
Nyilvanvalo, hogy
Y
n
max
#
u(xi ; #) = 1;
i=1
es ez a maximum el eretik
 n
minden #  max fx1 ; : : : ; xn g = xn eseten.
Masreszt #1n  x1n , ha #  xn . Ezert L# (x1 ; : : : ; xn ) a maximumat eppen a
n (x1; : : : ; xn) = xn helyen fogja felvenni, tehat # maximum-likelihood becslese az
Xn = max fX1 ; : : : ; Xng maximumstatisztika lesz.
A maximum-likelihood becsles rendelkezik nehany nagyon jo tulajdonsaggal, amelyeket a
kovetkez}o ket tetelben fogalmazunk meg.
2.4.1. tetel: Legyen adott P, valoszn}usegi mertekek egy tere es az X1 ; X2 ; : : : ; Xn sta-
tisztikai minta. Jelolje most L(x; #) a likelihood fuggvenyt es n a maximum-likelihood sta-
tisztikat!
(i) Ha letezik hatasos becsles a # parameterre, akkor n maga a hatasos becsles.
(ii) Ha letezik Tn elegseges becsles a # parameterre, akkor megadhato olyan h(x) fuggveny,
mellyel h(n ) = Tn ; azaz az elegseges becsles a maximum-likelihood statisztika fuggve-
nyekent all el}o.
Bizonytas :
(i) A Cramer{Rao-tetel utan tett 2. megjegyzes szerint tn hatasos becsles, ha
@l(x; #) = k(#)(t (x) , #)
@# n

teljesul majdnem minden x 2 Rn vektorra. De a maximum-likelihood statisztikat eppen


az @l(@#x;#) = 0 egyenlet megoldasabol kapjuk, azaz
k(#)(tn (x) , #) = 0 =) tn (x) = n(x) = # =) alltas:
32 2. FEJEZET Becsleselmelet

(ii) A Neymann{Fisher faktorizacios tetelb}ol: 9 g; k fuggvenyek:


L(x; #) = g(Tn (x); #)  k(x):
Innen @ ln L@#(x;#) = @g(Tn@#(x);#) = 0 =) 9 h fuggveny: h(Tn (X)) = n (x):
2.4.2. tetel: (Cramer{Dugue)
Legyen adott P, valoszn}usegi mertekek egy tere es az X1 ; X2 ; : : : ; Xn ; : : : statisztikai minta,
amelyek eloszlasfuggvenye abszolut folytonos 8P 2 P-re. Tegyuk fel, hogy a minta s}ur}useg-
fuggvenye f#(x); # 2 (a; b) kielegti az alabbi a), b), c) felteteleket:
i
a) 9 @ ln@#fi# (x) i = 1; 2; 3 8# 2 (a; b):
b) 9H1 (x); H2 (x); H3 (x) fuggvenyek, melyekre:
@f# (x) < H (x); @ 2f#(x) < H (x); @ 3 f# (x) < H (x):
@# 1 @#2 2 @#3 3

Z+1 Z+1
H1 (x) dx < 1; H2(x) dx < 1;
,1 ,1
Z+1
9K : H3 (x)  f# (x) dx < K 8# 2 (a; b):
,1

c) 0 < I1 (#) =
R 
+1 @ ln f (x) 2
#

f#(x) dx < 1:
@#
,1
Legyen tovabba n a # parameter maximum-likelihood statisztikaja.
Ekkor
(i) n az # parameter konzisztens becslese,
p
(ii) n aszimptotikusan normalis eloszlasu, azaz nI1 (#)  (n , #) !e N (0; 1).
Bizonytas : Az (i) bizonytasa. A b) feltetelb}ol kovetkezik, hogy a derivalas es az integralas
sorrendje felcserelhet}o. Igy mivel
Z+1 Z+1@f#(x) Z+1@ 2 f#(x)
f#(x) dx = 1 =) @# dx = 0 ; @#2 dx = 0:
,1 ,1 ,1
Legyen #0 2 (a; b) a tenyleges parameter. A Taylor-formulabol kapjuk, hogy:
@ ln f# (x) = @ ln f# (x) 2
@# @# + @ ln@#f2# (x) (# , #0 ) + 12  H3 (x)  (# , #0 )2 ;
#=#0 #=#0
ahol jj < 1 ( esetleg fugghet x-t}ol es #-tol is.) Mivel
Yn
L(x; #) = f#(xi );
i=1
2.4 Maximum-likelihood becsles 33

gy
1 @ ln L(X; #) = 1 X
n
@ ln f# (Xi ) = B + B (# , # ) + 1  B (# , # )2 ;
n @# n @# 1 2 0 2 3 0
i=1
ahol
Xn
B1 = n1 @ ln f@#
# (Xi ) ;
i=1 #=#0
Xn 2
B2 = n1 @ ln@#
f# (Xi )
2
i=1 #=#0
es
X
n
B3 = n1 H3 (Xi ) :
i=1
 a minta es # fuggvenye, de jj < 1. Figyeljuk meg, hogy B1 ; B2 ; B3 fuggetlen, azonos
eloszlasu valoszn}usegi valtozok atlagai!
A maximum-likelihood becsles az @ ln L@#(X;#) = 0 egyenlet megoldasabol all el}o, azaz

B1 + B2 (# , #0 ) + 12 B3 (# , #0 )2 = 0:
Felhasznaljuk, hogy !
E#0 @ ln f#(Xi ) = 0;
@# #=#0
!
E#0 @ 2 ln f#(Xi ) = ,I1 ;
@#2 #=#0
hiszen
! Z1 Z1
E#0 @ ln f#(Xi ) = @f#(x) @
@# #=#0 @# #=#0 dx = @# f#(x) dx =0
,1 ,1 #=#0
es
!
Z @ 2 f#(x) 1 2 Z 1
E#0 1  @ 2 f#(Xi ) @
f#(Xi ) @#2 #=#0 = @# #=#0 dx = @#2 f#(x) dx =0
,1 ,1 #=#0
miatt !  @ ln f (X ) 2 !
E#0 @ 2 ln f#(Xi ) = E#0 , # i =
@#2 #=#0 @# #=#0
!
= , 2 #0 @ ln f#(Xi ) = ,I1 :
@# #=#0
A nagy szamok gyenge torvenyeb}ol kovetkezik, hogy
st st st
B1 ! 0; B2 ! ,I1; B3 ! E#0 H3(X ) < K:
34 2. FEJEZET Becsleselmelet

Ezert 80 < " < 1 es 0 < < 2(KI1+1) -hez 9 n0("; ) kuszobszam, hogy n > n0 eseten
P(jB1j  2 ) < 3" ;
P(B2  , 12 I1) < 3" ;
P(jB3j  2 K ) < 3" :
, 
A Boole-egyenl}otlenseget P(A1 A2 A3 )  1 , P(A1 ) , P(A2 ) , P(A3 ) felhasznalva:
P(jB1j < 2 ; B2 < , 21 I1; jB3j < 2 K )  1 , ":
Megmutatjuk, hogy a # = #0 + pontban a B1 + B2 (# , #0) + 12 B3 (# , #0 )2 kifejezes negatv
erteket vesz fel:
1 @ ln L(x; #)
 
1 B 2 < 2 + ,I1 + 1  2 2/K <
n @# = B1 + B 2 + 2 3 2 2/
#=#0 +

< 2 (KI1+ 1) (K + 1) , 12 I1 = 0:
L(x;#) < 0; ha # = # + es x kielegti a jB j < 2 ; B < , 1 I ; jB j < 2 K
Tehat @ ln @# 0 1 2 2 1 3
feltetelrendszert. Masreszt # = #0 , -val ugyanarra az esemenyre:
1 @ ln L(x; #) j 1
I  1
1 ,  2 2/K >
0 , = B1 , B2 +  B3 ,
2 > 2 +
n @# # = # 2 2 2/
 
> , 2 (K + 1) + 21 I1 > , 2 (KI1+ 1) (K + 1) + 12 I1 = 0:
L(x;#) fuggveny di erencialhato, gy folytonos, ezert a (# , ; # + ) inter-
Mivel az n1 @ ln @# 0 0
vallumban kell, hogy legyen gyoke. Maskeppen fogalmazva, 80 < " < 1 es 0 < < 2(KI1+1) -hez
9 n0("; ) kuszobszam, hogy n > n0 eseten tobb mint 1 , " valoszn}useggel a @ ln @# L(X;#) = 0
likelihood egyenletnek van gyoke a (#0 , ; #0 + ) intervallumban, azaz
P(jn(X) , #0j < )  1 , ";
vagyis a maximum-likelihood becsles konzisztens.
A (ii) bizonytasa. A
B1 + B2 (n (X) , #0 ) + 21  B3 (n (X) , #0 )2 = 0
egyenletb}ol:
n(X) , #0 = ,B1 ;
B2 + 2  B3 (n (X) , #0)
1
p
majd mindket oldalt nI1 (#0 )-lal megszorozva:
1 p P @ ln f# (Xi )
pn n
p p B1
p I1 (#0 ) n i=1 @#
nI1 (#0 )(n (X) , #0 ) = B2 I11(#0 ) (n (X),#0 ) = X
#=#0
,
, (I1(#0 )) , 2 B3 (I1(#0 )) , (I1(#0 )) , 2 B3 (I1 (#0 ))#0 )
B 2 1 ( n ( )
2.4 Maximum-likelihood becsles 35

Az Yi = @ ln @#f# (Xi )
#=#0
jelolessel, az Yi valoszn}usegi valtozok teljesen fuggetlenek es azonos
eloszlasuak. Tovabba:  @ ln f (X ) 
E#0 Yi = E#0 # i
@# j#=#0 = 0;
 @ ln f (X ) 
2#0 Yi =  2#0 # i j#=#0 = I1 (#0):
@#
A centralis hatareloszlas tetelt alkalmazva:
X n pn = p 1 Xn
Un = n1 p Yi p
@ ln f#(Xi )
@# !e N (0; 1):
i=1 I1 (#0 ) I1 (#0 )  n i=1 #=#0
Felhasznalva a Csebisev-fele nagy szamok torvenyet:
st # ; B !
st st
n ! 0 2 ,(I1 (#0 )); B3 ! E#0 H3 (Xi ) < K;
amib}ol
Zn = , (I B(#2 )) , 12  B3 ((In (,# #))0 ) !
st 1
1 0 1 0
kovetkezik. e st p
Mivel Un ! N (0; 1); Zn ! 1, gy ZUnn !e N (0; 1); azaz n I1 (#0 ) (n , #0 ) !e N (0; 1):

A maximum-likelihood modszer az el}oz}o tetelek miatt alapvet}o fontossagu a becsleselme-


letben. Ahol lehet, celszer}u alkalmazni. Vannak azonban esetek, amikor a likelihood egyenlet
a parameterre transzcendens egyenletet ad, azaz a parameter kifejtese lehetetlen. Ilyen esetek-
ben sokszor hasznos a momentumok modszere. A modszer lenyege az, hogy a minta momen-
tumai fuggvenykapcsolatban vannak az eloszlas parametereivel, es ebbe az ismert fuggvenybe
a mintabol becsult empirikus momentumokat berva kapjuk a becslesi statisztikakat.
2.4.2. de ncio: Legyen adott P, valoszn}usegi mertekek egy tere es az X1 ; X2 ; : : : ; Xn
statisztikai minta. Tegyuk fel, hogy leteznek az
mj = E# Xij = gj (#) (j = 1; 2; : : : ; k)
momentumok, es
9gj,1 (m1; m2 ; : : : ; mk ) = #j (j = 1; 2; : : : ; k):
Tekintsuk az
X
n
m^ j = n1 Xij (j = 1; 2; : : : ; k)
i=1
empirikus momentum statisztikakat. Akkor az
mj = gj,1 (m^ 1 ; m^ 2 ; : : : ; m^ k ) (j = 1; 2; : : : ; k)
statisztikak a #j parameterek momentumos becslesei.
A momentumok modszere nem rendelkezik olyan optimalis tulajdonsagokkal, mint a ma-
ximum-likelihood modszer, de azert az altalanos feltetelek mellett belathato, hogy a becslesei
konzisztensek. A konzisztencia azon mulik, hogy az empirikus momentumok is konzisztens
becslesei az elmeleti momentumoknak.
36 2. FEJEZET Becsleselmelet

2.4.5. pelda: (A normalis eloszlas parametereinek becslese a momentumok modszerevel)


A minta s}ur}usegfuggvenye
fm;D (x) = p 1 e, 2D :
(x,m)2

2 D
A normalis eloszlas eseten tudjuk, hogy m = g1 (m1 ; m2 ) = m1 ; D = g2 (m1 ; m2 ) = m2 , m21 .
Pn Pn
Az empirikus momentumok: m^ 1 = n1 Xi = X n ; m^ 2 = n1 Xi2 . Igy a momentumbecs-
i=1 i=1
lesek egyb}ol adodnak:
m  g1 (m^ 1 ; m^ 2 ) = X n ;
X
n X
n !2
D  g2 (m^ 1 ; m^ 2) = n1 Xi2 , n1 Xi = s2n :
i=1 i=1
Lathato, hogy ugyanazok a statisztikak adodtak, mint a maximum-likelihood modszernel.
2.4.6. pelda: (A Poisson-eloszlas parameterenek becslese a momentumok modszerevel)
A minta eloszlasa most
k
P#(Xi = k) = #k! e,# (k = 0; 1; 2; : : :):
A # > 0 parameter eppen a varhato ertek, az els}o momentum, gy a momentumbecsles egyb}ol
adodik: #  m^ 1 = X n . Ezuttal is ugyanazt a statisztikat kaptuk, mint a maximum-likelihood
modszernel.

2.5. Intervallumbecslesek
A korabbi szakaszokban az ismeretlen parametervektort a minta egy fuggvenyevel, azaz egyet-
len statisztikaval probaltuk meg kozelteni. Konkret realizacional tehat, a parameterter egy
pontjat egy masik ponttal becsuljuk. Ezert beszelunk pontbecslesr}ol. De tudjuk azt is, hogy
folytonos eloszlasoknal, annak valoszn}usege, hogy a valoszn}usegi valtozo az ertekkeszlete-
nek eppen egy tesz}olegesen kivalasztott pontjat fogja felvenni, nulla. Tehat folytonos esetben
nulla annak valoszn}usege, hogy eppen a parametert talaltuk el a becslessel. Az intervallum-
becsleseknel a mintabol kesztett tartomanyokat de nialunk, amely tartomanyok nagy valo-
szn}useggel lefedik a kerdeses parameterpontot. A temakort egydimenzios parameter eseten
targyaljuk.
2.5.1. de ncio: Legyen adott P valoszn}usegi mertekek egy tere es az X1 ; X2 ; : : : ; Xn
statisztikai minta. Legyen 0 < " < 1 rogztett. Azt mondjuk, hogy a # parameterhez megad-
tunk egy legalabb 1 , " szigni kanciaszint}u kon denciaintervallumot, ha t1 (X1 ; X2 ; : : : ; Xn )
es t2 (X1 ; X2 ; : : : ; Xn ) olyan statisztikak, hogy
P# (t1(X1 ; X2 ; : : : ; Xn )  #  t2(X1 ; X2 ; : : : ; Xn))  1 , "
fennall minden P # 2 P-re.
Ahhoz, hogy peldakat mutassunk kon dencia intervallumra, be kell bizonytanunk a Lu-
kacs-tetelt, es de nialni kell a 2 - es a Student-eloszlasokat.
2.5 Intervallumbecslesek 37

2.5.2. de ncio: Legyenek Y; X1 ; Xn2 ; : : : ; Xn standard normalis eloszlasu, teljesen fug-


P
getlen valoszn}usegi valtozok. Ekkor Xi2 2 -eloszlast kovet n szabadsagfokkal, melynek
i=1
s}ur}usegfuggvenye
f (x) = n2 1 , n   e, x2  x n2 ,1 ; x > 0;
2 , 2
R1
ahol ,(s) = e,t  ts,1 dt a gamma-fuggveny. Masreszt s nY n szabadsagfoku t- (Stu-
0
P X2
i=1 i
n
dent-) eloszlast fog kovetni, melynek s}ur}usegfuggvenye
,  1 ! n+12
,, n+1 1
g(x) = 1 2 , n  pn  ; x 2 R:
, 2 , 2 1 + xn2
2.5.1. tetel: (Lukacs)
Legyen X1 ; X2 ; : : : ; Xn 2 N (m; D) eloszlasbol szarmazo statisztikai minta.
Ekkor
(i) X n 2 N (m; pDn ), azaz m; pDn parameter}u normalis eloszlas,
(ii) ns2n 2 2n,1; azaz n , 1 szabadsagfoku 2 -eloszlas,
D2
(iii) X n es s2n fuggetlenek ( X n es sn2 is fuggetlenek).
Bizonytas :
(i) X n karakterisztikus fuggvenye:
0 n 1 n  t  Yn  t 
X t Y
'Xn (t) = E exp @i Xj A = E exp iXj = 'Xj
n = n n
j =1 j =1 j =1
  t D2 t2 n
= exp im n , 2n2 ;
amib}ol leolvashato, hogy X n 2 N (m; pDn ):
(ii) Segedtetel: Tekintsuk a
0 n,1 , 1 , 1    , 1 1
n1 n,n1 n1 n1
1
B
B , n n , n    , n CC
B .
H n = E n , n 1 1 = B ..
T .
.. .
.. . . . ... CC
@ 1 1 1 . A
,n ,n ,n .. n,1
n
centralo matrixot. A kepletben az 1 olyan vektort jelol, melynek mindegyik komponense
1-es, E n pedig az egysegmatrix.
Ekkor
a) H n H n = H n (idempotens),
38 2. FEJEZET Becsleselmelet

b) H n szimmetrikus, pozitv szemide nit,


   
c) det H n = 0 ; rank H n = n , 1;
d) H n sajatertekei az 1 (n , 1)- szeres multiplicitassal, es a 0.
A segedtetel bizonytasa:
,  , 
a) H 2n = E 2n , E n n1 11T , n1 11T E n + n12 1(1T 1)1T = E n , n1 11T = H n .
b) H n szimmetrikus trivialisan. Legyen x 2 Rn tetsz}oleges:
2
xT H nx = xT H n  H nx = H nx  0 pozitv szemide nit, sajatertekei nemnega-

tvak.     p   p 
c) det H n , E n = det H 2n , E 2n = det H n , E n det H n + E n = 0:
p
Tehat, ha  sajatertek, akkor +  is az. Igy csak 1 es 0 lehet sajatertek! Masreszt,
trace H n = n n ,
n
1 = n , 1 =  +  +  + 
1 2 n
csak ugy lehet, ha 1 = 2 =    = n,1 = 1 es n = 0:
  Y
n   Pn
d) det H n = j = 0; rank H n = j = n , 1; mert n , 1 darab 1 sajaterteke
j =1 j =1
van.
A segedtetelt hasznalva bizonythatjuk a tetel 2. alltasat.
XT H X = XT X , n1 XT 11T X = P Xi2 , n ,Xn 2 = ns2n:
n
n i=1
Legyenek Zi = Xi , m 2 N (0; D); teljesen fuggetlenek.
Xn Xn
Zn = 1 Zi = 1 (Xi , m) = X n , m;
n i=1 n i=1
1 ZH Z = d2 = 1 X
n
 2 1 X
n
(Zi , Zn ) = n ((Xi , m) , (X n , m))2 = s2n :
n n n n
i=1 i=1
Felhasznaljuk H n spektralfelbontasat:
H n = G L GT , ahol G GT = GT G = E n es L = diag(1; 1; : : : ; 1; 0): Igy
nX
,1
ns2n = XT H nX = ZT H nZ = ZT G L GT Z = YT LY = Yi2 :
i=1
Y = GT Z 2 Nn(G0; DE n), azaz
Yi 2 N (0; 1) teljesen fuggetlenek ns2n = nP
,1 Y 2
D2 2 n,1 .
i 2
D D 2
i=1
(iii) A n = 0 sajatertekhez tartozo sajatvektor: gn = p1n 1 = ( p1n ; p1n ; : : : ; p1n )T ; mert
Pn
H n gn = E n p1n 1 , n1 11T p1n 1 = gn , gn = 0: Igy Yn = gnT Z = p1n Zi = pnZn. Mivel
i=1
2 2 P n,1
nsn = ndn = Yi ; X n = Zn + m = pn Yn + m; es Yi -k teljesen fuggetlenek voltak, gy
2 1
i=1
X n es s2n is fuggetlenek.
2.5 Intervallumbecslesek 39

Felhasznalva a Lukacs-tetelt belathato, hogy ha X1 ; X2 ; : : : ; Xn N (m; D) eloszlasbol szar-


mazo statisztikai minta, akkor az
Xn , m pn 2 N (0; 1); es az (n , 1) sn 2 2 2
D D2 n,1
statisztikak fuggetlenek, gy
X n ,m pn  p
rD , 
(n 1) sn 2
= Xns, m n 2 tn,1
D2
n
n,1
(n , 1 szabadsagfoku Student-eloszlasu).
2.5.1. pelda: (Kon denciaintervallum szerkesztese az ismeretlen varhato ertekre ismert
szorasu normalis eloszlas eseteben)
Legyen X1 ; X2 ; : : : ; Xn N (m; D0 ) eloszlasbol szarmazo statisztikai minta, ahol D0 > 0
ismert, m 2 R ismeretlen. Szerkesszunk m-re adott 0 < " < 1pmellett (1 , ")-szint}u kon den-
ciaintervallumot! A Lukacs-tetelb}ol tudjuk, hogy u = XnD,0 m n 2 N (0; 1), azaz a statisztika
s}ur}usegfuggvenye: '(x) = p12  e, x2 : '(x) segtsegevel megadhato olyan u" > 0 szam, hogy
2

Z+u"
'(t) dt = P(,u" < u < u" ) = (u" ) , (,u") = 2 (u") , 1 = 1 , "
, u"
teljesuljon. Az u" > 0 szam meghatarozasat a (u" ) = 1 , 2" egyenletb}ol, standard normalis el-
oszl
nas tablauzata segtsegevel hatarozhatjuk
o meg. Mivel a f,u" < u < u" g esemeny ekvivalens
az Xn , p" n 0 < m < X n + p" n 0 esemennyel, ezert
D u D
 
P Xn , up" Dn0 < m < Xn + up" Dn0 = 1 , ";
azaz a
T1 = Xn , up
" D0 ;
n
T2 = X n + up
" D0
n
(1 , ")-szint}u kon denciaintervallum m-re.
2.5.2. pelda: (Kon denciaintervallum szerkesztese az ismeretlen varhato ertekre ismeret-
len szorasu normalis eloszlas eseteben)
Legyen X1 ; X2 ; : : : ; Xn N (m; D) eloszlasbol szarmazo statisztikai minta, ahol D > 0 is es,
m 2 R is ismeretlen. Szerkesszunk m-re adott 0 < " <p 1 mellett (1 , ")-szint}u kon denciain-
tervallumot! A Lukacs-tetel utan lattuk, hogy Xns,n m n 2 tn,1 , azaz az n , 1 szabadsagfoku
Student-eloszlashoz tartozo tablazatbol kiolvashato olyan t" > 0 szam, amellyel
Xn ,  p  t s t s
1 , " = P(,t" <  "
n < t" ) = P X n , p < m < X n + p n
n "
sn n n
 
azaz most a T1 = X n , tp" snn ; T2 = X n + tp" snn statisztikapar lesz (1 , ")-szint}u kon denciain-
tervallum m-re.
40 2. FEJEZET Becsleselmelet

2.5.3. pelda: (Kon dencia intervallum szerkesztese az ismeretlen szorasra normalis el-
oszlas eseteben)
Legyen X1 ; X2 ; : : : ; Xn N (m; D) eloszlasbol szarmazo statisztikai minta, ahol D > 0 is es
m 2 R is ismeretlen. Szerkesszunk D-re adott 0 < " < 1 mellett (1 , ")-szint}u kon denciain-
( n, 1) s
tervallumot! A Lukacs-tetelre hivatkozva megint: D2 2 n,1 . Az n , 1 szabadsagfoku
n 2
2
2 -eloszlas tablazatbol megadhatok olyan 0 < c1 < c2 szamok, hogy
!
1 , " = P c1 < (n ,D1) sn 2 < c
2 2

teljesuljon. (A c1 ; c2 ertekek nyilvan kielegtik a P(2n,1 > c1 ) = 1 , 2" es P(2n,1 > c2 ) = 2"
felteteleket.) Egyszer}u atrendezessel kapjuk, hogy
0s s 1
1 , " = P @ (n , 1) sn < D < (n , 1) snA ;
c2 c1
q (n,1) q (n,1)
azaz a T1 = c2 sn ; T2 = c1 sn statisztikapar (1 , ")-szint}u kon denciaintervallum
lesz D-re.
2.5.4. pelda: (Kon denciaintervallum szerkesztese az ismeretlen parameterre exponenci-
alis eloszlas eseteben)
Legyen X1 ; X2 ; : : : ; Xn E () eloszlasbol szarmazo statisztikai minta, ahol  > 0 ismeret-
len. Szerkesszunk -ra adott 0 < " < 1 mellett (1 , ")-szint}u kon denciaintervallumot!
A problema megoldasahoz felhasznaljuk az alabbi segedtetelt:
Segedtetel: Legyen X1 ; X2 ; : : : ; Xn E () eloszlasbol szarmazo statisztikai minta.
Ekkor
a) Xi 2 E (1);
b)
Pn X = nX 2 ,(n; 1); azaz n; 1 parameter}u gamma eloszlasu,
j n
j =1
n,1
f,(x) = (nx, 1)! e,x (x > 0)
s}ur}usegfuggvennyel.
A segedtetel bizonytasa:
a) P(Xj < x) = P(Xj < x ) = 1 , e, x = 1 , e,x =) Xj 2 E (1):
R1 h i1
b) 'Xj (t) = EeiXj t = eixt e,x dx = it,1 1 ex(it,1) = 1,1it .
0 0
Yn  n
'nXn (t) = 'X (t) = 1
1,it =) fnXn (x) = x(nn,,1 e1)!,x ; mert a karakterisztikus
j =1
fuggvenye:
Z1 xn,1 e,x dx =  xn,1 1 ex(it,1) 1 , 1 1 Z xn,2 ex(it,1) dx =
1
eixt (n , 1)! (n , 1)! it , 1 (n , 2)! it , 1
0 0 0
2.5 Intervallumbecslesek 41

1 1
 
1 ex(it,1) 1 + 1
 1 2 Z1
= 0 , (n , 2)! it , 1 xn,2 it , 1 ( n , 3)! it , 1 xn,3ex(it,1) dx =
0 0
1
 1
2 Z1  1
n  1
n
= (n , 3)! it , 1 xn,3ex(it,1) dx =    = (,1)n it , 1 = 1 , it :
0
Az n; 1 parameter}u gamma-eloszlashoz tartozo tablazatbol kiolvashatok olyan 0 < 1 < 2
szamok, amelyekkel
1 , " = P( 1 <  n X n < 2 ) = P( 1 <  < 2 );
n Xn n Xn
azaz a T1 = n X1 n ; T2 = n X2 n statisztika par lesz (1 , ")-szint}u kon denciaintervallum -ra.
A 1 ; 2 szamokat ugy kell meghatarozni, hogy P(0 < ,(n; 1) < 1 ) = P(,(n; 1) > 2 ) = 2"
legyen.
42 2. FEJEZET Becsleselmelet
3. fejezet

Hipotezisvizsgalat
3.1. Alapfogalmak
Tekintsuk a K veletlen kserletet es a hozzatartozo ( ; F) merhet}o teret, es a P valoszn}usegi
mertekek osztalyat, ahol ( ; P; P) Kolmogorov-fele valoszn}usegi mez}o 8P 2 P-re. Tegyuk
fel, hogy P ket diszjunkt reszhalmazra bonthato: P = P0 [ P1 , es P0 \ P1 = ;: Statisztikai
modszert (un. probat vagy tesztet) akarunk konstrualni annak eldontesere, hogy a veletlen
kserlethez tartozo tenyleges P valoszn}usegi mertek melyik halmazhoz tartozik P0 es P1 kozul.
Ehhez felalltunk egy H0 : P 2 P0 nullhipotezist, es egy H1 : P 2 P1 alternatv hipotezist. A
nullhipotezis azt a feltevesunket fogalmazza meg, hogy az elmeleti P valoszn}useg a P0 reszhez
tartozik, az alternatv hipotezisunk pedig azt, hogy ellenkez}oleg, pont a P1 reszhez. A kett}o
felteves kozul az eljaras vegen egyertelm}uen kivalasztjuk es elfogadjuk majd az egyiket. A
dontest az X1 ; X2 ; : : : ; Xn ; : : : statisztikai minta segtsegevel fogjuk meghozni. El}oszor is, el
fogjuk keszteni a tn (X1 ; X2 ; : : : ; Xn ) un. probastatisztikat, amely rendelkezni fog az alabbi
tulajdonsaggal: adott 0 < " < 1 szamhoz megadhatok olyan K1 (") < K2 (") szamok, hogy
P(K1 (")  tn  K2("))  1 , "; 8P 2 P0 :
A K1 ("); K2 (") ertekeket kritikus ertekeknek, a segtsegukkel de nialt
Xe = fx : x 2 Rn ; K1(")  tn(x)  K2 (")g n-dimenzios vektorhalmazt elfogadasi tartomany-
nak, a komplemens halmazat, Xk = Rn n Xe -t, pedig kritikus tartomanynak nevezzuk. Az "
szam a proba terjedelme, az 1 , " ertek pedig a proba szigni kancia szintje. A dontest ugy
hajtjuk vegre, hogy ellen}orizzuk, hogy az X1 ; X2 ; : : : ; Xn minta beleseik-e az Xe elfogadasi
tartomanyba. Ha beleesik, akkor a H0 hipotezist, ellenkez}o esetben a H1 alternatv hipotezist
fogjuk elfogadni. A hipotezis eldontese maskeppen alakulhat az egyes " terjedelmeken, ezert
mindig jelezni kell, hogy milyen 1 , " szint mellett fogadjuk el (vagy vetjuk el) a nullhipotezist.
Termeszetesen szamolunk azzal is, hogy a dontesunk hibas. Azt mondjuk, hogy els}ofaju hibat
kovetunk el, ha elvetjuk a nullhipotezist, holott valojaban az igaz. Masodfaju hibat akkor
kovetunk el, ha elfogadjuk a nullhipotezist, holott az nem igaz. Minden mas esetben helyesen
dontunk. A dontesi hibafajtakat az alabbi tablazatban mutatjuk:
Dontes n Valosag H0 igaz H1 igaz
H0 mellett jo dontes masodfaju hiba
H1 mellett els}o faju hiba jo dontes

3.1.1. de ncio: A
p1 ("; n; P) = P((X1 ; X2 ; : : : ; Xn)T 2 Xk ); P 2 P0 ; 0 < " < 1; n 2 N
43
44 3. FEJEZET Hipotezisvizsgalat

fuggvenyt els}ofaju hibavaloszn}usegnek nevezzuk. A


sup P((X1 ; X2 ; : : : ; Xn )T 2 Xk )  "
8P2P0
relacio teljesulese eseten legfeljebb " terjedelm}u probarol beszelunk.
3.1.2. de ncio: A
p2 ("; n; P) = P((X1 ; X2 ; : : : ; Xn )T 2 Xe); P 2 P1 ; 0 < " < 1; n 2 N
fuggvenyt masodfaju hibavaloszn}usegnek nevezzuk.
3.1.3. de ncio: Az
E ("; n; P) = 1 , p2("; n; P) = P((X1 ; X2 ; : : : ; Xn)T 2 Xk ); P 2 P1 0 < " < 1; n 2 N
fuggvenyt a proba er}ofuggvenyenek nevezzuk. A
sup P((X1 ; X2 ; : : : ; Xn )T 2 Xk )
8P2P1
ertek a proba ereje.
3.1.4. de ncio: Egy proba torztatlan, ha
P ,(X1 ; X2 ; : : : ; Xn )T 2 Xk   "; 8P 2 P0-bol
kovetkezik, hogy
P((X1; X2 ; : : : ; Xn )T 2 Xk )  "; 8 P 2 P1; 80 < " < 1:
Vagyis, ha H0 nem all fenn, nagyobb valoszn}useggel utastjuk el, mint amikor fennall.
3.1.5. de ncio: Egy proba konzisztens, ha nlim
!1 E ("; n; P) = 1; 8P 2 P1 es 0 < " < 1.
3.1.6. de ncio: Egy proba egyenletesen legjobb proba, ha adott els}ofaju hibaval rendel-
kez}o probak kozott a legkisebb a masodfaju hibaja.

3.2. Neyman{Pearson- es Stein-lemma


3.2.1. de ncio: Egy veletlentett proba dontesfuggvenyen azt a  : Rn ! [0; 1] fuggvenyt
ertjuk, amely megadja, hogy ha a minta realizaltja eppen x; akkor  (x) valoszn}useggel fogjuk
a H0 hipotezist elutastani.
Megjegyzes :
1. Egy (nem veletlentett) statisztikai proba dontesfuggvenye  (x) = I (x 2 Xk ) ; tehat a
veletlentett probak a statisztikai probak kiterjeszteset adjak.
2. Veletlentett proba eseten a dontes ket lepesb}ol all. El}oszor az X minta alapjan kisza-
moljuk a p =  (X) valoszn}useget, majd generalunk egy Y veletlen szamot a [0; 1]-en
egyenletes eloszlasbol. Ha p  Y , akkor elfogadjuk H0 -t, kulonben elvetjuk.
3.2 Neyman{Pearson- es Stein-lemma 45

3. Nyilvan EP (X) jelenti az els}ofaju hiba valoszn}useget, ha P 2 P0 es az er}ofuggvenyt,


ha P 2 P1 .
4. Egy veletlentett proba terjedelmet a
sup EP  (X) ;
8P2P0
az erejet pedig a
sup EP  (X)
8P2P1
ertekek adjak.
3.2.1. tetel: (Neyman{Pearson fundamentalis lemma)
Legyen a vizsgalt P valoszn}usegi mertekosztaly ketelem}u: P = fP0 ; P1 g : Letezzek az X =
(X1 ; X2 ; : : : ; Xn )T statisztikai minta s}ur}usegfuggvenye mindket valoszn}usegi mertekre nezve.
Jelolje ezeket rendre f0 (x) es f1 (x). P nyilvan dominalt a  Lebesgue-mertekre nezve. A
Qn Qn
minta egyuttes s}ur}usegfuggvenyei gy L0 (x) = f0 (xi ) illetve L1 (x) = f1 (xi ) : Donteni
i=1 i=1
szeretnenk a H0 : P = P0 hipotezisr}ol a H1 : P = P1 alternatv hipotezissel szemben. Ekkor
(i) tetsz}oleges 0 < " < 1 szamhoz letezik olyan 0 < c0 es 0 <  < 1 szam, amivel a
8 1;
< ha L1 (x) > c0 L0 (x)
 (x) = : ; ha L1 (x) = c0 L0 (x)
0; ha L1 (x) < c0 L0 (x)
dontesfuggveny olyan veletlentett probahoz tartozik, aminek " a terjedelme,
(ii) az (i)-ben de nialt proba egyenletesen legjobb proba,
(iii) ha  egy " terjedelm}u legjobb proba, akkor
P0 ( (X) =  (X)) = P1 ( (X) =  (X)) = 1:
Bizonytas :
(i) Legyen 0 < " < 1 tetsz}oleges. Tekintsuk a G (c) = P0 (L1 (X) > cL0 (X)) ; c 2 R fugg-
venyt. Mivel L0 (x) az X minta s}ur}usegf uLggv enye H0 mellett, ezert
1 (X)
P0 (L0 (X) > 0) = 1; azaz G (c) = P0 L0(X) > c : Mivel 1 , G (c) jobbrol folytonos
eloszlasfuggvenye az Y = LL10 ((XX)) valoszn}usegi valtozonak, G (c) egy monoton nem no-
vekv}o, jobbrol folytonos fuggveny, melyre c!,1 lim G (c) = 1; clim
!1 G (c) = 0: Ezert letezik
olyan c0 szam, melyre G (c0 )  "  G (c0 , 0) : Nyilvan
G (c0 , 0) , G (c0 ) = P0 (L1 (X) = c0 L0 (X)) : Ha G folytonos c0 -ban, akkor  meghata-
rozasa erdektelen, hiszen ugyis egy 0-mertek}u halmazon veszi csak fel  ezt az erteket.
Ilyenkor
EP0  (X) = P0 (L1 (X) > c0 L0 (X)) = G (c0 ) = ";
vagyis a proba terjedelme ": Ha viszont G nem folytonos c0 -ban, es
 = G (c " ,,0)G , ( c0 )
G (c0 )
0
46 3. FEJEZET Hipotezisvizsgalat

akkor
EP0  (X) = P0 (L1 (X) > c0L0 (X)) +  P0 (L1 (X) = cL0 (X)) =
= G (c0 ) +  (G (c0 , 0) , G (c0 )) = ":
c0 megvalasztasa lenyegeben egyertelm}u. Tegyuk fel ugyanis, hogy G(c) = "; c 2 (c; ; c;; ) :
Tekintsuk a  L ( x)

; 1
T = x : p0 (x) > 0 \ c < L (x) < c ;;
0
tartomanyt.
P0 (T ) = G (c;) , G (c;; , 0) = " , " = 0:
x 2 T eseten c;L0 (x) < L1 (x) < c;;L0 (x) miatt
Z Z Z
0 = c; L0 (x) d (x) < L1 (x) d (x) < c;; L0 (x) d (x) = 0;
T T T
azaz P1 (T ) = 0 is fennall, azaz akar H0 , akar H1 az igaz, csak 0 valoszn}useggel fordul-
hat el}o, hogy c0 megvalasztasa nem egyertelm}u.
(ii) Legyen most  egy tetsz}oleges legfeljebb " terjedelm}u veletlentett proba dontesfuggve-
nye: EP0  (X)  ": Legyenek S + = fx :  (x) >  (x)g es S , = fx :  (x) <  (x)g :
Konnyen lathato, hogy
8x 2 S = S + [ S , eseten ( (x) ,  (x)) (L1 (x) , c0 L0 (x))  0 es
8x 2 S eseten  (x) =  (x) :
Ezert Z
( (x) ,  (x)) (L1 (x) , c0 L0 (x)) d (x) =
Rn
Z
= ( (x) ,  (x)) (L1 (x) , c0 L0 (x)) d (x)  0;
S
azaz
Z Z
( (x) ,  (x)) L1 (x) d (x)  c0 ( (x) ,  (x)) L0 (x) d (x) =
Rn Rn
= c0 (" , EP0  (X))  0;
azaz EP1  (X)  EP1  (X) ; vagyis  er}osebb, mint  :
(iii) Legyen most  egy tetsz}oleges legfeljebb " terjedelm}u egyenletesen legjobb proba don-
tesfuggvenye. Legyen S = fx :  (x) 6=  (x) \ L1 (x) 6= c0 L0 (x)g : Ha x 2 S; akkor
( (x) ,  (x)) (L1 (x) , c0 L0 (x)) > 0
lesz. Ezert, ha S nem nullmertek}u, vagy P0 vagy P1 szerint, akkor
Z
0< ( (x) ,  (x)) (L1 (x) , c0 L0 (x)) d (x) =
S
Z
= ( (x) ,  (x)) (L1 (x) , c0 L0 (x)) d (x) :
Rn
3.2 Neyman{Pearson- es Stein-lemma 47

Ebb}ol kovetkezik, hogy


Z Z
( (x) ,  (x)) L1 (x) d (x) > c0 ( (x) ,  (x)) L0 (x) d (x) = c0 (" , ") = 0;
Rn Rn
azaz EP1  (X) > EP1  (X) ; ami ellentmondas azzal, hogy  egyenletesen legjobb
proba dontesfuggvenye volt. Az ellentmondas abbol fakadt, hogy feltettuk, hogy S va-
lamelyik valoszn}usegi mertek szerint nem nullmertek}u. Tehat,  es  mindket mertek
szerint 1 valoszn}useggel egybeesik.

3.2.2. tetel: (Stein-lemma)


Legyen a vizsgalt P valoszn}usegi mertekosztaly ketelem}u: P = fP0 ; P1 g : Letezzek az X s}u-
r}usegfuggvenye mindket valoszn}usegi mertekre nezve. Jelolje ezeket rendre f0 (x) es f1 (x). Az
X = (X1 ; X2 ; : : : ; Xn )T statisztikai minta egyuttes s}ur}usegfuggvenyei gy L0 (x) = Q f0 (xi)
n
i=1
Qn
illetve L1 (x) = f1 (xi ) : Tegyuk fel, hogy
i=1

jD (f0 k f1)j = EP0 log2 ff0 ((X


X1 ) < 1;
)
1 1
vagyis, veges a ket eloszlas un. relatv entropiaja. Donteni szeretnenk a H0 : P = P0
hipotezisr}ol a H1 : P = P1 alternatv hipotezissel  szemben.( n)
 Jelolje X(en)  Rn egy sta-
tisztikai proba elfogadasi tartomanyat, n = P0 X 2 Xk az els}ofaju hibavaloszn}useget,
 
(n) pedig a masodfaju hibavaloszn}useget. Legyen 0 < " < 1 tetsz}oleges
n = P1 X 2 Xe 2
terjedelem, amellyel n;" = (min n) n ; azaz n;" jel
o li a legfeljebb " terjedelm}u probak eseten
X e R n
n <"
a minimalis masodfaju hibavaloszn}useget.
!1 n log2 n;" = ,D (f0 k f1 ) :
Akkor nlim 1

Bizonytas : El}oszor megkonstrualunk egy olyan X(en)  Rn elfogadasi tartomanysorozatot,


amelyre  (n)

n = P0 X 2 Xk < "
es 1
n log2 n !1
,D (f0 k f1)
teljesul. Legyen tehat
 
X(en) = x: 2n(D(f0 kf1 ),)  LL0 ((xx))  2n(D(f0kf1 )+) ;
1
ahol  > 0 tetsz}oleges.
  1X n 
f0 (X) 2 D (f k f ) , ; D (f k f ) + 
!
1 , n = P0 X 2 Xe (n) = P0 n i=1 log 2 f1 (X) 0 1 0 1 :
48 3. FEJEZET Hipotezisvizsgalat

A nagy szamok er}os torvenye miatt


1X n
log f0 (X) ! D (f k f )
n i=1 2 f1 (X) 0 1

1-valoszn}useggel, gy 8 > 0-hoz eleg nagy n-re n < " teljesul. Masreszt,
  Z Z
n = P1 X 2 Xe
(n) = L1 (x) d (x)  L0 (x) 2,n(D(f0kf1 ),) d (x) =
X(en) X(en)
Z
= 2,n(D(f0 kf1 ),) L0 (x) d (x) = 2,n(D(f0kf1 ),) (1 , n) :
X(en)
Hasonloan,
n  2,n(D(f0 kf1 )+) (1 , n ) :
Ebb}ol
,D (f0 k f1) ,  + log2 (1n, n)  n1 log2 n  ,D (f0 k f1 ) +  +
log2 (1 , n )
n
es n ! 1 hataratmenettel
1 log2 n = ,D (f0 k f1 )
lim
n!1 n
kovetkezik, mert  > 0 tetsz}oleges volt.
Megmutatjuk, hogy nincsen a fenti X(en) -nel jobb elfogadasi tartomanysorozat. Legyen
Y egy masik elfogadasi tartomanysorozat, melyhez az n;y ; n;y els}ofaju- illetve masodfaju
( n )
hibavaloszn}useg-sorozat tartozik.
    Z
n;y = P1 X 2 Y(n)  P1 X 2 X(en) \ Y(n) = L1 (x) d (x) 
X(en) \Y(n)
Z Z
 L0 (x) 2,n(D(f0 kf1 )+) d (x)  2,n(D(f0 kf1 )+) L0 (x) d (x) :
(n) (n)
Xe \Y(n) Xe \Y(n)
A De Morgan azonossagot, majd a Boole-egyenl}otlenseget hasznalva
Z    
L0 (x) d (x) = P0 X 2 X(en) \ Y(n) = 1 , P0 X 2 X(en) [ Y(n) 
X(en) \Y(n)
   
 1 , P0 X 2 X(en) , P0 X 2 Y(n) = 1 , n;" , n;y
adodik, azaz
1  ,D (f0 k f1) +  + log2 (1 , nn;" , n;y ) :
n log2 n;y

Mivel  > 0 tetsz}oleges volt, nlim 1 log


!1 n 2 n;y
 ,D (f0 k f1) : Tehat, Y(n) nem jobb X(en) -nel,
ahol elertuk az also hatart. Ebb}ol az is kovetkezik, hogy n = n;" .
3.3 Parameteres pro bak 49

3.3. Parameteres probak


Ha adott egy P = fP# ; # 2 g parameteres eloszlascsalad, akkor a
P = P0 [ P1 ; es P0 \ P1 = ;
felbontas helyett a  parameterter
 = 0 [ 1 ; 0 \ 1 = ;
diszjunkt felbontasa segtsegevel is megfogalmazhatjuk a hipoteziseinket:
H0 : # 2 0 ; H1 : # 2 1 :
3.3.1. Egymintas u-proba
Most csak olyan P valoszn}usegi mertekeket tekintunk, ahol az X = (X1 ; X2 ; : : : ; Xn )T minta
adott D0 > 0 szorasu, ismeretlen m varhato ertek}u normalis eloszlasu lesz, a # parame-
ter a varhato ertek (# = m): 0 = fm0 g ; 1 = fm 6= m0 g ; azaz most a nullhipotezis
H0 : EP X = m0; az alternatv hipotezis pedig H1 : EP X 6= m0 : Azt akarjuk tehat eldonteni,
hogy lehet-e a minta varhato erteke egy adott m0 ertek, vagy attol szigni kansan kulonboz}o
lesz. Ha a H0 hipotezis igaz, akkor a mintaelemek N (m0 ; D0 ) eloszlasuak, amib}ol kovetkezik,
hogy a mintaatlag statisztika szinten normalis eloszlasu: X n 2 N (m0 ; pDn0 ): Standardizalas
p
utan: u(X) = XnD,0m0 n 2 N (0; 1).
A standard normalis eloszlashoz a (u") = 1 , 2" osszefugges alapjan megadhatok olyan
K1 (") = ,u"; K2 (") = u" kritikus ertekek, melyekre, ha a H0 hipotezis igaz, akkor fenn kell
n P(x,nu,"m<0 pu(X) < uo") = 1 , ": Adjuk meg tehat az u-proba kritikus tartomanyat
allnia, hogy
az Xk = x : D0 n  u" de ncioval.
p
A nullhipotezist az adott mintarealizacio felhasznalasaval az ju(x)j = xnD,0m0 n < u"
relacio ellen}orzese alapjan dontjuk el. Ha az el}obbi egyenl}otlenseg fennall, akkor az adott ter-
jedelmen elfogadjuk a nullhipotezist. Ellenkez}o esetben azt mondjuk, hogy a minta varhato
erteke szigni kansan kulonbozik a hipotetikus m0 ertekt}ol.
A nullhipotezis annal megbzhatobban fogadhato el, minel nagyobb az " erteke. A gyakor-
latban, ha kozel van 1-hez a nullhipotezis er}osen igaznak mutatkozik, "  0:01 esetben viszont
csak nagyon nagy elemszamu minta eseten celszer}u elfogadni azt.
Az els}ofaju hiba valoszn}usegere:
p1("; n; m0 ) = Pm0 (ju(X)j  u") = 1 , Pm0 (,u"  u(X)  u") =
= 1 , ((u" ) , (,u")) = 2 , 2(u" ) = ":
A masodfaju hiba valoszn}usege pedig:
 p
p2 ("; n; m) = Pm (,u" < u(X) < u") = Pm (,u" < XnD, m0 n < u" ) =
0
 ( m , m )
pn X , m p (m , m )
pn 
= Pm ,u" , 0 < Dn n < u" , 0 =
D0 0 D0
 (m , m0)pn   ( m , m )
pn 
=  u" , ,  ,u" , 0 ;
D 0 D 0
50 3. FEJEZET Hipotezisvizsgalat
p
ugyanis az alternatv hipotezis fennallasa eseten lesz XnD,0 m n 2 N (0; 1):
Az egymintas u-proba er}ofuggvenye:
 p   p 
E ("; n; m) = 1 , p2 ("; n; m) = 1 ,  u" , (m ,Dm0 ) n +  ,u" , (m ,Dm0) n :
0 0

3.3.1. tetel: (Az u-proba tulajdonsagai)


Az u-proba konzisztens es torztatlan.
p p
Bizonytas : an = ,u" , (m,Dm00 ) n ; bn = u" , (m,Dm00 ) n jelolessel rogztett " es m mellett:

!1(1 + (an ) , (bn )) = 1;


lim E ("; n; m) = nlim
n!1

mert an ; bn ! +1; ha m < m0 es an ; bn ! ,1, ha m > m0 : Igy (an ) , (bn ) ! (1 , 1)


vagy (0 , 0): A fenti hataratmenetb}ol kovetkezik a proba konzisztenciaja.
Rogztett " es n mellett:

!1(1 + (an ) , (bn )) = 1 + mlim


lim E ("; n; m) = mlim
m!1 !1 (an ) , mlim
!1 (bn ) = 1 + 0 , 0 = 1;

lim (1+(an ),(bn)) = 1+m!,1


lim E ("; n; m) = m!,1
m!,1
lim (an ),m!,1
lim (bn ) = 1+1,1 = 1:
Hatarozzuk meg az E ("; n; m) er}ofuggveny minimumat az m valtozonal!
  
@E ("; n; m) = pn ' u , (m , m0 ) pn , ' ,u , (m , m0 ) pn
 
@m D0 " D0 " D0 = 0:

Mivel '(x) paros fuggveny, ezert ez csak ugy lehet, ha


p
, m0) n = +u + (m , m0) n =) m = m
u" , (m D
p
" D 0:
0 0
  
@ 2 E ("; n; m) = n '0 u , (m , m0) pn , '0 ,u , (m , m0) pn ;
 
@m2 D02 " D0 " D0
@ 2 E ("; n; m0 ) = n '0 (u ) , '0 (,u ) :
@m2 D02 " "

Felhasznalva, hogy '0 (x) = ,x '(x) kapjuk, hogy


@ 2 E ("; n; m0 ) = 2 n  u" '(u ) > 0
@m2 D02 "

=) m = m0 minimumhely, es mmin


2R
E ("; n; m) = E ("; n; m0 ) = " =) az u-proba torztatlan.

Megjegyzes : A gyakorlatban akkor is alkalmazzak az u-probat, amikor a minta nem nor-


malis eloszlasu. Az alkalmazas jogossagat a centralis hatareloszlastetellel lehet indokolni.
3.3 Parameteres pro bak 51

3.3.2. A ketmintas u-proba


Adottak az X1 ; X2 ; : : : ; Xn es az Y1 ; Y2 ; : : : ; Yk egymastol fuggetlen statisztikai mintak. Most
csak olyan P valoszn}usegi mertekeket tekintunk, ahol a mintak peremeloszlasai D1 > 0 illetve
D2 > 0 ismert szorasu, de ismeretlen m1 illetve m2 varhato ertek}u normalis eloszlasuak, azaz
a ket mintahoz tartozo egyuttes s}ur}usegfuggveny:
2 2
!
fm1 ;m2 (x; y) = 2D D exp , (x ,2Dm2 1) , (y ,2Dm22 ) :
1
1 2 1 2
Hipoteziseink: H0 : m1 = m2 ; H1 : m1 6= m2 : A feltetelek miatt a ket minta atlagsta-
tisztikajara: X n 2 N (m1 ; pDn1 ); Yk 2 N (m2 ; pDk2 ). Mivel a ket minta fuggetlen volt, gy a
 q D2 D2 
 
kulonbsegukre: Xn , Yk 2 N m1 , m2 ; n1 + k2 : Ha feltesszuk, hogy a nullhipotezis
q
igaz, akkor X n , Yk 2 N (0; Dn1 + Dk2 ) is fennall. Standardizalas utan: rXDn2,YDk 2 2 N (0; 1):
2 2

n+k
1 2

Adott 0 < " < 1 eseten, tehat most az elfogadasi tartomany:


8 9
< T T T xn , yk =
Xe = :(x ; y ) : q D D < u"; ;
2 2
+ n
1
k
2

ahol az u" > 0 kritikus ertekre: (u" ) = 1 , 2" .


A hipotezis eldontese tehat ugy tortenik, hogy ha az adott mintarealizacioknal teljesul az
rxn ,yk < u" relacio, akkor a nullhipotezist az adott " terjedelmen elfogadjuk, ellenkez}o
D12 D22
n+ k
esetben pedig elvetjuk. Ha a H0 hipotezist fogadjuk el, ugy is fogalmazhatunk, hogy a ket
minta varhato ertekei kozott "nincsen szigni kans kulonbseg".
A ketmintas u-proba els}ofaju hibajanak valoszn}usege is ":

3.3.3. Az egymintas t-proba


Most csak olyan P valoszn}usegi mertekeket tekintunk, ahol az X = (X1 ; X2 ; : : : ; Xn )T minta
ismeretlen D > 0 szorasu es ismeretlen m varhato ertek}u normalis eloszlasu lesz, a # parameter
a varhato ertek (# = m).
0 = fm0 g ; 1 = fm 6= m0 g. Azaz most a nullhipotezis H0 : EP X = m0 , az alternatv
hipotezis pedig H1 : EP X 6= m0 . Azt akarjuk tehat eldonteni, hogy lehet-e a minta elmeleti
varhato erteke egy adott m0 ertek, vagy attol szigni kansan kulonboz}o. Ha a H0 hipotezis igaz,
akkor a mintaelemek N (m0 ; D) eloszlasuak, amib}ol kovetkezik, hogy a mintaaptlag-statiszti-
ka szinten normalis eloszlasu: X n 2 N (m0 ; pDn ). Standardizalas utan: X nD,m0 n 2 N (0; 1).
Az ismeretlen D szoras kikuszoboleset a Lukacs-tetel segtsegevel vegezzuk. Tudjuk, hogy
(n,1)sn 2 2 2 ; akar igaz a nullhipotezis, akar nem. Felhasznalva a Lukacs-tetel utani meg-
D2 n,1 p
jegyzest: t(X) = Xns,nm0 n 2 tn,1 :
Az n , 1 szabadsagfoku Student-eloszlas tablazatabol adott 0 < " < 1-hoz kiolvashato
olyan t" > 0 kritikus ertek, amellyel H0 fennallasa eseten P(jt(X)j < t") = 1 , " kell, hogy tel-
p
jesuljon. Igy a nullhipotezist aszerint fogadjuk vagy vetjuk el, hogy Xns,nm0 n < t" fennall-e
vagy sem az adott mintarealizacional. Mivel p1 ("; n; m0 ) = P(jt(X)j  t" ) = ", gy a t-proba
eseteben is " az els}ofaju hiba valoszn}usege.
52 3. FEJEZET Hipotezisvizsgalat

3.3.4. A ketmintas t-proba


Adottak az X = (X1 ; X2 ; : : : ; Xn )T es az Y = (Y1 ; Y2 ; : : : ; Yk )T egymastol fuggetlen statisztikai
mintak. Most csak olyan P valoszn}usegi mertekeket tekintunk, ahol a mintak peremeloszla-
sai D > 0 ismeretlen, de egyenl}o szorasu es ismeretlen m1 illetve m2 varhato ertek}u normalis
eloszlasuak. A ket mintahoz tartozo egyuttes s}ur}usegfuggveny:
!
1 exp , (x , m1 )2 , (y , m2 )2 :
fm1 ;m2 (x; y) = 2D 2 2D2 2D 2
Hipoteziseink: H0 : m1 = m2 ; H1 : m1 6= m2 : A feltetelek miatt a ket minta atlagsta-
tisztikajara: X n 2 N (m1 ; pDn ); Yk 2 N (m2 ; pDk ). Mivel a ket minta fuggetlen volt, gy a
q
kulonbsegukre: X n , Yk 2 N (m1 , m2 ; D n1 + k1 ). Ha feltesszuk, hogy a nullhipotezis igaz,
q
akkor X n , Yk 2 N (0; D n1 + k1 ) is fennall. Standardizalas utan: Xqn ,1 Yk1 2 N (0; 1):
D n+k
Ahhoz, hogy az ismeretlen D erteket kikuszobolhessuk, felhasznaljuk, hogy
(n,1)sX;n 2 (k,1)sY;k 2
D2 2 n,1; D2 2 2k,1, valamint azt, hogy az sX;n2; sY;k 2 ; Xn; Yk statisztikak
2
 2  2
a feltetelek es a Lukacs-tetel miatt fuggetlenek egymastol. El}oszor is (n,1)Ds2X;n + (k,1)Ds2Y;k 2
2n+k,2, akar igaz a nullhipotezis, akar nem. Masreszt, a Lukacs-tetel utan tett megjegyzes
ertelmeben, ha a H0 hipotezis igaz, akkor
Xqn ,Yk
q (n,1)sD 2 n + k(k,1)s 2
1 1
t2 (X; Y) = =
X;n + Y;k
D2 D2
r
=q Xn , Yk nk (n + k , 2) 2 t
n+k n+k,2:
(n , 1)sX;n 2 + (k , 1)sY;k 2
A fentiek alapjan, az n + k , 2 szabadsagfoku Student-eloszlas tablazatbol adott
0 < " < 1 terjedelemhez kiolvashato olyan t" > 0 kritikus ertek, amellyel H0 fennallasa ese-
ten P(jt2 (X; Y)j < t") = 1 , " kell, hogy teljesuljon. Igy a nullhipotezist aszerint fogadjuk
vagy vetjuk el, hogy jt2 (X; Y)j < t" fennall-e vagy sem az adott mintarealizacional. Mivel
p1("; n; m0 ) = P(jt2(X; Y)j  t") = "; gy a ketmintas t-proba eseteben is " az els}ofaju hiba
valoszn}usege.
Megjegyzes : Hangsulyozzuk, hogy a ketmintas t-proba csak akkor alkalmazhato, ha a ket
minta ismeretlen szorasait egyenl}onek tetelezzuk fel. (Kulonben nem tudtuk volna kikuszo-
bolni a t2 (X; Y) probastatisztikabol D-t!) A mintak szorasainak egyezeset az F-probaval
ellen}orizhetjuk, tehat ennek meg kell el}oznie a ketmintas t-probat.
Megmutathato, hogy ha X nX szabadsagfoku 2 -eloszlasu es Y t}ole fuggetlen k szabadsag-
foku 2 -eloszlasu, akkor a Z = Yn valoszn}usegi valtozo s}ur}usegfuggvenye
k
, 
, n+2 k k2 ,1
fZ (x) = ,(n),( , k+2 n
k) x (k + nx) ; x>0

lesz. Z eloszlasat n; k parameter}u F- (Fisher-) eloszlasnak nevezzuk, es Fn;k -val jeloljuk.
3.3 Parameteres pro bak 53

3.3.5. Az F-proba
Adottak az X = (X1 ; X2 ; : : : ; Xn )T es az Y = (Y1 ; Y2 ; : : : ; Yk )T egymastol fuggetlen statisztikai
mintak. Most csak olyan P valoszn}usegi mertekeket tekintunk, ahol a mintak peremeloszlasai
D1 > 0 illetve D2 > 0 ismeretlen szorasu es ismeretlen m1 illetve m2 varhato ertek}u normalis
eloszlasuak. A ket mintahoz tartozo egyuttes s}ur}usegfuggveny:
2 2
!
fm1 ;m2 (x; y) = 2D D exp , (x ,2Dm2 1) , (y ,2Dm22 ) :
1
1 2 1 2

Felalltott hipotezisek most a szorasok egyezesere, illetve szigni kans kulonbsegere vonatkoz-
nak: H0 : D1 = D2 ; H1 : D1 6= D2 : Ha2 feltesszuk, hogy a nullhipotezis igaz, akkor a
(n,1)sX;n (k,1)sY;k 2
Lukacs-tetel szerint igaz lesz, hogy D2 2 n,1 ; 2
D2 2 2k,1, ahol D1 = D2 = D.
A mintak fuggetlensege miatt a ket statisztika is fuggetlen lesz.
Mivel fuggetlen 2 eloszlasu valoszn}usegi valtozok hanyadosa F-eloszlasu:
, 
(n 1)sX;n 2
D2
n,1 sX;n2
, 
(k 1)sY;k 2
= s 2 2 Fn,1;k,1;
D2 Y;k
k,1
azaz a mintak korrigalt empirikus szorasnegyzeteinek hanyadosa n , 1; k , 1 szabadsagfoku
Fisher-eloszlast fog kovetni, ha a nullhipotezis igaz. Ezek alapjan a nullhipotezis eldontese-
re a kritikus tartomanyt ugy szerkeszthetjuk meg, hogy adott 0 < " < 1 terjedelemhez az
n , 1; k , 1 szabadsagfoku F-eloszlas tablazatabol kiolvasunk olyan 0 < K1 < K2 kritikus
ertekeket, amelyekre P(K1 < Fn,1;k,1 ) = 1 , 2" ; P(K2 < Fn,1;k,1 ) = 2" : Ha az adott min-
 2
tarealizacional K1 < ssX;n
Y;k 2 < K2 relacio teljesul, akkor a nullhipotezist elfogadjuk, ellenkez}o
esetben pedig elvetjuk. A proba els}ofaju hibajanak a valoszn}usege most is "; a masodfaju
hiba valoszn}usege az n es k mintaelemszamoktol, "-tol es a D1 , D2 kulonbsegt}ol fugg.
Megjegyzes :
1. Ha " < 0:33, n es k kett}onel nagyobb mintaelemszamok (ez gyakorlatilag mindig fenn-
all), akkor a 0 < K1 < K2 kritikus ertekekre mindig teljesul a K1 < 1 < K2 relacio.
Igy, ha sX;n2 ; sY;k 2 kozul a nagyobbikat rjuk a szamlaloba, a proba eldontesehez eleg
a probastatisztika erteket csupan K2 -vel osszehasonltani. Ha a szamtott ertek kisebb,
mint K2 , a nullhipotezist elfogadjuk. Ilyenkor az F-eloszlas tablazatabol egyetlen kriti-
kus ertek meghatarozasa elegseges, de ugyeljunk arra, hogy az els}o szabadsagfok mindig
abbol a mintaelemszambol kepz}odik, amelyhez tartozo korrigalt empirikus szorasnegyzet
statisztika a szamlaloban van!
2. Statisztikai elemzeseket napjainkban valamilyen statisztikai programrendszer segtsege-
vel szokas elvegezni. A programok egy proba eseten mindig azt a 0 < " < 1 els}ofaju
hibavaloszn}useget adjak meg eredmenyul, amelynel mar elfogadhato a nullhipotezis. Ha
tehat tul kozel van 0-hoz, akkor az azt jelenti, hogy a nullhipotezist el kell vetni. 0:01
nel kisebb els}ofaju hibavaloszn}useg mellett "nem illik" elfogadni H0 -t, mg 0:1 felett a
nullhipotezis fennallasa er}osnek mutatkozik. A ket szels}o ertek kozott a felhasznalo fe-
lel}ossege, hogy elfogadja, vagy elveti H0 -t, vagy esetleg ujabb mintavetelezessel b}ovti a
mintat (mintakat), majd megismetli a probat. A mintaelemszam novelesevel n}o a proba
ereje, tehat nagy n eseten kisebb " terjedelem mellett is elfogadhato a nullhipotezis.
54 3. FEJEZET Hipotezisvizsgalat

3.3.6. A Welch-proba
Ha az F-probat el kell vetnunk, nem alkalmazhato a ketmintas t-proba arra, hogy ellen[rizz-k
a ket minta varhato ertekeinek egyezeset. Erre az esetre dolgozta ki Welch az alabbi probat.
Adottak az X1 ; X2 ; : : : ; Xn es az Y1 ; Y2 ; : : : ; Yk egymastol fuggetlen statisztikai mintak. Most is
csak olyan P valoszn}usegi mertekeket tekintunk, ahol a mintak peremeloszlasai D1 > 0 illetve
D2 > 0 ismeretlen szorasu es ismeretlen m1 illetve m2 varhato ertek}u normalis eloszlasuak. A
ket mintahoz tartozo egyuttes s}ur}usegfuggveny:
2 2
!
fm1 ;m2 (x; y) = 2D D exp , (x ,2Dm2 1) , (y ,2Dm22 ) :
1
1 2 1 2
A hipotezisek ugyanazok mint a ketmintas t-probanal voltak: H0 : m 1 = m2 ; H1 : m1 6= m2 :
Megmutathato, hogy a nullhipotezis fennallasa eseten a Wn;k = r sX2 n ,Yks2 probastatisztika
X;n + Y;k
n k
kozelt}oleg Student-eloszlasu [f ] (egeszresz f ) szabadsagfokkal, ahol f1 = kc,21 + (1n,,c1 ) ; c =
2

s2Y;k
s2Y;k s2X;n . A kritikus erteket a Student-eloszl as tablazatabol kiolvasva donthetunk a szoka-
k
k + n
sos modon a nullhipotezisr}ol: elfogadjuk, ha az adott realizacioknal a jWn;k j szamtott ertek
kisebb lesz, mint a kritikus ertek. Ha n; k  40, akkor a centralis hatareloszlas-tetel alapjan
Wn;k  N (0; [f[]f,] 2 ), azaz akkor a normalis eloszlas tablazatabol is kiolvashatjuk a kritikus
erteket.

3.4. Nemparameteres probak


Ha az alapsokasag (a statisztikai minta) eloszlasat nem tekintjuk eleve ismertnek, azaz nem
tudjuk, hogy az egy adott parameteres eloszlascsalad eleme, akkor nemparameteres probakrol
beszelunk. Ilyenkor tehat az el}ozetes felteveseink nagyon altalanosak, de termeszetesek; pl.
feltesszuk, hogy a minta eloszlasa folytonos, vagy feltesszuk, hogy a szoras veges, stb. Nyil-
vanvalo, mivel kevesebb feltetelt kovetelunk meg kiindulaskor (a priori feltevesek), a kovet-
kezteteseink levonasahoz nagyobb elemszamu mintakra lesz szuksegunk, mint a parameteres
probak eseten.
3.4.1. 2 -probak
Az ismertetend}o probak mindegyike az alabbi alaptetelen alapszik. Ehhez el}okeszteskeppen
hivatkoznunk kell a polinomialis eloszlas de nciojara es a valoszn}usegi vektor karakterisztikus
fuggvenyenek de nciojara. Ezek alapjan a V 2 Pol(n; p1 ; p2 ; : : : ; pr ) valoszn}usegi vektorval-
tozo karakterisztikus fuggvenye:
X n!
r
P
k1 pk2    pkr ei j=1 kj tj =
'V (t1; t2 ; : : : ; tr ) = EeiVT t = p
k1 !k2 ! : : : kr ! 1 2 r
8k1;k2 ;:::;kr
k1 +k2 +:::+kr =n
, 
= p1 eit1 + p2 eit2 +    + pr eitr n :
3.4.1. tetel: Ha V = (V1 ; V2; : : : ; Vr )T r egy n; p1; p2 ; : : : ; pr parameter}u polinomialis el-
P e 2 (n ! 1):
oszlasu valoszn}usegi vektorvaltozo, akkor (Vi ,npnpi i) ,!
2
r,1
i=1
3.4 Nemparameteres pro bak 55

Bizonytas : A bizonytas a Helly-tetelen alapul. Azt fogjuk megmutatni, hogy (Vi ,npnpi i)
Pr 2

i=1
karakterisztikus fuggvenyeinek sorozata egyenletesen konvergal 2r,1 karakterisztikus fuggve-
nyehez, vagyis r , 1 teljesen fuggetlen standard normalis eloszlas negyzetosszegenek karakte-
risztikus fuggvenyehez.
El}oszor kiszamtjuk a V~i = (Vpi ,npnpi i ) standardizaltak karakterisztikus fuggvenyet.
r
,i P pnpj tj  
'V~ (t1 ; t2 ; : : : ; tr ) = e j =1 1 ; t2 ; : : : ; tr
'V ptnp p pnpr =
1 np2
0 r !1n
@1 + X pj
r
,i P pnpj tj i ptnp
j
=e j =1 e j ,1 A
j =1
Felhasznalva az ex = 1 + x + x2 + O(x3 ); ln(1 + x) = x , x22
2
+ O(x3 ) (x 2 [,1; 1])
i ptj t2j
McLaurin-sorfejteseket: e npj , 1 = pitnpj j , 2np j + O ( n, 23 ); es gy
0 1
p X r X r X r
ln 'V~ (t) = ,i n ppj tj + n ln @1 + pin ppj tj , 21n t2j + O(n, )A =
3
2
j =1 j =1 j =1
0r 12
p X r X r X r X
= ,i n ppj tj + n pin ppj tj , 21 t2j + 12 @ ppj tj A + O(n, ) =
1
2
j =1 j =1 j =1 j =1
0 1 2
1 X r
1 X r
p
= , 2 tj + 2 @2 pj tj A + O(n, ): 1
2

j =1 j =1
!2
A fentiek alapjan lim ln ' (t) = , 1 P
r
t2 + 1 P
r p
pt :
n!1 V~ 2
j =1
j 2
j =1
jj
A Schmidt-fele ortogonalizalasi eljarassal megadhato olyan r-edrend}u ortonormalt matrix,
melynek utolso sora a pp1 ; pp2 ; : : : ; ppr elemekb}ol all:
0 1
11 12    1r
B 21 22    2r C
,=B
B@ ... ... . . . ... C
C
A ; ,T , = ,,T = E r :
pp1 pp2    ppr
~ transzformaltat. Nyilvan:
Tekintsuk ezek utan a Z = ,V
ZT Z = V~ T ,T ,V~ = V~ T E V~ = V~ T V~
es
X
r
p
Zr = pj V~j :
j =1
Tovabba, ha
0r 12
X
r X
r X
r
p X
r,1 X
r X p
u = ,t =) u2j = t2j ; ur = pj tj =) u2j = t2j , @ pj tj A :
j =1 j =1 j =1 j =1 j =1 j =1
56 3. FEJEZET Hipotezisvizsgalat

Tehat ln 'V~ (t) = ln 'Z (, t) = ln 'Z ( u): Ezert


0r 0r 12 1
1 @X @X p A A 1 X
r,1
lim ln 'V~ (t) = ,
n!1
2
tj +
2 j =1 pj tj =, !1 ln 'Z (u):
u2j = nlim 2 j =1
j =1
Tehat rP,1
, 21 uj
lim ' (u) = e
n!1 Z
j =1 ;

vagyis Z 2 Rr karakterisztikus fuggvenye r , 1 darab teljesen fuggetlen standard normalis


eloszlasu valoszn}usegi valtozo karakterisztikus fuggvenyehez konvergal egyenletesen. Ebb}ol
mar egyenesen kovetkezik, hogy akkor V ~ T V~ = ZT Z = Pr Zj2 karakterisztikus fuggvenye r , 1
j =1
darab teljesen fuggetlen standard normalis eloszlasu valoszn}usegi valtozo negyzetosszegenek
karakterisztikus fuggvenyehez konvergal egyenletesen, ami pedig az r , 1 szabadsagfoku 2
eloszlas!

Tiszta illeszkedesvizsgalat
Adott az X1 ; X2 ; : : : ; Xn statisztikai minta. Ellen}orizni akarjuk azt a feltevest, hogy a minta
eloszlasfuggvenye eppen az F0 (x), az osszes szobajohet}o eloszlasfuggveny kozott. F0 (x)-nek
nincsenek ismeretlen parameterei, egy bizonyos, konkret eloszlasfuggveny. A nullhipotezisunk
most H0 : P(X < x)  F0 (x); mg az alternatv hipotezis H1 : P(X < x) 6 F0 (x). Vagyuk
a szamegyenesnek egy tetsz}oleges r diszjunkt intervallumbol allo felosztasat. Legyen ,1 <
x1 < x2 <    < xr,1 < 1; Ik = [xk,1 ; xk ) ; (k = 1; 2; : : : ; r); x0 = ,1 ; xr = +1. Ha
H0 igaz, akkor pk = P(X 2 Ik ) = F0 (xk ) , F0 (xk,1):
Jelolje V azt a gyakorisagot, ahany mintaelemre teljesult az X 2 I relacio, azaz V =
Pn I (X 2 I k). Ha osszevetjuk ezt a polinomialis eloszlas de nciojajval lak thatjuk, hogy Vk =
i k
i=1
(V1 ; V2 ; : : : ; Vr )T egy n; p1 ; p2 ; : : : ; pr parameter}u polinomialis eloszlasu valoszn}usegi vektor-
Pr
valtozo lesz! De ekkor a 3.4.1. tetelt alkalmazva, (Vi ,npnpi i) !e 2r,1 (n ! 1): Vagyis, ha
2

i=1
Pr
nagy a mintaelemszam, a Tn = (Vi ,npnpi i )
2
=
P
r V
i , n statisztika a nullhipotezis fenn
2
allasa
i=1 i=1 npi
eseten kozelt}oleg r , 1 szabadsagfoku 2
 -eloszlast kovet.
Erre alapozhatjuk a dontesi elja-
rasunkat. Adott 0 < " < 1 terjedelemhez meghatarozunk olyan K" kritikus erteket, amellyel
P(2r,1 < K") = 1 , ". Ezek utan, ha az adott statisztikai minta realizaciojanal teljesul a
Tn < K" relacio, a nullhipotezist elfogadjuk, ellenkez}o esetben pedig elvetjuk. Az els}ofaju
hibavaloszn}useg most csak aszimptotikusan lesz ":
Megjegyzes :
1. Alkalmazasokban az x1 < x2 <    < xr,1 osztopontokat ugy celszer}u megvalasztani,
hogy a realizalodott mintanal Vi  10 es pi  1r legyen minden i-re.
2. Ha r  30, akkor a 2 -eloszlas tablazat helyett a norm
p alis eloszlas tablazatat is hasznal-
hatjuk, mert ilyenkor mar Tn  2r,1  N (r , 1; 2r , 2):
3. Ha a statisztikai minta diszkret eloszlasu, akkor az intervallumok helyett a minta er-
tekkeszletenek diszjunkt felbontasat vesszuk. Pneldaul, ha a k-adik partciot az Ik =
fz1; z2 ; : : : ; znk g szamhalmaz jelenti, akkor pk = P P(X = zi ).
k
i=1
3.4 Nemparameteres pro bak 57

Becsleses illeszkedesvizsgalat
Adott az X1 ; X2 ; : : : ; Xn statisztikai minta. Ellen}orizni akarjuk azt a feltevest, hogy a min-
ta eloszlasfuggvenye F# (x) alaku, az osszes szobajohet}o eloszlasfuggveny kozott. F# (x) egy
k-parameteres eloszlascsalad eleme. A nullhipotezisunk most
H0 : 9# 2 Rk : P(X < x)  F# (x);
mg az alternatv hipotezis
H1 : @# 2 Rk : P(X < x)  F# (x):
A proba vegrehajtasa nagyon hasonlt az el}oz}o esetre, csak el}oszor venni kell a # parameter-
vektor tn konzisztens becsleset, majd az adott mintarealizacional kapott # = tn becslessel
kepezzuk az F0 (x) = F# (x) eloszlasfuggvenyt, ami mar konkret, hiszen ismeretlen paramete-
reket mar nem tartalmaz. Ezutan vegrehajtva mindazt, amit a tiszta illeszkedesvizsgalatnal
lertunk, kiszamoljuk a Tn pre
obastatisztikat. A kulonbseg csak ott jelentkezik, hogy most az
mutathato meg, hogy Tn ! 2r,1,k , ahol k a becsult parameterek szama. Ezek alapjan a
dontesi algoritmus az el}oz}oekhez hasonloan tortenik.
Fuggetlensegvizsgalat
Legyen (X1 ; Y1 )T ; (X2 ; Y2 )T ; : : : ; (Xn ; Yn )T n elemszamu ketdimenzios statisztikai minta. El-
len}orizni akarjuk, hogy a minta komponensei fuggetlenek-e egymastol, vagy pedig szigni kans
sztochasztikus osszefugges tapasztalhato-e kozottuk:
H0 : P(Xi < x; Yi < y) = P(Xi < x)P(Yi < y) 8x ; y ;
H1 : P(Xi < x; Yi < y) 6 P(Xi < x)P(Yi < y):
Legyen ,1 < x1 < x2 <    < xr,1 < 1; Ik = [xk,1; xk ) ; (k = 1; 2; : : : ; r) ; x0 =
,1 ; xr = +1 es ,1 < y1 < y2 <    < ys,1 < 1 ; Jk = [yk,1; yk ) ; (k =
1; 2; : : : ; s) ; y0 = ,1 ; ys = +1 ket kulonboz}o partciora bontasa R-nek. Azert kell
ket kulonboz}o felosztast tekintenunk, mert a ket minta ertekei maskeppen oszolhatnak el a
szamegyenesen; az els}o felosztas az els}o komponens ertekkeszletet, a masodik partcio a ma-
sodik komponens ertekkeszletet fedi le.
Jelolje: Vij azon mintaelemek szamat, ahol (Xk ; Yk )T 2 Ii  Jj teljesul,
X
s X
n X
r X
n
Vi = Vij = I (Xk 2 Ii ); Vj = Vij = I (Yk 2 Jj ):
j =1 k=1 i=1 k=1
Ps
A pij = P(Xk 2 Ii ; Yk 2 Jj ); pi = P(Xk 2 Ii ) = pij ; pj = P(Yk 2 Jj ) = pij valoszn}u-
Pr
j =1 i=1
segek most nem ismertek, de azokat a relatv gyakorisagok segtsegevel becsulni lehet:
Xs Xr
p  p^ = 1 V = 1 V ; p  p^ = 1 V = 1 V :
i i n i n j=1 ij j j n j n i=1 ij

A becslesek szama r , 1 illetve s , 1, mivel eloszlasokrol van szo, es gy


Pr p Ps p
i = j = 1;
i=1 j =1
rP
,1 sP
,1
vagyis pr = 1 , pi es ps = 1 , pj , azaz az eloszlas utolso elemei mar a tobbi becslesb}ol
i=1 j =1
szamolhatok.
58 3. FEJEZET Hipotezisvizsgalat

Most tehat becsleses illeszkedesvizsgalatot kell vegrehajtani, ahol a becsult parameterek


szama: r , 1+ s , 1 = r + s , 2: A Tn =
Pr Ps (Vij ,n p^ip^j )2 = n Pr Ps Vij2 , n probastatisztika
i=1 j =1 n p^i p^j i=1 j =1 Vi Vj
eloszlasa aszimptotikusan rs , 1 , (r + s , 2) = (r , 1)(s , 1) szabadsagfoku 2 -eloszlasu lesz.
A nullhipotezis eldontesehez tablazatbol meg kell hataroznunk olyan K" kritikus erteket,
amelyre P(2(r,1)(s,1) < K" ) = 1 , " teljesul. Ha a Tn szamtott erteke kisebb mint a K"
kritikus ertek, a nullhipotezist az 1- " szigni kancia szinten elfogadjuk, ellenkez}o esetben az
alternatv hipotezist tartjuk igaznak, azaz a komponensek kozott szigni kans osszefuggest
regisztralunk.
Homogenitasvizsgalat
A homogenitasvizsgalat annak a kerdesnek az eldontesere szolgal, hogy ket valoszn}usegi val-
tozo azonos eloszlasu-e, azaz ugyanaz a fuggveny-e az eloszlasfuggvenyuk, vagy sem. Adottak
az X1 ; X2 ; : : : ; Xn es az Y1 ; Y2 ; : : : ; Ym statisztikai mintak, amelyek egymastol is fuggetlenek.
Eldontend}o, hogy:
H0 : P(X < x)  P(Y < x) vagy H1 : P(X < x) 6 P(Y < x):
Tekintsuk most a
,1 < x1 < x2 <    < xr,1 < 1; Ik = [xk,1; xk ) ; (k = 1; 2; : : : ; r) ; x0 = ,1 ; xr = +1
felosztast. A ket minta ellenere eleg most egyetlen intervallumrendszer, hiszen a homogenitas
fennallasa eseten ugyanaz a ket valtozo ertekkeszlete. A mintak es a felosztas segtsegevel
Pn Pn
de nialjuk a Vk = I (Xi 2 Ik ); Uk = I (Yi 2 Ik ) (k = 1; 2; : : : ; r) gyakorisagokat. A
i=1 i=1
nullhipotezis fennallasa eseten a ket minta egyestese is statisztikai minta.
Pr
Nyilvanvaloan: Vi = n; Ui = m.
Pr
i=1 i=1
H0 atfogalmazhato ugy, hogy az egy az 1; 2; : : : ; r ertekeket pi hibavaloszn}useggel felvev}o
valoszn}usegi valtozo illeszkedesere vonatkozzek, amelyhez n + m elemszamu meg gyelessoro-
zat tartozik. A pi ertekeket nem ismerjuk, de a mintakbol a relatv gyakorisagokkal becsulni
tudjuk: pi  p^i = Vni++mUi : O sszesen r , 1 becslest alkalmazunk, mivel az r-edik eloszlaselem a
tobbib}ol szamolhato. Tehat megint becsleses illeszkedesvizsgalatrol van szo. A tiszta illeszke-
Pr Pr
desvizsgalatnal elmondottak szerint a Tn = (Vi ,npnpi i) es a Tm = (Ui ,mpmpi i ) statisztikak
2 2

i=1 i=1
aszimptotikusan r , 1 szabadsagfoku 2 -eloszlast kovetnek, eha H0 igaz. Az osszeguk viszont
akkor 2r , 2 szabadsagfoku 2 -eloszlasu lesz: Tn + Tm ! 22r,1 . Az osszesen r , 1 db
parameterbecsles miatt azonban, ahogy arra a becsleses illeszkedesvizsgalatnal utaltunk, a
szabadsagfokot r , 1-gyel csokkenteni kell:
 2  2
X
r
(Vi , np^i)2 X
r
p^i)2 X
r Vi , n n+mV i + Ui X Ui , m n+m
r V i +U i

np^i + (Ui ,mpm


^i = V + U + Vi +Ui =
i=1 i=1 i=1 n n
i i
+ m i=1 m n +m
 Vi Ui 2
X r n ,m
= nm V + U !e 2r,1:
i=1 i i
A H0 hipotezis eldontesehez, tehat az r , 1 szabads , agfoku 2 -eloszl
 as tablazatbol megha-
tarozzuk azt a K" kritikus erteket, amelyre 1 , " = P r,1 < K" teljesul. Ezek utan a H0 -t
2

elfogadjuk, ha az adott realizalodott mintanal nm


Pr Vni , Umi 2
< K" teljesul.
i=1 Vi +Ui
3.4 Nemparameteres pro bak 59

3.4.2. Kolmogorov{Szmirnov-probak
A 2 -probaknak az a hatranya, hogy csak nagy elemszamu mintak eseten hasznalhatok, ami a
mintavetelezes koltsegeit noveli. Masreszt nincs egyertelm}u szabaly a csoportok kialaktasara,
gy a szamtogepes megvalostas is nehezkesebb. A rendezett mintakon alapulo Kolmogorov{
Szmirnov-probak kikuszobolik az emltett hatranyokat. Miutan itt a konvergencia sebessege
nagyobb, kisebb mintaelemszam is elegseges a proba sikeres vegrehajtasahoz. (A mintak ren-
dezese ugyanis plusz informaciot jelent).
Az egymintas Kolmogorov{Szmirnov-proba illeszkedesvizsgalatra az alabbi tetelen alap-
szik:
3.4.2. tetel: Legyen X1 ; X2 ; : : : ; Xn ; : : : statisztikai minta, melynek eloszlasfuggvenye F0(x)
abszolut folytonos. Jelolje
8 0; x  X 
< 1
Fn (x) = : nk ; Xk < x  Xk+1 (k = 1; 2; : : : ; n , 1)
1; x > Xn
az empirikus
p eloszlasfuggvenyt, ahol X1  X2  : : :  Xn a rendezett minta, es legyen
Dn = n sup jFn (x) , F0 (x)j : Ekkor
x2R
 K (y); y > 0
lim P(Dn < y) = 0;
n!1 y0 ;
ahol K (y) =
P
1
(,1)i e,2i2 y2 ; y > 0 a Kolmogorov-eloszlasfuggveny, azaz a Dn statisztika
i=,1
eloszlasa n ! 1 esetben az un. Kolmogorov-eloszlast adja.
Bizonytas : A tetelt nem bizonytjuk.
Megjegyzes :
1. Figyeljuk meg, hogy K (y) nem fugg az F0 (x) eloszlasfuggvenyt}ol.
2. Mivel Fn (x) mindig lepcs}os fuggveny, ezert eleg csak az ugrashelyeken vett kulonbsegek
maximumat venni:
p p
Dn = n sup jFn (x) , F0 (x)j = n i=1max jF (X  ) , F0 (Xi )j :
x2R ;2;:::;n n i
3. A Kolmogorov-eloszlasfuggvenyre vonatkozo tablazat:
K (x" ) x"
0:9 1:23
0:95 1:36
0:99 1:63
0:999 1:96
A tetel segtsegevel proba szerkeszthet}o egy adott mintanak a hipotetikus F0 (x) eloszlas-
fuggvenyhez valo illeszkedesere.
H0 : P(Xi < x)  F0 (x) es H1 : P(Xi < x) 6 F0 (x):
Legyen most 0 < " < 1. A nullhipotezist akkor fogadjuk el 1 , " szigni kancia szinten, ha
Dn < x" teljesul, ahol K (x") = 1 , ":
A ketmintas Kolmogorov{Szmirnov-fele proba homogenitasvizsgalatra pedig az alabbi te-
telen alapszik.
60 3. FEJEZET Hipotezisvizsgalat

3.4.3. tetel: (Kolmogorov)


Legyen az X1 ; X2 ; : : : ; Xn ; : : : statisztikai minta, melynek eloszlasfuggvenye F (x); es
Y1; Y2 ; : : : ; Ym ; : : : az el}oz}ot}ol fuggetlen masik statisztikai minta, melynek eloszlasfuggvenye
G(x): F es G abszolut folytonosak. Jelolje Fn (x) es Gm (x) a ket mintahoz tartozo empirikus
eloszlasfuggvenyet. q
Ha F (x)  G(x); akkor a Dn;m = nnm +m sup jFn(x) , Gm(x)j statisztika eloszlasban a
x2R
Kolmogorov-eloszlashoz tart, azaz
 K (y); y > 0
lim P(Dn;m < y) = 0;
n;m!1 y0 :
Bizonytas : A tetelt nem
q nmbizonytjuk. q
Megjegyzes : Dn;m = n+m sup jFn (x) , Gm (x)j = nnm + m i =1 ;
max
2 ;:::;n +m
jFn(Zi ) , Gm(Zi )j,
x2R
ahol Z1  Z2      Zn+m a ket minta egyestesevel kapott minta rendezettje. A szupremum
meghatarozasat, most is visszavezettuk maximum meghatarozasara.
Ezt a probat homogenitasvizsgalatra hasznalhatjuk, azaz annak eldontesere, hogy a ket
valtozo azonos eloszlasu-e. A nullhipotezisunk az, hogy a ket minta eloszlasfuggvenye azonos,
az alternatv hipotezis ennek a tagadasa:
H0 : F (x)  G(x) es H1 : F (x) 6 G(x):
A hipotezis eldontese: tetsz}oleges 0 < " < 1 -hez adhato olyan x" kritikus ertek, hogy
K (x" ) = 1 , " legyen. Ha a Dn;m < x" , akkor a nullhipotezist az adott szigni kancia szinten
elfogadjuk.
Az alabbi tetel segtsegevel meg tovabb lehet a mintaelemszamot csokkenteni.
3.4.4. tetel: (Gnyegyenko{Koroljuk)
Legyen a X1 ; X2 ; : : : ; Xn ; : : : statisztikai minta, melynek eloszlasfuggvenye F (x), es
Y1; Y2 ; : : : ; Yn ; : : : az el}oz}ot}ol fuggetlen masik statisztikai minta, melynek eloszlasfuggvenye
G(x). F es G abszolut folytonosak. Jelolje Fn (x) es Gn(x) a ket mintahoz tartozo empirikus
eloszlasfuggvenyet. Tegyuk fel, hogy F (x)  G(x).
Ekkor 8
r n  >< 0; y 1 p12n p n
P 2 sup jFn (x) , Gn(x)j < y = > L(y); p p2n < y  2 ;
x2R : 1; n <y
2
ahol
1
[ n2 ]
X  2n  hp i
L(y) =   k
(,1) n , kc ; c = y 2n + 1:
2n k=, n
n [2]

Bizonytas : A tetelt nem bizonytjuk.


Megjegyzes : A tetel nem hatareloszlastetel ezuttal, hanem pontos eloszlast szamol ki. Ezert
lehet kis minta eseten is alkalmazni. Az L(y) eloszlasfuggveny segtsegevel a H0 : F (x)  G(x)
nullhipotezisre a szokasos modon proba szerkeszthet}o.
4. fejezet

Regresszioanalzis
4.1. Veletlen meg gyeles
A feladat ket, er}os sztochasztikus osszefuggest mutato X es Y valoszn}usegi valtozo kozotti
fuggvenykapcsolat jellegenek, es parametereinek feltarasa. Y fogja jelolni a celvaltozot, es X
a meg gyelest, a fuggetlen valtozot. Feladat olyan f fuggveny megadasa, ahol Y  f (X ):
Elmeletileg a feladat megoldott, hiszen ha a ket valtozo egyuttes eloszlasa ismert, akkor meg-
hatarozhato a felteteles varhato ertek (regresszio), amely a legjobb kapcsolatot adja meg abban
az ertelemben, hogy minimalizalja a negyzetes elteres varhato erteket:
E(Y , E(Y jX ))2 = min 8f
E(Y , f (X ))2 :
Gyakorlati problemaknal azonban az egyuttes eloszlas altalaban nem ismert, tehat a felte-
teles varhato ertek szamtasa sem lehetseges. A fuggvenykapcsolatot a ket valtozora vonatkozo
(X1 ; Y1 )T ; (X2 ; Y2 )T ; : : : ; (Xn ; Yn )T statisztikai minta alapjan kell meghatarozni. A regresszi-
oanalzis vegrehajtasanak csak akkor van ertelme, ha kimutathato X es Y kozott a sztochasz-
tikus osszefugges (pl. el kellett vetni a nullhipotezist fuggetlensegvizsgalatnal, vagy a minta
empirikus korrelacios egyutthatoja kozel van 1-hez). A regresszioanalzis tipikus modszere az,
hogy egy jol korulrt tobbparameteres fuggvenyhalmazbol hatarozunk meg egy bizonyos fugg-
venyt ugy, hogy annak parametereit a minta segtsegevel megbecsuljuk. Legyen adott tehat
az F = ff g fuggvenyosztaly. Meghatarozando az az f  2 F fuggveny, ahol
E(Y , f (X ))2 = 8min f 2F
E(Y , f (X ))2 :
F -et legtobbszor a mintarealizacionak a koordinatarendszerben valo abrazolasaval kapott szo-
rodasgra kon alapjan lehet megvalasztani, de az a valtozok zikai tartalmabol fakado "elvart"
tpusu fuggvenyek halmaza is lehet.
Ismeretes, hogy a ket valtozo egyuttes normalis eloszlasa eseten, az elmeleti regresszio,
az E(Y j X = x) linearis. Mivel az egyuttes normalis eloszlas gyakran jelentkezik, alapvet}o
fontossagu a regresszioszamtasnak az a specialis esete, amikor F a linearis fuggvenyek hal-
maza. A linearis osszefugges megadasa azert is fontos, mert a kapott osszefuggest konny}u
magyarazni, interpretalni.
4.1.1. Linearis regresszio ket valtozo kozott
4.1.1. de ncio: Legyen X es Y ket adott valoszn}usegi valtozo. Az a X + b valoszn}u-
segi valtozo az Y -nak az X -re vonatkozo linearis regresszioja, ha
E(Y , a X , b )2 = 8mina;b2R
E(Y , aX , b)2 :
61
62 4. FEJEZET Regresszio analzis

a a regresszios meredekseg, b a regresszios konstans.


4.1.1. tetel: a = R(X; Y ) XY ; b = EY , R(X; Y ) XY EX , ahol R(X; Y ) a ket valtozo
korrelacios egyutthatojat jeloli.
Bizonytas : Legyen h(a; b) = E(Y , aX , b)2 : A linearis regresszio meghatarozasahoz ezt
a ketvaltozos fuggvenyt kell minimalizalni. A minimumhely letezesenek szukseges feltetele,
hogy: @h@a = ,2E [(Y , aX , b)X ] = 0; @b = ,2E [Y , aX , b] = 0: Innen: aEX 2 + bEX =
@h
EXY ; aEX + b = EY =) b = EY , aEX =) aEX + (EY , aEX )EX = EXY
2
=) a = R(X; Y ) XY ; b = EY , R(X; Y ) XY EX; EEXX E1X pozitv de nit, tehat
2

a ; b valoban minimumhely, es ez volt az alltas.

Megjegyzes : Normalis esetben a linearis regresszios es a regresszios osszefuggesek egybees-


nek.
A gyakorlatban altalaban nem ismertek az X es Y valtozok momentumai, ezert az elmeleti
linearis regresszios osszefugges nem hatarozhato meg. Az (X1 ; Y1 )T ; (X2 ; Y2 )T ; : : : ; (Xn ; Yn )T
statisztikai minta alapjan a legkisebb negyzetek modszerevel lehet az egyenes parametereit
megbecsulni.
4.1.2. de ncio: Adott az (X1 ; Y1)T ; (X2 ; Y2 )T ; : : : ; (Xn ; Yn)T statisztikai minta es az F =
ff (x; a1 ; a2 ; : : : ; ak )g k-parameteres fuggvenyosztaly. A
X
n
min (Y , f (Xi ; a1 ; a2 ; : : : ; ak ))2
8a1 ;a2 ;:::;ak i=1 i
szels}oertek-feladat megoldasabol kapott ai = ai (X; Y) (i = 1; 2; : : : ; n) statisztikakat, a
min E(Y , f  (X ))2 regresszios problema parametereinek legkisebb negyzetek modszerevel ka-
8f 2F
pott becsleseinek nevezzuk.
4.1.2. tetel: Linearis regresszio eseten a legkisebb negyzetek modszerevel az egyenes pa-
rametereinek becslesei:
a = R^ n sY ; b = Yn , R^ n sY X n ;
sX sX
ahol
Pn (Y , Y )(X , X )
i n i n
R^ n = s ni=1
P (Y , Y )2 Pn (X , X )2
i n i n
i=1 i=1
az empirikus korrelacios egyutthato,
v
u
u Xn
sY = t 1 (Yi , Yn)2 ;
n i=1
v
u
u Xn
sX = t 1 (Xi , X n )2
n i=1
az empirikus szorasok, es X n ; Yn az atlagstatisztikak.
4.1 Veletlen megfigyeles 63

Bizonytas : A tetel alltasa konnyen belathato, ha a 4.1.1. tetel bizonytasat megismeteljuk


Pn
a h(a; b) = (Yi , aXi , b)2 ketvaltozos fuggvennyel.
i=1

Megjegyzes :
1. Lathato, hogy az empirikus linearis regresszio egyutthatoi az elmeleti regresszios egye-
nes egyutthatoitol annyiban kulonboznek, hogy a kepletekben az elmeleti momentumok
helyett a mintabol szamolt megfelel}o empirikus momentumok allnak.
2. Ha X es Y egyuttes eloszlasa normalis, akkor az elmeleti regresszi p a meredekse-
os egyenes
gere kon denciaintervallum szerkeszthet}o, mivel ilyenkor az sY ap ,1,a R^2 n , 2 statisztika
sX n
n , 2 szabadsagfoku Student-eloszlast kovet.
3. A normalis esetben a korrellalatlansag es a fuggetlenseg azonos tulajdonsagok. Tehat,
ha X es Y korrelacios egyutthatoja 0; akkor a = 0, azaz
a p ^ p
q n , 2 = q Rn n , 2 2 tn,2 :
sY 1 , R^ 2 1 , ^
R 2
s X n n
A fuggetlenseget megfogalmazo nullhipotezisr}ol tehat ilyenkor t-probaval donthetunk.
4.1.2. Polinomialis regresszio
4.1.3. de ncio: Amikor az F = fpn(x) = a0 + a1x +    + am xm g fuggvenyosztaly a leg-
feljebb m-edrend}u polinomosztaly, a 8min
f 2F
E(Y , f (X ))2 minimumfeladat megoldasat polino-
mialis regresszios illesztesnek nevezzuk.
4.1.3. tetel: Az elmeleti polinomialis regresszios gorbe egyutthatoit az
0 1 EX    EX m 1 0 a0 1 0 EY 1
BB EX EX 2    EX m+1 C CB B a1 C C B B EY X 2 C C
BB ... . . . C
C B
B .. C
. C
B
B .. C
C
BB EX i EX..i+1  . . EX..m+i C
C B
B ai C
C = B
B E Y
.
Xi
C
C
BB . C
C B C B C
@ .. ..
. ... ..
.
B
A@ . C.
. A B
@ ... C
A
EX m EX m+1    EX 2m am EY X m
linearis egyenletrendszer megoldasaval kaphatjuk meg. Ennek mindig van megoldasa, hiszen
az egyutthatomatrix szimmetrikus es pozitv szemide nit.
Bizonytas : A feladatot a
h(a0 ; a1 ; : : : ; am ) = E(Y , (a0 + a1 X +    + am X m ))2
m + 1 valtozos fuggveny minimumhelyenek megkeresesevel oldhatjuk meg:
@h(a0 ; a1 ; : : : ; am ) = ,2E([Y , (a + a X +    + a X m )] X i ) = 0 (i = 0; 1; 2; : : : ; m) =)
@ai 0 1 m

=)
Pm a EX i+j = EY X i =) kovetkezik az alltas.
j
j =0
64 4. FEJEZET Regresszio analzis

A tapasztalati polinomialis gorbe egyutthatoinak meghatarozasat az


(X1 ; Y1 )T ; (X2 ; Y2 )T ; : : : ; (Xn ; Yn )T statisztikai minta segtsegevel az
0 P
n P n 1 0 1 Pn 1
BB 1
1
n j =1 Xj  1 m
n j =1 Xj C B Y
n j =1 j C
BB 1 Pn Xj P P C 0a 1 B C
C B 1 P Yj Xj C
n n m+1 n
BB n j=1
1 2
n j =1 Xj  1
n j =1 Xj C
C B 0 B C
1 C B C
a n j =1
BB ... .. ... ..
C
C B
B .
C
C B
B .
C
C
BB Pn . . C
C B
B . C
.
C =
B
B .
. C
C
BB n1 Xji P
1 n X i+1 P
1 n X i+m C
C B
B ai CC B
B 1 P Y Xi C
n
 C B n j =1 j j C
BB j=1. n j =1 j
..
n j =1 j
..
C
C @ . C
.
. A B
B
B ..
C
C
C
BB .. ... C
C a B
B C
@ 1 Pn Y X m C
. . .
@ 1 Pn X m 1 P m+1
n
 1 P 2m
n A m A
n j =1 j n j =1 Xj n j =1 Xj n j =1 j j
linearis egyenletrendszer megoldasabol kapjuk. Ehhez ugy jutunk el, hogy a
^h(a ; a ; : : : ; a ) = 1 X(Y , (a + a X +    + a X m ))2
n
0 1 m n j =1 j 0 1 j m j

fuggveny minimumhelyet meghatarozzuk, hasonloan, mint ahogy azt az 4.1.3 tetelben tettuk.
Megjegyzes : Nyilvanvaloan az n mintaelemszamnak joval nagyobbnak kell lennie, mint az
m-nek, az illesztend}o polinom fokanak.
4.1.3. Linearisra visszvezethet}o ketparameteres regresszios osszefuggesek
keresese
Ha a linearis regresszio feltetelei valahol serulnek, vagy rossz illesztest kapunk, a fugg}o es
a fuggetlen valtozok transzformaciojaval kell megprobalkozni. A transzformalt input adato-
kon azutan mar linearis regresszios elemzest hajtunk vegre, de ez az eredeti adatoknal mar
nem linearis osszefuggest fog magyarazni. Az inverz lekepezes es a regresszios egyutthatok
segtsegevel kepezhet}ok azok a parameterek, amelyekkel a kapcsolatot lero fuggveny felrhato.
Tehat, ha az F = ff (x; a; b)g fuggvenyosztaly ketparameteres, es talalhatok olyan g; h; k1 ; k2
fuggvenyek, hogy y = f (x; a; b) () g(y) = k1 (a; b)h(x) + k2 (a; b) teljesul.
Ezutan a 8minf 2F
E(Y , f (X ; a; b))2 feladat helyett a
E(g(Y ) , k1 h(X ) , k2 )2 = 8min
k1;k2
E(g(Y ) , k1 h(X ) , k2 )2
linearis regresszios feladatot oldjuk meg. Vegul a  k1,1 (k1 ; k2 ) ; b  k2,1 (k1 ; k2 ): A ltalaban
mas eredmenyeket kapunk, mintha az eredeti fuggvenyen hajtottuk volna vegre a legkisebb
negyzetek modszerevel a parameterbecslest. Viszont az eredeti problemanal, nem biztos, hogy
a kapott (sokszor transzcendens) egyenletet meg tudnank oldani. A tovabbiakban megadunk
nehany peldat nemlinearis kapcsolatnak a linearis regresszio segtsegevel valo megadasara.
y = f (x; a; b) = aebx exponencialis fuggvenykapcsolat:
Az egyenlet ket oldalat logaritmizalva mar linearis osszefuggest kapunk ln y es x kozott: y =
ln y = bx + ln a = k1 x + k2 . Ilyenkor az ((X1 ; ln Y1 ) ; (X2 ; ln Y2 ) ; : : : ; (Xn ; ln Yn )) transzfor-
malt mintara illesztunk egyenest. A kapott k1 es k2 egyutthatokbol az a = ek2 es b = k1
transzformacioval kapjuk meg az eredeti osszefugges parametereit.
4.1 Veletlen megfigyeles 65

y = f (x; a; b) = axb hatvanyfuggvenykapcsolat:


A linearis kapcsolatot a logaritmizalas utan most ln y es ln x kozott kell megadni: y = ln y =
b  ln x + ln a = k1 x + k2 =) b = k1 ; a = ek2 :
y = f (x; a; b) = ae ,xb Arrhenius fuggvenykapcsolat:
Logaritmizalas utan: y = ln y = ,b x1 + ln a = k1 x + k2 az ln y es x reciproka kozott lep fel
a linearis kapcsolat ( b = ,k1 ; a = ek2 ).
y = f (x; a; b) = a+1bx reciprok fuggvenykapcsolat:
Itt most y reciproka es x kozott kell a linearis regressziot kiszamolni.
y = f (x; a; b) = 1+axbx racionalis tortfuggvenykapcsolat:
Most az egyenlet ket oldalanak reciprokat kepezzuk: y = y1 = a1 x1 + ab = k1 x + k2 =) a =
1 k2
k1 ; b = k1 ; es a reciprokertekek kozott keresunk linearis regressziot.

y = f (x; a; b) = ax2 + bx kvadratikus fuggvenykapcsolat:


Ekkor ha x-szel atosztunk maris linearis az osszefugges xy es x kozott: y = xy = ax + b:
y = f (x; a; b) = a + xb hiperbolikus fuggvenykapcsolat:
Ez eleve linearis osszefugges y es x1 kozott.
y = a ln (bx) = a ln b + a ln x a logaritmikus fuggvenykapcsolat:
Ez linearis kapcsolat y es ln x kozott.
4.1.4. A regresszios illeszkedes josaganak merese
4.1.4. de ncio: Tekintsuk a X es Y valoszn}usegi valtozokat, es tegyuk fel, hogy Y -t
f (X )-szel kozeltjuk. A kozeltes josaganak meresere az
Rf2 = 1 , E(Y ,2fY(X ))
2

meghatarozottsagi egyutthatot hasznaljuk. Ha f (x) = E(Y j X = x) a regresszios fuggveny,


akkor az Rr2 jelolest hasznaljuk. Adott (X1 ; Y1 )Tn ; (X2 ; Y2 )T ; : : : ; (Xn ; Yn )T statisztikai minta
P
(Yi ,f (Xi ))2
eseten a meghatarozottsagi egyutthatot az 1 , i=1
n
P ( Rf2 ) statisztikaval kozeltjuk,
(Yi ,Y )2
i=1
ami konzisztens becsles.
Megjegyzes : R2 minel kozelebb van az 1-hez, annal jobb a regresszios kozeltes. Ha R2 0
kozeli ertek, vagy negatv, a regresszios illesztes elfogadhatatlan. A meghatarozottsagi egyutt-
hato tulajdonsagait foglalja ossze az alabbi tetel:
4.1.4. tetel:
(i) Rf2  Rr2  1,
66 4. FEJEZET Regresszio analzis

(ii) Ha X es Y fuggetlenek, akkor Rr2 = 0, azaz Rf2  0,


(iii) Ha f (x) = a x + b linearis regresszios fuggveny, akkor Rf2 = (R(X; Y ))2 .
Bizonytas :
(i) A felteteles varhato ertek tulajdonsagaibol kovetkezik, hogy
E(Y , E(Y j X ))2  E(Y , f (X ))2
es
E(Y , E(Y j X ))2  2 Y;
ami mar igazolja az alltast. Az elvileg legjobb illesztes eseten sem biztos, hogy Rr2 eleri
az 1-et.
(ii) E(Y j X ) = EY , gy E(Y , E(Y j X ))2 =  2 Y , azaz Rr2 = 0. "Rossz" f eseten az Rf2
szam akar negatv is lehet.
(iii) Ha f (x) = a X + b linearis regresszios fuggveny, ahol
Y;
a = R(X; Y )  X b = EY , a EX;
akkor
E(Y , aX , b) = EY , aEX , b = 0;
vagyis
E(Y , a X , b )2 = 2(Y , aX , b) = 2 (Y , a X ) =
= 2 Y + (a )2   2 X , 2a  cov(Y; X ) =
Y
2 Y + (R(X; Y ))2  2 Y , 2R(X; Y )  R(X; Y )  Y  X =
X
=  2 Y (1 , R2 (X; Y )):
Tehat
R2 (X; Y ) = Rf2

4.2. Tervezett (determinisztikus) meg gyeles


F}oleg m}uszaki alkalmazasokban gyakori, hogy a mereseket Y -ra el}ort x bealltasoknal vegzik
el, es gy keresik az ismeretlen Y  f (x) fuggvenykapcsolatot. A modell ilyenkor az, hogy
Y = f (x) + ", ahol " a meresi hibat jelent}o valoszn}usegi valtozo, melyre E" = 0 es 2 " < 1.
Tegyuk fel, hogy adottak az x1 ; x2 ; : : : ; xn 2 R bealltasok mellett elvegzett Y1 ; Y2 ; : : : ; Yn
meresi eredmenyek. Mivel a meresek a veletlent}ol is fuggtek, feltesszuk, hogy Yi = axi + b +
"i (i = 1; : : : ; n), ahol "i teljesen fuggetlenek es E"i = 0; 2 "i = D2 < 1. A keresett a; b
regresszios egyutthatokat a legkisebb negyzetek modszerevel a
1 X
n
1 X
n
h(a; b) = n (Yi , (axi + b)) = n "2i
2
i=1 i=1
negyzetes elteres atlaganak minimalizalasaval oldjuk meg.
4.2 Tervezett (determinisztikus) megfigyeles 67

4.2.1. tetel: (Gauss{Markov-tetel)


Ha Yi = axi + b + "i (i = 1; 2; : : : ; n), ahol az "i teljesen fuggetlen valoszn}usegi valtozok,
es E"i = 0; 2 "i = 2 , akkor az a; b egyutthatok legkisebb negyzetek modszerevel kapott
becslesei torztatlanok, es az osszes linearis becsles kozul minimalis szorassal rendelkeznek.
Megjegyzes : A legkisebb negyzetek modszere a legjobb torztatlan becslest adja, ami an-
golul: best linear unbaised estimation = BLUE.
Bizonytas :
Xn X n
h(a; b) = n1 (Yi , (axi + b))2 = n1 "2i :
i=1 i=1
@h(a; b) = , 2 Xn
( Y , (ax + b )) x = 0 =)
Xn
Y x , b
Xn
x , a
Xn
x2i = 0:
@a n i=1 i i i
i=1
i i
i=1
i
i=1
@h(a; b) = , 2 Xn
( Y , (ax + b )) = 0 =)
Xn
Y , bn , a
Xn
xi = 0:
@b n i=1 i i i
i=1 i=1
A fenti egyenletrendszerb}ol:
Pn (x , x)(Y , Y )
i i n X n
xi , x  Y = X n
a = i=1 Pn = P
n i kiYi;
(x , x) 2 i i =1 (x , x) 2 i =1 j
i=1 j =1
X
n
1
  X
n
b = Yn , a x = n , xki Yi = li Yi;
i=1 i=1
tehat linearis becsleseket kapunk.
Fel fogjuk hasznalni, hogy
X
n
1 X
n
ki = P
n (xi , x) = 0;
i=1 (xi , x)2 i=1
i=1
Pn (x , x) x Pn Pn
(xi , x) xi , x (xi , x)
Pn (x , x)2
X
n i i i
kixi = i=1
Pn = i=1
Pn
i=1 = i=1
Pn = 1;
i=1 (x , x) 2 (x , x) 2 (x , x) 2
i i i
i=1 i=1 i=1
0 12
X
n X
n B
(xi , x) CC = 1 X
n
1
ki2 = B@ Pn A   ( x i , x
 ) 2=
P :
i=1 i=1 (xi , x)2 Pn (x , x)2 i=1
2 n
(xi , x)2
i=1 i i=1
i=1
A torztatlansag igazolasa:
X
n ! X
n X
n X
n X
n
Ea = E ki Yi = ki EYi = ki (axi + b) = a ki xi + b ki = a:
i=1 i=1 i=1 i=1 i=1
X n 
X 
n
Eb = liEYi= 1 , xk (ax + b) = 1 a X
n X
n
1 X
n X
n
xi , xa ki xi + n b , xb ki = b:
n i i n
i=1 i=1 i=1 i=1 i=1 i=1
68 4. FEJEZET Regresszio analzis
X
n ! X
n X
n
 2 a =  2 ki Yi = ki2 2 Yi = 2 ki2 = P 2 :
n
i=1 i=1 i=1 (xi , x)2
i=1
X
n ! X
n X
n X
n 2
 2 b =  2 li Yi = 2 li  2 Yi = 2 li2 = 2 1 , xk =
n i
i=1 i=1 i=1
0 i=1 1
X
n n !
X B 1 + x2 C
1 1
= 2 n + x2 ki2 , 2 x n ki = 2 B C
i=1
@ n Pn i=1 (xi , x)2
A:
i=1
Legyen most a~ =
Pn ci Yi az a torztatlan, linearis becslese, azaz
i=1
X
n X
n X
n X
n
a = Ea~ = ci EYi = ci (a xi + b) = a ci xi + b ci :
i=1 i=1 i=1 i=1

Ez csak ugy lehet, ha


Pn xi ci = 1 es
Pn ci = 0: Legyen di = ci , ki :
i=1 i=1
X
n X
n X
n X
n X
n
2 a~ = 2 c2i = 2 (ki + di )2 = 2 ki2 + 22 ki d +  2 d2i =
i=1 i=1 i=1 i=1 i=1
X n X n
= 2 a + 2 d2i + 2 2 ki di   2 a :
i=1 i=1
0 =0
X n X n X n
(xi , x) , X n
ki di = ki (ci , ki) = ci P n ki2 =
i=1 i=1 i=1 2
(xj , x) i=1
j =1
1 Xn
1 Xn
1
P (x , x)2 i=1
n c i xi , x n i ,
P (x , x)2 i=1 P (x , x)2 = 0:
c n
j =1 i =0 i
j =1 i=1 i=1
Pn
Masreszt, ha ~b = wi Yi a b torztatlan, linearis becslese, azaz
i=1
X n X n Xn X n
b = E~b = wiEYi = wi (a xi + b) = a wi xi + b wi :
i=1 i=1 i=1 i=1
Pn Pn
Ez csak ugy lehet, ha xi wi = 0 es wi = 1: Legyen di = wi , li :
i=1 i=1

2 ~ 2 X n
2 2 X n
2 2 X n
2 2 X n
2 Xn
 b= wi =  (li + di ) =  li + 2 li di +  d2i =
i=1 i=1 i=1 i=1 i=1

 X n Xn
2
= b + 2 2
di + 2  2 lidi  2 b :
i=1 i=1
0 =0
4.2 Tervezett (determinisztikus) megfigyeles 69
X X X X 1  X n  
2 X
n n n n n
li di = li (wi , li ) = liwi , li = wi n , x ki , 1 , x  k 2 =
i
i=1 i=1 i=1 i=1 i=1 i=1 n
Xn Xn
1 , x2 Xn
2 + 2 1 x X k =
n
= n1 wi , x P
n
1 ( x i , x
 ) w i , n k i n i=1 i
i=1 (xi , x)2 i=1 i=1
i=1

= n1 + P x2 , 1, x2
n
(xi , x)2 n
Pn (x , x)2 = 0:
i
i=1 i=1

4.2.2. tetel: Ha Yi = axi + b + "i (i = 1; 2; : : : ; n); ahol az "i 2 N (0; 2 ) teljesen fuggetlen
valoszn}usegi valtozok ( =) Yi 2 N (axi + b; ) es teljesen fuggetlenek), akkor az el}obbiek
mellett meg az is allthato, hogy a es b az a; b parametereknek maximum-likelihood becslesei
is.

Bizonytas : Mivel Yi 2 N (axi + b; ); teljesen fuggetlenek, ezert a minta egyuttes s}ur}useg-
fuggvenye, a likelihood fuggveny:
X
n
L(y1; y2 ; : : : ; yn; a; b; ) = (2), 2 ,n exp (, 1
n 2
2 2 i=1 (yi , axi , b) );
a log-likelihood fuggveny pedig:
n 1 Xn
ln L = l(y1 ; y2 ; : : : ; yn ; a; b; ) = , 2 ln (2) , n ln  , 2 2 (yi , axi , b)2 :
i=1

@l = 1 X
n
@a 2 i=1 xi (Yi , axi , b) = 0;
@l = 1 X
n
@b 2 i=1 (Yi , axi , b) = 0;
@l = , n + 1 X n
2
@ (2 ) 22 24 i=1 (Yi , axi , b) = 0;
amib}ol a maximum-likelihood becslesekre:
X n
1X
n
a = kiYi; b = Y , x a; ^ 2 =  2
n (Yia xi , b )
i=1 i=1
adodnak, azaz a es b megegyezik a legkisebb negyzetek modszerevel kapott becslesekkel!
70 4. FEJEZET Regresszio analzis

4.3. Sztochasztikus approximacio


A tobbvaltozos linearis- es nemlinearis regresszios feladat egyutthatoinak meghatarozasat, ha
a valtozok szama nagy, gradiens modszerrel szokas megoldani. Ez a problema elvezet a szto-
chasztikus approximacio problemakorehez, melyet ebben a szakaszban targyalunk. Az alap-
problema itt az, hogy az r(c) = 0 iteracios gyokkeresesi algoritmus milyen feltetelek mellett
allt el}o a gyokhoz konvergalo sorozatot, ha az r fuggveny ertekeinek kiszamtasat valamilyen
veletlen zavaro korulmeny lehetetlenne teszi. El}oszor bebizonytjuk az alabbi tetelt, amely a
Robins{Monroe-fele sztochasztikus approximacios algoritmust alapozza meg.
Legyen f : Rk+1  RM ! Rk+1 merhet}o fuggveny. Adottak a Z1 ; Z2 ; : : : ; Zn ; : : : es Z
azonos eloszlasu RM ertek}u valoszn}usegi vektorvaltozok. Tegyuk fel, hogy 8c 2Rk+1 eseten
letezik Ef (c; Z) az es legyen
r (c) = Ef (c; Z) ;
es
r () = 0:
(Nyilvan r Borel-merhet}o, melyet szokas regresszios fuggvenynek is nevezni.) Legyen
Cn+1 = Cn , nf (Cn; Zn+1 ) ; n = 0; 1; : : :
rekurzv osszefuggessel de nialt valoszn}usegi vektorvaltozo sorozat, ahol C0 = c0 tetsz}oleges.
4.3.1. tetel: Tegyuk fel, hogy tetsz}oleges " > 0-ra:
() inf (c , )T r (c) > 0;
kc,k>"  
() 9K > 0 : E kf (c; Z)k2 < K 1 + kc , k2 ; 8c 2 Rk+1 ;
(  ) n > 0;
P
1 P
1 2
n = 1; n < 1:
n=0 n=0
!1 kCn , k = 0 1-valoszn}useggel.
Akkor nlim
Bizonytas : Szuksegunk lesz ket lemmara.
4.3.1. lemma: A 4.3.1. tetel feltetelei mellett teljesul, hogy letezik egy C valoszn}usegi
valtozo, melyre nlim kC , k = C 1-valoszn}useggel.
!1 n
Bizonytas : A rekurzv egyenlet mindket oldalabol vonjunk le -t, majd emeljuk negyzetre:
kCn+1 , k2 = kCn , k2 , 2 n (Cn , )T f (Cn; Zn+1 ) + n2 kf (Cn; Zn+1 )k2 :
Ezutan vegyuk mindket oldalnak a Z1 ; Z2 ; : : : ; Zn valoszn}usegi valtozok altal generalt -al-
gebrara vett felteteles varhato ertekeit:
   
E kCn+1 , k2 j Z1; Z2 ; : : : ; Zn = E kCn , k2 j Z1 ; Z2; : : : ; Zn ,
   
,2 nE (Cn , )T f (Cn; Zn+1 ) j Z1; Z2 ; : : : ; Zn + n2 E kf (Cn; Zn+1)k2 j Z1; Z2 ; : : : ; Zn :
A fuggetlenseg miatt, es amiatt, hogy Cn csak Zn-t}ol fugg:
 
E kCn , k2 j Z1; Z2 ; : : : ; Zn = kCn , k2 ;
4.3 Sztochasztikus approximacio 71

es   Z
E (Cn , )T f (Cn ; Zn+1 ) j Z1 ; Z2 ; : : : ; Zn = (Cn , )T f (Cn ; y)  (dy) =
RM
Z
= (Cn , )T f (Cn; y)  (dy) = (Cn , )T r (Cn) ;
RM
es
  Z  
E kf (Cn; Zn+1 )k2 j Z1; Z2 ; : : : ; Zn = kf (Cn; y)k2  (dy)  K 1 + kCn , k2 ;
RM
ahol  jeloli Z eloszlasat. Igy
 
E kCn+1 , k2 j Z1; Z2 ; : : : ; Zn 
 
 kCn , k2 , 2 n (Cn , )T r (Cn) + n2 K 1 + kCn , k2 :
Mivel
inf (c , )T r (c) > 0;
kc,k>"
ezert tovabb noveljuk a baloldalt, ha elhagyjuk a kozeps}o tagot:
 
E kCn+1 , k2 j Z1; Z2 ; : : : ; Zn  kCn , k2 ,1 + n2 K  + n2 K:
Most tekintsuk azt a fVn gn=1;2;::: valoszn}usegi valtozo sorozatot, melynek de ncioja
X
1
Vn+1 = kCn+1 ,  k2  n+1 + K 2
j j +1 ;
j =n+1

ahol k =
Q1  
1 + j2 K : Megmutatjuk, hogy f(Vn ; Fn)gn=1;2;::: szupermartingal, ahol Fn =
j =k
 (Z1 ; Z2 ; : : : ; Zn ) :

E [Vn+1 j Fn]  kCn , k2


,1 + 2 K   + 2 K + K X
1
2
n n+1 n n+1 j j +1 =
j =n+1
X
1
= kCn , k2 n + K 2
j j +1 = Vn :
j =n
Meg az is igaz, hogy az fE jVn jgn=1;2;::: szamsorozat korlatos. Ugyanis Vn  0; ami a
de nciojabol latszik, es gy E jVn j = EVn : Masreszt a szupermartingal tulajdonsag miatt
fE jVnjgn=1;2;::: monoton fogyo. Vegul EV1 = E jV1j < 1 miatt 9M : E jVnj  M < 1; n =
1; 2; : : : : Alkalmazhato a szupermartingalok konvergenciatetele, miszerint letezik egy C valosz-
n}usegi valtozo, melyre nlim
!1 n
V = C 1 valoszn}useggel. Mivel megmutathato, hogy nlim
!1 n
 =1
P
1
!1 kCn , k = C 1 valoszn}useg-
2 2
!1 j =n j j +1 = 0; ezert nyilvan az is teljesul, hogy nlim
es nlim
gel.
72 4. FEJEZET Regresszio analzis

4.3.2. lemma: A 4.3.1. tetel feltevesei mellett


X
1
T r (C
n (Cn , ) n) < 1
n=1
1 valoszn}useggel.
Bizonytas : A fCn gn=1;2;::: rekurzv sorozatot de nialo egyenlet mindket oldalabol levonva
-t,h negyzetre emelunk, majd
i kiszamtjuk a varhato ertekeket. Az an = E kCn , k2 ; bn =
2E (Cn , )T f (Cn ; Zn+1 ) ; dn = E kf (Cn ; Zn+1 )k2 jelolesekkel azt kapjuk, hogy an+1 =
an , n bn + n2 dn : Megmutathato, hogy
X
1 X
1 h T
i
n bn = 2 n E (Cn , ) f (Cn; Zn+1 ) < 1;
n=1 n=1
ahonnan a 4.3.1. lemma eredmenyet felhasznalva kovetkezik a monoton konvergencia tetelt
alkalmazva, hogy
X
1 h i X
1 h i
nE (C n , )T f (C n ; Zn+1 ) = E n (Cn , )
T r (C
n) =
n=1 n=1
"X
1 #
=E T
n (Cn , ) r (Cn) < 1:
n=1
Ezzel a lemmat bebizonytottuk hiszen, ha a varhato ertek mogotti sor 1 valoszn}useggel 1
lenne, akkor a varhato ertek nem lehetne veges.

A 4.3.1. tetel bizonytasa: A 4.3.1. lemmaban bizonytottakbol kovetkezik, hogy letezik


egy C valoszn}usegi vektorvaltozo es egy  1 valoszn}useg}u esemeny, hogy 8! 2  elemi
!1 Cn (!) = C (!) konvergencia. Masreszt jelolje
esemenynel fennall a nlim  azt az 1 valo-
P
1 T
szn}useg}u esemenyt, amelyen fennall n (Cn (!) , ) r (Cn (!)) < 1: (Ilyen  a 4.3.2.
n=1
lemma ertelmeben letezik.) Ekkor a (***) feltetel miatt megadhato olyan fmn gn=1;2;::: index-
T
sorozat, hogy nlim !1 (Cmn (!) , ) r (Cmn (!)) = 0: Ebb}ola tetel () feltetele miatt teljesul,
!1 kCmn (!) , k = 0; 8! 2
hogy nlim : Tehat, 8! 2 \ elemi esemenyre C (!) = 


!1 kCn , k = 0 1-valoszn}useggel.
all, ami P ( \ ) = 1 miatt a tetel alltasat jelenti: nlim

Megjegyzes : A 4.3.1. tetel segtsegevel igazolhato a nagy szamok torvenyenek alabbi er}os
alakja:
Ha fXn gn=1;2;::: fuggetlen, azonos eloszlasu a varhato ertek}u, veges szorasu valoszn}u-
segi valtozo sorozat, melynek tagjai az RN terb}ol veszik fel az ertekeiket, akkor a Zn+1 =
Zn , n [Zn , Xn] n = 0; 1; : : : rekurzv valoszn}usegi vektorvaltozo sorozatra | ha Z0 =
z0 2 RN tetsz}oleges es a n sorozat kielegti a 4.3.1. tetel (  ) felteteleit | teljesul, hogy
lim kZ , ak = 0 1 valoszn}useggel.
n!1 n
X
n
Zn = an + ci Xi ;
i=1
4.3 Sztochasztikus approximacio 73

ahol nY
,1
an = z0 (1 , i ) es ci = i,1 (1 , i )    (1 , n,1 ) :
i=0
Ha z0 = 0 es n = n+1  n az atlagstatisztika.
1 ; akkor Zn = X

4.3.1. Linearis regresszios feladat


Ebben a szakaszban az el}oz}o pont eredmenyeinek egy kulonlegesen fontos specialis alkalmaza-
sat targyaljuk. Azzal az esettel foglalkozunk, amikor az r regresszios fuggveny r (c) = Ac , m
linearis fuggveny,, aholA (k + 1)  (k + 1)-es kvadratikus matrix, m pedig Rk+1 -beli vektor.
Legyen Z = ; melyre E = A es E = m es f (c; Z) = c , : Tegyuk fel, hogy
az A matrix szimmetrikus,, pozit
 v de nit es invertalhato. (Ekkor a regresszios fuggveny
r (c) = Ef (c; Z) = E c , = Ac , m.)
4.3.2. tetel: Jelolje  = (Vij )i=0;1;:::;k es = ( 0 ; 1 ; : : : ; k ) es tegyuk fel, hogy
j =0;1;:::;k
 M1 < 1 es E P i2 = M2 < 1: Jelolje Z1 ; Z2; : : : ; Zn; : : : a
N
9M1; M2 > 0, hogy EVij2
i=1
Z-vel azonos eloszlasu, teljesen fuggetlen elemekb}ol a1llo sorozatot! Tegy
uk fel tovabba, hogy
f ngn=1;2;::: olyan pozitv tagu szamsorozat, melyre P P1 2
n = 1; es n < 1 teljesul.
  n=0 n=0
Akkor az Cn+1 = Cn , n n+1 Cn , n+1 ; n = 0; 1; : : : rekurzv megadasu sorozatra
lim C , A,1 m = 0 teljesul 1 valoszn}useggel.
n!1 n
Bizonytas : Meg fogjuk mutatni, hogy teljesulnek a 4.3.1. tetel feltetelei, annak a 4.3.2.
tetel specialis esete. El}, oszor megmutatjuk,
 hogy
T, 
() 9K1 > 0 : c , A m Ac , m  K1 c , A,1 m 8c 2 Rk+1 -re.
,1
Mivel A szimmetrikus es pozitv de nit az A' = ' sajatertek egyenletnek letezik
fn; 'ngn=0;1;:::k megoldasrendszere, ahol f'ngn=0;1;:::k ortonormalt rendszer Rk+1 -ben, es
i  0; i = 0; 1; : : : ; k. S}ot i > 0; i = 0; 1; : : : ; k is, mivel ellenkez}o esetben az A' = 0 egyen-
letnek lenne nem trivialis megoldasa, ami ellentmond annak, hogy A,1 letezik. Ekkor tehat
Pk Pk
vehetjuk a kovetkez}o sorfejteseket: c = ci 'i ; m = mi 'i . Ezekkel A,1 m.= 1i mi 'i :
Pk
i=0 i=0 i=0
Ezt alkalmazva nyerjuk, hogy
,c , A,1mT ,Ac , m = Xk   XN  2
1 1
ci ,  mi (i ci , mi ) = i ci ,  mi 
i=0 i i=1 i
 X k 
1
2  
 0min  ci ,  mi ,1 2
= 0min  c,A m :
ik i i=0 i ik i
A  
K1 = 0min 
ik i
valasztassal igazoltuk a () egyenl}otlenseget, ahonnan mar kovetkezik a 4.3.1. tetel () fel-
tetelenek teljesulese. A 4.3.2. tetel bizonytasat tehat befejezhetjuk, ha meg megmutatjuk,
hogy 8c 2 Rk+1 -re
E kf (c; Z)k2 = E c ,
,  2  K 1 + c , A,1m 2
74 4. FEJEZET Regresszio analzis

valamely K > 0-ra. Ugyanis a fenti relacio eppen a 4.3.1. tetel () feltetelenek teljesulesevel
ekvivalens. El}oszor is
c , 2 ,
=  c , A,1 m+A,1 m ,
 2

 2
  2
c , A,1 m 2 + A,1m + k k2 
0N N 1
X X 2A  
@ Vij c , A,1 m 2
+ A,1 m 2
+ k k2 :
i=1 j =1
Innen
   
c , 2
 (k + 1)2 M1 c , A,1m 2 + A,1 m 2
+ M2  K 1 + c , A,1 m 2

adodik, ahol n o
K = max (k + 1)2 M1 ; (k + 1)2 M1 A,1m 2 + M2 :

4.3.2. Negyzetes hiba minimalizalasa


A negyzetes hiba minimalizalasanak problemaja a linearis regresszios problemara vezethet}o
vissza. A problema most az, hogy az X = (X0 ; X1 ; X2 ; : : : ; XN )T ; X0  1 valoszn}usegi vek-
torvaltozo komponenseinek milyen linearis kombinaciojaval kozelthet}o legjobban az Y cel-
valtozo, azaz milyen
 c = (c0; c1 ; : : : ; ck )T 2 Rk+1 sulyok eseten lesz minim
 alis az m(c) =
E P ci Xi , Y atlagos negyzetes hiba. Tekintsuk most az l (c; y) = P ci yi , yk+1
k 2 k 2
i=0 i=0
fuggvenyt! A minimalizalashoz szarmaztatnunk kell az l (c; y) fuggveny c vektor szerinti gra-
diensvektorat:
f (c; y) = grad l (c; y) =
c
X
k ! X
k ! X
k ! !T
=2 ci yi y0 ; ciyi y1 ; : : : ; ci yi yk , 2 (yk+1y0; yk+1y1; : : : ; yk+1yk )T =
i=0 i=0 i=0
0 y y  y y 1
0 0 0 k
= B c , b; ahol B = 2B
@ . . ... C
.
. . . A
yk y0    yk yk
es
b = 2 (yk+1y0; yk+1y1; : : : ; yk+1yk )T :
Masreszt a m negyzetes hiba gradiensere:
"X #22k k 3
k X X X
k
grad m (c) = grad E ciXi , Y = grad E 4 ci cj Xi Xj , 2 ciXi Y , Y 2 5 =
c c i=0 c i=0 j =0 i=0
2k k 3
X X X
k
= grad 4 ci cj EXi Xj , 2 ci EXi Y , EY 25 :
c i=0 j =0 i=0
4.3 Sztochasztikus approximacio 75

Innen, tekintettel arra, hogy


@ X k X k X
k
@cj i=0 j =0 i j i j i=0 ci EXiXj
c c EX X = 2

es
@ X k
@cj i=0 ci EXi Y = EXj Y
eppen az adodik, hogy
X
k X
k X
k !T
grad m (c) = 2 ci EXi X0 ; ci EXi X1 ; : : : ; ci EXi Xk ,
c i=0 i=0 i=0
,2 (EX0 Y; EX1 Y; : : : ; EXk Y ) = Ac , m;
ahol 0 EX X    EX X 1
0 0 0 k
B
A=@ . .
. . . . .
. A
. C es m = 2 (EX0 Y; EX1 Y; : : : ; EXk Y )T :
EXk X0    EXk Xk
Vegul, ha
0 X X  X X 1
0 0 0 k
T B
 = XX = 2 @ . .
. . . . .. C
. A es = (X0 Y; X1 Y; : : : ; Xk Y )T ;
Xk X0    Xk Xk
, 
akkor a Z = ; es f (c; Z) = c, jelolesekkel, r (c) = Ef (c; Z) = E  c,E = Ac,m

a regresszios fuggveny. Keresend}o az r (c) = 0 egyenlet gyoke, ahol a m (c) negyzetes hiba
minimalis lesz.
4.3.3. tetel: Tegyuk fel, hogy A,1 letezik es E Xi4  < 1; i = 0; 1; : : : ; k; EY 4 < 1:
Ha fZn gn=1;2;::: Z-vel azonos eloszlasu valoszn}usegi vektorvaltozo sorozat (Zi = i ; i ),
akkor a  
Cn+1 = Cn , n n+1 Cn , n+1 ; n = 0; 1; 2; : : : ;
C0 = c0 2 Rk+1
rekurzv keplettel de nialt valoszn}usegi vektorvaltozo sorozatra nlim C , A,1m = 0 1
!1 n
P
1 P
1 2
valoszn}useggel, felteve, hogy n = 1; es n < 1 teljesul.
n=0 n=0
Bizonytas : A de nciojabol lathatoan szimmetrikus es pozitv szemide nit, hiszen tet-
,  ,  , 
sz}oleges t 2Rk+1 -re tT At = E tT t = E tT XXT t = E XT t 2  0: Megmutatjuk, hogy
h i
9M1; M2 > 0; amivel E Xi2 Xj2  M1 es E k k2 = P EXi2 Y 2  M2: A Cauchy{Schwarz-
k
i=0
egyenl}otlenseget felhasznalva ez azonnal adodik, hiszen
  r   h i
E X X  E X4 E X4 < 1
2 2
i j i j
76 4. FEJEZET Regresszio analzis

es k q  
X
k X
EXi2Y 2  E Xi4 E [Y 4 ] < 1:
i=0 i=0
Tehat teljesulnek a 4.3.2. tetel feltetelei, akkor az alltas is igaz lesz.

Megjegyzes : A sztochasztikus approximacio modszerevel targyalhato a nemlinearis regresz-


szio feladatanak gradiens vektoros megoldasi modja is, amikor az l (c; Z) = kf (c; X) , Y k2
alaku es f (c; x) nemlinearis x-ben.
5. fejezet

Eloszlasbecsles
Nemparameteres statisztika eseten nem all rendelkezesre semmilyen el}ozetes informacio a valo-
szn}usegi valtozo eloszlasarol, gy nem hasznalhatjuk azt a tudast | mint parameteres esetben
|, hogy az eloszlas egy parameteres osztaly eleme lenne. Igy a szabalyok alapvet}o tulajdon-
sagainak is eloszlasfuggetlennek kell lenniuk.

5.1. Eloszlasfuggveny becslese


Legyen X valos ertek}u valoszn}usegi valtozo. A feladat az X valoszn}usegi valtozo F (x)
eloszlasfuggvenyenek becslese fuggetlen, azonos eloszlasu X1 ; X2 ; : : : ; Xn mintakbol. Mint
Pn
korabban lattuk, az Fn (x) = n1 IfXi <xg empirikus eloszlasfuggveny konstrualasa egyreszt
i=1
eloszlasfuggetlen, masreszt egyenletes a konvergenciaja minden F (x)-re (Glivenko{Cantelli-te-
tel):
lim sup jF (x) , Fn (x)j = 0
n!1 x2R
1 valoszn}useggel. A konvergencia sebesseger}ol a Glivenko{Cantelli-tetel nem ad felvilagos-
tast. A kovetkez}o tetelek azt mondjak, hogy n minta korulbelul p1n nagysagrend}u kozelteshez
elegend}o:
5.1.1. tetel: (Szmirnov)
Ha az F (x) eloszlasfuggveny folytonos, akkor
p   1 , e,2y ; 2
ha y > 0
lim P n sup (Fn (x) , F (x)) < y = 0 kulonben.
x2R

5.1.2. tetel: (Kolmogorov)


Ha F (x) folytonos, akkor
p   K (y); ha y > 0
lim P n sup jFn (x) , F (x)j < y = 0
n!1 kulonben,
x2R
ahol
X
1
K (y) = (,1)k e,2k2 y2
k=,1

77
78 5. FEJEZET Eloszlasbecsles

Vegyuk eszre, hogy az el}obbi tetelekben a hatareloszlas nem fugg az elmeleti eloszlasfugg-
venyt}ol.
Most adunk egy alternatv bizonytast az empirikus eloszlasfuggveny egyenletes konver-
genciajara, amely sok hasznos oteletet tartalmaz es segt a kovetkez}o fejezet fontos tetelenek,
a Vapnik{Chervonenkis-egyenl}otlensegnek a bizonytasaban.
5.1.3. tetel: (Glivenko{Cantelli)
Legyen X1 ; : : : ; Xn fuggetlen, azonos eloszlasu valos ertek}u valoszn}usegi valtozo F (x) =
P(X1  x) eloszlasfuggvennyel. Ekkor
 
P sup jFn(x) , F (x)j > "  8(n + 1)e,n"2 =32
x2R
es gy a Borel{Cantelli-lemma miatt
lim sup jF (x) , F (x)j = 0
n!1 x2R n

1 valoszn}useggel.
A tetel bizonytasahoz szuksegunk lesz a Hoe ding-egyenl}otlensegre.
5.1.4. tetel: (Hoe ding)
Legyenek X1 ; : : : ; Xn fuggetlen korlatos valoszn}usegi valtozok ugy, hogy Xi 2 [ai ; bi ] egy
Pn
valoszn}useggel. Jelolje az osszeguket Sn , vagyis Sn = Xi . Ekkor minden " > 0-ra
i=1
n
,2"2 = P (bi ,ai )2
PfSn , ESn  "g  e i=1

es n
,2"2 = P (bi ,ai )2
PfSn , ESn  ,"g  e i=1 :
Az egyenl}otlenseg bizonytasahoz hasznalunk egy segedegyenl}otlenseget:
5.1.1. lemma: Legyen X olyan valoszn}usegi valtozo, amelyre EX = 0, a  X  b.
Ekkor minden s > 0-ra, 
E esX  es2(b,a)2 =8 :
Bizonytas : Az exponencialis fuggveny konvexitasabol kovetkezik, hogy
, a esb + b , x esa ; ha a  x  b.
esx  xb , a b,a
Legyen p = ,a=(b , a), ekkor kihasznalva, hogy EX = 0

EesX  b ,b a esa , b ,a a esb


 
= 1 , p + pes(b,a) e,ps(b,a)
def
= e(u) ;
5.1 Eloszlasfuggveny becslese 79

ahol u = s(b , a), es (u) = ,pu + log(1 , p + peu ). Mivel  derivaltja
0(u) = ,p + p + (1 ,p p)e,u ;
ezert (0) = 0 (0) = 0. A masodik derivalt, pedig

00 (u) = p(1 , p)e,u  1 :


(p + (1 , p)e,u )2 4
Igy a Taylor-sorfejtes szerint valamely  2 [0; u]-ra,

(u) = (0) + u0 (0) + u2 00 ()  u8 = s (b 8, a) :


2 2 2 2

Az 5.1.4 tetel bizonytasa:


A bizonytas az ugynevezett Cherno -technikan alapul. A Markov-egyenl}otlensegb}ol tudjuk,
hogy minden X nemnegatv valoszn}usegi valtozora es " > 0-ra,
PfX  "g  E"X :
Ezert, ha s tetsz}oleges pozitv szam, akkor minden X valoszn}usegi valtozora

PfX  "g = PfesX  es"g  Eees" :


sX

A Cherno -technika lenyege, hogy keresunk egy olyan s > 0-t, amely minimalizalja, vagy
kell}oen kicsive teszi a fels}o korlatot.
PfSn , ESn( "g !)
X
n
 e,s"E exp s (Xi , EXi )
i=1
n n o
= e ,s" Y s(Xi ,EXi )
E e (Xi -k fuggetlensege miatt)
i=1
Yn
 e,s" es2 (bi ,ai )2 =8 (5.1.1 lemma miatt)
i=1
n
2 P (b ,a )2 =8
,s" s i i
= e e n i=1
= e
,2"2 P (bi ,ai )2
i=1 (s = 4"
Pn (b , a )2 -t valasztva):
i i
i=1
A masodik egyenl}otlenseg hasonloan bizonythato.

Az 5.1.4 tetel ket egyenl}otlenseget osszekombinalva kaphatjuk, hogy


n
,2"2 P (bi ,ai )2
PfjSn , ESnj  "g  2e i=1 :
80 5. FEJEZET Eloszlasbecsles

Az 5.1.3 tetel bizonytasa:


Pn
Vezessuk be a kovetkez}o jeloleseket: (A) = P(X 2 A) es n (A) = n1 IfXi 2Ag minden
i=1
A  R merhet}o halmazra. Legyen A a (,1; x]; x 2 R alaku halmazok csaladja. Ezekkel a
jelolesekkel
sup jFn (x) , F (x)j = sup jn(A) , (A)j
x2R A2A
Feltehetjuk, hogy n"2  2, hiszen kulonben a fels}o korlat trivialis ( 1).
1. LE PE S: Szimmetrizalas szellemmintaval
Legyenek X10 ; : : : ; Xn0 2 R valoszn}usegi valtozok ugy, hogy X1 ; : : : ; Xn ; X10 ; : : : ; Xn0 mind
fuggetlen es azonos eloszlasu. Jelolje 0n az uj mintak szerinti empirikus merteket:
Xn
0 (A) = 1 I 0
n n i=1 fXi 2Ag
Ekkor megmutatjuk, hogy n"2  2-re
   
P sup jn(A) , (A)j > "  2P sup n(A) , 0n(A) > 2"
A2A A2A
Ehhez legyen A 2 A egy olyan halmaz, amelyre jn(A ) , (A )j > ", ha ilyen halmaz
letezik, kulonben legyen A egy rogztett A-beli halmaz. Ekkor
   
P sup n (A) , 0n (A) > 2"  P n(A ) , 0n (A ) > 2" 
A2A
 
 P jn(A ) , (A )j > "; 0 (A ) , (A ) < " =
n 2
  
= E Ifjn (A ),(A )j>"g P n 0 (A ) , (A ) < 2" X1 ; : : : ; Xn
A felteteles valoszn}useget becsulhetjuk a Csebisev-egyenl}otlenseg segtsegevel a kovet-
kez}okeppen, ha n"2  2:
 
P 0n(A ) , (A ) < 2" X1; : : : ; Xn 
 
 1 , (A )(1 , (A ))  1 , 1  1
n"2 =4 n"2 2

Osszefoglalva tehat
 
P sup n (A) , 0n (A) > 2"  12 P (jn(A ) , (A )j > ") 
A2A
 
 12 P sup jn(A) , (A)j > "
A2A
2. LE PE S: Szimmetrizalas veletlen el}ojelekkel
Legyenek 1 ; : : : ; n fuggetlen, azonos eloszlasu X1 ; : : : ; Xn ; X10 ; : : : ; Xn0 -t}ol fuggetlen
f,1; 1g ertek}u valoszn}usegi valtozok, P(i = ,1) = P(i = 1) = 12 valoszn}usegek-
kel. Mivel X1 ; X10 ; : : : ; Xn ; Xn0 mind fuggetlen es azonos eloszlasu,
n 
X 
sup IfXi 2Ag , IfXi0 2Ag
A2A i=1
5.1 Eloszlasfuggveny becslese 81

es
n 
X 
sup i IfXi 2Ag , IfXi0 2Ag
A2A i=1

azonos eloszlasu. Igy az 1. lepes miatt


 
P sup jn(A) , (A)j > " 
A2A

X
n !
1 "
 2P sup n (IfXi 2Ag , IfXi0 2Ag ) > 2 =
A2A i=1

X
n !
1
= 2P sup n "
i (IfXi 2Ag , IfXi0 2Ag ) > 2
A2A i=1
Az uniokorlatot hasznalva megszabadulhatunk az X10 ; : : : ; Xn0 seged valoszn}usegi valto-
zoktol
Xn !
1
P sup n i(IfXi 2Ag , IfXi0 2Ag) > 2  "
A2A i=1
X
n ! X
n !
1 " 1 "
 P sup n iIfXi 2Ag > 4 + P sup n iIfXi0 2Ag > 4 =
A2A i=1 A2A i=1

X
n !
1
= 2P sup n "
i IfXi 2Ag > 4
A2A i=1

3. LE PES:   
AP
n P
sup n1 i IfXi 2Ag
Pn
> = P sup n1 i IfXi xg > 4" valoszn}useg becsle-
"
A2A i=1 4 x2R i=1
sehez nezzuk el}oszor a felteteles valoszn}useget felteve X1 ; : : : ; Xn -et. Vegyuk eszre, hogy
rogztett x1 ; : : : ; xn 2 R-re, ahogy x vegigfut R-en a kulonboz}o (Ifx1 <xg ; Ifx2 <xg ; : : : ; Ifxn <xg )
vektorok szama legfeljebb n + 1. Ezert rogztett X1 ; : : : ; Xn -re a szupremum a fenti
valoszn}usegben legfeljebb n + 1 valoszn}usegi valtozo maximuma. Igy, alkalmazva az
uniokorlatot
Xn !
1 "
P sup n iIfXi 2Ag > 4 X1 ; : : : ; Xn 
A2A i=1
Xn !
1 "
 (n + 1) sup P n iIfXi 2Ag > 4 X1; : : : ; Xn
A2A i=1
Igy mivel a szupremum kvulre kerult, eleg a
Xn !
1 "
P n iIfXi 2Ag > 4 X1; : : : ; Xn
i=1
felteteles valoszn}usegre talalni egy exponencialis fels}o korlatot.
82 5. FEJEZET Eloszlasbecsles

4. LE PE S:
Pn
Rogztett x1 ; : : : ; xn -re i Ifxi 2Ag n darab fuggetlen, 0 varhato ertek}u, ,1 es 1 kozotti
i=1
valoszn}usegi valtozo osszege, ezert alkalmazhatjuk a Hoe ding-egyenl}otlenseget:
Xn !
1 "
P n iIfXi 2Ag > 4 X1 ; : : : ; Xn  2e,n"2 =32 :
i=1
Igy !
1 X
n
"
P sup n iIfXi 2Ag > 4 X1; : : : ; Xn  2(n + 1)e,n"2 =32 :
A2A i=1
Mindket oldal varhato erteket veve
X
n !
1 "
P sup n iIfXi2Ag > 4  2(n + 1)e,n"2 =32 :
A2A i=1


Osszefoglalva tehat azt kapjuk, hogy
 
P sup jn(A) , (A)j > "  8(n + 1)e,n"2 =32 :
A2A

5.2. Vapnik{Chervonenkis-elmelet
Ebben a fejezetben a Glivenko{Cantelli-tetel egy altalanostasat bizonytjuk. Legyen most
X d-dimenzios valoszn}usegi valtozo, es legyenek X1 ; : : : ; Xn az X eloszlasabol vettnfuggetlen
mintak. Hasznaljuk a kovetkez}o jeloleseket: (A) = P(X 2 A) es n (A) = n1 IfXi 2Ag
P
i=1
minden merhet}o A  Rd halmazra.
5.2.1. de ncio: Legyen x1; : : : ; xn n darab Rd -beli rogztett pont, A pedig az Rd -beli
halmazok egy csaladja. Ekkor legyen NA (x1 ; : : : ; xn ) az
fx1; : : : ; xng \ A
alaku halmazok szama, ha A 2 A. Vagyis NA (x1 ; : : : ; xn ) azt mutatja, hogy az A-beli halma-
zokkal az x1 ; : : : ; xn pontoknak hanyfele kulonboz}o reszhalmazat lehet kimetszeni.
Az A halmazcsalad n-edik shatter egyutthatoja
s(A; n) def
= max NA (x1 ; : : : ; xn ):
x1 ;:::;xn 2Rd

Nyilvanvaloan s(A; n)  2n , hiszen egy n pontu halmaznak osszesen 2n reszhalmaza van.


Ha s(A; n) = 2n , vagyis valamely n pontra NA (x1 ; : : : ; xn ) = 2n , akkor azt mondjuk, hogy A
darabokra tori (vagy shattereli) fx1 ; : : : ; xn g-t. Ha ez nem teljesul, akkor barmely n pontnak
van olyan reszhalmaza, amelyet nem tudunk kivalasztani A-beli halmazzal. Az is nyilvanvalo,
hogy ha valamely n0 -ra s(A; n0 ) < 2n0 , akkor mar minden n > n0 -ra s(A; n) < 2n .
5.2 Vapnik{Chervonenkis-elmelet 83

5.2.2. de ncio: A legnagyobb n0 szamot, amelyre meg van olyan n0 pont, amelyet A
darabokra tor, vagyis
s(A; n0 ) = 2n0
az A csalad Vapnik{Chervonenkis-dimenziojanak (vagy VC-dimenziojanak) nevezzuk, es VA -
val jeloljuk. Ha minden n-re s(A; n) = 2n , akkor de ncio szerint VA = 1.
Azokat az A halmazcsaladokat, amelyekre VA < 1, Vapnik{Chervonenkis- (vagy VC-)
csaladoknak hvjuk.
5.2.1. tetel: (Vapnik{Chervonenkis)
Minden  valoszn}usegi mertekre es A halmazosztalyra, minden n-re es " > 0-ra
 
P sup jn(A) , (A)j > "  8s(A; n)e,n"2 =32
A2A
Bizonytas : Kovetjuk a Glivenko{Cantelli-tetel bizonytasanak menetet. Most is feltehet-
juk, hogy n"2  2, hiszen kulonben a korlat trivialis ( 1).
Az els}o ket lepesben teljesen ugyanugy bebizonytjuk, hogy
  X
n !
1 "
P sup jn(A) , (A)j > "  4P sup n iIfXi 2Ag > 4
A2A A2A i=1
Az egyetlen kulonbseg a 3. lepesben van.
3. LE PE S:
Vegyuk eszre, hogy rogztett x1 ; : : : ; xn 2 Rd -re ahogy A vegigfut A-n a kulonboz}o
(Ifxi 2Ag ; : : : ; Ifxn 2Ag ) vektorok szama nem mas, mint az fX1 ; : : : ; Xn g kulonboz}o olyan
reszhalmazainak a szama, amelyeket ugy kaphatunk, hogy A-beli halmazokkal elmetsz-
szuk, ami de ncio szerint legfeljebb s(A; n). Ezert rogztett X1 ; : : : ; Xn -re a szupremum
a
X
n !
1
P sup n iIfXi 2Ag > 4 "
A2A i=1
valoszn}usegbenlegfeljebb NA (X1 ; : : : ; Xn )  s(A; n) valoszn}usegi valtozo maximuma.
Az uniokorlattal kapjuk, hogy
X
n !
1 "
P sup n iIfXi 2Ag > 4 X1 ; : : : ; Xn 
A2A i=1
Xn !
1 "
 s(A; n) sup P n iIfXi 2Ag > 4 X1 ; : : : ; Xn
A2A i=1
Igy, mivel a szupremum kvulre kerult, eleg a
Xn !
1 "
P n iIfXi 2Ag > 4 X1; : : : ; Xn
i=1
felteteles valoszn}usegre talalni egy exponencialis fels}o korlatot. Ezt a Glivenko{Can-
telli-tetel bizonytasanak 4. lepesevel teljesen azonos modon tehetjuk meg, es gy vegul
kapjuk, hogy  
P sup jn(A) , (A)j > "  8s(A; n)e,n"2 =32 :
A2A
84 5. FEJEZET Eloszlasbecsles

Ha a valoszn}usegi valtozoink valosak es az A halmazcsalad a (,1; x] alaku halmazokbol


all, ahol x 2 R, akkor
sup jn (A) , (A)j = sup jFn (x) , F (x)j
A2A x2R
es s(A; n) = n + 1, hiszen (,1; x] felegyenesekkel n pontnak n + 1 kulonboz}o reszhalmazat
tudjuk kivalasztani: ;; fx1 g; fx1 ; x2 g; : : : ; fx1 ; x2 ; : : : ; xn g, ha x1 < x2 <    < xn .
Ekkor tehat a fenti tetel azt mondja, hogy
 
P sup jFn (x) , F (x)j > "  8(n + 1)e,n"2 =32 :
x2R
Tehat a fenti tetel valoban altalanostja az empirikus eloszlasfuggveny konvergenciajara vo-
natkozo korabbi eredmenyt.
A kovetkez}o tetel megmutatja a kapcsolatot egy halmazcsalad VC-dimenzioja es shatter
egyutthatoja kozott.
5.2.2. tetel: Ha az A halmazcsalad VC-dimenzioja VA, akkor minden n-re
VA  
X
s(A; n)  n
i=1 i :
Alkalmazva a binomialis tetelt, ebb}ol mindjart az is kovetkezik, hogy s(A; n)  (n +1)VA . S}ot
az is bebizonythato, hogy VA > 2-re s(A; n)  nVA es minden VA -ra s(A; n)  nVA + 1.
Ez azt jelenti, hogy a shatter egyutthatora vagy az igaz, hogy s(A; n) = 2n minden n-re,
vagy pedig az, hogy s(A; n)  nVA + 1, ami akkor teljesul, ha A Vapnik{Chervonenkis-csalad,
vagyis a VC-dimenzioja veges. pE rdekes, hogy s(A; n) nem eshet a ket nagysagrend koze, azaz
nem lehet peldaul nln n vagy 2 n nagysagrend}u. Ha VA < 1, akkor a Vapnik{Chervonenkis-
egyenl}otlenseg fels}o korlatja exponencialis sebesseggel csokken, ahogy n n}o.
A fenti tetel fels}o korlatja eles.
5.2.3. tetel: ,  ,  csaladja, azaz A = f(,1; x]; x 2 Rg, akkor
1. Ha A a felegyenesek
VA = 1 es s(A; n) = n + 1 = n0 + n1 .
2. Ha A az intervallumok , adja: A = f[x1 ; x2 ]; x1 ; x2 2 Rg, akkor VA = 2 es s(A; n) =
,  ,  csal
n(n+1) + 1 = n + n1 + n2 .
2 0
Bizonytas :
1. -et mar lattuk.
2. -ben VA = 2 abbol latszik, hogy ha lerogztunk 3 pontot az egyenesen, akkor nincs
olyan intervallum, amelyik tartalmazza a ket szels}ot, de a kozeps}ot nem. A shatter
egyutthatot megkapjuk, ha eszrevesszuk, hogy legfeljebb n , k + 1 halmaz van fA \
fX1 ; : : : ; Xn g; A 2 Ag-ban amelyre jA \fX1 ; : : : ; Xn gj = k; k = 1; : : : ; n es egy amelyre
jA \ fX1 ; : : : ; Xngj = 0. Ebb}ol
X
n
s(A; n) = 1 + (n , k + 1) = n(n2+ 1) + 1:
k=1
5.2 Vapnik{Chervonenkis-elmelet 85

A ltalanostsuk a fenti eredmenyt d dimenziora.


5.2.4. tetel: 1. Ha A = f(,1; x1 ]      (,1; xd ]g, akkor VA = d.
2. Ha A az osszes Rd -beli teglalap csaladja, akkor VA = 2d.
Ezek utan megkaphatjuk az 5.1.3 tetel altalanostasat d-dimenzios valoszn}usegi valtozok-
ra.
5.2.5. tetel: Legyen X1; : : : ; Xn 2 Rd fuggetlen, azonos eloszlasu valos ertek}u valoszn}u-
segi valtozo F (x) = P(X1  x) eloszlasfuggvennyel. Ekkor
!
P supd jFn (x) , F (x)j > "  8nd e,n"2=32
x2R
es gy a Borel{Cantelli-lemma miatt
lim sup jF (x) , F (x)j = 0
n!1 x2Rd n

1 valoszn}useggel.
Talan az egyik legfontosabb halmazcsalad az Rd -beli felterek csaladja.
5.2.6. tetel: Legyen A az Rd -beli felterek, azaz az fx : aT x  b; a 2 Rd ; b 2 Rg alaku
reszhalmazok csaladja. Ekkor VA = d + 1.
Nezzunk meg egy negatv peldat:
5.2.7. tetel: Ha A az osszes R2 -beli konvex sokszog csaladja, akkor VA = 1.
Bizonytas : Legyenek x1 ; : : : ; xn 2 R2 az egysegkor kulonboz}o pontjai, ekkor konny}u lat-
ni, hogy barmely reszhalmazukhoz letezik olyan konvex sokszog, amelyik pontosan azokat a
pontokat tartalmazza.
86 5. FEJEZET Eloszlasbecsles
6. fejezet

S}ur}usegfuggveny becslese
6.1. Az L hiba 1

Az egyenletes konvergencia ellenere az empirikus eloszlasfuggveny sokszor nem bizonyul eleg


jo eloszlasbecslesnek. A mertekelmeletb}ol tudjuk, hogy az F (x) eloszlasfuggveny egyertel-
m}uen meghatarozza a (A) eloszlast. A Glivenko{Cantelli-tetel azt mondja, hogy az Fn (x)
empirikus eloszlasfuggveny egyenletesen konvergal az F (x) eloszlasfuggvenyhez. U gy t}unik,
hogy ezzel megoldottuk a (A) eloszlasbecslesenek problemajat. Sajnos a statisztikaban sok
problema eseten a n(A) empirikus eloszlasbecsles hasznalhatatlan. Er}osebb hibakriteriumot
kell keresnunk.
6.1.1. de ncio: Ket valoszn}usegi mertek,  es  variacios tavolsaga
V (;  ) = sup j(A) ,  (A)j;
A
ahol a szupremumot az osszes Borel-halmaz felett vesszuk.
6.1.1. tetel: (Sche e)
Ha a  es  valoszn}usegi mertek abszolut folytonos f , illetve g s}ur}usegfuggvennyel, akkor
1 Z
V (;  ) = 2 jf (x) , g(x)j dx:
Bizonytas : Jelolje A = fx : f (x)  g(x)g. Ekkor egyreszt
Z Z
V (;  ) = sup j(A) ,  (A)j = sup f (x) dx , g(x) dx 
A A
A A
Z Z Z
 f (x) dx , g(x) dx = (f (x) , g(x)) dx =
A A  A 
0 1
Z Z
= 12 B
@ (f (x) , g(x)) dx + (g(x) , f (x)) dxC
A=
A (A )c
1 Z
=2 jf (x) , g(x)j dx:
87
88 6. FEJEZET Su}ru}segfuggveny becslese

Masreszt
Z Z Z Z
f (x) dx , g(x) dx = (f (x) , g(x)) dx + (f (x) , g(x)) dx 
A A A\A A\(A )c
0 1
Z Z
 max B
@ (f (x) , g(x)) dx; (g(x) , f (x)) dxC
A
A\A A\(A )c
0 1
Z Z
 max B
@ (f (x) , g(x)) dx; (g(x) , f (x)) dxC A=
A (A )c
1 Z
=2 jf (x) , g(x)j dx:
Tehat
1 Z
V (;  ) = 2 jf (x) , g(x)j dx:

Ebb}ol a tetelb}ol az kovetkezik, hogy ha talalunk egy L1 -ben konzisztens s}ur}usegfuggveny-


becsl}ot, akkor abbol kaphatunk egy variacios tavolsagban konzisztens eloszlasbecsl}ot.
6.1.2. de ncio: Az fn s}ur}usegfuggvenybecsl}o x-nek es az f s}ur}usegfuggvenyb}ol vett fug-
getlen, azonos eloszlasu X1 ; : : : ; Xn mintaknak Borel-merhet}o fuggvenye:
fn(x) = fn(x; X1 ; : : : ; Xn ):
Ha fn egy L1 -ben konzisztens s}ur}usegfuggvenybecsl}o, azaz
Z
lim jjf , fnjj = nlim
n!1 !1 jf (x) , fn(x)j dx = 0
(sztochasztikusan) 1 valoszn}useggel, akkor a
Z
~n (A) = fn(x) dx
A
eloszlasbecsl}ore
lim V (; ~n ) = 0
n!1
(sztochasztikusan) 1 valoszn}useggel.

6.2. A hisztogram
R
Ha f a  valoszn}usegi mertek s}ur}usegfuggvenye, akkor f = (A) minden Borel-merhet}o
A
halmazra, f majdnem mindenhol egyenl}o a dd Radon{Nikodym-derivalttal, ahol  a Lebes-
gue-merteket jeloli. A legtobb s}ur}usegfuggveny-becsl}o ezt a derivaltat probalja kozelteni. Ket
standard L1 -ben konzisztens s}ur}usegbecsl}o a hisztogram es a magfuggvenyes becsl}o.
6.2 A hisztogram 89

Legyen Pn = fAn1 ; An2 ; : : :g az Rd egy partcioja pozitv es veges Lebesgue-mertek}u cel-
lakra. Ekkor a hisztogram becsl}o az

fn(x) = n((AAn((xx))))
n
fuggveny, ahol n az empirikus mertek, es An (x) = Anj , ha x 2 Anj . A cellak gyakran hn
elhosszusagu d dimenzios kockak, ebben az esetben

fn(x) = n(Ahnd (x))


n
6.2.1. tetel: Tegyuk fel, hogy -nek letezik f s}ur}usegfuggvenye. Ha a hisztogram becsl}o-
nel minden origo kozeppontu S gombre
lim sup diam(Anj ) = 0
n!1 j :Anj \S 6=;

es
lim jfj : Anj \ S 6= ;gj = 0;
n!1 n
akkor Z
lim
n!1
jf (x) , fn(x)j (dx) = 0
1 valoszn}useggel, ahol diam(A) = sup jjx , yjj.
x;y2A

Bizonytas :
Z Z Z
jfn(x) , f (x)j (dx)  jfn(x) , Efn(x)j (dx) + jEfn(x) , f (x)j (dx);
| {z } | {z }
variacios tag torztas
ahol Efn(x) a mintak szerinti varhato erteket jeloli.
Variacios tag:
Z XZ X
jfn(x) , Efn(x)j (dx) = jfn(x) , Efn(x)j (dx) = jn(Anj ) , (Anj )j;
j Anj j
hiszen fn (x) konstans minden cellan.
Jelolje Mn = jfj : Anj \ S 6= ;gj es szamozzuk at a cellakat ugy, hogy An1 ; An2 ; : : : ; AnMn
MSn
legyen az az Mn cella, amelyre Anj \ S 6= ;. Legyen Sn = Anj .
j =1
Z X
jfn(x) , Efn(x)j  jn(Anj , (Anj )j + n(Snc ) + (Snc ) 
X
 jn(Anj ) , (Anj )j + jn(Snc ) , (Snc )j + 2(Snc ) 
X c c c
 jn(Anj ) , (Anj )j + jn(Sn) , (Sn)j + 2(S )
90 6. FEJEZET Su}ru}segfuggveny becslese

Legyen A azon halmazok csaladja, amelyek az An1 ; An2 ; : : : ; AnMn ; Snc veges egyestesei.
Ekkor a Sche e-tetel miatt
X
Mn
jn(Anj ) , (Anj )j + jn(Snc ) , (Snc )j = 2 sup jn(A) , (A)j;
j =1 A2A

tehat 2(S c ) < " eseten a Vapnik{Chervonenkis-egyenl}otlenseg miatt


Z   
P jfn(x) , Efn(x)j (dx) > "  P 2 sup jn (A) , (A)j + 2(S c ) > " =
A2A
 
= P sup jn (A) , (A)j > 2" , (S c) 
A2A
 8s(A; n)e,n( "2 ,(Sc )) =32 
2

 8  2Mn +1e,n( 2" ,(Sc)) =32


2

A tetel masodik feltetele miatt


Mn ! 0;
n
tehat elegend}oen nagy n-re a jobb oldal kisebb, mint
e,n( 2 ,(S c )) =64 ;
" 2

amely osszegezhet}o, tehat a Borel{Cantelli-lemma miatt a variacios tag tart 0-hoz 1 valosz-
n}useggel.
Torztas:
 ( An ( x)) 1 Z Z
Efn(x) = (A (x)) = (A (x)) f (z) (dz) = f (z)Kn (x; z) (dz );
n n
An (x)
ahol Kn (x; z ) = Ifz(2AAnn(x(x)))g .
Ha f folytonos, es egy kompakt halmazon kvul 0, akkor egyenletesen folytonos, ezert a
tetel els}o feltetele miatt a torztas 0-hoz tart. Legyen most f tetsz}oleges, ekkor " > 0-hoz
letezik olyan f~, amely folytonos, egy kompakt halmazon kvul 0, es
Z
jf (x) , f~(x)j (dx) < ":
Ekkor Z Z Z
jf (x) , Efn(x)j (dx) = f (x) , f (z )Kn (x; z) (dz ) (dx) 
Z Z Z
 jf (x) , f~(x)j (dx) + f~(x) , f~(z)Kn (x; z) (dz ) (dx)+
Z Z Z
+ f~(z )Kn (x; z) (dz) , f (z)Kn (x; z ) (dz ) (dx) 
Z Z
"+ f~(x) , f~(z )Kn (x; z) (dz) (dx)+
6.2 A hisztogram 91
Z Z 
+ jf~(z) , f (z)jKn (x; z) (dx) (dz) =
Z Z Z
="+ f~(x) , f~(z)Kn (x; z) (dz) (dx) + jf~(z ) , f (z )j (dz) ! 2"
Itt igazabol elmondtuk a Banach{Steinhaus-tetel bizonytasat, amely szerint ha egy opera-
torsorozat pontonkent konvergal egy s}ur}u halmazon, es az operatornormak sorozata korlatos,
akkor minden pontban konvergal.

6.2.2. tetel: Ha f egy origo kozep}u S kockan kvul 0, Lipschitz-folytonos, azaz


jf (x) , f (z)j  C jjx , zjj;
akkor hn oldalhosszusagu d-dimenzios kockakbol allo partcio eseten a hisztogramra
Z
E jf , fnj  pc1 d + c2 hn;
nhn
tehat
hn = c3 n, d+2
1

valasztasra Z
E jf , fnj  cnn, d+21 :
Bizonytas :
Z Z Z
E jf (x) , fn(x)j (dx)  jf (x) , Efn(x)j (dx) + E jfn(x) , Efn(x)j (dx)
| {z } | {z }
torztas variacio
Variacio:
Legyen S olyan, hogy (S c ) = 0. Jelolje Mn azon cellak szamat a partcioban, amelyek metszik
S -et, Mn = jfj : Anj \ S 6= ;gj  Vol( S)
hdn . Akkor
Z
E jfn(x) , Efn(x)j (dx) 
X Z Z
 E jfn(x) , Efn(x)j (dx) + 2Efn(x) (dx) =
j : Anj \S 6=; Anj Sc
X
= E jn(Anj ) , (Anj )j 
j : Anj \S 6=;
X q
 E jn(Anj ) , (Anj )j2 =
j : Anj \S 6=;
X r (Anj )(1 , (Anj ))
=  n
j : Anj \S 6=;
92 6. FEJEZET Su}ru}segfuggveny becslese
v
u P (A )(1 , (A ))
u
t j: Anj \S6=; nj nj
 n  Mn 
(a Cauchy{Schwarz-egyenl}otlenseg miatt)
s
 Vol( S) :
nh d n
Torztas:
Z Z Z
jf , Efnj = f (x) , f (z)Kn(x; z) (dz) (dx 
ZZ
 jf (x) , f (z)jKn (x; z) (dz) (dx) 
ZZ
 C jjx , z jjKn (x; z) (dz) (dx) 
ZZ
 Chn Kn(x; z) (dz) (dx) = Chn

A magfuggvenyes becsl}ot a nemnegatv, merhet}o K (x) magfuggveny es a pozitv hn sorozat


hatarozza meg:  x , Xi 
1 X n
fn(x) = nhd K h
n i=1 n
6.2.3. tetel: Tegyuk fel, hogy -nek letezik f s}ur}usegfuggvenye. Ha a magfuggvenyes
becsl}onel Z
K (x) (dx) = 1; lim h = 0
n!1 n
es lim nhdn = 1;
n!1
akkor Z
lim
n!1
jf (x) , fn(x)j (dx) = 0
1 valoszn}useggel, vagyis a magfuggvenyes becsl}o is er}osen konzisztens.
Peldak magfuggvenyre:
 Naiv magfuggveny
K (x) = Ifx2S0;r g
ahol S0;r origo kozep}u r sugaru gomb.
 Gauss magfuggveny
K (x) = e,jjxjj2
 Cauchy magfuggveny
K (x) = 1 + jj1xjjd+1
 Epanechnikov magfuggveny
K (x) = (1 , jjxjj2 )Ifjjxjj1g
6.2 A hisztogram 93

6.2.4. tetel: Ha f egy origo kozep}u S gombon kvul 0, f di erencialhato es a gradiens
Lipschitz-folytonos, azaz
jjf 0(x) , f 0(z)jj  C jjx , zjj;
akkor a magfuggvenyes becslesre
Z
E jf , fnj  pc1 d + c2 h2n;
nhn
tehat
hn = c3 n, d+4
1

valasztasra Z
E jf , fnj  c4n, d+42 :
A parameteres statisztikaban a konzisztencia tisztazasa utan az a legfontosabb kerdes,
hogy adott pontossaghoz mekkora mintanagysag kell, azaz mekkora az illet}o becsles konver-
genciasebessege. S}ur}usegfuggveny-becsles eseteben, ha nem teszunk fel semmit az f s}ur}useg-
fuggvenyr}ol, akkor nem tudunk semmit mondani a konvergenciasebessegr}ol, s}ur}usegbecsl}ok
minden ffn g sorozatara igaz az, hogy a varhato L1 -hiba konvergenciasebessege tetsz}olegesen
kicsi lehet.
6.2.5. tetel: S}ur}usegbecsl}ok minden ffng sorozatahoz es pozitv szamok minden mono-
ton, 0-hoz tarto an < 321 sorozatahoz letezik f s}ur}usegfuggveny ugy, hogy
Ejjf , fnjj > an
minden n-re.
94 6. FEJEZET Su}ru}segfuggveny becslese
7. fejezet

Regressziobecsles
7.1. A regresszios problema
Legyen Y valos ertek}u valoszn}usegi valtozo es legyen X d-dimenzios veletlen vektor (meg-
gyeles). X koordinatai kulonboz}o eloszlasuak lehetnek, lehet nemelyik diszkret (peldaul
binaris), masok lehetnek abszolut folytonosak. Igy nem teszunk fel semmit X eloszlasarol.
A regresszioanalzis celja Y becslese, ha X adott, azaz olyan f fuggvenyt keresunk, amely X
ertekkeszleten van de nialva, es amelyre f (X ) "kozel" van Y -hoz. Tegyuk fel, hogy az analzis
f}o celja a negyzeteskozep-hiba minimalizalasa:
min
f
E((f (X ) , Y )2 ):
Jol ismert, hogy a minimumot az
m(x) = E(Y j X = x)
regressziofuggveny eri el, ugyanis minden f merhet}o fuggvenyre
E((f (X ) , Y )2 ) = E((m(X ) , Y )2 ) + E((m(X ) , f (X ))2 ) =
Z
= E((m(X ) , Y )2 ) + jm(x) , f (x)j2 (dx);
ahol  az X eloszlasat jeloli. A jobb oldal masodik tagjat a f fuggveny integralt negyzetes
hibajanak nevezik, es J (f )-fel jelolik
Z
J (f ) = jm(x) , f (x)j2 (dx):
A negyzetes kozep hiba nyilvan pontosan akkor lesz kozel a minimumhoz, ha a J (f ) kozel
van a 0-hoz. A s}ur}usegbecslessel szemben, ahol az L1 -hiba volt a legalkalmasabb hibakriteri-
um, itt az L2 -hiba a legfontosabb. Raadasul a s}ur}usegbecslesnel az L1 -teret a Lebesgue-mer-
tekkel de nialtuk, mg a regressziobecslesnel az L2 -teret -vel de nialjuk.
A regressziobecsles feladatanal legyenek (X1 ; Y1 ); : : : ; (Xn ; Yn ) fuggetlen, azonos eloszla-
su peldanyai (X; Y )-nak. Az mn regressziobecsl}o x-nek es az (Xi ; Yi ) mintaknak merhet}o
fuggvenye:
mn = mn(x; (X1 ; Y1 ); : : : ; (Xn ; Yn)):
Az mn regressziobecsles m-hez valo L2 () konvergenciajat vizsgaljuk.
95
96 7. FEJEZET Regresszio becsles

7.1.1. de ncio: Az mn becsl}o gyengen univerzalisan konzisztens, ha


J (mn ) ! 0 sztochasztikusan
(X; Y ) minden olyan eloszlasara, amelyre EjY j2 < 1.
7.1.2. de ncio: Az mn becsl}o er}osen univerzalisan konzisztens, ha
J (mn ) ! 0 1 valoszn}useggel
(X; Y ) minden olyan eloszlasara, amelyre EjY j2 < 1.

7.2. Lokalis atlagolason alapulo becsl}ok


A lokalis atlagolo regressziobecsl}ok az
X
n
mn(x) = Wni(x; X1 ; : : : ; Xn )Yi
i=1
alaku becsl}ok, ahol a Wni sulyok jellegzetesen nemnegatvak, osszeguk 1, tovabba Wni nagy,
ha x kozel van Xi -hez, kulonben kicsi. Ilyen tpusu regressziobecsl}o a hisztogram, a magfugg-
venyes es a legkozelebbi szomszed becsl}o.
Legyen Pn = fAn1 ; An2 ; : : :g az Rd egy partcioja, es minden x 2 Rd -re jelolje An (x) az
x-et tartalmazo cellat. Ekkor a hisztogrambecsl}o
8X n
>
> YiIfXi 2An (x)g
>
< i=1n X
n
mn(x) = > X ; ha IfXi 2An (x)g > 0
IfXi 2An (x)g i=1
>
>
:0 i =1
kulonben.
A cellak gyakran hn elhosszusagu d-dimenzios kockak.
7.2.1. tetel: Ha minden origo kozep}u S gombre
lim sup
n!1 j : Anj \S 6=;
diam(Anj ) = 0

es
lim jfj : Anj \ S 6= ;gj = 0;
n!1 n
akkor a hisztogram regressziobecsl}o er}osen konzisztens, ha jY j  L valamely L < 1-re 1
valoszn}useggel.
Megjegyzes : Ha a cellak hn elhosszusagu kockak, akkor a tetel feltetelei: hn ! 0 es
nhdn ! 1.
Miel}ott raternenk a tetel bizonytasara, kimondjuk es bebizonytjuk a Hoe ding-egyen-
l}otlenseg egy, McDiarmidtol szarmazo altalanostasat, amelyre a 7.2.1 tetel bizonytasanal
szuksegunk lesz. Ehhez el}oszor vezessuk be a martingal fogalmat.
7.2 Lokalis atlagolason alapulo becslo} k 97

7.2.1. de ncio: Valoszn}usegi valtozok egy Z1; Z2 ; : : : sorozatat martingal nak nevezzuk,
ha
E fZi+1jZ1 ; : : : ; Zi g = Zi 1 valoszn}useggel
minden i > 0-ra.
Legyen X1 ; X2 ; : : : valoszn}usegi valtozok egy tetsz}oleges sorozata. Z1 ; Z2 ; : : :-t az X1 ; X2 ; : : :
sorozat szerinti martingal nak nevezzuk, ha minden i > 0-ra Zi az X1 ; : : : ; Xi egy fuggvenye
es
E fZi+1jX1 ; : : : ; Xi g = Zi 1 valoszn}useggel.
Nyilvanvalo, hogy ha Z1 ; Z2 ; : : : az X1 ; X2 ; : : : sorozat szerinti martingal, akkor Z1 ; Z2 ; : : :
martingal, hiszen

E fZi+1 jZ1; : : : ; Zi g = E fE fZi+1 jX1 ; : : : ; Xi g jZ1 ; : : : ; Zi g


= E fZi jZ1 ; : : : ; Zi g
= Zi :
A legfontosabb pelda martingalra a fuggetlen, nulla varhato ertek}u valoszn}usegi valtozok
osszege. Legyen U1 ; U2 ; : : : fuggetlen valoszn}usegi valtozo nulla varhato ertekkel. Ekkor az
Xi
Si = Uj ; i > 0;
j =1
martingal.
7.2.2. de ncio: Valoszn}usegi valtozok egy V1 ; V2 ; : : : sorozatat martingal di erencia so-
rozat nak nevezzuk, ha
E fVi+1jV1 ; : : : ; Vi g = 0 1 valoszn}useggel
minden i > 0-ra.
V1 ; V2; : : :-t az X1 ; X2 ; : : : sorozat szerinti martingal di erencia sorozat nak nevezzuk, ha
minden i > 0-ra Vi az X1 ; : : : ; Xi egy fuggvenye es
E fVi+1jX1 ; : : : ; Xi g = 0 1 valoszn}useggel.
Minden Z1 ; Z2 ; : : : martingal termeszetes modon vezet egy martingal di erenciahoz:
Vi = Zi , Zi,1 :
7.2.2. tetel: (Azuma{Hoe ding)
Legyen X1 ; X2 ; : : : valoszn}usegi valtozok egy sorozata es V1 ; V2 ; : : : az X1 ; X2 ; : : : sorozat
szerinti martingal di erencia sorozat. Tegyuk fel, hogy letezik valoszn}usegi valtozok egy
Z1; Z2 ; : : : sorozata es nemnegatv c1 ; c2 ; : : : konstansok ugy, hogy minden i > 0-ra Zi az
X1 ; : : : ; Xi,1 egy fuggvenye es
Zi  Vi  Zi + ci 1 valoszn}useggel.
Ekkor minden " > 0-ra es n-re
(X
n ) n
,2"2 P c2i
P Vi  "  e i=1
i=1
98 7. FEJEZET Regresszio becsles

es (X ) n
n ,2"2 P c2i
P Vi  ,"  e i=1 :
i=1

A bizonytas a Hoe ding-egyenl}otlenseg bizonytasanak kiterjesztese. Szuksegunk lesz az


5.1.1 lemma analogjara:
7.2.1. lemma: Tegyuk fel, hogy a V es Z valoszn}usegi valtozokra 1 valoszn}useggel igaz,
hogy EfV jZ g = 0 es, hogy valamely f fuggvenyre es c  0 konstansra
f (Z )  V  f (Z ) + c:
Ekkor minden s > 0-ra 
E esV jZ  es2c2 =8:

A 7.2.2 tetel bizonytasa:


A Hoe ding-egyenl}otlenseg bizonytasahoz hasonloan most is a Cherno -technikat hasznaljuk.
Pk
Legyen Sk = Vi . Ekkor minden s > 0-ra
i=1

PfSn  "g  e,s"E esSn


 
= e,s" E esSn,1 E esVn jX1 ; : : : ; Xn,1

 e,s"E esSn,1 es2c2n=8 (7.2.1 lemma miatt)
n
, s" s2 P c2i =8
 e e i=1 (ismetelve az el}oz}o lepeseket)
n
= e
, 2"
2 P
c
i=1 i
2
(ha s = 4"=
Pn c2 ).
i
i=1
A masodik egyenl}otlenseg hasonloan bizonythato.

7.2.3. tetel: (McDiarmid)


Legyenek X1 ; : : : ; Xn fuggetlen valoszn}usegi valtozok, amelyek ertekuket egy A halmazbol
veszik, es tegyuk fel, hogy f : An ! R fuggvenyre teljesul, hogy
sup jf (x1 ; : : : ; xn ) , f (x1 ; : : : ; xi,1 ; x0i ; xi+1 ; : : : ; xn )j  ci ; 1  i  n:
x1 ;:::;xn;
x0i 2A

Ekkor minden " > 0-ra


n
,2"2 / P c2i
P ff (X1 ; : : : ; Xn ) , Ef (X1; : : : ; Xn )  "g  e i=1 ;
es n
,2"2 / P c2i
P fEf (X1; : : : ; Xn ) , f (X1 ; : : : ; Xn )  "g  e i=1 :
7.2 Lokalis atlagolason alapulo becslo} k 99

Bizonytas : Legyen V = f (X1 ; : : : ; Xn ) , Ef (X1; : : : ; Xn ), V1 = EfV jX1 g, EV , es k > 1-


re,
Vk = EfV jX1 : : : ; Xk g , EfV jX1 ; : : : ; Xk,1 g:
Igy V = Pn
Vk . Vilagos, hogy V1 ; : : : ; Vn az X1 ; : : : ; Xn szerinti martingal di erencia sorozatot
k=1
alkot. De nialjuk a kovetkez}o valoszn}usegi valtozokat
Hk (X1 ; : : : ; Xk ) = E ff (X1 ; : : : ; Xn )jX1 ; : : : ; Xk g ;
ekkor Z
Vk = Hk (X1 ; : : : ; Xk ) , Hk (X1 ; : : : ; Xk,1 ; x)Fk (dx);
ahol Fk az Xk eloszlasfuggvenye. Vezessuk be a
 Z 
Wk = sup Hk (X1 ; : : : ; Xk,1 ; u) , Hk (X1 ; : : : ; Xk,1 ; x)Fk (dx) ;
u
es a  Z 
Zk = inf
v
Hk (X1 ; : : : ; Xk,1 ; v) , Hk (X1 ; : : : ; Xk,1 ; x)Fk (dx) :
valoszn}usegi valtozokat. Vilagos, hogy Zk  Vk  Wk 1 valoszn}useggel. Mivel minden k-ra
Pn
Zk az X1 ; : : : ; Xk,1 egy fuggvenye, alkalmazhatjuk a 7.2.1 lemmat V = Vk -ra, ha meg
k=1
tudjuk mutatni, hogy Wk , Zk  ck . De ez kovetkezik a tetel feltetelei miatt
Wk , Zk = sup sup (Hk (X1 ; : : : ; Xk,1; u) , Hk (X1 ; : : : ; Xk,1 ; v))  ck ;
u v

Pn
Megjegyzes : Ha az Xi -k korlatosak, akkor az f (x1 ; : : : ; xn ) = xi valasztassal a Hoe -
i=1
ding-egyenl}otlenseghez jutunk.
A 7.2.1 tetel bizonytasa:
A tetelt arra az esetre bizonytjuk, amikor m(x) folytonos.
A celunk azt bebizonytani, hogy
Z
n!1
lim (mn(x) , m(x))2 (dx) = 0
1 valoszn}useggel.
Legyen
Pn Y I
i fXi 2An (x)g
mn(x) = i=1n(A (x)) ;
n
ekkor Z
(mn (x) , m(x))2 (dx) 
Z Z 
2 (mn (x) , mn (x))2 (dx) + (mn (x) , m(x))2 (dx) =
= 2J1 + 2J2
100 7. FEJEZET Regresszio becsles

J2 1 valoszn}useg}u konvergenciajahoz megmutatjuk, hogy


Z 
P jm (x) , m(x)j (dx) > "
n  e,n"2 =(32L2 ) ;
amib}ol Z Z
J2 = jmn(x) , m(x)j2 (dx)  2L jmn(x) , m(x)j (dx)
es a Borel{Cantelli-lemma miatt kovetkezik J2 1 valoszn}useg}u konvergenciaja.
Z Z
jm (x) , m(x)j (dx) = E
n jmn(x) , m(x)j (dx)+
Z Z 
+ jm (x) , m(x)j (dx) , E
n jm (x) , m(x)j (dx)
n (*)
A haromszog egyenl}otlensegb}ol
Z
E jmn(x) , m(x)j (dx) 
Z Z
 jEmn(x) , m(x)j (dx) + E jmn(x) , Emn(x)j (dx)
ahol az els}o tag a torztas, a masodik a variacio. A kozepertektetel miatt
R m(z) (dz)
Z Ifz2An(x)g
Emn(x) = (A (x)) m(z)(dz) = An(x) (A (x)) = m(an(x))
n n
valamely an (x) 2 An (x)-re.
Torztas:
Mivel m(x) folytonos,
0
egyenletesen is folytonos az origo kozep}u S gombon: 8 > 0-hoz 90 > 0:
jjx , zjj <  eseten jm(x) , m(z)j < .
Z
jEmn(x) , m(x)j (dx) =
Z Z
= jEm (x) , m(x)j (dx) +
n jEmn(x) , m(x)j (dx) =
Sc
ZS Z
= jm(an(x)) , m(x)j (dx) + jEmn(x) , m(x)j (dx) 
S Sc
  + 2L(S c)  "
4;
hiszen ha jY j  L 1 valoszn}useggel, akkor jm()j  L. Tehat a torztas 0-hoz tart.
Variacio:
Jelolje Mn azon cellak szamat a partcioban, amelyek metszik S -et, Mn = jfj : Anj \ S 6= ;gj.
Z
E jmn(x) , Emn(x)j (dx) =
Z Z
=E jm (x) , Em (x)j (dx) + E
n n jmn(x) , Emn(x)j (dx) 
S Sc
7.2 Lokalis atlagolason alapulo becslo} k 101
X Z
 E jmn(x) , Emn(x)j (dx) + 2L(S c) 
j : Anj \S 6=; Anj
X Z q
 E jmn(x) , Emn(x)j2 (dx) + 2L(S c) 
j : Anj \S 6=;Anj

X Z s nL2(Anj ) c
 (n(Anj ))2 (dx) + 2L(S ) 
j : Anj \S 6=;Anj
X r
 L (Annj ) + 2L(S c) 
j : Anj \S 6=;
v
u P
u 1
t Mn j: Anj \S6=; (Anj )
 LMn n + 2L(S c ) 
(Jensen-egyenl}otlenseg) r
 L Mnn + 2L(S c)  4"
hiszen a tetel masodik feltetele szerint Mnn ! 0, es (S c ) tetsz}olegesen kicsive tehet}o.
Igy tehat eleg nagy n-re
Z
E jmn(x) , m(x)j (dx)  2" ;
tehat (*) miatt Z 
P jmn(x) , m(x)j (dx) > " 
Z Z "

P jm (x) , m(x)j (dx) , E
n jm (x) , m(x)j (dx) >
n 2
A jobb oldalon allo valoszn}usegre a McDiarmid-egyenl}otlenseggel kaphatunk exponencialis
fels}o korlatot.
Rogztsuk le az (x1 ; y1 ); : : : ; (xn ; yn ) 2 Rd  [,L; L] mintainkat es csereljuk ki (xi ; yi )-t
(xi ; yi0 )-re. Jeloljuk mni-vel az gy kapott becsl}ot. Ekkor mn (x) es mni(x) maximum ket
0
cellan, An (xi )-n es An (x0i )-n, kulonbozik, gy
Z Z
jm (x) , m(x)j (dx) ,
n jmni(x) , m(x)j (dx) 
Z
 jmn(x) , mni(x)j (dx) 
 n(A2L(x )) (An (xi)) + n(A2L(x0 )) (An(x0i ))  4nL
n i n i
Tehat a McDiarmid-egyenl}otlenseg feltetele ci = 4nL -nel teljesul, gy
Z Z "   e,n"2 =(32L2 )
P jm (x) , m(x)j (dx) , E
n jm (x) , m(x)j (dx) >
n 2
102 7. FEJEZET Regresszio becsles

Tehat eleg nagy n -re


Z 
P jm (x) , m(x)j (dx) > "
n  e,n"2 =(32L2 ) ;
amib}ol kovetkezik, hogy J2 ! 0 1 valoszn}useggel.
J1 1 valoszn}useg}u konvergenciajanak belatasahoz vegyuk eszre, hogy ha n(An (x)) 6= 0,
akkor n PYI n PYI
i fXi 2An (x)g i fXi 2An (x)g
jmn(x) , m(x)j = i=1 , i=1Pn 
n(An(x)) I fXi 2An (x)g
i=1

X
n
L IfXi 2An (x)g  n(A1 (x)) , P
n
1 =
i=1 n I fXi 2An (x)g
i=1
Pn I
fXi 2An (x)g
= L i=1n(A (x)) , 1 = L jMn (x) , 1j ;
n

ahol Mn (x) az mn(x) specialis alakja, ha Y  1.


Ha n (An (x)) = 0, akkor
jmn(x) , mn(x)j = 0  L jMn(x) , 1j :
Igy tehat
Z Z
J1 = (mn(x) , mn(x))2 (dx)  L2 (Mn (x) , 1)2 (dx) ! 0
1 valoszn}useggel J2 1 valoszn}useg}u konvergenciaja miatt.
Tehat a tetelt bebizonytottuk.

A magfuggvenyes regressziobecsl}ot, a s}ur}usegbecsl}ohoz hasonloan, az abszolut integralhato


K (x) magfuggveny es a pozitv hn simtotenyez}o hatarozza meg
Pn Y K  x,Xi 
i hn
i =1
mn(x) = P n  
K x,Xi hn
i=1
7.2.3. de ncio: A K (x) magfuggveny regularis, ha nemnegatv es letezik S0;r origo ko-
zeppontu, r > 0 sugaru gomb es b > 0 konstans ugy, hogy
K (x)  bIfx2S0;r g
es Z
sup K (u) dx < 1:
u2x+S0;r
7.3 Empirikus hibaminimalizalas 103

7.2.4. tetel: Ha a K (x) magfuggveny regularis, hn ! 0, nhdn ! 1 es jY j  L valamely


L < 1-re 1 valoszn}useggel, akkor a magfuggvenyes regressziobecsl}o er}osen konzisztens.
A kn -legkozelebbi szomszed becsl}o az x-hez legkozelebbi kn darab Xi mintahoz tartozo
Yi -ket atlagolja. Legyen (X(1;n) (x); Y(1;n) (x)); : : : ; (X(n;n) (x); Y(n;n) (x)) az Xi -k x-t}ol vett ta-
volsaga szerint noveked}oen rendezett minta. X(i;n) (x) az x i-edik legkozelebbi szomszedja. Ha
jjXi , xjj = jjXj , xjj, akkor Xi kozelebbi, ha i < j . Ekkor
X
kn
mn (x) = k1 Y(i;n) (x)
n i=1

7.2.5. tetel: Ha az jjX , xjj valoszn}usegi valtozo abszolut folytonos minden x-re, kn !
1, kn=n ! 0 es jY j  L valamely L < 1-re 1 valoszn}useggel, akkor a kn-legkozelebbi
szomszed regressziobecsl}o er}osen konzisztens.
Tehat leteznek univerzalisan konzisztens regressziobecsl}ok, de a konvergenciasebesseg, a
s}ur}usegfuggveny-becsleshez hasonloan, itt is tetsz}olegesen kicsi lehet.
7.2.6. tetel: Regressziobecsl}ok minden fmng sorozatahoz es pozitv szamok minden mo-
noton 0-hoz tarto an < 1=64 sorozatahoz letezik (X; Y )-nak olyan eloszlasa, amelyre X egyen-
letes eloszlasu [0; 1]-en, Y = m(X ) es
Z
EJ (mn) = E (mn(x) , m(x))2 (dx) > an
minden n-re.

7.3. Empirikus hibaminimalizalas


Az eddig ismertetett regressziobecslesi modszerek a lokalis atlagolas elven alapulnak. Lete-
zik egy masik, hasonloan termeszetes alapelv, az empirikus hibaminimalizalas, amely szinten
elvezethet univerzalisan konzisztens becslesekhez.
Valasztunk egy Fn fuggvenycsaladot, es a regressziobecsles ebb}ol a csaladbol vehet fuggve-
nyeket. Az Fn kivalasztasakor vagy az m(x) regressziofuggvenyr}ol szerzett ismereteink jatsz-
hatnak szerepet, vagy Fn olyan fuggvenyekb}ol all, amelyek szamtogeppel bizonyos szamtasi
bonyolultsaggal realizalhatok.
Korabban mar lattuk, hogy az m(x) regressziofuggveny minimalizalja az L2 -hibat. Tehat
mondhatnank azt, hogy minimalizaljuk E(f (X ) , Y )2 -t az Fn csaladon. Ez azonban nyilvan-
valoan lehetetlen, mert a minimalizalando fuggveny fugg az (X; Y ) ismeretlen eloszlasatol.
7.3.1. de ncio: Az empirikus L2-hiba a mintakon elkovetett hibak negyzeteinek atlaga:
1X
n
(f (X ) , Y )2
n i=1 i i

Az empirikus hibaminimalizalas soran azt a fuggvenyt valasztjuk ki Fn-b}ol, amelynek az


empirikus hibaja minimalis:
X
n !
1
mn = argmin n (f (Xi ) , Yi )2
f 2Fn i=1
104 7. FEJEZET Regresszio becsles

A kerdes, hogy mekkora az gy valasztott mn (x) becsl}o L2 hibaja.


Z
jmn(x) , m(x)j2 (dx) =
   
= E jmn (X ) , Y j2 j Dn , E jm(X ) , Y j2 =
    
= E jmn (X ) , Y j2 j D n , finf
2Fn
E jf (X ) , Y j2 +
    
+ finf
2F
E jf (X ) , Y j2 , E jm(X ) , Y j2
n
A jobb oldalon szerepl}o els}o tag a becslesi hiba, a masodik tag pedig az approximacios hiba.
A becslesi hiba azt meri, hogy a becsl}o L2 -hibaja mennyire ter el a fuggvenycsaladbeli legjobb
fuggveny L2 -hibajatol, az approximacios hiba pedig azt, hogy mennyire jol lehet a regresszi-
ofuggvenyt Fn-beli fuggvenyekkel kozelteni L2 ertelemben. Ha az Fn csalad nagy, akkor az
approximacios hiba ugyan lehet nagyon kozel 0-hoz, de lehet, hogy nincs eleg mintank ahhoz,
hogy Fn-b}ol jo becsl}ot valasszunk, azaz a becslesi hiba nagy lehet. Ha Fn kicsi, akkor pe-
dig az approximacios hiba lehet nagyon nagy. Ahhoz, hogy univerzalisan konzisztens becsl}ot
kapjunk, azt kell megmutatni, hogy mindket tag 0-hoz tart.
Az approximacios hibara ez gyakran eleg egyszer}u. El}oszor is konnyen lathato, hogy
Z
inf
f 2Fn
E jf (X ) , Y j2 , E jm(X ) , Y j2 = inf
f 2Fn
jf (x) , m(x)j (dx):
Ha peldaul Fn  Fn+1 minden n-re, akkor az, hogy minden  mertekre es m 2 L2 -re
Z
lim inf
n!1 f 2Fn
jf (x) , m(x)j2 (dx) = 0

egyszer}uen azt jelenti, hogy


S1 F s}ur}u L2 ()-ben minden  mertekre. Ez igaz peldaul, ha
n
n=1
S1 F s}ur}u C01 (Rd )-ben a szupremum norma szerint, mivel C01(Rd ) s}ur}u L2 ()-ben minden
n
n=1
 eloszlasra es Z
jf (x) , m(x)j2 (dx)  jjf , mjj21
Most nezzuk tehat a becslesi hibat.
7.3.1. lemma:
 
E jmn (X ) , Y j2 j Dn , finf
2Fn
E jf (X ) , Y j2 
X
n
 2 sup n1 jf (Xi) , Yij2 , E jf (X ) , Y j2
f 2Fn i=1
Bizonytas :  
E jmn (X ) , Y j2 j Dn , finf
2Fn
E j f ( X ) , Y j 2=

  1X n
= sup E (mn (X ) , Y ) j Dn , n jmn (Xi ) , Yi j2 +
2
f 2Fn i=1
7.3 Empirikus hibaminimalizalas 105
X
n X
n
+ n1 jmn(Xi ) , Yij2 , n1 jf (Xi) , Yij2+
i=1 i=1
Xn !
+1 n i=1 jf (Xi ) , Yij2 , E jf (X ) , Y j2 
  X
n
 sup E (mn(X ) , Y )2 j Dn , n1 jmn(Xi ) , Yij2+
f 2Fn i=1
X
n !
+ n1 jf (Xi ) , Yi j2 , E jf (X ) , Y j2 
i=1
X
n
 2 sup n1 jf (Xi) , Yij2 , E jf (X ) , Y j2
f 2Fn i=1
Az els}o egyenl}otlenseg mn valasztasabol adodik, mn minimalizalja az empirikus L2 -hibat Fn-
ben, gy 8f 2 Fn-re
1Xn
j m (X ) , Y j 2 , 1 X jf (X ) , Y j2  0
n
n n i i n i i
i=1 i=1

Tehat ahhoz, hogy megmutassuk, hogy a becslesi hiba 0-hoz tart, a lemma jobb oldalan
allo kifejezest kell vizsgalnunk.
Legyen Z = (X; Y ); Zi = (Xi ; Yi ); i = 1; : : : ; n; gf (x; y) = jf (x) , yj2 minden f 2 Fn-re
es Gn = fgf : f 2 Fng. Ekkor a fenti kifejezes a kovetkez}o alakban rhato
1 X
n
sup n g(Zi ) , Eg(Z ) :
g2Gn i=1
Tehat egy atlag es a varhato erteke kozotti kulonbseget akarjuk felulr}ol becsulni egyenletesen
egy fuggvenycsalad felett.
Ha g korlatos, azaz g : Rd  R ! [0; M ], akkor a Hoe ding-egyenl}otlensegb}ol kapjuk, hogy
!
P 1X
n
,2n"2 =M 2
n g(Zi ) , Eg(Z ) > "  2e
i=1
7.3.2. lemma:
1 Xn
1 X
n
sup g(Zi ) , Eg(Z )  M sup n Ifg(Zi )>tg , P (g(Z ) > t)
g2Gn n i=1 g2Gn i=1
t>0
Bizonytas : Hasznaljuk a nemnegatv valoszn}usegi valtozokra ervenyes
Z1
P(X > t) dt = EX
0
azonossagot.
1 X
n
sup n g(Zi ) , Eg(Z ) =
g2Gn i=1
106 7. FEJEZET Regresszio becsles
Z1 !
1X
n
= sup
g2Gn n i=1 fg(Zi )>tg , P (g(Z ) > t) dt 
I
0
1 X
n
 M sup n Ifg(Zi )>tg , P (g(Z ) > t)
g2G n i=1
t>0

Legyen
G^ n = ffz : g(z) > tg : g 2 Gn; t 2 [0; M ]g :
Bebizonythato a Vapnik{Chervonenkis-egyenl}otlenseg altalanostasa, amib}ol kovetkezik, hogy
X
n !
1
P sup n g(Zi ) , Eg(Z ) > "  8s(G^ n; n)e,n"=(32M 2 ):
g2Gn i=1

Osszefoglalva az eddigieket, a kovetkez}ot kapjuk:
7.3.1. tetel: Tegyuk fel, hogy jY j  L valamely L < 1-re 1 valoszn}useggel. Legyen Fn
olyan f fuggvenyek csaladja, amelyekre jf (x)j  n minden x-re. Ekkor eleg nagy n-re
   
P E jmn (X ) , Y j2 j D n , finf
2Fn
E (f (X ) , Y )2 > "  8nVG^ n e,n"2 =128(4 n2 )2 :

Ahol a fels}o korlat exponencialisan tart 0-hoz, ha G^ n Vapnik{Chervonenkis dimenzioja veges


es nn4 ! 1. Ebben az esetben tehat a becslesi hiba 1 valoszn}useggel 0-hoz tart. Ahhoz, hogy
az approximacios hiba 0-hoz tartson viszont kell az, hogy n ! 1.
Legyen peldaul Fn a
X
Kn
aj j (x) : a1 ; : : : ; aKn 2 R
j =1
alaku linearis kombinaciok csaladja, ahol a j -k Rd -b}ol R-be kepez}o korlatos fuggvenyek. Ha
ezen a csaladon minimalizaljuk az4 empirikus negyzetes4 hibat, akkor konzisztens becsl}ot ka-
punk, ha Kn ! 1; n ! 1 es nnKn ! 0. Ha meg n1,n  ! 0 is teljesul valamilyen  > 0-ra,
akkor a becsl}o er}osen univerzalisan konzisztens.
A korabban latott hisztogram becsl}o is egy emipirikus hibaminimalizalo becsl}o. Legyen
Pn = fAn1 ; An2 ; : : :g az Rd egy partcioja, es legyen Fn azon fuggvenyek csaladja, amelyek
minden cellan konstansok. Ekkor a legkisebb empirikus negyzetes hibaju becsl}ot ugy kapjuk,
ha cellankent minimalizalunk. Egy cellan pedig a minimumot az odaes}o Yi -k atlaga adja, ami
nem mas, mint a hisztogrambecsl}o erteke az adott cellan.
8. fejezet

Alakfelismeres
8.1. A Bayes-dontes es kozeltese
Az alakfelismeresben Y ket erteket vehet fel, 0-t vagy 1-et (peldaul, hogy egy paciens szenved-e
egy adott betegsegben vagy nem). Az Y cmke ertekere szeretnenk kovetkeztetni adott X 2 Rd
meg gyelesvektor alapjan (ami tartalmazhatja pl. a paciens h}omersekletet, vernyomasat stb.).
A dontes vagy osztalyozasi szabaly egy
g : Rd ! f0; 1g
fuggveny, amelynek a min}oseget az
L(g) = P (g(X ) 6= Y )
hibavaloszn}useg meri. A cel L(g) minimalizalasa.
8.1.1. de ncio: Bayes-dontes:
 1; ha P (Y = 1 j X = x)  1

g (x) = 0 kulonben. 2

L = L(g ) az un. Bayes-hiba.


A Bayes-dontes optimalis.
8.1.1. tetel: Minden g : Rd ! f0; 1g dontesfuggvenyre
P (g (X ) 6= Y )  P (g(X ) 6= Y ) :
Bizonytas : Igazak az alabbi egyszer}u atalaktasok:
P (g(X ) 6= Y j X = x) = 1 , P (Y = g(X ) j X = x) =
= 1 , (P (Y = 1; g(X ) = 1 j X = x) + P (Y = 0; g(X ) = 0 j X = x)) =
,
= 1 , Ifg(x)=1g P (Y = 1 j X = x) + Ifg(x)=0g P (Y = 0 j X = x)

Igy tehat minden x 2 Rd -re
P (g(X ) 6= Y j X = x) , P (g (X ) 6= Y j X = x) =
,
= P (Y = 1 j X = x) Ifg (x)=1g , Ifg(x)=1g +

,
+P (Y = 0 j X = x) Ifg (x)=0g , Ifg(x)=0g =

,
= (2P (Y = 1 j X = x) , 1) Ifg (x)=1g , Ifg(x)=1g  0

g de ncioja alapjan. Mindket oldalt  szerint integralva kapjuk a tetel alltasat.
107
108 8. FEJEZET Alakfelismeres

A P (Y = 1 j X = x) es P (Y = 0 j X = x) valoszn}usegek az un. a posteriori valoszn}use-


gek. Vegyuk eszre, hogy
P (Y = 1 j X = x) = E (Y j X = x) = m(x):
Tehat a Bayes-dontes a kovetkez}okeppen rhato
 1; ha m(x)  21
g (x) = 0 kulonben.
A Bayes-donteshez ismernunk kellene a regressziofuggvenyt, ami tipikusan ismeretlen,
ezert most is a Dn = f(X1 ; Y1 ); : : : ; (Xn ; Yn )g fuggetlen, azonos eloszlasu mintakat hasznal-
hatjuk. Olyan gn (x) = gn ((X1 ; Y1 ); : : : ; (Xn ; Yn ); x) osztalyozasi szabalyt szeretnenk talalni,
amelynek az
L(gn) = P (gn(X ) 6= Y j (X1 ; Y1 ); : : : ; (Xn ; Yn ))
hibavaloszn}usege kozel van L -hoz.
8.1.2. de ncio: A gn osztalyozasi szabaly gyengen univerzalisan konzisztens, ha (X; Y )
minden eloszlasara
EL(gn) = P(gn (X ) 6= Y ) ! L
ha n ! 1, es er}osen univerzalisan konzisztens, ha
lim L(gn ) = L
n!1
1 valoszn}useggel.
Termeszetes gondolat, hogy a mintak segtsegevel becsuljuk az m regressziofuggvenyt az
mn regressziobecsl}ovel, es vegyuk a Bayes-dontes mintajara az un. "plug-in" dontesfuggvenyt.
 1; ha m (x)  1
g (x) = n 2 (*)
n 0 kulonben.
A kovetkez}o tetel azt alltja, hogy ha az mn kozel van a valodi m regressziofuggvenyhez,
akkor a gn hibavaloszn}usege kozel lesz az optimalis g hibavaloszn}useghez.
8.1.2. tetel: A fent de nialt gn dontesfuggvenyre
Z
0  P (gn (X ) 6= Y j Dn ) , P (g (X ) 6= Y )  2 jmn(x) , m(x)j (dx) 
Z  1

(x) , m(x)j2
2
2 jmn (dx)

Bizonytas : Tetsz}oleges x 2 Rd -re


P (gn(X ) 6= Y j Dn; X = x) , P (g (X ) 6= Y j X = x) =
, 
= Ifg (x)=1g m(x) + Ifg (x)=0g (1 , m(x)) , Ifgn (x)=1g m(x) + Ifgn (x)=0g (1 , m(x)) =
, 
= Ifg (x)=1g m(x) + Ifg (x)=0g (1 , m(x)) , Ifg (x)=1g mn (x) + Ifg (x)=0g (1 , mn(x)) +
8.2 Lokalis to bbsegen alapulo do ntesek 109
,  ,
+ Ifg (x)=1g mn(x) + Ifg (x)=0g (1 , mn(x)) , Ifgn (x)=1g mn (x) + Ifgn (x)=0g (1 , mn (x)) +

,  ,
+ Ifgn (x)=1g mn(x) + Ifgn (x)=0g (1 , mn(x)) , Ifgn (x)=1g m(x) + Ifgn (x)=0g (1 , m(x)) 

 Ifg(x)=1g (m(x) , mn(x)) + Ifg(x)=0g (mn(x) , m(x))+
+Ifgn (x)=1g (mn (x) , m(x)) + Ifgn (x)=0g (m(x) , mn (x)) 
 2 jmn(x) , m(x)j ;
ahol az utolso el}otti egyenl}otlensegnel azt hasznaltuk, hogy gn de ncioja miatt
Ifgn(x)=1g mn(x) + Ifgn(x)=0g (1 , mn(x)) = maxfmn (x); 1 , mn(x)g
amib}ol
Ifg (x)=1g mn (x) + Ifg (x)=0g (1 , mn(x)) , Ifgn(x)=1g mn(x) + Ifgn (x)=0g  0:
Igy
0  P (gn (X ) 6= Y j Dn ) , P (g (X ) 6= Y ) =
Z
= (P (gn (X ) 6= Y j Dn ; X = x) , P (g (X ) 6= Y j X = x)) (dx) 
Z Z  1

(x) , m(x)j2
2
 2 jmn(x) , m(x)j (dx)  2 jmn (dx)
a Cauchy{Schwartz-egyenl}otlenseg miatt.

Igy egy L2 -ben konzisztens regressziobecsl}ob}ol automatikusan kaphatunk konzisztens don-


tesfuggvenyt. De ahhoz, hogy (*) a Bayes-dontest jol kozeltse egyaltalan nem fontos, hogy
mn (x) kozel legyen m(x)-hez. Csak az a lenyeges, hogy a dontesi hatar ugyanazon oldalan le-
gyenek, azaz hogy mn(x)  21 legyen, ha m(x)  12 es legyen  < 12 , ha m(x) < 12 . Megis gyakran
hasznaljak a plug-in donteseket az E jmn(X ) , Y j2 j Dn L2 -hiba minimalizalasaval kapott
regressziobecsl}ovel, mert az L2 -hiba minimalizalasa hatekonyan szamthato becsl}okhoz vezet.

8.2. Lokalis tobbsegen alapulo dontesek


A regressziobecsleshez hasonloan itt is de nialhatjuk a harom lokalis atlagolason alapulo osz-
talyozasi szabalyt a hisztogram, a magfuggvenyes es a legkozelebbi szomszed dontest.
Legyen Pn = fAn1 ; An2 ; : : :g az Rd egy partcioja, es minden x 2 Rd -re jelolje An (x) az
x-et tartalmazo cellat. Ekkor a hisztogram szabaly
8 Pn Pn
< ha IfYi =1g IfXi 2An (x)g  IfYi =0g IfXi 2An (x)g
gn(x) = : 1; i=1 i=1
0 kulonben.
Azaz tobbsegi dontest hoz az An (x)-be es}o mintak cmkei alapjan. Lathato, hogy ha mn(x) a
hisztogram regressziobecsl}o, azaz
8X n
>
> Yi IfXi 2An (x)g
>
< i=1n X
n
mn(x) = > X ; ha IfXi 2An (x)g > 0
IfXi 2An (x)g i=1
>
>
:0 i =1
kulonben,
110 8. FEJEZET Alakfelismeres

akkor a hisztogram szabaly nem mas, mint egy plug-in osztalyozasi szabaly, amelyben az m(x)
regressziofuggvenyt az mn(x) becsl}ovel becsuljuk. Tehat a hisztogram szabaly konzisztenciaja
a korabbiak miatt kovetkezik a hisztogram regressziobecsl}o konzisztenciajabol.
8.2.1. tetel: Ha minden origo kozep}u S gombre
lim sup
n!1 j : Anj \S 6=;
diam(Anj ) = 0

es
lim jfj : Anjn\ S 6= ;gj = 0
n!1
akkor a hisztogram osztalyozasi szabaly er}osen univerzalisan konzisztens.
A magfuggvenyes osztalyozasi szabalyt a
8 Pn   Pn  
< ha IfYi =1g K x,hnXi  IfYi =0g K x,hnXi
gn(x) = : 1; i=1 i=1
0 kulonben.
fuggveny adja meg, ahol a K (x) : Rd ! R egy nemnegatv, integralhato magfuggveny es hn
pedig egy n-t}ol fugg}o simto tenyez}o.
Ez a szabaly is egy plug-in szabaly, ahol az mn (x) regressziobecsl}o most a magfuggvenyes
becsl}o, tehat a konzisztencia itt is a regressziobecsl}o konzisztenciajabol kovetkezik.
8.2.2. tetel: Ha a K (x) magfuggveny regularis, hn ! 0 es nhdn ! 1, akkor a magfugg-
venyes osztalyozasi szabaly er}osen univerzalisan konzisztens.
A kn -legkozelebbi szomsz
, ed szabaly az x-hez legko,zelebbi kn darab Xi cmkei alapjan hoz
tobbsegi dontest. Legyen X(1;n) (x); Y(1;n) (x) ; : : : ; X(n;n) (x); Y(n;n) (x) az Xi -k x-t}ol vett
tavolsaga alapjan rendezett minta. Ekkor
8 P P
< kn kn
ha IfY(i;n) (x)=1g  IfY(i;n) (x)=0g
gn (x) = : 1; i=1 i=1
0 kulonben.
Konnyen lathato, hogy ez is egy plug-in szabaly, ahol most mn (x) a kn -legkozelebbi szomszed
regressziobecsl}o, tehat a konzisztencia itt is a regressziobecsl}o konzisztenciajabol kovetkezik.
8.2.3. tetel: Ha az jjX ,xjj valoszn}usegi valtozo abszolut folytonos minden x-re, kn ! 1
es knn ! 0, akkor a kn -legkozelebbi szomszed osztalyozasi szabaly er}osen univerzalisan kon-
zisztens.
A s}ur}usegfuggveny-becsleshez es a regressziobecsleshez hasonloan itt sem lehet altalaban
semmit mondani a konvergenciasebessegr}ol, a konvergencia tetsz}olegesen lassu lehet.
8.2.4. tetel: Osztalyozasi szabalyok minden fgng sorozatahoz es pozitv szamok minden
monoton, 0-hoz tarto an < 161 sorozatahoz letezik (X; Y )-nak olyan eloszlasa, amelyre X
egyenletes eloszlasu [0; 1]-en, L = 0 es
P (gn(X ) 6= Y ) > an
minden n-re.
8.3 Empirikus hibaminimalizalas 111

8.3. Empirikus hibaminimalizalas


Hasonloan a regressziobecsleshez, valaszthatunk dontesfuggvenyt az empirikus hibaminimali-
zalas modszerevel.
8.3.1. de ncio: A g szabaly empirikus hibavaloszn}usegen a mintakon elkovetett atlagos
hibat ertjuk, azaz
X
n
Ln (g) = n1 Ifg(Xi )6=Yi g
i=1
Az empirikus hibavaloszn}useg nyilvan torztatlan becslese a valodi hibavaloszn}usegnek,
azaz ELn (g) = L(g).
Legyen C a g : Rd ! f0; 1g dontesfuggvenyek egy csaladja. A feladat az, hogy valasszunk
ki C-b}ol egy olyan dontesfuggvenyt, amelynek hibavaloszn}usege kozel van a C-beli legjobb
dontes hibavaloszn}usegehez. A C csalad megallaptasaban sokfele szempont jatszhat szere-
pet, peldaul az osztalyozando adat eloszlasarol rendelkezesre allo el}ozetes informacio, szamtasi
megfontolasok.
Valasszuk a C csaladbol azt a dontest, amelynek az empirikus hibavaloszn}usege minimalis,
azaz legyen
gn = argmin Ln(g)
g 2C
Azt varjuk, hogy gn hibavaloszn}usege kozel lesz a csaladbeli optimumhoz, azaz L(gn ) ,
inf L(g) becslesi hiba kicsi.
g2C
   
L(gn) , L =L(gn ) , ginf
2C
L(g) + ginf
2C
L(g) , L ;
ahol L(gn ) , ginf
2C
L(g) a becslesi hiba es ginf
2C
L(g) , L az approximacios hiba. El}ofordulhat
azonban, hogy a becslesi hiba kicsi, de L(gn ) megis tavol van az L Bayes-hibatol. Tehat
lehet, hogy az ginf
2C
L(g) , L approximacios hiba nagy.
A C csalad tehat eleg nagy kell, hogy legyen ahhoz, hogy jo kozeltest adjon az optimalis
megoldasra, de nem lehet tul nagy sem, mert akkor az adatok mennyisege nem elegend}o arra,
hogy jo dontest valasszunk ki bel}ole.
A tovabbiakban a becslesi hibat vizsgaljuk. (Az approximacios hiba a csalad kivalaszta-
satol fugg csak, es attol nem, hogy a csaladbol hogyan valasztunk dontest.)
8.3.1. lemma:
L(gn ) , ginf
2C
L(g)  2 sup jLn(g) , L(g)j
g2C
Bizonytas :
L(gn ) , ginf
2C
L(g) = sup (L(gn ) , Ln(gn) + Ln (gn ) , Ln(g) + Ln(g) , L(g)) 
g2C
 sup (L(gn) , Ln(gn ) + Ln(g) , L(g))  2 sup jLn(g) , L(g)j
g2C g2C
Az els}o egyenl}otlenseg gn valasztasabol adodik, Ln (gn )  Ln (g).
112 8. FEJEZET Alakfelismeres

Tehat sup jLn(g) , L(g)j-re kell fels}o korlatot talalnunk.


g2C
8.3.1. tetel: Tegyuk fel, hogy C veges sok dontesfuggvenyt tartalmaz, ekkor
!
P sup jLn(g) , L(g)j > "  2jCje,2n"2
g2C
Bizonytas :
! X
P sup jLn(g) , L(g)j > "  P (jLn(g) , L(g)j > ")  2  jCje,2n"2
g2C g2C
a Hoe ding-egyenl}otlenseg miatt, hiszen nLn(g) binomialis eloszlasu valoszn}usegi valtozo n
es L(g) parameterekkel.

Megjobb fels}o korlatot kaphatunk, ha feltesszuk, hogy a C-beli dontesek kozott van olyan,
amelyik hibavaloszn}usege nulla.
8.3.2. tetel: Tegyuk fel, hogy jCj < 1 es min
g 2C
L(g) = 0. Ekkor minden n-re es " > 0-ra
P (L(gn ) > ")  jCje,n";
es
E (L(gn))  1 + log jCj :
n
Bizonytas :  
P (L(gn ) > ")  P max
g2C: Ln (g)=0
L(g) > " =
   
= E If max L(g)>"g = E max I I
g2C fLn (g)=0g fL(g)>"g

g2C: Ln (g)=0
X
 P (Ln(g) = 0)  jCj(1 , ")n;
g2C: L(g)>"
mivel annak a valoszn}usege, hogy egy (Xi ; Yi ) sem esik az f(x; y) : g(x) 6= yg halmazba,
kevesebb, mint (1 , ")n , ha a halmaz valoszn}usege nagyobb, mint ". Innen a tetel els}o alltasa
kovetkezik, ha hasznaljuk az 1 , x  e,x egyenl}otlenseget.
A varhato hibavaloszn}useg becsleshez vegyuk eszre, hogy minden u > 0-ra
Z1
E (L(gn)) = P (L(gn ) > t) dt 
0
Z1 Z1
 u + P (L(gn) > t) dt  u + jCj e,nt dt = u + jCnj e,nu :
u u
Mivel u tetsz}oleges, valaszthatjuk ugy, hogy minimalizalja a fels}o korlatot. Az optimalis va-
lasztas u = lognjCj , amivel a fels}o korlat
u + jCj e,nu = log jCj + jCj  e,n n = log jCj + 1
log jCj

n n n n
8.3 Empirikus hibaminimalizalas 113

Most terjunk vissza az altalanos esethez, azaz felejtsuk el a feltetelezeseinket, hogy jCj < 1
es min
g2C
L(g) = 0.
Legyen  (X; Y ) valoszn}usegi merteke Rd  f0; 1g-en, es legyen n a mintainkon alapulo
empirikus mertek. Tehat egy A  Rd  f0; 1g merhet}o halmazra (A) = P ((X; Y ) 2 A) es
Pn
n (A) = n1 If(Xi ;Yi)2Ag . Ekkor
i=1
L(g) =  (f(x; y) : g(x) 6= yg) ;
azaz L(g) a -merteke az
ffx : g(x) = 1g  f0gg [ ffx : g(x) = 0g  f1gg
halmaznak. Hasonloan
Ln(g) = n (f(x; y) : g(x) 6= yg) ;
gy
sup jLn (g) , L(g)j = sup n (A) , (A) ;
g 2C   A2A
ahol A az osszes
ffx : g(x) = 1g  f0gg [ ffx : g(x) = 0g  f1gg ; g 2 C
alaku halmaz csaladja.
Emlekezzunk vissza, hogy a
sup n (A) , (A)
A2A
kifejezesre a Vapnik{Chervonenkis-egyenl}otlenseg ad fels}o korlatot. Most vezessuk be dontesek
csaladjainak Vapnik{Chervonenkis-dimenziojat is.
8.3.2. de ncio: Legyen C a g : Rd ! f0; 1g dontesfuggvenyek egy csaladja, es tartal-
mazza A az osszes
ffx : g(x) = 1g  f0gg [ ffx : g(x) = 0g  f1gg ; g 2 C
alaku halmazt. A C csalad shatter egyutthatoja es VC-dimenzioja egyezzen meg az A halmaz-
csalad shatter egyutthatojaval es VC-dimenziojaval.
S (C; n) = s(A; n)
VC = VA
Ekkor tehat a Vapnik{Chervonenkis-egyenl}otlenseg es a 8.3.1. lemma miatt igaz a kovet-
kez}o:
8.3.3. tetel:
!
P sup jLn(g) , L(g)j > "  8S (C; n)e,n"2 =32
g2C
es  
P L(gn) , ginf L ( g ) > "  8 S ( C ; n)e ,n"2 =128 ;
2C
ahol gn az empirikus hibat minimalizalo dontes.
114 8. FEJEZET Alakfelismeres

Ebb}ol a 8.3.2 tetel bizonytasaban latott modon kaphatunk fels}o korlatot a varhato hiba-
valoszn}usegre r
EL(gn) , ginf2C
L(g)  16 log (8e2Sn(C; n)) ;
illetve mivel VC > 2-re S (C; n)  nVC
r
EL(gn) , ginf
2C
L(g)  16 VC log2nn + 4 :
Ha feltesszuk, hogy ginf
2C
L(g) = 0, azaz, hogy a Bayes-dontes benne van C-ben es L = 0,
akkor egy gyorsabban 0-hoz tarto fels}o korlatot kapunk.
8.3.4. tetel: A fenti esetben
P (L(gn ) > ")  2S (C; 2n)2,n"=2 :
A dontescsaladok Vapnik{Chervonenkis-dimenziojanak vizsgalatat konnyti meg az alabbi
tetel.
8.3.5. tetel: Ha A = fA  f0g [ Ac  f1g; A 2 Ag, akkor s(A; n) = s(A; n) minden n-re
es ezert VA = VA .
A dontescsaladok shatter egyutthatojanak de nciojaban az A halmazok fx : g(x) = 1g
alakuak, mg A olyan (x; y) parok halmaza, amelyekre g(x) 6= y. A fenti tetel azt jelenti,
hogy S (C; n) = s(A; n), tehat eleg az A tulajdonsagait vizsgalni, ami egyszer}ubb, hiszen Rd
reszhalmazainak a csaladja.
Ha peldaul x 2 R es C a  1;
g(x) = ha x  a
0 kulonben
alaku dontesek csaladja, akkor az fx : g(x) = 1g halmazok a felegyenesek, tehat ekkor
VC = Vffelegyenesekg = 1.
Lehet C peldaul a linearis dontesek csaladja, azaz a
 1;ha aT x > b
g(x) = 0 kulonben
alaku dontesfuggvenyeket tartalmazo csalad. Ekkor az fx : g(x) = 1g halmazok pont az
Rd -beli fx : aT x > bg felterek, amelyek csaladjarol korabban lattuk, hogy a VC-dimenzioja
d + 1.
Ajanlott irodalom
[1] H. Cramer: Mathematical methods of Statistics
Princeton University Press, Princeton, 1946.
[2] E.L. Lehman: Testing Statistical Hipotheses
Wiley & Sons, New York, 1959.
[3] E.L. Lehman: Theory of Point Estimation
Chapman & Hall, New York, 1991.
[4] Mogyorodi Jozsef (szerk.): Matematikai statisztika (ELTE jegyzet)
Tankonyvkiado, Budapest, 1990.
[5] Vincze Istvan: Matematikai statisztika (ELTE jegyzet)
Tankonyvkiado, Budapest, 1974.

115

You might also like