Professional Documents
Culture Documents
Bevezetés A Matematikai Statisztikába
Bevezetés A Matematikai Statisztikába
6. S}ur}usegfuggveny becslese 87
6.1. Az L1 hiba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2. A hisztogram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7. Regressziobecsles 95
7.1. A regresszios problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.2. Lokalis atlagolason alapulo becsl}ok . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.3. Empirikus hibaminimalizalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8. Alakfelismeres 107
8.1. A Bayes-dontes es kozeltese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2. Lokalis tobbsegen alapulo dontesek . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.3. Empirikus hibaminimalizalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Ajanlott irodalom 115
1. fejezet
A matematikai statisztika
alapfogalmai
A valoszn}usegszamtas elmeleteben az ( ; F; P) Kolmogorov valoszn}usegi mez}on fogalmaztuk
meg a teteleinket, azaz a P valoszn}usegi merteket vegig adottnak teteleztuk fel. A gyakorlati
problemaknal azonban a valoszn}useg nem ismert, legfeljebb logikus el}ofeltetelezeseink van-
nak rola. A matematikai statisztika alapfeladata eppen az, hogy a veletlen kserletre, vagy
a veletlen tomegjelensegre vonatkozo meg gyelessorozat segtsegevel kovetkeztetni tudjunk a
jelenseghez tartozo adekvat valoszn}usegi mertekre vagy annak egy jellemz}ojere, azt megfelel}o
pontossaggal kozelteni tudjuk. Ilyen ertelemben a veletlen jelensegek matematikai modelle-
zesenel a matematikai statisztika modszerei megel}ozik a valoszn}usegszamtas modszereit. A
matematikai statisztika fogalomkore, modszertana viszont a valoszn}usegszamtas fogalmain
es modszerein alapul, es ilyen szempontbol a matematikai statisztika koveti a valoszn}usegsza-
mtast.
Ugyanugy, mint a valoszn}usegszamtasnal, a veletlen kserlet (K) alapfogalmabol indu-
lunk ki. Azt is feltesszuk, hogy ismert az elemi esemenyek halmaza es az esemenyek F
halmazrendszere. A P valoszn}useg pontosan nem ismert, csak azt tudjuk, hogy a K veletlen
kserlethez tartozo valoszn}useg eleme egy P halmaznak. Tehat 8P 2 P eseten Kolmogorov-
fele valoszn}usegi mez}ot kapunk. A matematikai statisztika alapfeladata ezen P halmazbol
kivalasztani azt a valoszn}usegi merteket, amely tenylegesen a kserlethez tartozik. A P va-
loszn}usegi mertekosztalyra esetenkent szokasos bizonyos megkotesekkel elni. Ilyen pl. az,
amikor P-t dominaltnak tetelezzuk fel valamilyen adott -veges mertekre nezve. Ezen azt
ertjuk, hogy adott az ( ; F) merhet}o teren olyan -veges mertek, amelyre 8P 2 P abszolut
folytonos, azaz ha valamely A 2 F eseten (A) = 0, akkor P (A) = 0 is 8P 2 P-re.
A K veletlen kserlethez meg gyelessorozatot szervezunk, azaz adatokat gy}ujtunk. Mate-
matikailag ezt ugy fogalmazzuk meg, hogy adottnak tetelezunk fel egy X1 ; : : : ; Xn Rd ertek}u
fuggetlen, azonos eloszlasu valoszn}usegi vektorvaltozo sorozatot, amelyet statisztikai minta-
nak nevezunk. A P 2 P valoszn}useg eseten a minta kozos eloszlasa X (A) = P(X1 2 A) lesz,
ahol A 2 Bd d-dimenzios Borel-halmaz. Tehat minden P 2 P eseten (Rd ; Bd ; X ) Kolmogo-
rov-fele valoszn}usegi mez}o lesz. Jelolje QX ezen X eloszlasok osztalyat. Az (Rnd ; Bnd ; QX )
harmast statisztikai mez}onek nevezzuk. A statisztikai vizsgalatok celja ezutan az, hogy a QX
eloszlascsaladbol valasszuk ki az X1 ; : : : ; Xn mintahoz tartozo eloszlast.
Statisztikai modellekben altalaban adott egy # : QX ! Rk funkcional, amelynek erte-
keit akarjuk minel pontosabban megbecsulni. Ha teljesul, hogy #((1) (2)
X ) 6= #(X ) eseten
(1) (2)
X 6= X , a # funkcionalt parameternek (parametervektornak) nevezzuk. Ilyenkor a #-nak
megfelel}o eloszlast # -val fogjuk jelolni: QX = f# ; # 2 g, ahol a parameterter, azaz a #
5
6 1. FEJEZET A matematikai statisztika alapfogalmai
Becsleselmelet
2.1. Torztatlan, konzisztens becsles
Legyen P = fPg egy parameteres valoszn}usegi mertek-csalad.
Feladat olyan tn(X1 ; X2 ; : : : ; Xn ) 2 Rk (n = 1; 2; : : :) statisztikasorozat megadasa, amely
segtsegevel "jol" tudjuk becsulni a # parametervektort. Ha a parametert "pontosan" meg
tudjuk becsulni, akkor ez egyben azt is jelenti, hogy az adekvat # eloszlast is kozelt}oleg
megkapjuk. Az alabbiakban az elvarando "jo", "pontos" becslesi tulajdonsagokat de nialjuk.
2.1.1. de ncio: A tn(X1 ; X2 ; : : : ; Xn ) 2 Rk statisztika a # 2 Rk parameter torztatlan
becslese, ha 8P 2 P eseten a tn -nek mint valoszn}usegi vektorvaltozonak letezik varhatoertek-
vektora es EP tn = # (P) :
Megjegyzes :
1. Az EP tn azt jeloli, hogy a varhatoertek-vektor fugg attol, hogy melyik P valoszn}usegi
mertek alapjan szamoljuk az
Ftn (x1 ; x2 ; : : : ; xk ) = P t(1) (2) (k )
n < x1 ; tn < x2 ; : : : ; tn < xk
eloszlasfuggvenyt, majd abbol a varhato erteket.
2. Tudjuk, hogy egy valoszn}usegi valtozo ertekei a varhato erteke korul ingadoznak, tehat,
hogy egy statisztika a parameter torztatlan becslese, azt az elvarhato tulajdonsagot fe-
jezi ki, hogy a becslesi statisztika realizaltjai az ismeretlen parameter korul ingadoznak
a parameterterben.
2.1.2. de ncio: A tn(X1 ; X2 ; : : : ; Xn) 2 Rk statisztikasorozat a # 2 Rk parameter
aszimptotikusan torztatlan becslese, ha 8P 2 P eseten a tn -nek, mint valoszn}usegi vek-
torvaltozonak letezik varhatoertek-vektora es nlim E t = # (P) :
!1 P n
A torztatlansagbol nyilvanvaloan kovetkezik az aszimptotikusan torztatlansag, tehat ez
utobbi a gyengebb tulajdonsag.
2.1.3. de ncio: A tn(X1 ; X2 ; : : : ; Xn ) 2 Rk statisztikasorozat a # 2 Rk parameter kon-
zisztens becslese, ha 8P 2 P es 8" > 0 eseten nlim P ( k t , # k > " ) = 0, azaz t st #, t
,!
!1 n n n
sztochasztikusan konvergal a # parameterhez.
9
10 2. FEJEZET Becsleselmelet
Megjegyzes :
1. A konzisztencia mas kovetelmenyt fejez ki, mint a torztatlansag. A konzisztencia tulaj-
donsaga azt a jogos elvarast fogalmazza meg, hogy a meg gyelesek szamanak noveked-
tevel javuljon a becsles pontossaga.
2
2. Mivel t(ni) , #i
Pk 2
t(nj ) , #j = ktn , #k2 k 1max
2
t(nj) , #j ; ezert a valo-
j =1 j k
szn}usegi vektorvaltozo sztochasztikus konvergenciaja ekvivalens a koordinantankenti
sztochasztikus konvergenciaval.
2.1.4. de ncio: A tn(X1 ; X2 ; : : : ; Xn ) 2 Rk statisztikasorozat a # 2 Rk parameter negy-
!1 EP jjtn , #jj = 0.
zetes kozepben konzisztens becslese, ha nlim 2
A segedtetel bizonytasa:
1Xn
( a , x ) 2 = 1 X(a , x + x , x )2 =
n
n i n n n i
i=1 i=1
Xn X
n
= (a , xn )2 + 2(a , xn ) n1 (xn , xi ) + n1 (xn , xi )2 :
i=1 i=1
A kozeps}o tag nulla, gy az alltast igazoltuk.
Az alltas bizonytasa:
(i)
Xn , ! X X !
n n
EP s2n = EP n1 Xi , Xn 2 = EP n1 Xi2 , (Xn )2 = n1 EPXi2 ,EP(Xn )2 =
i=1 i=1 i=1
,
= n1 n # + (EP X1 )2 , n# + (EP X1 )2 = n ,
n
1 # ! # (n ! 1)
Bizonytas :
(i) Jelolje cov (Xi ; Yi ) = c; EXi EYi = m: Ekkor
EXiYi = c + m; EXi Y = EXY i = 1 (c + nm) = c + m; EX Y = c + m:
n n n
Tehat
X
n , , X ,X Y , X Y , Y X + X Y ;
n
(n , 1) cn = Xi , X Yi , Y = i i i i
i=1 i=1
azaz
E ((n , 1) cn) = (nc + nm) , (c + nm) , (c + nm) + (c + nm) = (n , 1) c:
Megmutathato, hogy
m ss
2 cn = 22 + 1 2
c
n n(n , 1) + n(n , 1) ;
ahol
m22 = E (Xi , EXi )2 (Yi , EYi)2 ; s1 = 2 Xi ; s2 = 2 Yi :
Mivel 2 cn ,! 0; gy a konzisztencia mar kovetkezik.
(ii) Nem bizonytjuk. Bizonytasa megtalalhato Cramer: Mathematical statistics c. konyv-
ben.
Mivel a negyzetes kozepben valo konzisztenciabol kovetkezik a konzisztencia, ezert 8" >
0; 8x 2 R; 8P 2 P-re P(jFn (x) , FP (x)j > ") ! 0 (n ! 1): Ennel az alltasnal lenyegesen
er}osebbet fogalmaz meg a kovetkez}o tetel: az empirikus eloszlasfuggveny 1 valoszn}useggel,
egyenletesen konvergal az eloszlasfuggvenyhez. Elmeleti jelent}osege miatt a tetelt a matema-
tikai statisztika alaptetelenek is hvjak.
2.1.3. tetel: (A matematikai statisztika alaptetele, Glivenko{Cantelli)
Legyen X1 ; X2 ; : : : ; Xn ; : : : a statisztikai minta. Jelolje F (x) a minta eloszlasfuggvenyet, es
Fn (x) az empirikus
eloszlasfuggvenyt.
Akkor P nlim!1
sup jFn (x) , F (x)j = 0 = 1:
x2R
Bizonytas : Legyen " > 0; x 2 R tetsz}oleges! Megmutatjuk, hogy 9 N > 0 es C 2
F : P(C ) = 1; hogy 8 ! 2 C eseten, ha n > N , ugy jFn(x) , F (x)j < ". Legyen m
olyan pozitv egesz szam, hogy m1 < 2" , es legyenek R egy m intervallumbol allo rendszerenek
osztopontjai x(0m) = ,1 ; x(mm) = +1; x(km) = sup x : F (x) mk : Jelolje az intervallu-
i x2R
mokat: Jk = x(km) ; x(km+1) ; k = 0; 1; : : : ; m , 1: Tegyuk fel, hogy a szoban forgo x-re eppen
x 2 Jk,1 =) x(km,)1 < x x(km) teljesul most. Az eloszlasfuggveny tulajdonsagai miatt:
)
F (x(km) ) mk F (x(km) + 0) k F (x(m) + 0) + 1 :
=) () F (x(km) ) m
F (x(km,)1 ) km,1 F (x(km,)1 + 0) k,1 m
A nagy szamok er}os torvenye ertelmeben a relatv gyakorisag 1 valoszn}useggel kozelti az
elmeleti valoszn}useget:
!
9Ak 2 F : P(Ak ) = 1 es 8 ! 2 Ak : nlim 1X
n
I (m)
!1 n i=1 fXi <x(km) g (!) = F (xk ):
!
9Bk 2 F : P(Bk ) = 1 es 8 ! 2 Bk : nlim 1X
n
I (m)
!1 n i=1 fXi x(km,)1 g (!) = F (xk,1 + 0):
Y
m Y
m !
Legyen C = Ak Bk,1. Akkor P(C ) = P Ak Bk,1 = 1 =) P(C ) = 1:
k=1 k=1
Tehat 8! 2 C eseten 9N : n > N; akkor
1X
n
(m) Xn
< 2 ; es n IfXi x(km,)1g , F (x(km,)1 + 0) < 2" :
" 1
I
n i=1 fXi <x(km) g , F (xk )
i=1
Igy x 2 Jk,1 -re
F (x) , Fn(x) F (x(km) ) , Fn (x(km,)1 ) F (x(km,)1 + 0) + m1 , Fn (x(km,)1 + 0) m1 + 2" :
Masreszt
F (x) , Fn (x) F (x(km,)1 + 0) , Fn (x(km) ) F (x(km) ) , m1 , Fn (x(km) ) , m1 , 2" :
Azaz jF (x) , Fn (x)j < 2" + m1 < " =) alltas.
16 2. FEJEZET Becsleselmelet
Z# Z# xn 1
xn+1 # n
E#Xn = x fn;#(x) dx = n #n dx = n #n n + 1 = n + 1 #
0 0 0
=) E# T1 = #; torztatlan.
n + 1 2 Z# n,1
2# T1 = E# T12 , (E# T1 )2 =
n x2 n x#n dx , #2 =
0
n+2 #
= (n +n 1) #1n nx + 2 , #2 = (n + 2 n n+(n1 , n2 , 2 n)#2 = #2 ! 0:
2 2
0 + 2) n(n + 2)
=) T1 is negyzetes kozepben konzisztens.
2.2 Hatasos becslesek 17
Az X1 eloszlasfuggvenye:
n
P (X1 < x) = 1 , [1 , FX;#(x)]n = 1 , # ,# x ; x 2 [0; #]
n,1
=) f (x) = n (# , x) ; x 2 (0; #) :
1;# #n
n # + Z x f (x) dx = n # + n Z x(# , x)n,1 dx =
# #
E#T2 = E#X + E#X =
n 1 n+1 1;# n + 1 #n
0 0
dy = ,1 valtozocseret,
Vegrehajtva a # , x = y =) dx
n # , n Z (# , y) yn,1 dy = n # + n yn # , n yn+1 # = #;
0
= n + 1 #n n + 1 #n,1 n 0 #n n + 1 0
#
azaz T2 is torztatlan.
2# T2 = 2# Xn + 2# X1 + 2 cov# (Xn ; X1 ):
X1 es Xn nem fuggetlenek, gy ki kell szamolnunk a kovarianciajukat:
P(X1 < x; Xn < y) = P(Xn < y) , P(X1 x; Xn < y) =
= [FX;# (y)]n , P(x X1 < y; x X2 < y; : : : ; x Xn < y) =
Yn
= [FX;# (y)]n , P(x Xi < y) =
i=1
= [FX;# (y)]n , [FX;# (y) , FX;# (x)]n ; x; y 2 [0; #] ; x < y:
X1 es Xn egyuttes s}ur}usegfuggvenye gy:
@ 2 P(X1 < x; Xn < y) =
@x @y
n,2
= n (n , 1) [FX;# (y) , FX;# (x)]n,2 fX;#(y)fX;# (x) = n (n , 1) (y ,#xn) :
Z# Zy y , x n,2 1 dxdy , E X E X =
cov#(X ; X ) =
n 1 xyn(n , 1) # #2 # n # 1
0 0
u = y , x helyettestessel
Z# 0Zy n,2
1
= @ (y2 , y u) n (n , 1) u #
1 duA dy ,
#2
n 2
(n + 1)2 # =
0 0
Z# yn+1
= #n dy , (n +n 1)2 #2 =
0
18 2. FEJEZET Becsleselmelet
c) Legyen a t(X) statisztika a g(#) torztatlan becslese, azaz E# (t) = g(#) (8 # 2 (a; b) ):
R
d) 9 2# t = (t(x) , g(#))2 L# (x) dx:
Rn
e) @#@
R ti(x)L (x) dx = R ti(x) @L# (x) dx; (i = 0; 1):
# @#
Rn Rn
Ekkor
2# t
[g0(#)]2 :
In(#)
Bizonytas : A c) tulajdonsagbol, mindket oldalt derivalva # szerint:
@ Z t(x)L (x) dx = Z t(x) @L# (x) dx = dg(#) : (*)
@# n # @# d#
R n R
Masreszt, mivel L# (x) egyuttes s}ur}usegfuggveny:
Z
L# (x) dx = 1:
Rn
Ezt is derivalva # szerint:
@ Z L (x) dx = Z @L#(x) dx = @ 1 = 0:
@# n # n
@# @#
R R
Mindket oldalt beszorozva g(#)-val:
Z # (x) dx = 0:
g(#) @L@# (**)
Rn
() es () kulonbseget veve:
Z # (x) dx = dg(#) :
(t(x) , g(#) ) @L@# d#
Rn
Most a Cauchy{Bunyakovszkij{Schwarz-fele egyenl}otlenseget alkalmazva:
0 12
,g0 (#)2 = @Z (t(x) , g(#)) @L# (x) dxA =
@#
Rn
0Z 1
p 1 @L#(x) p 2
= @ (t(x) , g(#)) L# (x) L (x) @# L# (x) dxA
#
Rn
Z Z 1 @L#(x) 2
(t(x) , g(#) )2L#(x) dx L#(x) @# L#(x)dx = 2# t In(#):
Rn Rn
Innen atosztassal, mar kovetkezik az alltas.
2.2 Hatasos becslesek 21
Megjegyzes :
1. A Cramer{Rao-egyenl}otlenseg elvi also korlatot ad a torztatlan becslesek szorasnegyze-
teire. Ha tehat egy statisztikara belatjuk, hogy szorasnegyzete eppen az also korlattal
egyenl}o, akkor az biztosan hatasos, s}ot a 2.2.1. tetel szerint az egyetlen hatasos becsles.
2. A bizonytas soran felhasznalt Cauchy{Bunyakovszkij{Schwarz-egyenl}otlensegben akkor
# (x) (= @ ln L# (x) ) = v (#) (t(x) , g (#))
es csak akkor van egyenl}oseg, ha 9 v(#) : L#1(x) @L@# @#
majdnem minden x-re fennall.
3. Ha specialisan g(#) = #, akkor 2# t In1(#) :
4. Mivel
Yn X
n
L#(x) = L# (x1 ; x2 ; : : : ; xn) = f#(xi ) =) ln L#(x) = ln f#(xi ):
i=1 i=1
Ebb}ol
@ ln L (X) X ! n
In(#) = 2# # = 2#
n
@ ln f#(Xi ) = X 2 @ ln f # ( X i ) =
@# @# # @#
i=1 i=1
@ ln f (Xi )
= n 2# # = nI1(#):
@#
A levezetesben a szumma kiemeleset a mintaelemek teljes fuggetlensege miatt tehetjuk
meg.
5. A Cramer{Rao-egyenl}otlenseg diszkret valoszn}usegeloszlasok eseten is ervenyben ma-
rad, ha L# (x) = L# (x1 ; x2 ; : : : ; xn )-t mint a minta egyuttes eloszlasat ertelmezzuk:
L#(x) = L# (x1 ; x2 ; : : : ; xn ) = P(X1 = x1 ; X2 = x2; : : : ; Xn = xn):
A feltetelekben a tobbes integralok helyett tobbszoros szummakat kell venni, az e) regu-
laritasi tulajdonsagok a derivalas es az osszegzes sorrendjenek felcserelhet}oseget kovetelik
meg.
6. A Cramer{Rao-egyenl}otlenseg az elemi (cov(X; Y ))2 2 X 2 Y egyenl}otlensegnek
felel meg, amikor X = t; Y = @ ln @# L# (X) . Ugyanis
@ ln L (X) @ ln L (X)
cov t; # = E# t # ;
@# @#
mert @ ln L (X) Z @L (x)
E# # = # dx = 0:
@# @#
Rn
Igy @ ln L (X) Z
E# t @## # (x) L (x) dx =
= t(x) L 1(x) @L@# #
n #
R
@ Z
= @# t(x) L#(x) dx = g0 (#):
Rn
22 2. FEJEZET Becsleselmelet
L# (X)
7. Belathato, hogy In (#) = 2# @ ln @# , hiszen
1 @L (X) 1 @L (X) 2 1 @L (X) 2
#2 # = E# L (X) @# # #
, E# L (X) @# ;
L# (X) @# # #
R # (x) dx = 0 miatt
de @L@#
Rn
1 @L (X )
Z 1 @L# (x) Z @L# (x)
#
E# L (X) @# = L (x) @# L#(x) dx =
# n # n
@# dx = 0
R R
es gy
2#
1 @L# (X) = E 1 @L# (X) 2 =
L# (X) @# # L (X) @#
Z 1 @L#(x) 2 #
= L# (x) @# L# (x) dx = In(#):
R n
2.2.3. pelda: (Az atlagstatisztika hatasossaga normalis esetben)
Legyen az X valoszn}usegi valtozo adott. Legyen tovabba X1 ; X2 ; : : : ; Xn ; : : : statisztikai min-
ta, amelynek eloszlasfuggvenye X -evel azonos valamilyen m; D0 parameter}u normalis eloszlas-
hoz tartozik, ahol D0 > 0 ismert, m ismeretlen. Ennel a feladatnal az ismeretlen parameter
tehat a normalis eloszlas varhato erteke: # = m = EP X .
A 2.1.1. peldaban bizonytottuk, hogy altalaban az X n atlagstatisztika az m torztatlan
becslese. A normalis eloszlasnak valamennyi momentuma letezik, tehat X n negyzetes ko-
zepben konzisztens becsles is. A Cramer{Rao-egyenl}otlenseg segtsegevel most megmutatjuk,
hogy hatasos is. A minta egyuttes s}ur}usegfuggvenye most:
Yn
n , 1 2 (xi ,m)2 n
P
Lm (x) = 'm;D0 (xi ) = p 1 e 2D0 i=1 :
i=1 2 D 0
A Cramer{Rao-tetel utani 2. megjegyzest gyelembe veve:
Xn p 1 X
n
ln Lm (x) = ln 'm;D0 (xi ) = ,n ln( 2D0 ) , 2 (xi , m)2 ;
i=1 2D0 i=1
@ ln Lm (x) = Xn
@ ln ' (x ) = 1 X n
(x , m ) = n (x , m) =) x hatasos:
@m m;D i i D02 n n
i=1 @m D0 i=1
0 2
Z# , @ 1 2
I1 (#) = @# #
1 dx = #12 ;
0 #
azaz
1 = 1 = #2 :
In(#) nI1 (#) n
Az a meglep}o eredmenyt kaptuk, hogy a T1 torztatlan becsles szorasnegyzete kisebb, mint a
Cramer{Rao-tetelben az informacios also hatar!
Az ellentmondas abbol adodik, hogy az egyenletes eloszlas eseten nem teljesulnek a Cra-
mer{Rao-tetel e) regularitasi feltetelei. Most
n
L# (x) = #1 ; 8xi 2 (0; #);
es
@ Z L (x) dx = 0;
@# n #
R
mg
Z @ Z# Z# Z#
@# L# (x) dx = ,n #n1+1 dx = , #n :
Rn 0 0 0
24 2. FEJEZET Becsleselmelet
2.3. Elegsegesseg
A statisztikak elvart, jo tulajdonsagai kozott alapvet}o fontossagu az elegsegesseg. Ezen azt
fogjuk erteni, hogy a statisztika a minta eloszlasanak parameterere vonatkozoan minden in-
formaciot magaba s}urt, egymaga kepes helyettesteni a mintat. A parameterek becsleseihez
a megfelel}o statisztikakat "elegseges" az elegseges statisztika fuggvenyei kozott keresni.
2.3.1/a. de ncio: Legyen adott a P parameteres eloszlascsalad, es az X1 ; X2 ; : : : ; Xn
statisztikai minta, amelyek eloszlasfuggvenye abszolut folytonos 8P# 2 P-re:
Zx
F# (x) = f#(t) dt; x 2 R:
,1
f#(x) a minta s}ur}usegfuggvenye. Jelolje a tn (X1 ; X2 ; : : : ; Xn ) statisztika s}ur}usegfuggvenyet
gn;#(y); az X1 ; X2 ; : : : ; Xn es tn egyuttes s}ur}usegfuggvenyet pedig h# (x1 ; x2 ; : : : ; xn ; y). Ha az
X1 ; X2 ; : : : ; Xn mintanak a tn-re vonatkozo egyuttes felteteles s}ur}usegfuggvenye nem tartal-
mazza a # parametert, vagyis
fX1;X1;:::;X1 jtn (x1 ; x2 ; : : : ; xn j y ) = h#(x1 ; gx2 ; :(:y:); xn; y) ;
n;#
nem fugg #-tol, akkor , a tn statisztika a # parameter elegseges becslese.
2.3.1/b. de ncio: Legyen adott a P = fP# ; # 2 g, valoszn}usegi mertekek egy te-
re es az X1 ; X2 ; : : : ; Xn statisztikai minta, amelyek eloszlasa diszkret 8P# 2 P-re. Legyen
tn(X1 ; X2 ; : : : ; Xn ) statisztika. Ha az X1 ; X2 ; : : : ; Xn mintanak a tn -re vonatkozo egyuttes
felteteles eloszlasa nem tartalmazza a # parametert, vagyis
P(X1 = x1; X2 = x2 ; : : : ; Xn = xn j tn = y ) = P# (X1 = x1 ; X2 P= x(t2; :=: :y; )Xn = xn; tn = y) ;
# n
nem fugg #-tol, akkor a tn statisztika a # parameter elegseges becslese.
2.3.1. pelda: (Az atlagstatisztika elegsegessege normalis esetben)
Legyen X valoszn}usegi valtozo. Legyen tovabba X1 ; X2 ; : : : ; Xn statisztikai minta, amelynek
eloszlasfuggvenye X -evel azonos valamilyen m; D0 parameter}u normalis eloszlashoz tartozik
8P 2 P-re, ahol D0 > 0 ismert, m ismeretlen. Az ismeretlen parameter a normalis eloszlas
elmeleti varhato erteke: # = m = EP X .
Az atlagstatisztika teljesen fuggetlen, N ( n# ; Dn0 ) eloszlasu valoszn}usegi valtozok konvolu-
cioja, tehat maga is normalis eloszlasu, # es pDn0 parameterekkel. Igy az X1 ; X2 ; : : : ; Xn minta
egyuttes X n = y-ra vett felteteles s}ur}usegfuggvenye:
8 Pn x
>
< fX1 ;X2 ;:::;Xn (x1 ;x2 ;:::;xn)
, ha n y = i
fX ;X ;:::;Xn jX n (x1; x2 ; : : : ; xn j y) = > fXn (y) i=1 :
1 2
: 0 egyebkent
Mivel
p ,n , (xi ,#)
1
n
P 2
fX1;X2 ;:::;Xn (x1 ; x2 ; : : : ; xn ) = 2 D,ne 2D02 i=1
0
es pn , 2Dn 2 (y,#)2
fXn (y) = p e 0 ;
2D0
2.3 Elegsegesseg 25
ezert
fX1 ;X2 ;:::;XnjX n (x1 ; x2 ; : : : ; xn j y) =
8 n
>
< 1 n,1 e , 2D1 2 P
(xi ,#)2 ,n(y,#)2
, ha n y =
Pn x
=> pn(p2D 0 i=1 i :
0) i=1
: 0 egyebkent
Pn Pn Pn
Mivel (xi , #)2 , n(y , #)2 = x2i , n y2 ; ha xi = n y =) a felteteles s}ur}usegfugg-
i=1 i=1 i=1
veny nem fugg a parametert}ol, amib}ol mar kovetkezik az alltas.
2.3.2. pelda: (Az atlagstatisztika elegsegessege exponencialis esetben)
Legyen az X valoszn}usegi valtozo adott. Legyen tovabba X1 X2 ; : : : ; Xn statisztikai minta,
amely eloszlasfuggvenye X -evel azonos valamilyen # = 1 parameter}u exponencialis eloszlashoz
tartozik. Az ismeretlen parameter tehat,az exponencialis eloszlas varhato erteke: E#X = #.
Az atlagstatisztika teljesen fuggetlen, E #1 eloszlasu valoszn}usegi valtozok konvolucioja, el-
oszlasa n; n# parameter}u gamma eloszlas, melynek s}ur}usegfuggvenye:
n n xn,1e, nx#
fXn (x) = # (n , 1)! x > 0:
A minta egyuttes s}ur}usegfuggvenye most
Pn
Yn 1 ,
x
i=1 i
fX1;X2 ;:::;Xn (x1 ; x2 ; : : : ; xn ) = fXi (xi) = #n e # 8xi > 0:
i=1
Az
8 Pn
< fX1 ;X2 ;:::;Xn (x1 ;x2 ;:::;xn )
, ha n y = xi
fX ;X ;:::;Xn jX n (x1 ; x2 ; : : : ; xn j y) = :
1 2
fX n (y) i=1
0 egyebkent
kepletbe behelyettestve:
8 Pn xi
>
> Pn x
< , i=1
#n e # ny
1
, ha n y =
fX ;X ;:::;XnjXn (x1 ; x2 ; : : : ; xn j y) = > ,
( n# )n yn(,n1,e1)!# i=1
i :
>
1 2
: 0 egyebkent
Egyszer}ustesek utan:
8 Pn
>
< (n,1)!e, i # xi ny#
fX ;X ;:::;Xn jX n (x1 ; x2 ; : : : ; xn j y) = > ,
=1 + Pn
ha n y = xi =
nn yn, 1
:0 i=1
1 2
egyebkent
8 (n,1)!
< nn yn, , ha n y = Pn xi
=: 1
i=1 :
0 egyebkent
Lathato, hogy a fuggveny nem fugg a parametert}ol, azaz az atlagstatisztika ebben az
esetben is elegseges becslest ad.
26 2. FEJEZET Becsleselmelet
ha x1 6= y
8 Yn
>
<
= > i=2 P# (Xi = xi ); ha x1 = y
: 0; ha x1 6= y
ami lathato, hogy tartalmazza a parametert.
2.3.1. tetel: (Rao{Blackwell{Kolmogorov)
Legyen adott P, valoszn}usegi mertekek egy #-parameteres tere, es az X1 ; X2 ; : : : ; Xn statiszti-
kai minta, amelyek eloszlasfuggvenye abszolut folytonos 8P 2 P-re. Jelolje Tn (X1 ; X2 ; : : : ; Xn )
a # parameter egy elegseges statisztikajat, tn (X1 ; X2 ; : : : ; Xn ) pedig a parameter g fuggvenye-
nek tetsz}oleges torztatlan becsleset: E# tn = g(#). Akkor letezik olyan h fuggveny, hogy
E#(h(Tn )) = g(#) es 2#(h(Tn )) 2#tn. Tovabba h(Tn ) = E#(tn jTn ).
Bizonytas : A h(Tn ) nem fugg #-tol, csak a mintatol, hiszen Tn elegseges statisztika volt.
Tehat h(Tn ) tenyleg statisztika. A felteteles varhato ertek tulajdonsagait felhasznalva:
E#(h(Tn )) = E#(E#(tn jTn )) = E#tn = g(#); h(Tn ) torztatlan:
2.3 Elegsegesseg 27
Masreszt:
2# tn = E# (tn , g(#))2 = E# [tn , h(Tn ) + h(Tn ) , g(#)]2 =
= E# (tn , h(Tn ))2 + 2# (h(Tn )) + 2 E# [(tn , h(Tn ))(h(Tn ) , g(#))] :
De
E# [(tn , h(Tn ))(h(Tn ) , g(#))] = E# [E# [(tn , h(Tn))(h(Tn ) , g(#)) jTn ]] =
= E# [(h(Tn ) , g(#))E# [(tn , h(Tn )) jTn ]] = 0;
mert
E# [(tn , h(Tn )) jTn ] = E# [tn jTn ] , h(Tn) = 0:
Innen mar 2# tn 2# (h(Tn )) adodik.
Ha letezik hatasos becsles, akkor az az elegseges becsles fuggvenyekent all el}o. A tetel
azt nem alltja, hogy a h(Tn ) mar hatasos lenne, csak azt, hogy egy tetsz}olegesen adott tn
torztatlan becslesnel az elegseges statisztika segtsegevel lehet hatasosabbat el}oalltani, de az
nem biztos, hogy egyben hatasos is!
2.3.2. tetel: (Neymann{Fisher faktorizacios tetel)
Legyen adott P, valoszn}usegi mertekek egy #-parameteres tere, amelyhez adott az X1 ; X2 ; : : : ; Xn
statisztikai minta, amelyek eloszlasfuggvenye abszolut folytonos 8P 2 P-re.
A Tn statisztika a # parameter elegseges becslese () 9 k : Rn ! R es g : R2 ! R
fuggvenyek, hogy 8x = (x1 ; x2 ; : : : ; xn )T 2 Rn es 8#-ra
L# (x1 ; x2 ; : : : ; xn ) = k(x1 ; x2 ; : : : ; xn)g(Tn (x1 ; x2 ; : : : ; xn); #):
Bizonytas : Nem bizonytjuk. A bizonytas megtalalhato Lehman: Testing Statistical
Hipotheses, 49. old.
2.3.5. pelda: (A faktorizacios tetel alkalmazasa egyenletes eloszlasra)
Legyen az X1 ; : : : ; Xn statisztikai minta egyenletes eloszlasu a (0; #) intervallumon. Ekkor a
minta egyuttes s}ur}usegfuggvenye
1 Yn
L# (x) = #n u(0; xi )u(xi ; #)
i=1
alakban rhato, ahol 1;
ha a < b :
u(a; b) =
0 egyebkent
Mivel az X1 < #; X2 < #; : : : ; Xn < # () Xn = max fXi g < #, ezert
Yn
u(xi ; #) = u(xn; #):
i=1
Igy
Yn
L#(x) = #1n u(xn ; #) u(0; xi );
i=1
azaz teljesul a faktorizacios tetel az n-edik rendezett mintaelem statisztikara. Belattuk tehat,
hogy az Xn = max fX1 ; : : : ; Xn g statisztika elegseges a # parameterre.
28 2. FEJEZET Becsleselmelet
2 #2
ahol #2 > 0 es #1 2 R az ismeretlen parameterek.
Most a likelihood fuggveny:
1
n , 2#1 Pn (xi,#1 )2
L(x; #1 ; #2 ) = p e 2 i=1 ;
2 #2
30 2. FEJEZET Becsleselmelet
Mivel
@ 2l(x; #) = , 1 Xn
@#2 #2 i=1 xi < 0;
a kapott stacionariushely maximum. Tehat a Poisson-eloszlas eseten is a parameternek maxi-
mum-likelihood becslese az atlagstatisztika.
2.4.4. pelda: (Maximum-likelihood becsles egyenletes eloszlas eseten)
Legyen az X1 ; : : : ; Xn statisztikai minta eloszlasa U (0; #), ahol # > 0 a becsulend}o parameter.
A likelihood fuggveny most
1 Yn
L(x; #) = #n u(0; xi )u(xi ; #);
i=1
ahol 1; ha a b
U (a; b) = 0; ha a > b :
Nyilvanvalo, hogy
Y
n
max
#
u(xi ; #) = 1;
i=1
es ez a maximum el eretik
n
minden # max fx1 ; : : : ; xn g = xn eseten.
Masreszt #1n x1n , ha # xn . Ezert L# (x1 ; : : : ; xn ) a maximumat eppen a
n (x1; : : : ; xn) = xn helyen fogja felvenni, tehat # maximum-likelihood becslese az
Xn = max fX1 ; : : : ; Xng maximumstatisztika lesz.
A maximum-likelihood becsles rendelkezik nehany nagyon jo tulajdonsaggal, amelyeket a
kovetkez}o ket tetelben fogalmazunk meg.
2.4.1. tetel: Legyen adott P, valoszn}usegi mertekek egy tere es az X1 ; X2 ; : : : ; Xn sta-
tisztikai minta. Jelolje most L(x; #) a likelihood fuggvenyt es n a maximum-likelihood sta-
tisztikat!
(i) Ha letezik hatasos becsles a # parameterre, akkor n maga a hatasos becsles.
(ii) Ha letezik Tn elegseges becsles a # parameterre, akkor megadhato olyan h(x) fuggveny,
mellyel h(n ) = Tn ; azaz az elegseges becsles a maximum-likelihood statisztika fuggve-
nyekent all el}o.
Bizonytas :
(i) A Cramer{Rao-tetel utan tett 2. megjegyzes szerint tn hatasos becsles, ha
@l(x; #) = k(#)(t (x) , #)
@# n
Z+1 Z+1
H1 (x) dx < 1; H2(x) dx < 1;
,1 ,1
Z+1
9K : H3 (x) f# (x) dx < K 8# 2 (a; b):
,1
c) 0 < I1 (#) =
R
+1 @ ln f (x) 2
#
f#(x) dx < 1:
@#
,1
Legyen tovabba n a # parameter maximum-likelihood statisztikaja.
Ekkor
(i) n az # parameter konzisztens becslese,
p
(ii) n aszimptotikusan normalis eloszlasu, azaz nI1 (#) (n , #) !e N (0; 1).
Bizonytas : Az (i) bizonytasa. A b) feltetelb}ol kovetkezik, hogy a derivalas es az integralas
sorrendje felcserelhet}o. Igy mivel
Z+1 Z+1@f#(x) Z+1@ 2 f#(x)
f#(x) dx = 1 =) @# dx = 0 ; @#2 dx = 0:
,1 ,1 ,1
Legyen #0 2 (a; b) a tenyleges parameter. A Taylor-formulabol kapjuk, hogy:
@ ln f# (x) = @ ln f# (x) 2
@# @# + @ ln@#f2# (x) (# , #0 ) + 12 H3 (x) (# , #0 )2 ;
#=#0 #=#0
ahol jj < 1 ( esetleg fugghet x-t}ol es #-tol is.) Mivel
Yn
L(x; #) = f#(xi );
i=1
2.4 Maximum-likelihood becsles 33
gy
1 @ ln L(X; #) = 1 X
n
@ ln f# (Xi ) = B + B (# , # ) + 1 B (# , # )2 ;
n @# n @# 1 2 0 2 3 0
i=1
ahol
Xn
B1 = n1 @ ln f@#
# (Xi ) ;
i=1 #=#0
Xn 2
B2 = n1 @ ln@#
f# (Xi )
2
i=1 #=#0
es
X
n
B3 = n1 H3 (Xi ) :
i=1
a minta es # fuggvenye, de jj < 1. Figyeljuk meg, hogy B1 ; B2 ; B3 fuggetlen, azonos
eloszlasu valoszn}usegi valtozok atlagai!
A maximum-likelihood becsles az @ ln L@#(X;#) = 0 egyenlet megoldasabol all el}o, azaz
B1 + B2 (# , #0 ) + 12 B3 (# , #0 )2 = 0:
Felhasznaljuk, hogy !
E#0 @ ln f#(Xi ) = 0;
@# #=#0
!
E#0 @ 2 ln f#(Xi ) = ,I1 ;
@#2 #=#0
hiszen
! Z1 Z1
E#0 @ ln f#(Xi ) = @f#(x) @
@# #=#0 @# #=#0 dx = @# f#(x) dx =0
,1 ,1 #=#0
es
!
Z @ 2 f#(x) 1 2 Z 1
E#0 1 @ 2 f#(Xi ) @
f#(Xi ) @#2 #=#0 = @# #=#0 dx = @#2 f#(x) dx =0
,1 ,1 #=#0
miatt ! @ ln f (X ) 2 !
E#0 @ 2 ln f#(Xi ) = E#0 , # i =
@#2 #=#0 @# #=#0
!
= , 2 #0 @ ln f#(Xi ) = ,I1 :
@# #=#0
A nagy szamok gyenge torvenyeb}ol kovetkezik, hogy
st st st
B1 ! 0; B2 ! ,I1; B3 ! E#0 H3(X ) < K:
34 2. FEJEZET Becsleselmelet
Ezert 80 < " < 1 es 0 < < 2(KI1+1) -hez 9 n0("; ) kuszobszam, hogy n > n0 eseten
P(jB1j 2 ) < 3" ;
P(B2 , 12 I1) < 3" ;
P(jB3j 2 K ) < 3" :
,
A Boole-egyenl}otlenseget P(A1 A2 A3 ) 1 , P(A1 ) , P(A2 ) , P(A3 ) felhasznalva:
P(jB1j < 2 ; B2 < , 21 I1; jB3j < 2 K ) 1 , ":
Megmutatjuk, hogy a # = #0 + pontban a B1 + B2 (# , #0) + 12 B3 (# , #0 )2 kifejezes negatv
erteket vesz fel:
1 @ ln L(x; #)
1 B 2 < 2 + ,I1 + 1 2 2/K <
n @# = B1 + B 2 + 2 3 2 2/
#=#0 +
< 2 (KI1+ 1) (K + 1) , 12 I1 = 0:
L(x;#) < 0; ha # = # + es x kielegti a jB j < 2 ; B < , 1 I ; jB j < 2 K
Tehat @ ln @# 0 1 2 2 1 3
feltetelrendszert. Masreszt # = #0 , -val ugyanarra az esemenyre:
1 @ ln L(x; #) j 1
I 1
1 , 2 2/K >
0 , = B1 , B2 + B3 ,
2 > 2 +
n @# # = # 2 2 2/
> , 2 (K + 1) + 21 I1 > , 2 (KI1+ 1) (K + 1) + 12 I1 = 0:
L(x;#) fuggveny di erencialhato, gy folytonos, ezert a (# , ; # + ) inter-
Mivel az n1 @ ln @# 0 0
vallumban kell, hogy legyen gyoke. Maskeppen fogalmazva, 80 < " < 1 es 0 < < 2(KI1+1) -hez
9 n0("; ) kuszobszam, hogy n > n0 eseten tobb mint 1 , " valoszn}useggel a @ ln @# L(X;#) = 0
likelihood egyenletnek van gyoke a (#0 , ; #0 + ) intervallumban, azaz
P(jn(X) , #0j < ) 1 , ";
vagyis a maximum-likelihood becsles konzisztens.
A (ii) bizonytasa. A
B1 + B2 (n (X) , #0 ) + 21 B3 (n (X) , #0 )2 = 0
egyenletb}ol:
n(X) , #0 = ,B1 ;
B2 + 2 B3 (n (X) , #0)
1
p
majd mindket oldalt nI1 (#0 )-lal megszorozva:
1 p P @ ln f# (Xi )
pn n
p p B1
p I1 (#0 ) n i=1 @#
nI1 (#0 )(n (X) , #0 ) = B2 I11(#0 ) (n (X),#0 ) = X
#=#0
,
, (I1(#0 )) , 2 B3 (I1(#0 )) , (I1(#0 )) , 2 B3 (I1 (#0 ))#0 )
B 2 1 ( n ( )
2.4 Maximum-likelihood becsles 35
Az Yi = @ ln @#f# (Xi )
#=#0
jelolessel, az Yi valoszn}usegi valtozok teljesen fuggetlenek es azonos
eloszlasuak. Tovabba: @ ln f (X )
E#0 Yi = E#0 # i
@# j#=#0 = 0;
@ ln f (X )
2#0 Yi = 2#0 # i j#=#0 = I1 (#0):
@#
A centralis hatareloszlas tetelt alkalmazva:
X n pn = p 1 Xn
Un = n1 p Yi p
@ ln f#(Xi )
@# !e N (0; 1):
i=1 I1 (#0 ) I1 (#0 ) n i=1 #=#0
Felhasznalva a Csebisev-fele nagy szamok torvenyet:
st # ; B !
st st
n ! 0 2 ,(I1 (#0 )); B3 ! E#0 H3 (Xi ) < K;
amib}ol
Zn = , (I B(#2 )) , 12 B3 ((In (,# #))0 ) !
st 1
1 0 1 0
kovetkezik. e st p
Mivel Un ! N (0; 1); Zn ! 1, gy ZUnn !e N (0; 1); azaz n I1 (#0 ) (n , #0 ) !e N (0; 1):
2 D
A normalis eloszlas eseten tudjuk, hogy m = g1 (m1 ; m2 ) = m1 ; D = g2 (m1 ; m2 ) = m2 , m21 .
Pn Pn
Az empirikus momentumok: m^ 1 = n1 Xi = X n ; m^ 2 = n1 Xi2 . Igy a momentumbecs-
i=1 i=1
lesek egyb}ol adodnak:
m g1 (m^ 1 ; m^ 2 ) = X n ;
X
n X
n !2
D g2 (m^ 1 ; m^ 2) = n1 Xi2 , n1 Xi = s2n :
i=1 i=1
Lathato, hogy ugyanazok a statisztikak adodtak, mint a maximum-likelihood modszernel.
2.4.6. pelda: (A Poisson-eloszlas parameterenek becslese a momentumok modszerevel)
A minta eloszlasa most
k
P#(Xi = k) = #k! e,# (k = 0; 1; 2; : : :):
A # > 0 parameter eppen a varhato ertek, az els}o momentum, gy a momentumbecsles egyb}ol
adodik: # m^ 1 = X n . Ezuttal is ugyanazt a statisztikat kaptuk, mint a maximum-likelihood
modszernel.
2.5. Intervallumbecslesek
A korabbi szakaszokban az ismeretlen parametervektort a minta egy fuggvenyevel, azaz egyet-
len statisztikaval probaltuk meg kozelteni. Konkret realizacional tehat, a parameterter egy
pontjat egy masik ponttal becsuljuk. Ezert beszelunk pontbecslesr}ol. De tudjuk azt is, hogy
folytonos eloszlasoknal, annak valoszn}usege, hogy a valoszn}usegi valtozo az ertekkeszlete-
nek eppen egy tesz}olegesen kivalasztott pontjat fogja felvenni, nulla. Tehat folytonos esetben
nulla annak valoszn}usege, hogy eppen a parametert talaltuk el a becslessel. Az intervallum-
becsleseknel a mintabol kesztett tartomanyokat de nialunk, amely tartomanyok nagy valo-
szn}useggel lefedik a kerdeses parameterpontot. A temakort egydimenzios parameter eseten
targyaljuk.
2.5.1. de ncio: Legyen adott P valoszn}usegi mertekek egy tere es az X1 ; X2 ; : : : ; Xn
statisztikai minta. Legyen 0 < " < 1 rogztett. Azt mondjuk, hogy a # parameterhez megad-
tunk egy legalabb 1 , " szigni kanciaszint}u kon denciaintervallumot, ha t1 (X1 ; X2 ; : : : ; Xn )
es t2 (X1 ; X2 ; : : : ; Xn ) olyan statisztikak, hogy
P# (t1(X1 ; X2 ; : : : ; Xn ) # t2(X1 ; X2 ; : : : ; Xn)) 1 , "
fennall minden P # 2 P-re.
Ahhoz, hogy peldakat mutassunk kon dencia intervallumra, be kell bizonytanunk a Lu-
kacs-tetelt, es de nialni kell a 2 - es a Student-eloszlasokat.
2.5 Intervallumbecslesek 37
Z+u"
'(t) dt = P(,u" < u < u" ) = (u" ) , (,u") = 2 (u") , 1 = 1 , "
, u"
teljesuljon. Az u" > 0 szam meghatarozasat a (u" ) = 1 , 2" egyenletb}ol, standard normalis el-
oszl
nas tablauzata segtsegevel hatarozhatjuk
o meg. Mivel a f,u" < u < u" g esemeny ekvivalens
az Xn , p" n 0 < m < X n + p" n 0 esemennyel, ezert
D u D
P Xn , up" Dn0 < m < Xn + up" Dn0 = 1 , ";
azaz a
T1 = Xn , up
" D0 ;
n
T2 = X n + up
" D0
n
(1 , ")-szint}u kon denciaintervallum m-re.
2.5.2. pelda: (Kon denciaintervallum szerkesztese az ismeretlen varhato ertekre ismeret-
len szorasu normalis eloszlas eseteben)
Legyen X1 ; X2 ; : : : ; Xn N (m; D) eloszlasbol szarmazo statisztikai minta, ahol D > 0 is es,
m 2 R is ismeretlen. Szerkesszunk m-re adott 0 < " <p 1 mellett (1 , ")-szint}u kon denciain-
tervallumot! A Lukacs-tetel utan lattuk, hogy Xns,n m n 2 tn,1 , azaz az n , 1 szabadsagfoku
Student-eloszlashoz tartozo tablazatbol kiolvashato olyan t" > 0 szam, amellyel
Xn , p t s t s
1 , " = P(,t" < "
n < t" ) = P X n , p < m < X n + p n
n "
sn n n
azaz most a T1 = X n , tp" snn ; T2 = X n + tp" snn statisztikapar lesz (1 , ")-szint}u kon denciain-
tervallum m-re.
40 2. FEJEZET Becsleselmelet
2.5.3. pelda: (Kon dencia intervallum szerkesztese az ismeretlen szorasra normalis el-
oszlas eseteben)
Legyen X1 ; X2 ; : : : ; Xn N (m; D) eloszlasbol szarmazo statisztikai minta, ahol D > 0 is es
m 2 R is ismeretlen. Szerkesszunk D-re adott 0 < " < 1 mellett (1 , ")-szint}u kon denciain-
( n, 1) s
tervallumot! A Lukacs-tetelre hivatkozva megint: D2 2 n,1 . Az n , 1 szabadsagfoku
n 2
2
2 -eloszlas tablazatbol megadhatok olyan 0 < c1 < c2 szamok, hogy
!
1 , " = P c1 < (n ,D1) sn 2 < c
2 2
teljesuljon. (A c1 ; c2 ertekek nyilvan kielegtik a P(2n,1 > c1 ) = 1 , 2" es P(2n,1 > c2 ) = 2"
felteteleket.) Egyszer}u atrendezessel kapjuk, hogy
0s s 1
1 , " = P @ (n , 1) sn < D < (n , 1) snA ;
c2 c1
q (n,1) q (n,1)
azaz a T1 = c2 sn ; T2 = c1 sn statisztikapar (1 , ")-szint}u kon denciaintervallum
lesz D-re.
2.5.4. pelda: (Kon denciaintervallum szerkesztese az ismeretlen parameterre exponenci-
alis eloszlas eseteben)
Legyen X1 ; X2 ; : : : ; Xn E () eloszlasbol szarmazo statisztikai minta, ahol > 0 ismeret-
len. Szerkesszunk -ra adott 0 < " < 1 mellett (1 , ")-szint}u kon denciaintervallumot!
A problema megoldasahoz felhasznaljuk az alabbi segedtetelt:
Segedtetel: Legyen X1 ; X2 ; : : : ; Xn E () eloszlasbol szarmazo statisztikai minta.
Ekkor
a) Xi 2 E (1);
b)
Pn X = nX 2 ,(n; 1); azaz n; 1 parameter}u gamma eloszlasu,
j n
j =1
n,1
f,(x) = (nx, 1)! e,x (x > 0)
s}ur}usegfuggvennyel.
A segedtetel bizonytasa:
a) P(Xj < x) = P(Xj < x ) = 1 , e, x = 1 , e,x =) Xj 2 E (1):
R1 h i1
b) 'Xj (t) = EeiXj t = eixt e,x dx = it,1 1 ex(it,1) = 1,1it .
0 0
Yn n
'nXn (t) = 'X (t) = 1
1,it =) fnXn (x) = x(nn,,1 e1)!,x ; mert a karakterisztikus
j =1
fuggvenye:
Z1 xn,1 e,x dx = xn,1 1 ex(it,1) 1 , 1 1 Z xn,2 ex(it,1) dx =
1
eixt (n , 1)! (n , 1)! it , 1 (n , 2)! it , 1
0 0 0
2.5 Intervallumbecslesek 41
1 1
1 ex(it,1) 1 + 1
1 2 Z1
= 0 , (n , 2)! it , 1 xn,2 it , 1 ( n , 3)! it , 1 xn,3ex(it,1) dx =
0 0
1
1
2 Z1 1
n 1
n
= (n , 3)! it , 1 xn,3ex(it,1) dx = = (,1)n it , 1 = 1 , it :
0
Az n; 1 parameter}u gamma-eloszlashoz tartozo tablazatbol kiolvashatok olyan 0 < 1 < 2
szamok, amelyekkel
1 , " = P( 1 < n X n < 2 ) = P( 1 < < 2 );
n Xn n Xn
azaz a T1 = n X1 n ; T2 = n X2 n statisztika par lesz (1 , ")-szint}u kon denciaintervallum -ra.
A 1 ; 2 szamokat ugy kell meghatarozni, hogy P(0 < ,(n; 1) < 1 ) = P(,(n; 1) > 2 ) = 2"
legyen.
42 2. FEJEZET Becsleselmelet
3. fejezet
Hipotezisvizsgalat
3.1. Alapfogalmak
Tekintsuk a K veletlen kserletet es a hozzatartozo ( ; F) merhet}o teret, es a P valoszn}usegi
mertekek osztalyat, ahol ( ; P; P) Kolmogorov-fele valoszn}usegi mez}o 8P 2 P-re. Tegyuk
fel, hogy P ket diszjunkt reszhalmazra bonthato: P = P0 [ P1 , es P0 \ P1 = ;: Statisztikai
modszert (un. probat vagy tesztet) akarunk konstrualni annak eldontesere, hogy a veletlen
kserlethez tartozo tenyleges P valoszn}usegi mertek melyik halmazhoz tartozik P0 es P1 kozul.
Ehhez felalltunk egy H0 : P 2 P0 nullhipotezist, es egy H1 : P 2 P1 alternatv hipotezist. A
nullhipotezis azt a feltevesunket fogalmazza meg, hogy az elmeleti P valoszn}useg a P0 reszhez
tartozik, az alternatv hipotezisunk pedig azt, hogy ellenkez}oleg, pont a P1 reszhez. A kett}o
felteves kozul az eljaras vegen egyertelm}uen kivalasztjuk es elfogadjuk majd az egyiket. A
dontest az X1 ; X2 ; : : : ; Xn ; : : : statisztikai minta segtsegevel fogjuk meghozni. El}oszor is, el
fogjuk keszteni a tn (X1 ; X2 ; : : : ; Xn ) un. probastatisztikat, amely rendelkezni fog az alabbi
tulajdonsaggal: adott 0 < " < 1 szamhoz megadhatok olyan K1 (") < K2 (") szamok, hogy
P(K1 (") tn K2(")) 1 , "; 8P 2 P0 :
A K1 ("); K2 (") ertekeket kritikus ertekeknek, a segtsegukkel de nialt
Xe = fx : x 2 Rn ; K1(") tn(x) K2 (")g n-dimenzios vektorhalmazt elfogadasi tartomany-
nak, a komplemens halmazat, Xk = Rn n Xe -t, pedig kritikus tartomanynak nevezzuk. Az "
szam a proba terjedelme, az 1 , " ertek pedig a proba szigni kancia szintje. A dontest ugy
hajtjuk vegre, hogy ellen}orizzuk, hogy az X1 ; X2 ; : : : ; Xn minta beleseik-e az Xe elfogadasi
tartomanyba. Ha beleesik, akkor a H0 hipotezist, ellenkez}o esetben a H1 alternatv hipotezist
fogjuk elfogadni. A hipotezis eldontese maskeppen alakulhat az egyes " terjedelmeken, ezert
mindig jelezni kell, hogy milyen 1 , " szint mellett fogadjuk el (vagy vetjuk el) a nullhipotezist.
Termeszetesen szamolunk azzal is, hogy a dontesunk hibas. Azt mondjuk, hogy els}ofaju hibat
kovetunk el, ha elvetjuk a nullhipotezist, holott valojaban az igaz. Masodfaju hibat akkor
kovetunk el, ha elfogadjuk a nullhipotezist, holott az nem igaz. Minden mas esetben helyesen
dontunk. A dontesi hibafajtakat az alabbi tablazatban mutatjuk:
Dontes n Valosag H0 igaz H1 igaz
H0 mellett jo dontes masodfaju hiba
H1 mellett els}o faju hiba jo dontes
3.1.1. de ncio: A
p1 ("; n; P) = P((X1 ; X2 ; : : : ; Xn)T 2 Xk ); P 2 P0 ; 0 < " < 1; n 2 N
43
44 3. FEJEZET Hipotezisvizsgalat
akkor
EP0 (X) = P0 (L1 (X) > c0L0 (X)) + P0 (L1 (X) = cL0 (X)) =
= G (c0 ) + (G (c0 , 0) , G (c0 )) = ":
c0 megvalasztasa lenyegeben egyertelm}u. Tegyuk fel ugyanis, hogy G(c) = "; c 2 (c; ; c;; ) :
Tekintsuk a L ( x)
; 1
T = x : p0 (x) > 0 \ c < L (x) < c ;;
0
tartomanyt.
P0 (T ) = G (c;) , G (c;; , 0) = " , " = 0:
x 2 T eseten c;L0 (x) < L1 (x) < c;;L0 (x) miatt
Z Z Z
0 = c; L0 (x) d (x) < L1 (x) d (x) < c;; L0 (x) d (x) = 0;
T T T
azaz P1 (T ) = 0 is fennall, azaz akar H0 , akar H1 az igaz, csak 0 valoszn}useggel fordul-
hat el}o, hogy c0 megvalasztasa nem egyertelm}u.
(ii) Legyen most egy tetsz}oleges legfeljebb " terjedelm}u veletlentett proba dontesfuggve-
nye: EP0 (X) ": Legyenek S + = fx : (x) > (x)g es S , = fx : (x) < (x)g :
Konnyen lathato, hogy
8x 2 S = S + [ S , eseten ( (x) , (x)) (L1 (x) , c0 L0 (x)) 0 es
8x 2 S eseten (x) = (x) :
Ezert Z
( (x) , (x)) (L1 (x) , c0 L0 (x)) d (x) =
Rn
Z
= ( (x) , (x)) (L1 (x) , c0 L0 (x)) d (x) 0;
S
azaz
Z Z
( (x) , (x)) L1 (x) d (x) c0 ( (x) , (x)) L0 (x) d (x) =
Rn Rn
= c0 (" , EP0 (X)) 0;
azaz EP1 (X) EP1 (X) ; vagyis er}osebb, mint :
(iii) Legyen most egy tetsz}oleges legfeljebb " terjedelm}u egyenletesen legjobb proba don-
tesfuggvenye. Legyen S = fx : (x) 6= (x) \ L1 (x) 6= c0 L0 (x)g : Ha x 2 S; akkor
( (x) , (x)) (L1 (x) , c0 L0 (x)) > 0
lesz. Ezert, ha S nem nullmertek}u, vagy P0 vagy P1 szerint, akkor
Z
0< ( (x) , (x)) (L1 (x) , c0 L0 (x)) d (x) =
S
Z
= ( (x) , (x)) (L1 (x) , c0 L0 (x)) d (x) :
Rn
3.2 Neyman{Pearson- es Stein-lemma 47
1-valoszn}useggel, gy 8 > 0-hoz eleg nagy n-re n < " teljesul. Masreszt,
Z Z
n = P1 X 2 Xe
(n) = L1 (x) d (x) L0 (x) 2,n(D(f0kf1 ),) d (x) =
X(en) X(en)
Z
= 2,n(D(f0 kf1 ),) L0 (x) d (x) = 2,n(D(f0kf1 ),) (1 , n) :
X(en)
Hasonloan,
n 2,n(D(f0 kf1 )+) (1 , n ) :
Ebb}ol
,D (f0 k f1) , + log2 (1n, n) n1 log2 n ,D (f0 k f1 ) + +
log2 (1 , n )
n
es n ! 1 hataratmenettel
1 log2 n = ,D (f0 k f1 )
lim
n!1 n
kovetkezik, mert > 0 tetsz}oleges volt.
Megmutatjuk, hogy nincsen a fenti X(en) -nel jobb elfogadasi tartomanysorozat. Legyen
Y egy masik elfogadasi tartomanysorozat, melyhez az n;y ; n;y els}ofaju- illetve masodfaju
( n )
hibavaloszn}useg-sorozat tartozik.
Z
n;y = P1 X 2 Y(n) P1 X 2 X(en) \ Y(n) = L1 (x) d (x)
X(en) \Y(n)
Z Z
L0 (x) 2,n(D(f0 kf1 )+) d (x) 2,n(D(f0 kf1 )+) L0 (x) d (x) :
(n) (n)
Xe \Y(n) Xe \Y(n)
A De Morgan azonossagot, majd a Boole-egyenl}otlenseget hasznalva
Z
L0 (x) d (x) = P0 X 2 X(en) \ Y(n) = 1 , P0 X 2 X(en) [ Y(n)
X(en) \Y(n)
1 , P0 X 2 X(en) , P0 X 2 Y(n) = 1 , n;" , n;y
adodik, azaz
1 ,D (f0 k f1) + + log2 (1 , nn;" , n;y ) :
n log2 n;y
n+k
1 2
lesz. Z eloszlasat n; k parameter}u F- (Fisher-) eloszlasnak nevezzuk, es Fn;k -val jeloljuk.
3.3 Parameteres pro bak 53
3.3.5. Az F-proba
Adottak az X = (X1 ; X2 ; : : : ; Xn )T es az Y = (Y1 ; Y2 ; : : : ; Yk )T egymastol fuggetlen statisztikai
mintak. Most csak olyan P valoszn}usegi mertekeket tekintunk, ahol a mintak peremeloszlasai
D1 > 0 illetve D2 > 0 ismeretlen szorasu es ismeretlen m1 illetve m2 varhato ertek}u normalis
eloszlasuak. A ket mintahoz tartozo egyuttes s}ur}usegfuggveny:
2 2
!
fm1 ;m2 (x; y) = 2D D exp , (x ,2Dm2 1) , (y ,2Dm22 ) :
1
1 2 1 2
Felalltott hipotezisek most a szorasok egyezesere, illetve szigni kans kulonbsegere vonatkoz-
nak: H0 : D1 = D2 ; H1 : D1 6= D2 : Ha2 feltesszuk, hogy a nullhipotezis igaz, akkor a
(n,1)sX;n (k,1)sY;k 2
Lukacs-tetel szerint igaz lesz, hogy D2 2 n,1 ; 2
D2 2 2k,1, ahol D1 = D2 = D.
A mintak fuggetlensege miatt a ket statisztika is fuggetlen lesz.
Mivel fuggetlen 2 eloszlasu valoszn}usegi valtozok hanyadosa F-eloszlasu:
,
(n 1)sX;n 2
D2
n,1 sX;n2
,
(k 1)sY;k 2
= s 2 2 Fn,1;k,1;
D2 Y;k
k,1
azaz a mintak korrigalt empirikus szorasnegyzeteinek hanyadosa n , 1; k , 1 szabadsagfoku
Fisher-eloszlast fog kovetni, ha a nullhipotezis igaz. Ezek alapjan a nullhipotezis eldontese-
re a kritikus tartomanyt ugy szerkeszthetjuk meg, hogy adott 0 < " < 1 terjedelemhez az
n , 1; k , 1 szabadsagfoku F-eloszlas tablazatabol kiolvasunk olyan 0 < K1 < K2 kritikus
ertekeket, amelyekre P(K1 < Fn,1;k,1 ) = 1 , 2" ; P(K2 < Fn,1;k,1 ) = 2" : Ha az adott min-
2
tarealizacional K1 < ssX;n
Y;k 2 < K2 relacio teljesul, akkor a nullhipotezist elfogadjuk, ellenkez}o
esetben pedig elvetjuk. A proba els}ofaju hibajanak a valoszn}usege most is "; a masodfaju
hiba valoszn}usege az n es k mintaelemszamoktol, "-tol es a D1 , D2 kulonbsegt}ol fugg.
Megjegyzes :
1. Ha " < 0:33, n es k kett}onel nagyobb mintaelemszamok (ez gyakorlatilag mindig fenn-
all), akkor a 0 < K1 < K2 kritikus ertekekre mindig teljesul a K1 < 1 < K2 relacio.
Igy, ha sX;n2 ; sY;k 2 kozul a nagyobbikat rjuk a szamlaloba, a proba eldontesehez eleg
a probastatisztika erteket csupan K2 -vel osszehasonltani. Ha a szamtott ertek kisebb,
mint K2 , a nullhipotezist elfogadjuk. Ilyenkor az F-eloszlas tablazatabol egyetlen kriti-
kus ertek meghatarozasa elegseges, de ugyeljunk arra, hogy az els}o szabadsagfok mindig
abbol a mintaelemszambol kepz}odik, amelyhez tartozo korrigalt empirikus szorasnegyzet
statisztika a szamlaloban van!
2. Statisztikai elemzeseket napjainkban valamilyen statisztikai programrendszer segtsege-
vel szokas elvegezni. A programok egy proba eseten mindig azt a 0 < " < 1 els}ofaju
hibavaloszn}useget adjak meg eredmenyul, amelynel mar elfogadhato a nullhipotezis. Ha
tehat tul kozel van 0-hoz, akkor az azt jelenti, hogy a nullhipotezist el kell vetni. 0:01
nel kisebb els}ofaju hibavaloszn}useg mellett "nem illik" elfogadni H0 -t, mg 0:1 felett a
nullhipotezis fennallasa er}osnek mutatkozik. A ket szels}o ertek kozott a felhasznalo fe-
lel}ossege, hogy elfogadja, vagy elveti H0 -t, vagy esetleg ujabb mintavetelezessel b}ovti a
mintat (mintakat), majd megismetli a probat. A mintaelemszam novelesevel n}o a proba
ereje, tehat nagy n eseten kisebb " terjedelem mellett is elfogadhato a nullhipotezis.
54 3. FEJEZET Hipotezisvizsgalat
3.3.6. A Welch-proba
Ha az F-probat el kell vetnunk, nem alkalmazhato a ketmintas t-proba arra, hogy ellen[rizz-k
a ket minta varhato ertekeinek egyezeset. Erre az esetre dolgozta ki Welch az alabbi probat.
Adottak az X1 ; X2 ; : : : ; Xn es az Y1 ; Y2 ; : : : ; Yk egymastol fuggetlen statisztikai mintak. Most is
csak olyan P valoszn}usegi mertekeket tekintunk, ahol a mintak peremeloszlasai D1 > 0 illetve
D2 > 0 ismeretlen szorasu es ismeretlen m1 illetve m2 varhato ertek}u normalis eloszlasuak. A
ket mintahoz tartozo egyuttes s}ur}usegfuggveny:
2 2
!
fm1 ;m2 (x; y) = 2D D exp , (x ,2Dm2 1) , (y ,2Dm22 ) :
1
1 2 1 2
A hipotezisek ugyanazok mint a ketmintas t-probanal voltak: H0 : m 1 = m2 ; H1 : m1 6= m2 :
Megmutathato, hogy a nullhipotezis fennallasa eseten a Wn;k = r sX2 n ,Yks2 probastatisztika
X;n + Y;k
n k
kozelt}oleg Student-eloszlasu [f ] (egeszresz f ) szabadsagfokkal, ahol f1 = kc,21 + (1n,,c1 ) ; c =
2
s2Y;k
s2Y;k s2X;n . A kritikus erteket a Student-eloszl as tablazatabol kiolvasva donthetunk a szoka-
k
k + n
sos modon a nullhipotezisr}ol: elfogadjuk, ha az adott realizacioknal a jWn;k j szamtott ertek
kisebb lesz, mint a kritikus ertek. Ha n; k 40, akkor a centralis hatareloszlas-tetel alapjan
Wn;k N (0; [f[]f,] 2 ), azaz akkor a normalis eloszlas tablazatabol is kiolvashatjuk a kritikus
erteket.
Bizonytas : A bizonytas a Helly-tetelen alapul. Azt fogjuk megmutatni, hogy (Vi ,npnpi i)
Pr 2
i=1
karakterisztikus fuggvenyeinek sorozata egyenletesen konvergal 2r,1 karakterisztikus fuggve-
nyehez, vagyis r , 1 teljesen fuggetlen standard normalis eloszlas negyzetosszegenek karakte-
risztikus fuggvenyehez.
El}oszor kiszamtjuk a V~i = (Vpi ,npnpi i ) standardizaltak karakterisztikus fuggvenyet.
r
,i P pnpj tj
'V~ (t1 ; t2 ; : : : ; tr ) = e j =1 1 ; t2 ; : : : ; tr
'V ptnp p pnpr =
1 np2
0 r !1n
@1 + X pj
r
,i P pnpj tj i ptnp
j
=e j =1 e j ,1 A
j =1
Felhasznalva az ex = 1 + x + x2 + O(x3 ); ln(1 + x) = x , x22
2
+ O(x3 ) (x 2 [,1; 1])
i ptj t2j
McLaurin-sorfejteseket: e npj , 1 = pitnpj j , 2np j + O ( n, 23 ); es gy
0 1
p X r X r X r
ln 'V~ (t) = ,i n ppj tj + n ln @1 + pin ppj tj , 21n t2j + O(n, )A =
3
2
j =1 j =1 j =1
0r 12
p X r X r X r X
= ,i n ppj tj + n pin ppj tj , 21 t2j + 12 @ ppj tj A + O(n, ) =
1
2
j =1 j =1 j =1 j =1
0 1 2
1 X r
1 X r
p
= , 2 tj + 2 @2 pj tj A + O(n, ): 1
2
j =1 j =1
!2
A fentiek alapjan lim ln ' (t) = , 1 P
r
t2 + 1 P
r p
pt :
n!1 V~ 2
j =1
j 2
j =1
jj
A Schmidt-fele ortogonalizalasi eljarassal megadhato olyan r-edrend}u ortonormalt matrix,
melynek utolso sora a pp1 ; pp2 ; : : : ; ppr elemekb}ol all:
0 1
11 12 1r
B 21 22 2r C
,=B
B@ ... ... . . . ... C
C
A ; ,T , = ,,T = E r :
pp1 pp2 ppr
~ transzformaltat. Nyilvan:
Tekintsuk ezek utan a Z = ,V
ZT Z = V~ T ,T ,V~ = V~ T E V~ = V~ T V~
es
X
r
p
Zr = pj V~j :
j =1
Tovabba, ha
0r 12
X
r X
r X
r
p X
r,1 X
r X p
u = ,t =) u2j = t2j ; ur = pj tj =) u2j = t2j , @ pj tj A :
j =1 j =1 j =1 j =1 j =1 j =1
56 3. FEJEZET Hipotezisvizsgalat
Tiszta illeszkedesvizsgalat
Adott az X1 ; X2 ; : : : ; Xn statisztikai minta. Ellen}orizni akarjuk azt a feltevest, hogy a minta
eloszlasfuggvenye eppen az F0 (x), az osszes szobajohet}o eloszlasfuggveny kozott. F0 (x)-nek
nincsenek ismeretlen parameterei, egy bizonyos, konkret eloszlasfuggveny. A nullhipotezisunk
most H0 : P(X < x) F0 (x); mg az alternatv hipotezis H1 : P(X < x) 6 F0 (x). Vagyuk
a szamegyenesnek egy tetsz}oleges r diszjunkt intervallumbol allo felosztasat. Legyen ,1 <
x1 < x2 < < xr,1 < 1; Ik = [xk,1 ; xk ) ; (k = 1; 2; : : : ; r); x0 = ,1 ; xr = +1. Ha
H0 igaz, akkor pk = P(X 2 Ik ) = F0 (xk ) , F0 (xk,1):
Jelolje V azt a gyakorisagot, ahany mintaelemre teljesult az X 2 I relacio, azaz V =
Pn I (X 2 I k). Ha osszevetjuk ezt a polinomialis eloszlas de nciojajval lak thatjuk, hogy Vk =
i k
i=1
(V1 ; V2 ; : : : ; Vr )T egy n; p1 ; p2 ; : : : ; pr parameter}u polinomialis eloszlasu valoszn}usegi vektor-
Pr
valtozo lesz! De ekkor a 3.4.1. tetelt alkalmazva, (Vi ,npnpi i) !e 2r,1 (n ! 1): Vagyis, ha
2
i=1
Pr
nagy a mintaelemszam, a Tn = (Vi ,npnpi i )
2
=
P
r V
i , n statisztika a nullhipotezis fenn
2
allasa
i=1 i=1 npi
eseten kozelt}oleg r , 1 szabadsagfoku 2
-eloszlast kovet.
Erre alapozhatjuk a dontesi elja-
rasunkat. Adott 0 < " < 1 terjedelemhez meghatarozunk olyan K" kritikus erteket, amellyel
P(2r,1 < K") = 1 , ". Ezek utan, ha az adott statisztikai minta realizaciojanal teljesul a
Tn < K" relacio, a nullhipotezist elfogadjuk, ellenkez}o esetben pedig elvetjuk. Az els}ofaju
hibavaloszn}useg most csak aszimptotikusan lesz ":
Megjegyzes :
1. Alkalmazasokban az x1 < x2 < < xr,1 osztopontokat ugy celszer}u megvalasztani,
hogy a realizalodott mintanal Vi 10 es pi 1r legyen minden i-re.
2. Ha r 30, akkor a 2 -eloszlas tablazat helyett a norm
p alis eloszlas tablazatat is hasznal-
hatjuk, mert ilyenkor mar Tn 2r,1 N (r , 1; 2r , 2):
3. Ha a statisztikai minta diszkret eloszlasu, akkor az intervallumok helyett a minta er-
tekkeszletenek diszjunkt felbontasat vesszuk. Pneldaul, ha a k-adik partciot az Ik =
fz1; z2 ; : : : ; znk g szamhalmaz jelenti, akkor pk = P P(X = zi ).
k
i=1
3.4 Nemparameteres pro bak 57
Becsleses illeszkedesvizsgalat
Adott az X1 ; X2 ; : : : ; Xn statisztikai minta. Ellen}orizni akarjuk azt a feltevest, hogy a min-
ta eloszlasfuggvenye F# (x) alaku, az osszes szobajohet}o eloszlasfuggveny kozott. F# (x) egy
k-parameteres eloszlascsalad eleme. A nullhipotezisunk most
H0 : 9# 2 Rk : P(X < x) F# (x);
mg az alternatv hipotezis
H1 : @# 2 Rk : P(X < x) F# (x):
A proba vegrehajtasa nagyon hasonlt az el}oz}o esetre, csak el}oszor venni kell a # parameter-
vektor tn konzisztens becsleset, majd az adott mintarealizacional kapott # = tn becslessel
kepezzuk az F0 (x) = F# (x) eloszlasfuggvenyt, ami mar konkret, hiszen ismeretlen paramete-
reket mar nem tartalmaz. Ezutan vegrehajtva mindazt, amit a tiszta illeszkedesvizsgalatnal
lertunk, kiszamoljuk a Tn pre
obastatisztikat. A kulonbseg csak ott jelentkezik, hogy most az
mutathato meg, hogy Tn ! 2r,1,k , ahol k a becsult parameterek szama. Ezek alapjan a
dontesi algoritmus az el}oz}oekhez hasonloan tortenik.
Fuggetlensegvizsgalat
Legyen (X1 ; Y1 )T ; (X2 ; Y2 )T ; : : : ; (Xn ; Yn )T n elemszamu ketdimenzios statisztikai minta. El-
len}orizni akarjuk, hogy a minta komponensei fuggetlenek-e egymastol, vagy pedig szigni kans
sztochasztikus osszefugges tapasztalhato-e kozottuk:
H0 : P(Xi < x; Yi < y) = P(Xi < x)P(Yi < y) 8x ; y ;
H1 : P(Xi < x; Yi < y) 6 P(Xi < x)P(Yi < y):
Legyen ,1 < x1 < x2 < < xr,1 < 1; Ik = [xk,1; xk ) ; (k = 1; 2; : : : ; r) ; x0 =
,1 ; xr = +1 es ,1 < y1 < y2 < < ys,1 < 1 ; Jk = [yk,1; yk ) ; (k =
1; 2; : : : ; s) ; y0 = ,1 ; ys = +1 ket kulonboz}o partciora bontasa R-nek. Azert kell
ket kulonboz}o felosztast tekintenunk, mert a ket minta ertekei maskeppen oszolhatnak el a
szamegyenesen; az els}o felosztas az els}o komponens ertekkeszletet, a masodik partcio a ma-
sodik komponens ertekkeszletet fedi le.
Jelolje: Vij azon mintaelemek szamat, ahol (Xk ; Yk )T 2 Ii Jj teljesul,
X
s X
n X
r X
n
Vi = Vij = I (Xk 2 Ii ); Vj = Vij = I (Yk 2 Jj ):
j =1 k=1 i=1 k=1
Ps
A pij = P(Xk 2 Ii ; Yk 2 Jj ); pi = P(Xk 2 Ii ) = pij ; pj = P(Yk 2 Jj ) = pij valoszn}u-
Pr
j =1 i=1
segek most nem ismertek, de azokat a relatv gyakorisagok segtsegevel becsulni lehet:
Xs Xr
p p^ = 1 V = 1 V ; p p^ = 1 V = 1 V :
i i n i n j=1 ij j j n j n i=1 ij
i=1 i=1
aszimptotikusan r , 1 szabadsagfoku 2 -eloszlast kovetnek, eha H0 igaz. Az osszeguk viszont
akkor 2r , 2 szabadsagfoku 2 -eloszlasu lesz: Tn + Tm ! 22r,1 . Az osszesen r , 1 db
parameterbecsles miatt azonban, ahogy arra a becsleses illeszkedesvizsgalatnal utaltunk, a
szabadsagfokot r , 1-gyel csokkenteni kell:
2 2
X
r
(Vi , np^i)2 X
r
p^i)2 X
r Vi , n n+mV i + Ui X Ui , m n+m
r V i +U i
3.4.2. Kolmogorov{Szmirnov-probak
A 2 -probaknak az a hatranya, hogy csak nagy elemszamu mintak eseten hasznalhatok, ami a
mintavetelezes koltsegeit noveli. Masreszt nincs egyertelm}u szabaly a csoportok kialaktasara,
gy a szamtogepes megvalostas is nehezkesebb. A rendezett mintakon alapulo Kolmogorov{
Szmirnov-probak kikuszobolik az emltett hatranyokat. Miutan itt a konvergencia sebessege
nagyobb, kisebb mintaelemszam is elegseges a proba sikeres vegrehajtasahoz. (A mintak ren-
dezese ugyanis plusz informaciot jelent).
Az egymintas Kolmogorov{Szmirnov-proba illeszkedesvizsgalatra az alabbi tetelen alap-
szik:
3.4.2. tetel: Legyen X1 ; X2 ; : : : ; Xn ; : : : statisztikai minta, melynek eloszlasfuggvenye F0(x)
abszolut folytonos. Jelolje
8 0; x X
< 1
Fn (x) = : nk ; Xk < x Xk+1 (k = 1; 2; : : : ; n , 1)
1; x > Xn
az empirikus
p eloszlasfuggvenyt, ahol X1 X2 : : : Xn a rendezett minta, es legyen
Dn = n sup jFn (x) , F0 (x)j : Ekkor
x2R
K (y); y > 0
lim P(Dn < y) = 0;
n!1 y0 ;
ahol K (y) =
P
1
(,1)i e,2i2 y2 ; y > 0 a Kolmogorov-eloszlasfuggveny, azaz a Dn statisztika
i=,1
eloszlasa n ! 1 esetben az un. Kolmogorov-eloszlast adja.
Bizonytas : A tetelt nem bizonytjuk.
Megjegyzes :
1. Figyeljuk meg, hogy K (y) nem fugg az F0 (x) eloszlasfuggvenyt}ol.
2. Mivel Fn (x) mindig lepcs}os fuggveny, ezert eleg csak az ugrashelyeken vett kulonbsegek
maximumat venni:
p p
Dn = n sup jFn (x) , F0 (x)j = n i=1max jF (X ) , F0 (Xi )j :
x2R ;2;:::;n n i
3. A Kolmogorov-eloszlasfuggvenyre vonatkozo tablazat:
K (x" ) x"
0:9 1:23
0:95 1:36
0:99 1:63
0:999 1:96
A tetel segtsegevel proba szerkeszthet}o egy adott mintanak a hipotetikus F0 (x) eloszlas-
fuggvenyhez valo illeszkedesere.
H0 : P(Xi < x) F0 (x) es H1 : P(Xi < x) 6 F0 (x):
Legyen most 0 < " < 1. A nullhipotezist akkor fogadjuk el 1 , " szigni kancia szinten, ha
Dn < x" teljesul, ahol K (x") = 1 , ":
A ketmintas Kolmogorov{Szmirnov-fele proba homogenitasvizsgalatra pedig az alabbi te-
telen alapszik.
60 3. FEJEZET Hipotezisvizsgalat
Regresszioanalzis
4.1. Veletlen meg gyeles
A feladat ket, er}os sztochasztikus osszefuggest mutato X es Y valoszn}usegi valtozo kozotti
fuggvenykapcsolat jellegenek, es parametereinek feltarasa. Y fogja jelolni a celvaltozot, es X
a meg gyelest, a fuggetlen valtozot. Feladat olyan f fuggveny megadasa, ahol Y f (X ):
Elmeletileg a feladat megoldott, hiszen ha a ket valtozo egyuttes eloszlasa ismert, akkor meg-
hatarozhato a felteteles varhato ertek (regresszio), amely a legjobb kapcsolatot adja meg abban
az ertelemben, hogy minimalizalja a negyzetes elteres varhato erteket:
E(Y , E(Y jX ))2 = min 8f
E(Y , f (X ))2 :
Gyakorlati problemaknal azonban az egyuttes eloszlas altalaban nem ismert, tehat a felte-
teles varhato ertek szamtasa sem lehetseges. A fuggvenykapcsolatot a ket valtozora vonatkozo
(X1 ; Y1 )T ; (X2 ; Y2 )T ; : : : ; (Xn ; Yn )T statisztikai minta alapjan kell meghatarozni. A regresszi-
oanalzis vegrehajtasanak csak akkor van ertelme, ha kimutathato X es Y kozott a sztochasz-
tikus osszefugges (pl. el kellett vetni a nullhipotezist fuggetlensegvizsgalatnal, vagy a minta
empirikus korrelacios egyutthatoja kozel van 1-hez). A regresszioanalzis tipikus modszere az,
hogy egy jol korulrt tobbparameteres fuggvenyhalmazbol hatarozunk meg egy bizonyos fugg-
venyt ugy, hogy annak parametereit a minta segtsegevel megbecsuljuk. Legyen adott tehat
az F = ff g fuggvenyosztaly. Meghatarozando az az f 2 F fuggveny, ahol
E(Y , f (X ))2 = 8min f 2F
E(Y , f (X ))2 :
F -et legtobbszor a mintarealizacionak a koordinatarendszerben valo abrazolasaval kapott szo-
rodasgra kon alapjan lehet megvalasztani, de az a valtozok zikai tartalmabol fakado "elvart"
tpusu fuggvenyek halmaza is lehet.
Ismeretes, hogy a ket valtozo egyuttes normalis eloszlasa eseten, az elmeleti regresszio,
az E(Y j X = x) linearis. Mivel az egyuttes normalis eloszlas gyakran jelentkezik, alapvet}o
fontossagu a regresszioszamtasnak az a specialis esete, amikor F a linearis fuggvenyek hal-
maza. A linearis osszefugges megadasa azert is fontos, mert a kapott osszefuggest konny}u
magyarazni, interpretalni.
4.1.1. Linearis regresszio ket valtozo kozott
4.1.1. de ncio: Legyen X es Y ket adott valoszn}usegi valtozo. Az a X + b valoszn}u-
segi valtozo az Y -nak az X -re vonatkozo linearis regresszioja, ha
E(Y , a X , b )2 = 8mina;b2R
E(Y , aX , b)2 :
61
62 4. FEJEZET Regresszio analzis
Megjegyzes :
1. Lathato, hogy az empirikus linearis regresszio egyutthatoi az elmeleti regresszios egye-
nes egyutthatoitol annyiban kulonboznek, hogy a kepletekben az elmeleti momentumok
helyett a mintabol szamolt megfelel}o empirikus momentumok allnak.
2. Ha X es Y egyuttes eloszlasa normalis, akkor az elmeleti regresszi p a meredekse-
os egyenes
gere kon denciaintervallum szerkeszthet}o, mivel ilyenkor az sY ap ,1,a R^2 n , 2 statisztika
sX n
n , 2 szabadsagfoku Student-eloszlast kovet.
3. A normalis esetben a korrellalatlansag es a fuggetlenseg azonos tulajdonsagok. Tehat,
ha X es Y korrelacios egyutthatoja 0; akkor a = 0, azaz
a p ^ p
q n , 2 = q Rn n , 2 2 tn,2 :
sY 1 , R^ 2 1 , ^
R 2
s X n n
A fuggetlenseget megfogalmazo nullhipotezisr}ol tehat ilyenkor t-probaval donthetunk.
4.1.2. Polinomialis regresszio
4.1.3. de ncio: Amikor az F = fpn(x) = a0 + a1x + + am xm g fuggvenyosztaly a leg-
feljebb m-edrend}u polinomosztaly, a 8min
f 2F
E(Y , f (X ))2 minimumfeladat megoldasat polino-
mialis regresszios illesztesnek nevezzuk.
4.1.3. tetel: Az elmeleti polinomialis regresszios gorbe egyutthatoit az
0 1 EX EX m 1 0 a0 1 0 EY 1
BB EX EX 2 EX m+1 C CB B a1 C C B B EY X 2 C C
BB ... . . . C
C B
B .. C
. C
B
B .. C
C
BB EX i EX..i+1 . . EX..m+i C
C B
B ai C
C = B
B E Y
.
Xi
C
C
BB . C
C B C B C
@ .. ..
. ... ..
.
B
A@ . C.
. A B
@ ... C
A
EX m EX m+1 EX 2m am EY X m
linearis egyenletrendszer megoldasaval kaphatjuk meg. Ennek mindig van megoldasa, hiszen
az egyutthatomatrix szimmetrikus es pozitv szemide nit.
Bizonytas : A feladatot a
h(a0 ; a1 ; : : : ; am ) = E(Y , (a0 + a1 X + + am X m ))2
m + 1 valtozos fuggveny minimumhelyenek megkeresesevel oldhatjuk meg:
@h(a0 ; a1 ; : : : ; am ) = ,2E([Y , (a + a X + + a X m )] X i ) = 0 (i = 0; 1; 2; : : : ; m) =)
@ai 0 1 m
=)
Pm a EX i+j = EY X i =) kovetkezik az alltas.
j
j =0
64 4. FEJEZET Regresszio analzis
fuggveny minimumhelyet meghatarozzuk, hasonloan, mint ahogy azt az 4.1.3 tetelben tettuk.
Megjegyzes : Nyilvanvaloan az n mintaelemszamnak joval nagyobbnak kell lennie, mint az
m-nek, az illesztend}o polinom fokanak.
4.1.3. Linearisra visszvezethet}o ketparameteres regresszios osszefuggesek
keresese
Ha a linearis regresszio feltetelei valahol serulnek, vagy rossz illesztest kapunk, a fugg}o es
a fuggetlen valtozok transzformaciojaval kell megprobalkozni. A transzformalt input adato-
kon azutan mar linearis regresszios elemzest hajtunk vegre, de ez az eredeti adatoknal mar
nem linearis osszefuggest fog magyarazni. Az inverz lekepezes es a regresszios egyutthatok
segtsegevel kepezhet}ok azok a parameterek, amelyekkel a kapcsolatot lero fuggveny felrhato.
Tehat, ha az F = ff (x; a; b)g fuggvenyosztaly ketparameteres, es talalhatok olyan g; h; k1 ; k2
fuggvenyek, hogy y = f (x; a; b) () g(y) = k1 (a; b)h(x) + k2 (a; b) teljesul.
Ezutan a 8minf 2F
E(Y , f (X ; a; b))2 feladat helyett a
E(g(Y ) , k1 h(X ) , k2 )2 = 8min
k1;k2
E(g(Y ) , k1 h(X ) , k2 )2
linearis regresszios feladatot oldjuk meg. Vegul a k1,1 (k1 ; k2 ) ; b k2,1 (k1 ; k2 ): A ltalaban
mas eredmenyeket kapunk, mintha az eredeti fuggvenyen hajtottuk volna vegre a legkisebb
negyzetek modszerevel a parameterbecslest. Viszont az eredeti problemanal, nem biztos, hogy
a kapott (sokszor transzcendens) egyenletet meg tudnank oldani. A tovabbiakban megadunk
nehany peldat nemlinearis kapcsolatnak a linearis regresszio segtsegevel valo megadasara.
y = f (x; a; b) = aebx exponencialis fuggvenykapcsolat:
Az egyenlet ket oldalat logaritmizalva mar linearis osszefuggest kapunk ln y es x kozott: y =
ln y = bx + ln a = k1 x + k2 . Ilyenkor az ((X1 ; ln Y1 ) ; (X2 ; ln Y2 ) ; : : : ; (Xn ; ln Yn )) transzfor-
malt mintara illesztunk egyenest. A kapott k1 es k2 egyutthatokbol az a = ek2 es b = k1
transzformacioval kapjuk meg az eredeti osszefugges parametereit.
4.1 Veletlen megfigyeles 65
2 ~ 2 X n
2 2 X n
2 2 X n
2 2 X n
2 Xn
b= wi = (li + di ) = li + 2 li di + d2i =
i=1 i=1 i=1 i=1 i=1
X n Xn
2
= b + 2 2
di + 2 2 lidi 2 b :
i=1 i=1
0 =0
4.2 Tervezett (determinisztikus) megfigyeles 69
X X X X 1 X n
2 X
n n n n n
li di = li (wi , li ) = liwi , li = wi n , x ki , 1 , x k 2 =
i
i=1 i=1 i=1 i=1 i=1 i=1 n
Xn Xn
1 , x2 Xn
2 + 2 1 x X k =
n
= n1 wi , x P
n
1 ( x i , x
) w i , n k i n i=1 i
i=1 (xi , x)2 i=1 i=1
i=1
= n1 + P x2 , 1, x2
n
(xi , x)2 n
Pn (x , x)2 = 0:
i
i=1 i=1
4.2.2. tetel: Ha Yi = axi + b + "i (i = 1; 2; : : : ; n); ahol az "i 2 N (0; 2 ) teljesen fuggetlen
valoszn}usegi valtozok ( =) Yi 2 N (axi + b; ) es teljesen fuggetlenek), akkor az el}obbiek
mellett meg az is allthato, hogy a es b az a; b parametereknek maximum-likelihood becslesei
is.
Bizonytas : Mivel Yi 2 N (axi + b; ); teljesen fuggetlenek, ezert a minta egyuttes s}ur}useg-
fuggvenye, a likelihood fuggveny:
X
n
L(y1; y2 ; : : : ; yn; a; b; ) = (2), 2 ,n exp (, 1
n 2
2 2 i=1 (yi , axi , b) );
a log-likelihood fuggveny pedig:
n 1 Xn
ln L = l(y1 ; y2 ; : : : ; yn ; a; b; ) = , 2 ln (2) , n ln , 2 2 (yi , axi , b)2 :
i=1
@l = 1 X
n
@a 2 i=1 xi (Yi , axi , b) = 0;
@l = 1 X
n
@b 2 i=1 (Yi , axi , b) = 0;
@l = , n + 1 X n
2
@ (2 ) 22 24 i=1 (Yi , axi , b) = 0;
amib}ol a maximum-likelihood becslesekre:
X n
1X
n
a = kiYi; b = Y , x a; ^ 2 = 2
n (Yia xi , b )
i=1 i=1
adodnak, azaz a es b megegyezik a legkisebb negyzetek modszerevel kapott becslesekkel!
70 4. FEJEZET Regresszio analzis
es Z
E (Cn , )T f (Cn ; Zn+1 ) j Z1 ; Z2 ; : : : ; Zn = (Cn , )T f (Cn ; y) (dy) =
RM
Z
= (Cn , )T f (Cn; y) (dy) = (Cn , )T r (Cn) ;
RM
es
Z
E kf (Cn; Zn+1 )k2 j Z1; Z2 ; : : : ; Zn = kf (Cn; y)k2 (dy) K 1 + kCn , k2 ;
RM
ahol jeloli Z eloszlasat. Igy
E kCn+1 , k2 j Z1; Z2 ; : : : ; Zn
kCn , k2 , 2 n (Cn , )T r (Cn) + n2 K 1 + kCn , k2 :
Mivel
inf (c , )T r (c) > 0;
kc,k>"
ezert tovabb noveljuk a baloldalt, ha elhagyjuk a kozeps}o tagot:
E kCn+1 , k2 j Z1; Z2 ; : : : ; Zn kCn , k2 ,1 + n2 K + n2 K:
Most tekintsuk azt a fVn gn=1;2;::: valoszn}usegi valtozo sorozatot, melynek de ncioja
X
1
Vn+1 = kCn+1 , k2 n+1 + K 2
j j +1 ;
j =n+1
ahol k =
Q1
1 + j2 K : Megmutatjuk, hogy f(Vn ; Fn)gn=1;2;::: szupermartingal, ahol Fn =
j =k
(Z1 ; Z2 ; : : : ; Zn ) :
!1 kCn , k = 0 1-valoszn}useggel.
all, ami P ( \ ) = 1 miatt a tetel alltasat jelenti: nlim
Megjegyzes : A 4.3.1. tetel segtsegevel igazolhato a nagy szamok torvenyenek alabbi er}os
alakja:
Ha fXn gn=1;2;::: fuggetlen, azonos eloszlasu a varhato ertek}u, veges szorasu valoszn}u-
segi valtozo sorozat, melynek tagjai az RN terb}ol veszik fel az ertekeiket, akkor a Zn+1 =
Zn , n [Zn , Xn] n = 0; 1; : : : rekurzv valoszn}usegi vektorvaltozo sorozatra | ha Z0 =
z0 2 RN tetsz}oleges es a n sorozat kielegti a 4.3.1. tetel ( ) felteteleit | teljesul, hogy
lim kZ , ak = 0 1 valoszn}useggel.
n!1 n
X
n
Zn = an + ci Xi ;
i=1
4.3 Sztochasztikus approximacio 73
ahol nY
,1
an = z0 (1 , i ) es ci = i,1 (1 , i ) (1 , n,1 ) :
i=0
Ha z0 = 0 es n = n+1 n az atlagstatisztika.
1 ; akkor Zn = X
valamely K > 0-ra. Ugyanis a fenti relacio eppen a 4.3.1. tetel () feltetelenek teljesulesevel
ekvivalens. El}oszor is
c , 2 ,
= c , A,1 m+A,1 m ,
2
2
2
c , A,1 m 2 + A,1m + k k2
0N N 1
X X 2A
@ Vij c , A,1 m 2
+ A,1 m 2
+ k k2 :
i=1 j =1
Innen
c , 2
(k + 1)2 M1 c , A,1m 2 + A,1 m 2
+ M2 K 1 + c , A,1 m 2
adodik, ahol n o
K = max (k + 1)2 M1 ; (k + 1)2 M1 A,1m 2 + M2 :
es
@ X k
@cj i=0 ci EXi Y = EXj Y
eppen az adodik, hogy
X
k X
k X
k !T
grad m (c) = 2 ci EXi X0 ; ci EXi X1 ; : : : ; ci EXi Xk ,
c i=0 i=0 i=0
,2 (EX0 Y; EX1 Y; : : : ; EXk Y ) = Ac , m;
ahol 0 EX X EX X 1
0 0 0 k
B
A=@ . .
. . . . .
. A
. C es m = 2 (EX0 Y; EX1 Y; : : : ; EXk Y )T :
EXk X0 EXk Xk
Vegul, ha
0 X X X X 1
0 0 0 k
T B
= XX = 2 @ . .
. . . . .. C
. A es = (X0 Y; X1 Y; : : : ; Xk Y )T ;
Xk X0 Xk Xk
,
akkor a Z = ; es f (c; Z) = c, jelolesekkel, r (c) = Ef (c; Z) = E c,E = Ac,m
a regresszios fuggveny. Keresend}o az r (c) = 0 egyenlet gyoke, ahol a m (c) negyzetes hiba
minimalis lesz.
4.3.3. tetel: Tegyuk fel, hogy A,1 letezik es E Xi4 < 1; i = 0; 1; : : : ; k; EY 4 < 1:
Ha fZn gn=1;2;::: Z-vel azonos eloszlasu valoszn}usegi vektorvaltozo sorozat (Zi = i ; i ),
akkor a
Cn+1 = Cn , n n+1 Cn , n+1 ; n = 0; 1; 2; : : : ;
C0 = c0 2 Rk+1
rekurzv keplettel de nialt valoszn}usegi vektorvaltozo sorozatra nlim C , A,1m = 0 1
!1 n
P
1 P
1 2
valoszn}useggel, felteve, hogy n = 1; es n < 1 teljesul.
n=0 n=0
Bizonytas : A de nciojabol lathatoan szimmetrikus es pozitv szemide nit, hiszen tet-
, , ,
sz}oleges t 2Rk+1 -re tT At = E tT t = E tT XXT t = E XT t 2 0: Megmutatjuk, hogy
h i
9M1; M2 > 0; amivel E Xi2 Xj2 M1 es E k k2 = P EXi2 Y 2 M2: A Cauchy{Schwarz-
k
i=0
egyenl}otlenseget felhasznalva ez azonnal adodik, hiszen
r h i
E X X E X4 E X4 < 1
2 2
i j i j
76 4. FEJEZET Regresszio analzis
es k q
X
k X
EXi2Y 2 E Xi4 E [Y 4 ] < 1:
i=0 i=0
Tehat teljesulnek a 4.3.2. tetel feltetelei, akkor az alltas is igaz lesz.
Eloszlasbecsles
Nemparameteres statisztika eseten nem all rendelkezesre semmilyen el}ozetes informacio a valo-
szn}usegi valtozo eloszlasarol, gy nem hasznalhatjuk azt a tudast | mint parameteres esetben
|, hogy az eloszlas egy parameteres osztaly eleme lenne. Igy a szabalyok alapvet}o tulajdon-
sagainak is eloszlasfuggetlennek kell lenniuk.
77
78 5. FEJEZET Eloszlasbecsles
Vegyuk eszre, hogy az el}obbi tetelekben a hatareloszlas nem fugg az elmeleti eloszlasfugg-
venyt}ol.
Most adunk egy alternatv bizonytast az empirikus eloszlasfuggveny egyenletes konver-
genciajara, amely sok hasznos oteletet tartalmaz es segt a kovetkez}o fejezet fontos tetelenek,
a Vapnik{Chervonenkis-egyenl}otlensegnek a bizonytasaban.
5.1.3. tetel: (Glivenko{Cantelli)
Legyen X1 ; : : : ; Xn fuggetlen, azonos eloszlasu valos ertek}u valoszn}usegi valtozo F (x) =
P(X1 x) eloszlasfuggvennyel. Ekkor
P sup jFn(x) , F (x)j > " 8(n + 1)e,n"2 =32
x2R
es gy a Borel{Cantelli-lemma miatt
lim sup jF (x) , F (x)j = 0
n!1 x2R n
1 valoszn}useggel.
A tetel bizonytasahoz szuksegunk lesz a Hoe ding-egyenl}otlensegre.
5.1.4. tetel: (Hoe ding)
Legyenek X1 ; : : : ; Xn fuggetlen korlatos valoszn}usegi valtozok ugy, hogy Xi 2 [ai ; bi ] egy
Pn
valoszn}useggel. Jelolje az osszeguket Sn , vagyis Sn = Xi . Ekkor minden " > 0-ra
i=1
n
,2"2 = P (bi ,ai )2
PfSn , ESn "g e i=1
es n
,2"2 = P (bi ,ai )2
PfSn , ESn ,"g e i=1 :
Az egyenl}otlenseg bizonytasahoz hasznalunk egy segedegyenl}otlenseget:
5.1.1. lemma: Legyen X olyan valoszn}usegi valtozo, amelyre EX = 0, a X b.
Ekkor minden s > 0-ra,
E esX es2(b,a)2 =8 :
Bizonytas : Az exponencialis fuggveny konvexitasabol kovetkezik, hogy
, a esb + b , x esa ; ha a x b.
esx xb , a b,a
Legyen p = ,a=(b , a), ekkor kihasznalva, hogy EX = 0
ahol u = s(b , a), es (u) = ,pu + log(1 , p + peu ). Mivel derivaltja
0(u) = ,p + p + (1 ,p p)e,u ;
ezert (0) = 0 (0) = 0. A masodik derivalt, pedig
A Cherno -technika lenyege, hogy keresunk egy olyan s > 0-t, amely minimalizalja, vagy
kell}oen kicsive teszi a fels}o korlatot.
PfSn , ESn( "g !)
X
n
e,s"E exp s (Xi , EXi )
i=1
n n o
= e ,s" Y s(Xi ,EXi )
E e (Xi -k fuggetlensege miatt)
i=1
Yn
e,s" es2 (bi ,ai )2 =8 (5.1.1 lemma miatt)
i=1
n
2 P (b ,a )2 =8
,s" s i i
= e e n i=1
= e
,2"2 P (bi ,ai )2
i=1 (s = 4"
Pn (b , a )2 -t valasztva):
i i
i=1
A masodik egyenl}otlenseg hasonloan bizonythato.
es
n
X
sup i IfXi 2Ag , IfXi0 2Ag
A2A i=1
X
n !
1 "
2P sup n (IfXi 2Ag , IfXi0 2Ag ) > 2 =
A2A i=1
X
n !
1
= 2P sup n "
i (IfXi 2Ag , IfXi0 2Ag ) > 2
A2A i=1
Az uniokorlatot hasznalva megszabadulhatunk az X10 ; : : : ; Xn0 seged valoszn}usegi valto-
zoktol
Xn !
1
P sup n i(IfXi 2Ag , IfXi0 2Ag) > 2 "
A2A i=1
X
n ! X
n !
1 " 1 "
P sup n iIfXi 2Ag > 4 + P sup n iIfXi0 2Ag > 4 =
A2A i=1 A2A i=1
X
n !
1
= 2P sup n "
i IfXi 2Ag > 4
A2A i=1
3. LE PES:
AP
n P
sup n1 i IfXi 2Ag
Pn
> = P sup n1 i IfXi xg > 4" valoszn}useg becsle-
"
A2A i=1 4 x2R i=1
sehez nezzuk el}oszor a felteteles valoszn}useget felteve X1 ; : : : ; Xn -et. Vegyuk eszre, hogy
rogztett x1 ; : : : ; xn 2 R-re, ahogy x vegigfut R-en a kulonboz}o (Ifx1 <xg ; Ifx2 <xg ; : : : ; Ifxn <xg )
vektorok szama legfeljebb n + 1. Ezert rogztett X1 ; : : : ; Xn -re a szupremum a fenti
valoszn}usegben legfeljebb n + 1 valoszn}usegi valtozo maximuma. Igy, alkalmazva az
uniokorlatot
Xn !
1 "
P sup n iIfXi 2Ag > 4 X1 ; : : : ; Xn
A2A i=1
Xn !
1 "
(n + 1) sup P n iIfXi 2Ag > 4 X1; : : : ; Xn
A2A i=1
Igy mivel a szupremum kvulre kerult, eleg a
Xn !
1 "
P n iIfXi 2Ag > 4 X1; : : : ; Xn
i=1
felteteles valoszn}usegre talalni egy exponencialis fels}o korlatot.
82 5. FEJEZET Eloszlasbecsles
4. LE PE S:
Pn
Rogztett x1 ; : : : ; xn -re i Ifxi 2Ag n darab fuggetlen, 0 varhato ertek}u, ,1 es 1 kozotti
i=1
valoszn}usegi valtozo osszege, ezert alkalmazhatjuk a Hoe ding-egyenl}otlenseget:
Xn !
1 "
P n iIfXi 2Ag > 4 X1 ; : : : ; Xn 2e,n"2 =32 :
i=1
Igy !
1 X
n
"
P sup n iIfXi 2Ag > 4 X1; : : : ; Xn 2(n + 1)e,n"2 =32 :
A2A i=1
Mindket oldal varhato erteket veve
X
n !
1 "
P sup n iIfXi2Ag > 4 2(n + 1)e,n"2 =32 :
A2A i=1
Osszefoglalva tehat azt kapjuk, hogy
P sup jn(A) , (A)j > " 8(n + 1)e,n"2 =32 :
A2A
5.2. Vapnik{Chervonenkis-elmelet
Ebben a fejezetben a Glivenko{Cantelli-tetel egy altalanostasat bizonytjuk. Legyen most
X d-dimenzios valoszn}usegi valtozo, es legyenek X1 ; : : : ; Xn az X eloszlasabol vettnfuggetlen
mintak. Hasznaljuk a kovetkez}o jeloleseket: (A) = P(X 2 A) es n (A) = n1 IfXi 2Ag
P
i=1
minden merhet}o A Rd halmazra.
5.2.1. de ncio: Legyen x1; : : : ; xn n darab Rd -beli rogztett pont, A pedig az Rd -beli
halmazok egy csaladja. Ekkor legyen NA (x1 ; : : : ; xn ) az
fx1; : : : ; xng \ A
alaku halmazok szama, ha A 2 A. Vagyis NA (x1 ; : : : ; xn ) azt mutatja, hogy az A-beli halma-
zokkal az x1 ; : : : ; xn pontoknak hanyfele kulonboz}o reszhalmazat lehet kimetszeni.
Az A halmazcsalad n-edik shatter egyutthatoja
s(A; n) def
= max NA (x1 ; : : : ; xn ):
x1 ;:::;xn 2Rd
5.2.2. de ncio: A legnagyobb n0 szamot, amelyre meg van olyan n0 pont, amelyet A
darabokra tor, vagyis
s(A; n0 ) = 2n0
az A csalad Vapnik{Chervonenkis-dimenziojanak (vagy VC-dimenziojanak) nevezzuk, es VA -
val jeloljuk. Ha minden n-re s(A; n) = 2n , akkor de ncio szerint VA = 1.
Azokat az A halmazcsaladokat, amelyekre VA < 1, Vapnik{Chervonenkis- (vagy VC-)
csaladoknak hvjuk.
5.2.1. tetel: (Vapnik{Chervonenkis)
Minden valoszn}usegi mertekre es A halmazosztalyra, minden n-re es " > 0-ra
P sup jn(A) , (A)j > " 8s(A; n)e,n"2 =32
A2A
Bizonytas : Kovetjuk a Glivenko{Cantelli-tetel bizonytasanak menetet. Most is feltehet-
juk, hogy n"2 2, hiszen kulonben a korlat trivialis ( 1).
Az els}o ket lepesben teljesen ugyanugy bebizonytjuk, hogy
X
n !
1 "
P sup jn(A) , (A)j > " 4P sup n iIfXi 2Ag > 4
A2A A2A i=1
Az egyetlen kulonbseg a 3. lepesben van.
3. LE PE S:
Vegyuk eszre, hogy rogztett x1 ; : : : ; xn 2 Rd -re ahogy A vegigfut A-n a kulonboz}o
(Ifxi 2Ag ; : : : ; Ifxn 2Ag ) vektorok szama nem mas, mint az fX1 ; : : : ; Xn g kulonboz}o olyan
reszhalmazainak a szama, amelyeket ugy kaphatunk, hogy A-beli halmazokkal elmetsz-
szuk, ami de ncio szerint legfeljebb s(A; n). Ezert rogztett X1 ; : : : ; Xn -re a szupremum
a
X
n !
1
P sup n iIfXi 2Ag > 4 "
A2A i=1
valoszn}usegbenlegfeljebb NA (X1 ; : : : ; Xn ) s(A; n) valoszn}usegi valtozo maximuma.
Az uniokorlattal kapjuk, hogy
X
n !
1 "
P sup n iIfXi 2Ag > 4 X1 ; : : : ; Xn
A2A i=1
Xn !
1 "
s(A; n) sup P n iIfXi 2Ag > 4 X1 ; : : : ; Xn
A2A i=1
Igy, mivel a szupremum kvulre kerult, eleg a
Xn !
1 "
P n iIfXi 2Ag > 4 X1; : : : ; Xn
i=1
felteteles valoszn}usegre talalni egy exponencialis fels}o korlatot. Ezt a Glivenko{Can-
telli-tetel bizonytasanak 4. lepesevel teljesen azonos modon tehetjuk meg, es gy vegul
kapjuk, hogy
P sup jn(A) , (A)j > " 8s(A; n)e,n"2 =32 :
A2A
84 5. FEJEZET Eloszlasbecsles
1 valoszn}useggel.
Talan az egyik legfontosabb halmazcsalad az Rd -beli felterek csaladja.
5.2.6. tetel: Legyen A az Rd -beli felterek, azaz az fx : aT x b; a 2 Rd ; b 2 Rg alaku
reszhalmazok csaladja. Ekkor VA = d + 1.
Nezzunk meg egy negatv peldat:
5.2.7. tetel: Ha A az osszes R2 -beli konvex sokszog csaladja, akkor VA = 1.
Bizonytas : Legyenek x1 ; : : : ; xn 2 R2 az egysegkor kulonboz}o pontjai, ekkor konny}u lat-
ni, hogy barmely reszhalmazukhoz letezik olyan konvex sokszog, amelyik pontosan azokat a
pontokat tartalmazza.
86 5. FEJEZET Eloszlasbecsles
6. fejezet
S}ur}usegfuggveny becslese
6.1. Az L hiba 1
Masreszt
Z Z Z Z
f (x) dx , g(x) dx = (f (x) , g(x)) dx + (f (x) , g(x)) dx
A A A\A A\(A )c
0 1
Z Z
max B
@ (f (x) , g(x)) dx; (g(x) , f (x)) dxC
A
A\A A\(A )c
0 1
Z Z
max B
@ (f (x) , g(x)) dx; (g(x) , f (x)) dxC A=
A (A )c
1 Z
=2 jf (x) , g(x)j dx:
Tehat
1 Z
V (; ) = 2 jf (x) , g(x)j dx:
6.2. A hisztogram
R
Ha f a valoszn}usegi mertek s}ur}usegfuggvenye, akkor f = (A) minden Borel-merhet}o
A
halmazra, f majdnem mindenhol egyenl}o a dd Radon{Nikodym-derivalttal, ahol a Lebes-
gue-merteket jeloli. A legtobb s}ur}usegfuggveny-becsl}o ezt a derivaltat probalja kozelteni. Ket
standard L1 -ben konzisztens s}ur}usegbecsl}o a hisztogram es a magfuggvenyes becsl}o.
6.2 A hisztogram 89
Legyen Pn = fAn1 ; An2 ; : : :g az Rd egy partcioja pozitv es veges Lebesgue-mertek}u cel-
lakra. Ekkor a hisztogram becsl}o az
fn(x) = n((AAn((xx))))
n
fuggveny, ahol n az empirikus mertek, es An (x) = Anj , ha x 2 Anj . A cellak gyakran hn
elhosszusagu d dimenzios kockak, ebben az esetben
es
lim jfj : Anj \ S 6= ;gj = 0;
n!1 n
akkor Z
lim
n!1
jf (x) , fn(x)j (dx) = 0
1 valoszn}useggel, ahol diam(A) = sup jjx , yjj.
x;y2A
Bizonytas :
Z Z Z
jfn(x) , f (x)j (dx) jfn(x) , Efn(x)j (dx) + jEfn(x) , f (x)j (dx);
| {z } | {z }
variacios tag torztas
ahol Efn(x) a mintak szerinti varhato erteket jeloli.
Variacios tag:
Z XZ X
jfn(x) , Efn(x)j (dx) = jfn(x) , Efn(x)j (dx) = jn(Anj ) , (Anj )j;
j Anj j
hiszen fn (x) konstans minden cellan.
Jelolje Mn = jfj : Anj \ S 6= ;gj es szamozzuk at a cellakat ugy, hogy An1 ; An2 ; : : : ; AnMn
MSn
legyen az az Mn cella, amelyre Anj \ S 6= ;. Legyen Sn = Anj .
j =1
Z X
jfn(x) , Efn(x)j jn(Anj , (Anj )j + n(Snc ) + (Snc )
X
jn(Anj ) , (Anj )j + jn(Snc ) , (Snc )j + 2(Snc )
X c c c
jn(Anj ) , (Anj )j + jn(Sn) , (Sn)j + 2(S )
90 6. FEJEZET Su}ru}segfuggveny becslese
Legyen A azon halmazok csaladja, amelyek az An1 ; An2 ; : : : ; AnMn ; Snc veges egyestesei.
Ekkor a Sche e-tetel miatt
X
Mn
jn(Anj ) , (Anj )j + jn(Snc ) , (Snc )j = 2 sup jn(A) , (A)j;
j =1 A2A
amely osszegezhet}o, tehat a Borel{Cantelli-lemma miatt a variacios tag tart 0-hoz 1 valosz-
n}useggel.
Torztas:
( An ( x)) 1 Z Z
Efn(x) = (A (x)) = (A (x)) f (z) (dz) = f (z)Kn (x; z) (dz );
n n
An (x)
ahol Kn (x; z ) = Ifz(2AAnn(x(x)))g .
Ha f folytonos, es egy kompakt halmazon kvul 0, akkor egyenletesen folytonos, ezert a
tetel els}o feltetele miatt a torztas 0-hoz tart. Legyen most f tetsz}oleges, ekkor " > 0-hoz
letezik olyan f~, amely folytonos, egy kompakt halmazon kvul 0, es
Z
jf (x) , f~(x)j (dx) < ":
Ekkor Z Z Z
jf (x) , Efn(x)j (dx) = f (x) , f (z )Kn (x; z) (dz ) (dx)
Z Z Z
jf (x) , f~(x)j (dx) + f~(x) , f~(z)Kn (x; z) (dz ) (dx)+
Z Z Z
+ f~(z )Kn (x; z) (dz) , f (z)Kn (x; z ) (dz ) (dx)
Z Z
"+ f~(x) , f~(z )Kn (x; z) (dz) (dx)+
6.2 A hisztogram 91
Z Z
+ jf~(z) , f (z)jKn (x; z) (dx) (dz) =
Z Z Z
="+ f~(x) , f~(z)Kn (x; z) (dz) (dx) + jf~(z ) , f (z )j (dz) ! 2"
Itt igazabol elmondtuk a Banach{Steinhaus-tetel bizonytasat, amely szerint ha egy opera-
torsorozat pontonkent konvergal egy s}ur}u halmazon, es az operatornormak sorozata korlatos,
akkor minden pontban konvergal.
valasztasra Z
E jf , fnj cnn, d+21 :
Bizonytas :
Z Z Z
E jf (x) , fn(x)j (dx) jf (x) , Efn(x)j (dx) + E jfn(x) , Efn(x)j (dx)
| {z } | {z }
torztas variacio
Variacio:
Legyen S olyan, hogy (S c ) = 0. Jelolje Mn azon cellak szamat a partcioban, amelyek metszik
S -et, Mn = jfj : Anj \ S 6= ;gj Vol( S)
hdn . Akkor
Z
E jfn(x) , Efn(x)j (dx)
X Z Z
E jfn(x) , Efn(x)j (dx) + 2Efn(x) (dx) =
j : Anj \S 6=; Anj Sc
X
= E jn(Anj ) , (Anj )j
j : Anj \S 6=;
X q
E jn(Anj ) , (Anj )j2 =
j : Anj \S 6=;
X r (Anj )(1 , (Anj ))
= n
j : Anj \S 6=;
92 6. FEJEZET Su}ru}segfuggveny becslese
v
u P (A )(1 , (A ))
u
t j: Anj \S6=; nj nj
n Mn
(a Cauchy{Schwarz-egyenl}otlenseg miatt)
s
Vol( S) :
nh d n
Torztas:
Z Z Z
jf , Efnj = f (x) , f (z)Kn(x; z) (dz) (dx
ZZ
jf (x) , f (z)jKn (x; z) (dz) (dx)
ZZ
C jjx , z jjKn (x; z) (dz) (dx)
ZZ
Chn Kn(x; z) (dz) (dx) = Chn
6.2.4. tetel: Ha f egy origo kozep}u S gombon kvul 0, f di erencialhato es a gradiens
Lipschitz-folytonos, azaz
jjf 0(x) , f 0(z)jj C jjx , zjj;
akkor a magfuggvenyes becslesre
Z
E jf , fnj pc1 d + c2 h2n;
nhn
tehat
hn = c3 n, d+4
1
valasztasra Z
E jf , fnj c4n, d+42 :
A parameteres statisztikaban a konzisztencia tisztazasa utan az a legfontosabb kerdes,
hogy adott pontossaghoz mekkora mintanagysag kell, azaz mekkora az illet}o becsles konver-
genciasebessege. S}ur}usegfuggveny-becsles eseteben, ha nem teszunk fel semmit az f s}ur}useg-
fuggvenyr}ol, akkor nem tudunk semmit mondani a konvergenciasebessegr}ol, s}ur}usegbecsl}ok
minden ffn g sorozatara igaz az, hogy a varhato L1 -hiba konvergenciasebessege tetsz}olegesen
kicsi lehet.
6.2.5. tetel: S}ur}usegbecsl}ok minden ffng sorozatahoz es pozitv szamok minden mono-
ton, 0-hoz tarto an < 321 sorozatahoz letezik f s}ur}usegfuggveny ugy, hogy
Ejjf , fnjj > an
minden n-re.
94 6. FEJEZET Su}ru}segfuggveny becslese
7. fejezet
Regressziobecsles
7.1. A regresszios problema
Legyen Y valos ertek}u valoszn}usegi valtozo es legyen X d-dimenzios veletlen vektor (meg-
gyeles). X koordinatai kulonboz}o eloszlasuak lehetnek, lehet nemelyik diszkret (peldaul
binaris), masok lehetnek abszolut folytonosak. Igy nem teszunk fel semmit X eloszlasarol.
A regresszioanalzis celja Y becslese, ha X adott, azaz olyan f fuggvenyt keresunk, amely X
ertekkeszleten van de nialva, es amelyre f (X ) "kozel" van Y -hoz. Tegyuk fel, hogy az analzis
f}o celja a negyzeteskozep-hiba minimalizalasa:
min
f
E((f (X ) , Y )2 ):
Jol ismert, hogy a minimumot az
m(x) = E(Y j X = x)
regressziofuggveny eri el, ugyanis minden f merhet}o fuggvenyre
E((f (X ) , Y )2 ) = E((m(X ) , Y )2 ) + E((m(X ) , f (X ))2 ) =
Z
= E((m(X ) , Y )2 ) + jm(x) , f (x)j2 (dx);
ahol az X eloszlasat jeloli. A jobb oldal masodik tagjat a f fuggveny integralt negyzetes
hibajanak nevezik, es J (f )-fel jelolik
Z
J (f ) = jm(x) , f (x)j2 (dx):
A negyzetes kozep hiba nyilvan pontosan akkor lesz kozel a minimumhoz, ha a J (f ) kozel
van a 0-hoz. A s}ur}usegbecslessel szemben, ahol az L1 -hiba volt a legalkalmasabb hibakriteri-
um, itt az L2 -hiba a legfontosabb. Raadasul a s}ur}usegbecslesnel az L1 -teret a Lebesgue-mer-
tekkel de nialtuk, mg a regressziobecslesnel az L2 -teret -vel de nialjuk.
A regressziobecsles feladatanal legyenek (X1 ; Y1 ); : : : ; (Xn ; Yn ) fuggetlen, azonos eloszla-
su peldanyai (X; Y )-nak. Az mn regressziobecsl}o x-nek es az (Xi ; Yi ) mintaknak merhet}o
fuggvenye:
mn = mn(x; (X1 ; Y1 ); : : : ; (Xn ; Yn)):
Az mn regressziobecsles m-hez valo L2 () konvergenciajat vizsgaljuk.
95
96 7. FEJEZET Regresszio becsles
es
lim jfj : Anj \ S 6= ;gj = 0;
n!1 n
akkor a hisztogram regressziobecsl}o er}osen konzisztens, ha jY j L valamely L < 1-re 1
valoszn}useggel.
Megjegyzes : Ha a cellak hn elhosszusagu kockak, akkor a tetel feltetelei: hn ! 0 es
nhdn ! 1.
Miel}ott raternenk a tetel bizonytasara, kimondjuk es bebizonytjuk a Hoe ding-egyen-
l}otlenseg egy, McDiarmidtol szarmazo altalanostasat, amelyre a 7.2.1 tetel bizonytasanal
szuksegunk lesz. Ehhez el}oszor vezessuk be a martingal fogalmat.
7.2 Lokalis atlagolason alapulo becslo} k 97
7.2.1. de ncio: Valoszn}usegi valtozok egy Z1; Z2 ; : : : sorozatat martingal nak nevezzuk,
ha
E fZi+1jZ1 ; : : : ; Zi g = Zi 1 valoszn}useggel
minden i > 0-ra.
Legyen X1 ; X2 ; : : : valoszn}usegi valtozok egy tetsz}oleges sorozata. Z1 ; Z2 ; : : :-t az X1 ; X2 ; : : :
sorozat szerinti martingal nak nevezzuk, ha minden i > 0-ra Zi az X1 ; : : : ; Xi egy fuggvenye
es
E fZi+1jX1 ; : : : ; Xi g = Zi 1 valoszn}useggel.
Nyilvanvalo, hogy ha Z1 ; Z2 ; : : : az X1 ; X2 ; : : : sorozat szerinti martingal, akkor Z1 ; Z2 ; : : :
martingal, hiszen
es (X ) n
n ,2"2 P c2i
P Vi ," e i=1 :
i=1
Pn
Megjegyzes : Ha az Xi -k korlatosak, akkor az f (x1 ; : : : ; xn ) = xi valasztassal a Hoe -
i=1
ding-egyenl}otlenseghez jutunk.
A 7.2.1 tetel bizonytasa:
A tetelt arra az esetre bizonytjuk, amikor m(x) folytonos.
A celunk azt bebizonytani, hogy
Z
n!1
lim (mn(x) , m(x))2 (dx) = 0
1 valoszn}useggel.
Legyen
Pn Y I
i fXi 2An (x)g
mn(x) = i=1n(A (x)) ;
n
ekkor Z
(mn (x) , m(x))2 (dx)
Z Z
2 (mn (x) , mn (x))2 (dx) + (mn (x) , m(x))2 (dx) =
= 2J1 + 2J2
100 7. FEJEZET Regresszio becsles
X Z s nL2(Anj ) c
(n(Anj ))2 (dx) + 2L(S )
j : Anj \S 6=;Anj
X r
L (Annj ) + 2L(S c)
j : Anj \S 6=;
v
u P
u 1
t Mn j: Anj \S6=; (Anj )
LMn n + 2L(S c )
(Jensen-egyenl}otlenseg) r
L Mnn + 2L(S c) 4"
hiszen a tetel masodik feltetele szerint Mnn ! 0, es (S c ) tetsz}olegesen kicsive tehet}o.
Igy tehat eleg nagy n-re
Z
E jmn(x) , m(x)j (dx) 2" ;
tehat (*) miatt Z
P jmn(x) , m(x)j (dx) > "
Z Z "
P jm (x) , m(x)j (dx) , E
n jm (x) , m(x)j (dx) >
n 2
A jobb oldalon allo valoszn}usegre a McDiarmid-egyenl}otlenseggel kaphatunk exponencialis
fels}o korlatot.
Rogztsuk le az (x1 ; y1 ); : : : ; (xn ; yn ) 2 Rd [,L; L] mintainkat es csereljuk ki (xi ; yi )-t
(xi ; yi0 )-re. Jeloljuk mni-vel az gy kapott becsl}ot. Ekkor mn (x) es mni(x) maximum ket
0
cellan, An (xi )-n es An (x0i )-n, kulonbozik, gy
Z Z
jm (x) , m(x)j (dx) ,
n jmni(x) , m(x)j (dx)
Z
jmn(x) , mni(x)j (dx)
n(A2L(x )) (An (xi)) + n(A2L(x0 )) (An(x0i )) 4nL
n i n i
Tehat a McDiarmid-egyenl}otlenseg feltetele ci = 4nL -nel teljesul, gy
Z Z " e,n"2 =(32L2 )
P jm (x) , m(x)j (dx) , E
n jm (x) , m(x)j (dx) >
n 2
102 7. FEJEZET Regresszio becsles
X
n
L IfXi 2An (x)g n(A1 (x)) , P
n
1 =
i=1 n I fXi 2An (x)g
i=1
Pn I
fXi 2An (x)g
= L i=1n(A (x)) , 1 = L jMn (x) , 1j ;
n
7.2.5. tetel: Ha az jjX , xjj valoszn}usegi valtozo abszolut folytonos minden x-re, kn !
1, kn=n ! 0 es jY j L valamely L < 1-re 1 valoszn}useggel, akkor a kn-legkozelebbi
szomszed regressziobecsl}o er}osen konzisztens.
Tehat leteznek univerzalisan konzisztens regressziobecsl}ok, de a konvergenciasebesseg, a
s}ur}usegfuggveny-becsleshez hasonloan, itt is tetsz}olegesen kicsi lehet.
7.2.6. tetel: Regressziobecsl}ok minden fmng sorozatahoz es pozitv szamok minden mo-
noton 0-hoz tarto an < 1=64 sorozatahoz letezik (X; Y )-nak olyan eloszlasa, amelyre X egyen-
letes eloszlasu [0; 1]-en, Y = m(X ) es
Z
EJ (mn) = E (mn(x) , m(x))2 (dx) > an
minden n-re.
1X n
= sup E (mn (X ) , Y ) j Dn , n jmn (Xi ) , Yi j2 +
2
f 2Fn i=1
7.3 Empirikus hibaminimalizalas 105
X
n X
n
+ n1 jmn(Xi ) , Yij2 , n1 jf (Xi) , Yij2+
i=1 i=1
Xn !
+1 n i=1 jf (Xi ) , Yij2 , E jf (X ) , Y j2
X
n
sup E (mn(X ) , Y )2 j Dn , n1 jmn(Xi ) , Yij2+
f 2Fn i=1
X
n !
+ n1 jf (Xi ) , Yi j2 , E jf (X ) , Y j2
i=1
X
n
2 sup n1 jf (Xi) , Yij2 , E jf (X ) , Y j2
f 2Fn i=1
Az els}o egyenl}otlenseg mn valasztasabol adodik, mn minimalizalja az empirikus L2 -hibat Fn-
ben, gy 8f 2 Fn-re
1Xn
j m (X ) , Y j 2 , 1 X jf (X ) , Y j2 0
n
n n i i n i i
i=1 i=1
Tehat ahhoz, hogy megmutassuk, hogy a becslesi hiba 0-hoz tart, a lemma jobb oldalan
allo kifejezest kell vizsgalnunk.
Legyen Z = (X; Y ); Zi = (Xi ; Yi ); i = 1; : : : ; n; gf (x; y) = jf (x) , yj2 minden f 2 Fn-re
es Gn = fgf : f 2 Fng. Ekkor a fenti kifejezes a kovetkez}o alakban rhato
1 X
n
sup n g(Zi ) , Eg(Z ) :
g2Gn i=1
Tehat egy atlag es a varhato erteke kozotti kulonbseget akarjuk felulr}ol becsulni egyenletesen
egy fuggvenycsalad felett.
Ha g korlatos, azaz g : Rd R ! [0; M ], akkor a Hoe ding-egyenl}otlensegb}ol kapjuk, hogy
!
P 1X
n
,2n"2 =M 2
n g(Zi ) , Eg(Z ) > " 2e
i=1
7.3.2. lemma:
1 Xn
1 X
n
sup g(Zi ) , Eg(Z ) M sup n Ifg(Zi )>tg , P (g(Z ) > t)
g2Gn n i=1 g2Gn i=1
t>0
Bizonytas : Hasznaljuk a nemnegatv valoszn}usegi valtozokra ervenyes
Z1
P(X > t) dt = EX
0
azonossagot.
1 X
n
sup n g(Zi ) , Eg(Z ) =
g2Gn i=1
106 7. FEJEZET Regresszio becsles
Z1 !
1X
n
= sup
g2Gn n i=1 fg(Zi )>tg , P (g(Z ) > t) dt
I
0
1 X
n
M sup n Ifg(Zi )>tg , P (g(Z ) > t)
g2G n i=1
t>0
Legyen
G^ n = ffz : g(z) > tg : g 2 Gn; t 2 [0; M ]g :
Bebizonythato a Vapnik{Chervonenkis-egyenl}otlenseg altalanostasa, amib}ol kovetkezik, hogy
X
n !
1
P sup n g(Zi ) , Eg(Z ) > " 8s(G^ n; n)e,n"=(32M 2 ):
g2Gn i=1
Osszefoglalva az eddigieket, a kovetkez}ot kapjuk:
7.3.1. tetel: Tegyuk fel, hogy jY j L valamely L < 1-re 1 valoszn}useggel. Legyen Fn
olyan f fuggvenyek csaladja, amelyekre jf (x)j n minden x-re. Ekkor eleg nagy n-re
P E jmn (X ) , Y j2 j D n , finf
2Fn
E (f (X ) , Y )2 > " 8nVG^ n e,n"2 =128(4 n2 )2 :
Alakfelismeres
8.1. A Bayes-dontes es kozeltese
Az alakfelismeresben Y ket erteket vehet fel, 0-t vagy 1-et (peldaul, hogy egy paciens szenved-e
egy adott betegsegben vagy nem). Az Y cmke ertekere szeretnenk kovetkeztetni adott X 2 Rd
meg gyelesvektor alapjan (ami tartalmazhatja pl. a paciens h}omersekletet, vernyomasat stb.).
A dontes vagy osztalyozasi szabaly egy
g : Rd ! f0; 1g
fuggveny, amelynek a min}oseget az
L(g) = P (g(X ) 6= Y )
hibavaloszn}useg meri. A cel L(g) minimalizalasa.
8.1.1. de ncio: Bayes-dontes:
1; ha P (Y = 1 j X = x) 1
g (x) = 0 kulonben. 2
(x) , m(x)j2
2
2 jmn (dx)
(x) , m(x)j2
2
2 jmn(x) , m(x)j (dx) 2 jmn (dx)
a Cauchy{Schwartz-egyenl}otlenseg miatt.
akkor a hisztogram szabaly nem mas, mint egy plug-in osztalyozasi szabaly, amelyben az m(x)
regressziofuggvenyt az mn(x) becsl}ovel becsuljuk. Tehat a hisztogram szabaly konzisztenciaja
a korabbiak miatt kovetkezik a hisztogram regressziobecsl}o konzisztenciajabol.
8.2.1. tetel: Ha minden origo kozep}u S gombre
lim sup
n!1 j : Anj \S 6=;
diam(Anj ) = 0
es
lim jfj : Anjn\ S 6= ;gj = 0
n!1
akkor a hisztogram osztalyozasi szabaly er}osen univerzalisan konzisztens.
A magfuggvenyes osztalyozasi szabalyt a
8 Pn Pn
< ha IfYi =1g K x,hnXi IfYi =0g K x,hnXi
gn(x) = : 1; i=1 i=1
0 kulonben.
fuggveny adja meg, ahol a K (x) : Rd ! R egy nemnegatv, integralhato magfuggveny es hn
pedig egy n-t}ol fugg}o simto tenyez}o.
Ez a szabaly is egy plug-in szabaly, ahol az mn (x) regressziobecsl}o most a magfuggvenyes
becsl}o, tehat a konzisztencia itt is a regressziobecsl}o konzisztenciajabol kovetkezik.
8.2.2. tetel: Ha a K (x) magfuggveny regularis, hn ! 0 es nhdn ! 1, akkor a magfugg-
venyes osztalyozasi szabaly er}osen univerzalisan konzisztens.
A kn -legkozelebbi szomsz
, ed szabaly az x-hez legko,zelebbi kn darab Xi cmkei alapjan hoz
tobbsegi dontest. Legyen X(1;n) (x); Y(1;n) (x) ; : : : ; X(n;n) (x); Y(n;n) (x) az Xi -k x-t}ol vett
tavolsaga alapjan rendezett minta. Ekkor
8 P P
< kn kn
ha IfY(i;n) (x)=1g IfY(i;n) (x)=0g
gn (x) = : 1; i=1 i=1
0 kulonben.
Konnyen lathato, hogy ez is egy plug-in szabaly, ahol most mn (x) a kn -legkozelebbi szomszed
regressziobecsl}o, tehat a konzisztencia itt is a regressziobecsl}o konzisztenciajabol kovetkezik.
8.2.3. tetel: Ha az jjX ,xjj valoszn}usegi valtozo abszolut folytonos minden x-re, kn ! 1
es knn ! 0, akkor a kn -legkozelebbi szomszed osztalyozasi szabaly er}osen univerzalisan kon-
zisztens.
A s}ur}usegfuggveny-becsleshez es a regressziobecsleshez hasonloan itt sem lehet altalaban
semmit mondani a konvergenciasebessegr}ol, a konvergencia tetsz}olegesen lassu lehet.
8.2.4. tetel: Osztalyozasi szabalyok minden fgng sorozatahoz es pozitv szamok minden
monoton, 0-hoz tarto an < 161 sorozatahoz letezik (X; Y )-nak olyan eloszlasa, amelyre X
egyenletes eloszlasu [0; 1]-en, L = 0 es
P (gn(X ) 6= Y ) > an
minden n-re.
8.3 Empirikus hibaminimalizalas 111
Megjobb fels}o korlatot kaphatunk, ha feltesszuk, hogy a C-beli dontesek kozott van olyan,
amelyik hibavaloszn}usege nulla.
8.3.2. tetel: Tegyuk fel, hogy jCj < 1 es min
g 2C
L(g) = 0. Ekkor minden n-re es " > 0-ra
P (L(gn ) > ") jCje,n";
es
E (L(gn)) 1 + log jCj :
n
Bizonytas :
P (L(gn ) > ") P max
g2C: Ln (g)=0
L(g) > " =
= E If max L(g)>"g = E max I I
g2C fLn (g)=0g fL(g)>"g
g2C: Ln (g)=0
X
P (Ln(g) = 0) jCj(1 , ")n;
g2C: L(g)>"
mivel annak a valoszn}usege, hogy egy (Xi ; Yi ) sem esik az f(x; y) : g(x) 6= yg halmazba,
kevesebb, mint (1 , ")n , ha a halmaz valoszn}usege nagyobb, mint ". Innen a tetel els}o alltasa
kovetkezik, ha hasznaljuk az 1 , x e,x egyenl}otlenseget.
A varhato hibavaloszn}useg becsleshez vegyuk eszre, hogy minden u > 0-ra
Z1
E (L(gn)) = P (L(gn ) > t) dt
0
Z1 Z1
u + P (L(gn) > t) dt u + jCj e,nt dt = u + jCnj e,nu :
u u
Mivel u tetsz}oleges, valaszthatjuk ugy, hogy minimalizalja a fels}o korlatot. Az optimalis va-
lasztas u = lognjCj , amivel a fels}o korlat
u + jCj e,nu = log jCj + jCj e,n n = log jCj + 1
log jCj
n n n n
8.3 Empirikus hibaminimalizalas 113
Most terjunk vissza az altalanos esethez, azaz felejtsuk el a feltetelezeseinket, hogy jCj < 1
es min
g2C
L(g) = 0.
Legyen (X; Y ) valoszn}usegi merteke Rd f0; 1g-en, es legyen n a mintainkon alapulo
empirikus mertek. Tehat egy A Rd f0; 1g merhet}o halmazra (A) = P ((X; Y ) 2 A) es
Pn
n (A) = n1 If(Xi ;Yi)2Ag . Ekkor
i=1
L(g) = (f(x; y) : g(x) 6= yg) ;
azaz L(g) a -merteke az
ffx : g(x) = 1g f0gg [ ffx : g(x) = 0g f1gg
halmaznak. Hasonloan
Ln(g) = n (f(x; y) : g(x) 6= yg) ;
gy
sup jLn (g) , L(g)j = sup n (A) , (A) ;
g 2C A2A
ahol A az osszes
ffx : g(x) = 1g f0gg [ ffx : g(x) = 0g f1gg ; g 2 C
alaku halmaz csaladja.
Emlekezzunk vissza, hogy a
sup n (A) , (A)
A2A
kifejezesre a Vapnik{Chervonenkis-egyenl}otlenseg ad fels}o korlatot. Most vezessuk be dontesek
csaladjainak Vapnik{Chervonenkis-dimenziojat is.
8.3.2. de ncio: Legyen C a g : Rd ! f0; 1g dontesfuggvenyek egy csaladja, es tartal-
mazza A az osszes
ffx : g(x) = 1g f0gg [ ffx : g(x) = 0g f1gg ; g 2 C
alaku halmazt. A C csalad shatter egyutthatoja es VC-dimenzioja egyezzen meg az A halmaz-
csalad shatter egyutthatojaval es VC-dimenziojaval.
S (C; n) = s(A; n)
VC = VA
Ekkor tehat a Vapnik{Chervonenkis-egyenl}otlenseg es a 8.3.1. lemma miatt igaz a kovet-
kez}o:
8.3.3. tetel:
!
P sup jLn(g) , L(g)j > " 8S (C; n)e,n"2 =32
g2C
es
P L(gn) , ginf L ( g ) > " 8 S ( C ; n)e ,n"2 =128 ;
2C
ahol gn az empirikus hibat minimalizalo dontes.
114 8. FEJEZET Alakfelismeres
Ebb}ol a 8.3.2 tetel bizonytasaban latott modon kaphatunk fels}o korlatot a varhato hiba-
valoszn}usegre r
EL(gn) , ginf2C
L(g) 16 log (8e2Sn(C; n)) ;
illetve mivel VC > 2-re S (C; n) nVC
r
EL(gn) , ginf
2C
L(g) 16 VC log2nn + 4 :
Ha feltesszuk, hogy ginf
2C
L(g) = 0, azaz, hogy a Bayes-dontes benne van C-ben es L = 0,
akkor egy gyorsabban 0-hoz tarto fels}o korlatot kapunk.
8.3.4. tetel: A fenti esetben
P (L(gn ) > ") 2S (C; 2n)2,n"=2 :
A dontescsaladok Vapnik{Chervonenkis-dimenziojanak vizsgalatat konnyti meg az alabbi
tetel.
8.3.5. tetel: Ha A = fA f0g [ Ac f1g; A 2 Ag, akkor s(A; n) = s(A; n) minden n-re
es ezert VA = VA .
A dontescsaladok shatter egyutthatojanak de nciojaban az A halmazok fx : g(x) = 1g
alakuak, mg A olyan (x; y) parok halmaza, amelyekre g(x) 6= y. A fenti tetel azt jelenti,
hogy S (C; n) = s(A; n), tehat eleg az A tulajdonsagait vizsgalni, ami egyszer}ubb, hiszen Rd
reszhalmazainak a csaladja.
Ha peldaul x 2 R es C a 1;
g(x) = ha x a
0 kulonben
alaku dontesek csaladja, akkor az fx : g(x) = 1g halmazok a felegyenesek, tehat ekkor
VC = Vffelegyenesekg = 1.
Lehet C peldaul a linearis dontesek csaladja, azaz a
1;ha aT x > b
g(x) = 0 kulonben
alaku dontesfuggvenyeket tartalmazo csalad. Ekkor az fx : g(x) = 1g halmazok pont az
Rd -beli fx : aT x > bg felterek, amelyek csaladjarol korabban lattuk, hogy a VC-dimenzioja
d + 1.
Ajanlott irodalom
[1] H. Cramer: Mathematical methods of Statistics
Princeton University Press, Princeton, 1946.
[2] E.L. Lehman: Testing Statistical Hipotheses
Wiley & Sons, New York, 1959.
[3] E.L. Lehman: Theory of Point Estimation
Chapman & Hall, New York, 1991.
[4] Mogyorodi Jozsef (szerk.): Matematikai statisztika (ELTE jegyzet)
Tankonyvkiado, Budapest, 1990.
[5] Vincze Istvan: Matematikai statisztika (ELTE jegyzet)
Tankonyvkiado, Budapest, 1974.
115