VIS - Predavanje IX

Vjerovatnoća i statistika
Predavanje IX
Maj, 2022.
Estimacija parametara populacije
▶ Uvod
▶ Klasične metode estimacije
▶ Jedan uzorak: Estimacija srednje vrijednosti
▶ Standardna greška estimacije
▶ Interval predikcije
▶ Interval tolerancije
2/51
Uvod
Statistička inferencija se sastoji od onih metoda koje omogućavaju

donošenje zaključaka ili generalizacija o populaciji.
Bitno je naglasiti da se statistička inferencija zasniva isključivo na

informacijama koje dobijamo iz nasumičnog uzorka izvučenog iz
populacije.
U ovom predavanju, koristit ćemo klasične metode inferencije da

estimiramo (procjenimo) nepoznate parametre populacije, kao što
su, srednja vrijednost, proporcija i varijansa, tako što ćemo
računati statistike iz nasumičnih uzoraka i primjeniti teoriju
distribucije uzorkovanja koju smo radili na prethodnom predavanju.
3/51
Uvod
Statističku inferenciju možemo podjeliti u dvije velike oblasti: (1)
estimacija parametara; i (2) testiranje hipoteza.
Da bismo napravili jasnu distinkciju izmđu pomenutih oblasti,

razmotrimo sljedeće primjere:
(a) Kandidat za javnu funkciju želi da procijeni udio birača koji ga
favorizuje na osnovu mišljenja iz nasumičnog uzorka od 100
glasača. Dio birača u uzorku koji favorizuje kandidata mogao
bi se koristiti kao procjena stvarnog udjela u populaciji birača.
Znanje o distribucija uzorkovanja proporcije omogućava da se
utvrdi stepen tačnosti takve procjene.
(b) Neka osoba je zainteresovana da otkrije da li je podni vosak
brenda A otporniji od podnog voska brenda B. Ta osoba
može pretpostaviti da je brend A bolji od brenda B, te nakon
odgovarajućih testova prihvatiti ili odbaciti tu hipotezu.
4/51
Klasične metode estimacije
Estimacija (eng. point estimate) nekog parametra populacije θ

ˆ statistike Θ̂.
predstavlja vrijednost theta
Npr. vrijednost x̄ statistike X̄, izračunata na osnovu uzorka

veličine n predstavlja point estimate parametra populacije µ.
Slično, p̂ = x/n predstavlja point estimate prave proporcije p

binomnog eksperimenta.
Naravno, ne možemo očekivati da estimator procjenjuje parametar

populacije bez ikakve greške, ali se nadamo da greška neće biti
velika.
5/51
U nekim specifičnim situacijama, konkretnim primjerima uzoraka,
moguće je procjeniti tačniju vrijednost za parametar µ ako
koristimo medianu uzorka X̃ kao estimator.
Npr., za uzorak koji se sastoji od vrijednosti 2, 5, 11 koji je uzet iz

populacije sa srednjom vrijednošću 4, procjenili bismo da je x̄ = 6
koristeći srednju vrijednost uzorka, a vrijednost x̃ koristeći medianu.
U ovom slučaju, estimator X̃ daje tačniju procjenu od estimatora

X̄.
Međutim, ako imamo uzorak 2, 6, 7, tada je x̄ = 5, a x̃ = 6m što

znači da je u ovom slučaju estimator X̄ bolja opcija.
U realnim situacijama nećemo znati stvarnu vrijednost parametra µ

a prije samog proračuna morat ćemo se odlučiti koji estimator
ćemo koristiti.
6/51
Nepristrasan estimator
Postavlja se pitanje koje su poželjne osobine “dobrog” estimatora?
Neka je Θ̂ estimator čija vrijednost θ̂ predstavlja point estimate

nekog nepoznatog parametra populacije θ.
ˆ ima
Bilo bi poželjno da distribucija uzorkovanja statistike T heta
srednju vrijednost jednaku parametru koji pokušavamo procjeniti.
Za ovakav estimator kažemo da je nepristrasan.
DEFINICIJA: Za statistika Θ̂ se kaže da je nepristrasan

estimator parametra θ ako je:
µΘ̂ = E(Θ̂) = θ
7/51
Primjer Pokazati da je S 2 dobar estimator za σ 2 .
Rješenje Iz prethodnog predavanja znamo da je:
∑
n ∑
n
(Xi − X̄) =
2
(Xi − µ)2 − n(X̄ − µ)2
i=1 i=1
Pa imamo:
[ ]
1 ∑ n
E(S 2 ) = E (Xi − X̄)2
n−1
i=1
[ n ]
1 ∑
= E(Xi − µ) − nE(X̄ − µ)
2 2
n−1
i=1
( n )
1 ∑
= σXi − nσX̄
2 2
n−1
i=1
8/51
Rješenje (nastavak) Znamo da je:
2 σ2
σX i
= σ2, 2
za i = 1, 2, .., n, i σX̄ =
n
Pa u konačnici imamo da je:
( )
1 σ2
2
E(S ) = nσ − n
2
= σ2
n−1 n
Iako je S 2 nepristrasan estimator za σ 2 , u većini slučajeva

predstavlja pristrasan estimator za σ, pri čemu ta pristranost
postaje beznačajna za dovoljno velike uzorke.
Ovaj primjer pokazuje još jedan od razloga začto koristimo n − 1

umjesto n kada procjenjujemo varijansu.
9/51
Varijansa point estimatora
Ukoliko su Θ̂1 i Θ̂2 dva nepristrasna estimatora istog parametra

populacije θ, želimo izabrati onaj estimator čija distribucija
uzorkovanja ima manju varijansu.
Tako, ako je σθ̂2 < σθ̂2 , kažemo da je Θ̂1 efikasniji estimator

1 2
parametra θ od estimatore Θ̂2 .
DEFINICIJA Ukoliko razmotrimo sve moguće nepristrasne

estimatore nekog parametra θ, estimator sa najmanjom varijansom
se naziva najefikasnijim estimatorom parametra θ.
10/51
Varijansa point estimatora
Slika 1 ilustrira distribucije uzorkovanja tri različita estimatora Θ̂1 ,
Θ̂2 i Θ̂3 nekog parametra θ. Očigledno je da su samo Θ̂1 i Θ̂2
nepristrasni, pri čemu Θ̂1 ima manju varijansu od Θ̂2 , pa je i
efikasniji.
Slika 1: Primjeri distribucija uzorkovanja estimatora Θ̂1 , Θ̂2 i Θ̂3
11/51
Esitmacija intervala
Čak i najefikasniji nepristrasni estimator teško može procjeniti

parametar populacije u potpunosti tačno.
Tačnost estimacije se povećava kako povećavamo uzorak, ali i dalje

ne možemo očekivati da estimirana vrijednost ne odstupa od
parametra populacije koji estimiramo.
U mnogim situacijama se preferira da se odredi intervalunutar

kojeg očekujemo da pronađemo vrijednost parametra. Takav
interval nazivamo estimirani interval.
Estimarani interval parametra populacije θ predstavlja interval

forme θ̂L < θ < θ̂U 1 koji zavisi od distribucije uzorkovanja i
vrijednosti statistike Θ̂ za konkretni uzorak.
1
L je za lower i U je za upper granicu.
12/51
Esitmacija intervala
Primjer Nasumični uzorak rezultata usmenih SAT testova za

studente prve godine mogao bi proizvesti interval od 530 do 550,
unutar kojeg očekujemo da ćemo pronaći pravi prosjek svih
rezultata za stundete prve godine.
Vrijednosti krajnjih tačaka, 530 i 550, zavisit će od izračunate
srednje vrijednosti uzorka x̄ i distribucije uzorkovanja statistike X̄.
Kako se veličina uzorka povećava, znamo da se σX̄ 2 = σ 2 smanjuje,
n
te će stoga naša procjena vjerovatno biti bliža parametru µ, što
rezultira kraćim intervalom.
Dakle, veličina procjenjenog intervala ukazuje na tačnost point
estimatora.
13/51
Interpretacija estimacije intervala
Budući da će različiti uzorci rezultirati u različite vrijednosti

statistike Θ̂, samim tim i u različite vrijednosti θ̂L i θ̂U , tj. ove
vrijednosti odgovaraju nasumičnim varijablama Θ̂L i Θ̂U .
Na osnovu distribucije uzorkovanja statistike Θ̂ ćemo odrediti Θ̂L i

Θ̂U takve da je vjerovatnoća P (Θ̂L < θ < Θ̂U ) jednaka pozitivnoj
vrijednosti koju ćemo sami specificirati.
Ako npr., odredimo Θ̂L i Θ̂U takve da je:
P (Θ̂L < θ < Θ̂U ) < 1 − α
za 0 < α < 1, tada imamo vjerovatnoću jednaku 1 − α da

izaberemo nasumični uzorak koji će proizvesti interval koji sadrži
stvarnu vrijednost parametra θ.
14/51
Interpretacija estimacije intervala
Interval θ̂L < θ < θ̂U , proračunat iz odabranog uzorka, se naziva

100(1 − α)% interval pouzdanosti.
Frakcija 1 − α se naziva koeficijent pouzdanosti ili stepeni

pouzdanosti, a krajnje tačke, θ̂L i θ̂U se nazivaju granicama
pouzdanosti.
Kada je α = 0.05 imamo interval pouzdanosti 95%, a kada je

α = 0.01 dobijamo širi interval pouzdanosti sa 99%.
Što je širi interval pouzdanosti, možemo biti pouzdaniji da interval

sadrži vrijednost parametra koji estimiramo.2
2
Naravno, bolje je da imamo kraći interval sa 95% pouzdanosti, nego
značajno širi interval sa 99% pouzdanosti.
15/51
Jedan uzorak: Estimacija srednje vrijednosti
Ukoliko je uzorak odabran iz normalne populacije, ili ukoliko je n

dovoljno veliko, možemo ustanoviti interval pouzdanosti za µ
uzimajući u obzir distribuciju uzorkovanja statistike X̄.
Na osnovu centralnog graničnog teorema znamo da mo žemo

očekivati da distribucija uzorkovanja statistike X̄ bude približno
normalna sa srednjom vrijednošću µX̄ = µ i standardnom
√
devijacijom µX̄ = σ/ n.
16/51
Vrijednost z iznad koje pronalazimo površinu α/2 ispod normalne

krive označavamo sa zα/2 .
Slika 2: P (−zα/2 < Z < zα/2 ) = 1 − α
17/51
Sa slike 2 vidimo da je:
P (−zα/2 < Z < zα/2 ) = 1 − α
gdje je
X̄ − µ
Z= √
σ/ n
Pa pišemo:
( )
X̄ − µ
P −zα/2 < √ < zα/2 = 1 − α
σ/ n
√
Ako sada pomnožimo čitav izraz sa σ/ n, zatim od svakog dijela
izraza oduzmemo X̄ i pomnožimo sa −1, dobit ćemo:
( )
σ σ
P X̄ − zα/2 √ < µ < X̄ + zα/2 √ =1−α
n n
18/51
Interval pouzdanosti µ, sa poznatom varijansom σ 2
Ako je x̄ srednja vrijednost nasumičnog uzorka veličine n iz

populacije sa poznatom varijansom σ 2 , interval pouzdanosti
100(1 − α) za parametar µ populacije je dat sa:
σ σ
x̄ − zα/2 √ < µ < x̄ + zα/2 √
n n
19/51

σ σ
x̄ − zα/2 √ < µ < x̄ + zα/2 √
n n
Za male uzorke izvučene iz populacije koja nije normalna, ne

možemo očekivati da stepen pouzdanosti bude tačan. Međutim, za
uzorke n ≥ 30, sa oblikom distribucije koji nije previše smaknut,
teorija uzorkovanja garantuje dobre rezultate.
19/51

σ σ
x̄ − zα/2 √ < µ < x̄ + zα/2 √
n n
Za male uzorke izvučene iz populacije koja nije normalna, ne

možemo očekivati da stepen pouzdanosti bude tačan. Međutim, za
uzorke n ≥ 30, sa oblikom distribucije koji nije previše smaknut,
teorija uzorkovanja garantuje dobre rezultate.
Očigledno, vrijednosti nasumičnih varijabli Θ̂L i Θ̂U su granične

vrijednosti pouzdanosti, date sa:
σ σ
θ̂L = x̄ − zα/2 √ i θ̂U = x̄ + zα/2 √
n n
19/51
Različiti uzorci će rezultirati u različite vrijednosti x̄, samim tim i
granice intervala za procjenu parametra µ će se razlikovati (slika
3).
Slika 3: Procjena intervala parametra µ za različite uzorke 20/51

Primjer Prosječna koncentracija cinka u rijeci koja je dobivena iz

uzorka uzetog sa 36 raznih lokacija je 2.6 g/mm. Naći 95% i 99%
intervale pouzdanosti za prosječnu koncentraciju cinka u rijeci, ako
je poznata standardna devijacija 0.3 g/mm.
21/51
Primjer Prosječna koncentracija cinka u rijeci koja je dobivena iz

uzorka uzetog sa 36 raznih lokacija je 2.6 g/mm. Naći 95% i 99%
intervale pouzdanosti za prosječnu koncentraciju cinka u rijeci, ako
je poznata standardna devijacija 0.3 g/mm.
Rješenje Point estimacija parametra µ je x̄ = 2.6. z vrijednost

iznad koje je 0.025 površine ispod normalne krive sa desne strane
je z0.025 = 1.96 (tj. 0.975 površine sa lijeve strane), pa je interval
pouzdanosti:
( ) ( )
0.3 0.3
2.6 − (1.96) √ < µ < 2.6 + (1.96) √
36 36
Iz čega dobijamo interval 2.50 < µ < 2.70.
21/51
Rješenje (nastavak) Kako bismo odredili 99% interval

pouzdanosti, potrebna nam je vrijednost z za koju sa desne strane
normalne krive imamo površinu od 0.005, pa je z0.005 = 2.575, i
interval pouzdanosti 99%:
( ) ( )
0.3 0.3
2.6 − (2.575) √ < µ < 2.6 + (2.575) √
36 36
, ili jednostavno:
2.47 < µ < 2.73
Vidimo da je potreban širi interval za procjenu parametra µ sa

većim stepenom pouzdanosti.
22/51
Interval pouzdanosti 100(1−)% nam daje procjenu tačnosti point
estimacije.
Ako je µ zaista centar intervala, tada x̄ estimira parametar µ bez

greške.
U većini slučajeva međutim, x̄ neće biti u potpunosti jednako

parametru µ, i point estimator će imati određenu grešku.
Veličina ove greške će biti jednaka apsolutnoj vrijednosti razlike

između µ i x̄, i možemo biti 100(1−)% sigurni da ova razlika neće
biti veća od zα/2 √σn .
Slika 4: Greška pri procjeni µ na osnovu x̄
23/51
Teorem Ako je x̄ estimator srednje vrijednosti populacije µ,

možemo biti 100(1 − α)% pouzdani da greška procjene neće biti
veća od zα/2 √σn .
U prethodnom primjeru, 95% smo sigurni da√greška procjene

srednje vrijednosti nije veća od (1.96)(0.3)/√36 = 0.1, i 99% smo
sigurni da greška nije veća od (2.575)(0.3)/ 36 = 0.13.
24/51
Često nas može interesovati koliko veliki uzorak je potreban da bi

greška u procjeni parametra µ bila manja od neke specificirane
vrijednosti e. Na osnovu prethodnog teorema, potrebno je da
odaberemo n takvo da imamo zα/2 √σn = e.
Teorem Ako je x̄ estimator srednje vrijednosti populacije µ,

možemo biti 100(1 − α)% pouzdani da greška procjene neće biti
veća od specificirane veličine e kada je veličina uzorka:
(z )2
α/2 σ
n=
e
25/51
Strogo govoreći, formula iz prethodne teoreme je primjenjiva samo

ako je poznata varijansa populacije iz koje smo uzorkovali.
Ukoliko nam ova informacija nedostaje možemo najprije kreirati

uzorak veličine n ≥ 30 kako bismo procjenili σ.
Zatim, koristeći s kao aproksimaciju za σ, možemo odrediti

(aproksimativno) koliko instanci je potrebno da bismo imali traženi
nivo tačnosti.
26/51
Primjer U prethodnom primjeru koliki je uzorak potreban da sa

95% pouzdanosti greška procjene prosječne vrijednosti
koncentracije cinka bude manja od 0.05?
27/51
Primjer U prethodnom primjeru koliki je uzorak potreban da sa

95% pouzdanosti greška procjene prosječne vrijednosti
koncentracije cinka bude manja od 0.05?
Rješenje
( )2
(1.96)(0.3)
n≥ = 138.3
0.05
Što znači da možemo biti 95% sigurni da nasumični uzorak veličine
139 će rezultirati u estimator x̄ koji se od parametra µ razlikuje za
vrijednost manju od 0.05.
27/51
Jednostrane granice puzdanosti
Interval pouzdanosti i rezultirajuće granice pouzdanosti o kojima

smo do sada pričali predstavljaju dvostrane granice (data je i
gornja i donja granica intervala).
Jednostrane granice intervala pouzdanosti se konstruišu na isti

način kao i obostrane granice:
( )
X̄ − µ
P √ < zα = 1 − α
σ/ n
Ovaj izraz, na isti način kao prethodno možemo transformisati u:

( )
σ
P µ > X̄ − zα √ =1−α
n
28/51
Na isti način od:

( )
X̄ − µ
P √ > −zα = 1 − α
σ/ n
dobijemo: ( )
σ
P µ < X̄ + zα √ =1−α
n
29/51
Jednostrane granice intervala pouzdanosti µ, za poznatu

varijansu σ
Ako je X̄ srednja vrijednost nasumičnog uzorka veličine n iz

populacije sa varijansom σ 2 , jednostrani 100(1 − α)% granice
pouzdanosti procjene parametra µ su:
σ
gornja jednostrana granica x̄ + zα √
n
σ
gornja jednostrana granica x̄ − zα √
n
30/51
Primjer U psihološkom ispitivanju 25 učesnika je izabrano

nasumično i mjeri se vrijeme njihove reakcije na određenu
stimulaciju. Iz prethodnog iskustva je poznata varijansaod 4 sec2 i
da je distribucija reakcije približno normalna. Prosječna reakcija u
uzorku je 6.2 sekundi. Odrediti, sa 95% pouzdanosti gornju
granicu za srednje vrijeme reakcije.
31/51
Primjer U psihološkom ispitivanju 25 učesnika je izabrano

nasumično i mjeri se vrijeme njihove reakcije na određenu
stimulaciju. Iz prethodnog iskustva je poznata varijansaod 4 sec2 i
da je distribucija reakcije približno normalna. Prosječna reakcija u
uzorku je 6.2 sekundi. Odrediti, sa 95% pouzdanosti gornju
granicu za srednje vrijeme reakcije.
Rješenje Gornja granica za 95% pouzdanosti je data sa:

√
σ 4
x̄ + zα √ = 6.2 + (1.645) = 6.2 + 0.658 = 6.858
n 25
Gornja granica prosječnog vremena reagovanja za 95% pouzdanosti

je 6.858 sekundi.
31/51
Slučaj nepoznate varijanse σ
Veoma često smo u situaciji da moramo procjeniti parametre
populacije za koju nam je varijansa nepoznata.
U generalnom slučaju, ukoliko imamo nasumični uzorak iz

normalne distribucije, tada nasumična varijabla:
X̄ − µ
T = √
S/ n
prati studentsku t-distribuciju sa n − 1 stepeni slobode; gdje je S

standardna devijacija uzorka.
U slučaju kada je σ nepoznato, možemo koristiti statistiku T kako

bi konstruisali interval pouzdanosti za parametar µ. Procedura je
ista, samo se umjesto vrijednosti σ koristi vrijednost S i standardna
normalna distribucija je zamijenjena t-distribucijom.
32/51
t-distribucija
Funkcija raspodjele nasumične varijable T koja prati t-distribuciju
je:
( ) ( v+1 )
Γ v+1 t 2− 2
h(t) = ( v ) √ 2
1+ , −∞ < t < ∞
Γ 2 π(v) v
Pri čemu je v = n − 1 stepeni slobode.
Slika 5: t-distribucija za v = 2, v = 5 i v = ∞
33/51
t-distribucija
Slika 5 prikazuje izgled t-distribucije za različite vrijednosti v.
Izgled ove krive dosta podsjeća na normalnu distribuciju, odnosno

na distribuciju standardne normalne varijable Z.
Ove dvije krive (t-distribucija i normalna distribucija) su iste na

način da su simetrične u odnosu na srednju vrijednost jednaku nuli,
i imaju zvonast oblik.
Međutim, t-distribucija ima veću varijabilnost, budući da T

vrijednosti zavise od fluktuacije dvije vrijednosti X̄ i S 2 , dok Z
zavisi samo od promjena vrijednosti X̄ od uzorka do uzorka.
Također, distribucija varijable T se razlikuje od distribucije

varijable Z i po tome što varijansa varijable T zavisi od veličine
uzorka n i uvijek je veća od 1. Samo u slučaju kada n → ∞ dvije
distribucije postaju iste.
34/51
Na sličan način kao u prethodnom slučaju konstruišemo interval
estimacije srednje vrijednosti koristeći standardnu devijaciju uzorka
S umjesto standardne devijacije populacije σ, ali sada koristeći
t-distribuciju (slike 6).
Slika 6: P (−tα/2 < T < tα/2 ) = 1 − α
35/51
Na osnovu slike 6 imamo:
P (−tα/2 < T < tα/2 ) = 1 − α
, gdje je tα/2 t-vrijednost sa n − 1 stepeni slobode, iznad koje

pronalazimo površinu jednaku α/2. Zbog simetrije, ista površina
α/2 će biti ispod vrijednosti −tα/2 . Kada zamjenimo vrijednost T
dobijamo:
( )
X̄ − µ
P −tα/2 < √ < tα/2 = 1 − α
S/ n
√
Kada cijeli izraz pomnožimo sa S/ n i oduzmemo X̄ od svakog
izraza, te pomnožimo cijeli izraz sa −1, imamo:
( )
S S
P X̄ − tα/2 √ < µ < X̄ + tα/2 √ =1−α
n n
36/51
Interval pouzdanosti za µ, sa nepoznatom σ

Ako su x̄ i s srednja vrijednost i standardna devijacija nasumičnog
uzorka iz normalne populacije sa nepoznatom varijansom σ 2 ,
interval pouzdanosti 100(1 − α)% za µ je:
s s
x̄ − tα/2 √ < µ < x̄ + tα/2 √
n n
, gdje je tα/2 t-vrijednost sa v = n − 1 stepeni slobode koja sa

desne strane ostavlja površinu od α/2.
37/51
U slučaju kada nam je data varijansa populacije, za estimaciju

intervala pouzdanosti srednje vrijednosti smo koristili centralni
granični teorem.
U slučaju kada je varijansa populacije nepoznata, tada koristimo

t-distribuciju da estimiramo interval pouzdanosti srednje
vrijednosti.
Treba imati na umu da t-distribuciju možemo koristiti samo ako

znamo da je uzorak izvučen iz normalne populacije (tj., sve dok je
izgled distribucije približno zvonast).
38/51
Jednostrane granice intervala pouzdanosti za estimaciju srednje

vrijednosti populacije µ sa nepoznatom vrijednošću varijanse
populacije σ su:
s s
x̄ + tα √ i x̄ − tα √
n n
Ove vrijednosti su gornja i donja granica za 100(1 − α)

pouzdanost, redom. U ovom slučaju tα predstavlja t-vrijednost
desno od koje je površina ispod krive jednaka α.
39/51
Primjer U sedam kontejnera sa kiselinom imamo po 9.8, 10.2,
10.4, 9.8, 10.0, 10.2, 9.6 litara kiseline. Odrediti interval sa 95%
pouzdanosti za prosječan sadržaj u kontejnerima ako
pretpostavimo približno normalnu distribuciju.
40/51
Primjer U sedam kontejnera sa kiselinom imamo po 9.8, 10.2,
10.4, 9.8, 10.0, 10.2, 9.6 litara kiseline. Odrediti interval sa 95%
pouzdanosti za prosječan sadržaj u kontejnerima ako
pretpostavimo približno normalnu distribuciju.
Rješenje Srednja vrijednost i standardna devijacija uzorka su:
x̂ = 10.0 s = 0.283
Koristeći tablicu A.4 iz knjige sme odredili da je t0.025 = 2.447 za

v = 6 stepeni slobode. Pa je interval pouzdanosti 95%:
( ) ( )
0.283 0.283
10.0 − (2.447) √ < µ < 10.0 + (2.447) √
7 7
ili u kraćem obliku:
9.74 < µ < 10.26
40/51
Koncept velikih uzoraka
Statističari često preporučuju da čak i kada normalna distribucija

ne može biti pretpostavljena za neki uzorak, kada je σ nepoznata, i
n ≥ 30, s može zamjeniti σ i interval pouzdanosti:
s
x̄ ± zα/2 √
n
se može koristiti.
Ova pretpostavka se često naziva intervalom pouzdanosti velikog

uzorka.
Ovo je naravno aproksimacija, a kvalitet rezultata će postajati bolji

kako uzorak bude rastao.
41/51
Primjer Broj bodova na testovima iz mature su prikupljeni za

500 učenika sa aritmetičkom sredinom 501 i standardnom
devijacijom od 112. Naći 99% interval pouzdanosti za prosječni
broj bodova na testu.
42/51
Primjer Broj bodova na testovima iz mature su prikupljeni za

500 učenika sa aritmetičkom sredinom 501 i standardnom
devijacijom od 112. Naći 99% interval pouzdanosti za prosječni
broj bodova na testu.
Rješenje budući da je uzorak dovoljne veličine, razumno je

koristiti normalnu aproksimaciju. Koristeći tabelicu A.3 iz knjige,
znamo da je z0.005 = 2.575, pa je 99% interval pouzdanosti za µ:
( )
112
501 ± √ = 501 ± 12.9
500
odakle dobijamo 488.1 < µ < 513.9.
42/51
Standardna greška estimacije
Mjera kvalitete nepristrasnog point estimatora je njegova varijansa,

a varijansa estimatora X̄ je:
2 σ2
σX̄ =
n
Što značemo pisati i na sljedeći način:
σ
x̄ ± zα/2 √ pišemo x̄ ± zα/2 s.e.(x̄)
n
gdje je s.e. standard error.
Važno je primjetiti da širina intervala pouzdanosti parametra µ

zavisi od kvalitete estimatora što se očituje kroz standardnu grešku
estimatora.
43/51
Standardna greška estimacije
U slučaju kada je σ nepoznato i uzorkujemo iz normalne

√
distribucije, s mijenja σ i estimirana standardna greška je s/ n,
pa su grance intervala pouzdanosti:
s
x̄ ± tα/2 √ = x̄ ± tα/2 s.e.(x̄)
n
44/51
Interval predikcije
U određenim slučajevima nas neće interesovati da estimiramo
srednju vrijednost populacije nego moguću vrijednost neke
buduće opservacije.
Pretpostavimo da nasumični uzorak dolazi iz normalne

populacije sa nepoznatom srednjom vrijedno[̌sću µ i poznatom
varijansom σ 2 . Prirodni estimator nove opservacije bi bio X̄ sa
varijansom σ 2 /n.
Međutim da bismo predvidjeli novu opservaciju, neophodno, ne

samo da uzmemo u obzir varijansu prilikom estimacije srednje
vrijednosti, nego i varijaciju buduće opservacije.
na osnovu pretpostavke, znamo da je varijansa nasumične greške

nove opservacije jednaka σ 2 .
45/51
Interval predikcije
Interval predikcije ćemo razviti počevši od normalne nasumične
varijable x0 − x̄, gdje je x0 nova opservacija, a x̄ dolazi iz uzorka.
Budući da su x0 i x̄ nezavisne, znamo da je:
x0 − x̄ x0 − x̄
z=√ = √
σ − σ /n
2 2 σ 1 + 1/n
normalna standardna varijabla n(z; 0, 1). Kao rezultat ako
koristimo izraz vjerovatnoće:
P (−zα/2 < Z < zα/2 ) = 1 − α
sa z-statistikom koju smo prethodno definisali, i postavljajući x0 u

centar vjerovatnoće, imamo sljedeći događaj koji se pojavljuje sa
vjerovatnoćom 1 − α:
√ √
x̄ − zα/2 σ 1 + 1/n < x0 < x̄ + zα/2 σ 1 + 1/n
.
46/51
Interval predikcije
Interval predikcije za buduću opservaciju, σ 2 poznato Za

normalnu distribuciju instanci sa srednjom vrijednošću µ koja je
nepoznata i ponzatmo varijansom σ 2 , interval predikcije
100(1 − α)% buduće opservacije x0 je:
√ √
x̄ − zα/2 σ 1 + 1/n < x0 < x̄ + zα/2 σ 1 + 1/n
pri čemu je zα/2 z-vrijednost koja sa desne strane ostavlja površinu

veličine α/2 sa desne strane.
47/51
Interval predikcije
Primjer Zahvaljujući nižim kamatama, banka dobiva puno novih

zahtjeva za kredite. Analiziranjem uzorka od 50 zahtjeva prosječna
visina kredita je $257300. Ako je pretpostavljena standardna
devijacija populacije $25000, za sljedećeg kupca koji će popuniti
aplikaciju za kredit, odrediti 95% interval predikcije za traženu
sumu kredita.
48/51
Interval predikcije
Primjer Zahvaljujući nižim kamatama, banka dobiva puno novih

zahtjeva za kredite. Analiziranjem uzorka od 50 zahtjeva prosječna
visina kredita je $257300. Ako je pretpostavljena standardna
devijacija populacije $25000, za sljedećeg kupca koji će popuniti
aplikaciju za kredit, odrediti 95% interval predikcije za traženu
sumu kredita.
Rješenje Znamo sljedeće vrijednosti x̄ = 257300, σ = 25000,

n = 50, α = 0.05, z0.025 = 1.96, pa dobijamo:
√ √
257300−(1.96)(25000) 1 + 1/50 < x0 < 257300+(1.96)(25000) 1 + 1
Što nam daje interval od ($207, 812.43, $306, 787.57).
48/51
Interval predikcije
Ukoliko je varijansa populacije iz koje uzorkujemo nepoznata,i

uzorak mali, tada kao i pri estimaciji srednje vrijednosti populacije,
koristimo t-distribuciju.
Za mjerenja normalne distribucije sa nepoznatom srednjom

vrijednošću µ i nepoznatom varijansom σ 2 , interval predikcije
100(1 − α)% buduće opservacije x0 je:
√ √
x̄ − tα/2 s 1 + 1/n < x0 < x̄ + tα/2 s 1 + 1/n
pri čemu je tα/2 t-vrijednost sa v = n − 1 stepeni slobode, koja sa

desne strane, ispod krive distribucije ostavlja površinu veličine α/2.
49/51
Interval predikcije
Za interval predikcije možemo izvesti i jednostrane granice, pri

čemu je gornja granica:
√
x̄ + tα s 1 + 1/n
i donja granica: √
x̄ − tα s 1 + 1/n
50/51
Interval predikcije
Veterinarski inspektor je ispitivao masnoću u 95% nemasnoj

govedini. Uzorak od 30 paketa je pokazao prosječnu količinu krtine
od 96.2% sa standardnom devijacijom od 0.8%. Naći 99% interval
predikcije za sljedeće pakovanje.
51/51
Interval predikcije
Veterinarski inspektor je ispitivao masnoću u 95% nemasnoj

govedini. Uzorak od 30 paketa je pokazao prosječnu količinu krtine
od 96.2% sa standardnom devijacijom od 0.8%. Naći 99% interval
predikcije za sljedeće pakovanje.
Rješenje Za v = 29 stepeni slobode, t0.005 = 2.756, pa je 99%

interval predikcije za novu opservaciju x0 :
√ √
1 1
96.2 − (2.756)(0.8) 1 + < µ < 96.2 + (2.756)(0.8) 1 +
30 30
što odgovara intervalu (93.96, 98.44).
51/51

VIS - Predavanje IX

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

VIS - Predavanje IX

Uploaded by

Copyright:

Available Formats

Vjerovatnoća i statistika

Statistička inferencija se sastoji od onih metoda koje omogućavaju

Bitno je naglasiti da se statistička inferencija zasniva isključivo na

U ovom predavanju, koristit ćemo klasične metode inferencije da

Da bismo napravili jasnu distinkciju izmđu pomenutih oblasti,

Estimacija (eng. point estimate) nekog parametra populacije θ

Npr. vrijednost x̄ statistike X̄, izračunata na osnovu uzorka

Slično, p̂ = x/n predstavlja point estimate prave proporcije p

Naravno, ne možemo očekivati da estimator procjenjuje parametar

Npr., za uzorak koji se sastoji od vrijednosti 2, 5, 11 koji je uzet iz

U ovom slučaju, estimator X̃ daje tačniju procjenu od estimatora

Međutim, ako imamo uzorak 2, 6, 7, tada je x̄ = 5, a x̃ = 6m što

U realnim situacijama nećemo znati stvarnu vrijednost parametra µ

Postavlja se pitanje koje su poželjne osobine “dobrog” estimatora?

Neka je Θ̂ estimator čija vrijednost θ̂ predstavlja point estimate

Za ovakav estimator kažemo da je nepristrasan.

DEFINICIJA: Za statistika Θ̂ se kaže da je nepristrasan

Rješenje Iz prethodnog predavanja znamo da je:

Iako je S 2 nepristrasan estimator za σ 2 , u većini slučajeva

Ovaj primjer pokazuje još jedan od razloga začto koristimo n − 1

Ukoliko su Θ̂1 i Θ̂2 dva nepristrasna estimatora istog parametra

Tako, ako je σθ̂2 < σθ̂2 , kažemo da je Θ̂1 efikasniji estimator

DEFINICIJA Ukoliko razmotrimo sve moguće nepristrasne

Slika 1: Primjeri distribucija uzorkovanja estimatora Θ̂1 , Θ̂2 i Θ̂3

Čak i najefikasniji nepristrasni estimator teško može procjeniti

Tačnost estimacije se povećava kako povećavamo uzorak, ali i dalje

U mnogim situacijama se preferira da se odredi intervalunutar

Estimarani interval parametra populacije θ predstavlja interval

Primjer Nasumični uzorak rezultata usmenih SAT testova za

Budući da će različiti uzorci rezultirati u različite vrijednosti

Na osnovu distribucije uzorkovanja statistike Θ̂ ćemo odrediti Θ̂L i

Ako npr., odredimo Θ̂L i Θ̂U takve da je:

P (Θ̂L < θ < Θ̂U ) < 1 − α

za 0 < α < 1, tada imamo vjerovatnoću jednaku 1 − α da

Interval θ̂L < θ < θ̂U , proračunat iz odabranog uzorka, se naziva

Frakcija 1 − α se naziva koeficijent pouzdanosti ili stepeni

Kada je α = 0.05 imamo interval pouzdanosti 95%, a kada je

Što je širi interval pouzdanosti, možemo biti pouzdaniji da interval

Ukoliko je uzorak odabran iz normalne populacije, ili ukoliko je n

Na osnovu centralnog graničnog teorema znamo da mo žemo

Vrijednost z iznad koje pronalazimo površinu α/2 ispod normalne

Slika 2: P (−zα/2 < Z < zα/2 ) = 1 − α

P (−zα/2 < Z < zα/2 ) = 1 − α

Ako je x̄ srednja vrijednost nasumičnog uzorka veličine n iz

Ako je x̄ srednja vrijednost nasumičnog uzorka veličine n iz

Za male uzorke izvučene iz populacije koja nije normalna, ne

Ako je x̄ srednja vrijednost nasumičnog uzorka veličine n iz

Za male uzorke izvučene iz populacije koja nije normalna, ne

Očigledno, vrijednosti nasumičnih varijabli Θ̂L i Θ̂U su granične

Slika 3: Procjena intervala parametra µ za različite uzorke 20/51

Primjer Prosječna koncentracija cinka u rijeci koja je dobivena iz

Primjer Prosječna koncentracija cinka u rijeci koja je dobivena iz

Rješenje Point estimacija parametra µ je x̄ = 2.6. z vrijednost

Rješenje (nastavak) Kako bismo odredili 99% interval

Vidimo da je potreban širi interval za procjenu parametra µ sa

Ako je µ zaista centar intervala, tada x̄ estimira parametar µ bez

U većini slučajeva međutim, x̄ neće biti u potpunosti jednako

Veličina ove greške će biti jednaka apsolutnoj vrijednosti razlike

Slika 4: Greška pri procjeni µ na osnovu x̄

Teorem Ako je x̄ estimator srednje vrijednosti populacije µ,

U prethodnom primjeru, 95% smo sigurni da√greška procjene

Često nas može interesovati koliko veliki uzorak je potreban da bi

Teorem Ako je x̄ estimator srednje vrijednosti populacije µ,

Strogo govoreći, formula iz prethodne teoreme je primjenjiva samo