You are on page 1of 60

Vjerovatnoća i statistika

Predavanje IX

Maj, 2022.
Estimacija parametara populacije

▶ Uvod
▶ Klasične metode estimacije
▶ Jedan uzorak: Estimacija srednje vrijednosti
▶ Standardna greška estimacije
▶ Interval predikcije
▶ Interval tolerancije

2/51
Uvod

Statistička inferencija se sastoji od onih metoda koje omogućavaju


donošenje zaključaka ili generalizacija o populaciji.

Bitno je naglasiti da se statistička inferencija zasniva isključivo na


informacijama koje dobijamo iz nasumičnog uzorka izvučenog iz
populacije.

U ovom predavanju, koristit ćemo klasične metode inferencije da


estimiramo (procjenimo) nepoznate parametre populacije, kao što
su, srednja vrijednost, proporcija i varijansa, tako što ćemo
računati statistike iz nasumičnih uzoraka i primjeniti teoriju
distribucije uzorkovanja koju smo radili na prethodnom predavanju.

3/51
Uvod
Statističku inferenciju možemo podjeliti u dvije velike oblasti: (1)
estimacija parametara; i (2) testiranje hipoteza.

Da bismo napravili jasnu distinkciju izmđu pomenutih oblasti,


razmotrimo sljedeće primjere:
(a) Kandidat za javnu funkciju želi da procijeni udio birača koji ga
favorizuje na osnovu mišljenja iz nasumičnog uzorka od 100
glasača. Dio birača u uzorku koji favorizuje kandidata mogao
bi se koristiti kao procjena stvarnog udjela u populaciji birača.
Znanje o distribucija uzorkovanja proporcije omogućava da se
utvrdi stepen tačnosti takve procjene.
(b) Neka osoba je zainteresovana da otkrije da li je podni vosak
brenda A otporniji od podnog voska brenda B. Ta osoba
može pretpostaviti da je brend A bolji od brenda B, te nakon
odgovarajućih testova prihvatiti ili odbaciti tu hipotezu.

4/51
Klasične metode estimacije

Estimacija (eng. point estimate) nekog parametra populacije θ


ˆ statistike Θ̂.
predstavlja vrijednost theta

Npr. vrijednost x̄ statistike X̄, izračunata na osnovu uzorka


veličine n predstavlja point estimate parametra populacije µ.

Slično, p̂ = x/n predstavlja point estimate prave proporcije p


binomnog eksperimenta.

Naravno, ne možemo očekivati da estimator procjenjuje parametar


populacije bez ikakve greške, ali se nadamo da greška neće biti
velika.

5/51
Klasične metode estimacije
U nekim specifičnim situacijama, konkretnim primjerima uzoraka,
moguće je procjeniti tačniju vrijednost za parametar µ ako
koristimo medianu uzorka X̃ kao estimator.

Npr., za uzorak koji se sastoji od vrijednosti 2, 5, 11 koji je uzet iz


populacije sa srednjom vrijednošću 4, procjenili bismo da je x̄ = 6
koristeći srednju vrijednost uzorka, a vrijednost x̃ koristeći medianu.

U ovom slučaju, estimator X̃ daje tačniju procjenu od estimatora


X̄.

Međutim, ako imamo uzorak 2, 6, 7, tada je x̄ = 5, a x̃ = 6m što


znači da je u ovom slučaju estimator X̄ bolja opcija.

U realnim situacijama nećemo znati stvarnu vrijednost parametra µ


a prije samog proračuna morat ćemo se odlučiti koji estimator
ćemo koristiti.
6/51
Klasične metode estimacije
Nepristrasan estimator

Postavlja se pitanje koje su poželjne osobine “dobrog” estimatora?

Neka je Θ̂ estimator čija vrijednost θ̂ predstavlja point estimate


nekog nepoznatog parametra populacije θ.
ˆ ima
Bilo bi poželjno da distribucija uzorkovanja statistike T heta
srednju vrijednost jednaku parametru koji pokušavamo procjeniti.

Za ovakav estimator kažemo da je nepristrasan.

DEFINICIJA: Za statistika Θ̂ se kaže da je nepristrasan


estimator parametra θ ako je:

µΘ̂ = E(Θ̂) = θ

7/51
Klasične metode estimacije
Primjer Pokazati da je S 2 dobar estimator za σ 2 .

Rješenje Iz prethodnog predavanja znamo da je:


n ∑
n
(Xi − X̄) =
2
(Xi − µ)2 − n(X̄ − µ)2
i=1 i=1
Pa imamo:
[ ]
1 ∑ n
E(S 2 ) = E (Xi − X̄)2
n−1
i=1
[ n ]
1 ∑
= E(Xi − µ) − nE(X̄ − µ)
2 2
n−1
i=1
( n )
1 ∑
= σXi − nσX̄
2 2
n−1
i=1

8/51
Klasične metode estimacije
Rješenje (nastavak) Znamo da je:

2 σ2
σX i
= σ2, 2
za i = 1, 2, .., n, i σX̄ =
n
Pa u konačnici imamo da je:
( )
1 σ2
2
E(S ) = nσ − n
2
= σ2
n−1 n

Iako je S 2 nepristrasan estimator za σ 2 , u većini slučajeva


predstavlja pristrasan estimator za σ, pri čemu ta pristranost
postaje beznačajna za dovoljno velike uzorke.

Ovaj primjer pokazuje još jedan od razloga začto koristimo n − 1


umjesto n kada procjenjujemo varijansu.

9/51
Klasične metode estimacije
Varijansa point estimatora

Ukoliko su Θ̂1 i Θ̂2 dva nepristrasna estimatora istog parametra


populacije θ, želimo izabrati onaj estimator čija distribucija
uzorkovanja ima manju varijansu.

Tako, ako je σθ̂2 < σθ̂2 , kažemo da je Θ̂1 efikasniji estimator


1 2
parametra θ od estimatore Θ̂2 .

DEFINICIJA Ukoliko razmotrimo sve moguće nepristrasne


estimatore nekog parametra θ, estimator sa najmanjom varijansom
se naziva najefikasnijim estimatorom parametra θ.

10/51
Klasične metode estimacije
Varijansa point estimatora
Slika 1 ilustrira distribucije uzorkovanja tri različita estimatora Θ̂1 ,
Θ̂2 i Θ̂3 nekog parametra θ. Očigledno je da su samo Θ̂1 i Θ̂2
nepristrasni, pri čemu Θ̂1 ima manju varijansu od Θ̂2 , pa je i
efikasniji.

Slika 1: Primjeri distribucija uzorkovanja estimatora Θ̂1 , Θ̂2 i Θ̂3

11/51
Klasične metode estimacije
Esitmacija intervala

Čak i najefikasniji nepristrasni estimator teško može procjeniti


parametar populacije u potpunosti tačno.

Tačnost estimacije se povećava kako povećavamo uzorak, ali i dalje


ne možemo očekivati da estimirana vrijednost ne odstupa od
parametra populacije koji estimiramo.

U mnogim situacijama se preferira da se odredi intervalunutar


kojeg očekujemo da pronađemo vrijednost parametra. Takav
interval nazivamo estimirani interval.

Estimarani interval parametra populacije θ predstavlja interval


forme θ̂L < θ < θ̂U 1 koji zavisi od distribucije uzorkovanja i
vrijednosti statistike Θ̂ za konkretni uzorak.

1
L je za lower i U je za upper granicu.
12/51
Klasične metode estimacije
Esitmacija intervala

Primjer Nasumični uzorak rezultata usmenih SAT testova za


studente prve godine mogao bi proizvesti interval od 530 do 550,
unutar kojeg očekujemo da ćemo pronaći pravi prosjek svih
rezultata za stundete prve godine.
Vrijednosti krajnjih tačaka, 530 i 550, zavisit će od izračunate
srednje vrijednosti uzorka x̄ i distribucije uzorkovanja statistike X̄.
Kako se veličina uzorka povećava, znamo da se σX̄ 2 = σ 2 smanjuje,
n
te će stoga naša procjena vjerovatno biti bliža parametru µ, što
rezultira kraćim intervalom.
Dakle, veličina procjenjenog intervala ukazuje na tačnost point
estimatora.

13/51
Klasične metode estimacije
Interpretacija estimacije intervala

Budući da će različiti uzorci rezultirati u različite vrijednosti


statistike Θ̂, samim tim i u različite vrijednosti θ̂L i θ̂U , tj. ove
vrijednosti odgovaraju nasumičnim varijablama Θ̂L i Θ̂U .

Na osnovu distribucije uzorkovanja statistike Θ̂ ćemo odrediti Θ̂L i


Θ̂U takve da je vjerovatnoća P (Θ̂L < θ < Θ̂U ) jednaka pozitivnoj
vrijednosti koju ćemo sami specificirati.

Ako npr., odredimo Θ̂L i Θ̂U takve da je:

P (Θ̂L < θ < Θ̂U ) < 1 − α

za 0 < α < 1, tada imamo vjerovatnoću jednaku 1 − α da


izaberemo nasumični uzorak koji će proizvesti interval koji sadrži
stvarnu vrijednost parametra θ.

14/51
Klasične metode estimacije
Interpretacija estimacije intervala

Interval θ̂L < θ < θ̂U , proračunat iz odabranog uzorka, se naziva


100(1 − α)% interval pouzdanosti.

Frakcija 1 − α se naziva koeficijent pouzdanosti ili stepeni


pouzdanosti, a krajnje tačke, θ̂L i θ̂U se nazivaju granicama
pouzdanosti.

Kada je α = 0.05 imamo interval pouzdanosti 95%, a kada je


α = 0.01 dobijamo širi interval pouzdanosti sa 99%.

Što je širi interval pouzdanosti, možemo biti pouzdaniji da interval


sadrži vrijednost parametra koji estimiramo.2

2
Naravno, bolje je da imamo kraći interval sa 95% pouzdanosti, nego
značajno širi interval sa 99% pouzdanosti.
15/51
Jedan uzorak: Estimacija srednje vrijednosti

Ukoliko je uzorak odabran iz normalne populacije, ili ukoliko je n


dovoljno veliko, možemo ustanoviti interval pouzdanosti za µ
uzimajući u obzir distribuciju uzorkovanja statistike X̄.

Na osnovu centralnog graničnog teorema znamo da mo žemo


očekivati da distribucija uzorkovanja statistike X̄ bude približno
normalna sa srednjom vrijednošću µX̄ = µ i standardnom

devijacijom µX̄ = σ/ n.

16/51
Jedan uzorak: Estimacija srednje vrijednosti

Vrijednost z iznad koje pronalazimo površinu α/2 ispod normalne


krive označavamo sa zα/2 .

Slika 2: P (−zα/2 < Z < zα/2 ) = 1 − α

17/51
Jedan uzorak: Estimacija srednje vrijednosti
Sa slike 2 vidimo da je:

P (−zα/2 < Z < zα/2 ) = 1 − α

gdje je
X̄ − µ
Z= √
σ/ n
Pa pišemo:
( )
X̄ − µ
P −zα/2 < √ < zα/2 = 1 − α
σ/ n

Ako sada pomnožimo čitav izraz sa σ/ n, zatim od svakog dijela
izraza oduzmemo X̄ i pomnožimo sa −1, dobit ćemo:
( )
σ σ
P X̄ − zα/2 √ < µ < X̄ + zα/2 √ =1−α
n n

18/51
Jedan uzorak: Estimacija srednje vrijednosti
Interval pouzdanosti µ, sa poznatom varijansom σ 2

Ako je x̄ srednja vrijednost nasumičnog uzorka veličine n iz


populacije sa poznatom varijansom σ 2 , interval pouzdanosti
100(1 − α) za parametar µ populacije je dat sa:
σ σ
x̄ − zα/2 √ < µ < x̄ + zα/2 √
n n

19/51
Jedan uzorak: Estimacija srednje vrijednosti
Interval pouzdanosti µ, sa poznatom varijansom σ 2

Ako je x̄ srednja vrijednost nasumičnog uzorka veličine n iz


populacije sa poznatom varijansom σ 2 , interval pouzdanosti
100(1 − α) za parametar µ populacije je dat sa:
σ σ
x̄ − zα/2 √ < µ < x̄ + zα/2 √
n n

Za male uzorke izvučene iz populacije koja nije normalna, ne


možemo očekivati da stepen pouzdanosti bude tačan. Međutim, za
uzorke n ≥ 30, sa oblikom distribucije koji nije previše smaknut,
teorija uzorkovanja garantuje dobre rezultate.

19/51
Jedan uzorak: Estimacija srednje vrijednosti
Interval pouzdanosti µ, sa poznatom varijansom σ 2

Ako je x̄ srednja vrijednost nasumičnog uzorka veličine n iz


populacije sa poznatom varijansom σ 2 , interval pouzdanosti
100(1 − α) za parametar µ populacije je dat sa:
σ σ
x̄ − zα/2 √ < µ < x̄ + zα/2 √
n n

Za male uzorke izvučene iz populacije koja nije normalna, ne


možemo očekivati da stepen pouzdanosti bude tačan. Međutim, za
uzorke n ≥ 30, sa oblikom distribucije koji nije previše smaknut,
teorija uzorkovanja garantuje dobre rezultate.

Očigledno, vrijednosti nasumičnih varijabli Θ̂L i Θ̂U su granične


vrijednosti pouzdanosti, date sa:
σ σ
θ̂L = x̄ − zα/2 √ i θ̂U = x̄ + zα/2 √
n n
19/51
Jedan uzorak: Estimacija srednje vrijednosti
Različiti uzorci će rezultirati u različite vrijednosti x̄, samim tim i
granice intervala za procjenu parametra µ će se razlikovati (slika
3).

Slika 3: Procjena intervala parametra µ za različite uzorke 20/51


Jedan uzorak: Estimacija srednje vrijednosti

Primjer Prosječna koncentracija cinka u rijeci koja je dobivena iz


uzorka uzetog sa 36 raznih lokacija je 2.6 g/mm. Naći 95% i 99%
intervale pouzdanosti za prosječnu koncentraciju cinka u rijeci, ako
je poznata standardna devijacija 0.3 g/mm.

21/51
Jedan uzorak: Estimacija srednje vrijednosti

Primjer Prosječna koncentracija cinka u rijeci koja je dobivena iz


uzorka uzetog sa 36 raznih lokacija je 2.6 g/mm. Naći 95% i 99%
intervale pouzdanosti za prosječnu koncentraciju cinka u rijeci, ako
je poznata standardna devijacija 0.3 g/mm.

Rješenje Point estimacija parametra µ je x̄ = 2.6. z vrijednost


iznad koje je 0.025 površine ispod normalne krive sa desne strane
je z0.025 = 1.96 (tj. 0.975 površine sa lijeve strane), pa je interval
pouzdanosti:
( ) ( )
0.3 0.3
2.6 − (1.96) √ < µ < 2.6 + (1.96) √
36 36
Iz čega dobijamo interval 2.50 < µ < 2.70.

21/51
Jedan uzorak: Estimacija srednje vrijednosti

Rješenje (nastavak) Kako bismo odredili 99% interval


pouzdanosti, potrebna nam je vrijednost z za koju sa desne strane
normalne krive imamo površinu od 0.005, pa je z0.005 = 2.575, i
interval pouzdanosti 99%:
( ) ( )
0.3 0.3
2.6 − (2.575) √ < µ < 2.6 + (2.575) √
36 36
, ili jednostavno:
2.47 < µ < 2.73

Vidimo da je potreban širi interval za procjenu parametra µ sa


većim stepenom pouzdanosti.

22/51
Jedan uzorak: Estimacija srednje vrijednosti
Interval pouzdanosti 100(1−)% nam daje procjenu tačnosti point
estimacije.

Ako je µ zaista centar intervala, tada x̄ estimira parametar µ bez


greške.

U većini slučajeva međutim, x̄ neće biti u potpunosti jednako


parametru µ, i point estimator će imati određenu grešku.

Veličina ove greške će biti jednaka apsolutnoj vrijednosti razlike


između µ i x̄, i možemo biti 100(1−)% sigurni da ova razlika neće
biti veća od zα/2 √σn .

Slika 4: Greška pri procjeni µ na osnovu x̄

23/51
Jedan uzorak: Estimacija srednje vrijednosti

Teorem Ako je x̄ estimator srednje vrijednosti populacije µ,


možemo biti 100(1 − α)% pouzdani da greška procjene neće biti
veća od zα/2 √σn .

U prethodnom primjeru, 95% smo sigurni da√greška procjene


srednje vrijednosti nije veća od (1.96)(0.3)/√36 = 0.1, i 99% smo
sigurni da greška nije veća od (2.575)(0.3)/ 36 = 0.13.

24/51
Jedan uzorak: Estimacija srednje vrijednosti

Često nas može interesovati koliko veliki uzorak je potreban da bi


greška u procjeni parametra µ bila manja od neke specificirane
vrijednosti e. Na osnovu prethodnog teorema, potrebno je da
odaberemo n takvo da imamo zα/2 √σn = e.

Teorem Ako je x̄ estimator srednje vrijednosti populacije µ,


možemo biti 100(1 − α)% pouzdani da greška procjene neće biti
veća od specificirane veličine e kada je veličina uzorka:
(z )2
α/2 σ
n=
e

25/51
Jedan uzorak: Estimacija srednje vrijednosti

Strogo govoreći, formula iz prethodne teoreme je primjenjiva samo


ako je poznata varijansa populacije iz koje smo uzorkovali.

Ukoliko nam ova informacija nedostaje možemo najprije kreirati


uzorak veličine n ≥ 30 kako bismo procjenili σ.

Zatim, koristeći s kao aproksimaciju za σ, možemo odrediti


(aproksimativno) koliko instanci je potrebno da bismo imali traženi
nivo tačnosti.

26/51
Jedan uzorak: Estimacija srednje vrijednosti

Primjer U prethodnom primjeru koliki je uzorak potreban da sa


95% pouzdanosti greška procjene prosječne vrijednosti
koncentracije cinka bude manja od 0.05?

27/51
Jedan uzorak: Estimacija srednje vrijednosti

Primjer U prethodnom primjeru koliki je uzorak potreban da sa


95% pouzdanosti greška procjene prosječne vrijednosti
koncentracije cinka bude manja od 0.05?

Rješenje
( )2
(1.96)(0.3)
n≥ = 138.3
0.05
Što znači da možemo biti 95% sigurni da nasumični uzorak veličine
139 će rezultirati u estimator x̄ koji se od parametra µ razlikuje za
vrijednost manju od 0.05.

27/51
Jedan uzorak: Estimacija srednje vrijednosti
Jednostrane granice puzdanosti

Interval pouzdanosti i rezultirajuće granice pouzdanosti o kojima


smo do sada pričali predstavljaju dvostrane granice (data je i
gornja i donja granica intervala).

Jednostrane granice intervala pouzdanosti se konstruišu na isti


način kao i obostrane granice:
( )
X̄ − µ
P √ < zα = 1 − α
σ/ n

Ovaj izraz, na isti način kao prethodno možemo transformisati u:


( )
σ
P µ > X̄ − zα √ =1−α
n

28/51
Jedan uzorak: Estimacija srednje vrijednosti
Jednostrane granice puzdanosti

Na isti način od:


( )
X̄ − µ
P √ > −zα = 1 − α
σ/ n

dobijemo: ( )
σ
P µ < X̄ + zα √ =1−α
n

29/51
Jedan uzorak: Estimacija srednje vrijednosti
Jednostrane granice puzdanosti

Jednostrane granice intervala pouzdanosti µ, za poznatu


varijansu σ

Ako je X̄ srednja vrijednost nasumičnog uzorka veličine n iz


populacije sa varijansom σ 2 , jednostrani 100(1 − α)% granice
pouzdanosti procjene parametra µ su:
σ
gornja jednostrana granica x̄ + zα √
n
σ
gornja jednostrana granica x̄ − zα √
n

30/51
Jedan uzorak: Estimacija srednje vrijednosti
Jednostrane granice puzdanosti

Primjer U psihološkom ispitivanju 25 učesnika je izabrano


nasumično i mjeri se vrijeme njihove reakcije na određenu
stimulaciju. Iz prethodnog iskustva je poznata varijansaod 4 sec2 i
da je distribucija reakcije približno normalna. Prosječna reakcija u
uzorku je 6.2 sekundi. Odrediti, sa 95% pouzdanosti gornju
granicu za srednje vrijeme reakcije.

31/51
Jedan uzorak: Estimacija srednje vrijednosti
Jednostrane granice puzdanosti

Primjer U psihološkom ispitivanju 25 učesnika je izabrano


nasumično i mjeri se vrijeme njihove reakcije na određenu
stimulaciju. Iz prethodnog iskustva je poznata varijansaod 4 sec2 i
da je distribucija reakcije približno normalna. Prosječna reakcija u
uzorku je 6.2 sekundi. Odrediti, sa 95% pouzdanosti gornju
granicu za srednje vrijeme reakcije.

Rješenje Gornja granica za 95% pouzdanosti je data sa:



σ 4
x̄ + zα √ = 6.2 + (1.645) = 6.2 + 0.658 = 6.858
n 25

Gornja granica prosječnog vremena reagovanja za 95% pouzdanosti


je 6.858 sekundi.

31/51
Jedan uzorak: Estimacija srednje vrijednosti
Slučaj nepoznate varijanse σ
Veoma često smo u situaciji da moramo procjeniti parametre
populacije za koju nam je varijansa nepoznata.

U generalnom slučaju, ukoliko imamo nasumični uzorak iz


normalne distribucije, tada nasumična varijabla:

X̄ − µ
T = √
S/ n

prati studentsku t-distribuciju sa n − 1 stepeni slobode; gdje je S


standardna devijacija uzorka.

U slučaju kada je σ nepoznato, možemo koristiti statistiku T kako


bi konstruisali interval pouzdanosti za parametar µ. Procedura je
ista, samo se umjesto vrijednosti σ koristi vrijednost S i standardna
normalna distribucija je zamijenjena t-distribucijom.
32/51
t-distribucija
Funkcija raspodjele nasumične varijable T koja prati t-distribuciju
je:
( ) ( v+1 )
Γ v+1 t 2− 2
h(t) = ( v ) √ 2
1+ , −∞ < t < ∞
Γ 2 π(v) v
Pri čemu je v = n − 1 stepeni slobode.

Slika 5: t-distribucija za v = 2, v = 5 i v = ∞
33/51
t-distribucija
Slika 5 prikazuje izgled t-distribucije za različite vrijednosti v.

Izgled ove krive dosta podsjeća na normalnu distribuciju, odnosno


na distribuciju standardne normalne varijable Z.

Ove dvije krive (t-distribucija i normalna distribucija) su iste na


način da su simetrične u odnosu na srednju vrijednost jednaku nuli,
i imaju zvonast oblik.

Međutim, t-distribucija ima veću varijabilnost, budući da T


vrijednosti zavise od fluktuacije dvije vrijednosti X̄ i S 2 , dok Z
zavisi samo od promjena vrijednosti X̄ od uzorka do uzorka.

Također, distribucija varijable T se razlikuje od distribucije


varijable Z i po tome što varijansa varijable T zavisi od veličine
uzorka n i uvijek je veća od 1. Samo u slučaju kada n → ∞ dvije
distribucije postaju iste.
34/51
Jedan uzorak: Estimacija srednje vrijednosti
Slučaj nepoznate varijanse σ
Na sličan način kao u prethodnom slučaju konstruišemo interval
estimacije srednje vrijednosti koristeći standardnu devijaciju uzorka
S umjesto standardne devijacije populacije σ, ali sada koristeći
t-distribuciju (slike 6).

Slika 6: P (−tα/2 < T < tα/2 ) = 1 − α

35/51
Jedan uzorak: Estimacija srednje vrijednosti
Slučaj nepoznate varijanse σ
Na osnovu slike 6 imamo:

P (−tα/2 < T < tα/2 ) = 1 − α

, gdje je tα/2 t-vrijednost sa n − 1 stepeni slobode, iznad koje


pronalazimo površinu jednaku α/2. Zbog simetrije, ista površina
α/2 će biti ispod vrijednosti −tα/2 . Kada zamjenimo vrijednost T
dobijamo:
( )
X̄ − µ
P −tα/2 < √ < tα/2 = 1 − α
S/ n

Kada cijeli izraz pomnožimo sa S/ n i oduzmemo X̄ od svakog
izraza, te pomnožimo cijeli izraz sa −1, imamo:
( )
S S
P X̄ − tα/2 √ < µ < X̄ + tα/2 √ =1−α
n n

36/51
Jedan uzorak: Estimacija srednje vrijednosti
Slučaj nepoznate varijanse σ

Interval pouzdanosti za µ, sa nepoznatom σ


Ako su x̄ i s srednja vrijednost i standardna devijacija nasumičnog
uzorka iz normalne populacije sa nepoznatom varijansom σ 2 ,
interval pouzdanosti 100(1 − α)% za µ je:
s s
x̄ − tα/2 √ < µ < x̄ + tα/2 √
n n

, gdje je tα/2 t-vrijednost sa v = n − 1 stepeni slobode koja sa


desne strane ostavlja površinu od α/2.

37/51
Jedan uzorak: Estimacija srednje vrijednosti
Slučaj nepoznate varijanse σ

U slučaju kada nam je data varijansa populacije, za estimaciju


intervala pouzdanosti srednje vrijednosti smo koristili centralni
granični teorem.

U slučaju kada je varijansa populacije nepoznata, tada koristimo


t-distribuciju da estimiramo interval pouzdanosti srednje
vrijednosti.

Treba imati na umu da t-distribuciju možemo koristiti samo ako


znamo da je uzorak izvučen iz normalne populacije (tj., sve dok je
izgled distribucije približno zvonast).

38/51
Jedan uzorak: Estimacija srednje vrijednosti
Slučaj nepoznate varijanse σ

Jednostrane granice intervala pouzdanosti za estimaciju srednje


vrijednosti populacije µ sa nepoznatom vrijednošću varijanse
populacije σ su:
s s
x̄ + tα √ i x̄ − tα √
n n

Ove vrijednosti su gornja i donja granica za 100(1 − α)


pouzdanost, redom. U ovom slučaju tα predstavlja t-vrijednost
desno od koje je površina ispod krive jednaka α.

39/51
Jedan uzorak: Estimacija srednje vrijednosti
Slučaj nepoznate varijanse σ
Primjer U sedam kontejnera sa kiselinom imamo po 9.8, 10.2,
10.4, 9.8, 10.0, 10.2, 9.6 litara kiseline. Odrediti interval sa 95%
pouzdanosti za prosječan sadržaj u kontejnerima ako
pretpostavimo približno normalnu distribuciju.

40/51
Jedan uzorak: Estimacija srednje vrijednosti
Slučaj nepoznate varijanse σ
Primjer U sedam kontejnera sa kiselinom imamo po 9.8, 10.2,
10.4, 9.8, 10.0, 10.2, 9.6 litara kiseline. Odrediti interval sa 95%
pouzdanosti za prosječan sadržaj u kontejnerima ako
pretpostavimo približno normalnu distribuciju.

Rješenje Srednja vrijednost i standardna devijacija uzorka su:

x̂ = 10.0 s = 0.283

Koristeći tablicu A.4 iz knjige sme odredili da je t0.025 = 2.447 za


v = 6 stepeni slobode. Pa je interval pouzdanosti 95%:
( ) ( )
0.283 0.283
10.0 − (2.447) √ < µ < 10.0 + (2.447) √
7 7
ili u kraćem obliku:
9.74 < µ < 10.26
40/51
Jedan uzorak: Estimacija srednje vrijednosti
Koncept velikih uzoraka

Statističari često preporučuju da čak i kada normalna distribucija


ne može biti pretpostavljena za neki uzorak, kada je σ nepoznata, i
n ≥ 30, s može zamjeniti σ i interval pouzdanosti:
s
x̄ ± zα/2 √
n

se može koristiti.

Ova pretpostavka se često naziva intervalom pouzdanosti velikog


uzorka.

Ovo je naravno aproksimacija, a kvalitet rezultata će postajati bolji


kako uzorak bude rastao.

41/51
Jedan uzorak: Estimacija srednje vrijednosti
Koncept velikih uzoraka

Primjer Broj bodova na testovima iz mature su prikupljeni za


500 učenika sa aritmetičkom sredinom 501 i standardnom
devijacijom od 112. Naći 99% interval pouzdanosti za prosječni
broj bodova na testu.

42/51
Jedan uzorak: Estimacija srednje vrijednosti
Koncept velikih uzoraka

Primjer Broj bodova na testovima iz mature su prikupljeni za


500 učenika sa aritmetičkom sredinom 501 i standardnom
devijacijom od 112. Naći 99% interval pouzdanosti za prosječni
broj bodova na testu.

Rješenje budući da je uzorak dovoljne veličine, razumno je


koristiti normalnu aproksimaciju. Koristeći tabelicu A.3 iz knjige,
znamo da je z0.005 = 2.575, pa je 99% interval pouzdanosti za µ:
( )
112
501 ± √ = 501 ± 12.9
500
odakle dobijamo 488.1 < µ < 513.9.

42/51
Standardna greška estimacije

Mjera kvalitete nepristrasnog point estimatora je njegova varijansa,


a varijansa estimatora X̄ je:

2 σ2
σX̄ =
n
Što značemo pisati i na sljedeći način:
σ
x̄ ± zα/2 √ pišemo x̄ ± zα/2 s.e.(x̄)
n

gdje je s.e. standard error.

Važno je primjetiti da širina intervala pouzdanosti parametra µ


zavisi od kvalitete estimatora što se očituje kroz standardnu grešku
estimatora.

43/51
Standardna greška estimacije

U slučaju kada je σ nepoznato i uzorkujemo iz normalne



distribucije, s mijenja σ i estimirana standardna greška je s/ n,
pa su grance intervala pouzdanosti:
s
x̄ ± tα/2 √ = x̄ ± tα/2 s.e.(x̄)
n

44/51
Interval predikcije
U određenim slučajevima nas neće interesovati da estimiramo
srednju vrijednost populacije nego moguću vrijednost neke
buduće opservacije.

Pretpostavimo da nasumični uzorak dolazi iz normalne


populacije sa nepoznatom srednjom vrijedno[̌sću µ i poznatom
varijansom σ 2 . Prirodni estimator nove opservacije bi bio X̄ sa
varijansom σ 2 /n.

Međutim da bismo predvidjeli novu opservaciju, neophodno, ne


samo da uzmemo u obzir varijansu prilikom estimacije srednje
vrijednosti, nego i varijaciju buduće opservacije.

na osnovu pretpostavke, znamo da je varijansa nasumične greške


nove opservacije jednaka σ 2 .

45/51
Interval predikcije
Interval predikcije ćemo razviti počevši od normalne nasumične
varijable x0 − x̄, gdje je x0 nova opservacija, a x̄ dolazi iz uzorka.
Budući da su x0 i x̄ nezavisne, znamo da je:
x0 − x̄ x0 − x̄
z=√ = √
σ − σ /n
2 2 σ 1 + 1/n
normalna standardna varijabla n(z; 0, 1). Kao rezultat ako
koristimo izraz vjerovatnoće:

P (−zα/2 < Z < zα/2 ) = 1 − α

sa z-statistikom koju smo prethodno definisali, i postavljajući x0 u


centar vjerovatnoće, imamo sljedeći događaj koji se pojavljuje sa
vjerovatnoćom 1 − α:
√ √
x̄ − zα/2 σ 1 + 1/n < x0 < x̄ + zα/2 σ 1 + 1/n

.
46/51
Interval predikcije

Interval predikcije za buduću opservaciju, σ 2 poznato Za


normalnu distribuciju instanci sa srednjom vrijednošću µ koja je
nepoznata i ponzatmo varijansom σ 2 , interval predikcije
100(1 − α)% buduće opservacije x0 je:
√ √
x̄ − zα/2 σ 1 + 1/n < x0 < x̄ + zα/2 σ 1 + 1/n

pri čemu je zα/2 z-vrijednost koja sa desne strane ostavlja površinu


veličine α/2 sa desne strane.

47/51
Interval predikcije

Primjer Zahvaljujući nižim kamatama, banka dobiva puno novih


zahtjeva za kredite. Analiziranjem uzorka od 50 zahtjeva prosječna
visina kredita je $257300. Ako je pretpostavljena standardna
devijacija populacije $25000, za sljedećeg kupca koji će popuniti
aplikaciju za kredit, odrediti 95% interval predikcije za traženu
sumu kredita.

48/51
Interval predikcije

Primjer Zahvaljujući nižim kamatama, banka dobiva puno novih


zahtjeva za kredite. Analiziranjem uzorka od 50 zahtjeva prosječna
visina kredita je $257300. Ako je pretpostavljena standardna
devijacija populacije $25000, za sljedećeg kupca koji će popuniti
aplikaciju za kredit, odrediti 95% interval predikcije za traženu
sumu kredita.

Rješenje Znamo sljedeće vrijednosti x̄ = 257300, σ = 25000,


n = 50, α = 0.05, z0.025 = 1.96, pa dobijamo:
√ √
257300−(1.96)(25000) 1 + 1/50 < x0 < 257300+(1.96)(25000) 1 + 1

Što nam daje interval od ($207, 812.43, $306, 787.57).

48/51
Interval predikcije

Ukoliko je varijansa populacije iz koje uzorkujemo nepoznata,i


uzorak mali, tada kao i pri estimaciji srednje vrijednosti populacije,
koristimo t-distribuciju.

Za mjerenja normalne distribucije sa nepoznatom srednjom


vrijednošću µ i nepoznatom varijansom σ 2 , interval predikcije
100(1 − α)% buduće opservacije x0 je:
√ √
x̄ − tα/2 s 1 + 1/n < x0 < x̄ + tα/2 s 1 + 1/n

pri čemu je tα/2 t-vrijednost sa v = n − 1 stepeni slobode, koja sa


desne strane, ispod krive distribucije ostavlja površinu veličine α/2.

49/51
Interval predikcije

Za interval predikcije možemo izvesti i jednostrane granice, pri


čemu je gornja granica:

x̄ + tα s 1 + 1/n

i donja granica: √
x̄ − tα s 1 + 1/n

50/51
Interval predikcije

Veterinarski inspektor je ispitivao masnoću u 95% nemasnoj


govedini. Uzorak od 30 paketa je pokazao prosječnu količinu krtine
od 96.2% sa standardnom devijacijom od 0.8%. Naći 99% interval
predikcije za sljedeće pakovanje.

51/51
Interval predikcije

Veterinarski inspektor je ispitivao masnoću u 95% nemasnoj


govedini. Uzorak od 30 paketa je pokazao prosječnu količinu krtine
od 96.2% sa standardnom devijacijom od 0.8%. Naći 99% interval
predikcije za sljedeće pakovanje.

Rješenje Za v = 29 stepeni slobode, t0.005 = 2.756, pa je 99%


interval predikcije za novu opservaciju x0 :
√ √
1 1
96.2 − (2.756)(0.8) 1 + < µ < 96.2 + (2.756)(0.8) 1 +
30 30
što odgovara intervalu (93.96, 98.44).

51/51

You might also like