You are on page 1of 21

By: Ivana Lijovi

Iz prirunika sa Ekonomskog fakulteta u Puli


Statistika je znanstvena disciplina koja prouava metode prikupljanja, sreivanja, analize i tumaenja
podataka.

Populacija ili statistiki skup je skup osoba, stvari, pojava ili drugih objekata, ije osobine istraujemo
statistikom metodom. lanovi populacije zovu se statistike jedinice, a njihov broj zove se veliina
populacije.
Populacija ima pojmovno, prostorno i vremensko odreenje.
Pojmovno odreenje opisuje kategoriju objekata koji ine populaciju, tj. koje smatramo statistikim
jedinicama.
Prostorno odreenje kazuje mjesto ili instituciju kojoj pripadaju statistike jedinice.
Vremensko odreenje opisuje vremensko razdoblje ili trenutak u vremenu u kojemu se statistike jedinice
promatraju.
Pojmovno, prostorno i vremensko odreenje redom odgovaraju na pitanja to, gdje i kada se promatra.

Promatranje itave populacije zove se cenzus.


Zbog veliine populacije, njezine nedostupnosti ili visokih trokova prikupljanja podataka, cenzus je cesto teko
ili cak nemogue provesti.

Dio ili podskup populacije zove se uzorak, postupak formiranja uzorka zove se uzorkovanje, a broj jedinica u
uzorku zove se veliina uzorka.

Uzorak koristimo da bismo saznali neto o populaciji, pa se uzorak mora paljivo odabrati, kako bi valjano
predstavljao populaciju.

Ako se uzorak bira nekim sluajnim mehanizmom (npr. sluajnim izvlaenjem listia iz kutije) onda kaemo da
imamo sluajni uzorak. Sluajnost uzorka je garancija da se uzorak nee sistematino razlikovati od
populacije.

Bez obzira kako je uzorak odabran, sluajno ili nesluajno, u poopavanju osobina uzorka na itavu populaciju
nuno inimo pogreku, koja se zove pogreka uzorkovanja.
to je uzorak vei, to se on manje razlikuje od populacije, pa je i pogreka uzorkovanja manja.

Numerika osobina populacije zove parametar, a numerika osobina uzorka zove se statistika.
U sluaju kada su parametri nepoznati, statistike koristimo za procjenjivanje parametara i za testiranje hipoteza
o parametrima.

Podjela statistike:
Deskriptivna statistika - obuhvaa postupke sreivanja, tablinog i grafikog prikazivanja podataka, te
izraunavanja raznih statistikih pokazatelja, kao sto je npr. aritmetika sredina. Dobiveni rezultati
odnose se iskljuivo na dane podatke i ne uopavaju se.
Inferencijalna statistika - prouava metode kojima se pomou dijela informacija (uzorka), donosi
zakljuak o cjelini (populaciji). Procjenjivanje parametara i testiranje hipoteza su tipini postupci
koji spadaju u inferencijalnu statistiku. Za inferencijalnu statistiku koriste se jo nazivi induktivna
statistika, statistiko zakljuivanje ili metoda uzoraka.

Ako se u istraivanju koristimo cenzusom, onda zadnji korak u istraivanju je primjena metoda deskriptivne
statistike.
Obino raspolaemo uzorkom, a htjeli bismo neto saznati o populaciji, pri emu se koristimo inferencijalnom
statistikom.
Vano je napomenuti da se postupci inferencijalne statistike zasnivaju na pretpostavci da je uzorak sluajan.
Ako imamo nesluajan uzorak, metode inferencijalne statistike se ne mogu primijeniti.

Svojstvo koje posjeduju sve statistike jedinice i koje za razliite statistike jedinice moe poprimiti razliite
vrijednosti ili modalitete zove se statistika varijabla ili statistiko obiljeje.

Svojstvo koje za sve statistike jedinice ima istu vrijednost, nije varijabla, nego je konstanta.
Vrijednosti statistikih varijabli utvruju se mjerenjem, a mjerenje se vri prema odreenoj mjernoj skali.

Mjerenje nekog svojstva je postupak kojim statistikim jedinicama dodjeljujemo brojeve ili druge simbole, tako
da odnosi meu brojevima ili simbolima odgovaraju odnosima medu statistikim jedinicama s obzirom na
svojstvo koje se mjeri.

2
Pravilo prema kojemu provodimo mjerenje zove se mjerna skala.
Mjerenje i mjerne skale, te njihov utjecaj na analizu podataka prouava grana primijenjene matematike koja se
zove teorija mjerenja.

Statistika povezuje podatke i zakljuke, a teorija mjerenja povezuje podatke i stvarnost.


Poznavanje mjernih skala uvjet je za ispravni izbor statistikih metoda za analizu promatrane pojave.
Najvanije mjerne skale (nominalna, ordinalna, intervalna, omjerna i apsolutna) tvore hijerarhiju, u
kojoj svaka sljedea skala ukljuuje osobine prethodne.

Varijable kojima vrijednost dodjeljujemo na nominalnoj ili ordinalnoj mjernoj skali zovu se kvalitativne ili
kategorike, a varijable kojima vrijednost dodjeljujemo na ostalim mjernim skalama zovu se kvantitativne ili
numerike.

Nominalna mjerna skala


Vrijednost na nominalnoj mjernoj skali moe biti broj ili bilo koji drugi simbol ili rije.
Vrijednost na nominalnoj skali predstavlja samo identifikator, naziv ili kategoriju.
Varijabla kojoj vrijednost dodjeljujemo prema nominalnoj mjernoj skali zove se nominalna varijabla.
Primjeri nominalnih varijabli: ime, prezime, mjesto roenja (osobe), broj indeksa, odjel (studenta), model,
boja (automobila), broj dresa (igraa sportske ekipe) itd.
Za vrijednosti nominalne varijable moemo samo utvrditi da li su jednake ili razliite, npr. mogue je utvrditi da li
dvije osobe imaju jednako ili razliito ime.
Odnosi koji moda vrijede za vrijednosti na nominalnoj mjernoj skali ne prenose se prirodno na statistike
jedinice, npr. injenica da jedan igra ima manji broj dresa od drugog igraa ne govori nita o odnosu ili ulozi tih
igraa.

Ordinalna mjerna skala


Vrijednost na ordinalnoj mjernoj skali moe biti broj ili neki drugi simbol ili rije.
Vrijednost na ordinalnoj skali izraava redoslijed ili intenzitet.
Varijabla kojoj vrijednost dodjeljujemo prema ordinalnoj mjernoj skali zove se ordinalna varijabla.
Koriste se jo nazivi redoslijedna ili rang varijabla.
Primjeri ordinalnih varijabli: ocjena (studenta na ispitu), in (u vojsci ili policiji), ekonomska razvijenost
(zemlje ili regije).
Vrijednosti ordinalne varijable mogu se poredati po veliini ili intenzitetu.
Premda raunske operacije s vrijednostima ordinalne varijable nisu mogue, one se ponekad ipak izvode, pa
tako raunamo npr. prosjenu ocjenu poloenih ispita.

Intervalna mjerna skala


Pomou intervalne mjerne skale, statistikim jedinicama se dodjeljuju brojevi tako da razlike meu brojevima
odgovaraju razlikama u mjerenom svojstvu.
Primjeri intervalnih varijabli: temperatura u stupnjevima Celsiusa ili Fahrenheita, kalendarska godina.
Poloaj nule i mjerna jedinica na intervalnoj skali odreeni su dogovorno.
tovie, vrijednost nula ne oznaava nepostojanje promatranog svojstva.
Intervalnoj mjernoj skali pripadaju i tzv. dihotomne ili binarne varijable. To su varijable koje mogu poprimiti
samo dvije razliite vrijednosti, kao npr. spol (muko/ensko), pua/nepua, punoljetan/maloljetan,
oenjen/neoenjen itd.
Vrijednosti dihotomnih varijabli obino oznaavamo s 0 i 1.
Zapravo, ako dihotomna varijabla oznaava prisutnost ili odsutnost nekog svojstva, onda moemo smatrati da ta
varijabla pripada omjernoj ili cak apsolutnoj mjernoj skali.
Slina intervalnoj je log-intervalna mjerna skala koja ima svojstvo da razlikama meu brojevima odgovaraju
omjeri u mjerenom svojstvu.
Primjeri: Richterova skala za snagu potresa, pH vrijednost, magnituda (sjaj) nebeskih tijela.

Omjerna mjerna skala


Kod omjerne mjerne skale, statistikim jedinicama se dodjeljuju brojevi tako da razlike i omjeri brojeva
odgovaraju razlikama i omjerima mjerenog svojstva.
Nula na omjernoj skali znai nepostojanje svojstva, ali se mjerna jedinica moe proizvoljno birati.
Primjeri omjernih varijabli: duljina, visina, teina, tlak (zraka), trajanje (nekog dogaaja) itd.

Apsolutna mjerna skala


Jedinicama su dodijeljeni brojevi tako da se sva svojstva brojeva prenose na mjerenu osobinu.
Primjeri: proporcija, razne varijable ija se vrijednost dobije brojanjem (broj djece u obitelji, broj zaposlenih u
poduzeu).
Kod apsolutne mjerne skale nije dozvoljena ni promjena mjerne jedinice.

Podjela numerikih statistikih varijabli:


Diskretne ili prekidne - Vrijednost diskretne ili prekidne varijable obino dobijemo brojanjem.

3
Primjeri diskretnih varijabli: broj zaposlenih, broj lanova obitelji, broj studenata na nastavi, broj zastoja u radu
stroja.
Diskretne varijable imaju osobinu da im se vrijednost iskazuje odreenom najmanjom i nedjeljivom mjernom
jedinicom.
Skup vrijednosti te varijable sastoji se od nenegativnih cijelih brojeva, tj. od brojeva 0; 1; 2; 3; ..
S druge strane, neprekidna ili kontinuirana varijabla moe poprimiti bilo koju vrijednost unutar nekog
neprekidnog intervala brojeva.
Kontinuirane ili neprekidne - Vrijednost neprekidne varijable dobije se mjerenjem nekim mjernim
instrumentom (npr. metar,
vaga, sat, tlakomjer, termometar itd.), i moe se iskazati u po volji malenoj mjernoj jedinici (npr. km, m, cm,
mm, m itd.).
Primjeri neprekidnih varijabli: duljina, visina, teina, tlak, koliina padalina, temperatura.

Premda u teoriji postoji jasna razlika izmeu diskretnih i neprekidnih varijabli, u praksi se obino radi o
aproksimaciji.
Svaki mjerni instrument ima ogranienu preciznost (npr. najmanja mjerna jedinica koja je oznaena na metru
kojim mjerimo visinu osobe je milimetar) tako da, premda je promatrana varijabla (visina osobe) neprekidna,
izmjerene vrijednosti nee nikada initi kontinuum, odnosno bit ce diskretne. Slino tome, ponekad je praktinije
da se prema diskretnoj varijabli ponaamo kao da je neprekidna.

Statistiki podaci mogu se prikupiti direktnim opaanjem. Poseban oblik direktnog opaanja je statistiki
eksperiment.
Ako direktno opaanje nije mogue, podatke moemo od ispitanika prikupiti pomou ankete.
Anketa se sastoji od pitanja na koja ispitanici odgovaraju, te se kao takva koristi za prikupljanje injenica ili
ispitivanje miljenja i stavova. Anketa se moe provesti kao strukturirani intervju.

Statistiki podaci i rezultati statistike analize mogu se prikazati u tri oblika (tekstovno, tablino i grafiki).
Tekst se koristi kada treba prikazati svega nekoliko vrijednosti.
Tablice i grafikoni prikazuju podatke koje bi bilo teko ili nemogue opisati rijeima. Tablice se koriste kada
treba precizno prikazati vei skup podataka, ali tablice nisu prikladne za uoavanje pravilnosti, veza ili
usporeivanje. Za takve potrebe koriste se grafiki prikazi.

Svaka tablica i grafikon moraju imati primjeren, informativan opis.


Opis se obino stavlja iznad tablice i ispod grafikona zato sto se tablice itaju odozgo prema dolje, a grafiki
prikazi obrnutim putem. Stupci i redovi u tablici, te koordinatne osi na grafikonima moraju imati jasan naslov, s
naznaenim mjernim jedinicama.
Ako koordinatna os prikazuje kategoriku varijablu, onda vrijednosti (kategorije) varijable trebaju biti upisane
ispod ili pored osi, dok ako os prikazuje numeriku varijablu onda na njoj treba biti odgovarajue numeriko
mjerilo.
U tekstu treba rezimirati kljucne injenice koje su prikazane tablicom ili grafikonom.
Ako se takvo rezimiranje ini nepotrebnim, onda se moe dovesti u pitanje i potreba da se tablica ili grafikon
uope nalaze u radu. Kako bi se u tekstu mogli lako pozvati na tablicu ili grafikon, potrebno je da isti budu
oznaeni jedinstvenim brojem.
Svi opisi koji se tiu tablice ili grafikog prikaza trebaju biti sto je mogue jednostavniji, ali istovremeno
potpuni, jasni i informativni.
Ako tablica prikazuje originalne podatke onda je potrebno navesti to se mjerilo, gdje su podaci prikupljeni i
kada, dok ako su podaci odnekud preuzeti, npr. iz neke publikacije ili drugog rada, onda treba navesti izvor.

Statistiki podaci ne sastoje se od meusobno jednakih vrijednosti, nego od vrijednosti koje su razliite, te
koje imaju odreeni raspored, raspodjelu ili distribuciju.
Glavne osobine te distribucije jesu:
(a) lokacija ili centralna tendencija,
(b) disperzija ili rasprenje,
(c) oblik, gdje spadaju asimetrija i zaobljenost.

U ispitivanju osobina distribucije koristimo se grafikim prikazima, kao i numerikim pokazateljima, koji se
zovu mjere. Tako govorimo o mjerama lokacije, mjerama disperzije i mjerama oblika. Mjere lokacije zovu
se jo srednje ili prosjene vrijednosti.

Aritmetika sredina je najvanija i najpopularnija mjera lokacije i kratko je zovemo sredina ili prosjek. Moe
koristiti samo za numerike podatke, tj. za podatke koji su barem na intervalnoj skali.

4
Dva vana svojstva aritmetike sredine:
1. Govori o tome koliko aritmetika sredina moe biti velika ili malena.
2. govori da je aritmetika sredina teite ili toka ravnotee podataka.

Aritmetika sredina ne govori nita o disperziji.


Aritmetika sredina se ne moe upotrijebiti s kategorikim podacima.

Pored aritmetike, postoje jo dvije sredine" koje se mogu primijeniti na numerike podatke - geometrijska i
harmonijska sredina.

Harmonijska sredina vrijednosti Xi definira se kao omjer broja vrijednosti i zbroja njihovih recipronih
vrijednosti.

Aritmetika, geometrijska i harmonijska sredina jednake su samo ako su svi podaci meusobno jednaki.
U protivnom, geometrijska sredina je manja od aritmetike, a harmonijska sredina je manja od geometrijske.

Disperzija podataka moe se mjeriti udaljenou podataka od aritmetike sredine. Udaljenost dva broja
obino se definira kao apsolutna vrijednost njihove razlike.

Apsolutne devijacije mogu se koristiti za mjerenje disperzije.


Jedina namjena apsolutne vrijednosti je uklanjanje predznaka devijacije, koji je za udaljenost i disperziju
nevaan.

Varijanca je prosjeno kvadratno odstupanje vrijednosti numerikog obiljeja od aritmetike sredine, to je


aritmetika sredina kvadrata razlike.
Varijanca nema istu mjernu jedinicu kao podaci, ve je mjerna jedinica varijance jednaka kvadratnoj mjernoj
jedinici podataka.
Varijanca ce biti jednaka nuli samo u sluaju kada sve devijacije iznose nula, odnosno kada su sve podatkovne
vrijednosti meusobno jednake. Tada uope nema disperzije. U svakom drugom sluaju, tj. kadgod se medu
podacima nalaze barem dvije razliite vrijednosti, varijanca ce biti pozitivna. Po konstrukciji, to je disperzija
vea, to e i vrijednost varijance, odnosno standardne devijacije biti vea.

Devijacija je odstupanje izmeu pojedinog lana niza i srednje vrijednosti.


Standardna devijacija mjeri disperziju podataka oko aritmetike sredine.

Disperzija je niz devijacija.

Koeficijent varijacije je relativna mjera disperzije, koja nema mjernu jedinicu, jer se kod dijeljenja aritmetike
sredine sa standardnom devijacijom mjerne jedinice krate.
Koeficijent varijacije je relativan broj koji pokazuje udio standardne devijacije u aritmetikoj sredini.

Teorem ebieva tvrdi da za svaki pozitivan broj k, proporcija podataka udaljenih od aritmetike sredine manje
od k standardnih
devijacija iznosi barem 1 1/k2
Teorem ebieva zapravo koristan samo za udaljenosti vee od jedne standardne devijacije.
Linearna transformacija koristi se kada podacima elimo promijeniti mjernu jedinicu.
Linearna transformacija se moe s jednakom namjenom koristiti i za grupirane podatke.

Standardizacija je postupak u kojemu se razlika vrijednosti varijable od njene aritmetike sredine dijeli sa
standardnom devijacijom. Drugim rijeima, standardizacijom se devijacije iskazuju u jedinicama standardne
devijacije.
Nastala varijabla zove se standardizirana varijabla, a njene vrijednosti zovu se standardizirane ili z
vrijednosti.
Standardizirane vrijednosti nemaju mjernu jedinicu, jer se dijeljenjem devijacije i standardne devijacije, koje
imaju istu mjernu jedinicu (npr. metar u sluaju puta koenja), mjerne jedinice krate.

Mod je vrijednost koja se javlja najvei broj puta.

Medijan je vrijednost koja se nalazi u sreditu niza podataka poredanih po veliini, to je oblik ili vrijednost
statistike varijable koja ureeni niz podataka dijeli na dva jednako brojna dijela.

5
Kod medijana se podaci moraju prethodno urediti i to od najmanjeg prema najveem.

Kvantili su vrijednosti numerike varijable koji niz ureen po veliini dijele na q jednakih dijelova.
Kvantili koji dijele statistiki niz na 4 jednaka dijela nazivaju se kvartilima.
Postoje tri kvartila: prvi ili donji, drugi ili medijan i trei ili gornji.

Kvintili = 0.2, 0.4, 0.6, 0.8


Decili = 0.1, 0.2, 0.3, ..., 0.9
Percentili = 0.01, 0.02, ..., 0.99

Kvantil razine p ili p-kvantil podataka Xi je vrijednost Xp takva da:


(1) proporcija podataka koji su manji ili jednaki od Xp iznosi barem p
(2) proporcija podataka koji su veci ili jednaki od Xp iznosi barem 1 p.

Raspon nekog skupa podataka je razlika izmeu najvee i najmanje vrijednosti u tom skupu podataka.
Kao takav, raspon se ubraja u mjere disperzije.

Interkvartil je razlika izmeu gornjeg i donjeg kvartila. Zovemo ga jo i interkvartilni raspon.

Dijagram stabljika moe se koristiti za prikaz umjereno velikih skupova numerikih podataka (od 15 do 150)
vrijednosti.
Zove se i dijagram stablo-list, tj. SL dijagram.
Konstrukciji dijagrama stabljika ponekad prethodi zaokruivanje podataka na odreen broj znamenki.
Posljednja znaajna znamenka u nekoj podatkovnoj vrijednosti ini list, a sve ostale znamenke, ukljuujui
predznak, ako je potrebno, ine stabljiku.

Dijagram pravokutnika koristi se za vee skupove numerikih podataka, isto kao i histogram.
Za izradu dijagram pravokutnika potrebni su: medijan, kvartili, interkvartil, ograda i granine vrijednosti.

Dijagram toaka koristi se za prikaz relativno malih skupova numerikih podataka (do 30 vrijednosti).

Simetrina distribucija - kada su podaci simetrini na medijan.


Asimetrina distribucija - razlikuje se po:
smjeru - ako su podaci razvueni na desnu stranu, kae se da je distribucija desnostrano ili pozitivno
asimetrina, dok ako su podaci razvueni na lijevu stranu, kaemo da je distribucija ljevostrano ili
negativno asimetrina.
jakosti - kod simetrino rasporeenih podataka, donji i gornji kvartil su jednako udaljeni od medijana, dok
je kod pozitivne asimetrije gornji, a kod negativne asimetrije donji kvartil udaljeniji od medijana.

Simetrija i asimetrija utjeu na meusoban poloaj aritmetike sredine i medijana. Kod simetrine
distribucije, aritmetika sredina i medijan bit ce (priblino) jednaki.
Kod pozitivno asimetrine distribucije, aritmetika sredina bit ce vea od medijana, dok je kod negativno
asimetrine distribucije aritmetika sredina manja od medijana.

Distribucija frekvencija je popis grupa i njihovih frekvencija koji se obino daje u tablinom obliku, ali se
mogu i u grafikom.
Distribucije frekvencija nastaju grupiranjem podataka.

Grupiranje je postupak saimanja podataka, u kojemu se podaci svrstavaju u skupine ili grupe.
Pritom, svaku podatkovnu vrijednost treba svrstati u tono jednu grupu.
Broj, odnosno proporciju podataka u nekoj grupi nazivamo njezinom apsolutnom, odnosno relativnom
frekvencijom.
Ako elimo naglasiti o kojim je frekvencijama rije, onda koristimo naziv distribucija apsolutnih, odnosno
distribucija relativnih frekvencija. Osim tablino, distribucije frekvencija prikazuju se i grafiki.

Apsolutne frekvencije nastaju brojanjem podatkovnih vrijednosti, pa su ni nenegativni cijeli brojevi.


Ako broj podataka nije poznat ne mogu se odrediti apsolutne frekvencije.

Relativna frekvencija je po definiciji jednaka omjeru apsolutne frekvencije i broja podataka.


Relativne frekvencije su nenegativni racionalni brojevi, iji zbroj iznosi jedan.

6
esto se relativne frekvencije iskazuju u obliku postotka.

Podaci u obliku distribucije frekvencija zovu se jo grupirani podaci, a za podatke iz kojih je distribucija
frekvencija nastala kaemo da su negrupirani.

Kategoriki podaci se obino grupiraju tako da se grupe sastoje od meusobno jednakih podatkovnih
vrijednosti.
Ako se pritom pojavi vei broj grupa niske frekvencije, onda takve grupe moemo spojiti u jednu grupu.
Ako raspolaemo ordinalnim podacima, onda u prikazu distribucije frekvencija treba vrijednosti varijable
poredati po njihovom intenzitetu, od manjih prema veima ili obrnuto.
Ako imamo nominalne podatke, onda vrijednosti varijable moemo poredati na razne naine, npr. abecednim
redom ili po frekvencijama.

Dijagram stupaca moe se koristiti za prikaz apsolutnih (sl. 4.1a) i relativnih frekvencija (sl. 4.1b), a s obzirom
da su apsolutne i relativne frekvencije meusobno proporcionalne, izgled stupaca ne zavisi o vrsti prikazanih
frekvencija.
Slinu osobinu imaju i drugi grafiki prikazi distribucije frekvencija, poput linijskog grafikona, histograma i
poligona frekvencija.

Strukturni krug se sastoji od krunih isjeaka iji je kut proporcionalan frekvenciji i koristi se obino za prikaz
relativnih frekvencija.

Diskretni numeriki podaci grupiraju se gotovo jednako kategorikim podacima, tj. grupe se sastoje od
meusobno jednakih
vrijednosti.
Postupak prilagoavamo injenici da radimo s numerikim podacima, pa tako razliite vrijednosti numerike
varijable uvijek navodimo njihovim prirodnim redom, od manjih prema veima, bez preskakanja onih koje
se u podacima moda ne javljaju.
Ako se diskretni numeriki podaci sastoje od velikog broja razliitih vrijednosti, koje se vrlo malo ponavljaju
ili se uope ne ponavljaju, poput podataka o placi, onda se grupiranje provodi kao da je rije o neprekidnoj
varijabli, tj. koristei razrede.

Kumulativna apsolutna, odnosno kumulativna relativna frekvencija vrijednosti xi denira se kao zbroj
prvih i apsolutnih, odnosno relativnih frekvencija.
Kumulativne apsolutne frekvencije moemo raunati rekurzivno.
Posljednja kumulativna frekvencija jednaka je zbroju svih frekvencija.

Diskretne distribucije uobiajeno grafiki prikazujemo linijskim grafikonom ili poligonom frekvencija koji
se mogu koristiti za prikaz apsolutnih i relativnih frekvencija. Oba grafikona sadre dvije brojevne osi, pri emu
horizontalna os prikazuje vrijednost numerike varijable, a vertikalna os frekvenciju.

Linijski grafikon sastoji se od vertikalnih linija koje se protezu od toke (xi; 0) do toke (xi; ni) u slucaju
apsolutnih, odnosno (xi; pi) u sluaju relativnih frekvencija. Do poligona frekvencija dolazimo tako da toke ( xi;
ni), odnosno (xi; pi) spojimo ravnim crtama.

Distribucija frekvencija diskretne numerike varijable je saeti zapis podataka, koji se od polaznog niza
negrupiranih podataka razlikuje samo u poretku i koji se moe koristiti za brze i jednostavnije izraunavanje
mjera lokacije i disperzije.

Za razliku od negrupiranih podataka, varijancu grupiranih podataka moemo relativno jednostavno


izraunati i koristei devijacije.

Kod neprekidnih numerikih podataka gotovo da nema ponavljanja vrijednosti, pa se ti podaci ne mogu
grupirati kao to smo inili dosad, nego se neprekidni numeriki podaci grupiraju u razrede.

Grupiranje u razrede provodi se tako da se brojevni interval koji sadri podatkovne vrijednosti izree" na
odreen broj podintervala, koje zovemo razredima, a grupe se pritom sastoje od podatkovnih vrijednosti koje
pripadaju istom razredu.
Broj razreda k treba prikladno odabrati. Pritom, vrstih pravila nema, osim da k ne smije biti prevelik, jer je
grupiranje postupak saimanja podataka, niti premalen, jer bi se tako izgubili vani detalji. Obino uzimamo k
izmeu 5 i 15, tj. 5 k 15.

Osnovno pravilo grupiranja je da se svaki podatak treba svrstati u tono jednu grupu.

Kod distribucije s razredima, kumulativna apsolutna frekvencija Ni kazuje broj, a kumulativna relativna
frekvencija Pi proporciju podataka manjih ili jednakih gornjoj granici i-tog razreda bi.

7
Da bismo distribuciju s razredima ipak mogli koristiti za odreivanje mjera lokacije i disperzije, podatkovne
vrijednosti koje pripadaju istom razredu nadomjestit emo razrednom sredinom, tj. aritmetikom sredinom
granica razreda.

Veliina razreda definira se kao udaljenost izmeu granica razreda.

Frekvencija razreda zavisi o njegovoj veliini, pa je zato korisno frekvenciju staviti u odnos s veliinom
razreda, ime dolazimo do gustoe frekvencije.

Histogram nastaje tako da se nad svakim razredom podigne pravokutnik ija je povrina jednaka frekvenciji
razreda.
Iz toga neposredno slijedi da je visina pravokutnika jednaka gustoi frekvencije, te da povrina cijelog
histograma, tj. svih njegovih pravokutnika zajedno, iznosi n ili 1, ovisno o tome prikazuje li histogram distribuciju
apsolutnih ili relativnih frekvencija.

Poligon frekvencija distribucije neprekidne numerike varijable dobije se tako da se polovita gornjih stranica
pravokutnika histograma spoje ravnim crtama.

Povrina svakog pravokutnika histograma jednaka frekvenciji odgovarajueg razreda.

Medijan se definira kao vrijednost s ije se lijeve i desne strane nalazi polovica podatkovnih vrijednosti, to
znai da ce medijan biti vrijednost koja povrinu histograma dijeli na pola.

Razredi ne moraju uvijek biti jednake veliine, pa se koriste razredi razliitih veliina (onda se manji razredi
koriste u podruju gdje su podaci gusti, a vei razredi tamo gdje su podaci rijetki).

Kod distribucije s razredima, medijalni razred je onaj gdje je frekvencija najvea.

Vrijednosti koje imaju veliku teinu jace utjeu na iznos vagane aritmetike sredine od vrijednosti koje imaju
malu teinu, pa se vagana aritmetika sredina koristi za prosjek vrijednosti koje imaju razliitu
vanost. Ona se koristi kada broj podataka nije poznat, tj kada ne moemo odrediti apsolutne frekvencije.

Dva vana svojstva vagane aritmetike sredine.


1. ako su teine meusobno jednake i iznose 1, vagana aritmetika sredina prelazi u nevaganu.
2. ako se teine zamijene njima proporcionalnim teinama, onda se vrijednost vagane aritmetike sredine ne
mijenja.

Sredina distribucije rauna se kao vagana sredina vrijednosti xi i apsolutnih frekvencija ni.

Prave ili precizne granice - kada, u distribuciji s razredima, susjedni razredi imaju zajedniku granicu (to se
postie smanjivanjem donjih i poveanjem gornjih nominalnih granica razreda, ali ponekad je dovoljno i samo
jedno od toga.
Nominalne granice - ako susjedni razredi nemaju zajedniku granicu.
Otvoren razred - ako razredu nedostaje jedna od granica.

Prije obrade distribucije s razredima, potrebno je priblino procijeniti granice otvorenih razreda.

Univarijatni podaci - podaci koji se odnose samo na jednu statistiku varijablu.

Bivarijatni podaci - podaci koji se odnose na promatranje dviju statistikih varijabli.


Bivarijatne podatke obino prikupljamo jer nas zanima veza (asocijacija, korelacija, kovarijacija, zavisnost)
izmeu varijabli.

Multuvarijatni podaci - podaci do kojih dolazimo promatranjem dviju ili vie statistikih varijabli.
Multivarijatne podatke prikazujemo u tablici slinoj onoj za bivarijatne podatke, s tim da stupaca u toj tablici ima
koliko i varijabli.

Veze izmeu varijabli:

8
deterministika (funkcijska) - ako se na osnovu vrijednosti jedne varijable moe precizno odrediti
vrijednost druge varijable (npr. koliina - plaeni iznos)
stohastika (sluajna, statistika) - ako na osnovu vrijednosti jedne varijable nije mogue sasvim
precizno odrediti vrijednosti druge varijable. (npr. vrijeme uenja - ocjena na ispitu).

Dijagram rasprenja - koristi se ako su obje varijable numerike

Podatkovne vrijednosti prikazuju se kao toke u pravokutnom koordinatnom sustavu.

Veza izmeu varijabli moe biti i:


linearna - ako su toke u dijagramu rasprenja rasporeene oko pravca
nelinearna - ako su toke rasporeene oko krivulje
rastua - porast jedne varijable uglavnom povlai porast (pozitivna)
padajua - pad vrijednosti povlai pad (negativna)

Jakost veze govori o tome koliko precizno vrijednost jedne varijable odreuje vrijednost druge varijable

Potpuna ili savrena korelacija mogua je samo kod funkcijske veze.

Korelacija se moe numeriki iskazati raznim koeficijentima, a medu najpoznatijima je Pearsonov koeficijent
linearne korelacije.
Pearsonov koeficijent mjeri iskljuivo linearnu korelaciju.
Vrijednost Pearsonov koeficijenta kree se od +1 (savrena pozitivna korelacija) do -1 (savrena negativna
korelacija).

Osnovna mjera linearne korelacije je zapravo kovarijanca, a kovarijanca Sxy numerikih varijabli X i Y
definira se kao aritmetika sredina produkata njihovih devijacija.

to je korelacija jaa, to ce pozitivni kvadranti sadravati vise toaka od negativnih, pa e se i vrijednost


kovarijance poveati.
Analogno razmiljanje moemo provesti za negativnu linearnu korelaciju, kod koje ce kovarijanca biti negativna.

U sluaju kad varijable nisu korelirane, broj toaka u svim kvadrantima bit ce priblino jednak, to znaci da
ce kovarijanca
biti priblino nula.

Kovarijanca moe posluiti za mjerenje (iskljuivo) linearne korelacije.


Mjernih jedinica se naravno moemo rijeiti standardizacijom.

Koecijent linearne korelacije r definira se kao kovarijanca standardiziranih varijabli, on je jednak je omjeru
kovarijance i produkta standardnih devijacija.
Dok predznak koeficijenta linearne korelacije pokazuje smjer, dotle njegova apsolutna vrijednost pokazuje
jakost korelacije.
Ako varijable zamijene uloge, kovarijanca i koeficijent linearne korelacije nee promijeniti vrijednost.

Bivarijatni podaci mogu se grupirati tako da se grupe sastoje od meusobno jednakih parova vrijednosti
promatranih varijabli.

Tablica kontingencije - bivarijatna distribucija frekvencija, slui razvrstavanju statistikih jedinica prema
vrijednostima dvije ili vie statistikih varijabli.
Posljednji stupac u tablici zove se marginalni stupac i on sadri zbroj frekvencija u istom retku, dok se
posljednji redak zove se marginalni redak i u njemu se nalaze zbrojevi frekvencija u istom stupcu.
Zbroj apsolutnih frekvencija svake marginalne distribucije iznosi n.
Univarijatne distribucije u marginalnom retku i stupcu zovemo marginalnim distribucijama.
Tablice kontingencije imaju najveu primjenu upravo kod kategorikih podataka, jer je tablica kontingencije
osnovno sredstvo za istraivanje veza izmeu kategorikih varijabli.

Uvjetne distribucije - npr. trei stupac sadri distribuciju studenata prema smjeru uz uvjet da je ocjena
jednaka 3 i sl.
Zbroj frekvencija uvjetne distribucije jednak je marginalnoj frekvenciji.
Relativne frekvencije se i ovdje dobivaju tako da se apsolutne frekvencije podijele sa svojim zbrojem.

Zajednike i marginalne relativne frekvencije dobivaju iz apsolutnih dijeljenjem s n, a uvjetne relativne


frekvencije dobivaju se tako da se apsolutne frekvencije podijele s pripadnom marginalnom frekvencijom.

9
Distribuciju bivarijatnih numerikih podataka takoer prikazujemo tablicom kontingencije, uz prilagodbe
sline onima koje smo primijetili kod univarijatnih podataka{ npr. ako je jedna od varijabli neprekidna, onda se
njene vrijednosti trebaju grupirati u razrede).

Frekvencije nij i pij zovu se opaene ili empirijske, dok se izrazi ni+n+j=n i pi+p+j zovu oekivane ili teorijske
frekvencije.
Varijable su nezavisne samo ako su opaene frekvencije jednake oekivanima.
Svojstvo nezavisnosti je simetrino.

Zbroj oekivanih frekvencija u istom retku ili stupcu je jednak marginalnoj frekvenciji, a zbroj svih oekivanih
frekvencija iznosi n, odnosno 1.

Svake dvije statistike varijable su manje ili vie zavisne, a stupanj njihove zavisnosti mjerimo kao odstupanje
opaenih frekvencija od
oekivanih, upravo tome slui mjera koju zovemo hi-kvadrat, oznaavamo ju sa X2. X20
2
Cramr je pokazao da je uvijek X n (min{k,l}-1) pri emu jednakost vrijedi ako i samo su varijable u funkcijskoj
vezi.

Vjerojatnost - realan broj izmeu 0 i 1 koji predstavlja mogunost da dogaaj nastupi.


Teorija vjerojatnosti snano se oslanja na matematiki pojam skupa.
Skup se definira kao kolekcija objekata.
Objekti koji pripadaju skupu nazivaju se njegovim lanovima ili elementima.
Svaki skup je u potpunosti odreen elementima koji mu pripadaju, tj. dva skupa s jednakim elementima
meusobno su jednaka.
Skupove obino zadajemo vitiastim zagradama izmeu kojih nabrajamo elemente skupa ili navodimo uvjet
koji mora biti ispunjen da
bi neki objekt pripadao skupu.
Skup koji nema elemenata zove se prazan skup.
Ako je svaki element skupa A sadran u skupu B onda kaemo da je A podskup od B ili da je B nadskup od A.
Prazan skup je podskup svakog skupa i svaki skup je podskup samog sebe.
Osnovne operacije sa skupovima jesu komplement, unija, presjek i razlika.

Vjerojatnost prouava sluajne pokuse.


Sluajni pokus je bilo koji proces ili postupak iji rezultat ne moemo sigurno predvidjeti, kao npr. bacanje
novia.

Vjerojatnosti prostor je teorijski model sluajnog pokusa, a on se sastoji od ishoda, dogaaja i


vjerojatnosne mjere.

Ishod ili elementarni dogaaj je rezultat sluajnog pokusa koji se ne moe rastaviti na manje dijelove.
Skup svih ishoda zove se prostor ishoda ili prostor elementarnih dogaaja.

Dogaaj je skup nekih (dakle, ne nuno svih) ishoda. Dogaaj je podskup od prostora ishoda.
Npr. kod bacanja igrae kocke moemo promatrati dogaaj pojavio se paran broj".

Za dogaaj kaemo da se dogodio ili da je nastupio ako je sluajni pokus rezultirao ishodom koji pripada tom
dogaaju.
Npr. ako kod bacanje igrae kocke dobijemo broj 6, onda moemo reci da je nastupio dogaaj pojavio se paran
broj", ali ne i dogaaj pojavio se neparan broj".

Kod svakog sluajnog pokusa vrlo je lako doi do dogaaja koji sadre sve ishode ili ne sadre niti jedan ishod.

Prostor ishoda i prazan skup uvijek smatramo dogaajima. Takoer, kako su dogaaji skupovi, na dogaaje
moemo primjenjivati sve skupovne operacije.

Skup svih dogaaja zove se prostor dogaaja.


Kad je prostor ishoda prebrojiv, tj. kad se njegovi elementi mogu napisati u obliku konanog ili beskonanog
niza, svaki podskup od moemo smatrati dogaajem.

Skup realnih brojeva i svaki njegov neprekinut dio su neprebrojivi, pa ve neki jednostavni sluajni pokusi, kao
npr. ekanje gradskog autobusa, imaju neprebrojiv prostor ishoda.
Ako je neprebrojiv, onda moramo postaviti ogranienja na to koje podskupove od smatramo dogaajima.

10
U svakom sluaju, od prostora dogaaja F uvijek zahtijevamo da sadri prazan skup i prostor ishoda , kao
najmanji" i najvei" dogaaj, te da se primjenom osnovnih skupovnih operacija (komplementa, unije, presjeka i
razlike), na konane i beskonane nizove dogaaja ponovno dobiju dogaaji.

Osnovne operacije sa skupovima:


komplement - predstavlja negaciju dogaaja i sastoji se od ishoda koji ne pripadaju tom dogaaju.
Komplement je involutivna operacija to znai da se komplemetiranjem komplementa ponovno dobiva
polazni dogaaj.
unija - sastoji se od ishoda koji pripadaju barem jednom od tih dogaaja. Unija dogaaja odgovara
spajanju dogaaja veznikom ili". Unija je komutativna operacija.
presjek - sastoji se od ishoda koji pripadaju svakome od tih dogaaja. Presjek odgovara spajanju
dogaaja veznikom i". Presjek je komutativna operacija.
razlika - sastoji se od ishoda koji pripadaju dogaaju A i koji ne pripadaju dogaaju B. Razlika nije
komutativna operacija. Razlika odgovara spajanju dogaaja rijei i nije.

Operacije i odnosi meu skupovima grafiki se prikazuju Vennovim dijagramima.

Za dogaaje ija je unija jednaka kaemo da pokrivaju prostor ishoda.


Dakle, dogaaji pokrivaju prostor ishoda ako se pri izvoenju sluajnog pokusa mora dogoditi barem jedan od tih
dogaaja.

Za dva dogaaja A i B kaemo da su iskljuivi ili disjunktni ako im je presjek prazan,.


Prema tome, iskljuivi su oni dogaaji koji se ne mogu istovremeno dogoditi.

Vjerojatnosna mjera - posljednja sastavnica vjerojatnosnog prostora.


U vjerojatnosnom prostoru, svakom dogaaju pridruujemo vjerojatnost - realan broj izmeu 0 i 1 koji
predstavlja mogunost da dogaaj nastupi. to je vjerojatnost nekog dogaaja vea, to smo sigurniji da ce se
dogaaj dogoditi kod izvoenja sluajnog pokusa.
Dogaaj ija je vjerojatnost 1 smatramo sigurnim, a dogaaj ija je vjerojatnost 0 nemoguim.

Vrste vjerojatnosti:
TEORIJSKA VJEROJATNOST - izraunavamo je na osnovu poznavanja osobina sluajnog pokusa (npr.
kod bacanja igrae kocke mora se dogoditi tono jedna od dvije stvari - pojavio se paran broj ili
pojavio se neparan broj. Kako parnih i neparnih brojeva na kocki ima jednako mnogo, ta dva dogaaja
imaju jednaku mogunost nastupanja, pa prema tome i jednaku vjerojatnost zbog toga, vjerojatnost
dogaaja iznosi = 0.5).
EMPIRIJSKA VJEROJATNOST - moemo je koristiti samo ako je sluajno pokus ponovljiv i ako
raspolaemo rezultatima veeg broja pokusa. Npr. kolika je vjerojatnost da e sluajno odabran student
koji e pristupiti sljedeem ispitu iz statistike dobiti ocjenu izvrstan? To bismo mogli aproksimirat
dugoronom relativnom frekvencijom studenata. Npr. ako je u posljednjih godinu dana na ispit iz
statistike izalo 500 studenata meu kojima je njih 30 dobilo ocjenu izvrstan onda je traena vjerojatnost
30/500 = 0.6).
SUBJEKTIVNA VJEROJATNOST - moemo ju odrediti samo kao stupanj osobnog uvjerenja u nastupanje
tog dogaaja. Npr. kolika je vjerojatnost da e nogometni klub Istra pobijediti na sljedeoj utakmici?
Rezultat nogometne utakmice moe se djelomino predvidjeti na osnovu prethodnih rezultata i sl. Ishod
sljedee utakmice je najveim dijelom odreen trenutnim stanjem u klubovima - spremnou ekipa,
brojem ozlijeenih igraa i sl).

Unato razliitim definicijama, svaka vjerojatnost ima iste vane osobine. Tako, svaka vjerojatnost ima svojstvo
koje zovemo aditivnost, koje kae da je vjerojatnost unije dva iskljuiva dogaaja jednaka zbroju vjerojatnosti
tih dogaaja.

Vrste aditivnosti:
konana aditivnost
prebrojiva aditivnost

Vjerojatnosna mjera treba biti prebrojivo aditivna, to znai da je vjerojatnost unije svakog niza, konanog ili
beskonanog, iskljuivih dogaaja jednaka zbroju vjerojatnosti tih dogaaja.
Ishodi koji pripadaju nekom dogaaju nazivaju se povoljnima za taj dogaaj.

Za neki podskup pravca, ravnine ili prostora kaemo da je izmjeriv ako mu moemo odrediti mjeru, to znaci
duljinu, povrinu, ili volumen, koja ne mora nuno biti konana. Naime, postoje podskupovi pravca, ravnine i
prostora koji nisu izmjerivi, tj. nije mogue dodijeliti im duljinu, povrinu ili volumen. Meutim, veina skupova s
kojima se obino susreemo (intervali, trokuti, pravokutnici, krugovi, poluravnine, kocke, kugle itd.) jesu izmjerivi
skupovi. Prebrojivi skupovi su takoer izmjerivi, ali njihova mjera iznosi nula.

11
Ako traimo vjerojatnost sloenog dogaaja, koju ne moemo tako neposredno odrediti, onda trebamo
promatrani dogaaj prikazati kao komplement, uniju, presjek ili razliku jednostavnijih dogaaja.
Pritom, vano je poznavati svojstva vjerojatnosti koja se odnose na skupovne operacije.
Primjerice, vjerojatnost je prebrojivo aditivna, to znai da je vjerojatnost unije svakog niza iskljuivih dogaaja
jednaka zbroju vjerojatnosti tih dogaaja.

Formula suprotne vjerojatnosti potvruje intuitivno jasno injenicu da je P() = 0.


Vjerojatnost je uvijek nenegativna.
Vjerojatnost unije svaka dva dogaaja jednaka je zbroju vjerojatnosti tih dogaaja umanjenom za vjerojatnost
njihovog presjeka.

Da bismo izraunali vjerojatnost potrebno je odrediti da li su dogaaju iskljuivi ili neiskljuivi i da li su


zavisni ili nezavisni.
Iskljuivi znai da nemaju presjeka, neiskljuivi da postoji presjek, zavisni su ako postoji uvjet, a nezavisni su ako
uvjeta nema.
Dva dogaaja smatramo nezavisnima ako je uvjetna vjerojatnost jednaka bezuvjetnoj, odnosno ako
nastupanje jednog ne mijenja vjerojatnost drugog dogaaja.
Premda je takva definicija nezavisnosti intuitivno jasna, o uvjetnoj vjerojatnost moemo govoriti samo kada
dogaaj po kojemu uvjetujemo ima vjerojatnost razliitu od nula, pa nezavisnost definiramo na drugaiji, ali
logiki ekvivalentan nain.
Za dogaaje A i B kaemo da su nezavisni ako je vjerojatnost presjeka tih dogaaja jednaka produktu
njihovih vjerojatnosti.

Dogaaje koje nisu nezavisni zovemo naravno zavisnima.


Zavisnost, odnosno nezavisnost dogaaja A i B ponekad je jasna iz osobina sluajnog pokusa.

Vjerojatnosno stablo je metoda izraunavanja vjerojatnosti.


Kraj svakog brida vjerojatnosnog stabla upisali smo uvjetnu vjerojatnost dogaaja na desnom vrhu brida, pod
pretpostavkom da se dogodio dogaaj na lijevom vrhu brida. Zahvaljujui tome, sada moemo lako izraunati
vjerojatnost prethodno navedenih presjeka.

Svaka dva izabrana dogaaja u nizu od tri nezavisna dogaaja trebala takoer biti nezavisna. Slino tome, moe
se pokazati da nezavisnost u parovima dogaaja A, B, C nije uvijek dovoljna da vjerojatnost presjeka sva tri
dogaaja bude jednaka produktu vjerojatnosti tih dogaaja.

Formulu potpune vjerojatnosti primjenjujemo kada se dogaaj A moe realizirati samo zajedno s jednim od
dogaaja H1;H2; ...;Hn, koji su meusobno disjunkni i u uniji ine itav prostor elementarnih dogaaja .

Bayesov teorem je nain izraunavanja kako nova informacija o dogaaju mijenja naa prethodna oekivanja o
vjerojatnosti dogaaja.

Sluajna varijabla - pravilo koje svakom ishodu sluajnog pokusa pridruuje realan broj.
Primijetimo da unato nazivu varijabla", svaka sluajna varijabla je ustvari funkcija iz prostora ishoda u skup
realnih brojeva R.
Sluajnom varijablom se vjerojatnosna mjera prirodno prenosi na podskupove skupa realnih brojeva.
Zanimljivo je da je distribucija svake sluajne varijable X potpuno odreena svojim vrijednostima na intervalima
oblika (-,x], pri emu je x proizvoljan realan broj.

Distribucija (funkcija) vjerojatnosti varijable X je skup ureenih parova vrijednosti varijable X i


vjerojatnosti: (xi, P(xi)), i=1,2,3,...,k

Kumulativna funkcija distribucije predstavlja vjerojatnost da sluajna varijabla X u eksperimentu postigne


vrijednost manju od neke zadane vrijednosti x.

FX ima limes 1 u + i 0 u -.

Skup svih vrijednosti sluajne varijable X oznait emo s RX.

Pri odreivanju vjerojatnosti da X pripada skupu B dovoljno je promatrati vrijednosti varijable X u tom skupu.

Podjela sluajnih varijabli:

12
diskretne ili diskontinuirane (skup vrijednosti RX je prebrojiv, njegovi elementi mogu napisati u obliku
konanog ili beskonanog niza.. Teorijske diskretne distribucije:
o binomna distribucija
o poissonova distribucija
o uniformna (jednolika) diskretna distribucija
o hipergeometrijska
kontinuirane (prebrojive unutar nekog intervala). Teorijske kontinuirane distribucije:
o normalna (Gaussova)distribucija
o hi - kvadrat distribucija
o uniformna (jednolika) kontinuirana distribucija
o eksponencionalna distribucija
o studentova t-distribucija
o F-distribucija

Uvjeti diskretne varijable:


normativnost
nenegativnost

Binomna distribucija
(najjednostavnija) teorijska distribucija za alternativna obiljeja.
pokazuje vjerojatnost dogaanja meusobno iskljuivih dogaaja za svaki broj sluajeva posebno.
u statistici se model binomne distribucije koristi za rezultate u dihotomnim varijablama u kojima su
podaci tipa tono netono, mukarci ene i sl.
u svezi je sa Bernoullijevim pokusima

Bernoullijev pokus*
pokus ima dva ishoda (uspjeh, neuspjeh)
u svakom ponavljanju pokusa vjerojatnost ishoda uspjeh = p i ne mijenja se od pokuaja do pokuaja.
vjerojatnost ishoda neuspjeh q= 1 p
pokuaji su neovisni.

Poissonova distribucija
raspodjela vrlo rijetkih sluajnih dogaaja (kod kojih je vrlo mala vjerojatnost)
izraava vjerojatnost broja dogaaja ako se ti dogaaji pojavljuju u fiksnom vremenskom periodu s
poznatom prosjenom brzinom pojavljivanja i vremenski su nezavisne od prolog dogaaja.
Poissonova distribucija je potpuno definirana aritmetikom sredinom, jer je njena varijanca jednaka
aritmetikoj sredini. To znai da je ta distribucija ira to joj je aritmetika sredina vea.
kada je N vrlo velik, Poissonova distribucija se pribliava binomnoj, ali je razlika u tome to kod binomne
raspodjele znamo koliko se puta neki dogaaj pojavio, ali i koliko se puta nije pojavio, a kod Poissonove
raspodjele znamo samo koliko se puta neki dogaaj
pojavio.

Normalna (Gaussova) distribucija


u potpunosti ju opisuju dva parametra: aritmetika sredina i varijanca
zvonolikog je oblika i unimodalna
simetrina oko aritmetike sredine
ukoliko se poveava vrijednost aritmetike sredine krivulja se pomie udesno, a ukoliko se vrijednost
aritmetike sredine smanjuje krivlja se pomie ulijevo (uz pretpostavku jednake varijance)
ukoliko se vrijednost varijance poveava krivulja se sniava se i iri, a ukoliko se vrijednost varijance
smanjuje krivlja se povisuje i suzuje (uz nepromijenjenu aritmetiku sredinu)
aritmetika sredina i medijan poprimaju istu vrijednost.

Normalna ili Gaussova distribucija smatra se najvanijom distribucijom vjerojatnosti u statistici.


FX strogo rastua funkcija koja R preslikava na otvoreni interval (0, 1).
Prvi parametar normalne sluajne varijable je njeno oekivanje, a drugi parametar je varijanca.

Dva vana svojstva normalne distribucije:


1. linearna transformacija uva normalnost
2. zbroj nezavisnih normalnih sluajnih varijabli je ponovno normalna sluajna varijabla.

Standardizacijom normalne sluajne varijable ponovno dobiva normalna sluajna varijabla.

13
Jedan od najvanijih rezultata teorije vjerojatnosti zove se centralni granini teorem i govori o distribuciji
zbroja sluajnih varijabli.
U naelu, centralni granini teorem tvrdi da zbroj dovoljno velikog broja nezavisnih jednako distribuiranih
sluajnih varijabli ima priblino normalnu distribuciju.
Budui da se mnogi praktini problemi svode na izraunavanje zbroja, jasno je da centralni granini teorem i s
njim normalna distribucija imaju veliku primjenu.

Ako je n dovoljno velik, onda sluajna varijabla Zn ima priblino standardnu normalnu distribuciju, a kako su Yn i
Zn povezane linearnom transformacijom, slijedi da Yn takoer ima priblino normalnu distribuciju,
to je n vei, to je aproksimacija bolja.
Ako je n dovoljno velik, onda se binomna distribucija moe aproksimirati normalnom.

Studentova ili t-distribucija


karakteriziraju je stupnjevi slobode
ima slian oblik kao normalna distribucija samo to je ira i poloenija
kako raste broj stupnjeva slobode oblikom je sve slinija normalnoj raspodjeli
primjenjuje se u raunanju intervala pouzdanosti i testiranju hipoteza o razlici izmeu dva uzorka.

Hi - kvadrat distribucija
distribucija je pozitivnih vrijednosti, zakrivljena u desno
karakteriziraju je stupnjevi slobode
oblik distribucije ovisi o broju stupnjeva slobode: kako raste broj stupnjeva slobode distribucija postaje
sve vie simetrina i slinija normalnoj distribuciji
primjenjuje se u analizi kategorijskih podataka.
za razliku od normalne distribucije, 2 distribucija je asimetrina, ali asimetrija opada s porastom stupnjeva
slobode.

F - distribucija
zakrivljena prema desno
asimetrina je
distribucija je omjera dvaju varijanci izraunatih iz normalno distribuiranih podataka
karakteriziraju je stupnjevi slobode brojnika i nazivnika omjera varijanci
upotrebljava se za usporedbu dvije varijance, kao i za usporedbu vie od dvije aritmetike sredine
analizom varijance.

Funkcija distribucije sluajne varijable X je funkcija koja daje vjerojatnost da e sluajna varijabla X poprimiti vrijednost
jednaku ili manju od nekog realnog broja xk .
FX je nenegativna funkcija.
Funkcija distribucije vjerojatnosti je kumulativna funkcija.
Da bismo odredili FX(x), trebamo znati koje su vrijednosti sluajne varijable X manje ili jednake x,a to naravno
zavisi o tome kakav je broj x. Iz funkcije distribucije moe se dobiti funkcija vjerojatnosti diskretne sluajne
varijable.

Distribucije sluajnih varijabli imaju iste osobine kao distribucije numerikih statistikih varijabli, tj. lokaciju,
disperziju i oblik, koje moemo kvantitativno izraziti.
Tako, mjera lokacije koja za sluajne varijable ima istu namjenu kao aritmetika sredina za numerike statistike
varijable, zove se oekivanje ili oekivana vrijednost.
Kao to vjerojatnost moemo smatrati dugoronom relativnom frekvencijom nekog dogaaja, tako oekivanje
moemo smatrati dugoronom aritmetikom sredinom neke sluajne varijable, do koje dolazimo ponavljanjem
sluajnog pokusa velik broj puta.

Sluajne varijable esto transformiramo primjenom raznih funkcija.

Oekivanje od Y nazivamo varijancom od X.

Varijanca diskretne sluajne varijable je matematiko oekivanje kvadrata odstupanja sluajne varijable od
oekivanja.
Korijen iz varijance nazivamo standardnom devijacijom.
Standardna devijacija je mjera rasipanja rezultata.
Varijanca i standardna devijacija su mjere disperzije distribucije sluajne varijable.

Najjednostavnija sluajna varijabla je ona koja poprima samo jednu vrijednost.

*Meu sluajnim varijabla s dvije vrijednosti, esto koristimo one iji se skup vrijednosti sastoji od brojeva 0 i 1.
Ako je X sluajna varijabla i RX = {0,1} onda se X zove Bernoullijeva sluajna varijabla.
Bernoullijeva distribucija javlja se kod sluajnih pokusa ije ishode dijelimo u dvije skupine.

14
Ishode u jednoj skupini smatramo uspjehom, a one u drugoj skupini neuspjehom.
Takve sluajne pokuse nazivamo Bernoullijevim pokusima.
Ako vjerojatnost uspjeha u Bernoullijevom pokusu iznosi , onda vjerojatnost neuspjeha iznosi 1 - , pa ako
sluajna varijabla X uspjehu dodjeljuje vrijednost 1, a neuspjehu vrijednost 0, onda X ima Bernoullijevu
distribuciju s parametrom .

lanovi statistikih populacija esto se dijele u dvije skupine, prema tome posjeduju li ili ne posjeduju odreenu
osobinu.
Sluajno biranje jedne statistike jedinice iz takve populacije moe se promatrati kao Bernoullijev pokus, a
formiranje sluajnog uzorka, tj. sluajno biranje nekoliko statistikih jedinica, kao niz Bernoullijevih pokusa.

U naelu, neprekidne su one sluajne varijable iji skup vrijednosti ini interval.

Funkcija gustoe vjerojatnosti jednaka je nuli za realne brojeve koje sluajna varijabla ne poprima.

Kao to smo vidjeli, neprekidne statistike varijable opisuju se gustoom frekvencije, koju grafiki prikazujemo
histogramom, a frekvencija bilo kojeg intervala jednaka je dijelu povrine ispod histograma koja odgovara tom
intervalu.
Ono to je frekvencija za statistiku varijablu, to je vjerojatnost za sluajnu varijablu.
Stoga, neprekidne sluajne varijable zadavat emo putem njihove gustoe vjerojatnosti, a vjerojatnost emo
odreivati kao povrinu ispod grafa gustoe vjerojatnosti. Navedenu emo povrinu openito nalaziti
integriranjem.

Zanimljiva osobina neprekidnih sluajnih varijabli je da vjerojatnost da X poprimi tono vrijednost a iznosi 0.
Zbog aditivnosti vjerojatnosti, slijedi da e za svaki prebrojivi skup A biti 0.

Kod neprekidnih sluajnih varijabli, integriranjem funkcije gustoe vjerojatnosti dobiva se funkcija distribucije,
a deriviranjem funkcije distribucije dobiva se funkcija gustoe vjerojatnosti.
Deriviranjem funkcije distribucije dobit emo funkciju gustoe vjerojatnosti.

Sluajno biranje realnog broja u intervalu od 0 do 12 moemo predstaviti neprekidnom sluajnom varijablom ija
funkcija gustoe vjerojatnosti ima vrijednost 0 svugdje osim na intervalu od 0 do 12, gdje je ta funkcija
konstantna i ima vrijednost 1=12, koja je jednaka recipronoj vrijednosti duljine promatranog intervala.

Kod diskretnih sluajnih varijabli koristi zbrajanje, a kod neprekidnih integriranje.


Ne treba zaboraviti da se kod diskretne sluajne varijable X svi zbrojevi vre po vrijednostima od X koje
zadovoljavaju napisane uvjete.

Medu svim transformacijama koje moemo primijeniti na sluajne varijable, linearna transformacija je
posebno vana.

Sluajne varijable moemo takoer standardizirati.

Nazivi medijan, kvartili i slini, zadravaju svoje znaenje i kog sluajnih varijabli.

Ako ishodima nekog sluajnog pokusa istovremeno pridruujemo vrijednost dvije sluajne varijable X i Y , onda
zapravo imamo funkciju koja svakom ishodu e pridruuje ureen par realnih brojeva (X(e), Y (e)), koju nazivamo
bivarijatnim sluajnim vektorom, a sluajne varijable X i Y nazivamo njegovim koordinatama ili
komponentama.

Skup vrijednosti sluajnog vektora je skup svih ureenih parova realnih brojeva.

Ako su C i D skupovi, onda skup svih ureenih parova (c, d) takvih da je c element od C i d element od D
nazivamo direktnim ili Kartezijevim produktom skupova C i D.

Distribuciju PX i PY sluajnog vektora (X, Y ) takoer nazivamo zajednikom distribucijom sluajnih varijabli
X i Y , a distribucije PX i PY nazivamo njihovim marginalnim distribucijama. Iz zajednike distribucije moemo
lako dobiti marginalne.

Za sluajni vektor kaemo da je diskretan ako je skup njegovih vrijednosti prebrojiv.


Nije teko zakljuiti da je (X,Y) diskretan sluajni vektor ako i samo ako su X i Y diskretne sluajne varijable.

15
Funkciju FX,Y koja svakom ureenom paru (x, y) realnih brojeva pridruuje vjerojatnost nazivamo funkcijom
distribucije sluajnog vektora (X,Y ).
FX,Y je nenegativna funkcija.
FX,Y nazivamo zajednikom, a fX i fY marginalnim funkcijama vjerojatnosti sluajnih varijabli X i Y .
Marginalne funkcije distribucije mogli bismo odrediti i iz marginalnih funkcija vjerojatnosti.
Zbrajanjem vjerojatnosti u istom retku, odnosno stupcu tablice kontingencije dobiti emo vrijednost marginalne
funkcije vjerojatnosti sluajne varijable X, odnosno Y.

Neprekidni sluajni vektori imaju funkciju gustoe vjerojatnosti.


Funkcija gustoe vjerojatnosti neprekidnog bivarijatnog sluajnog vektora je realna funkcija dvije realne
varijable, iji je graf ploha u prostoru, a vjerojatnost se odreuje kao volumen ispod te plohe, koji openito
nalazimo dvostrukim integralom.
Funkciju gustoe vjerojatnosti moemo dobiti deriviranjem funkcije distribucije.

Jedna od najvanijih funkcija koje moemo primijeniti na dvije sluajne varijable X i Y , definirane na istom
prostoru ishoda, je upravo zbroj.
Budui da vrijednost zbroja ne zavisi o poretku pribrojnika, svejedno je zbrajamo li po retcima ili stupcima te
tablice.

Aditivnost oekivanja - oekivanje zbroja svake dvije sluajne varijable X i Y , definirane na istom prostoru
ishoda, jednako je zbroju njihovih oekivanja.
Sjetimo se da oekivanje ima i svojstvo homogenosti, a za operaciju koja je istovremeno aditivna i homogena,
kaemo da je linearna.
Pored oekivanja, mnoge vane matematike operacije imaju svojstvo linearnosti (zbrojevi, limesi, derivacije,
integrali i druge).

Varijanca je po definiciji jednaka oekivanju kvadratne devijacije.


Varijanca zbroja openito nije jednaka zbroju varijanci.

Kovarijancu moemo shvatiti kao funkciju koja svakom paru sluajnih varijabli (X,Y) pridruuje broj.
Dakle, kovarijanca je funkcija od dvije varijable ili dva argumenta.
Kovarijanca je linearna, tj. aditivna i homogena, u svakom svojem argumentu, pa se kae da je kovarijanca
bilinearna.
Zbog simetrinosti, linearnost je dovoljno provjeriti u npr.drugom argumentu.
Kovarijanca je simetrina.
Kovarijanca neke varijable sa samom sobom je varijanca te varijable.
Kovarijancu moemo dobiti tako da od oekivanja produkta oduzmemo produkt oekivanja.
Kovarijacijska matrica je simetrina na njenoj se glavnoj dijagonali nalaze varijance sluajnih varijabli X i Y .
Varijanca zbroja PXi jednaka je naravno zbroju svih elemenata kovarijacijske matrice.
Za sluajne varijable X1,X2,..,Xn kaemo da su nekorelirane ako su svi elementi izvan glavne dijagonale
kovarijacijske matrice tih sluajnig varijabli jednaki 0. Drugim rijeima, kovarijacijska matrica je dijagonalna.
Varijanca zbroja nekoreliranih sluajnih varijabli jednaka je zbroju njihovih varijanci..
Korelacijska matrica je simetrina matrica reda n, na ijoj su glavnoj dijagonali jedinice.
Nekorelirane sluajne varijable ne moraju biti nezavisne.

Koeficijent linearne korelacije je simetrian i koeficijent linearne korelacije sluajne varijable sa samom sobom
iznosi 1.

Za dvije sluajne varijable kaemo da su nezavisne ako su njihove uvjetne distribucije jednake marginalnima.
Zajednika funkcija vjerojatnosti nezavisnih diskretnih sluajnih varijabli jednaka je produktu njihovih
marginalnih funkcija vjerojatnosti.
Vjerojatnosna mjera jednoznano odreena funkcijom distribucije.
Nezavisne sluajne varijable su nekorelirane.
Funkcije nezavisnih sluajnih varijabli su nezavisne i oekivanje produkta konano mnogo nezavisnih sluajnih
varijabli jednako je produktu oekivanja tih varijabli.

Kod neprekidnih sluajnih varijabli, deriviranjem funkcije distribucije dobiva se funkcija gustoe
vjerojatnosti, a integriranjem funkcije gustoe vjerojatnosti dobiva se funkcija distribucije, pa e dvije
neprekidne sluajne varijable biti nezavisne samo ako im
je zajednika funkcija gustoe vjerojatnosti jednaka produktu marginalnih funkcija gustoe vjerojatnosti.

Dvije vane osobine nezavisnih sluajnih varijabli:


Funkcije nezavisnih sluajnih varijabli su takoer nezavisne

16
ako su X i Y nezavisne sluajne varijable, onda je oekivanje produkta nezavisnih sluajnih varijabli
jednako je produktu njihovih oekivanja.

Inferencijalna statistika ili statistiko zakljuivanje bavi se donoenjem zakljuaka o populaciji na osnovu
uzorka.
Da bismo u tom postupku mogli koristiti teoriju vjerojatnosti, uzorak treba biti sluajan, to znai da odluku o
tome koje ce statistike jedinice biti ukljuene u uzorak donosimo na sluajan nain, npr. nasuminim
izvlaenjem listia iz kutije ili generiranjem sluajnih brojeva na raunalu.
Prema tome, sluajnih uzorak veliine n moemo smatrati ishodom sluajnog pokusa u kojemu smo na sluajan
nain odabrali n statistikih jedinica iz zadane populacije.
Ako nije drugaije naznaeno, pod uzorkom emo ovdje uvijek smatrati sluajnih uzorak, a pod uzorkovanjem
smatrat emo proces formiranja sluajnog uzorka.

Uzorkovanje se u naelu moemo provesti na dva naina - s ponavljanjem i bez ponavljanja.


Kod oba oblika uzorkovanja, statistike jedinice biramo jednu po jednu.
Meutim, dok kod uzorkovanja s ponavljanjem jedna te ista statistika jedinica moe biti ukljuena u uzorak vie
puta, dotle kod uzorkovanja bez ponavljanja svaka statistika jedinica moe biti ukljuena u uzorak najvie
jednom.
Ako uzorkovanje vrimo npr. izvlaenjem listia iz kutije, onda uzorkovanje s ponavljanjem odgovara izvlaenju
listia s vraanjem, a uzorkovanje bez ponavljanja odgovara izvlaenju listia bez vraanja.

U praksi se uzorkovanje redovito provodi bez ponavljanja.


Premda je matematika teorija uzorkovanja s ponavljanjem jednostavnija, uzorkovanje bez ponavljanja je bolje
od uzorkovanja s ponavljanjem, jer je uzorak bez ponavljanja sliniji populaciji od uzorka s ponavljanjem iste
veliine.
Ako uzorkovanje vrimo bez ponavljanja, onda e uzorak biti doslovce jednak populaciji, to se ne mora
dogoditi ako se uzorkovanje vrimo s ponavljanjem.

Statistike jedinice promatramo zato to nas zanima jedna ili vise njihovih osobina.
Primjerice, ako promatramo ljude, onda nas moe zanimati spol, visina, teina, politiko usmjerenje i tome
slino.
Vrijednosti takvih osobina imaju distribuciju, a numerike karakteristike te distribucije zovu se parametri
populacije.
Tako, ako smo za itavu populaciju osoba odredili proporciju ena ili prosjenu visinu, onda ta proporcija i prosjek
jesu parametri populacije. Parametre populacije oznaavat emo grkim slovima.

Za potrebe uzorkovanja, populaciju identificiramo s nekom distribucijom vjerojatnosti, i to onom koju bismo
dobili kada bismo iz populacije sluajnog odabrali jednu statistiku jedinicu.
Ako o populaciji moemo razmiljati kao o distribuciji vjerojatnosti, kako da razmiljamo o sluajnom uzorku?
Openito, o sluajnom uzorku trebamo razmiljati kao o multivarijatnom sluajnom vektoru.
Naime, ako imamo prethodno opisanu populaciju osoba, u kojoj promatramo spol, onda e sluajnih uzorak
veliine n biti ishod sluajnog pokusa u kojemu smo na sluajan nain odabrali n osoba.
Prostor ishoda tog sluajnog pokusa je skup svih sluajnih uzoraka veliine n koje moemo formirati iz te
populacije.

Distribucija sluajnih varijabli jednaka je distribuciji populacije.


Kod uzorkovanja s ponavljanjem, sluajnih uzorak veliine n je niz od n nezavisnih sluajnih varijabli ija je
distribucija jednaka distribuciji populacije.
Ako se uzorkovanje vri bez ponavljanja, onda svaku sljedeu osobu u uzorku biramo iz skupa koji broji sve
manje osoba.
Zbog toga su sluajne varijable X1;X2; : : : ;Xn sada zavisne.
Marginalna distribucija tih sluajnih varijabli i dalje je jednaka distribuciji populacije.

Razlika izmeu uzorkovanja s ponavljanjem i bez ponavljanja nije u marginalnoj distribuciji sluajnih varijabli
X1;X2; : : : ;Xn, nego u tome da su kod uzorkovanja s ponavljanjem te sluajne varijable nezavisne, a kod
uzorkovanja bez ponavljanja zavisne.
Uzorak se u tom smislu smatra malenim ako njegova veliina ne prelazi 5% veliine populacije.
Primjerice, ako iz populaciji od N = 1000 osoba biramo uzorak bez ponavljanja od najvie n = 50 osoba, onda
promatranja u uzorku moemo smatrati nezavisnima.

17
Osim to su populacije obino velike u odnosu na uzorak, neke oblike prikupljanja podataka moemo promatrati
kao uzorkovanje iz zamiljene beskonane populacije.
To se dogaa ako podatke prikupljamo provoenjem eksperimenta, kojega vie puta ponavljamo pod istim
uvjetima, a zamiljena populacija se pritom sastoji od svih moguih rezultata tog eksperimenta.
Primjerice, uzmimo da elimo ispitati ispravnost igrae kocke, tj. osobinu kocke da se prilikom bacanja svaki broj
na kocki javlja s jednakom vjerojatnou. Ispitivanje moemo provesti tako da kocku bacimo n puta, pri emu je
n dovoljno velik broj i pritom promatramo relativne frekvencije pojedinih brojeva na kocki.
Ako su te relativne frekvencije priblino jednake, onda nemamo razloga sumnjati u ispravnost kocke, dok ako su
one izrazito razliite, onda kocka vjerojatno nije ispravna.
Populacija se ovdje sastoji od svih moguih bacanja igrae kocke, to naravno nije realna, nego zamiljena
populacija, a moemo je predoiti diskretnom distribucijom vjerojatnosti koja se dobije jednim bacanjem igrae
kocke.
Rezultati ispitivanja, tj. N bacanja igrae kocke bit e sluajne varijable X1;X2; : : : ;Xn koje su nezavisne i
distribuirane su jednako kao populacija.
Prema tome, razliiti oblici uzorkovanja i prikupljanja podataka vode do istog matematikog modela, pa emo
pod sluajnim uzorkom veliine n podrazumijevati niz od n nezavisnih jednako distribuiranih sluajnih varijabli
X1;X2; : : : ;Xn, ija je distribucija jednaka distribuciji populacije.

Svaka transformacija sluajnog uzorka bit e takoer sluajna varijabla, iju distribuciju vjerojatnosti nazivamo
distribucijom uzorkovanja. Ako Y ne zavisi o nepoznatim parametrima populacije, onda takvu sluajnu
varijablu nazivamo statistikom.
Dvije najvanije statistike jesu aritmetika sredina uzorka i varijanca uzorka.
Osim aritmetike sredine i varijance, esto se koristi i proporcija uzorka.

Oekivanje aritmetike sredine uzorka jednako je oekivanju populacije, a varijanca aritmetike sredine uzorka
je n puta manja od varijance populacije.
Dijeljenje zbroja kvadratnih devijacija s n - 1, odnosno mnoenje varijance uzorka s n=(n - 1) poznato je pod
nazivom Besselova korekcija, a s2 nazivamo korigiranom varijancom uzorka.

Ako populacija ima normalnu distribuciju, onda varijanca uzorka ima dva vana svojstva:
1. ako populacija ima normalnu distribuciju, onda su statistike X i S2 nezavisne, a sluajna varijabla ima 2
distribuciju s n - 1 stupnjeva slobode.
2. Z ima standardnu normalnu distribuciju
Ako populacija nema normalnu distribuciju, onda prema centralnom graninom teoremu, P Xi i X imaju
priblino normalnu distribuciju kada je n dovoljno velik.
Proporcija uzorka je ustvari aritmetika sredina uzorka iz Bernoullijeve populacije.

Uzorak i njegove statistike koristimo da bismo saznali neto o populaciji.


Tako sredinu i varijancu uzorka moemo upotrijebiti da bismo procijenili, tj. priblino odredili sredinu i varijancu
populacije (nakon to odaberemo sluajni uzorak, izraunavamo sredinu i varijancu uzorka i dobivene rezultate
smatramo priblinim vrijednostima sredine i varijance populacije).
Statistiku koju koristimo s ciljem priblinog odreivanja parametra populacije nazivamo procjeniteljem.
Dakle, aritmetiku sredinu uzorka moemo koristiti kao procjenitelj sredine populacije, a varijancu uzorka kao
procjenitelj varijance populacije.
Nakon to odaberemo uzorak, izraunavamo vrijednost procjenitelja, koju nazivamo procjenom.
Ako parametar procijenimo jednim brojem ili jednom tokom na brojevnom pravcu, takve procjenitelje i procjene
nazivamo tokovnima.

Za procjenitelj kaemo da je konzistentan ako vjerojatnost da je procjenitelj dovoljno blizu parametra tei k 1
kada veliina uzorka n tei k+. Drugim rijeima, ako je procjenitelj konzistentan, onda smo praktiki sigurni da
je vrijednost procjenitelja dovoljno blizu parametra populacije kada je uzorak dovoljno velik.
Aritmetika sredina je konzistentan procjenitelj sredine populacije, a varijanca uzorka je
konzistentan procjenitelj varijance populacije.
Procjenitelji koji nisu konzistentni su nepoeljni, jer ak za veliki uzorak, vrijednost takvog procjenitelja moe
biti jako udaljena od parametra.

Kako prepoznati konzistentan procjenitelj? Jedan nain da utvrdimo da je neki procjenitelj konzistentan je
koristei srednju kvadratnu pogreku.
Osim ispitivanja konzistentnosti, srednja kvadratna pogreka nam slui i kao mjera kvalitete procjenitelja.

18
Ako moemo birati izmeu vie procjenitelja istog parametra, onda biramo onaj s najmanjom srednjom
kvadratnom pogrekom.
Srednja kvadratna pogreka procjenitelja jednaka je zbroju njegove varijance i kvadrata pristranosti.
Ako pristranost procjenitelja iznosi 0 onda za procjenitelj T kaemo da je nepristran.
Procjenitelj koji nije nepristran zove se pristran.

Da bismo dobili potpuniju sliku o pravoj vrijednosti parametra, umjesto tokovne procjene moemo koristiti
intervalnu procjenu, pri emu odreujemo interval brojeva koji bi trebao sadravati nepoznati parametar.
Prije svega, uoimo da svaki parametar populacije ima odreen skup moguih vrijednosti koji se zove prostor
parametra.
Primjerice, prostor parametra Bernoullijeve distribucije je otvoreni interval (0, 1), dok normalna distribucija ima
dva parametra, oekivanje i varijancu.

Intervalni procjenitelj ili interval povjerenja parametra je interval ije granice V i W mogu zavisiti o
sluajnom uzorku, ali ne i o nepoznatim parametrima.
Ako su obje granice intervala C sluajne, onda za C kaemo da je dvosmjerni ili dvostrani interval
povjerenja.
Ako se gornja granica intervala povjerenja podudara s gornjom granicom prostora parametra, onda za V kaemo
da je donja granica povjerenja za , a interval C nazivamo gornjim intervalom povjerenja.
Gornji i donji interval povjerenja zovu se jednosmjerni ili jednostrani intervali povjerenja.

Prema tome, interval povjerenja C za parametar treba imati osobinu da je 2 C s velikom vjerojatnou, tj. P( 2 C)
treba biti blizu 1. Navedena vjerojatnost moe zavisiti o stvarnoj vrijednosti parametra, a najmanja takva
vjerojatnost zove se razina povjerenja od C.
Druga osobina intervala povjerenja koja nas zanima je njegova duljina. to je interval krai, to je procjena
preciznija.
Dakle, dobar interval povjerenja treba biti malen i treba imati visoku razinu povjerenja.
Razina povjerenja i veliina intervala su u rastuoj vezi, tj. poveanjem razine povjerenja poveava se i interval
povjerenja i obratno.

Nain izrade intervala povjerenja zasniva se na koritenju pivota ili uporita.


Pivot je sluajna varijabla koja zavisi o sluajnom uzorku X1;X2; : : : ;Xn i parametru , ali ija distribucija
vjerojatnosti ne zavisi o .

Za interval povjerenja kaemo da je jednakorepan, jer kvantili u1 i u2 omeuju jednaku povrinu /2 ispod
lijevog i desnog repa" funkcije gustoe vjerojatnosti od U.
Jednakorepni interval povjerenja nije uvijek najkrai, ali ga svejedno koristimo zbog njegove jednostavnosti.

Sredina uzorka X ima normalnu distribuciju s oekivanjem i varijancom.

Margina pogreke zavisi o razini povjerenja, standardnoj devijaciji populacije i o veliini uzorka.
to je razina povjerenja vea, to ce kvantil biti vei, pa e margina pogreke takoer biti vea.
Slino je sa standardnom devijacijom, odnosno disperzijom populacije.
to populacija ima veu disperziju, to je margina pogreke vea.
S druge strane, to je uzorak vei, to je margina pogreke manja.
Meutim, valja primijetiti da margina pogreke pada s korijenom veliine uzorka.

Granice jednostranih intervala povjerenja imaju isti oblik kao granice dvostranog intervala povjerenja.
U primjeni se najee javljaju upravo dvostrani intervali povjerenja.
Korjenovanjem granica intervala povjerenja za varijancu dobiti emo granice intervala povjerenja za standardnu
devijaciju.
Sluajna varijabla ima priblinu standardnu normalnu distribuciju kad je n velik.

Statistika hipoteza je tvrdnja o distribuciji populacije, a testiranje hipoteza je postupak u kojemu pomou
uzorka provjeravamo je li takva tvrdnja istinita ili lana.
Testiranje hipoteza razvili su J. Neyman i E. Pearson.

Statistike hipoteze esto imaju oblik tvrdnje o jednom ili vie parametara populacije.
Hipoteza u kojoj parametar poprima samo jednu vrijednost zove se jednostavna, a hipoteza koja nije
jednostavna zove se sloena.

19
Svaki postupak testiranja hipoteza ima dvije hipoteze, jednu od kojih nazivamo nul hipotezom, a drugu
alternativnom hipotezom.
Nul hipotezu oznaavamo s H0, a alternativnu s H1.
Kao nul hipotezu uglavnom biramo tvrdnju za koju elimo pokazati da je lana, dok tvrdnju za koju bismo htjeli
pokazati da je istinita stavljamo u alternativnu hipotezu.
Takoer, nul hipoteza obino oznaava poetno stanje, izostanak uinka ili nepotrebnost poduzimanja neke
aktivnosti, a alternativna hipoteza tvrdi da je dolo do promjene, da postoji uinak ili da je potrebno neto
poduzeti.

Test u kojemu alternativna hipoteza ima oblik 0 zove se dvostrani ili dvosmjerni, a test u kojemu
alternativna hipoteza ima oblik > 0 ili < 0 zove se jednostrani ili jednosmjerni.

Nul hipoteza u jednostranom testu moe se izraziti u obliku nejednakosti.


Meutim, to ne mijenja nain kako se test provodi, pa emo nul hipotezu uglavnom pisati kao jednostavnu
hipotezu.

U testiranju hipoteza, nul hipotezu suoavamo s dokazima koje prua uzorak.


Ako su opaanja iz uzorka u skladu s nul hipotezom, onda nul hipotezu ne moemo proglasiti neistinitom.
Meutim, ako su opaanja iz uzorka u oiglednom neskladu s nul hipotezom, onda nul hipotezu odbacujemo kao
neistinitu u korist alternativne hipoteze.
Odluka o odbacivanju ili neodbacivanju nul hipoteze donosi se na temelju unaprijed zadanog kriterija odluke,
kojega formiramo prije uzimanja uzorka.
Kriterij odluke sastoji se od neke prikladno odabrane statistike i skupa vrijednosti te statistike koje dovode do
odbacivanja nul hipoteze.
Statistika koju koristimo u kriteriju odluke zove se test statistika ili test veliina, a skup vrijednosti test
statistike koje vode do odbacivanja nul hipoteze zove se podruje odbacivanja ili kritino podruje.
Prema tome, ako nakon uzimanja uzorka vrijednost test statistike ude u kritino podruje, onda odbacujemo nul
hipotezu, te kaemo da je vrijednost test statistike znaajna ili signikantna.
Kritino podruje je obino omeeno jednim ili dvjema brojevima, koje nazivamo kritinim granicama.

Test statistika moe ui u kritino podruje premda je nul hipoteza istinita, to znai da emo odbaciti istinitu nul
hipotezu i to nazivamo pogrekom tipa I ili pogrekom odbacivanja.
S druge strane, ako je nul hipoteza neistinita, test statistika ne mora nuno uinak u kritino podruje i ako se to
ne dogodi, neistinita nul hipoteza se nee odbaciti, sto zovemo pogrekom tipa II ili pogrekom
neodbacivanja.

Kriterij odluke u svakom testiranju hipoteza trebamo formirati tako da vjerojatnost pogreke bilo kojeg tipa bude
to je mogue manja. Jasno je da vjerojatnost pogreke odbacivanja zavisi o veliini kritinog podruja,
odnosno vjerojatnost pogreke odbacivanja moemo smanjiti tako da smanjimo kritino podruje.
Meutim, time oiglednom poveavamo vjerojatnost da se nul hipoteza ne odbaci, neovisno o njenoj istinitosti.
Dakle, smanjivanjem vjerojatnosti pogreke jednog tipa poveavamo se vjerojatnost pogreke drugog
tipa.
Vjerojatnost pogreki oba tipa moemo istovremeno smanjiti samo uzimanjem veeg uzorka.
Vjerojatnost pogreke u testiranju hipoteza zavisi o stvarnoj vrijednosti parametra kojega testiramo, a najvea
vjerojatnost pogreke odbacivanja zove se razina znaajnosti ili signikantnosti testa i oznaavamo se s .
Razina znaajnosti treba biti malen pozitivan broj.

Koraci u testiranju hipoteza:


1. Postaviti nul i alternativnu hipotezu.
2. Odabrati razinu znaajnosti.
3. Odabrati test veliinu.
4. Odrediti kritino podruje prema alternativnoj hipotezi.
5. Provesti uzorkovanje i izraunati vrijednost test veliine.
6. Donijeti odluku o odbacivanju ili neodbacivanju nul hipoteze.

Poveanjem razine znaajnosti poveavamo i kritino podruje, pa time i mogunost da nul hipoteza bude
odbaena.
Korisno je stoga znati najmanju razinu znaajnosti potrebnu za odbacivanje nul hipoteze, koju zovemo p-
vrijednost i koju emo oznaiti s p.
Budui da se p-vrijednost definira kao najmanja razina znaajnosti pri kojoj dolazi do odbacivanja nul
hipoteze, slijedi da se nul hipoteza odbacuje ako je p, dok ako je < p onda se nul hipoteza ne odbacuje.
Prema tome, poznavajui p-vrijednost nekog testa, odluku o odbacivanju ili neodbacivanju moemo donijeti za
bilo koju razinu znaajnosti. Takoer, p-vrijednost moemo shvatiti kao mjeru usklaenosti nul hipoteze i
opaanja iz uzorka.
Ako je p-vrijednost velika, onda su opaanja iz uzorka konzistentna s nul hipotezom, dok ako je p-vrijednost
malena, onda opaanja iz uzorka ne idu u prilog nul hipotezi.

20
Ako je populacija normalna, onda se testiranje hipoteza o varijanci i standardnoj devijaciji moe provesti
koristei X2 distribuciju.
Ako populacija nema normalnu distribuciju, onda se testiranje hipoteze o sredini populacije moe provesti
koristei centralni granini teorem, ali pritom uzorak treba biti velik.
Najmanja razina znaajnosti potrebna za odbacivanje nul hipoteze dobit e se kad je kritina granica jednaka
vrijednosti test statistike.
Ako je uzorak velik, onda se centralni granini teorem moe koristiti i kod testova o parametru Bernoullijeve
populacije.

21

You might also like