Statistikaa - Teorija Opširno

By: Ivana Lijović
Iz priručnika sa Ekonomskog fakulteta u Puli

Statistika je znanstvena disciplina koja proučava metode prikupljanja, sređivanja, analize i tumačenja
podataka.
Populacija ili statistički skup je skup osoba, stvari, pojava ili drugih objekata, čije osobine istražujemo
statističkom metodom. Članovi populacije zovu se statističke jedinice, a njihov broj zove se veličina
populacije.
Populacija ima pojmovno, prostorno i vremensko određenje.
Pojmovno određenje opisuje kategoriju objekata koji čine populaciju, tj. koje smatramo statističkim
jedinicama.
Prostorno određenje kazuje mjesto ili instituciju kojoj pripadaju statističke jedinice.
Vremensko određenje opisuje vremensko razdoblje ili trenutak u vremenu u kojemu se statističke jedinice
promatraju.
Pojmovno, prostorno i vremensko određenje redom odgovaraju na pitanja što, gdje i kada se promatra.
Promatranje čitave populacije zove se cenzus.

Zbog veličine populacije, njezine nedostupnosti ili visokih troškova prikupljanja podataka, cenzus je cesto teško
ili cak nemoguće provesti.
Dio ili podskup populacije zove se uzorak, postupak formiranja uzorka zove se uzorkovanje, a broj jedinica u
uzorku zove se veličina uzorka.
Uzorak koristimo da bismo saznali nešto o populaciji, pa se uzorak mora pažljivo odabrati, kako bi valjano
predstavljao populaciju.
Ako se uzorak bira nekim slučajnim mehanizmom (npr. slučajnim izvlačenjem listića iz kutije) onda kažemo da
imamo slučajni uzorak. Slučajnost uzorka je garancija da se uzorak neće sistematično razlikovati od
populacije.
Bez obzira kako je uzorak odabran, slučajno ili neslučajno, u poopćavanju osobina uzorka na čitavu populaciju
nužno činimo pogrešku, koja se zove pogreška uzorkovanja.
Što je uzorak veći, to se on manje razlikuje od populacije, pa je i pogreška uzorkovanja manja.
Numerička osobina populacije zove parametar, a numerička osobina uzorka zove se statistika.
U slučaju kada su parametri nepoznati, statistike koristimo za procjenjivanje parametara i za testiranje hipoteza
o parametrima.
Podjela statistike:
 Deskriptivna statistika - obuhvaća postupke sređivanja, tabličnog i grafičkog prikazivanja podataka, te
izračunavanja raznih statističkih pokazatelja, kao sto je npr. aritmetička sredina. Dobiveni rezultati
odnose se isključivo na dane podatke i ne uopćavaju se.
 Inferencijalna statistika - proučava metode kojima se pomoću dijela informacija (uzorka), donosi
zaključak o cjelini (populaciji). Procjenjivanje parametara i testiranje hipoteza su tipični postupci
koji spadaju u inferencijalnu statistiku. Za inferencijalnu statistiku koriste se još nazivi induktivna
statistika, statističko zaključivanje ili metoda uzoraka.
Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda deskriptivne
statistike.
Obično raspolažemo uzorkom, a htjeli bismo nešto saznati o populaciji, pri čemu se koristimo inferencijalnom
statistikom.
Važno je napomenuti da se postupci inferencijalne statistike zasnivaju na pretpostavci da je uzorak slučajan.
Ako imamo neslučajan uzorak, metode inferencijalne statistike se ne mogu primijeniti.
Svojstvo koje posjeduju sve statističke jedinice i koje za različite statističke jedinice može poprimiti različite
vrijednosti ili modalitete zove se statistička varijabla ili statističko obilježje.
Svojstvo koje za sve statističke jedinice ima istu vrijednost, nije varijabla, nego je konstanta.
Vrijednosti statističkih varijabli utvrđuju se mjerenjem, a mjerenje se vrši prema određenoj mjernoj skali.
Mjerenje nekog svojstva je postupak kojim statističkim jedinicama dodjeljujemo brojeve ili druge simbole, tako
da odnosi među brojevima ili simbolima odgovaraju odnosima medu statističkim jedinicama s obzirom na
svojstvo koje se mjeri.
2
Pravilo prema kojemu provodimo mjerenje zove se mjerna skala.
Mjerenje i mjerne skale, te njihov utjecaj na analizu podataka proučava grana primijenjene matematike koja se
zove teorija mjerenja.
Statistika povezuje podatke i zaključke, a teorija mjerenja povezuje podatke i stvarnost.

Poznavanje mjernih skala uvjet je za ispravni izbor statističkih metoda za analizu promatrane pojave.
Najvažnije mjerne skale (nominalna, ordinalna, intervalna, omjerna i apsolutna) tvore hijerarhiju, u
kojoj svaka sljedeća skala uključuje osobine prethodne.
Varijable kojima vrijednost dodjeljujemo na nominalnoj ili ordinalnoj mjernoj skali zovu se kvalitativne ili
kategoričke, a varijable kojima vrijednost dodjeljujemo na ostalim mjernim skalama zovu se kvantitativne ili
numeričke.
Nominalna mjerna skala

Vrijednost na nominalnoj mjernoj skali može biti broj ili bilo koji drugi simbol ili riječ.
Vrijednost na nominalnoj skali predstavlja samo identifikator, naziv ili kategoriju.
Varijabla kojoj vrijednost dodjeljujemo prema nominalnoj mjernoj skali zove se nominalna varijabla.
Primjeri nominalnih varijabli: ime, prezime, mjesto rođenja (osobe), broj indeksa, odjel (studenta), model,
boja (automobila), broj dresa (igrača sportske ekipe) itd.
Za vrijednosti nominalne varijable možemo samo utvrditi da li su jednake ili različite, npr. moguće je utvrditi da li
dvije osobe imaju jednako ili različito ime.
Odnosi koji možda vrijede za vrijednosti na nominalnoj mjernoj skali ne prenose se prirodno na statističke
jedinice, npr. činjenica da jedan igrač ima manji broj dresa od drugog igrača ne govori ništa o odnosu ili ulozi tih
igrača.
Ordinalna mjerna skala

Vrijednost na ordinalnoj mjernoj skali može biti broj ili neki drugi simbol ili riječ.
Vrijednost na ordinalnoj skali izražava redoslijed ili intenzitet.
Varijabla kojoj vrijednost dodjeljujemo prema ordinalnoj mjernoj skali zove se ordinalna varijabla.
Koriste se još nazivi redoslijedna ili rang varijabla.
Primjeri ordinalnih varijabli: ocjena (studenta na ispitu), čin (u vojsci ili policiji), ekonomska razvijenost
(zemlje ili regije).
Vrijednosti ordinalne varijable mogu se poredati po veličini ili intenzitetu.
Premda računske operacije s vrijednostima ordinalne varijable nisu moguće, one se ponekad ipak izvode, pa
tako računamo npr. prosječnu ocjenu položenih ispita.
Intervalna mjerna skala

Pomoću intervalne mjerne skale, statističkim jedinicama se dodjeljuju brojevi tako da razlike među brojevima
odgovaraju razlikama u mjerenom svojstvu.
Primjeri intervalnih varijabli: temperatura u stupnjevima Celsiusa ili Fahrenheita, kalendarska godina.
Položaj nule i mjerna jedinica na intervalnoj skali određeni su dogovorno.
Štoviše, vrijednost nula ne označava nepostojanje promatranog svojstva.
Intervalnoj mjernoj skali pripadaju i tzv. dihotomne ili binarne varijable. To su varijable koje mogu poprimiti
samo dvije različite vrijednosti, kao npr. spol (muško/žensko), pušač/nepušač, punoljetan/maloljetan,
oženjen/neoženjen itd.
Vrijednosti dihotomnih varijabli obično označavamo s 0 i 1.
Zapravo, ako dihotomna varijabla označava prisutnost ili odsutnost nekog svojstva, onda možemo smatrati da ta
varijabla pripada omjernoj ili cak apsolutnoj mjernoj skali.
Slična intervalnoj je log-intervalna mjerna skala koja ima svojstvo da razlikama među brojevima odgovaraju
omjeri u mjerenom svojstvu.
Primjeri: Richterova skala za snagu potresa, pH vrijednost, magnituda (sjaj) nebeskih tijela.
Omjerna mjerna skala

Kod omjerne mjerne skale, statističkim jedinicama se dodjeljuju brojevi tako da razlike i omjeri brojeva
odgovaraju razlikama i omjerima mjerenog svojstva.
Nula na omjernoj skali znači nepostojanje svojstva, ali se mjerna jedinica može proizvoljno birati.
Primjeri omjernih varijabli: duljina, visina, težina, tlak (zraka), trajanje (nekog događaja) itd.
Apsolutna mjerna skala

Jedinicama su dodijeljeni brojevi tako da se sva svojstva brojeva prenose na mjerenu osobinu.
Primjeri: proporcija, razne varijable čija se vrijednost dobije brojanjem (broj djece u obitelji, broj zaposlenih u
poduzeću).
Kod apsolutne mjerne skale nije dozvoljena ni promjena mjerne jedinice.
Podjela numeričkih statističkih varijabli:

 Diskretne ili prekidne - Vrijednost diskretne ili prekidne varijable obično dobijemo brojanjem.
3
Primjeri diskretnih varijabli: broj zaposlenih, broj članova obitelji, broj studenata na nastavi, broj zastoja u radu
stroja.
Diskretne varijable imaju osobinu da im se vrijednost iskazuje određenom najmanjom i nedjeljivom mjernom
jedinicom.
Skup vrijednosti te varijable sastoji se od nenegativnih cijelih brojeva, tj. od brojeva 0; 1; 2; 3; ..
S druge strane, neprekidna ili kontinuirana varijabla može poprimiti bilo koju vrijednost unutar nekog
neprekidnog intervala brojeva.
 Kontinuirane ili neprekidne - Vrijednost neprekidne varijable dobije se mjerenjem nekim mjernim
instrumentom (npr. metar,
vaga, sat, tlakomjer, termometar itd.), i može se iskazati u po volji malenoj mjernoj jedinici (npr. km, m, cm,
mm, m itd.).
Primjeri neprekidnih varijabli: duljina, visina, težina, tlak, količina padalina, temperatura.
Premda u teoriji postoji jasna razlika između diskretnih i neprekidnih varijabli, u praksi se obično radi o
aproksimaciji.
Svaki mjerni instrument ima ograničenu preciznost (npr. najmanja mjerna jedinica koja je označena na metru
kojim mjerimo visinu osobe je milimetar) tako da, premda je promatrana varijabla (visina osobe) neprekidna,
izmjerene vrijednosti neće nikada činiti kontinuum, odnosno bit ce diskretne. Slično tome, ponekad je praktičnije
da se prema diskretnoj varijabli ponašamo kao da je neprekidna.
Statistički podaci mogu se prikupiti direktnim opažanjem. Poseban oblik direktnog opažanja je statistički
eksperiment.
Ako direktno opažanje nije moguće, podatke možemo od ispitanika prikupiti pomoću ankete.
Anketa se sastoji od pitanja na koja ispitanici odgovaraju, te se kao takva koristi za prikupljanje činjenica ili
ispitivanje mišljenja i stavova. Anketa se može provesti kao strukturirani intervju.
Statistički podaci i rezultati statističke analize mogu se prikazati u tri oblika (tekstovno, tablično i grafički).
Tekst se koristi kada treba prikazati svega nekoliko vrijednosti.
Tablice i grafikoni prikazuju podatke koje bi bilo teško ili nemoguće opisati riječima. Tablice se koriste kada
treba precizno prikazati veći skup podataka, ali tablice nisu prikladne za uočavanje pravilnosti, veza ili
uspoređivanje. Za takve potrebe koriste se grafički prikazi.
Svaka tablica i grafikon moraju imati primjeren, informativan opis.

Opis se obično stavlja iznad tablice i ispod grafikona zato sto se tablice čitaju odozgo prema dolje, a grafički
prikazi obrnutim putem. Stupci i redovi u tablici, te koordinatne osi na grafikonima moraju imati jasan naslov, s
naznačenim mjernim jedinicama.
Ako koordinatna os prikazuje kategoričku varijablu, onda vrijednosti (kategorije) varijable trebaju biti upisane
ispod ili pored osi, dok ako os prikazuje numeričku varijablu onda na njoj treba biti odgovarajuće numeričko
mjerilo.
U tekstu treba rezimirati kljucne činjenice koje su prikazane tablicom ili grafikonom.
Ako se takvo rezimiranje čini nepotrebnim, onda se može dovesti u pitanje i potreba da se tablica ili grafikon
uopće nalaze u radu. Kako bi se u tekstu mogli lako pozvati na tablicu ili grafikon, potrebno je da isti budu
označeni jedinstvenim brojem.
Svi opisi koji se tiču tablice ili grafičkog prikaza trebaju biti sto je moguće jednostavniji, ali istovremeno
potpuni, jasni i informativni.
Ako tablica prikazuje originalne podatke onda je potrebno navesti što se mjerilo, gdje su podaci prikupljeni i
kada, dok ako su podaci odnekud preuzeti, npr. iz neke publikacije ili drugog rada, onda treba navesti izvor.
Statistički podaci ne sastoje se od međusobno jednakih vrijednosti, nego od vrijednosti koje su različite, te
koje imaju određeni raspored, raspodjelu ili distribuciju.
Glavne osobine te distribucije jesu:
(a) lokacija ili centralna tendencija,
(b) disperzija ili raspršenje,
(c) oblik, gdje spadaju asimetrija i zaobljenost.
U ispitivanju osobina distribucije koristimo se grafičkim prikazima, kao i numeričkim pokazateljima, koji se
zovu mjere. Tako govorimo o mjerama lokacije, mjerama disperzije i mjerama oblika. Mjere lokacije zovu
se još srednje ili prosječne vrijednosti.
Aritmetička sredina je najvažnija i najpopularnija mjera lokacije i kratko je zovemo sredina ili prosjek. Može
koristiti samo za numeričke podatke, tj. za podatke koji su barem na intervalnoj skali.
4
Dva važna svojstva aritmetičke sredine:
1. Govori o tome koliko aritmetička sredina može biti velika ili malena.
2. govori da je aritmetička sredina težište ili točka ravnoteže podataka.
Aritmetička sredina ne govori ništa o disperziji.

Aritmetička sredina se ne može upotrijebiti s kategoričkim podacima.
Pored aritmetičke, postoje još dvije „sredine" koje se mogu primijeniti na numeričke podatke - geometrijska i
harmonijska sredina.
Harmonijska sredina vrijednosti Xi definira se kao omjer broja vrijednosti i zbroja njihovih recipročnih
vrijednosti.
Aritmetička, geometrijska i harmonijska sredina jednake su samo ako su svi podaci međusobno jednaki.
U protivnom, geometrijska sredina je manja od aritmetičke, a harmonijska sredina je manja od geometrijske.
Disperzija podataka može se mjeriti udaljenošću podataka od aritmetičke sredine. Udaljenost dva broja
obično se definira kao apsolutna vrijednost njihove razlike.
Apsolutne devijacije mogu se koristiti za mjerenje disperzije.

Jedina namjena apsolutne vrijednosti je uklanjanje predznaka devijacije, koji je za udaljenost i disperziju
nevažan.
Varijanca je prosječno kvadratno odstupanje vrijednosti numeričkog obilježja od aritmetičke sredine, to je

aritmetička sredina kvadrata razlike.
Varijanca nema istu mjernu jedinicu kao podaci, već je mjerna jedinica varijance jednaka kvadratnoj mjernoj
jedinici podataka.
Varijanca ce biti jednaka nuli samo u slučaju kada sve devijacije iznose nula, odnosno kada su sve podatkovne
vrijednosti međusobno jednake. Tada uopće nema disperzije. U svakom drugom slučaju, tj. kadgod se medu
podacima nalaze barem dvije različite vrijednosti, varijanca ce biti pozitivna. Po konstrukciji, što je disperzija
veća, to će i vrijednost varijance, odnosno standardne devijacije biti veća.
Devijacija je odstupanje između pojedinog člana niza i srednje vrijednosti.

Standardna devijacija mjeri disperziju podataka oko aritmetičke sredine.
Disperzija je niz devijacija.
Koeficijent varijacije je relativna mjera disperzije, koja nema mjernu jedinicu, jer se kod dijeljenja aritmetičke
sredine sa standardnom devijacijom mjerne jedinice krate.
Koeficijent varijacije je relativan broj koji pokazuje udio standardne devijacije u aritmetičkoj sredini.
Teorem Čebiševa tvrdi da za svaki pozitivan broj k, proporcija podataka udaljenih od aritmetičke sredine manje
od k standardnih
devijacija iznosi barem 1 1/k2
Teorem Čebiševa zapravo koristan samo za udaljenosti veće od jedne standardne devijacije.
Linearna transformacija koristi se kada podacima želimo promijeniti mjernu jedinicu.
Linearna transformacija se može s jednakom namjenom koristiti i za grupirane podatke.
Standardizacija je postupak u kojemu se razlika vrijednosti varijable od njene aritmetičke sredine dijeli sa
standardnom devijacijom. Drugim riječima, standardizacijom se devijacije iskazuju u jedinicama standardne
devijacije.
Nastala varijabla zove se standardizirana varijabla, a njene vrijednosti zovu se standardizirane ili z
vrijednosti.
Standardizirane vrijednosti nemaju mjernu jedinicu, jer se dijeljenjem devijacije i standardne devijacije, koje
imaju istu mjernu jedinicu (npr. metar u slučaju puta kočenja), mjerne jedinice krate.
Mod je vrijednost koja se javlja najveći broj puta.
Medijan je vrijednost koja se nalazi u središtu niza podataka poredanih po veličini, to je oblik ili vrijednost
statističke varijable koja uređeni niz podataka dijeli na dva jednako brojna dijela.
5
Kod medijana se podaci moraju prethodno urediti i to od najmanjeg prema najvećem.
Kvantili su vrijednosti numeričke varijable koji niz uređen po veličini dijele na q jednakih dijelova.
Kvantili koji dijele statistički niz na 4 jednaka dijela nazivaju se kvartilima.
Postoje tri kvartila: prvi ili donji, drugi ili medijan i treći ili gornji.
Kvintili = 0.2, 0.4, 0.6, 0.8

Decili = 0.1, 0.2, 0.3, ..., 0.9
Percentili = 0.01, 0.02, ..., 0.99
Kvantil razine p ili p-kvantil podataka Xi je vrijednost Xp takva da:

(1) proporcija podataka koji su manji ili jednaki od Xp iznosi barem p
(2) proporcija podataka koji su veci ili jednaki od Xp iznosi barem 1 p.
Raspon nekog skupa podataka je razlika između najveće i najmanje vrijednosti u tom skupu podataka.
Kao takav, raspon se ubraja u mjere disperzije.
Interkvartil je razlika između gornjeg i donjeg kvartila. Zovemo ga još i interkvartilni raspon.
Dijagram stabljika može se koristiti za prikaz umjereno velikih skupova numeričkih podataka (od 15 do 150)
vrijednosti.
Zove se i dijagram stablo-list, tj. SL dijagram.
Konstrukciji dijagrama stabljika ponekad prethodi zaokruživanje podataka na određen broj znamenki.
Posljednja značajna znamenka u nekoj podatkovnoj vrijednosti čini list, a sve ostale znamenke, uključujući
predznak, ako je potrebno, čine stabljiku.
Dijagram pravokutnika koristi se za veće skupove numeričkih podataka, isto kao i histogram.
Za izradu dijagram pravokutnika potrebni su: medijan, kvartili, interkvartil, ograda i granične vrijednosti.
Dijagram točaka koristi se za prikaz relativno malih skupova numeričkih podataka (do 30 vrijednosti).
Simetrična distribucija - kada su podaci simetrični na medijan.

Asimetrična distribucija - razlikuje se po:
 smjeru - ako su podaci razvučeni na desnu stranu, kaže se da je distribucija desnostrano ili pozitivno
asimetrična, dok ako su podaci razvučeni na lijevu stranu, kažemo da je distribucija ljevostrano ili
negativno asimetrična.
 jakosti - kod simetrično raspoređenih podataka, donji i gornji kvartil su jednako udaljeni od medijana, dok
je kod pozitivne asimetrije gornji, a kod negativne asimetrije donji kvartil udaljeniji od medijana.
Simetrija i asimetrija utječu na međusoban položaj aritmetičke sredine i medijana. Kod simetrične
distribucije, aritmetička sredina i medijan bit ce (približno) jednaki.
Kod pozitivno asimetrične distribucije, aritmetička sredina bit ce veća od medijana, dok je kod negativno
asimetrične distribucije aritmetička sredina manja od medijana.
Distribucija frekvencija je popis grupa i njihovih frekvencija koji se obično daje u tabličnom obliku, ali se
mogu i u grafičkom.
Distribucije frekvencija nastaju grupiranjem podataka.
Grupiranje je postupak sažimanja podataka, u kojemu se podaci svrstavaju u skupine ili grupe.
Pritom, svaku podatkovnu vrijednost treba svrstati u točno jednu grupu.
Broj, odnosno proporciju podataka u nekoj grupi nazivamo njezinom apsolutnom, odnosno relativnom
frekvencijom.
Ako želimo naglasiti o kojim je frekvencijama riječ, onda koristimo naziv distribucija apsolutnih, odnosno
distribucija relativnih frekvencija. Osim tablično, distribucije frekvencija prikazuju se i grafički.
Apsolutne frekvencije nastaju brojanjem podatkovnih vrijednosti, pa su ni nenegativni cijeli brojevi.

Ako broj podataka nije poznat ne mogu se odrediti apsolutne frekvencije.
Relativna frekvencija je po definiciji jednaka omjeru apsolutne frekvencije i broja podataka.

Relativne frekvencije su nenegativni racionalni brojevi, čiji zbroj iznosi jedan.
6
Često se relativne frekvencije iskazuju u obliku postotka.
Podaci u obliku distribucije frekvencija zovu se još grupirani podaci, a za podatke iz kojih je distribucija
frekvencija nastala kažemo da su negrupirani.
Kategorički podaci se obično grupiraju tako da se grupe sastoje od međusobno jednakih podatkovnih
vrijednosti.
Ako se pritom pojavi veći broj grupa niske frekvencije, onda takve grupe možemo spojiti u jednu grupu.
Ako raspolažemo ordinalnim podacima, onda u prikazu distribucije frekvencija treba vrijednosti varijable
poredati po njihovom intenzitetu, od manjih prema većima ili obrnuto.
Ako imamo nominalne podatke, onda vrijednosti varijable možemo poredati na razne načine, npr. abecednim
redom ili po frekvencijama.
Dijagram stupaca može se koristiti za prikaz apsolutnih (sl. 4.1a) i relativnih frekvencija (sl. 4.1b), a s obzirom
da su apsolutne i relativne frekvencije međusobno proporcionalne, izgled stupaca ne zavisi o vrsti prikazanih
frekvencija.
Sličnu osobinu imaju i drugi grafički prikazi distribucije frekvencija, poput linijskog grafikona, histograma i
poligona frekvencija.
Strukturni krug se sastoji od kružnih isječaka čiji je kut proporcionalan frekvenciji i koristi se obično za prikaz
relativnih frekvencija.
Diskretni numerički podaci grupiraju se gotovo jednako kategoričkim podacima, tj. grupe se sastoje od
međusobno jednakih
vrijednosti.
Postupak prilagođavamo činjenici da radimo s numeričkim podacima, pa tako različite vrijednosti numeričke
varijable uvijek navodimo njihovim prirodnim redom, od manjih prema većima, bez preskakanja onih koje
se u podacima možda ne javljaju.
Ako se diskretni numerički podaci sastoje od velikog broja različitih vrijednosti, koje se vrlo malo ponavljaju
ili se uopće ne ponavljaju, poput podataka o placi, onda se grupiranje provodi kao da je riječ o neprekidnoj
varijabli, tj. koristeći razrede.
Kumulativna apsolutna, odnosno kumulativna relativna frekvencija vrijednosti xi denira se kao zbroj
prvih i apsolutnih, odnosno relativnih frekvencija.
Kumulativne apsolutne frekvencije možemo računati rekurzivno.
Posljednja kumulativna frekvencija jednaka je zbroju svih frekvencija.
Diskretne distribucije uobičajeno grafički prikazujemo linijskim grafikonom ili poligonom frekvencija koji
se mogu koristiti za prikaz apsolutnih i relativnih frekvencija. Oba grafikona sadrže dvije brojevne osi, pri čemu
horizontalna os prikazuje vrijednost numeričke varijable, a vertikalna os frekvenciju.
Linijski grafikon sastoji se od vertikalnih linija koje se protezu od točke (xi; 0) do točke (xi; ni) u slucaju
apsolutnih, odnosno (xi; pi) u slučaju relativnih frekvencija. Do poligona frekvencija dolazimo tako da točke ( xi;
ni), odnosno (xi; pi) spojimo ravnim crtama.
Distribucija frekvencija diskretne numeričke varijable je sažeti zapis podataka, koji se od polaznog niza
negrupiranih podataka razlikuje samo u poretku i koji se može koristiti za brze i jednostavnije izračunavanje
mjera lokacije i disperzije.
Za razliku od negrupiranih podataka, varijancu grupiranih podataka možemo relativno jednostavno

izračunati i koristeći devijacije.
Kod neprekidnih numeričkih podataka gotovo da nema ponavljanja vrijednosti, pa se ti podaci ne mogu
grupirati kao što smo činili dosad, nego se neprekidni numerički podaci grupiraju u razrede.
Grupiranje u razrede provodi se tako da se brojevni interval koji sadrži podatkovne vrijednosti „izreže" na
određen broj podintervala, koje zovemo razredima, a grupe se pritom sastoje od podatkovnih vrijednosti koje
pripadaju istom razredu.
Broj razreda k treba prikladno odabrati. Pritom, čvrstih pravila nema, osim da k ne smije biti prevelik, jer je
grupiranje postupak sažimanja podataka, niti premalen, jer bi se tako izgubili važni detalji. Obično uzimamo k
između 5 i 15, tj. 5 k 15.
Osnovno pravilo grupiranja je da se svaki podatak treba svrstati u točno jednu grupu.
Kod distribucije s razredima, kumulativna apsolutna frekvencija Ni kazuje broj, a kumulativna relativna
frekvencija Pi proporciju podataka manjih ili jednakih gornjoj granici i-tog razreda bi.
7
Da bismo distribuciju s razredima ipak mogli koristiti za određivanje mjera lokacije i disperzije, podatkovne
vrijednosti koje pripadaju istom razredu nadomjestit ćemo razrednom sredinom, tj. aritmetičkom sredinom
granica razreda.
Veličina razreda definira se kao udaljenost između granica razreda.
Frekvencija razreda zavisi o njegovoj veličini, pa je zato korisno frekvenciju staviti u odnos s veličinom
razreda, čime dolazimo do gustoće frekvencije.
Histogram nastaje tako da se nad svakim razredom podigne pravokutnik čija je površina jednaka frekvenciji
razreda.
Iz toga neposredno slijedi da je visina pravokutnika jednaka gustoći frekvencije, te da površina cijelog
histograma, tj. svih njegovih pravokutnika zajedno, iznosi n ili 1, ovisno o tome prikazuje li histogram distribuciju
apsolutnih ili relativnih frekvencija.
Poligon frekvencija distribucije neprekidne numeričke varijable dobije se tako da se polovišta gornjih stranica
pravokutnika histograma spoje ravnim crtama.
Površina svakog pravokutnika histograma jednaka frekvenciji odgovarajućeg razreda.
Medijan se definira kao vrijednost s čije se lijeve i desne strane nalazi polovica podatkovnih vrijednosti, što
znači da ce medijan biti vrijednost koja površinu histograma dijeli na pola.
Razredi ne moraju uvijek biti jednake veličine, pa se koriste razredi različitih veličina (onda se manji razredi
koriste u području gdje su podaci gusti, a veći razredi tamo gdje su podaci rijetki).
Kod distribucije s razredima, medijalni razred je onaj gdje je frekvencija najveća.
Vrijednosti koje imaju veliku težinu jace utječu na iznos vagane aritmetičke sredine od vrijednosti koje imaju
malu težinu, pa se vagana aritmetička sredina koristi za prosjek vrijednosti koje imaju različitu
važnost. Ona se koristi kada broj podataka nije poznat, tj kada ne možemo odrediti apsolutne frekvencije.
Dva važna svojstva vagane aritmetičke sredine.

1. ako su težine međusobno jednake i iznose 1, vagana aritmetička sredina prelazi u nevaganu.
2. ako se težine zamijene njima proporcionalnim težinama, onda se vrijednost vagane aritmetičke sredine ne
mijenja.
Sredina distribucije računa se kao vagana sredina vrijednosti xi i apsolutnih frekvencija ni.
Prave ili precizne granice - kada, u distribuciji s razredima, susjedni razredi imaju zajedničku granicu (to se
postiže smanjivanjem donjih i povećanjem gornjih nominalnih granica razreda, ali ponekad je dovoljno i samo
jedno od toga.
Nominalne granice - ako susjedni razredi nemaju zajedničku granicu.
Otvoren razred - ako razredu nedostaje jedna od granica.
Prije obrade distribucije s razredima, potrebno je približno procijeniti granice otvorenih razreda.
Univarijatni podaci - podaci koji se odnose samo na jednu statističku varijablu.
Bivarijatni podaci - podaci koji se odnose na promatranje dviju statističkih varijabli.

Bivarijatne podatke obično prikupljamo jer nas zanima veza (asocijacija, korelacija, kovarijacija, zavisnost)
između varijabli.
Multuvarijatni podaci - podaci do kojih dolazimo promatranjem dviju ili više statističkih varijabli.
Multivarijatne podatke prikazujemo u tablici sličnoj onoj za bivarijatne podatke, s tim da stupaca u toj tablici ima
koliko i varijabli.
Veze između varijabli:
8
 deterministička (funkcijska) - ako se na osnovu vrijednosti jedne varijable može precizno odrediti
vrijednost druge varijable (npr. količina - plaćeni iznos)
 stohastička (slučajna, statistička) - ako na osnovu vrijednosti jedne varijable nije moguće sasvim
precizno odrediti vrijednosti druge varijable. (npr. vrijeme učenja - ocjena na ispitu).
Dijagram raspršenja - koristi se ako su obje varijable numeričke
Podatkovne vrijednosti prikazuju se kao točke u pravokutnom koordinatnom sustavu.
Veza između varijabli može biti i:

 linearna - ako su točke u dijagramu raspršenja raspoređene oko pravca
 nelinearna - ako su točke raspoređene oko krivulje
 rastuća - porast jedne varijable uglavnom povlači porast (pozitivna)
 padajuća - pad vrijednosti povlači pad (negativna)
Jakost veze govori o tome koliko precizno vrijednost jedne varijable određuje vrijednost druge varijable
Potpuna ili savršena korelacija moguća je samo kod funkcijske veze.
Korelacija se može numerički iskazati raznim koeficijentima, a medu najpoznatijima je Pearsonov koeficijent
linearne korelacije.
Pearsonov koeficijent mjeri isključivo linearnu korelaciju.
Vrijednost Pearsonov koeficijenta kreće se od +1 (savršena pozitivna korelacija) do -1 (savršena negativna
korelacija).
Osnovna mjera linearne korelacije je zapravo kovarijanca, a kovarijanca Sxy numeričkih varijabli X i Y
definira se kao aritmetička sredina produkata njihovih devijacija.
Što je korelacija jača, to ce pozitivni kvadranti sadržavati vise točaka od negativnih, pa će se i vrijednost
kovarijance povećati.
Analogno razmišljanje možemo provesti za negativnu linearnu korelaciju, kod koje ce kovarijanca biti negativna.
U slučaju kad varijable nisu korelirane, broj točaka u svim kvadrantima bit ce približno jednak, što znaci da
ce kovarijanca
biti približno nula.
Kovarijanca može poslužiti za mjerenje (isključivo) linearne korelacije.

Mjernih jedinica se naravno možemo riješiti standardizacijom.
Koecijent linearne korelacije r definira se kao kovarijanca standardiziranih varijabli, on je jednak je omjeru
kovarijance i produkta standardnih devijacija.
Dok predznak koeficijenta linearne korelacije pokazuje smjer, dotle njegova apsolutna vrijednost pokazuje
jakost korelacije.
Ako varijable zamijene uloge, kovarijanca i koeficijent linearne korelacije neće promijeniti vrijednost.
Bivarijatni podaci mogu se grupirati tako da se grupe sastoje od međusobno jednakih parova vrijednosti
promatranih varijabli.
Tablica kontingencije - bivarijatna distribucija frekvencija, služi razvrstavanju statističkih jedinica prema
vrijednostima dvije ili više statističkih varijabli.
Posljednji stupac u tablici zove se marginalni stupac i on sadrži zbroj frekvencija u istom retku, dok se
posljednji redak zove se marginalni redak i u njemu se nalaze zbrojevi frekvencija u istom stupcu.
Zbroj apsolutnih frekvencija svake marginalne distribucije iznosi n.
Univarijatne distribucije u marginalnom retku i stupcu zovemo marginalnim distribucijama.
Tablice kontingencije imaju najveću primjenu upravo kod kategoričkih podataka, jer je tablica kontingencije
osnovno sredstvo za istraživanje veza između kategoričkih varijabli.
Uvjetne distribucije - npr. treći stupac sadrži distribuciju studenata prema smjeru uz uvjet da je ocjena
jednaka 3 i sl.
Zbroj frekvencija uvjetne distribucije jednak je marginalnoj frekvenciji.
Relativne frekvencije se i ovdje dobivaju tako da se apsolutne frekvencije podijele sa svojim zbrojem.
Zajedničke i marginalne relativne frekvencije dobivaju iz apsolutnih dijeljenjem s n, a uvjetne relativne

frekvencije dobivaju se tako da se apsolutne frekvencije podijele s pripadnom marginalnom frekvencijom.
9
Distribuciju bivarijatnih numeričkih podataka također prikazujemo tablicom kontingencije, uz prilagodbe
slične onima koje smo primijetili kod univarijatnih podataka{ npr. ako je jedna od varijabli neprekidna, onda se
njene vrijednosti trebaju grupirati u razrede).
Frekvencije nij i pij zovu se opažene ili empirijske, dok se izrazi ni+n+j=n i pi+p+j zovu očekivane ili teorijske
frekvencije.
Varijable su nezavisne samo ako su opažene frekvencije jednake očekivanima.
Svojstvo nezavisnosti je simetrično.
Zbroj očekivanih frekvencija u istom retku ili stupcu je jednak marginalnoj frekvenciji, a zbroj svih očekivanih
frekvencija iznosi n, odnosno 1.
Svake dvije statističke varijable su manje ili više zavisne, a stupanj njihove zavisnosti mjerimo kao odstupanje
opaženih frekvencija od
očekivanih, upravo tome služi mjera koju zovemo hi-kvadrat, označavamo ju sa X2. X2≥0
2
Cramér je pokazao da je uvijek X ≤ n (min{k,l}-1) pri čemu jednakost vrijedi ako i samo su varijable u funkcijskoj
vezi.
Vjerojatnost - realan broj između 0 i 1 koji predstavlja mogućnost da događaj nastupi.

Teorija vjerojatnosti snažno se oslanja na matematički pojam skupa.
Skup se definira kao kolekcija objekata.
Objekti koji pripadaju skupu nazivaju se njegovim članovima ili elementima.
Svaki skup je u potpunosti određen elementima koji mu pripadaju, tj. dva skupa s jednakim elementima
međusobno su jednaka.
Skupove obično zadajemo vitičastim zagradama između kojih nabrajamo elemente skupa ili navodimo uvjet
koji mora biti ispunjen da
bi neki objekt pripadao skupu.
Skup koji nema elemenata zove se prazan skup.
Ako je svaki element skupa A sadržan u skupu B onda kažemo da je A podskup od B ili da je B nadskup od A.
Prazan skup je podskup svakog skupa i svaki skup je podskup samog sebe.
Osnovne operacije sa skupovima jesu komplement, unija, presjek i razlika.
Vjerojatnost proučava slučajne pokuse.

Slučajni pokus je bilo koji proces ili postupak čiji rezultat ne možemo sigurno predvidjeti, kao npr. bacanje
novčića.
Vjerojatnosti prostor je teorijski model slučajnog pokusa, a on se sastoji od ishoda, događaja i

vjerojatnosne mjere.
Ishod ili elementarni događaj je rezultat slučajnog pokusa koji se ne može rastaviti na manje dijelove.
Skup svih ishoda zove se prostor ishoda ili prostor elementarnih događaja.
Događaj je skup nekih (dakle, ne nužno svih) ishoda. Događaj je podskup od prostora ishoda.
Npr. kod bacanja igraće kocke možemo promatrati događaj „pojavio se paran broj".
Za događaj kažemo da se dogodio ili da je nastupio ako je slučajni pokus rezultirao ishodom koji pripada tom
događaju.
Npr. ako kod bacanje igraće kocke dobijemo broj 6, onda možemo reci da je nastupio događaj „pojavio se paran
broj", ali ne i događaj „pojavio se neparan broj".
Kod svakog slučajnog pokusa vrlo je lako doći do događaja koji sadrže sve ishode ili ne sadrže niti jedan ishod.
Prostor ishoda i prazan skup uvijek smatramo događajima. Također, kako su događaji skupovi, na događaje
možemo primjenjivati sve skupovne operacije.
Skup svih događaja zove se prostor događaja.

Kad je prostor ishoda prebrojiv, tj. kad se njegovi elementi mogu napisati u obliku konačnog ili beskonačnog
niza, svaki podskup od možemo smatrati događajem.
Skup realnih brojeva i svaki njegov neprekinut dio su neprebrojivi, pa već neki jednostavni slučajni pokusi, kao
npr. čekanje gradskog autobusa, imaju neprebrojiv prostor ishoda.
Ako je neprebrojiv, onda moramo postaviti ograničenja na to koje podskupove od smatramo događajima.
10
U svakom slučaju, od prostora događaja F uvijek zahtijevamo da sadrži prazan skup i prostor ishoda , kao
„najmanji" i „najveći" događaj, te da se primjenom osnovnih skupovnih operacija (komplementa, unije, presjeka i
razlike), na konačne i beskonačne nizove događaja ponovno dobiju događaji.
Osnovne operacije sa skupovima:

 komplement - predstavlja negaciju događaja i sastoji se od ishoda koji ne pripadaju tom događaju.
Komplement je involutivna operacija što znači da se komplemetiranjem komplementa ponovno dobiva
polazni događaj.
 unija - sastoji se od ishoda koji pripadaju barem jednom od tih događaja. Unija događaja odgovara
spajanju događaja veznikom „ili". Unija je komutativna operacija.
 presjek - sastoji se od ishoda koji pripadaju svakome od tih događaja. Presjek odgovara spajanju
događaja veznikom „i". Presjek je komutativna operacija.
 razlika - sastoji se od ishoda koji pripadaju događaju A i koji ne pripadaju događaju B. Razlika nije
komutativna operacija. Razlika odgovara spajanju događaja riječi „i nije“.
Operacije i odnosi među skupovima grafički se prikazuju Vennovim dijagramima.
Za događaje čija je unija jednaka kažemo da pokrivaju prostor ishoda.

Dakle, događaji pokrivaju prostor ishoda ako se pri izvođenju slučajnog pokusa mora dogoditi barem jedan od tih
događaja.
Za dva događaja A i B kažemo da su isključivi ili disjunktni ako im je presjek prazan,.

Prema tome, isključivi su oni događaji koji se ne mogu istovremeno dogoditi.
Vjerojatnosna mjera - posljednja sastavnica vjerojatnosnog prostora.

U vjerojatnosnom prostoru, svakom događaju pridružujemo vjerojatnost - realan broj između 0 i 1 koji
predstavlja mogućnost da događaj nastupi. Što je vjerojatnost nekog događaja veća, to smo sigurniji da ce se
događaj dogoditi kod izvođenja slučajnog pokusa.
Događaj čija je vjerojatnost 1 smatramo sigurnim, a događaj čija je vjerojatnost 0 nemogućim.
Vrste vjerojatnosti:
 TEORIJSKA VJEROJATNOST - izračunavamo je na osnovu poznavanja osobina slučajnog pokusa (npr.
kod bacanja igraće kocke mora se dogoditi točno jedna od dvije stvari - „pojavio se paran broj“ ili
„pojavio se neparan broj“. Kako parnih i neparnih brojeva na kocki ima jednako mnogo, ta dva događaja
imaju jednaku mogućnost nastupanja, pa prema tome i jednaku vjerojatnost zbog toga, vjerojatnost
događaja iznosi ½ = 0.5).
 EMPIRIJSKA VJEROJATNOST - možemo je koristiti samo ako je slučajno pokus ponovljiv i ako
raspolažemo rezultatima većeg broja pokusa. Npr. kolika je vjerojatnost da će slučajno odabran student
koji će pristupiti sljedećem ispitu iz statistike dobiti ocjenu izvrstan? To bismo mogli aproksimirat
dugoročnom relativnom frekvencijom studenata. Npr. ako je u posljednjih godinu dana na ispit iz
statistike izašlo 500 studenata među kojima je njih 30 dobilo ocjenu izvrstan onda je tražena vjerojatnost
30/500 = 0.6).
 SUBJEKTIVNA VJEROJATNOST - možemo ju odrediti samo kao stupanj osobnog uvjerenja u nastupanje
tog događaja. Npr. kolika je vjerojatnost da će nogometni klub Istra pobijediti na sljedećoj utakmici?
Rezultat nogometne utakmice može se djelomično predvidjeti na osnovu prethodnih rezultata i sl. Ishod
sljedeće utakmice je najvećim dijelom određen trenutnim stanjem u klubovima - spremnošću ekipa,
brojem ozlijeđenih igrača i sl).
Unatoč različitim definicijama, svaka vjerojatnost ima iste važne osobine. Tako, svaka vjerojatnost ima svojstvo
koje zovemo aditivnost, koje kaže da je vjerojatnost unije dva isključiva događaja jednaka zbroju vjerojatnosti
tih događaja.
Vrste aditivnosti:
 konačna aditivnost
 prebrojiva aditivnost
Vjerojatnosna mjera treba biti prebrojivo aditivna, što znači da je vjerojatnost unije svakog niza, konačnog ili
beskonačnog, isključivih događaja jednaka zbroju vjerojatnosti tih događaja.
Ishodi koji pripadaju nekom događaju nazivaju se povoljnima za taj događaj.
Za neki podskup pravca, ravnine ili prostora kažemo da je izmjeriv ako mu možemo odrediti mjeru, što znaci
duljinu, površinu, ili volumen, koja ne mora nužno biti konačna. Naime, postoje podskupovi pravca, ravnine i
prostora koji nisu izmjerivi, tj. nije moguće dodijeliti im duljinu, površinu ili volumen. Međutim, većina skupova s
kojima se obično susrećemo (intervali, trokuti, pravokutnici, krugovi, poluravnine, kocke, kugle itd.) jesu izmjerivi
skupovi. Prebrojivi skupovi su također izmjerivi, ali njihova mjera iznosi nula.
11
Ako tražimo vjerojatnost složenog događaja, koju ne možemo tako neposredno odrediti, onda trebamo
promatrani događaj prikazati kao komplement, uniju, presjek ili razliku jednostavnijih događaja.
Pritom, važno je poznavati svojstva vjerojatnosti koja se odnose na skupovne operacije.
Primjerice, vjerojatnost je prebrojivo aditivna, što znači da je vjerojatnost unije svakog niza isključivih događaja
jednaka zbroju vjerojatnosti tih događaja.
Formula suprotne vjerojatnosti potvrđuje intuitivno jasno činjenicu da je P(Ǿ) = 0.

Vjerojatnost je uvijek nenegativna.
Vjerojatnost unije svaka dva događaja jednaka je zbroju vjerojatnosti tih događaja umanjenom za vjerojatnost
njihovog presjeka.
Da bismo izračunali vjerojatnost potrebno je odrediti da li su događaju isključivi ili neisključivi i da li su

zavisni ili nezavisni.
Isključivi znači da nemaju presjeka, neisključivi da postoji presjek, zavisni su ako postoji uvjet, a nezavisni su ako
uvjeta nema.
Dva događaja smatramo nezavisnima ako je uvjetna vjerojatnost jednaka bezuvjetnoj, odnosno ako
nastupanje jednog ne mijenja vjerojatnost drugog događaja.
Premda je takva definicija nezavisnosti intuitivno jasna, o uvjetnoj vjerojatnost možemo govoriti samo kada
događaj po kojemu uvjetujemo ima vjerojatnost različitu od nula, pa nezavisnost definiramo na drugačiji, ali
logički ekvivalentan način.
Za događaje A i B kažemo da su nezavisni ako je vjerojatnost presjeka tih događaja jednaka produktu
njihovih vjerojatnosti.
Događaje koje nisu nezavisni zovemo naravno zavisnima.

Zavisnost, odnosno nezavisnost događaja A i B ponekad je jasna iz osobina slučajnog pokusa.
Vjerojatnosno stablo je metoda izračunavanja vjerojatnosti.

Kraj svakog brida vjerojatnosnog stabla upisali smo uvjetnu vjerojatnost događaja na desnom vrhu brida, pod
pretpostavkom da se dogodio događaj na lijevom vrhu brida. Zahvaljujući tome, sada možemo lako izračunati
vjerojatnost prethodno navedenih presjeka.
Svaka dva izabrana događaja u nizu od tri nezavisna događaja trebala također biti nezavisna. Slično tome, može
se pokazati da nezavisnost u parovima događaja A, B, C nije uvijek dovoljna da vjerojatnost presjeka sva tri
događaja bude jednaka produktu vjerojatnosti tih događaja.
Formulu potpune vjerojatnosti primjenjujemo kada se događaj A može realizirati samo zajedno s jednim od
događaja H1;H2; ...;Hn, koji su međusobno disjunkni i u uniji čine čitav prostor elementarnih događaja .
Bayesov teorem je način izračunavanja kako nova informacija o događaju mijenja naša prethodna očekivanja o
vjerojatnosti događaja.
Slučajna varijabla - pravilo koje svakom ishodu slučajnog pokusa pridružuje realan broj.
Primijetimo da unatoč nazivu „varijabla", svaka slučajna varijabla je ustvari funkcija iz prostora ishoda u skup
realnih brojeva R.
Slučajnom varijablom se vjerojatnosna mjera prirodno prenosi na podskupove skupa realnih brojeva.
Zanimljivo je da je distribucija svake slučajne varijable X potpuno određena svojim vrijednostima na intervalima
oblika (-∞,x], pri čemu je x proizvoljan realan broj.
Distribucija (funkcija) vjerojatnosti varijable X je skup uređenih parova vrijednosti varijable X i

vjerojatnosti: (xi, P(xi)), i=1,2,3,...,k
Kumulativna funkcija distribucije predstavlja vjerojatnost da slučajna varijabla X u eksperimentu postigne

vrijednost manju od neke zadane vrijednosti x.
FX ima limes 1 u +∞ i 0 u -∞.
Skup svih vrijednosti slučajne varijable X označit ćemo s RX.
Pri određivanju vjerojatnosti da X pripada skupu B dovoljno je promatrati vrijednosti varijable X u tom skupu.
Podjela slučajnih varijabli:
12
 diskretne ili diskontinuirane (skup vrijednosti RX je prebrojiv, njegovi elementi mogu napisati u obliku
konačnog ili beskonačnog niza.. Teorijske diskretne distribucije:
o binomna distribucija
o poissonova distribucija
o uniformna (jednolika) diskretna distribucija
o hipergeometrijska
 kontinuirane (prebrojive unutar nekog intervala). Teorijske kontinuirane distribucije:
o normalna (Gaussova)distribucija
o hi - kvadrat distribucija
o uniformna (jednolika) kontinuirana distribucija
o eksponencionalna distribucija
o studentova t-distribucija
o F-distribucija
Uvjeti diskretne varijable:

 normativnost
 nenegativnost
Binomna distribucija
 (najjednostavnija) teorijska distribucija za alternativna obilježja.
 pokazuje vjerojatnost događanja međusobno isključivih događaja za svaki broj slučajeva posebno.
 u statistici se model binomne distribucije koristi za rezultate u dihotomnim varijablama u kojima su
podaci tipa točno – netočno, muškarci – žene i sl.
 u svezi je sa Bernoullijevim pokusima
Bernoullijev pokus*
 pokus ima dva ishoda (uspjeh, neuspjeh)
 u svakom ponavljanju pokusa vjerojatnost ishoda ˝uspjeh˝ = p i ne mijenja se od pokušaja do pokušaja.
 vjerojatnost ishoda ˝neuspjeh˝ q= 1 – p
 pokušaji su neovisni.
Poissonova distribucija
 raspodjela vrlo rijetkih slučajnih događaja (kod kojih je vrlo mala vjerojatnost)
 izražava vjerojatnost broja događaja ako se ti događaji pojavljuju u fiksnom vremenskom periodu s
poznatom prosječnom brzinom pojavljivanja i vremenski su nezavisne od prošlog događaja.
 Poissonova distribucija je potpuno definirana aritmetičkom sredinom, jer je njena varijanca jednaka
aritmetičkoj sredini. To znači da je ta distribucija šira što joj je aritmetička sredina veća.
 kada je N vrlo velik, Poissonova distribucija se približava binomnoj, ali je razlika u tome što kod binomne
raspodjele znamo koliko se puta neki događaj pojavio, ali i koliko se puta nije pojavio, a kod Poissonove
raspodjele znamo samo koliko se puta neki događaj
pojavio.
Normalna (Gaussova) distribucija

 u potpunosti ju opisuju dva parametra: aritmetička sredina i varijanca
 zvonolikog je oblika i unimodalna
 simetrična oko aritmetičke sredine
 ukoliko se povećava vrijednost aritmetičke sredine krivulja se pomiče udesno, a ukoliko se vrijednost
aritmetičke sredine smanjuje krivlja se pomiče ulijevo (uz pretpostavku jednake varijance)
 ukoliko se vrijednost varijance povećava krivulja se snižava se i širi, a ukoliko se vrijednost varijance
smanjuje krivlja se povisuje i suzuje (uz nepromijenjenu aritmetičku sredinu)
 aritmetička sredina i medijan poprimaju istu vrijednost.
Normalna ili Gaussova distribucija smatra se najvažnijom distribucijom vjerojatnosti u statistici.

FX strogo rastuća funkcija koja R preslikava na otvoreni interval (0, 1).
Prvi parametar normalne slučajne varijable je njeno očekivanje, a drugi parametar je varijanca.
Dva važna svojstva normalne distribucije:

1. linearna transformacija čuva normalnost
2. zbroj nezavisnih normalnih slučajnih varijabli je ponovno normalna slučajna varijabla.
Standardizacijom normalne slučajne varijable ponovno dobiva normalna slučajna varijabla.
13
Jedan od najvažnijih rezultata teorije vjerojatnosti zove se centralni granični teorem i govori o distribuciji
zbroja slučajnih varijabli.
U načelu, centralni granični teorem tvrdi da zbroj dovoljno velikog broja nezavisnih jednako distribuiranih
slučajnih varijabli ima približno normalnu distribuciju.
Budući da se mnogi praktični problemi svode na izračunavanje zbroja, jasno je da centralni granični teorem i s
njim normalna distribucija imaju veliku primjenu.
Ako je n dovoljno velik, onda slučajna varijabla Zn ima približno standardnu normalnu distribuciju, a kako su Yn i
Zn povezane linearnom transformacijom, slijedi da Yn također ima približno normalnu distribuciju,
Što je n veći, to je aproksimacija bolja.
Ako je n dovoljno velik, onda se binomna distribucija može aproksimirati normalnom.
Studentova ili t-distribucija

 karakteriziraju je stupnjevi slobode
 ima sličan oblik kao normalna distribucija samo što je šira i položenija
 kako raste broj stupnjeva slobode oblikom je sve sličnija normalnoj raspodjeli
 primjenjuje se u računanju intervala pouzdanosti i testiranju hipoteza o razlici između dva uzorka.
Hi - kvadrat distribucija
 distribucija je pozitivnih vrijednosti, zakrivljena u desno
 karakteriziraju je stupnjevi slobode
 oblik distribucije ovisi o broju stupnjeva slobode: kako raste broj stupnjeva slobode distribucija postaje
sve više simetrična i sličnija normalnoj distribuciji
 primjenjuje se u analizi kategorijskih podataka.
 za razliku od normalne distribucije, 2 distribucija je asimetrična, ali asimetrija opada s porastom stupnjeva
slobode.
F - distribucija
 zakrivljena prema desno
 asimetrična je
 distribucija je omjera dvaju varijanci izračunatih iz normalno distribuiranih podataka
 karakteriziraju je stupnjevi slobode brojnika i nazivnika omjera varijanci
 upotrebljava se za usporedbu dvije varijance, kao i za usporedbu više od dvije aritmetičke sredine
analizom varijance.
Funkcija distribucije slučajne varijable X je funkcija koja daje vjerojatnost da će slučajna varijabla X poprimiti vrijednost
jednaku ili manju od nekog realnog broja xk .
FX je nenegativna funkcija.
Funkcija distribucije vjerojatnosti je kumulativna funkcija.
Da bismo odredili FX(x), trebamo znati koje su vrijednosti slučajne varijable X manje ili jednake x,a to naravno
zavisi o tome kakav je broj x. Iz funkcije distribucije može se dobiti funkcija vjerojatnosti diskretne slučajne
varijable.
Distribucije slučajnih varijabli imaju iste osobine kao distribucije numeričkih statističkih varijabli, tj. lokaciju,
disperziju i oblik, koje možemo kvantitativno izraziti.
Tako, mjera lokacije koja za slučajne varijable ima istu namjenu kao aritmetička sredina za numeričke statističke
varijable, zove se očekivanje ili očekivana vrijednost.
Kao što vjerojatnost možemo smatrati dugoročnom relativnom frekvencijom nekog događaja, tako očekivanje
možemo smatrati dugoročnom aritmetičkom sredinom neke slučajne varijable, do koje dolazimo ponavljanjem
slučajnog pokusa velik broj puta.
Slučajne varijable često transformiramo primjenom raznih funkcija.
Očekivanje od Y nazivamo varijancom od X.
Varijanca diskretne slučajne varijable je matematičko očekivanje kvadrata odstupanja slučajne varijable od
očekivanja.
Korijen iz varijance nazivamo standardnom devijacijom.
Standardna devijacija je mjera rasipanja rezultata.
Varijanca i standardna devijacija su mjere disperzije distribucije slučajne varijable.
Najjednostavnija slučajna varijabla je ona koja poprima samo jednu vrijednost.
*Među slučajnim varijabla s dvije vrijednosti, često koristimo one čiji se skup vrijednosti sastoji od brojeva 0 i 1.
Ako je X slučajna varijabla i RX = {0,1} onda se X zove Bernoullijeva slučajna varijabla.
Bernoullijeva distribucija javlja se kod slučajnih pokusa čije ishode dijelimo u dvije skupine.
14
Ishode u jednoj skupini smatramo uspjehom, a one u drugoj skupini neuspjehom.
Takve slučajne pokuse nazivamo Bernoullijevim pokusima.
Ako vjerojatnost uspjeha u Bernoullijevom pokusu iznosi π, onda vjerojatnost neuspjeha iznosi 1 - π, pa ako
slučajna varijabla X uspjehu dodjeljuje vrijednost 1, a neuspjehu vrijednost 0, onda X ima Bernoullijevu
distribuciju s parametrom π.
Članovi statističkih populacija često se dijele u dvije skupine, prema tome posjeduju li ili ne posjeduju određenu
osobinu.
Slučajno biranje jedne statističke jedinice iz takve populacije može se promatrati kao Bernoullijev pokus, a
formiranje slučajnog uzorka, tj. slučajno biranje nekoliko statističkih jedinica, kao niz Bernoullijevih pokusa.
U načelu, neprekidne su one slučajne varijable čiji skup vrijednosti čini interval.
Funkcija gustoće vjerojatnosti jednaka je nuli za realne brojeve koje slučajna varijabla ne poprima.
Kao što smo vidjeli, neprekidne statističke varijable opisuju se gustoćom frekvencije, koju grafički prikazujemo
histogramom, a frekvencija bilo kojeg intervala jednaka je dijelu površine ispod histograma koja odgovara tom
intervalu.
Ono što je frekvencija za statističku varijablu, to je vjerojatnost za slučajnu varijablu.
Stoga, neprekidne slučajne varijable zadavat ćemo putem njihove gustoće vjerojatnosti, a vjerojatnost ćemo
određivati kao površinu ispod grafa gustoće vjerojatnosti. Navedenu ćemo površinu općenito nalaziti
integriranjem.
Zanimljiva osobina neprekidnih slučajnih varijabli je da vjerojatnost da X poprimi točno vrijednost a iznosi 0.
Zbog aditivnosti vjerojatnosti, slijedi da će za svaki prebrojivi skup A biti 0.
Kod neprekidnih slučajnih varijabli, integriranjem funkcije gustoće vjerojatnosti dobiva se funkcija distribucije,
a deriviranjem funkcije distribucije dobiva se funkcija gustoće vjerojatnosti.
Deriviranjem funkcije distribucije dobit ćemo funkciju gustoće vjerojatnosti.
Slučajno biranje realnog broja u intervalu od 0 do 12 možemo predstaviti neprekidnom slučajnom varijablom čija
funkcija gustoće vjerojatnosti ima vrijednost 0 svugdje osim na intervalu od 0 do 12, gdje je ta funkcija
konstantna i ima vrijednost 1=12, koja je jednaka recipročnoj vrijednosti duljine promatranog intervala.
Kod diskretnih slučajnih varijabli koristi zbrajanje, a kod neprekidnih integriranje.

Ne treba zaboraviti da se kod diskretne slučajne varijable X svi zbrojevi vrše po vrijednostima od X koje
zadovoljavaju napisane uvjete.
Medu svim transformacijama koje možemo primijeniti na slučajne varijable, linearna transformacija je
posebno važna.
Slučajne varijable možemo također standardizirati.
Nazivi medijan, kvartili i slični, zadržavaju svoje značenje i kog slučajnih varijabli.
Ako ishodima nekog slučajnog pokusa istovremeno pridružujemo vrijednost dvije slučajne varijable X i Y , onda
zapravo imamo funkciju koja svakom ishodu e pridružuje uređen par realnih brojeva (X(e), Y (e)), koju nazivamo
bivarijatnim slučajnim vektorom, a slučajne varijable X i Y nazivamo njegovim koordinatama ili
komponentama.
Skup vrijednosti slučajnog vektora je skup svih uređenih parova realnih brojeva.
Ako su C i D skupovi, onda skup svih uređenih parova (c, d) takvih da je c element od C i d element od D
nazivamo direktnim ili Kartezijevim produktom skupova C i D.
Distribuciju PX i PY slučajnog vektora (X, Y ) također nazivamo zajedničkom distribucijom slučajnih varijabli
X i Y , a distribucije PX i PY nazivamo njihovim marginalnim distribucijama. Iz zajedničke distribucije možemo
lako dobiti marginalne.
Za slučajni vektor kažemo da je diskretan ako je skup njegovih vrijednosti prebrojiv.

Nije teško zaključiti da je (X,Y) diskretan slučajni vektor ako i samo ako su X i Y diskretne slučajne varijable.
15
Funkciju FX,Y koja svakom uređenom paru (x, y) realnih brojeva pridružuje vjerojatnost nazivamo funkcijom
distribucije slučajnog vektora (X,Y ).
FX,Y je nenegativna funkcija.
FX,Y nazivamo zajedničkom, a fX i fY marginalnim funkcijama vjerojatnosti slučajnih varijabli X i Y .
Marginalne funkcije distribucije mogli bismo odrediti i iz marginalnih funkcija vjerojatnosti.
Zbrajanjem vjerojatnosti u istom retku, odnosno stupcu tablice kontingencije dobiti ćemo vrijednost marginalne
funkcije vjerojatnosti slučajne varijable X, odnosno Y.
Neprekidni slučajni vektori imaju funkciju gustoće vjerojatnosti.

Funkcija gustoće vjerojatnosti neprekidnog bivarijatnog slučajnog vektora je realna funkcija dvije realne
varijable, čiji je graf ploha u prostoru, a vjerojatnost se određuje kao volumen ispod te plohe, koji općenito
nalazimo dvostrukim integralom.
Funkciju gustoće vjerojatnosti možemo dobiti deriviranjem funkcije distribucije.
Jedna od najvažnijih funkcija koje možemo primijeniti na dvije slučajne varijable X i Y , definirane na istom
prostoru ishoda, je upravo zbroj.
Budući da vrijednost zbroja ne zavisi o poretku pribrojnika, svejedno je zbrajamo li po retcima ili stupcima te
tablice.
Aditivnost očekivanja - očekivanje zbroja svake dvije slučajne varijable X i Y , definirane na istom prostoru
ishoda, jednako je zbroju njihovih očekivanja.
Sjetimo se da očekivanje ima i svojstvo homogenosti, a za operaciju koja je istovremeno aditivna i homogena,
kažemo da je linearna.
Pored očekivanja, mnoge važne matematičke operacije imaju svojstvo linearnosti (zbrojevi, limesi, derivacije,
integrali i druge).
Varijanca je po definiciji jednaka očekivanju kvadratne devijacije.

Varijanca zbroja općenito nije jednaka zbroju varijanci.
Kovarijancu možemo shvatiti kao funkciju koja svakom paru slučajnih varijabli (X,Y) pridružuje broj.
Dakle, kovarijanca je funkcija od dvije varijable ili dva argumenta.
Kovarijanca je linearna, tj. aditivna i homogena, u svakom svojem argumentu, pa se kaže da je kovarijanca
bilinearna.
Zbog simetričnosti, linearnost je dovoljno provjeriti u npr.drugom argumentu.
Kovarijanca je simetrična.
Kovarijanca neke varijable sa samom sobom je varijanca te varijable.
Kovarijancu možemo dobiti tako da od očekivanja produkta oduzmemo produkt očekivanja.
Kovarijacijska matrica je simetrična na njenoj se glavnoj dijagonali nalaze varijance slučajnih varijabli X i Y .
Varijanca zbroja PXi jednaka je naravno zbroju svih elemenata kovarijacijske matrice.
Za slučajne varijable X1,X2,..,Xn kažemo da su nekorelirane ako su svi elementi izvan glavne dijagonale
kovarijacijske matrice tih slučajnig varijabli jednaki 0. Drugim riječima, kovarijacijska matrica je dijagonalna.
Varijanca zbroja nekoreliranih slučajnih varijabli jednaka je zbroju njihovih varijanci..
Korelacijska matrica je simetrična matrica reda n, na čijoj su glavnoj dijagonali jedinice.
Nekorelirane slučajne varijable ne moraju biti nezavisne.
Koeficijent linearne korelacije je simetričan i koeficijent linearne korelacije slučajne varijable sa samom sobom
iznosi 1.
Za dvije slučajne varijable kažemo da su nezavisne ako su njihove uvjetne distribucije jednake marginalnima.
Zajednička funkcija vjerojatnosti nezavisnih diskretnih slučajnih varijabli jednaka je produktu njihovih
marginalnih funkcija vjerojatnosti.
Vjerojatnosna mjera jednoznačno određena funkcijom distribucije.
Nezavisne slučajne varijable su nekorelirane.
Funkcije nezavisnih slučajnih varijabli su nezavisne i očekivanje produkta konačno mnogo nezavisnih slučajnih
varijabli jednako je produktu očekivanja tih varijabli.
Kod neprekidnih slučajnih varijabli, deriviranjem funkcije distribucije dobiva se funkcija gustoće
vjerojatnosti, a integriranjem funkcije gustoće vjerojatnosti dobiva se funkcija distribucije, pa će dvije
neprekidne slučajne varijable biti nezavisne samo ako im
je zajednička funkcija gustoće vjerojatnosti jednaka produktu marginalnih funkcija gustoće vjerojatnosti.
Dvije važne osobine nezavisnih slučajnih varijabli:

 Funkcije nezavisnih slučajnih varijabli su također nezavisne
16
 ako su X i Y nezavisne slučajne varijable, onda je očekivanje produkta nezavisnih slučajnih varijabli
jednako je produktu njihovih očekivanja.
Inferencijalna statistika ili statističko zaključivanje bavi se donošenjem zaključaka o populaciji na osnovu
uzorka.
Da bismo u tom postupku mogli koristiti teoriju vjerojatnosti, uzorak treba biti slučajan, što znači da odluku o
tome koje ce statističke jedinice biti uključene u uzorak donosimo na slučajan način, npr. nasumičnim
izvlačenjem listića iz kutije ili generiranjem slučajnih brojeva na računalu.
Prema tome, slučajnih uzorak veličine n možemo smatrati ishodom slučajnog pokusa u kojemu smo na slučajan
način odabrali n statističkih jedinica iz zadane populacije.
Ako nije drugačije naznačeno, pod uzorkom ćemo ovdje uvijek smatrati slučajnih uzorak, a pod uzorkovanjem
smatrat ćemo proces formiranja slučajnog uzorka.
Uzorkovanje se u načelu možemo provesti na dva načina - s ponavljanjem i bez ponavljanja.

Kod oba oblika uzorkovanja, statističke jedinice biramo jednu po jednu.
Međutim, dok kod uzorkovanja s ponavljanjem jedna te ista statistička jedinica može biti uključena u uzorak više
puta, dotle kod uzorkovanja bez ponavljanja svaka statistička jedinica može biti uključena u uzorak najviše
jednom.
Ako uzorkovanje vršimo npr. izvlačenjem listića iz kutije, onda uzorkovanje s ponavljanjem odgovara izvlačenju
listića s vraćanjem, a uzorkovanje bez ponavljanja odgovara izvlačenju listića bez vraćanja.
U praksi se uzorkovanje redovito provodi bez ponavljanja.

Premda je matematička teorija uzorkovanja s ponavljanjem jednostavnija, uzorkovanje bez ponavljanja je bolje
od uzorkovanja s ponavljanjem, jer je uzorak bez ponavljanja sličniji populaciji od uzorka s ponavljanjem iste
veličine.
Ako uzorkovanje vršimo bez ponavljanja, onda će uzorak biti doslovce jednak populaciji, što se ne mora
dogoditi ako se uzorkovanje vršimo s ponavljanjem.
Statističke jedinice promatramo zato što nas zanima jedna ili vise njihovih osobina.
Primjerice, ako promatramo ljude, onda nas može zanimati spol, visina, težina, političko usmjerenje i tome
slično.
Vrijednosti takvih osobina imaju distribuciju, a numeričke karakteristike te distribucije zovu se parametri
populacije.
Tako, ako smo za čitavu populaciju osoba odredili proporciju žena ili prosječnu visinu, onda ta proporcija i prosjek
jesu parametri populacije. Parametre populacije označavat ćemo grčkim slovima.
Za potrebe uzorkovanja, populaciju identificiramo s nekom distribucijom vjerojatnosti, i to onom koju bismo
dobili kada bismo iz populacije slučajnog odabrali jednu statističku jedinicu.
Ako o populaciji možemo razmišljati kao o distribuciji vjerojatnosti, kako da razmišljamo o slučajnom uzorku?
Općenito, o slučajnom uzorku trebamo razmišljati kao o multivarijatnom slučajnom vektoru.
Naime, ako imamo prethodno opisanu populaciju osoba, u kojoj promatramo spol, onda će slučajnih uzorak
veličine n biti ishod slučajnog pokusa u kojemu smo na slučajan način odabrali n osoba.
Prostor ishoda tog slučajnog pokusa je skup svih slučajnih uzoraka veličine n koje možemo formirati iz te
populacije.
Distribucija slučajnih varijabli jednaka je distribuciji populacije.

Kod uzorkovanja s ponavljanjem, slučajnih uzorak veličine n je niz od n nezavisnih slučajnih varijabli čija je
distribucija jednaka distribuciji populacije.
Ako se uzorkovanje vrši bez ponavljanja, onda svaku sljedeću osobu u uzorku biramo iz skupa koji broji sve
manje osoba.
Zbog toga su slučajne varijable X1;X2; : : : ;Xn sada zavisne.
Marginalna distribucija tih slučajnih varijabli i dalje je jednaka distribuciji populacije.
Razlika između uzorkovanja s ponavljanjem i bez ponavljanja nije u marginalnoj distribuciji slučajnih varijabli
X1;X2; : : : ;Xn, nego u tome da su kod uzorkovanja s ponavljanjem te slučajne varijable nezavisne, a kod
uzorkovanja bez ponavljanja zavisne.
Uzorak se u tom smislu smatra malenim ako njegova veličina ne prelazi 5% veličine populacije.
Primjerice, ako iz populaciji od N = 1000 osoba biramo uzorak bez ponavljanja od najviše n = 50 osoba, onda
promatranja u uzorku možemo smatrati nezavisnima.
17
Osim što su populacije obično velike u odnosu na uzorak, neke oblike prikupljanja podataka možemo promatrati
kao uzorkovanje iz zamišljene beskonačne populacije.
To se događa ako podatke prikupljamo provođenjem eksperimenta, kojega više puta ponavljamo pod istim
uvjetima, a zamišljena populacija se pritom sastoji od svih mogućih rezultata tog eksperimenta.
Primjerice, uzmimo da želimo ispitati ispravnost igraće kocke, tj. osobinu kocke da se prilikom bacanja svaki broj
na kocki javlja s jednakom vjerojatnošću. Ispitivanje možemo provesti tako da kocku bacimo n puta, pri čemu je
n dovoljno velik broj i pritom promatramo relativne frekvencije pojedinih brojeva na kocki.
Ako su te relativne frekvencije približno jednake, onda nemamo razloga sumnjati u ispravnost kocke, dok ako su
one izrazito različite, onda kocka vjerojatno nije ispravna.
Populacija se ovdje sastoji od svih mogućih bacanja igraće kocke, što naravno nije realna, nego zamišljena
populacija, a možemo je predočiti diskretnom distribucijom vjerojatnosti koja se dobije jednim bacanjem igraće
kocke.
Rezultati ispitivanja, tj. N bacanja igraće kocke bit će slučajne varijable X1;X2; : : : ;Xn koje su nezavisne i
distribuirane su jednako kao populacija.
Prema tome, različiti oblici uzorkovanja i prikupljanja podataka vode do istog matematičkog modela, pa ćemo
pod slučajnim uzorkom veličine n podrazumijevati niz od n nezavisnih jednako distribuiranih slučajnih varijabli
X1;X2; : : : ;Xn, čija je distribucija jednaka distribuciji populacije.
Svaka transformacija slučajnog uzorka bit će također slučajna varijabla, čiju distribuciju vjerojatnosti nazivamo
distribucijom uzorkovanja. Ako Y ne zavisi o nepoznatim parametrima populacije, onda takvu slučajnu
varijablu nazivamo statistikom.
Dvije najvažnije statistike jesu aritmetička sredina uzorka i varijanca uzorka.
Osim aritmetičke sredine i varijance, često se koristi i proporcija uzorka.
Očekivanje aritmetičke sredine uzorka jednako je očekivanju populacije, a varijanca aritmetičke sredine uzorka
je n puta manja od varijance populacije.
Dijeljenje zbroja kvadratnih devijacija s n - 1, odnosno množenje varijance uzorka s n=(n - 1) poznato je pod
nazivom Besselova korekcija, a s2 nazivamo korigiranom varijancom uzorka.
Ako populacija ima normalnu distribuciju, onda varijanca uzorka ima dva važna svojstva:
1. ako populacija ima normalnu distribuciju, onda su statistike X i S2 nezavisne, a slučajna varijabla ima 2
distribuciju s n - 1 stupnjeva slobode.
2. Z ima standardnu normalnu distribuciju
Ako populacija nema normalnu distribuciju, onda prema centralnom graničnom teoremu, P Xi i X imaju
približno normalnu distribuciju kada je n dovoljno velik.
Proporcija uzorka je ustvari aritmetička sredina uzorka iz Bernoullijeve populacije.
Uzorak i njegove statistike koristimo da bismo saznali nešto o populaciji.

Tako sredinu i varijancu uzorka možemo upotrijebiti da bismo procijenili, tj. približno odredili sredinu i varijancu
populacije (nakon što odaberemo slučajni uzorak, izračunavamo sredinu i varijancu uzorka i dobivene rezultate
smatramo približnim vrijednostima sredine i varijance populacije).
Statistiku koju koristimo s ciljem približnog određivanja parametra populacije nazivamo procjeniteljem.
Dakle, aritmetičku sredinu uzorka možemo koristiti kao procjenitelj sredine populacije, a varijancu uzorka kao
procjenitelj varijance populacije.
Nakon što odaberemo uzorak, izračunavamo vrijednost procjenitelja, koju nazivamo procjenom.
Ako parametar procijenimo jednim brojem ili jednom točkom na brojevnom pravcu, takve procjenitelje i procjene
nazivamo točkovnima.
Za procjenitelj kažemo da je konzistentan ako vjerojatnost da je procjenitelj dovoljno blizu parametra teži k 1
kada veličina uzorka n teži k+∞. Drugim riječima, ako je procjenitelj konzistentan, onda smo praktički sigurni da
je vrijednost procjenitelja dovoljno blizu parametra populacije kada je uzorak dovoljno velik.
Aritmetička sredina je konzistentan procjenitelj sredine populacije, a varijanca uzorka je
konzistentan procjenitelj varijance populacije.
Procjenitelji koji nisu konzistentni su nepoželjni, jer čak za veliki uzorak, vrijednost takvog procjenitelja može
biti jako udaljena od parametra.
Kako prepoznati konzistentan procjenitelj? Jedan način da utvrdimo da je neki procjenitelj konzistentan je
koristeći srednju kvadratnu pogrešku.
Osim ispitivanja konzistentnosti, srednja kvadratna pogreška nam služi i kao mjera kvalitete procjenitelja.
18
Ako možemo birati između više procjenitelja istog parametra, onda biramo onaj s najmanjom srednjom
kvadratnom pogreškom.
Srednja kvadratna pogreška procjenitelja jednaka je zbroju njegove varijance i kvadrata pristranosti.
Ako pristranost procjenitelja iznosi 0 onda za procjenitelj T kažemo da je nepristran.
Procjenitelj koji nije nepristran zove se pristran.
Da bismo dobili potpuniju sliku o pravoj vrijednosti parametra, umjesto točkovne procjene možemo koristiti
intervalnu procjenu, pri čemu određujemo interval brojeva koji bi trebao sadržavati nepoznati parametar.
Prije svega, uočimo da svaki parametar populacije ima određen skup mogućih vrijednosti koji se zove prostor
parametra.
Primjerice, prostor parametra Bernoullijeve distribucije je otvoreni interval (0, 1), dok normalna distribucija ima
dva parametra, očekivanje i varijancu.
Intervalni procjenitelj ili interval povjerenja parametra θ je interval čije granice V i W mogu zavisiti o
slučajnom uzorku, ali ne i o nepoznatim parametrima.
Ako su obje granice intervala C slučajne, onda za C kažemo da je dvosmjerni ili dvostrani interval
povjerenja.
Ako se gornja granica intervala povjerenja podudara s gornjom granicom prostora parametra, onda za V kažemo
da je donja granica povjerenja za θ, a interval C nazivamo gornjim intervalom povjerenja.
Gornji i donji interval povjerenja zovu se jednosmjerni ili jednostrani intervali povjerenja.
Prema tome, interval povjerenja C za parametar treba imati osobinu da je 2 C s velikom vjerojatnošću, tj. P( 2 C)
treba biti blizu 1. Navedena vjerojatnost može zavisiti o stvarnoj vrijednosti parametra, a najmanja takva
vjerojatnost zove se razina povjerenja od C.
Druga osobina intervala povjerenja koja nas zanima je njegova duljina. Što je interval kraći, to je procjena
preciznija.
Dakle, dobar interval povjerenja treba biti malen i treba imati visoku razinu povjerenja.
Razina povjerenja i veličina intervala su u rastućoj vezi, tj. povećanjem razine povjerenja povećava se i interval
povjerenja i obratno.
Način izrade intervala povjerenja zasniva se na korištenju pivota ili uporišta.

Pivot je slučajna varijabla koja zavisi o slučajnom uzorku X1;X2; : : : ;Xn i parametru θ, ali čija distribucija
vjerojatnosti ne zavisi o θ.
Za interval povjerenja kažemo da je jednakorepan, jer kvantili u1 i u2 omeđuju jednaku površinu α/2 ispod
lijevog i desnog „repa" funkcije gustoće vjerojatnosti od U.
Jednakorepni interval povjerenja nije uvijek najkraći, ali ga svejedno koristimo zbog njegove jednostavnosti.
Sredina uzorka X ima normalnu distribuciju s očekivanjem i varijancom.
Margina pogreške zavisi o razini povjerenja, standardnoj devijaciji populacije i o veličini uzorka.
Što je razina povjerenja veća, to ce kvantil biti veći, pa će margina pogreške također biti veća.
Slično je sa standardnom devijacijom, odnosno disperzijom populacije.
Što populacija ima veću disperziju, to je margina pogreške veća.
S druge strane, Što je uzorak veći, to je margina pogreške manja.
Međutim, valja primijetiti da margina pogreške pada s korijenom veličine uzorka.
Granice jednostranih intervala povjerenja imaju isti oblik kao granice dvostranog intervala povjerenja.
U primjeni se najčešće javljaju upravo dvostrani intervali povjerenja.
Korjenovanjem granica intervala povjerenja za varijancu dobiti ćemo granice intervala povjerenja za standardnu
devijaciju.
Slučajna varijabla ima približnu standardnu normalnu distribuciju kad je n velik.
Statistička hipoteza je tvrdnja o distribuciji populacije, a testiranje hipoteza je postupak u kojemu pomoću
uzorka provjeravamo je li takva tvrdnja istinita ili lažna.
Testiranje hipoteza razvili su J. Neyman i E. Pearson.
Statističke hipoteze često imaju oblik tvrdnje o jednom ili više parametara populacije.
Hipoteza u kojoj parametar poprima samo jednu vrijednost zove se jednostavna, a hipoteza koja nije
jednostavna zove se složena.
19
Svaki postupak testiranja hipoteza ima dvije hipoteze, jednu od kojih nazivamo nul hipotezom, a drugu
alternativnom hipotezom.
Nul hipotezu označavamo s H0, a alternativnu s H1.
Kao nul hipotezu uglavnom biramo tvrdnju za koju želimo pokazati da je lažna, dok tvrdnju za koju bismo htjeli
pokazati da je istinita stavljamo u alternativnu hipotezu.
Također, nul hipoteza obično označava početno stanje, izostanak učinka ili nepotrebnost poduzimanja neke
aktivnosti, a alternativna hipoteza tvrdi da je došlo do promjene, da postoji učinak ili da je potrebno nešto
poduzeti.
Test u kojemu alternativna hipoteza ima oblik θ ≠ θ0 zove se dvostrani ili dvosmjerni, a test u kojemu
alternativna hipoteza ima oblik θ > θ0 ili θ < θ0 zove se jednostrani ili jednosmjerni.
Nul hipoteza u jednostranom testu može se izraziti u obliku nejednakosti.

Međutim, to ne mijenja način kako se test provodi, pa ćemo nul hipotezu uglavnom pisati kao jednostavnu
hipotezu.
U testiranju hipoteza, nul hipotezu suočavamo s dokazima koje pruža uzorak.

Ako su opažanja iz uzorka u skladu s nul hipotezom, onda nul hipotezu ne možemo proglasiti neistinitom.
Međutim, ako su opažanja iz uzorka u očiglednom neskladu s nul hipotezom, onda nul hipotezu odbacujemo kao
neistinitu u korist alternativne hipoteze.
Odluka o odbacivanju ili neodbacivanju nul hipoteze donosi se na temelju unaprijed zadanog kriterija odluke,
kojega formiramo prije uzimanja uzorka.
Kriterij odluke sastoji se od neke prikladno odabrane statistike i skupa vrijednosti te statistike koje dovode do
odbacivanja nul hipoteze.
Statistika koju koristimo u kriteriju odluke zove se test statistika ili test veličina, a skup vrijednosti test
statistike koje vode do odbacivanja nul hipoteze zove se područje odbacivanja ili kritično područje.
Prema tome, ako nakon uzimanja uzorka vrijednost test statistike ude u kritično područje, onda odbacujemo nul
hipotezu, te kažemo da je vrijednost test statistike značajna ili signikantna.
Kritično područje je obično omeđeno jednim ili dvjema brojevima, koje nazivamo kritičnim granicama.
Test statistika može uči u kritično područje premda je nul hipoteza istinita, što znači da ćemo odbaciti istinitu nul
hipotezu i to nazivamo pogreškom tipa I ili pogreškom odbacivanja.
S druge strane, ako je nul hipoteza neistinita, test statistika ne mora nužno učinak u kritično područje i ako se to
ne dogodi, neistinita nul hipoteza se neće odbaciti, sto zovemo pogreškom tipa II ili pogreškom
neodbacivanja.
Kriterij odluke u svakom testiranju hipoteza trebamo formirati tako da vjerojatnost pogreške bilo kojeg tipa bude
što je moguće manja. Jasno je da vjerojatnost pogreške odbacivanja zavisi o veličini kritičnog područja,
odnosno vjerojatnost pogreške odbacivanja možemo smanjiti tako da smanjimo kritično područje.
Međutim, time očiglednom povećavamo vjerojatnost da se nul hipoteza ne odbaci, neovisno o njenoj istinitosti.
Dakle, smanjivanjem vjerojatnosti pogreške jednog tipa povećavamo se vjerojatnost pogreške drugog
tipa.
Vjerojatnost pogreški oba tipa možemo istovremeno smanjiti samo uzimanjem većeg uzorka.
Vjerojatnost pogreške u testiranju hipoteza zavisi o stvarnoj vrijednosti parametra kojega testiramo, a najveća
vjerojatnost pogreške odbacivanja zove se razina značajnosti ili signikantnosti testa i označavamo se s α.
Razina značajnosti treba biti malen pozitivan broj.
Koraci u testiranju hipoteza:

1. Postaviti nul i alternativnu hipotezu.
2. Odabrati razinu značajnosti.
3. Odabrati test veličinu.
4. Odrediti kritično područje prema alternativnoj hipotezi.
5. Provesti uzorkovanje i izračunati vrijednost test veličine.
6. Donijeti odluku o odbacivanju ili neodbacivanju nul hipoteze.
Povećanjem razine značajnosti povećavamo i kritično područje, pa time i mogućnost da nul hipoteza bude
odbačena.
Korisno je stoga znati najmanju razinu značajnosti potrebnu za odbacivanje nul hipoteze, koju zovemo p-
vrijednost i koju ćemo označiti s p.
Budući da se p-vrijednost definira kao najmanja razina značajnosti pri kojoj dolazi do odbacivanja nul
hipoteze, slijedi da se nul hipoteza odbacuje ako je α ≥ p, dok ako je α < p onda se nul hipoteza ne odbacuje.
Prema tome, poznavajući p-vrijednost nekog testa, odluku o odbacivanju ili neodbacivanju možemo donijeti za
bilo koju razinu značajnosti. Također, p-vrijednost možemo shvatiti kao mjeru usklađenosti nul hipoteze i
opažanja iz uzorka.
Ako je p-vrijednost velika, onda su opažanja iz uzorka konzistentna s nul hipotezom, dok ako je p-vrijednost
malena, onda opažanja iz uzorka ne idu u prilog nul hipotezi.
20
Ako je populacija normalna, onda se testiranje hipoteza o varijanci i standardnoj devijaciji može provesti
koristeći X2 distribuciju.
Ako populacija nema normalnu distribuciju, onda se testiranje hipoteze o sredini populacije može provesti
koristeći centralni granični teorem, ali pritom uzorak treba biti velik.
Najmanja razina značajnosti potrebna za odbacivanje nul hipoteze dobit će se kad je kritična granica jednaka
vrijednosti test statistike.
Ako je uzorak velik, onda se centralni granični teorem može koristiti i kod testova o parametru Bernoullijeve
populacije.
21

Statistikaa - Teorija Opširno

Uploaded by

Document Information

Original Title

Copyright

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Statistikaa - Teorija Opširno

Uploaded by

Copyright:

By: Ivana Lijović

Iz priručnika sa Ekonomskog fakulteta u Puli

Promatranje čitave populacije zove se cenzus.

Statistika povezuje podatke i zaključke, a teorija mjerenja povezuje podatke i stvarnost.

Nominalna mjerna skala

Ordinalna mjerna skala

Intervalna mjerna skala

Omjerna mjerna skala

Apsolutna mjerna skala

Podjela numeričkih statističkih varijabli:

Svaka tablica i grafikon moraju imati primjeren, informativan opis.

Aritmetička sredina ne govori ništa o disperziji.

Apsolutne devijacije mogu se koristiti za mjerenje disperzije.

Varijanca je prosječno kvadratno odstupanje vrijednosti numeričkog obilježja od aritmetičke sredine, to je

Devijacija je odstupanje između pojedinog člana niza i srednje vrijednosti.

Disperzija je niz devijacija.

Mod je vrijednost koja se javlja najveći broj puta.

Kvintili = 0.2, 0.4, 0.6, 0.8

Kvantil razine p ili p-kvantil podataka Xi je vrijednost Xp takva da:

Simetrična distribucija - kada su podaci simetrični na medijan.

Apsolutne frekvencije nastaju brojanjem podatkovnih vrijednosti, pa su ni nenegativni cijeli brojevi.

Relativna frekvencija je po definiciji jednaka omjeru apsolutne frekvencije i broja podataka.

Za razliku od negrupiranih podataka, varijancu grupiranih podataka možemo relativno jednostavno

Veličina razreda definira se kao udaljenost između granica razreda.

Površina svakog pravokutnika histograma jednaka frekvenciji odgovarajućeg razreda.

Kod distribucije s razredima, medijalni razred je onaj gdje je frekvencija najveća.

Dva važna svojstva vagane aritmetičke sredine.

Univarijatni podaci - podaci koji se odnose samo na jednu statističku varijablu.

Bivarijatni podaci - podaci koji se odnose na promatranje dviju statističkih varijabli.

Veze između varijabli:

Dijagram raspršenja - koristi se ako su obje varijable numeričke

Podatkovne vrijednosti prikazuju se kao točke u pravokutnom koordinatnom sustavu.

Veza između varijabli može biti i:

Potpuna ili savršena korelacija moguća je samo kod funkcijske veze.

Kovarijanca može poslužiti za mjerenje (isključivo) linearne korelacije.

Zajedničke i marginalne relativne frekvencije dobivaju iz apsolutnih dijeljenjem s n, a uvjetne relativne

Vjerojatnost - realan broj između 0 i 1 koji predstavlja mogućnost da događaj nastupi.

Vjerojatnost proučava slučajne pokuse.

Vjerojatnosti prostor je teorijski model slučajnog pokusa, a on se sastoji od ishoda, događaja i

Skup svih događaja zove se prostor događaja.

Osnovne operacije sa skupovima:

Operacije i odnosi među skupovima grafički se prikazuju Vennovim dijagramima.

Za događaje čija je unija jednaka kažemo da pokrivaju prostor ishoda.

Za dva događaja A i B kažemo da su isključivi ili disjunktni ako im je presjek prazan,.

Vjerojatnosna mjera - posljednja sastavnica vjerojatnosnog prostora.

Formula suprotne vjerojatnosti potvrđuje intuitivno jasno činjenicu da je P(Ǿ) = 0.

Da bismo izračunali vjerojatnost potrebno je odrediti da li su događaju isključivi ili neisključivi i da li su

Događaje koje nisu nezavisni zovemo naravno zavisnima.

Vjerojatnosno stablo je metoda izračunavanja vjerojatnosti.

Distribucija (funkcija) vjerojatnosti varijable X je skup uređenih parova vrijednosti varijable X i

Kumulativna funkcija distribucije predstavlja vjerojatnost da slučajna varijabla X u eksperimentu postigne

FX ima limes 1 u +∞ i 0 u -∞.

Skup svih vrijednosti slučajne varijable X označit ćemo s RX.

Podjela slučajnih varijabli:

Uvjeti diskretne varijable:

Normalna (Gaussova) distribucija

Normalna ili Gaussova distribucija smatra se najvažnijom distribucijom vjerojatnosti u statistici.

Dva važna svojstva normalne distribucije:

Standardizacijom normalne slučajne varijable ponovno dobiva normalna slučajna varijabla.

Studentova ili t-distribucija

Slučajne varijable često transformiramo primjenom raznih funkcija.

Očekivanje od Y nazivamo varijancom od X.

Najjednostavnija slučajna varijabla je ona koja poprima samo jednu vrijednost.

Kod diskretnih slučajnih varijabli koristi zbrajanje, a kod neprekidnih integriranje.

Slučajne varijable možemo također standardizirati.

Za slučajni vektor kažemo da je diskretan ako je skup njegovih vrijednosti prebrojiv.