Professional Documents
Culture Documents
Statistikaa - Teorija Opširno
Statistikaa - Teorija Opširno
Populacija ili statistički skup je skup osoba, stvari, pojava ili drugih objekata, čije osobine istražujemo
statističkom metodom. Članovi populacije zovu se statističke jedinice, a njihov broj zove se veličina
populacije.
Populacija ima pojmovno, prostorno i vremensko određenje.
Pojmovno određenje opisuje kategoriju objekata koji čine populaciju, tj. koje smatramo statističkim
jedinicama.
Prostorno određenje kazuje mjesto ili instituciju kojoj pripadaju statističke jedinice.
Vremensko određenje opisuje vremensko razdoblje ili trenutak u vremenu u kojemu se statističke jedinice
promatraju.
Pojmovno, prostorno i vremensko određenje redom odgovaraju na pitanja što, gdje i kada se promatra.
Dio ili podskup populacije zove se uzorak, postupak formiranja uzorka zove se uzorkovanje, a broj jedinica u
uzorku zove se veličina uzorka.
Uzorak koristimo da bismo saznali nešto o populaciji, pa se uzorak mora pažljivo odabrati, kako bi valjano
predstavljao populaciju.
Ako se uzorak bira nekim slučajnim mehanizmom (npr. slučajnim izvlačenjem listića iz kutije) onda kažemo da
imamo slučajni uzorak. Slučajnost uzorka je garancija da se uzorak neće sistematično razlikovati od
populacije.
Bez obzira kako je uzorak odabran, slučajno ili neslučajno, u poopćavanju osobina uzorka na čitavu populaciju
nužno činimo pogrešku, koja se zove pogreška uzorkovanja.
Što je uzorak veći, to se on manje razlikuje od populacije, pa je i pogreška uzorkovanja manja.
Numerička osobina populacije zove parametar, a numerička osobina uzorka zove se statistika.
U slučaju kada su parametri nepoznati, statistike koristimo za procjenjivanje parametara i za testiranje hipoteza
o parametrima.
Podjela statistike:
Deskriptivna statistika - obuhvaća postupke sređivanja, tabličnog i grafičkog prikazivanja podataka, te
izračunavanja raznih statističkih pokazatelja, kao sto je npr. aritmetička sredina. Dobiveni rezultati
odnose se isključivo na dane podatke i ne uopćavaju se.
Inferencijalna statistika - proučava metode kojima se pomoću dijela informacija (uzorka), donosi
zaključak o cjelini (populaciji). Procjenjivanje parametara i testiranje hipoteza su tipični postupci
koji spadaju u inferencijalnu statistiku. Za inferencijalnu statistiku koriste se još nazivi induktivna
statistika, statističko zaključivanje ili metoda uzoraka.
Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda deskriptivne
statistike.
Obično raspolažemo uzorkom, a htjeli bismo nešto saznati o populaciji, pri čemu se koristimo inferencijalnom
statistikom.
Važno je napomenuti da se postupci inferencijalne statistike zasnivaju na pretpostavci da je uzorak slučajan.
Ako imamo neslučajan uzorak, metode inferencijalne statistike se ne mogu primijeniti.
Svojstvo koje posjeduju sve statističke jedinice i koje za različite statističke jedinice može poprimiti različite
vrijednosti ili modalitete zove se statistička varijabla ili statističko obilježje.
Svojstvo koje za sve statističke jedinice ima istu vrijednost, nije varijabla, nego je konstanta.
Vrijednosti statističkih varijabli utvrđuju se mjerenjem, a mjerenje se vrši prema određenoj mjernoj skali.
Mjerenje nekog svojstva je postupak kojim statističkim jedinicama dodjeljujemo brojeve ili druge simbole, tako
da odnosi među brojevima ili simbolima odgovaraju odnosima medu statističkim jedinicama s obzirom na
svojstvo koje se mjeri.
2
Pravilo prema kojemu provodimo mjerenje zove se mjerna skala.
Mjerenje i mjerne skale, te njihov utjecaj na analizu podataka proučava grana primijenjene matematike koja se
zove teorija mjerenja.
Varijable kojima vrijednost dodjeljujemo na nominalnoj ili ordinalnoj mjernoj skali zovu se kvalitativne ili
kategoričke, a varijable kojima vrijednost dodjeljujemo na ostalim mjernim skalama zovu se kvantitativne ili
numeričke.
3
Primjeri diskretnih varijabli: broj zaposlenih, broj članova obitelji, broj studenata na nastavi, broj zastoja u radu
stroja.
Diskretne varijable imaju osobinu da im se vrijednost iskazuje određenom najmanjom i nedjeljivom mjernom
jedinicom.
Skup vrijednosti te varijable sastoji se od nenegativnih cijelih brojeva, tj. od brojeva 0; 1; 2; 3; ..
S druge strane, neprekidna ili kontinuirana varijabla može poprimiti bilo koju vrijednost unutar nekog
neprekidnog intervala brojeva.
Kontinuirane ili neprekidne - Vrijednost neprekidne varijable dobije se mjerenjem nekim mjernim
instrumentom (npr. metar,
vaga, sat, tlakomjer, termometar itd.), i može se iskazati u po volji malenoj mjernoj jedinici (npr. km, m, cm,
mm, m itd.).
Primjeri neprekidnih varijabli: duljina, visina, težina, tlak, količina padalina, temperatura.
Premda u teoriji postoji jasna razlika između diskretnih i neprekidnih varijabli, u praksi se obično radi o
aproksimaciji.
Svaki mjerni instrument ima ograničenu preciznost (npr. najmanja mjerna jedinica koja je označena na metru
kojim mjerimo visinu osobe je milimetar) tako da, premda je promatrana varijabla (visina osobe) neprekidna,
izmjerene vrijednosti neće nikada činiti kontinuum, odnosno bit ce diskretne. Slično tome, ponekad je praktičnije
da se prema diskretnoj varijabli ponašamo kao da je neprekidna.
Statistički podaci mogu se prikupiti direktnim opažanjem. Poseban oblik direktnog opažanja je statistički
eksperiment.
Ako direktno opažanje nije moguće, podatke možemo od ispitanika prikupiti pomoću ankete.
Anketa se sastoji od pitanja na koja ispitanici odgovaraju, te se kao takva koristi za prikupljanje činjenica ili
ispitivanje mišljenja i stavova. Anketa se može provesti kao strukturirani intervju.
Statistički podaci i rezultati statističke analize mogu se prikazati u tri oblika (tekstovno, tablično i grafički).
Tekst se koristi kada treba prikazati svega nekoliko vrijednosti.
Tablice i grafikoni prikazuju podatke koje bi bilo teško ili nemoguće opisati riječima. Tablice se koriste kada
treba precizno prikazati veći skup podataka, ali tablice nisu prikladne za uočavanje pravilnosti, veza ili
uspoređivanje. Za takve potrebe koriste se grafički prikazi.
Statistički podaci ne sastoje se od međusobno jednakih vrijednosti, nego od vrijednosti koje su različite, te
koje imaju određeni raspored, raspodjelu ili distribuciju.
Glavne osobine te distribucije jesu:
(a) lokacija ili centralna tendencija,
(b) disperzija ili raspršenje,
(c) oblik, gdje spadaju asimetrija i zaobljenost.
U ispitivanju osobina distribucije koristimo se grafičkim prikazima, kao i numeričkim pokazateljima, koji se
zovu mjere. Tako govorimo o mjerama lokacije, mjerama disperzije i mjerama oblika. Mjere lokacije zovu
se još srednje ili prosječne vrijednosti.
Aritmetička sredina je najvažnija i najpopularnija mjera lokacije i kratko je zovemo sredina ili prosjek. Može
koristiti samo za numeričke podatke, tj. za podatke koji su barem na intervalnoj skali.
4
Dva važna svojstva aritmetičke sredine:
1. Govori o tome koliko aritmetička sredina može biti velika ili malena.
2. govori da je aritmetička sredina težište ili točka ravnoteže podataka.
Pored aritmetičke, postoje još dvije „sredine" koje se mogu primijeniti na numeričke podatke - geometrijska i
harmonijska sredina.
Harmonijska sredina vrijednosti Xi definira se kao omjer broja vrijednosti i zbroja njihovih recipročnih
vrijednosti.
Aritmetička, geometrijska i harmonijska sredina jednake su samo ako su svi podaci međusobno jednaki.
U protivnom, geometrijska sredina je manja od aritmetičke, a harmonijska sredina je manja od geometrijske.
Disperzija podataka može se mjeriti udaljenošću podataka od aritmetičke sredine. Udaljenost dva broja
obično se definira kao apsolutna vrijednost njihove razlike.
Koeficijent varijacije je relativna mjera disperzije, koja nema mjernu jedinicu, jer se kod dijeljenja aritmetičke
sredine sa standardnom devijacijom mjerne jedinice krate.
Koeficijent varijacije je relativan broj koji pokazuje udio standardne devijacije u aritmetičkoj sredini.
Teorem Čebiševa tvrdi da za svaki pozitivan broj k, proporcija podataka udaljenih od aritmetičke sredine manje
od k standardnih
devijacija iznosi barem 1 1/k2
Teorem Čebiševa zapravo koristan samo za udaljenosti veće od jedne standardne devijacije.
Linearna transformacija koristi se kada podacima želimo promijeniti mjernu jedinicu.
Linearna transformacija se može s jednakom namjenom koristiti i za grupirane podatke.
Standardizacija je postupak u kojemu se razlika vrijednosti varijable od njene aritmetičke sredine dijeli sa
standardnom devijacijom. Drugim riječima, standardizacijom se devijacije iskazuju u jedinicama standardne
devijacije.
Nastala varijabla zove se standardizirana varijabla, a njene vrijednosti zovu se standardizirane ili z
vrijednosti.
Standardizirane vrijednosti nemaju mjernu jedinicu, jer se dijeljenjem devijacije i standardne devijacije, koje
imaju istu mjernu jedinicu (npr. metar u slučaju puta kočenja), mjerne jedinice krate.
Medijan je vrijednost koja se nalazi u središtu niza podataka poredanih po veličini, to je oblik ili vrijednost
statističke varijable koja uređeni niz podataka dijeli na dva jednako brojna dijela.
5
Kod medijana se podaci moraju prethodno urediti i to od najmanjeg prema najvećem.
Kvantili su vrijednosti numeričke varijable koji niz uređen po veličini dijele na q jednakih dijelova.
Kvantili koji dijele statistički niz na 4 jednaka dijela nazivaju se kvartilima.
Postoje tri kvartila: prvi ili donji, drugi ili medijan i treći ili gornji.
Raspon nekog skupa podataka je razlika između najveće i najmanje vrijednosti u tom skupu podataka.
Kao takav, raspon se ubraja u mjere disperzije.
Interkvartil je razlika između gornjeg i donjeg kvartila. Zovemo ga još i interkvartilni raspon.
Dijagram stabljika može se koristiti za prikaz umjereno velikih skupova numeričkih podataka (od 15 do 150)
vrijednosti.
Zove se i dijagram stablo-list, tj. SL dijagram.
Konstrukciji dijagrama stabljika ponekad prethodi zaokruživanje podataka na određen broj znamenki.
Posljednja značajna znamenka u nekoj podatkovnoj vrijednosti čini list, a sve ostale znamenke, uključujući
predznak, ako je potrebno, čine stabljiku.
Dijagram pravokutnika koristi se za veće skupove numeričkih podataka, isto kao i histogram.
Za izradu dijagram pravokutnika potrebni su: medijan, kvartili, interkvartil, ograda i granične vrijednosti.
Dijagram točaka koristi se za prikaz relativno malih skupova numeričkih podataka (do 30 vrijednosti).
Simetrija i asimetrija utječu na međusoban položaj aritmetičke sredine i medijana. Kod simetrične
distribucije, aritmetička sredina i medijan bit ce (približno) jednaki.
Kod pozitivno asimetrične distribucije, aritmetička sredina bit ce veća od medijana, dok je kod negativno
asimetrične distribucije aritmetička sredina manja od medijana.
Distribucija frekvencija je popis grupa i njihovih frekvencija koji se obično daje u tabličnom obliku, ali se
mogu i u grafičkom.
Distribucije frekvencija nastaju grupiranjem podataka.
Grupiranje je postupak sažimanja podataka, u kojemu se podaci svrstavaju u skupine ili grupe.
Pritom, svaku podatkovnu vrijednost treba svrstati u točno jednu grupu.
Broj, odnosno proporciju podataka u nekoj grupi nazivamo njezinom apsolutnom, odnosno relativnom
frekvencijom.
Ako želimo naglasiti o kojim je frekvencijama riječ, onda koristimo naziv distribucija apsolutnih, odnosno
distribucija relativnih frekvencija. Osim tablično, distribucije frekvencija prikazuju se i grafički.
6
Često se relativne frekvencije iskazuju u obliku postotka.
Podaci u obliku distribucije frekvencija zovu se još grupirani podaci, a za podatke iz kojih je distribucija
frekvencija nastala kažemo da su negrupirani.
Kategorički podaci se obično grupiraju tako da se grupe sastoje od međusobno jednakih podatkovnih
vrijednosti.
Ako se pritom pojavi veći broj grupa niske frekvencije, onda takve grupe možemo spojiti u jednu grupu.
Ako raspolažemo ordinalnim podacima, onda u prikazu distribucije frekvencija treba vrijednosti varijable
poredati po njihovom intenzitetu, od manjih prema većima ili obrnuto.
Ako imamo nominalne podatke, onda vrijednosti varijable možemo poredati na razne načine, npr. abecednim
redom ili po frekvencijama.
Dijagram stupaca može se koristiti za prikaz apsolutnih (sl. 4.1a) i relativnih frekvencija (sl. 4.1b), a s obzirom
da su apsolutne i relativne frekvencije međusobno proporcionalne, izgled stupaca ne zavisi o vrsti prikazanih
frekvencija.
Sličnu osobinu imaju i drugi grafički prikazi distribucije frekvencija, poput linijskog grafikona, histograma i
poligona frekvencija.
Strukturni krug se sastoji od kružnih isječaka čiji je kut proporcionalan frekvenciji i koristi se obično za prikaz
relativnih frekvencija.
Diskretni numerički podaci grupiraju se gotovo jednako kategoričkim podacima, tj. grupe se sastoje od
međusobno jednakih
vrijednosti.
Postupak prilagođavamo činjenici da radimo s numeričkim podacima, pa tako različite vrijednosti numeričke
varijable uvijek navodimo njihovim prirodnim redom, od manjih prema većima, bez preskakanja onih koje
se u podacima možda ne javljaju.
Ako se diskretni numerički podaci sastoje od velikog broja različitih vrijednosti, koje se vrlo malo ponavljaju
ili se uopće ne ponavljaju, poput podataka o placi, onda se grupiranje provodi kao da je riječ o neprekidnoj
varijabli, tj. koristeći razrede.
Kumulativna apsolutna, odnosno kumulativna relativna frekvencija vrijednosti xi denira se kao zbroj
prvih i apsolutnih, odnosno relativnih frekvencija.
Kumulativne apsolutne frekvencije možemo računati rekurzivno.
Posljednja kumulativna frekvencija jednaka je zbroju svih frekvencija.
Diskretne distribucije uobičajeno grafički prikazujemo linijskim grafikonom ili poligonom frekvencija koji
se mogu koristiti za prikaz apsolutnih i relativnih frekvencija. Oba grafikona sadrže dvije brojevne osi, pri čemu
horizontalna os prikazuje vrijednost numeričke varijable, a vertikalna os frekvenciju.
Linijski grafikon sastoji se od vertikalnih linija koje se protezu od točke (xi; 0) do točke (xi; ni) u slucaju
apsolutnih, odnosno (xi; pi) u slučaju relativnih frekvencija. Do poligona frekvencija dolazimo tako da točke ( xi;
ni), odnosno (xi; pi) spojimo ravnim crtama.
Distribucija frekvencija diskretne numeričke varijable je sažeti zapis podataka, koji se od polaznog niza
negrupiranih podataka razlikuje samo u poretku i koji se može koristiti za brze i jednostavnije izračunavanje
mjera lokacije i disperzije.
Kod neprekidnih numeričkih podataka gotovo da nema ponavljanja vrijednosti, pa se ti podaci ne mogu
grupirati kao što smo činili dosad, nego se neprekidni numerički podaci grupiraju u razrede.
Grupiranje u razrede provodi se tako da se brojevni interval koji sadrži podatkovne vrijednosti „izreže" na
određen broj podintervala, koje zovemo razredima, a grupe se pritom sastoje od podatkovnih vrijednosti koje
pripadaju istom razredu.
Broj razreda k treba prikladno odabrati. Pritom, čvrstih pravila nema, osim da k ne smije biti prevelik, jer je
grupiranje postupak sažimanja podataka, niti premalen, jer bi se tako izgubili važni detalji. Obično uzimamo k
između 5 i 15, tj. 5 k 15.
Osnovno pravilo grupiranja je da se svaki podatak treba svrstati u točno jednu grupu.
Kod distribucije s razredima, kumulativna apsolutna frekvencija Ni kazuje broj, a kumulativna relativna
frekvencija Pi proporciju podataka manjih ili jednakih gornjoj granici i-tog razreda bi.
7
Da bismo distribuciju s razredima ipak mogli koristiti za određivanje mjera lokacije i disperzije, podatkovne
vrijednosti koje pripadaju istom razredu nadomjestit ćemo razrednom sredinom, tj. aritmetičkom sredinom
granica razreda.
Frekvencija razreda zavisi o njegovoj veličini, pa je zato korisno frekvenciju staviti u odnos s veličinom
razreda, čime dolazimo do gustoće frekvencije.
Histogram nastaje tako da se nad svakim razredom podigne pravokutnik čija je površina jednaka frekvenciji
razreda.
Iz toga neposredno slijedi da je visina pravokutnika jednaka gustoći frekvencije, te da površina cijelog
histograma, tj. svih njegovih pravokutnika zajedno, iznosi n ili 1, ovisno o tome prikazuje li histogram distribuciju
apsolutnih ili relativnih frekvencija.
Poligon frekvencija distribucije neprekidne numeričke varijable dobije se tako da se polovišta gornjih stranica
pravokutnika histograma spoje ravnim crtama.
Medijan se definira kao vrijednost s čije se lijeve i desne strane nalazi polovica podatkovnih vrijednosti, što
znači da ce medijan biti vrijednost koja površinu histograma dijeli na pola.
Razredi ne moraju uvijek biti jednake veličine, pa se koriste razredi različitih veličina (onda se manji razredi
koriste u području gdje su podaci gusti, a veći razredi tamo gdje su podaci rijetki).
Vrijednosti koje imaju veliku težinu jace utječu na iznos vagane aritmetičke sredine od vrijednosti koje imaju
malu težinu, pa se vagana aritmetička sredina koristi za prosjek vrijednosti koje imaju različitu
važnost. Ona se koristi kada broj podataka nije poznat, tj kada ne možemo odrediti apsolutne frekvencije.
Sredina distribucije računa se kao vagana sredina vrijednosti xi i apsolutnih frekvencija ni.
Prave ili precizne granice - kada, u distribuciji s razredima, susjedni razredi imaju zajedničku granicu (to se
postiže smanjivanjem donjih i povećanjem gornjih nominalnih granica razreda, ali ponekad je dovoljno i samo
jedno od toga.
Nominalne granice - ako susjedni razredi nemaju zajedničku granicu.
Otvoren razred - ako razredu nedostaje jedna od granica.
Prije obrade distribucije s razredima, potrebno je približno procijeniti granice otvorenih razreda.
Multuvarijatni podaci - podaci do kojih dolazimo promatranjem dviju ili više statističkih varijabli.
Multivarijatne podatke prikazujemo u tablici sličnoj onoj za bivarijatne podatke, s tim da stupaca u toj tablici ima
koliko i varijabli.
8
deterministička (funkcijska) - ako se na osnovu vrijednosti jedne varijable može precizno odrediti
vrijednost druge varijable (npr. količina - plaćeni iznos)
stohastička (slučajna, statistička) - ako na osnovu vrijednosti jedne varijable nije moguće sasvim
precizno odrediti vrijednosti druge varijable. (npr. vrijeme učenja - ocjena na ispitu).
Jakost veze govori o tome koliko precizno vrijednost jedne varijable određuje vrijednost druge varijable
Korelacija se može numerički iskazati raznim koeficijentima, a medu najpoznatijima je Pearsonov koeficijent
linearne korelacije.
Pearsonov koeficijent mjeri isključivo linearnu korelaciju.
Vrijednost Pearsonov koeficijenta kreće se od +1 (savršena pozitivna korelacija) do -1 (savršena negativna
korelacija).
Osnovna mjera linearne korelacije je zapravo kovarijanca, a kovarijanca Sxy numeričkih varijabli X i Y
definira se kao aritmetička sredina produkata njihovih devijacija.
Što je korelacija jača, to ce pozitivni kvadranti sadržavati vise točaka od negativnih, pa će se i vrijednost
kovarijance povećati.
Analogno razmišljanje možemo provesti za negativnu linearnu korelaciju, kod koje ce kovarijanca biti negativna.
U slučaju kad varijable nisu korelirane, broj točaka u svim kvadrantima bit ce približno jednak, što znaci da
ce kovarijanca
biti približno nula.
Koecijent linearne korelacije r definira se kao kovarijanca standardiziranih varijabli, on je jednak je omjeru
kovarijance i produkta standardnih devijacija.
Dok predznak koeficijenta linearne korelacije pokazuje smjer, dotle njegova apsolutna vrijednost pokazuje
jakost korelacije.
Ako varijable zamijene uloge, kovarijanca i koeficijent linearne korelacije neće promijeniti vrijednost.
Bivarijatni podaci mogu se grupirati tako da se grupe sastoje od međusobno jednakih parova vrijednosti
promatranih varijabli.
Tablica kontingencije - bivarijatna distribucija frekvencija, služi razvrstavanju statističkih jedinica prema
vrijednostima dvije ili više statističkih varijabli.
Posljednji stupac u tablici zove se marginalni stupac i on sadrži zbroj frekvencija u istom retku, dok se
posljednji redak zove se marginalni redak i u njemu se nalaze zbrojevi frekvencija u istom stupcu.
Zbroj apsolutnih frekvencija svake marginalne distribucije iznosi n.
Univarijatne distribucije u marginalnom retku i stupcu zovemo marginalnim distribucijama.
Tablice kontingencije imaju najveću primjenu upravo kod kategoričkih podataka, jer je tablica kontingencije
osnovno sredstvo za istraživanje veza između kategoričkih varijabli.
Uvjetne distribucije - npr. treći stupac sadrži distribuciju studenata prema smjeru uz uvjet da je ocjena
jednaka 3 i sl.
Zbroj frekvencija uvjetne distribucije jednak je marginalnoj frekvenciji.
Relativne frekvencije se i ovdje dobivaju tako da se apsolutne frekvencije podijele sa svojim zbrojem.
9
Distribuciju bivarijatnih numeričkih podataka također prikazujemo tablicom kontingencije, uz prilagodbe
slične onima koje smo primijetili kod univarijatnih podataka{ npr. ako je jedna od varijabli neprekidna, onda se
njene vrijednosti trebaju grupirati u razrede).
Frekvencije nij i pij zovu se opažene ili empirijske, dok se izrazi ni+n+j=n i pi+p+j zovu očekivane ili teorijske
frekvencije.
Varijable su nezavisne samo ako su opažene frekvencije jednake očekivanima.
Svojstvo nezavisnosti je simetrično.
Zbroj očekivanih frekvencija u istom retku ili stupcu je jednak marginalnoj frekvenciji, a zbroj svih očekivanih
frekvencija iznosi n, odnosno 1.
Svake dvije statističke varijable su manje ili više zavisne, a stupanj njihove zavisnosti mjerimo kao odstupanje
opaženih frekvencija od
očekivanih, upravo tome služi mjera koju zovemo hi-kvadrat, označavamo ju sa X2. X2≥0
2
Cramér je pokazao da je uvijek X ≤ n (min{k,l}-1) pri čemu jednakost vrijedi ako i samo su varijable u funkcijskoj
vezi.
Ishod ili elementarni događaj je rezultat slučajnog pokusa koji se ne može rastaviti na manje dijelove.
Skup svih ishoda zove se prostor ishoda ili prostor elementarnih događaja.
Događaj je skup nekih (dakle, ne nužno svih) ishoda. Događaj je podskup od prostora ishoda.
Npr. kod bacanja igraće kocke možemo promatrati događaj „pojavio se paran broj".
Za događaj kažemo da se dogodio ili da je nastupio ako je slučajni pokus rezultirao ishodom koji pripada tom
događaju.
Npr. ako kod bacanje igraće kocke dobijemo broj 6, onda možemo reci da je nastupio događaj „pojavio se paran
broj", ali ne i događaj „pojavio se neparan broj".
Kod svakog slučajnog pokusa vrlo je lako doći do događaja koji sadrže sve ishode ili ne sadrže niti jedan ishod.
Prostor ishoda i prazan skup uvijek smatramo događajima. Također, kako su događaji skupovi, na događaje
možemo primjenjivati sve skupovne operacije.
Skup realnih brojeva i svaki njegov neprekinut dio su neprebrojivi, pa već neki jednostavni slučajni pokusi, kao
npr. čekanje gradskog autobusa, imaju neprebrojiv prostor ishoda.
Ako je neprebrojiv, onda moramo postaviti ograničenja na to koje podskupove od smatramo događajima.
10
U svakom slučaju, od prostora događaja F uvijek zahtijevamo da sadrži prazan skup i prostor ishoda , kao
„najmanji" i „najveći" događaj, te da se primjenom osnovnih skupovnih operacija (komplementa, unije, presjeka i
razlike), na konačne i beskonačne nizove događaja ponovno dobiju događaji.
Vrste vjerojatnosti:
TEORIJSKA VJEROJATNOST - izračunavamo je na osnovu poznavanja osobina slučajnog pokusa (npr.
kod bacanja igraće kocke mora se dogoditi točno jedna od dvije stvari - „pojavio se paran broj“ ili
„pojavio se neparan broj“. Kako parnih i neparnih brojeva na kocki ima jednako mnogo, ta dva događaja
imaju jednaku mogućnost nastupanja, pa prema tome i jednaku vjerojatnost zbog toga, vjerojatnost
događaja iznosi ½ = 0.5).
EMPIRIJSKA VJEROJATNOST - možemo je koristiti samo ako je slučajno pokus ponovljiv i ako
raspolažemo rezultatima većeg broja pokusa. Npr. kolika je vjerojatnost da će slučajno odabran student
koji će pristupiti sljedećem ispitu iz statistike dobiti ocjenu izvrstan? To bismo mogli aproksimirat
dugoročnom relativnom frekvencijom studenata. Npr. ako je u posljednjih godinu dana na ispit iz
statistike izašlo 500 studenata među kojima je njih 30 dobilo ocjenu izvrstan onda je tražena vjerojatnost
30/500 = 0.6).
SUBJEKTIVNA VJEROJATNOST - možemo ju odrediti samo kao stupanj osobnog uvjerenja u nastupanje
tog događaja. Npr. kolika je vjerojatnost da će nogometni klub Istra pobijediti na sljedećoj utakmici?
Rezultat nogometne utakmice može se djelomično predvidjeti na osnovu prethodnih rezultata i sl. Ishod
sljedeće utakmice je najvećim dijelom određen trenutnim stanjem u klubovima - spremnošću ekipa,
brojem ozlijeđenih igrača i sl).
Unatoč različitim definicijama, svaka vjerojatnost ima iste važne osobine. Tako, svaka vjerojatnost ima svojstvo
koje zovemo aditivnost, koje kaže da je vjerojatnost unije dva isključiva događaja jednaka zbroju vjerojatnosti
tih događaja.
Vrste aditivnosti:
konačna aditivnost
prebrojiva aditivnost
Vjerojatnosna mjera treba biti prebrojivo aditivna, što znači da je vjerojatnost unije svakog niza, konačnog ili
beskonačnog, isključivih događaja jednaka zbroju vjerojatnosti tih događaja.
Ishodi koji pripadaju nekom događaju nazivaju se povoljnima za taj događaj.
Za neki podskup pravca, ravnine ili prostora kažemo da je izmjeriv ako mu možemo odrediti mjeru, što znaci
duljinu, površinu, ili volumen, koja ne mora nužno biti konačna. Naime, postoje podskupovi pravca, ravnine i
prostora koji nisu izmjerivi, tj. nije moguće dodijeliti im duljinu, površinu ili volumen. Međutim, većina skupova s
kojima se obično susrećemo (intervali, trokuti, pravokutnici, krugovi, poluravnine, kocke, kugle itd.) jesu izmjerivi
skupovi. Prebrojivi skupovi su također izmjerivi, ali njihova mjera iznosi nula.
11
Ako tražimo vjerojatnost složenog događaja, koju ne možemo tako neposredno odrediti, onda trebamo
promatrani događaj prikazati kao komplement, uniju, presjek ili razliku jednostavnijih događaja.
Pritom, važno je poznavati svojstva vjerojatnosti koja se odnose na skupovne operacije.
Primjerice, vjerojatnost je prebrojivo aditivna, što znači da je vjerojatnost unije svakog niza isključivih događaja
jednaka zbroju vjerojatnosti tih događaja.
Svaka dva izabrana događaja u nizu od tri nezavisna događaja trebala također biti nezavisna. Slično tome, može
se pokazati da nezavisnost u parovima događaja A, B, C nije uvijek dovoljna da vjerojatnost presjeka sva tri
događaja bude jednaka produktu vjerojatnosti tih događaja.
Formulu potpune vjerojatnosti primjenjujemo kada se događaj A može realizirati samo zajedno s jednim od
događaja H1;H2; ...;Hn, koji su međusobno disjunkni i u uniji čine čitav prostor elementarnih događaja .
Bayesov teorem je način izračunavanja kako nova informacija o događaju mijenja naša prethodna očekivanja o
vjerojatnosti događaja.
Slučajna varijabla - pravilo koje svakom ishodu slučajnog pokusa pridružuje realan broj.
Primijetimo da unatoč nazivu „varijabla", svaka slučajna varijabla je ustvari funkcija iz prostora ishoda u skup
realnih brojeva R.
Slučajnom varijablom se vjerojatnosna mjera prirodno prenosi na podskupove skupa realnih brojeva.
Zanimljivo je da je distribucija svake slučajne varijable X potpuno određena svojim vrijednostima na intervalima
oblika (-∞,x], pri čemu je x proizvoljan realan broj.
Pri određivanju vjerojatnosti da X pripada skupu B dovoljno je promatrati vrijednosti varijable X u tom skupu.
12
diskretne ili diskontinuirane (skup vrijednosti RX je prebrojiv, njegovi elementi mogu napisati u obliku
konačnog ili beskonačnog niza.. Teorijske diskretne distribucije:
o binomna distribucija
o poissonova distribucija
o uniformna (jednolika) diskretna distribucija
o hipergeometrijska
kontinuirane (prebrojive unutar nekog intervala). Teorijske kontinuirane distribucije:
o normalna (Gaussova)distribucija
o hi - kvadrat distribucija
o uniformna (jednolika) kontinuirana distribucija
o eksponencionalna distribucija
o studentova t-distribucija
o F-distribucija
Binomna distribucija
(najjednostavnija) teorijska distribucija za alternativna obilježja.
pokazuje vjerojatnost događanja međusobno isključivih događaja za svaki broj slučajeva posebno.
u statistici se model binomne distribucije koristi za rezultate u dihotomnim varijablama u kojima su
podaci tipa točno – netočno, muškarci – žene i sl.
u svezi je sa Bernoullijevim pokusima
Bernoullijev pokus*
pokus ima dva ishoda (uspjeh, neuspjeh)
u svakom ponavljanju pokusa vjerojatnost ishoda ˝uspjeh˝ = p i ne mijenja se od pokušaja do pokušaja.
vjerojatnost ishoda ˝neuspjeh˝ q= 1 – p
pokušaji su neovisni.
Poissonova distribucija
raspodjela vrlo rijetkih slučajnih događaja (kod kojih je vrlo mala vjerojatnost)
izražava vjerojatnost broja događaja ako se ti događaji pojavljuju u fiksnom vremenskom periodu s
poznatom prosječnom brzinom pojavljivanja i vremenski su nezavisne od prošlog događaja.
Poissonova distribucija je potpuno definirana aritmetičkom sredinom, jer je njena varijanca jednaka
aritmetičkoj sredini. To znači da je ta distribucija šira što joj je aritmetička sredina veća.
kada je N vrlo velik, Poissonova distribucija se približava binomnoj, ali je razlika u tome što kod binomne
raspodjele znamo koliko se puta neki događaj pojavio, ali i koliko se puta nije pojavio, a kod Poissonove
raspodjele znamo samo koliko se puta neki događaj
pojavio.
13
Jedan od najvažnijih rezultata teorije vjerojatnosti zove se centralni granični teorem i govori o distribuciji
zbroja slučajnih varijabli.
U načelu, centralni granični teorem tvrdi da zbroj dovoljno velikog broja nezavisnih jednako distribuiranih
slučajnih varijabli ima približno normalnu distribuciju.
Budući da se mnogi praktični problemi svode na izračunavanje zbroja, jasno je da centralni granični teorem i s
njim normalna distribucija imaju veliku primjenu.
Ako je n dovoljno velik, onda slučajna varijabla Zn ima približno standardnu normalnu distribuciju, a kako su Yn i
Zn povezane linearnom transformacijom, slijedi da Yn također ima približno normalnu distribuciju,
Što je n veći, to je aproksimacija bolja.
Ako je n dovoljno velik, onda se binomna distribucija može aproksimirati normalnom.
Hi - kvadrat distribucija
distribucija je pozitivnih vrijednosti, zakrivljena u desno
karakteriziraju je stupnjevi slobode
oblik distribucije ovisi o broju stupnjeva slobode: kako raste broj stupnjeva slobode distribucija postaje
sve više simetrična i sličnija normalnoj distribuciji
primjenjuje se u analizi kategorijskih podataka.
za razliku od normalne distribucije, 2 distribucija je asimetrična, ali asimetrija opada s porastom stupnjeva
slobode.
F - distribucija
zakrivljena prema desno
asimetrična je
distribucija je omjera dvaju varijanci izračunatih iz normalno distribuiranih podataka
karakteriziraju je stupnjevi slobode brojnika i nazivnika omjera varijanci
upotrebljava se za usporedbu dvije varijance, kao i za usporedbu više od dvije aritmetičke sredine
analizom varijance.
Funkcija distribucije slučajne varijable X je funkcija koja daje vjerojatnost da će slučajna varijabla X poprimiti vrijednost
jednaku ili manju od nekog realnog broja xk .
FX je nenegativna funkcija.
Funkcija distribucije vjerojatnosti je kumulativna funkcija.
Da bismo odredili FX(x), trebamo znati koje su vrijednosti slučajne varijable X manje ili jednake x,a to naravno
zavisi o tome kakav je broj x. Iz funkcije distribucije može se dobiti funkcija vjerojatnosti diskretne slučajne
varijable.
Distribucije slučajnih varijabli imaju iste osobine kao distribucije numeričkih statističkih varijabli, tj. lokaciju,
disperziju i oblik, koje možemo kvantitativno izraziti.
Tako, mjera lokacije koja za slučajne varijable ima istu namjenu kao aritmetička sredina za numeričke statističke
varijable, zove se očekivanje ili očekivana vrijednost.
Kao što vjerojatnost možemo smatrati dugoročnom relativnom frekvencijom nekog događaja, tako očekivanje
možemo smatrati dugoročnom aritmetičkom sredinom neke slučajne varijable, do koje dolazimo ponavljanjem
slučajnog pokusa velik broj puta.
Varijanca diskretne slučajne varijable je matematičko očekivanje kvadrata odstupanja slučajne varijable od
očekivanja.
Korijen iz varijance nazivamo standardnom devijacijom.
Standardna devijacija je mjera rasipanja rezultata.
Varijanca i standardna devijacija su mjere disperzije distribucije slučajne varijable.
*Među slučajnim varijabla s dvije vrijednosti, često koristimo one čiji se skup vrijednosti sastoji od brojeva 0 i 1.
Ako je X slučajna varijabla i RX = {0,1} onda se X zove Bernoullijeva slučajna varijabla.
Bernoullijeva distribucija javlja se kod slučajnih pokusa čije ishode dijelimo u dvije skupine.
14
Ishode u jednoj skupini smatramo uspjehom, a one u drugoj skupini neuspjehom.
Takve slučajne pokuse nazivamo Bernoullijevim pokusima.
Ako vjerojatnost uspjeha u Bernoullijevom pokusu iznosi π, onda vjerojatnost neuspjeha iznosi 1 - π, pa ako
slučajna varijabla X uspjehu dodjeljuje vrijednost 1, a neuspjehu vrijednost 0, onda X ima Bernoullijevu
distribuciju s parametrom π.
Članovi statističkih populacija često se dijele u dvije skupine, prema tome posjeduju li ili ne posjeduju određenu
osobinu.
Slučajno biranje jedne statističke jedinice iz takve populacije može se promatrati kao Bernoullijev pokus, a
formiranje slučajnog uzorka, tj. slučajno biranje nekoliko statističkih jedinica, kao niz Bernoullijevih pokusa.
U načelu, neprekidne su one slučajne varijable čiji skup vrijednosti čini interval.
Funkcija gustoće vjerojatnosti jednaka je nuli za realne brojeve koje slučajna varijabla ne poprima.
Kao što smo vidjeli, neprekidne statističke varijable opisuju se gustoćom frekvencije, koju grafički prikazujemo
histogramom, a frekvencija bilo kojeg intervala jednaka je dijelu površine ispod histograma koja odgovara tom
intervalu.
Ono što je frekvencija za statističku varijablu, to je vjerojatnost za slučajnu varijablu.
Stoga, neprekidne slučajne varijable zadavat ćemo putem njihove gustoće vjerojatnosti, a vjerojatnost ćemo
određivati kao površinu ispod grafa gustoće vjerojatnosti. Navedenu ćemo površinu općenito nalaziti
integriranjem.
Zanimljiva osobina neprekidnih slučajnih varijabli je da vjerojatnost da X poprimi točno vrijednost a iznosi 0.
Zbog aditivnosti vjerojatnosti, slijedi da će za svaki prebrojivi skup A biti 0.
Kod neprekidnih slučajnih varijabli, integriranjem funkcije gustoće vjerojatnosti dobiva se funkcija distribucije,
a deriviranjem funkcije distribucije dobiva se funkcija gustoće vjerojatnosti.
Deriviranjem funkcije distribucije dobit ćemo funkciju gustoće vjerojatnosti.
Slučajno biranje realnog broja u intervalu od 0 do 12 možemo predstaviti neprekidnom slučajnom varijablom čija
funkcija gustoće vjerojatnosti ima vrijednost 0 svugdje osim na intervalu od 0 do 12, gdje je ta funkcija
konstantna i ima vrijednost 1=12, koja je jednaka recipročnoj vrijednosti duljine promatranog intervala.
Medu svim transformacijama koje možemo primijeniti na slučajne varijable, linearna transformacija je
posebno važna.
Nazivi medijan, kvartili i slični, zadržavaju svoje značenje i kog slučajnih varijabli.
Ako ishodima nekog slučajnog pokusa istovremeno pridružujemo vrijednost dvije slučajne varijable X i Y , onda
zapravo imamo funkciju koja svakom ishodu e pridružuje uređen par realnih brojeva (X(e), Y (e)), koju nazivamo
bivarijatnim slučajnim vektorom, a slučajne varijable X i Y nazivamo njegovim koordinatama ili
komponentama.
Skup vrijednosti slučajnog vektora je skup svih uređenih parova realnih brojeva.
Ako su C i D skupovi, onda skup svih uređenih parova (c, d) takvih da je c element od C i d element od D
nazivamo direktnim ili Kartezijevim produktom skupova C i D.
Distribuciju PX i PY slučajnog vektora (X, Y ) također nazivamo zajedničkom distribucijom slučajnih varijabli
X i Y , a distribucije PX i PY nazivamo njihovim marginalnim distribucijama. Iz zajedničke distribucije možemo
lako dobiti marginalne.
15
Funkciju FX,Y koja svakom uređenom paru (x, y) realnih brojeva pridružuje vjerojatnost nazivamo funkcijom
distribucije slučajnog vektora (X,Y ).
FX,Y je nenegativna funkcija.
FX,Y nazivamo zajedničkom, a fX i fY marginalnim funkcijama vjerojatnosti slučajnih varijabli X i Y .
Marginalne funkcije distribucije mogli bismo odrediti i iz marginalnih funkcija vjerojatnosti.
Zbrajanjem vjerojatnosti u istom retku, odnosno stupcu tablice kontingencije dobiti ćemo vrijednost marginalne
funkcije vjerojatnosti slučajne varijable X, odnosno Y.
Jedna od najvažnijih funkcija koje možemo primijeniti na dvije slučajne varijable X i Y , definirane na istom
prostoru ishoda, je upravo zbroj.
Budući da vrijednost zbroja ne zavisi o poretku pribrojnika, svejedno je zbrajamo li po retcima ili stupcima te
tablice.
Aditivnost očekivanja - očekivanje zbroja svake dvije slučajne varijable X i Y , definirane na istom prostoru
ishoda, jednako je zbroju njihovih očekivanja.
Sjetimo se da očekivanje ima i svojstvo homogenosti, a za operaciju koja je istovremeno aditivna i homogena,
kažemo da je linearna.
Pored očekivanja, mnoge važne matematičke operacije imaju svojstvo linearnosti (zbrojevi, limesi, derivacije,
integrali i druge).
Kovarijancu možemo shvatiti kao funkciju koja svakom paru slučajnih varijabli (X,Y) pridružuje broj.
Dakle, kovarijanca je funkcija od dvije varijable ili dva argumenta.
Kovarijanca je linearna, tj. aditivna i homogena, u svakom svojem argumentu, pa se kaže da je kovarijanca
bilinearna.
Zbog simetričnosti, linearnost je dovoljno provjeriti u npr.drugom argumentu.
Kovarijanca je simetrična.
Kovarijanca neke varijable sa samom sobom je varijanca te varijable.
Kovarijancu možemo dobiti tako da od očekivanja produkta oduzmemo produkt očekivanja.
Kovarijacijska matrica je simetrična na njenoj se glavnoj dijagonali nalaze varijance slučajnih varijabli X i Y .
Varijanca zbroja PXi jednaka je naravno zbroju svih elemenata kovarijacijske matrice.
Za slučajne varijable X1,X2,..,Xn kažemo da su nekorelirane ako su svi elementi izvan glavne dijagonale
kovarijacijske matrice tih slučajnig varijabli jednaki 0. Drugim riječima, kovarijacijska matrica je dijagonalna.
Varijanca zbroja nekoreliranih slučajnih varijabli jednaka je zbroju njihovih varijanci..
Korelacijska matrica je simetrična matrica reda n, na čijoj su glavnoj dijagonali jedinice.
Nekorelirane slučajne varijable ne moraju biti nezavisne.
Koeficijent linearne korelacije je simetričan i koeficijent linearne korelacije slučajne varijable sa samom sobom
iznosi 1.
Za dvije slučajne varijable kažemo da su nezavisne ako su njihove uvjetne distribucije jednake marginalnima.
Zajednička funkcija vjerojatnosti nezavisnih diskretnih slučajnih varijabli jednaka je produktu njihovih
marginalnih funkcija vjerojatnosti.
Vjerojatnosna mjera jednoznačno određena funkcijom distribucije.
Nezavisne slučajne varijable su nekorelirane.
Funkcije nezavisnih slučajnih varijabli su nezavisne i očekivanje produkta konačno mnogo nezavisnih slučajnih
varijabli jednako je produktu očekivanja tih varijabli.
Kod neprekidnih slučajnih varijabli, deriviranjem funkcije distribucije dobiva se funkcija gustoće
vjerojatnosti, a integriranjem funkcije gustoće vjerojatnosti dobiva se funkcija distribucije, pa će dvije
neprekidne slučajne varijable biti nezavisne samo ako im
je zajednička funkcija gustoće vjerojatnosti jednaka produktu marginalnih funkcija gustoće vjerojatnosti.
16
ako su X i Y nezavisne slučajne varijable, onda je očekivanje produkta nezavisnih slučajnih varijabli
jednako je produktu njihovih očekivanja.
Inferencijalna statistika ili statističko zaključivanje bavi se donošenjem zaključaka o populaciji na osnovu
uzorka.
Da bismo u tom postupku mogli koristiti teoriju vjerojatnosti, uzorak treba biti slučajan, što znači da odluku o
tome koje ce statističke jedinice biti uključene u uzorak donosimo na slučajan način, npr. nasumičnim
izvlačenjem listića iz kutije ili generiranjem slučajnih brojeva na računalu.
Prema tome, slučajnih uzorak veličine n možemo smatrati ishodom slučajnog pokusa u kojemu smo na slučajan
način odabrali n statističkih jedinica iz zadane populacije.
Ako nije drugačije naznačeno, pod uzorkom ćemo ovdje uvijek smatrati slučajnih uzorak, a pod uzorkovanjem
smatrat ćemo proces formiranja slučajnog uzorka.
Statističke jedinice promatramo zato što nas zanima jedna ili vise njihovih osobina.
Primjerice, ako promatramo ljude, onda nas može zanimati spol, visina, težina, političko usmjerenje i tome
slično.
Vrijednosti takvih osobina imaju distribuciju, a numeričke karakteristike te distribucije zovu se parametri
populacije.
Tako, ako smo za čitavu populaciju osoba odredili proporciju žena ili prosječnu visinu, onda ta proporcija i prosjek
jesu parametri populacije. Parametre populacije označavat ćemo grčkim slovima.
Za potrebe uzorkovanja, populaciju identificiramo s nekom distribucijom vjerojatnosti, i to onom koju bismo
dobili kada bismo iz populacije slučajnog odabrali jednu statističku jedinicu.
Ako o populaciji možemo razmišljati kao o distribuciji vjerojatnosti, kako da razmišljamo o slučajnom uzorku?
Općenito, o slučajnom uzorku trebamo razmišljati kao o multivarijatnom slučajnom vektoru.
Naime, ako imamo prethodno opisanu populaciju osoba, u kojoj promatramo spol, onda će slučajnih uzorak
veličine n biti ishod slučajnog pokusa u kojemu smo na slučajan način odabrali n osoba.
Prostor ishoda tog slučajnog pokusa je skup svih slučajnih uzoraka veličine n koje možemo formirati iz te
populacije.
Razlika između uzorkovanja s ponavljanjem i bez ponavljanja nije u marginalnoj distribuciji slučajnih varijabli
X1;X2; : : : ;Xn, nego u tome da su kod uzorkovanja s ponavljanjem te slučajne varijable nezavisne, a kod
uzorkovanja bez ponavljanja zavisne.
Uzorak se u tom smislu smatra malenim ako njegova veličina ne prelazi 5% veličine populacije.
Primjerice, ako iz populaciji od N = 1000 osoba biramo uzorak bez ponavljanja od najviše n = 50 osoba, onda
promatranja u uzorku možemo smatrati nezavisnima.
17
Osim što su populacije obično velike u odnosu na uzorak, neke oblike prikupljanja podataka možemo promatrati
kao uzorkovanje iz zamišljene beskonačne populacije.
To se događa ako podatke prikupljamo provođenjem eksperimenta, kojega više puta ponavljamo pod istim
uvjetima, a zamišljena populacija se pritom sastoji od svih mogućih rezultata tog eksperimenta.
Primjerice, uzmimo da želimo ispitati ispravnost igraće kocke, tj. osobinu kocke da se prilikom bacanja svaki broj
na kocki javlja s jednakom vjerojatnošću. Ispitivanje možemo provesti tako da kocku bacimo n puta, pri čemu je
n dovoljno velik broj i pritom promatramo relativne frekvencije pojedinih brojeva na kocki.
Ako su te relativne frekvencije približno jednake, onda nemamo razloga sumnjati u ispravnost kocke, dok ako su
one izrazito različite, onda kocka vjerojatno nije ispravna.
Populacija se ovdje sastoji od svih mogućih bacanja igraće kocke, što naravno nije realna, nego zamišljena
populacija, a možemo je predočiti diskretnom distribucijom vjerojatnosti koja se dobije jednim bacanjem igraće
kocke.
Rezultati ispitivanja, tj. N bacanja igraće kocke bit će slučajne varijable X1;X2; : : : ;Xn koje su nezavisne i
distribuirane su jednako kao populacija.
Prema tome, različiti oblici uzorkovanja i prikupljanja podataka vode do istog matematičkog modela, pa ćemo
pod slučajnim uzorkom veličine n podrazumijevati niz od n nezavisnih jednako distribuiranih slučajnih varijabli
X1;X2; : : : ;Xn, čija je distribucija jednaka distribuciji populacije.
Svaka transformacija slučajnog uzorka bit će također slučajna varijabla, čiju distribuciju vjerojatnosti nazivamo
distribucijom uzorkovanja. Ako Y ne zavisi o nepoznatim parametrima populacije, onda takvu slučajnu
varijablu nazivamo statistikom.
Dvije najvažnije statistike jesu aritmetička sredina uzorka i varijanca uzorka.
Osim aritmetičke sredine i varijance, često se koristi i proporcija uzorka.
Očekivanje aritmetičke sredine uzorka jednako je očekivanju populacije, a varijanca aritmetičke sredine uzorka
je n puta manja od varijance populacije.
Dijeljenje zbroja kvadratnih devijacija s n - 1, odnosno množenje varijance uzorka s n=(n - 1) poznato je pod
nazivom Besselova korekcija, a s2 nazivamo korigiranom varijancom uzorka.
Ako populacija ima normalnu distribuciju, onda varijanca uzorka ima dva važna svojstva:
1. ako populacija ima normalnu distribuciju, onda su statistike X i S2 nezavisne, a slučajna varijabla ima 2
distribuciju s n - 1 stupnjeva slobode.
2. Z ima standardnu normalnu distribuciju
Ako populacija nema normalnu distribuciju, onda prema centralnom graničnom teoremu, P Xi i X imaju
približno normalnu distribuciju kada je n dovoljno velik.
Proporcija uzorka je ustvari aritmetička sredina uzorka iz Bernoullijeve populacije.
Za procjenitelj kažemo da je konzistentan ako vjerojatnost da je procjenitelj dovoljno blizu parametra teži k 1
kada veličina uzorka n teži k+∞. Drugim riječima, ako je procjenitelj konzistentan, onda smo praktički sigurni da
je vrijednost procjenitelja dovoljno blizu parametra populacije kada je uzorak dovoljno velik.
Aritmetička sredina je konzistentan procjenitelj sredine populacije, a varijanca uzorka je
konzistentan procjenitelj varijance populacije.
Procjenitelji koji nisu konzistentni su nepoželjni, jer čak za veliki uzorak, vrijednost takvog procjenitelja može
biti jako udaljena od parametra.
Kako prepoznati konzistentan procjenitelj? Jedan način da utvrdimo da je neki procjenitelj konzistentan je
koristeći srednju kvadratnu pogrešku.
Osim ispitivanja konzistentnosti, srednja kvadratna pogreška nam služi i kao mjera kvalitete procjenitelja.
18
Ako možemo birati između više procjenitelja istog parametra, onda biramo onaj s najmanjom srednjom
kvadratnom pogreškom.
Srednja kvadratna pogreška procjenitelja jednaka je zbroju njegove varijance i kvadrata pristranosti.
Ako pristranost procjenitelja iznosi 0 onda za procjenitelj T kažemo da je nepristran.
Procjenitelj koji nije nepristran zove se pristran.
Da bismo dobili potpuniju sliku o pravoj vrijednosti parametra, umjesto točkovne procjene možemo koristiti
intervalnu procjenu, pri čemu određujemo interval brojeva koji bi trebao sadržavati nepoznati parametar.
Prije svega, uočimo da svaki parametar populacije ima određen skup mogućih vrijednosti koji se zove prostor
parametra.
Primjerice, prostor parametra Bernoullijeve distribucije je otvoreni interval (0, 1), dok normalna distribucija ima
dva parametra, očekivanje i varijancu.
Intervalni procjenitelj ili interval povjerenja parametra θ je interval čije granice V i W mogu zavisiti o
slučajnom uzorku, ali ne i o nepoznatim parametrima.
Ako su obje granice intervala C slučajne, onda za C kažemo da je dvosmjerni ili dvostrani interval
povjerenja.
Ako se gornja granica intervala povjerenja podudara s gornjom granicom prostora parametra, onda za V kažemo
da je donja granica povjerenja za θ, a interval C nazivamo gornjim intervalom povjerenja.
Gornji i donji interval povjerenja zovu se jednosmjerni ili jednostrani intervali povjerenja.
Prema tome, interval povjerenja C za parametar treba imati osobinu da je 2 C s velikom vjerojatnošću, tj. P( 2 C)
treba biti blizu 1. Navedena vjerojatnost može zavisiti o stvarnoj vrijednosti parametra, a najmanja takva
vjerojatnost zove se razina povjerenja od C.
Druga osobina intervala povjerenja koja nas zanima je njegova duljina. Što je interval kraći, to je procjena
preciznija.
Dakle, dobar interval povjerenja treba biti malen i treba imati visoku razinu povjerenja.
Razina povjerenja i veličina intervala su u rastućoj vezi, tj. povećanjem razine povjerenja povećava se i interval
povjerenja i obratno.
Za interval povjerenja kažemo da je jednakorepan, jer kvantili u1 i u2 omeđuju jednaku površinu α/2 ispod
lijevog i desnog „repa" funkcije gustoće vjerojatnosti od U.
Jednakorepni interval povjerenja nije uvijek najkraći, ali ga svejedno koristimo zbog njegove jednostavnosti.
Margina pogreške zavisi o razini povjerenja, standardnoj devijaciji populacije i o veličini uzorka.
Što je razina povjerenja veća, to ce kvantil biti veći, pa će margina pogreške također biti veća.
Slično je sa standardnom devijacijom, odnosno disperzijom populacije.
Što populacija ima veću disperziju, to je margina pogreške veća.
S druge strane, Što je uzorak veći, to je margina pogreške manja.
Međutim, valja primijetiti da margina pogreške pada s korijenom veličine uzorka.
Granice jednostranih intervala povjerenja imaju isti oblik kao granice dvostranog intervala povjerenja.
U primjeni se najčešće javljaju upravo dvostrani intervali povjerenja.
Korjenovanjem granica intervala povjerenja za varijancu dobiti ćemo granice intervala povjerenja za standardnu
devijaciju.
Slučajna varijabla ima približnu standardnu normalnu distribuciju kad je n velik.
Statistička hipoteza je tvrdnja o distribuciji populacije, a testiranje hipoteza je postupak u kojemu pomoću
uzorka provjeravamo je li takva tvrdnja istinita ili lažna.
Testiranje hipoteza razvili su J. Neyman i E. Pearson.
Statističke hipoteze često imaju oblik tvrdnje o jednom ili više parametara populacije.
Hipoteza u kojoj parametar poprima samo jednu vrijednost zove se jednostavna, a hipoteza koja nije
jednostavna zove se složena.
19
Svaki postupak testiranja hipoteza ima dvije hipoteze, jednu od kojih nazivamo nul hipotezom, a drugu
alternativnom hipotezom.
Nul hipotezu označavamo s H0, a alternativnu s H1.
Kao nul hipotezu uglavnom biramo tvrdnju za koju želimo pokazati da je lažna, dok tvrdnju za koju bismo htjeli
pokazati da je istinita stavljamo u alternativnu hipotezu.
Također, nul hipoteza obično označava početno stanje, izostanak učinka ili nepotrebnost poduzimanja neke
aktivnosti, a alternativna hipoteza tvrdi da je došlo do promjene, da postoji učinak ili da je potrebno nešto
poduzeti.
Test u kojemu alternativna hipoteza ima oblik θ ≠ θ0 zove se dvostrani ili dvosmjerni, a test u kojemu
alternativna hipoteza ima oblik θ > θ0 ili θ < θ0 zove se jednostrani ili jednosmjerni.
Test statistika može uči u kritično područje premda je nul hipoteza istinita, što znači da ćemo odbaciti istinitu nul
hipotezu i to nazivamo pogreškom tipa I ili pogreškom odbacivanja.
S druge strane, ako je nul hipoteza neistinita, test statistika ne mora nužno učinak u kritično područje i ako se to
ne dogodi, neistinita nul hipoteza se neće odbaciti, sto zovemo pogreškom tipa II ili pogreškom
neodbacivanja.
Kriterij odluke u svakom testiranju hipoteza trebamo formirati tako da vjerojatnost pogreške bilo kojeg tipa bude
što je moguće manja. Jasno je da vjerojatnost pogreške odbacivanja zavisi o veličini kritičnog područja,
odnosno vjerojatnost pogreške odbacivanja možemo smanjiti tako da smanjimo kritično područje.
Međutim, time očiglednom povećavamo vjerojatnost da se nul hipoteza ne odbaci, neovisno o njenoj istinitosti.
Dakle, smanjivanjem vjerojatnosti pogreške jednog tipa povećavamo se vjerojatnost pogreške drugog
tipa.
Vjerojatnost pogreški oba tipa možemo istovremeno smanjiti samo uzimanjem većeg uzorka.
Vjerojatnost pogreške u testiranju hipoteza zavisi o stvarnoj vrijednosti parametra kojega testiramo, a najveća
vjerojatnost pogreške odbacivanja zove se razina značajnosti ili signikantnosti testa i označavamo se s α.
Razina značajnosti treba biti malen pozitivan broj.
Povećanjem razine značajnosti povećavamo i kritično područje, pa time i mogućnost da nul hipoteza bude
odbačena.
Korisno je stoga znati najmanju razinu značajnosti potrebnu za odbacivanje nul hipoteze, koju zovemo p-
vrijednost i koju ćemo označiti s p.
Budući da se p-vrijednost definira kao najmanja razina značajnosti pri kojoj dolazi do odbacivanja nul
hipoteze, slijedi da se nul hipoteza odbacuje ako je α ≥ p, dok ako je α < p onda se nul hipoteza ne odbacuje.
Prema tome, poznavajući p-vrijednost nekog testa, odluku o odbacivanju ili neodbacivanju možemo donijeti za
bilo koju razinu značajnosti. Također, p-vrijednost možemo shvatiti kao mjeru usklađenosti nul hipoteze i
opažanja iz uzorka.
Ako je p-vrijednost velika, onda su opažanja iz uzorka konzistentna s nul hipotezom, dok ako je p-vrijednost
malena, onda opažanja iz uzorka ne idu u prilog nul hipotezi.
20
Ako je populacija normalna, onda se testiranje hipoteza o varijanci i standardnoj devijaciji može provesti
koristeći X2 distribuciju.
Ako populacija nema normalnu distribuciju, onda se testiranje hipoteze o sredini populacije može provesti
koristeći centralni granični teorem, ali pritom uzorak treba biti velik.
Najmanja razina značajnosti potrebna za odbacivanje nul hipoteze dobit će se kad je kritična granica jednaka
vrijednosti test statistike.
Ako je uzorak velik, onda se centralni granični teorem može koristiti i kod testova o parametru Bernoullijeve
populacije.
21