Statistika

Glava 1
Uvod
Vrlo često se postavlja pitanje šta je statistika? Prva asocijacija može da

bude da je statistika skup nekih brojeva. Na primjer, često možemo da
čujemo da je stopa nezaposlenosti oko 20%, da je prosječna zarada oko
450EUR, da se svaki peti brak završi razvodom, itd.
Nekada je moguće da postoje dva različita broja koja karakterišu istu
pojavu. Na primjer, Zavod za statistiku Crne Gore i Zavod za zapošljavanje
Crne Gore daju dvije različite mjere stope nezaposlenosti u Crnoj Gori.
Postavlja se pitanje kako je to moguće? Statistika nam pomaže da dobijemo
odgovor na ovo i slična pitanja.
Dakle, važi sljedeća definicija:
Statistika je nauka koja se bavi prikupljanjem, organizovanjem i anal-
izom informacija neophodnih za donošenje zaključaka. Više od toga, statis-
tika omogućava mjeru pouzdanosti bilo kog statističkog zaključka.
Definiciju statistike moěmo da posmatramo sa četiri aspekta. Prvi as-
pekt definicije jeste sakupljanje informacija. Drugi aspekt je organizacija
i agregacija informacija. Treći aspekt je analiza informacije i donošenje
zaključaka. Četvrti aspket je da svaki rezultat mora da bude objavljen sa
nekom mjerom pouzdanosti.
Jedan od važnih karakteristika podataka jeste varijabilitet. Da bi bolje
razumjeli pojam varijabiliteta posmatrajmo sve studente I godine. Da li
su svi studenti iste starosti? Ne. Da li su svi studenti iste visine? Ne. Da
li svi studenti imaju istu boju kose? Ne. Jedan od ciljeva statistike jeste
1
2 Uvod
spoznavanje izvora varijabiliteta. Varijabilitet u podacima može da dovede

do različitih rezultata. Postojanje varijabiliteta jeste i jedan od razloga što
se podaci objavljuju uporedo sa nekom mjerom pouzdanosti.
Prvi susret sa pitanjem varijabiliteta može da unese zabunu. Pitamo
studente da da rješe jednačinu 3x + 2 = 11. Svi studenti koji su koris-
tili pravilan postupak odgovorili bi da je x = 3. Kada bi iste studente
pitali da procijene prosječno vrijeme provedeno u učenju, studenti bi dobili
različite rezultate, iako su korišćene pravilne procedure. U statističkim is-
traživanjim nije moguće izbjeći problem varijabiliteta. Jedini način da se
varijabilitet eliminiše jeste da u uzorku imamo sve iste ispitanike, što je
praktično nemoguće.
Dakle, pri rješavanju matematičkih zadatka možemo reći da se rezultati
u matematici, ukoliko se koriste ispravni postupci, saopštavaju sa 100%
izvijesnosti. U statistici rezultati se ne dobijaju sa sto procentnom izvi-
jesnošću. Na primjer, možemo da kažemo sa 95% sigurnošću da studenti
provode izmed̄u 5 i 6 sati nedeljno u učenju.
Postavlja se pitanje kako bez izvijesnosti statistika može da bude ko-
risna. Statistika je korisna za objašnjavanje svijeta oko nas, jer spozna-
vanjem odakle dolazi varijabilitet možemo ga kontrolisati i na taj način
proizvesti podatke prihvatljive pouzdanosti.
1.1 Osnovni pojmovi

Želimo da ispitamo koja je radio stanica najslušanije med̄u studentima. Da
li je moguće prikupiti podatke od svih studenata? Prije svega zbog njihove
brojnosti, kao i zbog velikih finansijskih izdataka, nije moguće prikupti
podatke od svakog studenta posebno. Zato se anketira odred̄en, manji
broj studenatra, zatim se donose zakljčci, koji se odred̄enim statističkim
postupcima ekstrapoliraju na skup svih studenata.
Skup svih elemenata čija zajednička svojstva proučavamo statistističkim
metodama zovemo populacija. Elementi populacije mogu da budu lica,
domaćinstva, preduzeća, itd. Podskup koji se na odred̄en način bira iz pop-
ulacije radi daljeg proučavanja zove se uzorak. Bilo koji podskup uzorka
1.1. OSNOVNI POJMOVI 3
zovemo poduzorak. Zajedničko svojstvo elemenata populacije zovemo

obilježje.
Primjer 1 U slučaju da je populacija skup svih stanovnika Crne Gore,

tada bi primjeri obiljžja mogli da budu: pol, bračni status, starost, stručna
sprema, itd.
Ako je populacija skup svih aktivnih preduzeća u Crnoj Gori, tada su
moguća obilježja: djelatnost, broj zaposlenih, promet, prihod, itd.
Vratimo se sada primjeru gdje želimo da utvrdimo koja je najslušanija

radio stanica med̄u studentskom populacijom. Neka je izabran je uzorak od
100 studenata koji će da učestvuju u istraživanju. Rezultati istraživanja su
pokazali da 48 studenata sluša radio stanicu A. Ovaj rezultat prezentujemo
tako što kažemo da se 48% anketiranih studenata izjasnilo da sluša radio
stanicu A. Ovo je primjer deskriptivne statistike, zato što smo prikazali
rezultat dobijen na uzorku, bez njegovog uopštavanja na nivo populacije.
Dakle, postupak organizacije i agregacije podataka zovemo deskrip-
tivna statistika. U postupku primjene deskriptivne statistike podatke
opisujemo tabelarano, ili grafički.
Numerička karakteristika uzorka zove se statistika. Procenat stude-
nata koji sluša radio stanicu A je statistika jer je utvrd̄en na nivou uzorka.
Ako smo rezultat dobijen na uzorku uopštili tako da tvrdimo da 48%
studentske populacije sluša radio stanicu A, koristili smo tzv. inferen-
cijalnu statistiku. Dakle, postupak kojim se rezultat dobijen na nivou
uzorka uopštava na nivo populacije i kojim se mjeri pouzdanost uopštenog
rezultata naziva se inferencijalna statistika. Cilj inferencijalne statis-
tike jeste ocjena nepoznatih parametra. Za razliku od statistike koji je
numerička karakteristika uzorka, parametar je numerička karakteristika
populacije.
Primjer 2 Na primjer ako kažemo da u Crnoj Gori 50% populacije su

pušači, tada je vrijednost 50% parametar jer se odnosi na cijelu populaciju.
Ali, ako kažemo da je na uzorku dobijeno da 2, 5% ispitanika ima problema
sa anksioznošću, tada vrijednost 2, 5% predstavlja statistiku.
4 Uvod
Sam proces sprovod̄enja statističkih istraživanja je jedan veoma kom-

pleksan proces. Pravilno upotrijebljene statističke metode u svakoj etapi
smanjuju potencijalne izvore grešaka koje niti možemo da previdimo niti
kasnije da kontrolišemo. Etape u statističkom istraživanju su:
1. Priprema instrumenata. Istraživač mora jasno da odredi ciljeve is-

traživanja, zatim mora da odredi koji dio populacije odgovara zada-
tim ciljevima. Pri kraju ove etape pristupa se izradi upitnika i izboru
uzorka.
2. Prikupljanje podataka. Postupak prikupljanja podataka, obično se

odvija na izabranom uzorku. U slučaju nekih kopmleksinh istraživanja
ili istraživanja koja se prvi put sprovode preporuka je sprovod̄enje
pripremnog istraživanja (pilot istraživanje) na nekom manjem uzorku
od planiranog. Proces prikupljanja je veoma važan korak, i tu je, prije
svega važno, odabrati i obučiti lica koja će prikupljati podatke.
3. Primjena deskriptivne statistike. Poslije završenog prikupljnja po-

dataka i njihovog unosa u bazu, primjenom metoda deskriptivne statis-
tike otkrivamo da li u podacima postoje greške prilikom unosa ili
greške nekog drugog tipa. Takod̄e, ovim metodom otkrivaju se i ne-
standardne opservacije. Otkrivanje ovih nekonzistentnosti je od vi-
talnog značaja za dalju obradu podataka.
4. Inferencijalna statistika. Uopštavanja podatka sa nivoa uzorka na

nivo populacije.
1.2 Vrste obilježja

Kao što smo već rekli zajednička svojstva populacije zovemo obilježje. Koja
će se obiljžja prikupljati zavisi od cilja istraživanja. Na primjer, ako želimo
da ispitamo stepen uhranjenosti djece školskog uzrasta, obilježja bi mogla
da budu: pol, starost, razred koje dijete pohad̄a, tjelesna masa, visina,
stepen obrazovanja roditelja itd.
1.3. DISKRETNA I NEPREKIDNA OBILJEŽJA 5
Obilježja dijelimo na kvalitativna i kvantitativna. Kvalitativna ili

kategorijska obilježja služe za klasifikaciju izabranih jedinica na osnovu
nekih njihovih atributa ili karakteristika. Pol je kategorijsko obilježje jer
dozvoljava istraživaču da podijeli izabrane jedinice na muški i ženski pol.
Na ovom mjestu možemo da zaključimo da bilo koja aritmetička operacija
kod kategorijskih obilježja nema smisla.
Kvantitativna obilježja predstavljaju numeričku mjeru izabrane jedinice.
Temperatura vazduha je primjer kvantitativnog obilježja. Njena vrijednost
je numerička i aritmetičke operacije, poput sabiranja ili oduzimanja, imaju
smisla. Ima smisla da se kaže da je 35 ◦ C toplije od 20 ◦ C.
1.3 Diskretna i neprekidna obilježja

Diskretno obilježje je obilježje čiji je skup vrijednosti konačan ili prebrojiv.
Na primjer, broj glava koji se pojavljuje u 5 bacanja novčića je diskretno
obilježje jer je skup mogućih vrijednosti 0, 1, 2, 3, 4 ili 5. Takod̄e, broj
automobila koji u periodu od 12 do 14 sati dod̄e na parking nekog tržnog
centra je, takod̄e, diskretno obilježje jer je registrovani broj automobila
nastao brojanjem 0, 1, 2, 3, itd.
Neprekidno obilježje je obilježje čiji je skup vrijednosti beskonačno nepre-
brojiv. Rastojanje koje zaposleni pred̄e od kuće do posla je neprekidno
obilježje jer distanca može da bude bilo koji pozitivan realan broj.
Dakle, obilježje je diskretno ako su njegove vrijednosti rezultat nekog
prebrojavanja, a neprekidno ako su njegove vrijednosti rezultat nekog mjerenja.
Skup vrijednosti nekog obilježja zovemo podacima. Pol jeste kategori-
jsko obilježje, ali je informacija da li je ispitanik ženskog ili muškog pola
podatak.
Primjer 3 Odrediti da li su sledeća kvantitativna obilježja diskretna ili

neprekidna:
a) Broj šestica dobijenih bacanjem kocke 3 puta.
b) Broj automobila u koji je, na jednoj benzinskoj stanici, natočeno gorivo

izmed̄u 12 i 16h.
6 Uvod
c) Broj kilometara koje pred̄e automobil sa punim rezervoarom goriva.
Rješenje:
a) Broj šestica je diskretno obilježje jer smo njihov broj, u tri bacanja,
utvdili prebrojavanjem.
b) Broj automobila je diskretno obilježje.
c) Broj kilometera koje automobil pred̄e sa punim rezervoarom je neprekidno

obilježje, jer je distanca odred̄ena mjerenjem, a ne prebrojavanjem.
1.4 Skale mjerenja

U praktičnom radu sa podacima, mnogo je bitnije da se za svako obilježje
odredi skala ili nivo mjerenja od tipa obilježja. Postoje četir nivoa mjerenja:
1. Nominalna skala. Za kategorijsko obilježje čije vrijednosti nije

moguće postaviti ni u kakav redosljed kažemo da pripada nominal-
nom nivou mjerenja.
2. Ordinalana skala. Za kategorijsko obilježje čije vrijednosti je moguče

postaviti u neki poredak kažemo da pripada ordinalnom nivou mjerenja.
3. Intervalna skala. Za kvantitativno obilježje koje ima osobine ordi-

nalnog nivoa mjerenja, gdje 0 ne znači odsustvo mjere i gdje razlike u
vrijednostima koje uzima obilježje imaju značenje, kažemo da pripada
intervalnom nivou mjerenja.
4. Skala odnosa. Za kvantitativno obilježje koja ima osobine inter-

valnog nivoa mjerenja i gdje količnici vrijednosti obilježja imaju smisla
kažemo da pripada skali odnosa. Vrijednost 0 znači odsustvo mjere.
Važno je da napomenemo da se vrijednosti obilježja mjerenog na inter-

valnoj skali mogu sabirati i oduzimati, dok se vrijednosti obilježja mjerenog
na skali odnosa mogu dijeliti.
1.5. POJAM UZORKA I UZORAČKOG ISTRAŽIVANJA 7
Pol je tipičan primjer za nominalnu skalu mjerenja, jer nije moguće

nikakvo rangiranje.
Nivo obrazovanja može se smatrati primjerom ordinalne skale, jer se
može uspostaviti poredak (osoba sa fakultetom je školovanija od osobe koja
je završila srednju školu).
Temperatura vazduha je primjer za intervalnu skalu, jer razlika izmed̄u
vrijednosti ima smisla. Može da se kaže da je 5 ◦ C hladnije od 12 ◦ C.
Takod̄e, 0 ◦ C ne znači odsustvo toplote. Likertova skala, koja predstavlja
skalu stavova koja se sastoji od niza tvrdnji posvećenih različitim aspektima
nekog stava predstavlja primjer intervalnog mjerenja.
Koeficijent inteligencije, nivo hemoglobina u krvi, koncentracija aktivne
supstance u nekom lijeku su primjeri obilježja koja se mjere na skali odnosa.
Na primjer, ako ispitanik A ima koeficijent inteligencije 90, a ispitanik B
110, možemo da tvrdimo da je ispitanik B 1,2 puta inteligentniji.
1.5 Pojam uzorka i uzoračkog istraživanja

Kada istraživač postavlja istraživanje, prije svega, mora da odredi identi-
fikuje ciljnu populaciju. Pravilno identifikovanje ciljne populacije neophodno
je zbog izbjegavanja brojnih problema koji mogu da nastanu u postupku
obrade podataka. O ovim i sličnim problemima može se više naći u kn-
jigama koje se bave Teorijom uzorka (npr. XXX).
Uzorci mogu da budu sa i bez ponavljanja. Uzorak sa ponavljanjem
dobija se primjenom procedure kojim se tokom čitave procedure izbora
uzorka ne mijenjaju uslovi izbora. Kao posljedicu toga imamo mogućnost
da svi elementi populacije, u svakom trenutku, mogu da budu izabrani u
uzorak. S obzirom da su uslovi nepromijenjeni tokom cjelokupne procedure
izbora, to povlači da i svaki element ima istu vjerovatnoću da bude biran.
Uzorak bez ponavljanja podrazumjeva da se već izabrani element ne vraća
ponovo u populaciju. Ovo znači da se tokom kompletnog procesa izbora
uzorka, mijenja vjerovatnoća izbora nekog elementa.
Brojne su institucije koje u nekoj državi prikupljaju podatke iz različitih
sfera života. U Crnoj Gori se vrlo često sprovode ankete o radnoj snazi,
8 Uvod
poljoprivredi, trgovini na malo i veliko, popularnosti političkih partija, itd.

Ako nam je, na primjer, cilj da ispitamo koja je najpopularnija politička
partija, ciljna populacija bi bili svi punoljetni stanovnici u Crnoj Gori.
Bilo bi prilično neracionalno da neka od agencija sprovede istraživanje na
svim punoljetnim stanovnicima u Crnoj Gori. Zato se bira slučajan uzo-
rak punoljetnih stanovnika Crne Gore koji će biti potrencijalni učesanici
istraživanja. U zavisnosti od cilja i vrste istraživanja potrebno je da se
odredi i optimalan broj ispitanika koji će biti izabrani u uzorak. Broj elel-
menata u uzorku zove se obim uzorka.
Slučajno uzorkovanje je postupak kojim se pomoću odgovarajuće vje-
rovatnoće, iz populacije bira objekat koji će biti u uzorku.
Sada se postavlja pitanje, na osnovu čega je istraživač siguran da će
rezultati na uzorku, na najbolji način predstaviti rezultate na nivou pop-
ulacije. Da bi rezultati dobijeni na uzorku bili pouzdani, karakteristike
izabranih jedinica moraju da odgovaraju karakteristikama populacije, tj.
uzorak mora da reprezentuje populaciju na najbolji mogući način. Reprezen-
tativnost se i postiže slučajnim odabirom uzorka.
1.5.1 Prost slučajan uzorak
Prost slučajan uzorak predstavlja najprostiji tip uzorka.

Ako iz populacije izaberemo uzorak tako da svaki element populacije
ima istu vjerovatnoću da bude izabran dobijamo prost slučajan uzorak.
Broj različitih slučajnih uzoraka (bez ponavljanja) od n elemenata koji
se mogu izabrati iz populacije od N elemenata je
N N (N − 1) . . . (N − n + 1)
(1.1) = .
n 1 · 2 · ... · n
Primjer 4 Jana ima 4 karte za pozorište. Šest drugarica je zainteresovano

da ide sa Janom u pozorište. Jana je odlučila da na slučajan način odredi
koje drugarice će da povede sa sobom. Koliko ima prostih slučajnih uzoraka
od tri elementa?
Rješenje: U pitanju je prost slučajan uzorak bez ponavljanja gdje je N = 6

i n = 3. Primijenićemo fromulu (1.1). Tada je
6 6·5·4
= = 20 .
3 1·2·3
Dakle, iz populacije od 6 elemenata, na slučajan način,bez ponavljanja,

može se izabrati 20 različitih uzoraka od 3 elementa.
Postavlja se pitanje kako da izaberemo prost slučajan uzorak. Naj-
pogodniji način jeste pomoću slučajnih brojeva. Naime, svakom elementu
u populaciji dodjeljuje se redni broj od 1 do N . Takav dobijeni skup zovemo
okvir. Iz tablice slučajnih brojeva odred̄uje n brojeva. U uzorak se bira ele-
ment čiji redni broj odgovara izabranom slučajnom broju. Tablice slučajnih
brojeva dostupne su u skoro svim udžbenicima iz statistike.
Ovakav način izbora u slučaju uzoraka većih obima je dosta zahtije-
van. Zato se, obično, umjesto tablice slučajnih brojeva, koriste generatori
slučajnih brojeva koji se nalaze u svim softverima. Mi ćemo ovdje koristiti
Data Analysis Tool Pak koji je dio Excela.
Primjer 5 Nova farmaceutska kuća lansirala je kozmetičku liniju. Da bi

ispitali zadovoljstvo korisnika, menadžment te kompanije odlučio je da na
uzorku od 10 klijenata sprovede istraživanje. Kompanija sada ima ukupno
32 klijenata.
Rješenje: Prvo formiramo okvir za izbor uzorka. Deset slučajnih brojeva

izabraćemo pomoću generatora slučajnih brojeva. Element čiji redni broj
odgovara slučajnom, biće izabran u uzorak. S obzirom da biramo uzorak
bez ponavljanja, nije moguće da isti klijent bude biran u uzorak više puta.
Generatori slučajnih brojeva zahtijevaju da se unese slučajni početak (engl.
seed). To može da bude bilo koji pozitivan broj.
Generisani slučajni broj može da se ponovi. Zato je preporuka da se
generiše više slučajnih brojeva nego što je projektovani obim uzorka.
Generisani slučajni brojevi su zaokruženi na najbliže cijele brojeve, pa
su zatim izbrisani duplikati. Na kraju, u uzorak ulaze klijenti čiji su redni
brojevi 2,5,7, 10, 12, 14, 18, 22, 25 i 30.
10 Uvod
Tabela 1.1: Okvir za izbor uzorka
Rbr Ime Rbr Ime Rbr Ime Rbr Ime

1 Danijela 9 Andrijana 17 Snežana 25 Dijana
2 Nada 10 And̄ela 18 Ljiljana 26 Maja
3 Tanja 11 Mirka 19 Natalija 27 Kaja
4 Vanja 12 Ljubica 20 Julija 28 Anica
5 Jana 13 Milica 21 Petra 29 Stevka
6 Dragana 14 Ana 22 Anja 30 Helena
7 Milja 15 Anka 23 Mira 31 Jovana
8 Maja 16 Jelena 24 And̄elka 32 Sonja
Slika 1.1: Postupak odred̄ivanja slučajnih brojeva.

1.5.2 Stratifikovani uzorak
Primjenom prost slučajnog uzorka dobijamo precizne ocjene, u slučaju kada

je varijabilitet izabranih jedinica relativno mali, odnosno kada je uzorak
homogen. U slučajevima heterogenosti skupa (visok varijabilitet) prost
slučajan uzorak neće biti pogodan, jer ne možemo da očekujemo preciznost
u ocjenama. U cilju prevazilaženja ovog problema pribjegava se strati-
fikaciji, tj. podjeli populacije na disjunktne skupove koje zovemo stratu-
mima. Osnovna karakteristika stratuma jeste homogenost jedinica koje
pripadaju stratumu, kao i heterogenost izmed̄u stratuma.
Izbor stratifikovanog uzorka podrazumijeva da se, u prvom koraku, pop-
ulacija izdijeli na stratume, a da se u drugom koraku iz svakog stratuma
izabere prost slučajan uzorak. Unija svih slučajnih uzoraka predstavlja
stratifikovani uzorak.
Prednost stratifikovanog, u odnosu na prost slučajan uzorak, se pre-
ventsveno ogleda u reprezentativnosti. Na primjer, ako želimo da obezbi-
jedimo reprezenativnost nekog uzorka u odnosu na pol, realno je očekivati
da u uzorku imamo približan broj osoba ženskog i muškog pola. Ukoliko
bi uzorak birali primjenom prostog slučajnog uzorka, ne možemo garan-
tovati traženu reprezentativnost, jer bi se, na primjer, moglo desiti da u
uzorku nemamo izabrane osobe muškog pola. Zato se populacija dijeli na
dva stratuma (ispitanici ženskog i muškog pola) pa se iz svakog stratuma
bira uzorak vodeći rav cuna o približnoj zastupljenosti osoba oba pola .
1.5.3 Sistematski uzorak
Sistematski uzorak podrazumijeva izbor jedinica sa nekim korakom počevši

od slučajno izabranog početka. Za izbor uzorka obima n potrebno je da
N
formiramo okvir. Zatim se odred̄uje korak k = n, gdje je N broj elemenata
populacije. Pitanje odabira slučajnog početka može se riješiti tako što se
generše slučajni broj m iz intervala 1 do k. Tada se u uzorak biraju elementi
čiji se redni broj iz okvira poklapa sa: m, m + k, m + 2k, itd.
Sistematski uzorak može predstavljati alternativu stratifikovanom uzorku.
Naime, okvir se može, uzimajući u obzir obilježja po kojima smo planirali
12 Uvod
stratifikaciju, pogodno sortirati. Za tako dobijen okvir kažemo da je implic-

itno stratifikovan. Zatim se, kao što je objašnjeno u prethodnom pasusu,
odred̄uje slučajan početak i bira uzorak. Više o ovome se može naći u XXX.
Primjer 6 Od 10000 preduzeća iz jednog grada, potrebno je u uzorak iz-

abrati 5%, odnosno 500 preduzeća. Sva preduzeća se nalaze u registru i
10000
uzorak se bira sistematski. Korak se odred̄uje iz jednakosti k = 500 = 20.
Sada biramo slučajan broj iz intervala 1 do 20. Neka smo dobili da je to
6. U uzorak biramo elemente iz okvira čiji se redni brojevi poklapaju sa:
6 + 20 = 26, 6 + 2 · +20 = 46, 6 + 3 · 20 = 66, itd.
1.6 Nestandardne opservacije

Nestandardne opservacije (engl. outliers) su one vrijednosti obilježja koje
su nekonzistentne sa ostalim vrijednostima obilježja. Nestandardne opser-
vacije se joňazivaju i ekstremne vrijednosti.
Razlozi za postojanje ovih opseracija su različiti. Najčešće se javljaju
kao greške prilikom unosa, pogrešna interpretacija pitanja od strane anke-
tara, pogrešno instruiranje anketara, itd.
Prije početka rada sa podacima, preporučuje se da ispita prisusto ne-
standardnih opservacija u uzorku. Njihovo otkrivanje je veoma važno,
jer oni, u znatnoj mjeri, mogu uticati, kako na numeričke karakteristike
obilježja (npr. aritmetička sredina), tako i na statističko zaključivanje (npr.
testiranje hipoteza). Dakle, prosustvo nestandardnih opservacija može da
dovede do pogrešnih zaključaka, pa samim tim predstavljaju potencijalan
ozbiljan problem. Ne postoji neki standardni metod za njihovo otkrivanje,
ali većina tih tehnika zahtijeva dublje poznavanje teorijske statistike, zato
su van okvira ovog kursa.
Najčešće korišćeni postupci su grafički metod i interkvartilni rang. O
ovome će biti više riječi u Glavi 2, gdje se bavimo metodama deskriptivne
statistike.
Glava 2
Deskriptivna statistika
Kada su podaci prikupljeni predstoji njihova organizacija, provjera, sta-

tistička obrada i tabeliranje. Metodi deskriptvine statistike omogućavaju
istraživaču jednu vrstu interakcije sa podacima. Pod interakcijom podrazu-
mijevamo uočavanje raznih nekonzistentnosti u podacima ( greške prilikom
unosa podataka, pogrešno šifriranje, postojanje nestandardnih observacija,
itd.).
Postupak organizacije podataka podrazumijeva korake koje istraživač
primjenjuje prije i tokom unosa podataka u bazu. Prije svega sva kvalita-
tivna obilježja se moraju šifrirarti. Na primjer, ako razmatramo obilježje
pol, znamo da su njegove vrijednosti ”žensko” ili ”muško”. Nije pogodno
da se u bazu unose vrijednosti u tekstualnom formatu, već se tekstualnim
vrijednostima dodjeljuju (proizvoljne) numeričke šifre. Tako bi, na primjer,
za osobe ženskog pola dali šifru ”1”, a za osobe muškog pola šifru ”2”.
Kvantitativna obilježja koja su nastala kao rezultat nekog mjerenja nije
potrebno šifrirati. Radi lakšeg prikazivanja kvantitaivnih obilježja, ponekad
se ona grupišu u intervale. O tome više u narednim poglavljima.
2.1 Raspodjela frekvenci

Pod frekvencom (f) podrazumijevamo broj javljanja nekog podatka koji se
sastavni dio obilježja. Tu frekvencu još zovemo i apsolutna frekvenca i ona
13
14 GLAVA 2. DESKRIPTIVNA STATISTIKA
je uvijek prirodan broj.

Raspodjela frekvenci predstavlja spisak svih podataka nekog obilježja
zajedno sa brojem pojavljivanja svakog podatka posebno. Lako se za-
ključuje da se raspodjela frekvenci odnosi na kvantitativna odnosno kat-
egorijska obilježja.
Primjer 1 U jednom odjeljenju na kraju nastavne godine bilo je 24 učenika.

Razredni starješina je računao uspjeh učenika. Rezultati se dati tabelom:
Tabela 2.1: Uspjeh učenika na kraju nastavne godine
dobar vrlo dobar dovoljan odličan nedovoljan vrlo dobar

dovoljan dobar nedovoljan vrlo dobar dovoljan dobar
odličan nedovoljan dovoljan dobar nedovoljan dovoljan
odličan dobar vrlo dobar dovoljan dobar vrlo dobar
Formirati tabelu raspodjele frekvenci.
Rješenje: Označimo sa 5 odličan, sa 4 vrlo dobar, sa 3 dobar, sa 2 dovol-

jan i sa 1 nedovoljan uspjeh. Poslije prebrojavanja, dobijamo raspodjelu
frekvenci kao u Tabeli 2.2.
Tabela 2.2: Raspodjela frekvenci za uspjeh učenika
Uspjeh Broj Frekvenca (f)

5 ||| 3
4 ||||| 5
3 |||||| 6
2 |||||| 6
1 |||| 4
Raspodjela frekvenci je obično predstavljena zajedno sa raspodjelom rel-

ativnih frekvenci. Relativna frekvenca (ri ) predstavlja odnos pojedinačne
2.1. RASPODJELA FREKVENCI 15
frekvence (fi ) i sume svih frekvenci ( i fi ). Dakle,
fi
(2.1) ri = .
i fi
Da bi raspodjela relativnih frekvenci bila u procentima, onda se prethodni

količnik množi sa 100. Treba napomenuti da je suma svih frekvenci jed-
naka broju elemenata u uzorku, a da je suma relativnih frekvenci jednaka
1, odnosno 100 ako je relativna frekvenca data u procentima. Dakle, ako se
rezultatima u Tabeli 2.2 doda kolona sa relativnim frekvencama dobijamo
Tabelu 2.3.
Tabela 2.3: Raspodjela frekvenci i relativnih frekvenci za uspjeh učenika
Uspjeh Broj Frekvenca (f) Relativna frekvenca (r)

3
5 ||| 3 24 = 0, 13
5
4 ||||| 5 24 = 0, 21
3 |||||| 6 0,25
2 |||||| 6 0,25
1 |||| 4 0,16
UKUPNO 24 1
Nekada se apsolutne frekvence kumuliraju, pa se umjesto pojedinačnih

frekvenci koriste njihove kumulante. Kumuliranje se vrši tako što se, počevši
od najmanje vrijednosti, frekvence sabiraju tako što se sukcesivno dodaju
zbiru prethodnih frekvenci. Tako smo dobili rastuću kumulantu, odnosno
kumulatnu ispod. Opadajuća ili kumulanta iznad dobija se tako što se,
počevši od prvog podatka, frekvcence sukcesivno oduzimaju od sume svih
pojedinačnih frekvenci.
Tabela 2.4 je primjer kako treba formirati tabelu raspodjele frekvenci.
2.1.1 Grafičko prikazivanje kategorijskih podataka
Kada smo napravili tabelu frekvenci, možemo da napravimo i odgovarajuće

grafikone. Grafikoni nam pomažu da bolje razumijemo podatak, kao i da
Tabela 2.4: Raspodjela frekvenci, relativnih frekvenci i kumulativ za uspjeh

učenika
Uspjeh Frekvenca (f) Relativna frekvenca (r) Kumulativ (F)

3
5 3 24 = 0, 13 3
5
4 5 24 = 0, 21 8
3 6 0,25 14
2 6 0,25 20
1 4 0,16 24
UKUPNO 24 1
zaključimo šta nam podaci ”govore” o samom obilježju. Sentenca ”Slika

govori 1000 riječi” dobija posebnu težinu u slučaju grafičke interpretacije
podataka.
Jedan tip grafikona koji se najviše upotrebljava jeste stubasti dijagram
(engl. bar plot). Stubasti dijagram se dobija tako što se na x− osu nanose
kategorije, a na y osu se unosi frekvenca ili relativna frekvenca odgovarajuće
kategorije sa x− ose. Svaki pravougaonik je jednake širine, sa visinom
koja odgovara frekvenci ili relativnoj frekvenci. Na Slici 2.1 dat je primjer
stubastog dijagrama, koji odgovara podacima iz Tabele 2.4.
Sledeći tip grafikona je kružni dijagram (engl. pie plot). Kružni di-
jagram se primjenjuje za prikazivanje relativnih frekvenci. Svaki sektor
kružnog dijagrama odgovara jednoj kategoriji, dok je površina svake kat-
egorije proporcionalna relativnoj frekvenci. Na Slici 2.2 dat je primjer
kruňog dijagrama, na kome su prikazane relativne frekvence iz Tabele 2.4.
Kružni dijagram koristimo onda kada se sve kategorije koje smo razma-
trali grafički reprezentuju. Na primjer, ako bi grafički predstavljali relativne
frekvence koje odgovaraju učenicima koji su imali pozitivan uspjeh, kružni
dijagram ne bi bio pogodan, jer smo obuhvatili samo 83% podataka.
Kruňi dijagram je pogodan za korišćenje kada želimo da uporedimo
pojedinu kategoriju u odnosu na cjelinu (npr. koliki je udio vrlo dobrih
učenika u odjeljenju). Ako pomoću kružnog dijagrama upored̄ujemo po-
jedine kategorije med̄u sobom, nekada predstavlja teškoću da se uporede
2.1. RASPODJELA FREKVENCI 17
Slika 2.1: Primjer stubastog dijagrama
6
5
4
3
2
1
0
1 2 3 4 5
Slika 2.2: Primjer kružnog dijagrama
5
3
2
uglovi kružnog dijagrama. Zato je, u tom slučaju, pogodnije da se koriste

stubasti grafikoni.
Grafička reprezentacija podataka olakšava upored̄ivanje dva skupa po-
dataka. Na primjer, ako želimo da uporedimo broj stanovnika u Podgorici,
Bijelom Polju i Nikšiću 2003. i 2011. godine, najpogodnije je da se koristi
uporedni stubasti dijagram (engl. side by side bar plot).
Slika 2.3: Primjer uporednog stubastog dijagrama

100000 150000
50000
0
Podgorica Niksic Bijelo Polje
2.2 Grupisanje kvantitativnih podataka

Za grupisanje kvantitativnih podataka, prvo je potrebno da utvrdimo da
li su podaci diskretni ili neprekidni. U slučaju diskretnih podataka i ako
se u skupu podataka javlja relativno mali broj različitih opservacija, tada
je svaka opservacija i jedna kategorija. U slučaju više različitih diskretnih
podataka ili u slučaju neprekidnog obilježja, podatke moramo grupisati u
intervale.
Primjer 2 Uprava nekog restorana želi da ispita koji meni privlači više
gostiju. U tom cilju su poslije ponude menija, u petnaesto minutnim inter-
2.2. GRUPISANJE KVANTITATIVNIH PODATAKA 19
valima bilježili broj gostiju koji ih posjećuje. Uprava je na slučajan izabrala

40 intervala. Podaci su dati u Tabeli 2.5.
Tabela 2.5: Broj gostiju nekog restorana u petnaesto minutnim intervalima
7 6 6 6 4 6 2 6
5 6 6 11 4 5 7 6
2 7 1 2 4 8 2 6
6 5 5 3 7 5 4 6
2 2 9 7 5 9 8 5
Formirati tabelu raspodjele frekvenci.
Rješenje: Iz tabele možemo da vidimo da je minimalan broj gostiju

restorana 0, a maksimalan 11. Dakle, imamo 11 kategorija, pa tabelu
frekvenci formiramo kao u Primjeru 1.
Tabela 2.6: Raspodjela frekvenci, relativnih frekvenci i kumulativ za broj

gostiju
Broj gostiju Frekvenca (f) Relativna frekvenca (r) Kumulativ (F)

11 1 0,025 1
10 0 0 1
9 2 0,05 3
8 2 0,05 5
7 5 0,125 10
6 11 0,275 21
5 7 0,175 28
4 4 0,10 32
3 1 0,025 33
2 6 0,15 39
1 1 0,025 40
UKUPNO 40 1
Prilikom formiranja raspodjele frekvenci za neprekidno obilježje grupisanje

podataka nije tako jednostavno. Kod odred̄ivanja raspodjele frekvenci
postavlja se pitanje broja grupa (intervala), kao i pitanje veličine inter-
vala. Sam postupak grupisanja treba da bude takav da dobijena podjela
bude dovoljno informativna.
Zaokruživanje broja x na najbliži cio broj koji nije manji od x označavaćemo
sa x . Jedan od načina da se odredi broj intervala jeste da se primjeni tzv.
Sturgesovo pravilo (Herebert Sturges) po kome se broj intervala k odred̄uje
po formuli
(2.2) k = 1 + 3, 3 · log n ,
gdje je n ukupan broj elemenata u uzorku, a log je logaritam sa osnovom

10. Širina intervala se zatim odred̄uje uzimajući u obzir maksimalnu i
minimalnu vrijednost u uzorku, primjenom formule
xmax − xmin
(2.3) i= .
k
Da bi odredili početnu tačku prvog intervala koristimo formulu
i
(2.4) x0 = xmin − .
2
Treba voditi računa da se kraj jednog i početak narednog intervala ne

poklapaju.
Primjer 3 Testirana je nova nastavna metoda u nastavi maternjeg jezika.

Ukupno 35 nastavnika ocjenjivalo je kvalitet primijenjene metode ocjen-
jujući je jednom ocjenom iz intervala od 0 do 100. Rezultati su: 36, 51,
40, 57, 63, 44, 32.5, 63, 39, 54, 60, 58, 34, 48, 55, 42, 51, 35, 53, 61, 61,
59, 40, 42, 62, 54, 43, 62, 49, 56, 52, 57, 55, 55, 46.
Grupisati podatke u intervalne serije.
Rješenje: Da bi podatke grupisali u untervalne serije, prvo treba da

izračunamo broj intervala po formuli (2.2) za n = 35. Kako je log 35 = 1, 54
2.2. GRUPISANJE KVANTITATIVNIH PODATAKA 21
dobijamo
k = 1 + 3, 3 · 1, 54 = 6, 082 = 7 .
Kako je xmax = 63, a xmin = 32, 5 primjenom formule (2.3) dobijamo
63 − 32, 5
i= = 5, 014 = 6 .
6, 082
Sada pomoću (2.4) dolazimo do početne tačke
5, 014
x0 = 32, 5 − = 29, 996 = 30 .
2
Vodeći računa da se kraj jednog i početak narednog intervala ne pok-

lapaju, formiraćemo tabelu raspodjele frekvenci. Frekvence fi odred̄ujemo
prostim provjeravanjem da li konkretan element pripada intervalu. Da bi
imali potpuniju informaciju o podacima iz uzorka prikazaćemo relativne
frekvence i kumulativ (vidjeti Tabelu 2.7).
Tabela 2.7: Raspodjela frekvenci
Interval fi ri F
30-35 ||| 3 0,09 3
35,01-40 |||| 4 0,11 7
40,01-45 |||| 4 0,11 11
45,01-50 ||| 3 0,09 14
50,01-55 ||||||||| 9 0,26 23
55,01-60 |||||| 6 0,17 29
60,01 -65 |||||| 6 0,17 35
Ukupno 35 1
Preporuka za grupisanje intervala jeste da se vodi računa da njihova

širina bude jednaka. Postupak grupisanja u intervale je veoma osjetljiv na
prisustvo nestandardnih opservacija. Ako u uzorku imamo nestandardno
male i/ili nestandardno velike opservacije može se desiti da početni i/ili
krajnji interval budu otvoreni tj. da početni interval nema donju, a krajnji
interval nema gornju granicu. Otvorenost intervala može da dovede do

manje preciznosti u odred̄ivanju numeričkih karakteristika uzorka. Veličine
beskonačnih intervala se poistovjećuju sa veličinom prethodnih intervala.
I pored evidentnih nedostataka, postupak grupisanja se dosta koristi
u statistici, prvenstveno zbog dobijanja jasnije slika o karakteristikama
uzorka.
2.2.1 Grafičko prikazivanje neprekidnih podataka

Jedan najčešćih tipova grafikona za prikazivanje neprekdnih podataka je
histogram. Dakle, poslije grupisanja podataka u intervale, histogramom se
predstavljaju frekvence kojom se javljaju podaci u uzastopnim intervalima.
Na sledećem grafikonu dat je histogram koji odgovara podacima iz tabele
2.7.
Slika 2.4: Histogram

10
8
Frekvenca
6
4
2
0
30 35 40 45 50 55 60 65
Intervali
Na prvi pogled, moglo bi da se zaključi da su stubasti dijagram i his-

togram isti tip grafikona. Med̄utim, razlika je suštinska. Ako uporedimo
stubasti dijagram sa slike 2.1 i histogram sa slike 2.4, možemo da zaključimo
da se stubasti dijagram odnosi na kategorijske, a histogram na neprekidne
2.3. MJERE CENTRALNE TENDENCIJE 23
podatke. Druga stvar, sasvim je svejedno da li ćemo na stubastom dija-

gramu prvo prikazati frekvence odličnih ili vrlo dobrih učenika, dok se kod
histograma poredak intervala ne može mijenjati.
Kumulirane frekvence prikazuju se grafički pomoću kumulante (ogive).
Primjer kumulante koji odgovara kumulativu iz tabele 2.7 je dat na slici
2.5.
Slika 2.5: Kumulanta

20 25 30 35
Kumulativ
10 15
5
0
30 35 40 45 50 55 60 65
Ocjene
Kumulanta se može koristiti i za prikazivanje frekvenci kod kategorijskih

obilježja.
2.3 Mjere centralne tendencije
Mjere centralne tendencije, kao što sam naziv kaže, predstavljaju centar
osnovnog skupa. Ove mjere daju informaciju o onome što je tipično, za-
jedničko za sve elemente jednog skupa. Prednost ovih mjera je što se vri-
jednosti u populaciji ili uzorku svode na jednu jedinu vrijednost. Postoji
više mjera centralne tendencije i svaka ima svoje prednosti i nedostatke.
2.3.1 Aritmetička sredina
Kada u svakodnevnom jeziku čujemo riječ prosjek obično se misli na ar-

itmetičku sredinu. Aritmetička sredina predstavlja najčešće izračunavanu
mjeru centralne tendencije. Da bi se izrčunala aritmetička sredina neophodno
je da su podaci bar sa intervalne skale odnosa.
Aritmetička sredina, sredina ili prosjek, dobija se kada se sve vrijednosti
nekog skupa saberu i podijele sa brojem elemenata. Ako su x1 , x2 , . . . , x N
elementi populacije od N elemenata tada se sredina µ računa po formuli
x1 + x2 + . . . + xN i xi
(2.5) µ= = .
N N
Ako su x1 , x2 , . . . , x n elementi uzorka od n elemenata tada je aritmetička

sredina
x1 + x2 + . . . + xn i xi
(2.6) x= = .
n n
Vrijednost dobijenu formulom (2.6) zovemo uzoračka aritmetička sredina ili,

kraće, uzoračka sredina. Imajući na umu razmatranja iz Glave 1, možemo
da zaključimo da je sredina parametar, dok je uzoračka sredina statistika.
Primjer 4 Deset studenata je polagalo ispit iz statistike. Rezultati su: 85,

72, 75, 68, 91, 55, 78, 82, 89, 59.
a) Izračunati aritmetičku sredinu.
b) Izabrati slučajan uzorak od 5 elemenata i izračunati uzoračku arit-
metičku sredinu.
Rješenje:
a) Računamo sredinu koristeći formulu (2.5). Dakle,
85 + 72 + 75 + 68 + 91 + 55 + 78 + 82 + 89 + 59
µ= = 75, 4 .
10
b) Pretpostavimo da smo pomoću slučajnih brojeva u uzorak izabrali

studente čiji je skor: 72, 68, 91, 78, 59. Uzoračka sredina se dobija po
formuli (2.6)
72 + 68 + 91 + 78 + 59
x= = 73, 6 .
5
Ukoliko su podaci iz populacije dati u obliku raspodjele frekvenci, kao

u Tabeli 2.8, tada se populaciona aritmetička sredina računa po formuli
Tabela 2.8: Primjer grupisanih podataka
Vrijednosti obilježja x1 x2 .. . xN
Frekvence f1 f2 .. . fN
x1 · f 1 + x2 · f2 + . . . + xN · fN i f i · xi
(2.7) µ= = .
N N
Ukoliko se računa na uzorku prethodna formula postaje
x1 · f1 + x2 · f2 + . . . + xn · fn i fi · xi
(2.8) x= = .
n n
Primjer 5 U jednom soliteru živi 83 domaćinstava. Broj članova po domaćinstvima

dat je Tabelom 2.9. Izračunati prosječan broj članova po domaćinstvu.
Tabela 2.9: Pregled broja domaćinstava

Broj članova domaćinstva xi 1 2 3 4 5
Broj domaćinstava fi 4 13 21 29 16
Rješenje: Postupak za računanje dat u Tabeli 2.10.

Smatrajući da su stanovnici solitera dio nekog slučajnog uzorka, dobi-
xi ·fi 289
jamo da je uzoračka sredina x = i
n = 83 = 3, 48.
Razmotrimo slučaj kada su podaci dati u obliku intervala kao što je

slučaj u Tabeli 2.11. Označimo sa xi sredine intervala, tj. neka je xi =
Tabela 2.10: Radna tabela sa postupkom računanja aritmetičke sredine za

podatke date u bliku frekvenci
Broj članova domaćinstva xi Broj domaćinstava fi xi · fi
1 4 4
2 13 26
3 21 63
4 29 116
5 16 80
Ukupno 83 289
xi−1 +xi
2 . Tada se aritmetička sredina računa po formuli
x1 · f1 + x2 · f2 + . . . + xN · fN i fi · xi
(2.9) µ= = .
N N
Tabela 2.11: Primjer tabele u slučaju kada su podaci dati u obliku intervala
Vrijednosti obilježja (x1 , x2 ] (x2 , x3 ] . . . (xN , xN −1 ]
Frekvence f1 f2 ... fN
U slučaju kada je uzorak grupisan u intervale, uzoračka sredina je
x1 · f1 + x2 · f2 + . . . + xn · fn i fi · xi
(2.10) x= = .
n n
Primjer 6 Da bi izračunali prosječni promet ostvaren u toku jednog mjeseca,

na slučajan način je izabrano 50 radnji. Radnje su, u odnosu na ostvareni,
promet grupisane kao u Tabeli 2.12.
Izračunati prosječan promet.
Rješenje:
Postupak rada dat je Tabelom 2.13.
Sredinu intervala dobijamo tako što saberemo početnu i krajnju tačku
intervala i podijelimo sa 2.
40+50
Tako je na primjer, sredina drugog intervala xi = 2 = 45.
Tabela 2.12: Prosječan promet
Promet u hilj. EUR Broj radnji (fi )

30-40 2
40,01-50 5
50,01-60 10
60,01-70 12
70,01-80 10
80,01-90 9
90,01-100 2
Tabela 2.13: Radna tabela sa postupkom računanja aritmetičke sredine za

podatke date u obliku intervala
xi fi xi xi · fi
30-40 2 35 70
40,01-50 5 45 225
50,01-60 10 55 550
60,01-70 12 65 780
70,01-80 10 75 750
80,01-90 9 85 765
90,01-100 2 95 190
Ukupno 50 3330
Uzoračka sredina je
i fi · xi 3330
x= = = 66, 6 .
n 50
Aritmetička sredina, kao prosječna vrijednost obilježja svih elemenata

nekog skupa zadovoljava sledeće osobine:
1. Aritmetička sredina je srednja vrijednost veća od najmanjeg i manja od

najvećeg elementa u uzorku.
2. Ako su sve vrijednosti nekog skupa med̄usobom jednake x1 = x2 =

. . . xn = a tada je x = a .
3. Zbir odstupanja svih elemenata nekog skupa od aritmetičke sredine je

jednak 0, tj i (xi − x) = 0.
4. Neka je x1 , x2 , . . . , x n skup čija je aritmetička sredina x. Tada je ar-

timetička sredina skupa x1 ± a, x2 ± a, . . . , xn ± a, gdje je a = 0, jednaka
x ± a.
5. Neka je a = 0 i neka je x1 , x2 , . . . , xn skup čija je aritmetička sredina

x. Tada je artimetička sredina skupa x1 · a, x2 · a, . . . , xn · a jednaka x · a.
x1 x2 xn
Slično, aritmetička sredina skupa a , a ,. .. , a , jednaka xa .
Prednosti aritmetičke sredine mogle bi da budu lakoća izračunavanja,

kao i široka upotreba u drugim statističkim tehnikama. Takod̄e, pri od-
abiru više uzoraka iz jedne populacije, aritmetičke sredine biće najastabil-
nije mjere centralne tendencije u smislu da će biti najbliže populacionoj
aritmetičkoj sredini.
Iz same definicije aritmetičke sredine možemo da zaključimo da pris-

ustvo nestandardnih opservacija u velikoj mjeri utiče na vrijednost arit-
metičke sredine.
Na Slici 2.6 data su dva uzorka od po pet elemenata, koji se razlikuju

samo u jednoj opservaciji. Vidimo da se aritmetička sredina uzoraka A i B
promijenila zamjenom samo jedne vrijednosti uzorka A.
Slika 2.6: Uticaj nestandardnih opservacija na aritmetičku sredinu.
Uzorak A(ar.sred.=3)
0 2 4 6 8 10
Uzorak B(ar.sred.=4)
0 2 4 6 8 10
2.3.2 Mod
Mod (Mo) predstavlja najfrekventnije obilježje nekog uzorka i odred̄uje se

za obilježja čije su vrijednosti date bar na nominalnoj skali. Neko obilježje
može da ima jedan ili više modova. Ukoliko uzorak ima jedan mod zovemo
tada je on unimodalan, ukoliko ima dva moda bimodalan, itd. Ako se sve
vrijednosti u uzorku sa jednakim frekvencama, tada kažemo da uzorak ne
sadrži mod.
Primjer 7 Odrediti mod za svaku od sledećih serija podataka:
a) 10, 17, 16, 13, 18, 12, 15, 21.
b) 10, 17, 17, 12, 18, 15, 17, 21.
c) 10, 10, 17, 16, 13, 13, 14, 22.
Rješenje: Serija a) nema mod jer se svaka vrijednost javlja jednak broj
puta (u ovom slučaju to je 1).
Serija b) ima jedan mod i to je 17, jer ta vrijednost ima najveću

frekvencu (javlja se 2 puta).
Serija c) ima dva moda i to su 10 i 13, jer se te dvije vrijednosti javljaju
sa najvećim frekvencama.
Prednost moda je da je to jedina mjera centralne tendencije koja se

može koristiti kod uzoraka čiji se elementi mjere na nominalnoj skali.
Nepostojanje moda, kao i njegova neupotrebljivost kod polimodalnih
serija predstavljaju glavni nedostatak ove mjere centralne tendencije. Mod
se veoma često koristi u slučajevima kada koristimo Likertovu skalu (”uopšte
se ne slažem”, ”ne slažem se”, ”nemam mišljenje”, ”slažem se”, ”potpuno
se sla vem”).
Na slici 2.7 dat je primjer uzorka sa modom (uzorak A) i uzorka bez
moda (uzorak B).
Slika 2.7: Primjer uzoraka sa i bez moda.
Uzorak A(mod=9)
0 2 4 6 8 10 12 14
Uzorak B(nema mod)
0 2 4 6 8 10
U slučaju da su podaci grupisani u intervale, postupak odred̄ivanja

moda sastoji se u sledećem:
1. odred̄ivanje modalnog intervala. Modalni interval je interval sa na-

jvećom frekvencom.
2. Neka je (ai , bi ] modalni interval. Tada se mod računa po formuli
f2
(2.11) m = ai + (bi − ai ) ,
f1 + f2
gdje su: ai donja granica modalnog intervala, bi gornja granica modalnog

intervala, f2 frekvenca intervala koji je poslije modalnog i f1 frekvenca
intervala koji prethodi modalnom.
Primjer 8 Izračunati modalni promet iz Primjera 6.
Rješenje: Modalni interval je (60, 70] jer njegova frekvenca najveća. Tada
je bi = 70, ai = 60 i bi − a1 = 10, odnosno f2 = 10 i f1 = 10. Pomoću (2.11)
dolazimo do
10
m = 60 + 10 · = 65.
20
Dakle, modalni promet je 65 000 EUR.
2.3.3 Medijana
Medijana (Me) nekog obilježja predstavlja centralnu opservaciju nekog niza

koji je ured̄en u rastući poredak. Odred̄uje se za obilježja koja se mjere bar
na ordinalnoj skali. S obzirom da se medijana ored̄uje na osnovu polžaja,
što nije slučaj kod aritmetičke sredine, medijana pripada položajnim mjerama
centralne tendencije.
Neka je (x1 , x2 , . . . , xn ) neki realizovani uzorak. Da bi se odredila nje-
gova medijana M, postupamo na sledeći način:
1. Vrijednosti realizovanog uzorka sortiramo u rastući poredak x(1) ≤
x(2) ≤ . . . x(n) .
2. Ako realizovani uzorak ima neparan broj elemenata tada je medijana
centralna opservacija, tj.
(2.12) M = x n+1 .
2
Ako realizovani uzorak ima paran broj članova tada je medijana arit-
metička sredina centralna dva člana, odnosno
x n2 + x n2 +1
(2.13) M= .
2
Za razliku od moda, medijana uvijek postoji i jedinstvena je vrijednost.
Primjer 9 Srednja vrijednost padavina u Podgorici za period od 1950. do

1984. (u mm) je
188,36; 173,94; 147,81; 129,4; 92,41; 58,63; 41,51; 68,46; 126,66;
184,5; 225,38; 227,42.
Odrediti medijalnu vrijednost.
Rješenje: Prvo date vrijednosti sortiramo u rastući poredak:

41,51; 58,63; 68,46; 92,41; 126,66; 129,4; 147,81; 173,94; 184,5; 188,36;
225,38; 227,42.
Pošto je u uzorku 12 elemenata, medijanu računamo po formuli (2.13):
129, 4 + 147, 81
M= = 138, 61.
2
Ako su podaci grupisani u intervale, postupak odred̄ivanja medijane je:

1. odred̄ivanje medijanskog intervala. Medijanski interval je prvi interval
n
čiji je kumulativ veći ili jednak od 2.
2. Neka je (aj , bj ] medijanski interval. Tada se medijana računa po formuli
n
2 − Fj
(2.14) M = aj + (bj − aj ) · ,
fj
gdje je aj početna tačka medijanskog intervala, Fj vrijednost kumulativa

koja odgovara intervalu koji prethodi medijanskom i fj je frekvenca medi-

janskog intervala.
Primjer 10 Izračunati medijalni promet iz Primjera 6.
Rješenje: Da bi izračunali medijanu potrebno da je da odredimo kumula-

tiv (vidjeti Tabelu 2.14).
Tabela 2.14: Radna tabela sa postupkom računanja medijane za grupisane

podatke
Promet u hilj. EUR Broj radnji (f ) F

30-40 2 2
40,01-50 5 7
50,01-60 10 17
60,01-70 12 29
70,01-80 10 39
80,01-90 9 48
90,01-100 2 50
Sledeći korak je odred̄ivanje medijanskog intervala. Pošto u uzorku

ima 50 elemenata, tada je medijalni interval (60, 70] jer je odgovarajući
50
kumulativ F = 29 prvi koji zadovovoljava uslov F = 29 ≥ 2 = 25 . Sada
je aj = 60, bj = 70, Fj = 17 i fj = 12, pa pomoću formule (2.14), dobijamo
medijanu
25 − 17
M = 60 + 10 · = 66, 67.
12
2.3.4 Percentili i percentilni rang

Percentili su, kao i medijana, položajne vrijednosti. Kaže se da k−ti per-
centil Pk , dijeli neki uzorak tako da se ispod percentila Pk nalazi k% vri-
jednosti uzorka. Na primjer, 10. percentil P10 dijeli uzorak tako da se
ispod vrijednosti percentila nalazi 10%, a iznad 90% vrijednosti obilježja.
Medijana je 50. percentil, tj. M = P50 . Na Slici (2.8) data je ilustracija
percentilne podjele uzorka..
Slika 2.8: Percentili
Najmanja Najveća
vrijednost vrijednost
u uzorku P1 P2 P98 P99 u uzorku
...
prvih poslednjih
1% 1%
prvih poslednjih
2% 2%
U praksi se najviše koriste kvartili. Prvi kvartil ili P25 dijeli vrijednosti
uzorka tako da se ispod P25 nalazi 25% njegovih vrijednosti . Takod̄e, važi
M = P50 . Analogno, treći kvartil, P75 , dijeli uzorak tako da se ispod nalazi
75% njegovih vrijednosti. Sa Slike (2.9) možemo da vidimo kako kvartili
dijele uzorak.
Slika 2.9: Kvartili
Najmanja Medijana Najveća

vrijednost vrijednost
u uzorku Q1 Q2 Q3 u uzorku
25% od 25% od 25% od 25% od

uzorka uzorka uzorka uzorka
U slučaju da raspolažemo negrupisanim podacima, percentile računamo

po formuli
k·n
(2.15) i= ,
100
gdje je i pozicija percentila u uzorku, k vrijednost percentila koji računamo,

a n je broj jedinica u uzorku.
Primjer 11 Visine 12 učenika jednog odjeljenja (u cm) osnovne škole su:

140, 141, 138, 140, 122, 160, 154, 132, 148, 135, 140, 133. Izračunati 35.
percentil.
Rješenje: Sortirajmo uzorak u rastući poredak:

122, 132, 133, 135, 138, 140, 140, 140, 141, 148, 154 i 160.
Primjenom formule (2.15) za k = 35, n = 12 dobijamo
k·n 35 · 12
i= = = 4, 2 = 5 .
100 100
Dakle, 35. percentil se nalazi na petoj poziciji, pa je P35 = 138.
Zaključujemo da je 35% učenika niže od 138 cm, a da je visina 65%
učenika veća ili jednaka od 138.
Neka je uzorak grupisan u obliku intervala, kao što je slučaj u Tabeli

2.11. Da bi odredili k− ti percentil postupamo na sledeći način:
1. Interval u kome se nalazi traženi percentil je prvi interval čiji je ku-

mulativ veći ili jednak od
k·n
(2.16) p= .
100
Tako odred̄eni interval zovemo percentilski interval.
2. Neka je (aj , bj ] percentilski interval. Tada se k− ti percentil računa

po formuli
p − Fj
(2.17) Pk = aj + (bj − aj ) ,
f
gdje je aj donja, bj gornja granica percentilnog intervala, Fj vrijednost

kumulativa koji odgovara intervalu koji prethodi percentilnom, f frekvenca
percentilnog intervala i p je dato formulom (2.16).
Primjer 12 Izračunati 85. percentil za uzorak radnji iz Primjera 6.
85·50
Rješenje: Percentilni interval odred̄ujemo tako što računamo p = 100 =
42, 5 . Prva vrijednost kumulativa koja je veća ili jednaka od 42,5 je 48, pa
je percentilni interval (80, 90]. Sada je aj = 80, 01, bj = 90, Fj = 39 i f = 9.

Primjenom (2.17) dobijamo
42, 5 − 39
P85 = 80, 01 + (90 − 80, 01) = 83, 90.
9
Dakle, 85. percentil je 83 900 EUR, što znači da 85% radnji ima promet
manji od 83 900 EUR.
Prilikom odred̄ivanja percentila, mi smo za dati percentil računali kon-

kretnu vrijednost iz uzorka koja datom percentilu odgovara. Sada treba za
datu konkretnu vrijednost da odredimo procenat elemenata uzorka koji su
manji ili jednaki od date vrijednosti. Opisani postupak zovemo odred̄iva-
njem percentilnog ranga.
U slučaju kada podaci nisu grupisani, percentilni rang neke vrijednosti
A računamo po formuli
L · 100
(2.18) Pr = ,
n
gdje je L broj vrijednosti koje su u uzorku manje od A i n je ukupan broj

elemenata uzorka.
Primjer 13 Rezultati studentskog takmičenja iz opšte kulture su: 95, 62,

75, 84, 85, 89, 100, 88 i 79. Odrediti percentilni rang za studenta čije je
postignuće 89.
Rješenje: Sortirajmo uzorak u rastući poredak:

62, 75, 79, 84, 85, 88, 89, 95, 100.
Broj elemenata koji su manji od 89 je L = 6, a u uzorku ima n = 9
elemenata. Primjenjujući (2.18), dobijamo
6 · 100
Pr = = 66, 7% .
9
Zaključujemo da je 66, 7% studenata imalo lošije postignuće od studenta

koji je na takmičenju osvojio 89 bodova.
2.4. MJERE VARIJABILITETA 37
Ukoliko su podaci grupisani u intervale, kao što je slučaj u Tabeli 2.11

percentilni rang elementa Y računamo na sledeći način:
1. Odredi se interval kome pripada Y .
2. Neka je (aj , b j ] interval koji sadrži Y . Tada se on računa po formuli
Fj · 100 Y − aj f · 100
(2.19) Pr = + ,
n i n
gdje je i širina intervala, n ukupan broj elemenata u uzorku, f frekvenca

intervala u kome se nalazi Y , Fj kumulativna frekvenca intervala koji
prethodi intervalu koji sadrži Y .
Primjer 14 Koristeći podatke iz Primjera 6, izračunati percentilni rang za

iznos prometa 57,5.
Rješenje: Stavimo da je Y = 57, 5. Očigledno je da ostvareni promet

pripada intervalu (50, 60]. Koristeći Tabelu 2.14 i formulu (2.19), dobijamo
7 · 100 57, 5 − 50, 01 10 · 100

Pr = + = 28, 98% .
50 10 50
Dakle, radnja koja ima promet od 57 500 EUR ima promet veći od
28, 98% drugih radnji.
2.4 Mjere varijabiliteta

Mjere centralne tendencije često nisu dovoljne da u potpunosti opišu raspod-
jelu nekog uzorka. Varijacija nekog uzorka podrazumijeva odstupanje ele-
menata uzorka od jedne unaprijed odred̄ene vrijednosti. Da bi dobili pot-
punu informaciju o nekom uzorku potrebno je da, pored aritmetičke sredine,
imamo i neku mjeru varijacije. U nastavku ćemo proučavati varijaciju od
aritmetičke sredine.
Slika 2.10: Uzorci različite varijacije.
Uzorak A
1 2 3 4 5
Uzorak B
2.0 2.5 3.0 3.5 4.0
Na slici 2.10 data su dva uzorka koja imaju istu aritmetičku sredinu
(x = 3), ali su različite varijacije. Evidentno je da elementi uzorka A
imaju veću varijaciju u odnosu na aritmetičku sredinu. Kada bi aritmetička
sredina bila dovoljna karakterizacija nekog uzorka, mogli bi da kažemo da
uzorci A i B potiču iz iste populacije, što, naravno, nije tačno. Zato se
uvode mjere mjere varijacije, koje opisuju koliko se vrijednosti nekog uzorka
med̄usobom razlikuju.
Reprezentativnost neke numeričke karakteristike uzorka (npr. aritmetičke
sredine) zavisi od stepena varijabiliteta. Ukoliko je varijabilnost manja,
utoliko su vrijednosti obilježja manje odstupaju od aritmetičke sredine i
ona je reprezentativnija, a za takav uzorak kažemo da je homogen. Obr-
nuto, ako je varijabilnost veća, odstupanje pojedinačnih vrijednosti od arit-
metičke sredine je veće, pa je reprezentativnost aritmetičke sredine manja.
Za takav skup kažemo da je heterogen.
Na primjer, ako imamo informaciju da je prosjek liječenja u jednoj bol-
nici 8 dana, a u drugoj takod̄e 8 dana, mogli bi da dod̄emo do pogrešnog
zaključka da je dužina trajanja liječenja jednaka u obije bolnice. Med̄utim,
to može ali ne mora da bude. Znači, da bi smo mogli da poredimo dva ili
više uzoraka, pored informacije o aritmetičkoj sredini, moramo da imamo
i informaciju o odstupanju pojedinačnih vrijednosti od prosjeka.
Apsolutne mjere disperzije varijabilnosti su:
1. raspon,
2. varijansa ili disperzija ,
3. standardna devijacija,
4. interkvartilni rang.
2.4.1 Raspon
Najprostija mjera varijacije naziva se raspon. Raspon R se definiše kao
razlika najveće i najmanje vrijednosti u uzorku, tj.
R = Xmax − Xmin .
Raspon je najprostiji pokazatelj varijabiliteta nekog uzorka. Njime se

dobija samo približna informacija o varijabilitetu, jer na njega utiču samo
dvije krajnje vrijednosti u uzorku. Ukoliko su obije ili bar jedna krajnja
vrijednost ekstremna raspon neće biti prava mjera varijabiliteta. Drugi,
isto tako važan nedostatak, jeste što se prilikom izračunavanja raspona ne
uzima u obzir broj elemenata u uzorku.
Primjer 15 Data su dva niza mjera:
a) 7, 11, 18, 5, 9, 6, 10, 14.
b) 7, 11, 30, 5, 9, 6, 10, 14.
Izračunati raspon.
Rješenje: Za prvi niz mjera raspon je R = 18 − 5 = 13, dok je raspon za

drugi niz mjera R = 30 − 5 = 25.
S obzirom da se prethodna dva niza mjera razlikuju samo u maksimalnoj

vrijednosti, očigledan je uticaj ekstremnih vrijednosti na raspon.
2.4.2 Interkvartilni rang

Kao što smo vidjeli prilikom definisanja raspona, ideja da se varijabilitet u
nekom uzorku mjeri kao razlika maksimalne i minimalne vrijednosti pokazala
je odred̄ene nedostatke. Postavlja se pitanje da li se može mjera varija-
biliteta definisati kao razlika neke dvije vrijednosti na koje ekstremne vri-
jednosti ne bi imale uticaj. To se postiže uvod̄enjem interkvartilnog ranga
(IQR) koji je jednak razlici trećeg i prvog kvartila, tj.
IQR = Q3 − Q1 .
Može se zaključiti da IQR nije podložan uticaju ekstremnih vrijednosti,

jer sve jedinice čije su vrijednosti veće od trećeg i manje od prvog kvartila
ne učestvuju u njegovom izračunavanju.
Postupak računanja IQR može se svesti na sledeće korake:
1. uzorak se sortira u rastući poredak;
2. odredi se uzoračka medijana (ili drugi kvartil);
3. da bi se odredio prvi kvartil formiramo poduzorak koji se nalazi lijevo

od medijane (ne uključujući medijanu). Prvi kvartil će biti medijana
tako dobijenog poduzorka.
4. da bi se odredio treći kvartil formiramo poduzorak koji se nalazi desno

od medijane (ne uključujući medijanu). Treći kvartil je medijana tako
dobijenog poduzorka.
Primjer 16 Jedna osiguravajuća kuća tokom godine isplatila je 18 odšteta

vlasnicima automobila koji su učestvovali u saobraćajnim udesima. Visine
odštete u eurima su: 675, 991, 346, 237, 211, 233, 189, 119, 370, 141, 467,
195, 100, 735, 802, 618, 180, 165. Odrediti interkvartilni rang.
Rješenje: Zadatak riješavamo na prethodno opisan način:
1. Podatke sortiramo u rastući poredak:

100, 119, 141, 165, 180, 189, 195, 211, 233, 237, 346, 370, 467, 618,
675, 735, 802, 991.
2. Ukupno je n = 18 opservacija, pa je drugi kvartil, odnosno medijana
233 + 237
Q2 = = 235.
2
3. Poduzorak koji se nalazi lijevo od medijane je:

100, 119, 141, 165, 180, 189, 195, 211, 233.
Prvi kvartil je medijana tako dobijenog poduzorka, odnosno Q1 =
180.
4. Poduzorak koji se nalazi desno od medijane je:

237, 346, 370, 467, 618, 675, 735, 802, 991.
Medijana prethodnog poduzorka je Q3 = 618.
Sada je IQR=618-180=438.
Jedna od pogodnosti interkvartilnog ranga je da se može koristiti za

detekciju ekstremnih vrijednosti. Postupak se sastoji u sledećim koracima:
1. Izračunava se IQR.
2. Odred̄ujemo donju i gornju granicu:
D = Q1 − 1, 5 · IQR
i
G = Q3 + 1, 5 · IQR.
3. Ako je vrijednost u uzorku manja od D ili veća od G tada se uzoračka

vrijednost smatra ekstremnom vrijednošću.
Primjer 17 Da li u uzorku
180, 189, 370, 618, 735, 802, 1 185, 1 414, 1 657, 1 953, 2 332, 2 336, 3
461, 4 668, 6 751, 9 908, 10 034, 21 147
postoje nestandardne opservacije?
Rješenje: Postupajući slično kao prethodnom primjeru, zaključujemo da

je IQR =4 668 - 735 = 3 933.
Sada računamo donju vrijednost:
D = 735 − 1, 5 · 3933 = −5164, 5.
Gornja vrijednost je
G = 4668 + 1, 5 · 3933 = 10567, 5.
Zaključujemo da nijedna vrijednost uzorka nije manja od D, pa ne pos-

toje nestandardno male opservacije. Med̄utim, vrijednost 21 147 je veća od
G i ona predstavlja nestandardno veliku opservaciju.
2.4.3 Disperzija
Interkvartilni rang, kao ni raspon ne uzima u obzir odstupanje svih ele-

manta nekog uzorka. Ova činjenica se može smatrati još veoma ograničavajućim
faktorom. Zato se nameće potreba da konstruišemo takvu mjeru varija-
biliteta koja će uzimati u obzir odstupanja svih elemenata uzorka od jedne
konkretne vrijednosti. U našem slučaju aritmetička sredina se prirodno
nameće kao tražena vrijednost.
Imajući na umu svojstvo 3 iz Poglavlja 2.3.1, kao i osjetljivost veličine
i |xi − µ| na promjenu broja elemenata u uzorku, odred̄ivaćemo količnik
kvadrata odstupanja od aritmetičke sredine i broja elemenata u uzorku.
Tako dobijena mjera varijabiliteta zove se disperzija ili varijansa.
Ako su x1 , x2 , . . . , x N elementi neke populacije sa aritmetičkom sredi-
nom µ, tada se centralni momenat reda k računa po formuli
1
(2.20) Mk = (xi − µ)k .
N
i
Specijalno, centralni momenat drugog reda zovemo varijansom, odnosno

važi
1
(2.21) σ2 = (xi − µ)2 .
N
i
Na jednostavan način prethodna formula se može uprostiti tako da do-

bijamo
2 − N x2
i xi
(2.22) σ2 = .
N
Prethodni izraz je operativniji, pa se češće koristi za računanje varijanse.

A ako su podaci grupisani kao u Tabeli 2.8, tada se centralni momenat
(2.20) svodi na
1
(2.23) Mk = fi (xi − µ)k .
N
i
S obzirom da je disperzija drugi centralni momenat, pomoću (2.23) lako

dolazimo do izraza računanje disperzije u slučaju grupisanih podataka
1
(2.24) σ2 = fi (xi − µ)2 .
N
i
Primjer 18 Završnu godinu nekog fakulteta pohad̄a 12 studenata i svi su

polagali ispit iz Statistike. Odrediti varijansu ako su rezultati dati Tabelom
2.15
Rješenje: Obilježimo broj bodova svakog studenta sa xi , gdje je i =

1, 2, . . . , 12. Da bi primijenili formulu (2.22) formiramo sledeću radnu tabelu:
Tabela 2.15: Broj osvojenih bodova na ispitu
Šifra studenta Broj bodova

A1 69
A2 58
A3 74
A4 90
A5 55
A6 61
A7 78
A8 84
A9 95
A10 52
A11 59
A12 71
Tabela 2.16: Radna tabela sa postupkom izračunavanja varijanse
Šifra studenta Broj bodova (xi ) x2i

A1 69 4761
A2 58 3364
A3 74 5476
A4 90 8100
A5 55 3025
A6 61 3721
A7 78 6084
A8 84 7056
A9 95 9025
A10 52 2704
A11 59 3481
A12 71 5041
2
i xi = 846 i xi = 61838
Sada lako dobijamo

2
2 ( i xi ) 8462
2 i xi − N 61838 − 12
σ = = = 182, 92 .
N 12
Izraz (2.24) se može uprostiti tako da se dobije sledeća operativnija

formula
fi x2i
(2.25) σ2 = i
− µ2 .
N
Neka je x1 , x2 , . . . , xn uzorak sa aritmetičkom sredinom x. Tada se

uzorački centralni momenat reda k definiše kao
1
(2.26) mk = (xi − x)k .
n
i
Uzoračka disperzija predstavlja uzorački centralni momenat drugog reda, s

tim što se suma kvadrata odstupanja svih elemenata uzorka od aritmetičke
sredine dijeli sa n − 1, tj.
1
(2.27) s2 = (xi − x)2 .
n−1
i
Kao i u slučaju populacione varijanse prethodna formula se može uprostiti

na sledeći način
2 − nx2
i xi
(2.28) s2 = .
n−1
Može se postaviti pitanje zašto se prilikom računja populacione varijan-

se odgovarajuća suma kvadrata odstupanja dijeli sa N , a u slučaju uzoračke
sa n − 1. U praksi se statističko zaključivanje izvodi na bazi uzorka, iz
razloga što je prikupljanje podataka od svih elemenata neke populacije vrlo
često nemoguće (zbog ograničenja resursa). Zato je populacionu varijansu
potrebno na najbolji mogući način procijenti. Naime, u teorijskoj statistici
se kaže da je (2.27) ocjena populacione varijanse (2.21). Da bi neka ocjena
bila preciznija, ona mora da zadovolji i neke osobine. To je i razlog što se

u (2.27) suma kvadrata odstupanja dijeli sa n − 1, a ne sa n kako bi bilo
očekivano. Osobine ocjena izlaze van okvira ovog kursa. Više o ovoj temi
može se naći u XXX. Veličinu n − 1 zovemo broj stepeni slobode. Mi ćemo
ovdje pokušati da damo intuitivnu interpretaciju broja stepeni slobode.
Naime, polazimo od činjenice da je i (xi − x) = 0. Ako imamo poznat
n − 1 element uzorka i aritmetičku sredinu, tada se n− ti element uzorka
mora izračunati tako da važi prethodni uslov. Na primjer, ako imamo
uzorak od 3 elementa i poznato je x1 = 4, x2 = 7 i x = 11. Tada element
x3 odred̄ujemo iz uslova
x1 + x2 + x3
= x
3
4 + 7 + x3
= 11
3
11 + x3 = 33
x3 = 22 .
Vidimo da n − 1 element ima ”slobodu” da uzme bilo koju vrijednost, dok

n− ti element tu slobodu nema. Dakle, uzorak je potpuno odred̄en ako
imamo poznatu n − 1 opseravciju i aritmetičku sredinu x.
Primjer 19 Koristeći rezultate iz prethodnog primjera, izračunati uzoračku

varijansu ako su u uzorak izabrani studenti A2, A4, A6, A8, A10 i A12.
Rješenje: Za izračunavanje uzoračke varijanse koristićemo formulu (2.28).

U tom cilju formiramo Tabelu 2.17
Sada je
2
2 ( xi ) 4162
i xi − 29986 −
i
2 n 6
s = = = 228, 67 .
n−1 5
U slučaju kada je uzorak grupisan kao u Tabeli 2.8, uzoračka centralni

Tabela 2.17: Radna tabela sa postupkom izračunavanja uzoračke varijanse
Šifra studenta Broj bodova (xi ) x2i

A2 58 3364
A4 90 8100
A6 61 3721
A8 84 7056
A10 52 2704
A12 71 5041
2
i xi = 416 i xi = 29986
momenat reda k je
1
(2.29) mk = fi (xi − x)k .
n
i
dok je uzoračka varijansa u slučaju grupisanih podataka
1
s2 = fi (xi − x)2 .
n−1
i
Prethodna formula se može uprostiti
1
(2.30) s2 = fi x2i − n x2 .
n−1
i
Primjer 20 Trideset učenika jednog odjeljenja ocijenjeno je na kraju školske

godine iz fizike na sledeći način:
Tabela 2.18: Ocjene iz fizike
Ocjena 5 4 3 2 1
Frekvenca 4 8 9 6 3 30
Odrediti varijabilitet ocjenjivanja.

Rješenje: Smatraćemo da su učenici iz odabranog odjeljenja uzorak na

kome se sprovodi neko istraživanje. Zato koristimo formulu (2.30). Formi-
ramo radnu Tabelu 2.19
Tabela 2.19: Radna tabela sa primjerom izračunavanja varijanse kod po-

dataka datih u obliku frekvence
Ocjena (xi ) Frekvenca(fi ) x2i fi xi fi x2i

5 4 25 20 100
4 8 16 32 128
3 9 9 27 81
2 6 4 12 21
1 3 1 3 3
i x2i = 55 i fi xi = 94 i fi x2i = 336
94
Kao što je pokazano ranije aritmetička sredina je x = 30 = 3, 13. Sada
je
1 1
s2 = fi x2i − n x2 = 336 − 30 · 3, 132 = 1, 43 .
n−1 29
i
Ukoliko su bilo populacioni ili uzorački podaci dati u obliku inter-

vala (vidjeti Tabelu 2.11) tada se populaciona odnosno uzoračka varijansa
računa tako što se u (2.25) odnosno (2.30), umjesto xi , stavi sredina inter-
vala xi .
2.4.4 Standardna devijacija
Ako pogledamo primjere u kojima smo računali varijansu, možemo da za-

ključimo da je varijansa izražena u kvadratima mjernih jedinica (bodovi
na kvadrat u Primjeru 20). Ovo se može smatrati značajnim nedostatkom,
jer se na taj način povećava i mjera varijabiliteta. Zato je prirodno da
se računa kvadratni korijen iz varijanse. Pozitivnu vrijednost kvadratnog
korijena iz varijanse zovemo standardnom devijacijom. Dakle, populaciona

√ √
standardna devijacija je σ = + σ 2 , dok je uzoračka s = + s2 .
Primjer 21 a) Izračunati standardnu devijaciju koja odgovara populaciji

iz Primjera 18.
b) Izračunati standardnu devijaciju koja odgovara uzorku iz Primjera 20.
Rješenje: Na osnovu definicije standardne devijacije dobijamo:
a)
2
2 ( xi )
i xi −
i
N
σ= = 182, 92 = 13, 52 .
N
b)
2
2 ( xi )
−
i xi
i
n
s= = 228, 67 = 15, 12 .
n−1
Na Slici 2.11 prikazana su tri različita uzorka sa istom aritmetičkom

sredinom i različitim standardnom devijacijom. U slučaju kada je stan-
dardna devijacija najmanja (Uzorak A) sve vrijednosti uzorka su koncen-
trisane oko aritmetičke sredine. Porast standardne devijacije, dovodi do
heterogenosti uzorka, odnosno do većeg odstupanja od aritmetičke sredine
(Uzorci B i C).
2.4.5 Koeficijent varijacije

Mjere varijacije koje smo do sada izučavali izražene su istim jedinicama ko-
jima je izražen i uzorak. Postavlja se pitanje kako upored̄ivati varijabilitet
uzoraka koji se mjere različitim jedinicama mjere. Slično pitanje možemo
da postavimo i u slučaju upored̄ivanja varijabiliteta uzoraka koji imaju
istu jedinicu mjere ali različite aritmetičke sredine. Odgovori na prethodna
Slika 2.11: Uticaj standardne devijacije.
Uzorak A (ar.sred.=15,5 i std=0,93)
10 12 14 16 18 20 22
Uzorak B (ar.sred.=15,5 i std=3,34)
10 12 14 16 18 20 22
Uzorak C(ar.sred.=15,5 i std=4,57)
10 12 14 16 18 20 22
pitanja motivišu uvod̄enje relativnih mjera varijabiliteta od kojih je na-

jpoznatiji koeficijent varijacije ili skraćeno CV.
Populacioni koeficijent varijacije definiše se kao odnos populacione stan-
dardne devijacije i populacione aritmetičke sredine, tj.
σ
CV = .
µ
Analogno se definiše i uzoračka standardna devijacija
s
CV = .
x
Preporuka je da se pri upored̄ivanju varijabiliteta dva ili više uzoraka

koristi koeficijent varijacije.
Prisustvo varijabiliteta u uzorku možemo da shvatimo na na sledeći
način:
1. Heterogenost podataka znači da će raspon, interkvartilni rang, vari-

jansa, standardna devijacija i koeficijent varijacije biti veći.
2. Homogenost podataka znači da će raspon, interkvartilni rang, vari-

jansa, standardna devijacija i koeficijent varijacije biti manji.
3. Jednakost svih elemenata populacije ili uzorka znači odsustvo varija-

biliteta, što povlači da su sve mjere varijabiliteta jednake 0.
2.4.6 Deskriptivna statistika u MS Excelu
Pronalaženje deskriptivni statistika putem softvera ilustrovaćemo pomoću

Data Analysis ToolPak alata koji je dio MS Excela.
Svaka kolona u MS Excel radnom listu predstavlja različitu populaciju
ili uzorak. Na primjer, ako raspolažemo sa dva različita uzorka, elemente
unosimo u dvije različite kolone.
Primjer 22 Dati su maksimalni nivoi Skadarskog jezera po mjesecima u

2002. godini
9,86; 8,86; 8,92; 9,2; 8,52; 8,08; 6,94; 6,22; 7,57; 9,05; 9,29; 9,51.
Sprovesti deskriptivnu statističku analizu.
Rješenje: Zadatak ćemo riješiti primjenom Data Analysis ToolPak. Način

na koji unosimo podatke u Excel vidimo na Slici 2.12.
Slika 2.12: Podaci u Excel radnom listu.
U odgovarajućem prozoru biramo opciju Descriptive Statistics, a

zatim Summary statistics. Na kraju se otvara novi radni list koji sadrži
rezultate analize (vidjeti Sliku 2.13).
Slika 2.13: Rezultati statističke analize.
Iz tabele na Slici 2.13 zaključujemo sledeće: aritmetička sredina je 8,50

; medijana 8,89; uzorak ne sadrži mod; standardna devijacija je 1,09; dok
je raspon 3,64.
Da bi izračunali interkvartilni računamo prvi i treći kvartil posebno.
Kvartile dobijamo pozivom funckije percentile. Treći kvartil ili 75. per-
centil dobijamo preko percentile(A1:A12,0.75). Prvi kvartil ili 25. per-
centil je rezultat izvršavanja funkcije percentile(A1:A12,0.25). Dobija
se da je IQR=9,22-7,95=1,27. Na slici 2.14 dat je postupak računanja in-
terkvartilnog rana. Napomenimo da je A1:A12 opseg kojim je obuhvaćen
uzorak (vidjeti Sliku 2.12).
U Excelu postoji funkcija percentrank koja vraća vrijednost percentilnog
ranga. Med̄utim, iz odred̄enih razloga (problem rangiranja uzorka) izlazi
prethodne funkcije nisu u skladu sa rezultatima dobijenim pomoću (2.18).
Zato percentilni rang računamo pomoću countif(R,” < ”&c)/count(R)*100,
gdje je R opseg ćelija u kome se nalazi uzorak, a c je vrijednost za koju
tražimo percentilni rang. Funkcija countif(R, kriterijum) vraća broj
elemenata iz niza R koji zadovoljavaju kriterujim, dok funkcija count(R)
Slika 2.14: Postupak računanja interkvartilnog ranga.
prebrojava brojeve u nizu R.
Primjer 23 Naći percentilnog ranga vrijednosti 16,8 u uzorku 14, 21, 19,
25, 13, 25, 17.
Rješenje: Primjenom formule (2.18) lako dobijamo da je P r = 28, 57%.

Sada ćemo percentilni rang izračunati u Excelu. Postupak je dat na
Slici 2.15. Kao što možemo vidjeti rezultati su jednaki.
Slika 2.15: Postupak računanja percentilnog ranga.


Statistika

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statistika

Uploaded by

Copyright:

Available Formats

Glava 1

Vrlo često se postavlja pitanje šta je statistika? Prva asocijacija može da

spoznavanje izvora varijabiliteta. Varijabilitet u podacima može da dovede

1.1 Osnovni pojmovi

zovemo poduzorak. Zajedničko svojstvo elemenata populacije zovemo

Primjer 1 U slučaju da je populacija skup svih stanovnika Crne Gore,

Vratimo se sada primjeru gdje želimo da utvrdimo koja je najslušanija

Primjer 2 Na primjer ako kažemo da u Crnoj Gori 50% populacije su

Sam proces sprovod̄enja statističkih istraživanja je jedan veoma kom-

1. Priprema instrumenata. Istraživač mora jasno da odredi ciljeve is-

2. Prikupljanje podataka. Postupak prikupljanja podataka, obično se

3. Primjena deskriptivne statistike. Poslije završenog prikupljnja po-

4. Inferencijalna statistika. Uopštavanja podatka sa nivoa uzorka na

1.2 Vrste obilježja

Obilježja dijelimo na kvalitativna i kvantitativna. Kvalitativna ili

1.3 Diskretna i neprekidna obilježja

Primjer 3 Odrediti da li su sledeća kvantitativna obilježja diskretna ili

b) Broj automobila u koji je, na jednoj benzinskoj stanici, natočeno gorivo

c) Broj kilometara koje pred̄e automobil sa punim rezervoarom goriva.

b) Broj automobila je diskretno obilježje.

c) Broj kilometera koje automobil pred̄e sa punim rezervoarom je neprekidno

1.4 Skale mjerenja

1. Nominalna skala. Za kategorijsko obilježje čije vrijednosti nije

2. Ordinalana skala. Za kategorijsko obilježje čije vrijednosti je moguče

3. Intervalna skala. Za kvantitativno obilježje koje ima osobine ordi-

4. Skala odnosa. Za kvantitativno obilježje koja ima osobine inter-

Važno je da napomenemo da se vrijednosti obilježja mjerenog na inter-

Pol je tipičan primjer za nominalnu skalu mjerenja, jer nije moguće

1.5 Pojam uzorka i uzoračkog istraživanja

poljoprivredi, trgovini na malo i veliko, popularnosti političkih partija, itd.

1.5.1 Prost slučajan uzorak

Prost slučajan uzorak predstavlja najprostiji tip uzorka.

Primjer 4 Jana ima 4 karte za pozorište. Šest drugarica je zainteresovano

Rješenje: U pitanju je prost slučajan uzorak bez ponavljanja gdje je N = 6

Dakle, iz populacije od 6 elemenata, na slučajan način,bez ponavljanja,

Primjer 5 Nova farmaceutska kuća lansirala je kozmetičku liniju. Da bi

Rješenje: Prvo formiramo okvir za izbor uzorka. Deset slučajnih brojeva

Tabela 1.1: Okvir za izbor uzorka

Rbr Ime Rbr Ime Rbr Ime Rbr Ime

Slika 1.1: Postupak odred̄ivanja slučajnih brojeva.

1.5.2 Stratiﬁkovani uzorak

Primjenom prost slučajnog uzorka dobijamo precizne ocjene, u slučaju kada

1.5.3 Sistematski uzorak

Sistematski uzorak podrazumijeva izbor jedinica sa nekim korakom počevši

stratiﬁkaciju, pogodno sortirati. Za tako dobijen okvir kažemo da je implic-

Primjer 6 Od 10000 preduzeća iz jednog grada, potrebno je u uzorak iz-

1.6 Nestandardne opservacije

Kada su podaci prikupljeni predstoji njihova organizacija, provjera, sta-

2.1 Raspodjela frekvenci

je uvijek prirodan broj.

Primjer 1 U jednom odjeljenju na kraju nastavne godine bilo je 24 učenika.

Tabela 2.1: Uspjeh učenika na kraju nastavne godine

dobar vrlo dobar dovoljan odličan nedovoljan vrlo dobar

Formirati tabelu raspodjele frekvenci.

Rješenje: Označimo sa 5 odličan, sa 4 vrlo dobar, sa 3 dobar, sa 2 dovol-

Tabela 2.2: Raspodjela frekvenci za uspjeh učenika

Uspjeh Broj Frekvenca (f)

Raspodjela frekvenci je obično predstavljena zajedno sa raspodjelom rel-

frekvence (fi ) i sume svih frekvenci ( i fi ). Dakle,

Da bi raspodjela relativnih frekvenci bila u procentima, onda se prethodni

Tabela 2.3: Raspodjela frekvenci i relativnih frekvenci za uspjeh učenika

Uspjeh Broj Frekvenca (f) Relativna frekvenca (r)

Nekada se apsolutne frekvence kumuliraju, pa se umjesto pojedinačnih

2.1.1 Graﬁčko prikazivanje kategorijskih podataka