You are on page 1of 54

Glava 1

Uvod

Vrlo često se postavlja pitanje šta je statistika? Prva asocijacija može da


bude da je statistika skup nekih brojeva. Na primjer, često možemo da
čujemo da je stopa nezaposlenosti oko 20%, da je prosječna zarada oko
450EUR, da se svaki peti brak završi razvodom, itd.
Nekada je moguće da postoje dva različita broja koja karakterišu istu
pojavu. Na primjer, Zavod za statistiku Crne Gore i Zavod za zapošljavanje
Crne Gore daju dvije različite mjere stope nezaposlenosti u Crnoj Gori.
Postavlja se pitanje kako je to moguće? Statistika nam pomaže da dobijemo
odgovor na ovo i slična pitanja.
Dakle, važi sljedeća definicija:
Statistika je nauka koja se bavi prikupljanjem, organizovanjem i anal-
izom informacija neophodnih za donošenje zaključaka. Više od toga, statis-
tika omogućava mjeru pouzdanosti bilo kog statističkog zaključka.
Definiciju statistike moěmo da posmatramo sa četiri aspekta. Prvi as-
pekt definicije jeste sakupljanje informacija. Drugi aspekt je organizacija
i agregacija informacija. Treći aspekt je analiza informacije i donošenje
zaključaka. Četvrti aspket je da svaki rezultat mora da bude objavljen sa
nekom mjerom pouzdanosti.
Jedan od važnih karakteristika podataka jeste varijabilitet. Da bi bolje
razumjeli pojam varijabiliteta posmatrajmo sve studente I godine. Da li
su svi studenti iste starosti? Ne. Da li su svi studenti iste visine? Ne. Da
li svi studenti imaju istu boju kose? Ne. Jedan od ciljeva statistike jeste

1
2 Uvod

spoznavanje izvora varijabiliteta. Varijabilitet u podacima može da dovede


do različitih rezultata. Postojanje varijabiliteta jeste i jedan od razloga što
se podaci objavljuju uporedo sa nekom mjerom pouzdanosti.
Prvi susret sa pitanjem varijabiliteta može da unese zabunu. Pitamo
studente da da rješe jednačinu 3x + 2 = 11. Svi studenti koji su koris-
tili pravilan postupak odgovorili bi da je x = 3. Kada bi iste studente
pitali da procijene prosječno vrijeme provedeno u učenju, studenti bi dobili
različite rezultate, iako su korišćene pravilne procedure. U statističkim is-
traživanjim nije moguće izbjeći problem varijabiliteta. Jedini način da se
varijabilitet eliminiše jeste da u uzorku imamo sve iste ispitanike, što je
praktično nemoguće.
Dakle, pri rješavanju matematičkih zadatka možemo reći da se rezultati
u matematici, ukoliko se koriste ispravni postupci, saopštavaju sa 100%
izvijesnosti. U statistici rezultati se ne dobijaju sa sto procentnom izvi-
jesnošću. Na primjer, možemo da kažemo sa 95% sigurnošću da studenti
provode izmed̄u 5 i 6 sati nedeljno u učenju.
Postavlja se pitanje kako bez izvijesnosti statistika može da bude ko-
risna. Statistika je korisna za objašnjavanje svijeta oko nas, jer spozna-
vanjem odakle dolazi varijabilitet možemo ga kontrolisati i na taj način
proizvesti podatke prihvatljive pouzdanosti.

1.1 Osnovni pojmovi


Želimo da ispitamo koja je radio stanica najslušanije med̄u studentima. Da
li je moguće prikupiti podatke od svih studenata? Prije svega zbog njihove
brojnosti, kao i zbog velikih finansijskih izdataka, nije moguće prikupti
podatke od svakog studenta posebno. Zato se anketira odred̄en, manji
broj studenatra, zatim se donose zakljčci, koji se odred̄enim statističkim
postupcima ekstrapoliraju na skup svih studenata.
Skup svih elemenata čija zajednička svojstva proučavamo statistističkim
metodama zovemo populacija. Elementi populacije mogu da budu lica,
domaćinstva, preduzeća, itd. Podskup koji se na odred̄en način bira iz pop-
ulacije radi daljeg proučavanja zove se uzorak. Bilo koji podskup uzorka
1.1. OSNOVNI POJMOVI 3

zovemo poduzorak. Zajedničko svojstvo elemenata populacije zovemo


obilježje.

Primjer 1 U slučaju da je populacija skup svih stanovnika Crne Gore,


tada bi primjeri obiljžja mogli da budu: pol, bračni status, starost, stručna
sprema, itd.
Ako je populacija skup svih aktivnih preduzeća u Crnoj Gori, tada su
moguća obilježja: djelatnost, broj zaposlenih, promet, prihod, itd.

Vratimo se sada primjeru gdje želimo da utvrdimo koja je najslušanija


radio stanica med̄u studentskom populacijom. Neka je izabran je uzorak od
100 studenata koji će da učestvuju u istraživanju. Rezultati istraživanja su
pokazali da 48 studenata sluša radio stanicu A. Ovaj rezultat prezentujemo
tako što kažemo da se 48% anketiranih studenata izjasnilo da sluša radio
stanicu A. Ovo je primjer deskriptivne statistike, zato što smo prikazali
rezultat dobijen na uzorku, bez njegovog uopštavanja na nivo populacije.
Dakle, postupak organizacije i agregacije podataka zovemo deskrip-
tivna statistika. U postupku primjene deskriptivne statistike podatke
opisujemo tabelarano, ili grafički.
Numerička karakteristika uzorka zove se statistika. Procenat stude-
nata koji sluša radio stanicu A je statistika jer je utvrd̄en na nivou uzorka.
Ako smo rezultat dobijen na uzorku uopštili tako da tvrdimo da 48%
studentske populacije sluša radio stanicu A, koristili smo tzv. inferen-
cijalnu statistiku. Dakle, postupak kojim se rezultat dobijen na nivou
uzorka uopštava na nivo populacije i kojim se mjeri pouzdanost uopštenog
rezultata naziva se inferencijalna statistika. Cilj inferencijalne statis-
tike jeste ocjena nepoznatih parametra. Za razliku od statistike koji je
numerička karakteristika uzorka, parametar je numerička karakteristika
populacije.

Primjer 2 Na primjer ako kažemo da u Crnoj Gori 50% populacije su


pušači, tada je vrijednost 50% parametar jer se odnosi na cijelu populaciju.
Ali, ako kažemo da je na uzorku dobijeno da 2, 5% ispitanika ima problema
sa anksioznošću, tada vrijednost 2, 5% predstavlja statistiku.
4 Uvod

Sam proces sprovod̄enja statističkih istraživanja je jedan veoma kom-


pleksan proces. Pravilno upotrijebljene statističke metode u svakoj etapi
smanjuju potencijalne izvore grešaka koje niti možemo da previdimo niti
kasnije da kontrolišemo. Etape u statističkom istraživanju su:

1. Priprema instrumenata. Istraživač mora jasno da odredi ciljeve is-


traživanja, zatim mora da odredi koji dio populacije odgovara zada-
tim ciljevima. Pri kraju ove etape pristupa se izradi upitnika i izboru
uzorka.

2. Prikupljanje podataka. Postupak prikupljanja podataka, obično se


odvija na izabranom uzorku. U slučaju nekih kopmleksinh istraživanja
ili istraživanja koja se prvi put sprovode preporuka je sprovod̄enje
pripremnog istraživanja (pilot istraživanje) na nekom manjem uzorku
od planiranog. Proces prikupljanja je veoma važan korak, i tu je, prije
svega važno, odabrati i obučiti lica koja će prikupljati podatke.

3. Primjena deskriptivne statistike. Poslije završenog prikupljnja po-


dataka i njihovog unosa u bazu, primjenom metoda deskriptivne statis-
tike otkrivamo da li u podacima postoje greške prilikom unosa ili
greške nekog drugog tipa. Takod̄e, ovim metodom otkrivaju se i ne-
standardne opservacije. Otkrivanje ovih nekonzistentnosti je od vi-
talnog značaja za dalju obradu podataka.

4. Inferencijalna statistika. Uopštavanja podatka sa nivoa uzorka na


nivo populacije.

1.2 Vrste obilježja


Kao što smo već rekli zajednička svojstva populacije zovemo obilježje. Koja
će se obiljžja prikupljati zavisi od cilja istraživanja. Na primjer, ako želimo
da ispitamo stepen uhranjenosti djece školskog uzrasta, obilježja bi mogla
da budu: pol, starost, razred koje dijete pohad̄a, tjelesna masa, visina,
stepen obrazovanja roditelja itd.
1.3. DISKRETNA I NEPREKIDNA OBILJEŽJA 5

Obilježja dijelimo na kvalitativna i kvantitativna. Kvalitativna ili


kategorijska obilježja služe za klasifikaciju izabranih jedinica na osnovu
nekih njihovih atributa ili karakteristika. Pol je kategorijsko obilježje jer
dozvoljava istraživaču da podijeli izabrane jedinice na muški i ženski pol.
Na ovom mjestu možemo da zaključimo da bilo koja aritmetička operacija
kod kategorijskih obilježja nema smisla.
Kvantitativna obilježja predstavljaju numeričku mjeru izabrane jedinice.
Temperatura vazduha je primjer kvantitativnog obilježja. Njena vrijednost
je numerička i aritmetičke operacije, poput sabiranja ili oduzimanja, imaju
smisla. Ima smisla da se kaže da je 35 ◦ C toplije od 20 ◦ C.

1.3 Diskretna i neprekidna obilježja


Diskretno obilježje je obilježje čiji je skup vrijednosti konačan ili prebrojiv.
Na primjer, broj glava koji se pojavljuje u 5 bacanja novčića je diskretno
obilježje jer je skup mogućih vrijednosti 0, 1, 2, 3, 4 ili 5. Takod̄e, broj
automobila koji u periodu od 12 do 14 sati dod̄e na parking nekog tržnog
centra je, takod̄e, diskretno obilježje jer je registrovani broj automobila
nastao brojanjem 0, 1, 2, 3, itd.
Neprekidno obilježje je obilježje čiji je skup vrijednosti beskonačno nepre-
brojiv. Rastojanje koje zaposleni pred̄e od kuće do posla je neprekidno
obilježje jer distanca može da bude bilo koji pozitivan realan broj.
Dakle, obilježje je diskretno ako su njegove vrijednosti rezultat nekog
prebrojavanja, a neprekidno ako su njegove vrijednosti rezultat nekog mjerenja.
Skup vrijednosti nekog obilježja zovemo podacima. Pol jeste kategori-
jsko obilježje, ali je informacija da li je ispitanik ženskog ili muškog pola
podatak.

Primjer 3 Odrediti da li su sledeća kvantitativna obilježja diskretna ili


neprekidna:
a) Broj šestica dobijenih bacanjem kocke 3 puta.

b) Broj automobila u koji je, na jednoj benzinskoj stanici, natočeno gorivo


izmed̄u 12 i 16h.
6 Uvod

c) Broj kilometara koje pred̄e automobil sa punim rezervoarom goriva.

Rješenje:

a) Broj šestica je diskretno obilježje jer smo njihov broj, u tri bacanja,
utvdili prebrojavanjem.

b) Broj automobila je diskretno obilježje.

c) Broj kilometera koje automobil pred̄e sa punim rezervoarom je neprekidno


obilježje, jer je distanca odred̄ena mjerenjem, a ne prebrojavanjem.

1.4 Skale mjerenja


U praktičnom radu sa podacima, mnogo je bitnije da se za svako obilježje
odredi skala ili nivo mjerenja od tipa obilježja. Postoje četir nivoa mjerenja:

1. Nominalna skala. Za kategorijsko obilježje čije vrijednosti nije


moguće postaviti ni u kakav redosljed kažemo da pripada nominal-
nom nivou mjerenja.

2. Ordinalana skala. Za kategorijsko obilježje čije vrijednosti je moguče


postaviti u neki poredak kažemo da pripada ordinalnom nivou mjerenja.

3. Intervalna skala. Za kvantitativno obilježje koje ima osobine ordi-


nalnog nivoa mjerenja, gdje 0 ne znači odsustvo mjere i gdje razlike u
vrijednostima koje uzima obilježje imaju značenje, kažemo da pripada
intervalnom nivou mjerenja.

4. Skala odnosa. Za kvantitativno obilježje koja ima osobine inter-


valnog nivoa mjerenja i gdje količnici vrijednosti obilježja imaju smisla
kažemo da pripada skali odnosa. Vrijednost 0 znači odsustvo mjere.

Važno je da napomenemo da se vrijednosti obilježja mjerenog na inter-


valnoj skali mogu sabirati i oduzimati, dok se vrijednosti obilježja mjerenog
na skali odnosa mogu dijeliti.
1.5. POJAM UZORKA I UZORAČKOG ISTRAŽIVANJA 7

Pol je tipičan primjer za nominalnu skalu mjerenja, jer nije moguće


nikakvo rangiranje.
Nivo obrazovanja može se smatrati primjerom ordinalne skale, jer se
može uspostaviti poredak (osoba sa fakultetom je školovanija od osobe koja
je završila srednju školu).
Temperatura vazduha je primjer za intervalnu skalu, jer razlika izmed̄u
vrijednosti ima smisla. Može da se kaže da je 5 ◦ C hladnije od 12 ◦ C.
Takod̄e, 0 ◦ C ne znači odsustvo toplote. Likertova skala, koja predstavlja
skalu stavova koja se sastoji od niza tvrdnji posvećenih različitim aspektima
nekog stava predstavlja primjer intervalnog mjerenja.
Koeficijent inteligencije, nivo hemoglobina u krvi, koncentracija aktivne
supstance u nekom lijeku su primjeri obilježja koja se mjere na skali odnosa.
Na primjer, ako ispitanik A ima koeficijent inteligencije 90, a ispitanik B
110, možemo da tvrdimo da je ispitanik B 1,2 puta inteligentniji.

1.5 Pojam uzorka i uzoračkog istraživanja


Kada istraživač postavlja istraživanje, prije svega, mora da odredi identi-
fikuje ciljnu populaciju. Pravilno identifikovanje ciljne populacije neophodno
je zbog izbjegavanja brojnih problema koji mogu da nastanu u postupku
obrade podataka. O ovim i sličnim problemima može se više naći u kn-
jigama koje se bave Teorijom uzorka (npr. XXX).
Uzorci mogu da budu sa i bez ponavljanja. Uzorak sa ponavljanjem
dobija se primjenom procedure kojim se tokom čitave procedure izbora
uzorka ne mijenjaju uslovi izbora. Kao posljedicu toga imamo mogućnost
da svi elementi populacije, u svakom trenutku, mogu da budu izabrani u
uzorak. S obzirom da su uslovi nepromijenjeni tokom cjelokupne procedure
izbora, to povlači da i svaki element ima istu vjerovatnoću da bude biran.
Uzorak bez ponavljanja podrazumjeva da se već izabrani element ne vraća
ponovo u populaciju. Ovo znači da se tokom kompletnog procesa izbora
uzorka, mijenja vjerovatnoća izbora nekog elementa.
Brojne su institucije koje u nekoj državi prikupljaju podatke iz različitih
sfera života. U Crnoj Gori se vrlo često sprovode ankete o radnoj snazi,
8 Uvod

poljoprivredi, trgovini na malo i veliko, popularnosti političkih partija, itd.


Ako nam je, na primjer, cilj da ispitamo koja je najpopularnija politička
partija, ciljna populacija bi bili svi punoljetni stanovnici u Crnoj Gori.
Bilo bi prilično neracionalno da neka od agencija sprovede istraživanje na
svim punoljetnim stanovnicima u Crnoj Gori. Zato se bira slučajan uzo-
rak punoljetnih stanovnika Crne Gore koji će biti potrencijalni učesanici
istraživanja. U zavisnosti od cilja i vrste istraživanja potrebno je da se
odredi i optimalan broj ispitanika koji će biti izabrani u uzorak. Broj elel-
menata u uzorku zove se obim uzorka.
Slučajno uzorkovanje je postupak kojim se pomoću odgovarajuće vje-
rovatnoće, iz populacije bira objekat koji će biti u uzorku.
Sada se postavlja pitanje, na osnovu čega je istraživač siguran da će
rezultati na uzorku, na najbolji način predstaviti rezultate na nivou pop-
ulacije. Da bi rezultati dobijeni na uzorku bili pouzdani, karakteristike
izabranih jedinica moraju da odgovaraju karakteristikama populacije, tj.
uzorak mora da reprezentuje populaciju na najbolji mogući način. Reprezen-
tativnost se i postiže slučajnim odabirom uzorka.

1.5.1 Prost slučajan uzorak

Prost slučajan uzorak predstavlja najprostiji tip uzorka.


Ako iz populacije izaberemo uzorak tako da svaki element populacije
ima istu vjerovatnoću da bude izabran dobijamo prost slučajan uzorak.
Broj različitih slučajnih uzoraka (bez ponavljanja) od n elemenata koji
se mogu izabrati iz populacije od N elemenata je

N N (N − 1) . . . (N − n + 1)
(1.1) = .
n 1 · 2 · ... · n

Primjer 4 Jana ima 4 karte za pozorište. Šest drugarica je zainteresovano


da ide sa Janom u pozorište. Jana je odlučila da na slučajan način odredi
koje drugarice će da povede sa sobom. Koliko ima prostih slučajnih uzoraka
od tri elementa?
1.5. POJAM UZORKA I UZORAČKOG ISTRAŽIVANJA 9

Rješenje: U pitanju je prost slučajan uzorak bez ponavljanja gdje je N = 6


i n = 3. Primijenićemo fromulu (1.1). Tada je

6 6·5·4
= = 20 .
3 1·2·3

Dakle, iz populacije od 6 elemenata, na slučajan način,bez ponavljanja,


može se izabrati 20 različitih uzoraka od 3 elementa.
Postavlja se pitanje kako da izaberemo prost slučajan uzorak. Naj-
pogodniji način jeste pomoću slučajnih brojeva. Naime, svakom elementu
u populaciji dodjeljuje se redni broj od 1 do N . Takav dobijeni skup zovemo
okvir. Iz tablice slučajnih brojeva odred̄uje n brojeva. U uzorak se bira ele-
ment čiji redni broj odgovara izabranom slučajnom broju. Tablice slučajnih
brojeva dostupne su u skoro svim udžbenicima iz statistike.
Ovakav način izbora u slučaju uzoraka većih obima je dosta zahtije-
van. Zato se, obično, umjesto tablice slučajnih brojeva, koriste generatori
slučajnih brojeva koji se nalaze u svim softverima. Mi ćemo ovdje koristiti
Data Analysis Tool Pak koji je dio Excela.

Primjer 5 Nova farmaceutska kuća lansirala je kozmetičku liniju. Da bi


ispitali zadovoljstvo korisnika, menadžment te kompanije odlučio je da na
uzorku od 10 klijenata sprovede istraživanje. Kompanija sada ima ukupno
32 klijenata.

Rješenje: Prvo formiramo okvir za izbor uzorka. Deset slučajnih brojeva


izabraćemo pomoću generatora slučajnih brojeva. Element čiji redni broj
odgovara slučajnom, biće izabran u uzorak. S obzirom da biramo uzorak
bez ponavljanja, nije moguće da isti klijent bude biran u uzorak više puta.
Generatori slučajnih brojeva zahtijevaju da se unese slučajni početak (engl.
seed). To može da bude bilo koji pozitivan broj.
Generisani slučajni broj može da se ponovi. Zato je preporuka da se
generiše više slučajnih brojeva nego što je projektovani obim uzorka.
Generisani slučajni brojevi su zaokruženi na najbliže cijele brojeve, pa
su zatim izbrisani duplikati. Na kraju, u uzorak ulaze klijenti čiji su redni
brojevi 2,5,7, 10, 12, 14, 18, 22, 25 i 30.
10 Uvod

Tabela 1.1: Okvir za izbor uzorka

Rbr Ime Rbr Ime Rbr Ime Rbr Ime


1 Danijela 9 Andrijana 17 Snežana 25 Dijana
2 Nada 10 And̄ela 18 Ljiljana 26 Maja
3 Tanja 11 Mirka 19 Natalija 27 Kaja
4 Vanja 12 Ljubica 20 Julija 28 Anica
5 Jana 13 Milica 21 Petra 29 Stevka
6 Dragana 14 Ana 22 Anja 30 Helena
7 Milja 15 Anka 23 Mira 31 Jovana
8 Maja 16 Jelena 24 And̄elka 32 Sonja

Slika 1.1: Postupak odred̄ivanja slučajnih brojeva.


1.5. POJAM UZORKA I UZORAČKOG ISTRAŽIVANJA 11

1.5.2 Stratifikovani uzorak

Primjenom prost slučajnog uzorka dobijamo precizne ocjene, u slučaju kada


je varijabilitet izabranih jedinica relativno mali, odnosno kada je uzorak
homogen. U slučajevima heterogenosti skupa (visok varijabilitet) prost
slučajan uzorak neće biti pogodan, jer ne možemo da očekujemo preciznost
u ocjenama. U cilju prevazilaženja ovog problema pribjegava se strati-
fikaciji, tj. podjeli populacije na disjunktne skupove koje zovemo stratu-
mima. Osnovna karakteristika stratuma jeste homogenost jedinica koje
pripadaju stratumu, kao i heterogenost izmed̄u stratuma.
Izbor stratifikovanog uzorka podrazumijeva da se, u prvom koraku, pop-
ulacija izdijeli na stratume, a da se u drugom koraku iz svakog stratuma
izabere prost slučajan uzorak. Unija svih slučajnih uzoraka predstavlja
stratifikovani uzorak.
Prednost stratifikovanog, u odnosu na prost slučajan uzorak, se pre-
ventsveno ogleda u reprezentativnosti. Na primjer, ako želimo da obezbi-
jedimo reprezenativnost nekog uzorka u odnosu na pol, realno je očekivati
da u uzorku imamo približan broj osoba ženskog i muškog pola. Ukoliko
bi uzorak birali primjenom prostog slučajnog uzorka, ne možemo garan-
tovati traženu reprezentativnost, jer bi se, na primjer, moglo desiti da u
uzorku nemamo izabrane osobe muškog pola. Zato se populacija dijeli na
dva stratuma (ispitanici ženskog i muškog pola) pa se iz svakog stratuma
bira uzorak vodeći rav cuna o približnoj zastupljenosti osoba oba pola .

1.5.3 Sistematski uzorak

Sistematski uzorak podrazumijeva izbor jedinica sa nekim korakom počevši


od slučajno izabranog početka. Za izbor uzorka obima n potrebno je da
N
formiramo okvir. Zatim se odred̄uje korak k = n, gdje je N broj elemenata
populacije. Pitanje odabira slučajnog početka može se riješiti tako što se
generše slučajni broj m iz intervala 1 do k. Tada se u uzorak biraju elementi
čiji se redni broj iz okvira poklapa sa: m, m + k, m + 2k, itd.
Sistematski uzorak može predstavljati alternativu stratifikovanom uzorku.
Naime, okvir se može, uzimajući u obzir obilježja po kojima smo planirali
12 Uvod

stratifikaciju, pogodno sortirati. Za tako dobijen okvir kažemo da je implic-


itno stratifikovan. Zatim se, kao što je objašnjeno u prethodnom pasusu,
odred̄uje slučajan početak i bira uzorak. Više o ovome se može naći u XXX.

Primjer 6 Od 10000 preduzeća iz jednog grada, potrebno je u uzorak iz-


abrati 5%, odnosno 500 preduzeća. Sva preduzeća se nalaze u registru i
10000
uzorak se bira sistematski. Korak se odred̄uje iz jednakosti k = 500 = 20.
Sada biramo slučajan broj iz intervala 1 do 20. Neka smo dobili da je to
6. U uzorak biramo elemente iz okvira čiji se redni brojevi poklapaju sa:
6 + 20 = 26, 6 + 2 · +20 = 46, 6 + 3 · 20 = 66, itd.

1.6 Nestandardne opservacije


Nestandardne opservacije (engl. outliers) su one vrijednosti obilježja koje
su nekonzistentne sa ostalim vrijednostima obilježja. Nestandardne opser-
vacije se joňazivaju i ekstremne vrijednosti.
Razlozi za postojanje ovih opseracija su različiti. Najčešće se javljaju
kao greške prilikom unosa, pogrešna interpretacija pitanja od strane anke-
tara, pogrešno instruiranje anketara, itd.
Prije početka rada sa podacima, preporučuje se da ispita prisusto ne-
standardnih opservacija u uzorku. Njihovo otkrivanje je veoma važno,
jer oni, u znatnoj mjeri, mogu uticati, kako na numeričke karakteristike
obilježja (npr. aritmetička sredina), tako i na statističko zaključivanje (npr.
testiranje hipoteza). Dakle, prosustvo nestandardnih opservacija može da
dovede do pogrešnih zaključaka, pa samim tim predstavljaju potencijalan
ozbiljan problem. Ne postoji neki standardni metod za njihovo otkrivanje,
ali većina tih tehnika zahtijeva dublje poznavanje teorijske statistike, zato
su van okvira ovog kursa.
Najčešće korišćeni postupci su grafički metod i interkvartilni rang. O
ovome će biti više riječi u Glavi 2, gdje se bavimo metodama deskriptivne
statistike.
Glava 2

Deskriptivna statistika

Kada su podaci prikupljeni predstoji njihova organizacija, provjera, sta-


tistička obrada i tabeliranje. Metodi deskriptvine statistike omogućavaju
istraživaču jednu vrstu interakcije sa podacima. Pod interakcijom podrazu-
mijevamo uočavanje raznih nekonzistentnosti u podacima ( greške prilikom
unosa podataka, pogrešno šifriranje, postojanje nestandardnih observacija,
itd.).
Postupak organizacije podataka podrazumijeva korake koje istraživač
primjenjuje prije i tokom unosa podataka u bazu. Prije svega sva kvalita-
tivna obilježja se moraju šifrirarti. Na primjer, ako razmatramo obilježje
pol, znamo da su njegove vrijednosti ”žensko” ili ”muško”. Nije pogodno
da se u bazu unose vrijednosti u tekstualnom formatu, već se tekstualnim
vrijednostima dodjeljuju (proizvoljne) numeričke šifre. Tako bi, na primjer,
za osobe ženskog pola dali šifru ”1”, a za osobe muškog pola šifru ”2”.
Kvantitativna obilježja koja su nastala kao rezultat nekog mjerenja nije
potrebno šifrirati. Radi lakšeg prikazivanja kvantitaivnih obilježja, ponekad
se ona grupišu u intervale. O tome više u narednim poglavljima.

2.1 Raspodjela frekvenci


Pod frekvencom (f) podrazumijevamo broj javljanja nekog podatka koji se
sastavni dio obilježja. Tu frekvencu još zovemo i apsolutna frekvenca i ona

13
14 GLAVA 2. DESKRIPTIVNA STATISTIKA

je uvijek prirodan broj.


Raspodjela frekvenci predstavlja spisak svih podataka nekog obilježja
zajedno sa brojem pojavljivanja svakog podatka posebno. Lako se za-
ključuje da se raspodjela frekvenci odnosi na kvantitativna odnosno kat-
egorijska obilježja.

Primjer 1 U jednom odjeljenju na kraju nastavne godine bilo je 24 učenika.


Razredni starješina je računao uspjeh učenika. Rezultati se dati tabelom:

Tabela 2.1: Uspjeh učenika na kraju nastavne godine

dobar vrlo dobar dovoljan odličan nedovoljan vrlo dobar


dovoljan dobar nedovoljan vrlo dobar dovoljan dobar
odličan nedovoljan dovoljan dobar nedovoljan dovoljan
odličan dobar vrlo dobar dovoljan dobar vrlo dobar

Formirati tabelu raspodjele frekvenci.

Rješenje: Označimo sa 5 odličan, sa 4 vrlo dobar, sa 3 dobar, sa 2 dovol-


jan i sa 1 nedovoljan uspjeh. Poslije prebrojavanja, dobijamo raspodjelu
frekvenci kao u Tabeli 2.2.

Tabela 2.2: Raspodjela frekvenci za uspjeh učenika

Uspjeh Broj Frekvenca (f)


5 ||| 3
4 ||||| 5
3 |||||| 6
2 |||||| 6
1 |||| 4

Raspodjela frekvenci je obično predstavljena zajedno sa raspodjelom rel-


ativnih frekvenci. Relativna frekvenca (ri ) predstavlja odnos pojedinačne
2.1. RASPODJELA FREKVENCI 15

frekvence (fi ) i sume svih frekvenci ( i fi ). Dakle,

fi
(2.1) ri = .
i fi

Da bi raspodjela relativnih frekvenci bila u procentima, onda se prethodni


količnik množi sa 100. Treba napomenuti da je suma svih frekvenci jed-
naka broju elemenata u uzorku, a da je suma relativnih frekvenci jednaka
1, odnosno 100 ako je relativna frekvenca data u procentima. Dakle, ako se
rezultatima u Tabeli 2.2 doda kolona sa relativnim frekvencama dobijamo
Tabelu 2.3.

Tabela 2.3: Raspodjela frekvenci i relativnih frekvenci za uspjeh učenika

Uspjeh Broj Frekvenca (f) Relativna frekvenca (r)


3
5 ||| 3 24 = 0, 13
5
4 ||||| 5 24 = 0, 21
3 |||||| 6 0,25
2 |||||| 6 0,25
1 |||| 4 0,16
UKUPNO 24 1

Nekada se apsolutne frekvence kumuliraju, pa se umjesto pojedinačnih


frekvenci koriste njihove kumulante. Kumuliranje se vrši tako što se, počevši
od najmanje vrijednosti, frekvence sabiraju tako što se sukcesivno dodaju
zbiru prethodnih frekvenci. Tako smo dobili rastuću kumulantu, odnosno
kumulatnu ispod. Opadajuća ili kumulanta iznad dobija se tako što se,
počevši od prvog podatka, frekvcence sukcesivno oduzimaju od sume svih
pojedinačnih frekvenci.
Tabela 2.4 je primjer kako treba formirati tabelu raspodjele frekvenci.

2.1.1 Grafičko prikazivanje kategorijskih podataka

Kada smo napravili tabelu frekvenci, možemo da napravimo i odgovarajuće


grafikone. Grafikoni nam pomažu da bolje razumijemo podatak, kao i da
16 GLAVA 2. DESKRIPTIVNA STATISTIKA

Tabela 2.4: Raspodjela frekvenci, relativnih frekvenci i kumulativ za uspjeh


učenika

Uspjeh Frekvenca (f) Relativna frekvenca (r) Kumulativ (F)


3
5 3 24 = 0, 13 3
5
4 5 24 = 0, 21 8
3 6 0,25 14
2 6 0,25 20
1 4 0,16 24
UKUPNO 24 1

zaključimo šta nam podaci ”govore” o samom obilježju. Sentenca ”Slika


govori 1000 riječi” dobija posebnu težinu u slučaju grafičke interpretacije
podataka.
Jedan tip grafikona koji se najviše upotrebljava jeste stubasti dijagram
(engl. bar plot). Stubasti dijagram se dobija tako što se na x− osu nanose
kategorije, a na y osu se unosi frekvenca ili relativna frekvenca odgovarajuće
kategorije sa x− ose. Svaki pravougaonik je jednake širine, sa visinom
koja odgovara frekvenci ili relativnoj frekvenci. Na Slici 2.1 dat je primjer
stubastog dijagrama, koji odgovara podacima iz Tabele 2.4.
Sledeći tip grafikona je kružni dijagram (engl. pie plot). Kružni di-
jagram se primjenjuje za prikazivanje relativnih frekvenci. Svaki sektor
kružnog dijagrama odgovara jednoj kategoriji, dok je površina svake kat-
egorije proporcionalna relativnoj frekvenci. Na Slici 2.2 dat je primjer
kruňog dijagrama, na kome su prikazane relativne frekvence iz Tabele 2.4.
Kružni dijagram koristimo onda kada se sve kategorije koje smo razma-
trali grafički reprezentuju. Na primjer, ako bi grafički predstavljali relativne
frekvence koje odgovaraju učenicima koji su imali pozitivan uspjeh, kružni
dijagram ne bi bio pogodan, jer smo obuhvatili samo 83% podataka.
Kruňi dijagram je pogodan za korišćenje kada želimo da uporedimo
pojedinu kategoriju u odnosu na cjelinu (npr. koliki je udio vrlo dobrih
učenika u odjeljenju). Ako pomoću kružnog dijagrama upored̄ujemo po-
jedine kategorije med̄u sobom, nekada predstavlja teškoću da se uporede
2.1. RASPODJELA FREKVENCI 17

Slika 2.1: Primjer stubastog dijagrama

6
5
4
3
2
1
0

1 2 3 4 5

Slika 2.2: Primjer kružnog dijagrama

5
3

2
18 GLAVA 2. DESKRIPTIVNA STATISTIKA

uglovi kružnog dijagrama. Zato je, u tom slučaju, pogodnije da se koriste


stubasti grafikoni.
Grafička reprezentacija podataka olakšava upored̄ivanje dva skupa po-
dataka. Na primjer, ako želimo da uporedimo broj stanovnika u Podgorici,
Bijelom Polju i Nikšiću 2003. i 2011. godine, najpogodnije je da se koristi
uporedni stubasti dijagram (engl. side by side bar plot).

Slika 2.3: Primjer uporednog stubastog dijagrama


100000 150000
50000
0

Podgorica Niksic Bijelo Polje

2.2 Grupisanje kvantitativnih podataka


Za grupisanje kvantitativnih podataka, prvo je potrebno da utvrdimo da
li su podaci diskretni ili neprekidni. U slučaju diskretnih podataka i ako
se u skupu podataka javlja relativno mali broj različitih opservacija, tada
je svaka opservacija i jedna kategorija. U slučaju više različitih diskretnih
podataka ili u slučaju neprekidnog obilježja, podatke moramo grupisati u
intervale.

Primjer 2 Uprava nekog restorana želi da ispita koji meni privlači više
gostiju. U tom cilju su poslije ponude menija, u petnaesto minutnim inter-
2.2. GRUPISANJE KVANTITATIVNIH PODATAKA 19

valima bilježili broj gostiju koji ih posjećuje. Uprava je na slučajan izabrala


40 intervala. Podaci su dati u Tabeli 2.5.

Tabela 2.5: Broj gostiju nekog restorana u petnaesto minutnim intervalima

7 6 6 6 4 6 2 6
5 6 6 11 4 5 7 6
2 7 1 2 4 8 2 6
6 5 5 3 7 5 4 6
2 2 9 7 5 9 8 5

Formirati tabelu raspodjele frekvenci.

Rješenje: Iz tabele možemo da vidimo da je minimalan broj gostiju


restorana 0, a maksimalan 11. Dakle, imamo 11 kategorija, pa tabelu
frekvenci formiramo kao u Primjeru 1.

Tabela 2.6: Raspodjela frekvenci, relativnih frekvenci i kumulativ za broj


gostiju

Broj gostiju Frekvenca (f) Relativna frekvenca (r) Kumulativ (F)


11 1 0,025 1
10 0 0 1
9 2 0,05 3
8 2 0,05 5
7 5 0,125 10
6 11 0,275 21
5 7 0,175 28
4 4 0,10 32
3 1 0,025 33
2 6 0,15 39
1 1 0,025 40
UKUPNO 40 1
20 GLAVA 2. DESKRIPTIVNA STATISTIKA

Prilikom formiranja raspodjele frekvenci za neprekidno obilježje grupisanje


podataka nije tako jednostavno. Kod odred̄ivanja raspodjele frekvenci
postavlja se pitanje broja grupa (intervala), kao i pitanje veličine inter-
vala. Sam postupak grupisanja treba da bude takav da dobijena podjela
bude dovoljno informativna.
Zaokruživanje broja x na najbliži cio broj koji nije manji od x označavaćemo
sa x . Jedan od načina da se odredi broj intervala jeste da se primjeni tzv.
Sturgesovo pravilo (Herebert Sturges) po kome se broj intervala k odred̄uje
po formuli

(2.2) k = 1 + 3, 3 · log n ,

gdje je n ukupan broj elemenata u uzorku, a log je logaritam sa osnovom


10. Širina intervala se zatim odred̄uje uzimajući u obzir maksimalnu i
minimalnu vrijednost u uzorku, primjenom formule

xmax − xmin
(2.3) i= .
k

Da bi odredili početnu tačku prvog intervala koristimo formulu

i
(2.4) x0 = xmin − .
2

Treba voditi računa da se kraj jednog i početak narednog intervala ne


poklapaju.

Primjer 3 Testirana je nova nastavna metoda u nastavi maternjeg jezika.


Ukupno 35 nastavnika ocjenjivalo je kvalitet primijenjene metode ocjen-
jujući je jednom ocjenom iz intervala od 0 do 100. Rezultati su: 36, 51,
40, 57, 63, 44, 32.5, 63, 39, 54, 60, 58, 34, 48, 55, 42, 51, 35, 53, 61, 61,
59, 40, 42, 62, 54, 43, 62, 49, 56, 52, 57, 55, 55, 46.
Grupisati podatke u intervalne serije.

Rješenje: Da bi podatke grupisali u untervalne serije, prvo treba da


izračunamo broj intervala po formuli (2.2) za n = 35. Kako je log 35 = 1, 54
2.2. GRUPISANJE KVANTITATIVNIH PODATAKA 21

dobijamo
k = 1 + 3, 3 · 1, 54 = 6, 082 = 7 .

Kako je xmax = 63, a xmin = 32, 5 primjenom formule (2.3) dobijamo

63 − 32, 5
i= = 5, 014 = 6 .
6, 082

Sada pomoću (2.4) dolazimo do početne tačke

5, 014
x0 = 32, 5 − = 29, 996 = 30 .
2

Vodeći računa da se kraj jednog i početak narednog intervala ne pok-


lapaju, formiraćemo tabelu raspodjele frekvenci. Frekvence fi odred̄ujemo
prostim provjeravanjem da li konkretan element pripada intervalu. Da bi
imali potpuniju informaciju o podacima iz uzorka prikazaćemo relativne
frekvence i kumulativ (vidjeti Tabelu 2.7).

Tabela 2.7: Raspodjela frekvenci

Interval fi ri F
30-35 ||| 3 0,09 3
35,01-40 |||| 4 0,11 7
40,01-45 |||| 4 0,11 11
45,01-50 ||| 3 0,09 14
50,01-55 ||||||||| 9 0,26 23
55,01-60 |||||| 6 0,17 29
60,01 -65 |||||| 6 0,17 35
Ukupno 35 1

Preporuka za grupisanje intervala jeste da se vodi računa da njihova


širina bude jednaka. Postupak grupisanja u intervale je veoma osjetljiv na
prisustvo nestandardnih opservacija. Ako u uzorku imamo nestandardno
male i/ili nestandardno velike opservacije može se desiti da početni i/ili
krajnji interval budu otvoreni tj. da početni interval nema donju, a krajnji
22 GLAVA 2. DESKRIPTIVNA STATISTIKA

interval nema gornju granicu. Otvorenost intervala može da dovede do


manje preciznosti u odred̄ivanju numeričkih karakteristika uzorka. Veličine
beskonačnih intervala se poistovjećuju sa veličinom prethodnih intervala.
I pored evidentnih nedostataka, postupak grupisanja se dosta koristi
u statistici, prvenstveno zbog dobijanja jasnije slika o karakteristikama
uzorka.

2.2.1 Grafičko prikazivanje neprekidnih podataka


Jedan najčešćih tipova grafikona za prikazivanje neprekdnih podataka je
histogram. Dakle, poslije grupisanja podataka u intervale, histogramom se
predstavljaju frekvence kojom se javljaju podaci u uzastopnim intervalima.
Na sledećem grafikonu dat je histogram koji odgovara podacima iz tabele
2.7.

Slika 2.4: Histogram


10
8
Frekvenca

6
4
2
0

30 35 40 45 50 55 60 65

Intervali

Na prvi pogled, moglo bi da se zaključi da su stubasti dijagram i his-


togram isti tip grafikona. Med̄utim, razlika je suštinska. Ako uporedimo
stubasti dijagram sa slike 2.1 i histogram sa slike 2.4, možemo da zaključimo
da se stubasti dijagram odnosi na kategorijske, a histogram na neprekidne
2.3. MJERE CENTRALNE TENDENCIJE 23

podatke. Druga stvar, sasvim je svejedno da li ćemo na stubastom dija-


gramu prvo prikazati frekvence odličnih ili vrlo dobrih učenika, dok se kod
histograma poredak intervala ne može mijenjati.
Kumulirane frekvence prikazuju se grafički pomoću kumulante (ogive).
Primjer kumulante koji odgovara kumulativu iz tabele 2.7 je dat na slici
2.5.

Slika 2.5: Kumulanta


20 25 30 35
Kumulativ

10 15
5
0

30 35 40 45 50 55 60 65

Ocjene

Kumulanta se može koristiti i za prikazivanje frekvenci kod kategorijskih


obilježja.

2.3 Mjere centralne tendencije

Mjere centralne tendencije, kao što sam naziv kaže, predstavljaju centar
osnovnog skupa. Ove mjere daju informaciju o onome što je tipično, za-
jedničko za sve elemente jednog skupa. Prednost ovih mjera je što se vri-
jednosti u populaciji ili uzorku svode na jednu jedinu vrijednost. Postoji
više mjera centralne tendencije i svaka ima svoje prednosti i nedostatke.
24 GLAVA 2. DESKRIPTIVNA STATISTIKA

2.3.1 Aritmetička sredina

Kada u svakodnevnom jeziku čujemo riječ prosjek obično se misli na ar-


itmetičku sredinu. Aritmetička sredina predstavlja najčešće izračunavanu
mjeru centralne tendencije. Da bi se izrčunala aritmetička sredina neophodno
je da su podaci bar sa intervalne skale odnosa.
Aritmetička sredina, sredina ili prosjek, dobija se kada se sve vrijednosti
nekog skupa saberu i podijele sa brojem elemenata. Ako su x1 , x2 , . . . , x N
elementi populacije od N elemenata tada se sredina µ računa po formuli

x1 + x2 + . . . + xN i xi
(2.5) µ= = .
N N

Ako su x1 , x2 , . . . , x n elementi uzorka od n elemenata tada je aritmetička


sredina

x1 + x2 + . . . + xn i xi
(2.6) x= = .
n n

Vrijednost dobijenu formulom (2.6) zovemo uzoračka aritmetička sredina ili,


kraće, uzoračka sredina. Imajući na umu razmatranja iz Glave 1, možemo
da zaključimo da je sredina parametar, dok je uzoračka sredina statistika.

Primjer 4 Deset studenata je polagalo ispit iz statistike. Rezultati su: 85,


72, 75, 68, 91, 55, 78, 82, 89, 59.
a) Izračunati aritmetičku sredinu.
b) Izabrati slučajan uzorak od 5 elemenata i izračunati uzoračku arit-
metičku sredinu.

Rješenje:
a) Računamo sredinu koristeći formulu (2.5). Dakle,

85 + 72 + 75 + 68 + 91 + 55 + 78 + 82 + 89 + 59
µ= = 75, 4 .
10

b) Pretpostavimo da smo pomoću slučajnih brojeva u uzorak izabrali


studente čiji je skor: 72, 68, 91, 78, 59. Uzoračka sredina se dobija po
2.3. MJERE CENTRALNE TENDENCIJE 25

formuli (2.6)
72 + 68 + 91 + 78 + 59
x= = 73, 6 .
5

Ukoliko su podaci iz populacije dati u obliku raspodjele frekvenci, kao


u Tabeli 2.8, tada se populaciona aritmetička sredina računa po formuli

Tabela 2.8: Primjer grupisanih podataka

Vrijednosti obilježja x1 x2 .. . xN
Frekvence f1 f2 .. . fN

x1 · f 1 + x2 · f2 + . . . + xN · fN i f i · xi
(2.7) µ= = .
N N

Ukoliko se računa na uzorku prethodna formula postaje

x1 · f1 + x2 · f2 + . . . + xn · fn i fi · xi
(2.8) x= = .
n n

Primjer 5 U jednom soliteru živi 83 domaćinstava. Broj članova po domaćinstvima


dat je Tabelom 2.9. Izračunati prosječan broj članova po domaćinstvu.

Tabela 2.9: Pregled broja domaćinstava


Broj članova domaćinstva xi 1 2 3 4 5
Broj domaćinstava fi 4 13 21 29 16

Rješenje: Postupak za računanje dat u Tabeli 2.10.


Smatrajući da su stanovnici solitera dio nekog slučajnog uzorka, dobi-
xi ·fi 289
jamo da je uzoračka sredina x = i
n = 83 = 3, 48.

Razmotrimo slučaj kada su podaci dati u obliku intervala kao što je


slučaj u Tabeli 2.11. Označimo sa xi sredine intervala, tj. neka je xi =
26 GLAVA 2. DESKRIPTIVNA STATISTIKA

Tabela 2.10: Radna tabela sa postupkom računanja aritmetičke sredine za


podatke date u bliku frekvenci
Broj članova domaćinstva xi Broj domaćinstava fi xi · fi
1 4 4
2 13 26
3 21 63
4 29 116
5 16 80
Ukupno 83 289

xi−1 +xi
2 . Tada se aritmetička sredina računa po formuli

x1 · f1 + x2 · f2 + . . . + xN · fN i fi · xi
(2.9) µ= = .
N N

Tabela 2.11: Primjer tabele u slučaju kada su podaci dati u obliku intervala
Vrijednosti obilježja (x1 , x2 ] (x2 , x3 ] . . . (xN , xN −1 ]
Frekvence f1 f2 ... fN

U slučaju kada je uzorak grupisan u intervale, uzoračka sredina je

x1 · f1 + x2 · f2 + . . . + xn · fn i fi · xi
(2.10) x= = .
n n

Primjer 6 Da bi izračunali prosječni promet ostvaren u toku jednog mjeseca,


na slučajan način je izabrano 50 radnji. Radnje su, u odnosu na ostvareni,
promet grupisane kao u Tabeli 2.12.
Izračunati prosječan promet.

Rješenje:
Postupak rada dat je Tabelom 2.13.
Sredinu intervala dobijamo tako što saberemo početnu i krajnju tačku
intervala i podijelimo sa 2.
40+50
Tako je na primjer, sredina drugog intervala xi = 2 = 45.
2.3. MJERE CENTRALNE TENDENCIJE 27

Tabela 2.12: Prosječan promet

Promet u hilj. EUR Broj radnji (fi )


30-40 2
40,01-50 5
50,01-60 10
60,01-70 12
70,01-80 10
80,01-90 9
90,01-100 2

Tabela 2.13: Radna tabela sa postupkom računanja aritmetičke sredine za


podatke date u obliku intervala

xi fi xi xi · fi
30-40 2 35 70
40,01-50 5 45 225
50,01-60 10 55 550
60,01-70 12 65 780
70,01-80 10 75 750
80,01-90 9 85 765
90,01-100 2 95 190
Ukupno 50 3330
28 GLAVA 2. DESKRIPTIVNA STATISTIKA

Uzoračka sredina je

i fi · xi 3330
x= = = 66, 6 .
n 50

Aritmetička sredina, kao prosječna vrijednost obilježja svih elemenata


nekog skupa zadovoljava sledeće osobine:

1. Aritmetička sredina je srednja vrijednost veća od najmanjeg i manja od


najvećeg elementa u uzorku.

2. Ako su sve vrijednosti nekog skupa med̄usobom jednake x1 = x2 =


. . . xn = a tada je x = a .

3. Zbir odstupanja svih elemenata nekog skupa od aritmetičke sredine je


jednak 0, tj i (xi − x) = 0.

4. Neka je x1 , x2 , . . . , x n skup čija je aritmetička sredina x. Tada je ar-


timetička sredina skupa x1 ± a, x2 ± a, . . . , xn ± a, gdje je a = 0, jednaka
x ± a.

5. Neka je a = 0 i neka je x1 , x2 , . . . , xn skup čija je aritmetička sredina


x. Tada je artimetička sredina skupa x1 · a, x2 · a, . . . , xn · a jednaka x · a.
x1 x2 xn
Slično, aritmetička sredina skupa a , a ,. .. , a , jednaka xa .

Prednosti aritmetičke sredine mogle bi da budu lakoća izračunavanja,


kao i široka upotreba u drugim statističkim tehnikama. Takod̄e, pri od-
abiru više uzoraka iz jedne populacije, aritmetičke sredine biće najastabil-
nije mjere centralne tendencije u smislu da će biti najbliže populacionoj
aritmetičkoj sredini.

Iz same definicije aritmetičke sredine možemo da zaključimo da pris-


ustvo nestandardnih opservacija u velikoj mjeri utiče na vrijednost arit-
metičke sredine.

Na Slici 2.6 data su dva uzorka od po pet elemenata, koji se razlikuju


samo u jednoj opservaciji. Vidimo da se aritmetička sredina uzoraka A i B
promijenila zamjenom samo jedne vrijednosti uzorka A.
2.3. MJERE CENTRALNE TENDENCIJE 29

Slika 2.6: Uticaj nestandardnih opservacija na aritmetičku sredinu.

Uzorak A(ar.sred.=3)

0 2 4 6 8 10

Uzorak B(ar.sred.=4)

0 2 4 6 8 10

2.3.2 Mod

Mod (Mo) predstavlja najfrekventnije obilježje nekog uzorka i odred̄uje se


za obilježja čije su vrijednosti date bar na nominalnoj skali. Neko obilježje
može da ima jedan ili više modova. Ukoliko uzorak ima jedan mod zovemo
tada je on unimodalan, ukoliko ima dva moda bimodalan, itd. Ako se sve
vrijednosti u uzorku sa jednakim frekvencama, tada kažemo da uzorak ne
sadrži mod.

Primjer 7 Odrediti mod za svaku od sledećih serija podataka:

a) 10, 17, 16, 13, 18, 12, 15, 21.

b) 10, 17, 17, 12, 18, 15, 17, 21.

c) 10, 10, 17, 16, 13, 13, 14, 22.

Rješenje: Serija a) nema mod jer se svaka vrijednost javlja jednak broj
puta (u ovom slučaju to je 1).
30 GLAVA 2. DESKRIPTIVNA STATISTIKA

Serija b) ima jedan mod i to je 17, jer ta vrijednost ima najveću


frekvencu (javlja se 2 puta).
Serija c) ima dva moda i to su 10 i 13, jer se te dvije vrijednosti javljaju
sa najvećim frekvencama.

Prednost moda je da je to jedina mjera centralne tendencije koja se


može koristiti kod uzoraka čiji se elementi mjere na nominalnoj skali.
Nepostojanje moda, kao i njegova neupotrebljivost kod polimodalnih
serija predstavljaju glavni nedostatak ove mjere centralne tendencije. Mod
se veoma često koristi u slučajevima kada koristimo Likertovu skalu (”uopšte
se ne slažem”, ”ne slažem se”, ”nemam mišljenje”, ”slažem se”, ”potpuno
se sla vem”).
Na slici 2.7 dat je primjer uzorka sa modom (uzorak A) i uzorka bez
moda (uzorak B).

Slika 2.7: Primjer uzoraka sa i bez moda.

Uzorak A(mod=9)

0 2 4 6 8 10 12 14

Uzorak B(nema mod)

0 2 4 6 8 10

U slučaju da su podaci grupisani u intervale, postupak odred̄ivanja


moda sastoji se u sledećem:
2.3. MJERE CENTRALNE TENDENCIJE 31

1. odred̄ivanje modalnog intervala. Modalni interval je interval sa na-


jvećom frekvencom.
2. Neka je (ai , bi ] modalni interval. Tada se mod računa po formuli

f2
(2.11) m = ai + (bi − ai ) ,
f1 + f2

gdje su: ai donja granica modalnog intervala, bi gornja granica modalnog


intervala, f2 frekvenca intervala koji je poslije modalnog i f1 frekvenca
intervala koji prethodi modalnom.

Primjer 8 Izračunati modalni promet iz Primjera 6.

Rješenje: Modalni interval je (60, 70] jer njegova frekvenca najveća. Tada
je bi = 70, ai = 60 i bi − a1 = 10, odnosno f2 = 10 i f1 = 10. Pomoću (2.11)
dolazimo do

10
m = 60 + 10 · = 65.
20
Dakle, modalni promet je 65 000 EUR.

2.3.3 Medijana

Medijana (Me) nekog obilježja predstavlja centralnu opservaciju nekog niza


koji je ured̄en u rastući poredak. Odred̄uje se za obilježja koja se mjere bar
na ordinalnoj skali. S obzirom da se medijana ored̄uje na osnovu polžaja,
što nije slučaj kod aritmetičke sredine, medijana pripada položajnim mjerama
centralne tendencije.
Neka je (x1 , x2 , . . . , xn ) neki realizovani uzorak. Da bi se odredila nje-
gova medijana M, postupamo na sledeći način:
1. Vrijednosti realizovanog uzorka sortiramo u rastući poredak x(1) ≤
x(2) ≤ . . . x(n) .
2. Ako realizovani uzorak ima neparan broj elemenata tada je medijana
centralna opservacija, tj.
32 GLAVA 2. DESKRIPTIVNA STATISTIKA

(2.12) M = x n+1 .
2

Ako realizovani uzorak ima paran broj članova tada je medijana arit-
metička sredina centralna dva člana, odnosno

x n2 + x n2 +1
(2.13) M= .
2

Za razliku od moda, medijana uvijek postoji i jedinstvena je vrijednost.

Primjer 9 Srednja vrijednost padavina u Podgorici za period od 1950. do


1984. (u mm) je
188,36; 173,94; 147,81; 129,4; 92,41; 58,63; 41,51; 68,46; 126,66;
184,5; 225,38; 227,42.
Odrediti medijalnu vrijednost.

Rješenje: Prvo date vrijednosti sortiramo u rastući poredak:


41,51; 58,63; 68,46; 92,41; 126,66; 129,4; 147,81; 173,94; 184,5; 188,36;
225,38; 227,42.
Pošto je u uzorku 12 elemenata, medijanu računamo po formuli (2.13):

129, 4 + 147, 81
M= = 138, 61.
2

Ako su podaci grupisani u intervale, postupak odred̄ivanja medijane je:


1. odred̄ivanje medijanskog intervala. Medijanski interval je prvi interval
n
čiji je kumulativ veći ili jednak od 2.
2. Neka je (aj , bj ] medijanski interval. Tada se medijana računa po formuli

n
2 − Fj
(2.14) M = aj + (bj − aj ) · ,
fj

gdje je aj početna tačka medijanskog intervala, Fj vrijednost kumulativa


2.3. MJERE CENTRALNE TENDENCIJE 33

koja odgovara intervalu koji prethodi medijanskom i fj je frekvenca medi-


janskog intervala.

Primjer 10 Izračunati medijalni promet iz Primjera 6.

Rješenje: Da bi izračunali medijanu potrebno da je da odredimo kumula-


tiv (vidjeti Tabelu 2.14).

Tabela 2.14: Radna tabela sa postupkom računanja medijane za grupisane


podatke

Promet u hilj. EUR Broj radnji (f ) F


30-40 2 2
40,01-50 5 7
50,01-60 10 17
60,01-70 12 29
70,01-80 10 39
80,01-90 9 48
90,01-100 2 50

Sledeći korak je odred̄ivanje medijanskog intervala. Pošto u uzorku


ima 50 elemenata, tada je medijalni interval (60, 70] jer je odgovarajući
50
kumulativ F = 29 prvi koji zadovovoljava uslov F = 29 ≥ 2 = 25 . Sada
je aj = 60, bj = 70, Fj = 17 i fj = 12, pa pomoću formule (2.14), dobijamo
medijanu

25 − 17
M = 60 + 10 · = 66, 67.
12

2.3.4 Percentili i percentilni rang


Percentili su, kao i medijana, položajne vrijednosti. Kaže se da k−ti per-
centil Pk , dijeli neki uzorak tako da se ispod percentila Pk nalazi k% vri-
jednosti uzorka. Na primjer, 10. percentil P10 dijeli uzorak tako da se
ispod vrijednosti percentila nalazi 10%, a iznad 90% vrijednosti obilježja.
Medijana je 50. percentil, tj. M = P50 . Na Slici (2.8) data je ilustracija
percentilne podjele uzorka..
34 GLAVA 2. DESKRIPTIVNA STATISTIKA

Slika 2.8: Percentili

Najmanja Najveća
vrijednost vrijednost
u uzorku P1 P2 P98 P99 u uzorku
...
prvih poslednjih
1% 1%
prvih poslednjih
2% 2%

U praksi se najviše koriste kvartili. Prvi kvartil ili P25 dijeli vrijednosti
uzorka tako da se ispod P25 nalazi 25% njegovih vrijednosti . Takod̄e, važi
M = P50 . Analogno, treći kvartil, P75 , dijeli uzorak tako da se ispod nalazi
75% njegovih vrijednosti. Sa Slike (2.9) možemo da vidimo kako kvartili
dijele uzorak.

Slika 2.9: Kvartili

Najmanja Medijana Najveća


vrijednost vrijednost
u uzorku Q1 Q2 Q3 u uzorku

25% od 25% od 25% od 25% od


uzorka uzorka uzorka uzorka

U slučaju da raspolažemo negrupisanim podacima, percentile računamo


po formuli

k·n
(2.15) i= ,
100

gdje je i pozicija percentila u uzorku, k vrijednost percentila koji računamo,


a n je broj jedinica u uzorku.

Primjer 11 Visine 12 učenika jednog odjeljenja (u cm) osnovne škole su:


140, 141, 138, 140, 122, 160, 154, 132, 148, 135, 140, 133. Izračunati 35.
percentil.
2.3. MJERE CENTRALNE TENDENCIJE 35

Rješenje: Sortirajmo uzorak u rastući poredak:


122, 132, 133, 135, 138, 140, 140, 140, 141, 148, 154 i 160.
Primjenom formule (2.15) za k = 35, n = 12 dobijamo

k·n 35 · 12
i= = = 4, 2 = 5 .
100 100
Dakle, 35. percentil se nalazi na petoj poziciji, pa je P35 = 138.
Zaključujemo da je 35% učenika niže od 138 cm, a da je visina 65%
učenika veća ili jednaka od 138.

Neka je uzorak grupisan u obliku intervala, kao što je slučaj u Tabeli


2.11. Da bi odredili k− ti percentil postupamo na sledeći način:

1. Interval u kome se nalazi traženi percentil je prvi interval čiji je ku-


mulativ veći ili jednak od

k·n
(2.16) p= .
100

Tako odred̄eni interval zovemo percentilski interval.

2. Neka je (aj , bj ] percentilski interval. Tada se k− ti percentil računa


po formuli

p − Fj
(2.17) Pk = aj + (bj − aj ) ,
f

gdje je aj donja, bj gornja granica percentilnog intervala, Fj vrijednost


kumulativa koji odgovara intervalu koji prethodi percentilnom, f frekvenca
percentilnog intervala i p je dato formulom (2.16).

Primjer 12 Izračunati 85. percentil za uzorak radnji iz Primjera 6.

85·50
Rješenje: Percentilni interval odred̄ujemo tako što računamo p = 100 =
42, 5 . Prva vrijednost kumulativa koja je veća ili jednaka od 42,5 je 48, pa
36 GLAVA 2. DESKRIPTIVNA STATISTIKA

je percentilni interval (80, 90]. Sada je aj = 80, 01, bj = 90, Fj = 39 i f = 9.


Primjenom (2.17) dobijamo

42, 5 − 39
P85 = 80, 01 + (90 − 80, 01) = 83, 90.
9

Dakle, 85. percentil je 83 900 EUR, što znači da 85% radnji ima promet
manji od 83 900 EUR.

Prilikom odred̄ivanja percentila, mi smo za dati percentil računali kon-


kretnu vrijednost iz uzorka koja datom percentilu odgovara. Sada treba za
datu konkretnu vrijednost da odredimo procenat elemenata uzorka koji su
manji ili jednaki od date vrijednosti. Opisani postupak zovemo odred̄iva-
njem percentilnog ranga.
U slučaju kada podaci nisu grupisani, percentilni rang neke vrijednosti
A računamo po formuli

L · 100
(2.18) Pr = ,
n

gdje je L broj vrijednosti koje su u uzorku manje od A i n je ukupan broj


elemenata uzorka.

Primjer 13 Rezultati studentskog takmičenja iz opšte kulture su: 95, 62,


75, 84, 85, 89, 100, 88 i 79. Odrediti percentilni rang za studenta čije je
postignuće 89.

Rješenje: Sortirajmo uzorak u rastući poredak:


62, 75, 79, 84, 85, 88, 89, 95, 100.
Broj elemenata koji su manji od 89 je L = 6, a u uzorku ima n = 9
elemenata. Primjenjujući (2.18), dobijamo

6 · 100
Pr = = 66, 7% .
9

Zaključujemo da je 66, 7% studenata imalo lošije postignuće od studenta


koji je na takmičenju osvojio 89 bodova.
2.4. MJERE VARIJABILITETA 37

Ukoliko su podaci grupisani u intervale, kao što je slučaj u Tabeli 2.11


percentilni rang elementa Y računamo na sledeći način:

1. Odredi se interval kome pripada Y .

2. Neka je (aj , b j ] interval koji sadrži Y . Tada se on računa po formuli

Fj · 100 Y − aj f · 100
(2.19) Pr = + ,
n i n

gdje je i širina intervala, n ukupan broj elemenata u uzorku, f frekvenca


intervala u kome se nalazi Y , Fj kumulativna frekvenca intervala koji
prethodi intervalu koji sadrži Y .

Primjer 14 Koristeći podatke iz Primjera 6, izračunati percentilni rang za


iznos prometa 57,5.

Rješenje: Stavimo da je Y = 57, 5. Očigledno je da ostvareni promet


pripada intervalu (50, 60]. Koristeći Tabelu 2.14 i formulu (2.19), dobijamo

7 · 100 57, 5 − 50, 01 10 · 100


Pr = + = 28, 98% .
50 10 50

Dakle, radnja koja ima promet od 57 500 EUR ima promet veći od
28, 98% drugih radnji.

2.4 Mjere varijabiliteta


Mjere centralne tendencije često nisu dovoljne da u potpunosti opišu raspod-
jelu nekog uzorka. Varijacija nekog uzorka podrazumijeva odstupanje ele-
menata uzorka od jedne unaprijed odred̄ene vrijednosti. Da bi dobili pot-
punu informaciju o nekom uzorku potrebno je da, pored aritmetičke sredine,
imamo i neku mjeru varijacije. U nastavku ćemo proučavati varijaciju od
aritmetičke sredine.
38 GLAVA 2. DESKRIPTIVNA STATISTIKA

Slika 2.10: Uzorci različite varijacije.

Uzorak A

1 2 3 4 5

Uzorak B

2.0 2.5 3.0 3.5 4.0

Na slici 2.10 data su dva uzorka koja imaju istu aritmetičku sredinu
(x = 3), ali su različite varijacije. Evidentno je da elementi uzorka A
imaju veću varijaciju u odnosu na aritmetičku sredinu. Kada bi aritmetička
sredina bila dovoljna karakterizacija nekog uzorka, mogli bi da kažemo da
uzorci A i B potiču iz iste populacije, što, naravno, nije tačno. Zato se
uvode mjere mjere varijacije, koje opisuju koliko se vrijednosti nekog uzorka
med̄usobom razlikuju.
Reprezentativnost neke numeričke karakteristike uzorka (npr. aritmetičke
sredine) zavisi od stepena varijabiliteta. Ukoliko je varijabilnost manja,
utoliko su vrijednosti obilježja manje odstupaju od aritmetičke sredine i
ona je reprezentativnija, a za takav uzorak kažemo da je homogen. Obr-
nuto, ako je varijabilnost veća, odstupanje pojedinačnih vrijednosti od arit-
metičke sredine je veće, pa je reprezentativnost aritmetičke sredine manja.
Za takav skup kažemo da je heterogen.
Na primjer, ako imamo informaciju da je prosjek liječenja u jednoj bol-
nici 8 dana, a u drugoj takod̄e 8 dana, mogli bi da dod̄emo do pogrešnog
zaključka da je dužina trajanja liječenja jednaka u obije bolnice. Med̄utim,
2.4. MJERE VARIJABILITETA 39

to može ali ne mora da bude. Znači, da bi smo mogli da poredimo dva ili
više uzoraka, pored informacije o aritmetičkoj sredini, moramo da imamo
i informaciju o odstupanju pojedinačnih vrijednosti od prosjeka.
Apsolutne mjere disperzije varijabilnosti su:

1. raspon,

2. varijansa ili disperzija ,

3. standardna devijacija,

4. interkvartilni rang.

2.4.1 Raspon
Najprostija mjera varijacije naziva se raspon. Raspon R se definiše kao
razlika najveće i najmanje vrijednosti u uzorku, tj.

R = Xmax − Xmin .

Raspon je najprostiji pokazatelj varijabiliteta nekog uzorka. Njime se


dobija samo približna informacija o varijabilitetu, jer na njega utiču samo
dvije krajnje vrijednosti u uzorku. Ukoliko su obije ili bar jedna krajnja
vrijednost ekstremna raspon neće biti prava mjera varijabiliteta. Drugi,
isto tako važan nedostatak, jeste što se prilikom izračunavanja raspona ne
uzima u obzir broj elemenata u uzorku.

Primjer 15 Data su dva niza mjera:

a) 7, 11, 18, 5, 9, 6, 10, 14.

b) 7, 11, 30, 5, 9, 6, 10, 14.

Izračunati raspon.

Rješenje: Za prvi niz mjera raspon je R = 18 − 5 = 13, dok je raspon za


drugi niz mjera R = 30 − 5 = 25.
40 GLAVA 2. DESKRIPTIVNA STATISTIKA

S obzirom da se prethodna dva niza mjera razlikuju samo u maksimalnoj


vrijednosti, očigledan je uticaj ekstremnih vrijednosti na raspon.

2.4.2 Interkvartilni rang


Kao što smo vidjeli prilikom definisanja raspona, ideja da se varijabilitet u
nekom uzorku mjeri kao razlika maksimalne i minimalne vrijednosti pokazala
je odred̄ene nedostatke. Postavlja se pitanje da li se može mjera varija-
biliteta definisati kao razlika neke dvije vrijednosti na koje ekstremne vri-
jednosti ne bi imale uticaj. To se postiže uvod̄enjem interkvartilnog ranga
(IQR) koji je jednak razlici trećeg i prvog kvartila, tj.

IQR = Q3 − Q1 .

Može se zaključiti da IQR nije podložan uticaju ekstremnih vrijednosti,


jer sve jedinice čije su vrijednosti veće od trećeg i manje od prvog kvartila
ne učestvuju u njegovom izračunavanju.
Postupak računanja IQR može se svesti na sledeće korake:

1. uzorak se sortira u rastući poredak;

2. odredi se uzoračka medijana (ili drugi kvartil);

3. da bi se odredio prvi kvartil formiramo poduzorak koji se nalazi lijevo


od medijane (ne uključujući medijanu). Prvi kvartil će biti medijana
tako dobijenog poduzorka.

4. da bi se odredio treći kvartil formiramo poduzorak koji se nalazi desno


od medijane (ne uključujući medijanu). Treći kvartil je medijana tako
dobijenog poduzorka.

Primjer 16 Jedna osiguravajuća kuća tokom godine isplatila je 18 odšteta


vlasnicima automobila koji su učestvovali u saobraćajnim udesima. Visine
odštete u eurima su: 675, 991, 346, 237, 211, 233, 189, 119, 370, 141, 467,
195, 100, 735, 802, 618, 180, 165. Odrediti interkvartilni rang.
2.4. MJERE VARIJABILITETA 41

Rješenje: Zadatak riješavamo na prethodno opisan način:

1. Podatke sortiramo u rastući poredak:


100, 119, 141, 165, 180, 189, 195, 211, 233, 237, 346, 370, 467, 618,
675, 735, 802, 991.

2. Ukupno je n = 18 opservacija, pa je drugi kvartil, odnosno medijana

233 + 237
Q2 = = 235.
2

3. Poduzorak koji se nalazi lijevo od medijane je:


100, 119, 141, 165, 180, 189, 195, 211, 233.
Prvi kvartil je medijana tako dobijenog poduzorka, odnosno Q1 =
180.

4. Poduzorak koji se nalazi desno od medijane je:


237, 346, 370, 467, 618, 675, 735, 802, 991.
Medijana prethodnog poduzorka je Q3 = 618.

Sada je IQR=618-180=438.

Jedna od pogodnosti interkvartilnog ranga je da se može koristiti za


detekciju ekstremnih vrijednosti. Postupak se sastoji u sledećim koracima:

1. Izračunava se IQR.

2. Odred̄ujemo donju i gornju granicu:

D = Q1 − 1, 5 · IQR

i
G = Q3 + 1, 5 · IQR.

3. Ako je vrijednost u uzorku manja od D ili veća od G tada se uzoračka


vrijednost smatra ekstremnom vrijednošću.
42 GLAVA 2. DESKRIPTIVNA STATISTIKA

Primjer 17 Da li u uzorku
180, 189, 370, 618, 735, 802, 1 185, 1 414, 1 657, 1 953, 2 332, 2 336, 3
461, 4 668, 6 751, 9 908, 10 034, 21 147
postoje nestandardne opservacije?

Rješenje: Postupajući slično kao prethodnom primjeru, zaključujemo da


je IQR =4 668 - 735 = 3 933.
Sada računamo donju vrijednost:

D = 735 − 1, 5 · 3933 = −5164, 5.

Gornja vrijednost je

G = 4668 + 1, 5 · 3933 = 10567, 5.

Zaključujemo da nijedna vrijednost uzorka nije manja od D, pa ne pos-


toje nestandardno male opservacije. Med̄utim, vrijednost 21 147 je veća od
G i ona predstavlja nestandardno veliku opservaciju.

2.4.3 Disperzija

Interkvartilni rang, kao ni raspon ne uzima u obzir odstupanje svih ele-


manta nekog uzorka. Ova činjenica se može smatrati još veoma ograničavajućim
faktorom. Zato se nameće potreba da konstruišemo takvu mjeru varija-
biliteta koja će uzimati u obzir odstupanja svih elemenata uzorka od jedne
konkretne vrijednosti. U našem slučaju aritmetička sredina se prirodno
nameće kao tražena vrijednost.
Imajući na umu svojstvo 3 iz Poglavlja 2.3.1, kao i osjetljivost veličine
i |xi − µ| na promjenu broja elemenata u uzorku, odred̄ivaćemo količnik
kvadrata odstupanja od aritmetičke sredine i broja elemenata u uzorku.
Tako dobijena mjera varijabiliteta zove se disperzija ili varijansa.
Ako su x1 , x2 , . . . , x N elementi neke populacije sa aritmetičkom sredi-
2.4. MJERE VARIJABILITETA 43

nom µ, tada se centralni momenat reda k računa po formuli

1
(2.20) Mk = (xi − µ)k .
N
i

Specijalno, centralni momenat drugog reda zovemo varijansom, odnosno


važi

1
(2.21) σ2 = (xi − µ)2 .
N
i

Na jednostavan način prethodna formula se može uprostiti tako da do-


bijamo
2 − N x2
i xi
(2.22) σ2 = .
N

Prethodni izraz je operativniji, pa se češće koristi za računanje varijanse.


A ako su podaci grupisani kao u Tabeli 2.8, tada se centralni momenat
(2.20) svodi na

1
(2.23) Mk = fi (xi − µ)k .
N
i

S obzirom da je disperzija drugi centralni momenat, pomoću (2.23) lako


dolazimo do izraza računanje disperzije u slučaju grupisanih podataka

1
(2.24) σ2 = fi (xi − µ)2 .
N
i

Primjer 18 Završnu godinu nekog fakulteta pohad̄a 12 studenata i svi su


polagali ispit iz Statistike. Odrediti varijansu ako su rezultati dati Tabelom
2.15

Rješenje: Obilježimo broj bodova svakog studenta sa xi , gdje je i =


1, 2, . . . , 12. Da bi primijenili formulu (2.22) formiramo sledeću radnu tabelu:
44 GLAVA 2. DESKRIPTIVNA STATISTIKA

Tabela 2.15: Broj osvojenih bodova na ispitu

Šifra studenta Broj bodova


A1 69
A2 58
A3 74
A4 90
A5 55
A6 61
A7 78
A8 84
A9 95
A10 52
A11 59
A12 71

Tabela 2.16: Radna tabela sa postupkom izračunavanja varijanse

Šifra studenta Broj bodova (xi ) x2i


A1 69 4761
A2 58 3364
A3 74 5476
A4 90 8100
A5 55 3025
A6 61 3721
A7 78 6084
A8 84 7056
A9 95 9025
A10 52 2704
A11 59 3481
A12 71 5041
2
i xi = 846 i xi = 61838
2.4. MJERE VARIJABILITETA 45

Sada lako dobijamo


2
2 ( i xi ) 8462
2 i xi − N 61838 − 12
σ = = = 182, 92 .
N 12

Izraz (2.24) se može uprostiti tako da se dobije sledeća operativnija


formula

fi x2i
(2.25) σ2 = i
− µ2 .
N

Neka je x1 , x2 , . . . , xn uzorak sa aritmetičkom sredinom x. Tada se


uzorački centralni momenat reda k definiše kao

1
(2.26) mk = (xi − x)k .
n
i

Uzoračka disperzija predstavlja uzorački centralni momenat drugog reda, s


tim što se suma kvadrata odstupanja svih elemenata uzorka od aritmetičke
sredine dijeli sa n − 1, tj.

1
(2.27) s2 = (xi − x)2 .
n−1
i

Kao i u slučaju populacione varijanse prethodna formula se može uprostiti


na sledeći način
2 − nx2
i xi
(2.28) s2 = .
n−1

Može se postaviti pitanje zašto se prilikom računja populacione varijan-


se odgovarajuća suma kvadrata odstupanja dijeli sa N , a u slučaju uzoračke
sa n − 1. U praksi se statističko zaključivanje izvodi na bazi uzorka, iz
razloga što je prikupljanje podataka od svih elemenata neke populacije vrlo
često nemoguće (zbog ograničenja resursa). Zato je populacionu varijansu
potrebno na najbolji mogući način procijenti. Naime, u teorijskoj statistici
se kaže da je (2.27) ocjena populacione varijanse (2.21). Da bi neka ocjena
46 GLAVA 2. DESKRIPTIVNA STATISTIKA

bila preciznija, ona mora da zadovolji i neke osobine. To je i razlog što se


u (2.27) suma kvadrata odstupanja dijeli sa n − 1, a ne sa n kako bi bilo
očekivano. Osobine ocjena izlaze van okvira ovog kursa. Više o ovoj temi
može se naći u XXX. Veličinu n − 1 zovemo broj stepeni slobode. Mi ćemo
ovdje pokušati da damo intuitivnu interpretaciju broja stepeni slobode.
Naime, polazimo od činjenice da je i (xi − x) = 0. Ako imamo poznat
n − 1 element uzorka i aritmetičku sredinu, tada se n− ti element uzorka
mora izračunati tako da važi prethodni uslov. Na primjer, ako imamo
uzorak od 3 elementa i poznato je x1 = 4, x2 = 7 i x = 11. Tada element
x3 odred̄ujemo iz uslova

x1 + x2 + x3
= x
3
4 + 7 + x3
= 11
3
11 + x3 = 33
x3 = 22 .

Vidimo da n − 1 element ima ”slobodu” da uzme bilo koju vrijednost, dok


n− ti element tu slobodu nema. Dakle, uzorak je potpuno odred̄en ako
imamo poznatu n − 1 opseravciju i aritmetičku sredinu x.

Primjer 19 Koristeći rezultate iz prethodnog primjera, izračunati uzoračku


varijansu ako su u uzorak izabrani studenti A2, A4, A6, A8, A10 i A12.

Rješenje: Za izračunavanje uzoračke varijanse koristićemo formulu (2.28).


U tom cilju formiramo Tabelu 2.17
Sada je

2
2 ( xi ) 4162
i xi − 29986 −
i
2 n 6
s = = = 228, 67 .
n−1 5

U slučaju kada je uzorak grupisan kao u Tabeli 2.8, uzoračka centralni


2.4. MJERE VARIJABILITETA 47

Tabela 2.17: Radna tabela sa postupkom izračunavanja uzoračke varijanse

Šifra studenta Broj bodova (xi ) x2i


A2 58 3364
A4 90 8100
A6 61 3721
A8 84 7056
A10 52 2704
A12 71 5041
2
i xi = 416 i xi = 29986

momenat reda k je

1
(2.29) mk = fi (xi − x)k .
n
i

dok je uzoračka varijansa u slučaju grupisanih podataka

1
s2 = fi (xi − x)2 .
n−1
i

Prethodna formula se može uprostiti

1
(2.30) s2 = fi x2i − n x2 .
n−1
i

Primjer 20 Trideset učenika jednog odjeljenja ocijenjeno je na kraju školske


godine iz fizike na sledeći način:

Tabela 2.18: Ocjene iz fizike

Ocjena 5 4 3 2 1
Frekvenca 4 8 9 6 3 30

Odrediti varijabilitet ocjenjivanja.


48 GLAVA 2. DESKRIPTIVNA STATISTIKA

Rješenje: Smatraćemo da su učenici iz odabranog odjeljenja uzorak na


kome se sprovodi neko istraživanje. Zato koristimo formulu (2.30). Formi-
ramo radnu Tabelu 2.19

Tabela 2.19: Radna tabela sa primjerom izračunavanja varijanse kod po-


dataka datih u obliku frekvence

Ocjena (xi ) Frekvenca(fi ) x2i fi xi fi x2i


5 4 25 20 100
4 8 16 32 128
3 9 9 27 81
2 6 4 12 21
1 3 1 3 3
i x2i = 55 i fi xi = 94 i fi x2i = 336

94
Kao što je pokazano ranije aritmetička sredina je x = 30 = 3, 13. Sada
je

1 1
s2 = fi x2i − n x2 = 336 − 30 · 3, 132 = 1, 43 .
n−1 29
i

Ukoliko su bilo populacioni ili uzorački podaci dati u obliku inter-


vala (vidjeti Tabelu 2.11) tada se populaciona odnosno uzoračka varijansa
računa tako što se u (2.25) odnosno (2.30), umjesto xi , stavi sredina inter-
vala xi .

2.4.4 Standardna devijacija

Ako pogledamo primjere u kojima smo računali varijansu, možemo da za-


ključimo da je varijansa izražena u kvadratima mjernih jedinica (bodovi
na kvadrat u Primjeru 20). Ovo se može smatrati značajnim nedostatkom,
jer se na taj način povećava i mjera varijabiliteta. Zato je prirodno da
se računa kvadratni korijen iz varijanse. Pozitivnu vrijednost kvadratnog
2.4. MJERE VARIJABILITETA 49

korijena iz varijanse zovemo standardnom devijacijom. Dakle, populaciona


√ √
standardna devijacija je σ = + σ 2 , dok je uzoračka s = + s2 .

Primjer 21 a) Izračunati standardnu devijaciju koja odgovara populaciji


iz Primjera 18.

b) Izračunati standardnu devijaciju koja odgovara uzorku iz Primjera 20.

Rješenje: Na osnovu definicije standardne devijacije dobijamo:

a)

2
2 ( xi )
i xi −
i
N
σ= = 182, 92 = 13, 52 .
N

b)

2
2 ( xi )

i xi
i
n
s= = 228, 67 = 15, 12 .
n−1

Na Slici 2.11 prikazana su tri različita uzorka sa istom aritmetičkom


sredinom i različitim standardnom devijacijom. U slučaju kada je stan-
dardna devijacija najmanja (Uzorak A) sve vrijednosti uzorka su koncen-
trisane oko aritmetičke sredine. Porast standardne devijacije, dovodi do
heterogenosti uzorka, odnosno do većeg odstupanja od aritmetičke sredine
(Uzorci B i C).

2.4.5 Koeficijent varijacije


Mjere varijacije koje smo do sada izučavali izražene su istim jedinicama ko-
jima je izražen i uzorak. Postavlja se pitanje kako upored̄ivati varijabilitet
uzoraka koji se mjere različitim jedinicama mjere. Slično pitanje možemo
da postavimo i u slučaju upored̄ivanja varijabiliteta uzoraka koji imaju
istu jedinicu mjere ali različite aritmetičke sredine. Odgovori na prethodna
50 GLAVA 2. DESKRIPTIVNA STATISTIKA

Slika 2.11: Uticaj standardne devijacije.

Uzorak A (ar.sred.=15,5 i std=0,93)

10 12 14 16 18 20 22

Uzorak B (ar.sred.=15,5 i std=3,34)

10 12 14 16 18 20 22

Uzorak C(ar.sred.=15,5 i std=4,57)

10 12 14 16 18 20 22

pitanja motivišu uvod̄enje relativnih mjera varijabiliteta od kojih je na-


jpoznatiji koeficijent varijacije ili skraćeno CV.
Populacioni koeficijent varijacije definiše se kao odnos populacione stan-
dardne devijacije i populacione aritmetičke sredine, tj.

σ
CV = .
µ

Analogno se definiše i uzoračka standardna devijacija

s
CV = .
x

Preporuka je da se pri upored̄ivanju varijabiliteta dva ili više uzoraka


koristi koeficijent varijacije.
Prisustvo varijabiliteta u uzorku možemo da shvatimo na na sledeći
način:

1. Heterogenost podataka znači da će raspon, interkvartilni rang, vari-


jansa, standardna devijacija i koeficijent varijacije biti veći.
2.4. MJERE VARIJABILITETA 51

2. Homogenost podataka znači da će raspon, interkvartilni rang, vari-


jansa, standardna devijacija i koeficijent varijacije biti manji.

3. Jednakost svih elemenata populacije ili uzorka znači odsustvo varija-


biliteta, što povlači da su sve mjere varijabiliteta jednake 0.

2.4.6 Deskriptivna statistika u MS Excelu

Pronalaženje deskriptivni statistika putem softvera ilustrovaćemo pomoću


Data Analysis ToolPak alata koji je dio MS Excela.
Svaka kolona u MS Excel radnom listu predstavlja različitu populaciju
ili uzorak. Na primjer, ako raspolažemo sa dva različita uzorka, elemente
unosimo u dvije različite kolone.

Primjer 22 Dati su maksimalni nivoi Skadarskog jezera po mjesecima u


2002. godini
9,86; 8,86; 8,92; 9,2; 8,52; 8,08; 6,94; 6,22; 7,57; 9,05; 9,29; 9,51.
Sprovesti deskriptivnu statističku analizu.

Rješenje: Zadatak ćemo riješiti primjenom Data Analysis ToolPak. Način


na koji unosimo podatke u Excel vidimo na Slici 2.12.

Slika 2.12: Podaci u Excel radnom listu.

U odgovarajućem prozoru biramo opciju Descriptive Statistics, a


52 GLAVA 2. DESKRIPTIVNA STATISTIKA

zatim Summary statistics. Na kraju se otvara novi radni list koji sadrži
rezultate analize (vidjeti Sliku 2.13).

Slika 2.13: Rezultati statističke analize.

Iz tabele na Slici 2.13 zaključujemo sledeće: aritmetička sredina je 8,50


; medijana 8,89; uzorak ne sadrži mod; standardna devijacija je 1,09; dok
je raspon 3,64.
Da bi izračunali interkvartilni računamo prvi i treći kvartil posebno.
Kvartile dobijamo pozivom funckije percentile. Treći kvartil ili 75. per-
centil dobijamo preko percentile(A1:A12,0.75). Prvi kvartil ili 25. per-
centil je rezultat izvršavanja funkcije percentile(A1:A12,0.25). Dobija
se da je IQR=9,22-7,95=1,27. Na slici 2.14 dat je postupak računanja in-
terkvartilnog rana. Napomenimo da je A1:A12 opseg kojim je obuhvaćen
uzorak (vidjeti Sliku 2.12).
U Excelu postoji funkcija percentrank koja vraća vrijednost percentilnog
ranga. Med̄utim, iz odred̄enih razloga (problem rangiranja uzorka) izlazi
prethodne funkcije nisu u skladu sa rezultatima dobijenim pomoću (2.18).
Zato percentilni rang računamo pomoću countif(R,” < ”&c)/count(R)*100,
gdje je R opseg ćelija u kome se nalazi uzorak, a c je vrijednost za koju
tražimo percentilni rang. Funkcija countif(R, kriterijum) vraća broj
elemenata iz niza R koji zadovoljavaju kriterujim, dok funkcija count(R)
2.4. MJERE VARIJABILITETA 53

Slika 2.14: Postupak računanja interkvartilnog ranga.

prebrojava brojeve u nizu R.

Primjer 23 Naći percentilnog ranga vrijednosti 16,8 u uzorku 14, 21, 19,
25, 13, 25, 17.

Rješenje: Primjenom formule (2.18) lako dobijamo da je P r = 28, 57%.


Sada ćemo percentilni rang izračunati u Excelu. Postupak je dat na
Slici 2.15. Kao što možemo vidjeti rezultati su jednaki.

Slika 2.15: Postupak računanja percentilnog ranga.


54 GLAVA 2. DESKRIPTIVNA STATISTIKA

You might also like