You are on page 1of 27

POGLAVLJE 4

Deskriptivna statistika
U uvodnom poglavlju kada smo odgovarali na pitanje: ta je statistika i emu ona slui?
kazali smo da postoje samo dva naina na koji koristimo statistiku. Jedan je da kvantitativno
opiemo neku pojavu a drugi je da statistikom analizom na osnovu manifestacije neke pojave
(uzorka) doemo do zakljuaka o samoj pojavi (populaciji). Dakle, moemo rei da postoje dve
vrste statistike koje se meusobno dopunjuju.
a) deskriptivna (ili opisna) statistika ija je cilj da sistematski, numeriki i saeto prikae
neke podatke; i
b) statistiku zakljuivanja iji je cilj da nam omogui uoptavanje (generalizaciju) od uzorka
na populaciju.
Sasvim prirodno, da biste do potpuno i do kraja shvatili razliku izmeu deskriptivne statistike i
statistike zakljuivanja bie potrebno da se upoznate i sa jednom i sa drugom tj. da proitate
celu ovu knjigu. Na ovom mestu dovoljno je da kaemo da se deskriptivna statistika bavi
kvantitativnim opisivanjem podataka kojim raspolaemo (najee su to podaci iz uzorka jer
retko ili gotovo nikad nismo u prilici da opisujemo cele populacije) dok statistika zakljuivanja
nastoji da uini korak dalje: da na osnovu raspoloivih podataka kae i neto vie.
Deskriptivna statistika se bavi opisom onoga to znamo. Statistika zakljuivanja ima mnogo tei
zadatak da na osnovu onoga to znamo kaemo neto o onome to ne znamo.

Ukoliko npr. izmerimo visinu svih deaka i devojica u nekom estom razredu osnovne
kole, nee nam biti teko da izraunamo prosenu visinu celog razreda, prosenu visinu
deaka i prosenu visinu devojica. To je, izmeu ostalog, posao deskriptivne statistike. Ukoliko
pak na osnovu tih podataka elimo da zakljuimo da razlika u visini izmeu deaka i devojica
(devojice su na tom uzrastu obino neto vie) nije sluajna ve je posledica delovanja nekog
sistematskog inioca (ranijeg poetka puberteta) i da najverovatnije ne vai samo za na uzorak
ve i za sve deake i devojice tog uzrasta onda prelazimo u domen statistike zakljuivanja. Ve
na ovom krajnje jednostavnom primeru uviate koliko je posao statistike zakljuivanja riziniji,
koliko je veliki iskorak od deskriptivne statistike do statistike zakljuivanja. Kako je uopte
mogue, ak i uz sve mogue ograde, tvrditi neto o stvarima koje ne poznajemo, koje nismo
izmerili? Moraete da saekate odgovor na ovo pitanje a on e vas, obeavam, uvesti u samu
sutinu naunog pristupa svetu. Ukoliko vam ovo obeanje u ovom trenutku izgleda moda

isuvie smelo upitajte se u emu se zapravo sastoji posao naunika. On ili ona neprekidno
pokuavaju da odgonetnu ovaj bskonano veliki i sloeni svet na osnovu veoma ograniene
koliine podataka kojima raspolau. Oni neprekidno ele da u svojim podacima pronau
pravilnosti koje ne opisuju samo te podatke ve se odnose i na injenice izvan i preko svojih
podataka. To, verujte, ne bi bilo mogue bez statistike zakljuivanja.
ta je to parametrijska a ta neprametrijska statistika?
Nezavisno od podele na deskriptivnu i statistiku zakljuivanja, postoji i podela po kojoj se statistika
se deli na
a) parametrijsku; i
b) neparametrijsku statistiku.
Iako emo se ve u ovom poglavlju pozivati na obe ove podele, pravi smisao druge podele (po kojoj
se statistika deli na parametrijsku i neprametrijsku) postae vam jasan tek kada budete proitali
Poglavlje 9 ove knjige.

U ovom poglavlju baviemo se iskljuivo deskriptivnom statistikom. Odmah treba rei


da je deskriptivna statistika svakako jednostavniji, za uenje laki ali i dosadniji deo statistike.
Pravi izazovi za razumevanje i uenje statistike dolaze tek pri susretu sa statistikom
zakljuivanja. No, kako to obino biva treba poeti od jednostavnog i lakeg jer bez
razumevanja osnovnih pojmova deskriptivne statistike svakako se ne moe razumeti statistika
zakljuivanja (Poglavlje 7).
Kako opisati podatke?
Bez obzira da li su pred vama podaci do kojih ste doli na osnovu prouavanja uzorka
(to e gotovo uvek biti sluaj) ili na osnovu prouavanja populacije (to se gotovo nikada nee
desiti), svako pa i najjednostavnije istraivanje sruie pred vas gomilu brojeva sa kojima, bar
isprva, neete znati ta da radite. Pretpostavimo da elite da ispitate vezu izmeu visine i
inteligencije tj. da na osnovu istraivanja proverite olako izreenu tvrdnju da su vii ljudi ujedno
i pametniji. Dosadila su vam prazna naglabanje na tu temu, navoenje primera (Pera je visok i
pametan), kontraprimera (Ljuba je jo vii ali je glup ko uskija) i neproverenih glasina (to
vai samo za ene, jer su mukarci ionako svi glupi) i elite da jednom za svagda date nauni
odgovor na to vano pitanje. im iole ozbiljnije ponete da razmiljate o vaem istraivanju
odmah e vam postati jasno da vas zanima univerzalni odgovor na to pitanje, odgovor koji e
vaiti za sve ljude, i da nikada neete imati dovoljno novca, vremena i energije da izmerite
visinu i inteligenciju svih ljudi na ovoj planeti. Stoga ete svoje pitanje, i svoju ljubopitljivost,

ubrzo morati da suzite i da se zadovoljite ispitivanjem odnosa visine inteligencije na mladima iz


nae zemlje. Nijedno psiholoko istraivanje se ne moe izvriti bez ispitanika a vama su svakako
najpristupaniji ispitanici uenici i studenti. Ve sada, na ovom potpuno izmiljenom primeru
uviate da krajnje realna ogranienja usmeravaju nauni interes. Mladih ljudi (uzrasta od 15 do
30 godina) ak i u tako maloj zemlji kao to je naa je relativno mnogo, novaca za istraivanje
uvek malo, pa ete najverovatnije morati da se zadovoljite uzorkom koji e obuhvatiti npr. 200300 studenata naeg fakulteta. Kada prikupite taj uzorak od vaih ispitanike ete (drei se
naela da je vano prikupiti to vie informacija) osim podataka o visini i inteligenciji eleti da
prikupite i druge podatke: o polu (moda odista veza izmeu pameti i visine vai samo za
devojke), mestu stanovanja, materijalnom stanju i sl. Vrlo se lako moe desiti da se pred vama
nae 1000 razliitih brojeva koje e biti krajnje teko obuhvatiti jednim pogledom.
Istraivanje koje studenti naeg fakulteta obavljaju u okviru svog zavrnog rada obino
podrazumeva zadavanje dva psiholoka merna instrumenta (ili testa) na uzorku od 100 do 200
ispitanika. Svaki taj test se sastoji od nekih 30 do 40 pitanja pa je sasvim mogue da ete se pri
analizi podataka tom prilikom susresti sa 150 (ispitanika) x 30 (pitanja po testu) x 2 (testa) =
9000 brojeva koji e sadrati sve informacije koje ste vi prikupili vaim istraivanjem. Nema
glave koja e tih 9000 hiljada brojeva moi da sagleda i da na osnovu njih donese ispravne
zakljuke. Nikako ne bi trebalo da budete zadivljeni tom koliinom podataka. Uz sve duno
potovanje naporu koji je pred vama, istraivanja tog obima su kolska i prvenstveno slue tome
da studenti demonstriraju kompetencije koje su stekli tokom svog trogodinjeg kolovanja.
Svako iole ozbiljnije istraivanje je daleko obimnije i, samim tim, rezultira u daleko veoj koliini
podataka, u daleko vie brojeva koje treba analizirati.
Sva ova pria bila je usmerna samo ka jednom zakljuku: saimanje i saeto prikazivanje
podataka je jedan od osnovnih zadataka deskriptivne statistike. Bez tog saetog prikazivanja
podataka, istraiva nikada nee biti u mogunosti da se do kraja zblii sa svojim podacima, da
ih obuhvati jednim pogledom, da ih sagleda, oseti i razume. Pre pristupanja bilo kakvoj
statistikoj analizi valja prvo pogledati podatke koje smo dobili. Jedno od zlatnih pravila kojih se
dre dobri istraivai glasi: uvek gledaj u svoje podatke!
Zato je vano gledati u podatke?
Laka dostupnost raunarskim programima za statistiku obradu podataka donela je sa
sobom i lou naviku koju bar za ovu priliku moemo da nazovemo gubljenje kontakta sa
podacima. ak i meu iskusnim istraivaima iroko je rasprostranjen manir da se statistikoj
analizi pristupa odmah posle unosa podataka. Postoje bar dva vana razloga zbog kojih je
gledanje u podatke nuno da bi se dobio pravi oseaj o tome ta nam oni govore.

1. Otkrivanje greaka unosa i traka. Budui da je podataka uvek mnogo, velika je


verovatnoa da emo negde pogreiti prilikom unosa podataka, da emo umesto
broja 77 (to moe biti IQ naeg ispitanika) u program kojim unosimo podatke radi
dalje statistike obrade upisati broj 777 (to svakako ne moe biti IQ naeg
ispitanika). Uskoro emo, ba na tom primeru, videti kako posledice takve banalne
greke mogu biti veoma ozbiljne. Isto tako, gledanjem u podatke lako emo otkriti
trke, podatke koji odudaraju od opteg trenda i koji zahtevaju posebnu panju.
Moda je trak posledica nerazumevanja uputstva koje smo dali ispitanicima,
moda je trak posledica ispitanikove nesaradnje. Neki ispitanici jednostavno ne
obraaju panju na uputstvo koje smo im dali pa misle da smo ih pitali jednu stvar a
odgovaraju na neku sasvim drugu. Neki drugi, iz njima poznatih razloga, ne ele da
sarauju i bez obzira na garanciju anonimnosti koju uvek dajemo svim ispitanicima,
na sva pitanja odgovaraju istim odgovorom. Pregledom podataka lako ete otkriti
ispitanika koji je na sva postavljena pitanja odgovorio jednoobrazno sa sasvim se
slaem ili sasvim se ne slaem. Takvi nazovi odgovori samo unose um u
istraivanje i ometaju nas da steknemo pravu sliku o pojavi koju prouavamo. to
pre ih otkrijemo i to pre ih eliminiemo iz naih podataka, jer greke unosa i
odgovori ispitanika koji se ne pridravaju uputstva i nisu podaci, to bolje. Pri tom,
nikako ne treba iz podataka izbacivati trke koji nisu posledica nemarnosti (bilo
istraivaa bilo ispitanika) ve jednostavno dolaze od ispitanika koji se ne uklapaju u
opti trend. Takvih ispitanika e uvek biti i oni samo potvruju jednu od osnovnih
teza statistike o varijabilnosti ovog sveta. Ponekad je veoma teko razlikovati
podatke koji odudaraju od opteg trenda samo zbog toga to su retki (i koje svakako
treba sauvati) od onih koji su posledica nemarnosti. Stoga je vano da se oslonimo
na jo jedno zlatno istraivako pravilo: iz naih podataka moemo da izbacimo
samo one podatke za koje sa sigurnou moemo da tvrdimo da predstavljaju
pogreno oitavanje (ili artefakt) bilo da je ono nastalo grekom istraivaa bilo da je
ono nastalo nesaradljivou ispitanika.
2. Odluka o vrsti statistike analize. Koju vrstu statistike analize emo primeniti zavisi i
od toga kako izgledaju nai podaci. Da li nai podaci bitno odstupaju od
matematikih modela normalne distribucije i prave linije (o tome ta je normalna ili
Gausova distribucija priaemo detaljno u Poglavlju 5) u prilinoj meri utie na
odluku o tome koje statistike postupke emo primeniti u nastojanju da iz njih
izvuemo maksimalnu koliinu informacija. Ukoliko nai podaci ne odstupaju bitno
od normalne distribucije primeniemo parametrijsku statistiku a ukoliko odstupaju
imaemo dosta razloga da razmiljamo o primeni neparametrijske statistike. Ukoliko
se odnos izmeu dve varijable ne moe najbolji opisati pravom ve krivom linijom
moda emo biti prinueni da ih transformiemo. Mada postoje formalni statistiki

tetsovi koji proveravaju stepen odstupanja podataka od tih matematikih modela,


ak i neizvebanom oku nee biti preterano teko da uoi bitna odstupanja. Jo
jedan razlog da pre svake analize bacite pogled na svoje podatke.

Kako saeti podatke?


Osnovni zadatak deskriptivne statistike jeste uvoenje reda u haos. Haos nastaje usled
ogromne koliine podataka koja se prikupi ak i u najjednostanijim istraivanjima; a red se uvodi
organizacijom i saimanjem tih podataka. Bez tog organizovanja i saimanja podataka bilo bi
teko, ako ne i nemogue, da ostvarite kontakt sa svojim podacima o kom smo malo pre priali.
U statistici postoji nekoliko naina da se samu podaci: tabelarno (upotrebom tabela), grafiki
(crtanjem), i numeriki (brojano). Sva tri naina se meusobno dopunjuju i valja ih
primenjivati u cilju ostvarivanja to boljeg kontakta sa prikupljenim podacima.
1. Tabelarno prikazivanje podataka.
Organizacijom i grupisanjem podataka u tabele mi veoma lako, iole zainteresovanom itaocu,
moemo da saoptimo veoma veliku koliinu informacija. Saimanje podataka u tabele ini ih
pristupanijim i lakim za upotrebu. Hiljade i hiljade pojedinanih posmatranja moe se saeti u
veoma pregledne tabele. Tako Tabela 4.1. na saet i organizovan nain rezimira podatke o
bruto i neto zaradama svih zaposlenih u Srbiji za 2008 2010. godinu. Ta tabela (saimajui
doslovno milione pojedninanih podataka) nam omoguuje da jednim pogledom utvrdimo
kako su prosene plate u Beogradu najvee a u Toplikom okrugu najmanje, kako su plate
unutar Vojvodine manje-vie ujednaene dok u Centralnoj Srbiji postoje mnogo vea
odstupanja od okruga do okruga, kako se prosene plate u Vojvodini i prosene plate u Srbiji
bitno ne razlikuju od republikog proseka. Bez pomoi te tabele bilo bi potpuno nemogue
savladati sve te silne podatke i bilo bi, isto tako, potpuno nemogue na osnovu njih doneti bilo
kakav zakljuak. Dobro organizovane i pregledne tabele nam omoguavaju da vidimo ono to je
nemogue videti u sirovim podacima. Tabelarno prikazivanje podataka i pravila koja olakavaju
dizajniranje tabela bile su velike teme statistikih udbenika sve do masovne rasprostranjenosti
programa za statistiku obradu podataka. Danas ti programi obiluju odista velikim
mogunostima i opcijama koj znaajno olakavaju taj posao. Zbog toga se mi neemo mnogo
zadravati na tabelarnom saimanju podataka ve emo se od te teme oprostiti uz konstataciju
da je tabeliranje podataka veoma koristan i lak nain da ostvarite bolji kontakt sa podacima i da
ga svakako treba koristiti pre nego to se upustite u dalju statistiku analizu. N

2008.
bruto
zarade

2009.
neto
zarade

bruto
zarade

neto
zarade

bruto
zarade

2010.
neto
zarade

Republika Srbija

45674

32746

44147

31733

47450

34142

Centralna Srbija

45582

32688

44424

31930

47806

34422

GRAD BEOGRAD

56011

40089

55627

39862

59174

42489

MAVANSKI OKRUG

38514

27617

36142

25998

40154

28884

PODUNAVSKI OKRUG

47458

34117

42455

30653

47086

34082

UMADIJSKI OKRUG

39421

28324

38942

28044

41764

30119

POMORAVSKI OKRUG

38190

27368

36629

26605

38713

28367

BORSKI OKRUG

41569

29905

40757

29340

45628

32809

ZAJEARSKI OKRUG

34760

24925

34564

24822

38205

27507

ZALTIBORSKI OKRUG

39190

28460

36997

26848

40148

29165

MORAVIKI OKRUG

36907

26577

36808

26549

39830

28727

RASINSKI OKRUG

35863

26150

34736

25288

37086

26918

NIAVSKI OKRUG

38317

27337

36522

26269

39488

28513

TOPLIKI OKRUG

31234

22398

29510

21217

32669

23689

PINJSKI OKRUG

33556

24009

34102

24495

36302

26118

Vojvodina

45924

32906

43403

31203

46496

33392

SEVERNO-BAKI OKRUG
SREDNJE-BANATSKI
OKRUG
SEVERNO-BANATSKI
OKRUG

41947

30188

40874

29318

43102

30998

43209

30935

41824

30017

45310

32358

42385

30392

40707

29270

42348

30467

JUNO-BANATSKI OKRUG

47734

34173

44194

32125

49280

35212

ZAPADNO-BAKI OKRUG

43092

30974

40834

29383

42103

30291

JUNO-BAKI OKRUG

49290

35278

46774

33513

50524

36327

SREMSKI OKRUG

43611

31216

39095

28123

40853

29442

Izvor podataka: Republiki zavod za statistiku, 2012.

Tabela 4.1. Prosene zarade po okruzima , godinji prosek u dinarima za 2008 -2010.

2. Grafiko prikazivanje podataka.

Davno je reeno da slika govori vie od hiljadu rei. U naoj prii o deskriptivnoj statistici
to bi jednostavno znailo da je grafiki (slikovni) nain esto mnogo efikasniji u saetom
prikazivanju podataka od tabelarnog. Odista, dok tabele esto mogu da budu veoma
komplikovane i da zahtevaju prilian stepen koncentracije, grafikoni su uvek laki i jednostavni za
razumevanje. Postoji vie naina na koje moemo da grafiki predstavimo rezultate. Jedan,
moda i najee korien nain jeste upotrebom histograma (stubia).
9

7,74

6,56

6,26

5,45

5,91

3,86

3
2
1
0

2006

2007

2008

2009

2010

2011

Slika 4.1. Rast obima maloprodaje u Srbiji u milijardama evra za period 2006 2011. Izvor: magazin InStore, 2012.
Lako se moe uoiti da je taj promet, uprkos svetskoj ekonomskoj krizi koja je poela u jesen 2008. u stalnom
usponu i da se udvostruio u proteklih 6 godina.

Histogrami se mogu koristiti za prikazivanje bilo kojih podataka ali su naroito pogodni
za prikazivanje diskretnih varijabli ili odnosa diskretnih i kontinuiranih varijabli. Na apscisi (X osi)
Slike 4.1. su godine (diskretni, celi brojevi) dok se na ordinati (Y osi) nalazi maloprodajni promet
izraen u evrima (kontinuirana varijabla). Isti princip korien je i u Slici 4.2. koja prikazuje
promet u maloprodaji u pet ex-YU drava. Na apscisi se nalaze imena drava (nominalna,
diskretna varijabla) dok se na ordinati nalazi maloprodajni promet izraen u evrima
(kontinuirana varijabla).

9
8

7,74

7
5,67

4,72

5
4

2,81

3
2

0,86

1
0

Srbija

Hrvatska

Slovenija

Bosna i
Hercegovina

Crna Gora

Slika 4. 2. Obim maloprodaje u pet ex-YU drava u 2011. izraen u milijardama evra. Izvor: magazin InStore, 2012.
Uoavate da je maloprodajni promet najvei u najmnogoljudnijoj Srbiji a najmanji u Crnoj Gori koja ima najmanji
broj stanovnika.

Distribucije
U uvodnom poglavlju upoznali smo se sa pojmom varijabilnosti. Kazali smo da je
varijabilnost jedna od osnovnih zakonitosti ovog sveta i da se ljudi razlikuju po svim merenim
osobinama i da su sve pojave koje merimo varijabilne pa ih stoga u nauci i zovemo varijablama.
Nain na koji se varijable rasporeuju du kontinuuma naih ispitanika nazivamo distribucija
(raspored) neke varijable. U deskriptivnoj statistici mi nastojimo da opiemo distribuciju na
najekonominiji nain tako to emo opisati njen oblik i tako to emo navesti neku meru njene
centralne tendencije i neku meru njene varijabilnosti.
Distribucije se meusobno razlikuju po obliku, merama centralne tendencije i merama
varijabilnosti. Najjednostavniji numeriki opis neke distribucije sastoji se od navoenja mere
centralne tendencije i mere varijabilnosti.

Slika 4.3. e nam posluiti da detaljnije objasnimo mogue razlike izmeu distribucija. Najbolji
nain da mislite o nekoj distribuciji jeste da ispod krive koja je opisuje zamislite glavice
ispitanika iji skorovi obrazuju tu distribuciju. Tamo gde je kriva koja opisuje distribuciju najvia
nalazi se najvie ispitanika a tamo gde je kriva koja opisuje distribuciju najnia nalazi se
najmanje ispitanika. Na sve tri distribucije prikazane na Slici 4.3. najvie ispitanika u sredinjem
delu distribucije a najmanje na njenim krajevima. Oigledno je da su distribucije A i C istog
oblika a da je oblik distribucije B neto drugaiji. Isto tako, moemo rei i da se distribucije A i B

ne razlikuju po centralnoj tendenciji jer se najvei broj ispitanika u obe distribucije grupie oko
iste vrednosti. Nasuprot tome, centralna tendencija distribucije C pomerena je udesno, ka viim
vrednostima. S druge strane, varijabilnost (raspon od najnieg do najvieg skora) distribucije A i
C je jednaka dok je varijabilnost distribucije B neto manja. Moemo rei da je distribucija B ua
nego distribucije A i C jer je razmak izmeu najnieg skore te distribucije manji nego to je to
sluaj sa distribucijama A i C.

Slika 4. 3. Tri distribucije koje se meusobno razlikuju po obliku, centralnoj tendenciji i varijabilnosti

U psihologiji obino imamo posla sa varijablama koje se simetrino rasporeuju. Zbog toga su
na Slici 4.3. sve tri prikazane distribucije simetrine. Najee, distribucija psiholokih varijabli
ima zvonasti oblik kakav imaju distribucije A i C. Distribuciju takvog oblika zovemo normalna ili
Gausova distribucija u ast velikog nemakog matematiara iz 19. veka. Normalnom ili
Gausovom distribucijom emo se mnogo detaljnije baviti u Poglavlju 5. Na ovom mestu
dovoljno je da kaemo da nam, budui najea, ona slui kao standard za opisivanje drugih
distribucija koje horizonatlno ili vertikalno odstupaju od nje.
Horizonatlno odstupanje (zakrivljenost) od normalne distribucije nazivamo skjunes (od
engleskog skewness). Zavisno od smera odstupanja, postoje pozitivno (Slika 4.6.) i negativno
(Slika 4.7.) zakrivljene distribucije.
Vertikalno odstupanje od normalne distribucije zovemo kurtozis (engleski curtosis) i ono
ukazuje na to da li je gomilanje skorova ispod take najvie uestalosti vie ili nie nego kod
normalne distribucije. Budui da nam slui kao standard, za normalnu distribuciju kaemo da je
mezokurtina (tj. srednje visoka). Vie a ue distribucije su leptokurtine a nie a ire su
platokurtine (Slika 4.4).

Slika 4.4. Kurtozis: vertikalno odstupanje od normalne distribucije

Mere i parametri
Ve na samom poetku ove knjige istakli smo razliku izmeu uzoraka (podataka kojima
raspolaemo) i populacija (svih sluajeva koji nas zanimaju). Uzorci su dostupni i nee nam biti
naroito teko da ih opiemo merama centralne tendencije (kao to je npr. aritmetika sredina
uzorka) i merama varijabilnosti (kao to je npr. standardna devijacija uzorka). U tom svom znaenju,
re mera se odnosi na broj koji saima neke bitne osobine uzorka. S druge strane re parametar
oznaava broj koji saima neke bitne osobine populacije. Dok su nam mere lako dostupne i
poznate, parametri (pravo stanje stvari) nam uglavnom ostaju nedostupni i nepoznati zbog toga to
su populacije po pravilu ogromne a njihovo prouavanje skupo. Sve to znamo o populacijama i
parametrima znamo na osnovu prouavanju uzoraka. Zbog toga kaemo da su mere procene
populacijskih parametara do kojih dolazimo na osnovu prouavanja uzorka. Sasvim
razumljivo,prilikom odabira uzorka trudimo se da nam on omogui nepristrasnu i to je mogue
taniju procenu parametara (pravih vrednosti). Po unapred usvojenom dogovoru (konvenciji)
parametre oznaavamo grkim slovima () a mere latininim slovima (M, SD).

I.

MERE CENTRALNE TENDENCIJE

Numeriki opis podataka obavezno podrazumeva i navoenje neke mere centralne


tendencije. Ukoliko u svakodnevnom ivotu elimo da opiemo neku pojavu mi se veoma esto
pozivamo na neki broj koji opisuje neki proseni intenzitet te pojave. Kada posle posete nekoj
stranoj zemlji elimo da nae sagovornike ubedimo u to kako se u toj zemlji dobro ivi mi kao
lako prihvatljiv argument navodimo da je u toj zemlji prosena plata npr. 800 evra tj. dosta via
nego to je prosena plata u naoj zemlji. Isto tako, kada se raspitujemo za klimu u nekoj
dalekoj i nepoznatoj zemlji podaci o prosenoj letnjoj i zimskoj temperaturi nam pomau da
shvatimo ta nas oekuje na toj destinaciji. Uspenu karijeru naeg Vlade Divca u amerikoj NBA
ilustrujemo podatkom da je on odigravi 1134 utakmice u proseku davao 11.8 koeva po
utakmici i da je proseno imao 8.2 uhvaene lopte i 3.1 dodavanja po utakmici. Oni koji poznaju
koarku su svakako zadivljeni tim brojevima. Naravno, svakome je jasno da je na Vlade na
nekim utakmicama bio uspeniji a na nekim manje uspean ali da ti brojevi dobro opisuju
njegovo viegodinje igranje u najprestinijoj koarkakoj ligi na svetu. Do njih smo doli tako
to smo ukupan broj koeva, uhvaenih lopti i dodavanja podelili sa brojem utakmica koje je
Divac odigrao. Na taj nain, dobili smo 3 aritmetike sredine (za svaku kategoriju po jednu). Sa
samo 3 broja opisali smo ono to se deavalo tokom 16 godina na preko hiljadu utakmica.
Aritmetika sredina
Aritmetika sredina (engleski mean) je intuitivna i lako razumljiva mera centralne
tendencije. Sa njom se sreemo svakodnenvno kada izraunavamo prosenu ocenu tokom
studija, prosenu cenu kilograma paradjaza na razliitim gradskim pijacama, prosean broj
posetilaca Narodnog pozorita i sl. Svako od nas ima neko iskustvo sa tom merom i zbog toga
polazimo od nje u naoj nameri da se upoznamo sa osnovim elementima deskriptivne statistike.
Svako od nas je bar jednom bio u prilici da izrauna aritmetiku sredinu pa vam se verovatno
ini da o aritmetikoj sredini znate sve i da itajui ovu knjigu neete saznati nita novo o ovoj
njaee korienoj meri centralne tendencije. Ipak, postoje 3 veoma vane osobine aritmetike
sredine o kojima do sada verovatno niste razmiljli i koje e nam posluiti kao uzor kada
budemo ocenjivali ostale mere koje koristimo u opisu podataka.
1. Aritmetika sredina je uvek samo jedna. Za svaki niz mera postoji samo jedna
aritmetika sredina. To je veoma zgodna osobina za neku meru. Kao to ete uskoro
videti, ona nije zajednika svim merama centralne tendencije.
2. Aritmetika sredina poiva na svim prikupljenim podacima. Ko to znate, pri
izraunavanju aritmetike sredine uzimamo u obzir sve pojedinane sluajeve, svaku
utakmicu na kojoj je igrao Vlade Divac, ocenu sa svakog ispita koji ste polagali.
Aritmetika sredina zavisi od rezultata svakog naeg ispitanika. Kao to ete uskoro

videti, ova lepa osobina nije zajednika svim merama centralne tendencija ali ni svim
merama varjabilnosti
3. Aritmetika sredina je izraena u mernim jedinicama varijable koju merimo. Ukoliko
izraunavamo aritmetiku sredinu visine ona e biti izraena u centimetrima, ukoliko
izraunavamo aritmetiku sredinu teine ona e biti izraena u kilogramima itd. Kao to
ete uskoro videti, nisu sve mere centralne tendencije i sve mere varijabilnosti izraene
u jednicama varijable koje merimo.
Te lepe osobine aritmetike sredine e nam posluiti kao uzor na osnovu koga emo
procenjivati i ostale mere deskriptivne statistike, bez obzira da li se radi o merama centralne
tendencije ili se radi o merama varijabilnosti.

Aritmetika sredina ima i jedni ozbiljnu manu: veoma je osetljiva na ekstremne vrednosti ili trke
tj. na vrednosti koje jasno odudaraju od ostalih vrednosti u nekom nizu mera. Samo jedna takva
vrednost, samo jedan pogreno unet podatak ili samo jedan ispitanik koji po svojim osnovnim
osobinama ne pripada ostalim lanovima naeg uzorka moe da bitno utie na vrednost
aritmetike sredine. Taj problem osetljivost na trke- razmatraemo i kada uskoro budemo
govorili o standardnoj devijaciji i o Pirsonovom indeksu korelacije.

Kako se rauna aritmetika sredina


Kao to smo ve kazali i kao to svi dobro znamo aritmetika sredina se rauna tako to
saberemo pojedinane vrednosti varijable koju merimo pa taj zbir podelimo sa brojem
posmatranja odnosno ispitanika. Tu operaciju moemo lako da opiemo sledeom formulom:

Formula 4.1. Aritmetika sredina populacije () je kolinik zbira (svih pojedinanih (xi) posmatranja i broja tih
posmatranja (N).

Primera radi, pretpostavimo da se populacija koja prouavamo sastoji od samo 9 sluajeva koji
su opisani brojevima:
46 64 54 67 77 68 62 56 38
Aritmetika sredina populacije je onda

532
59.11
9

Ukoliko, u skladu sa onim to smo do sada ve rekli o populacijama i uzorcima, zbog


finansijskih i vremenskih ogranienja nismo u stanju da prouavamo tako veliku populaciju
biemo primorani da njenu aritmetiku sredinu procenimo na osnovu aritmetike sredine
uzorka. U naem primeru kazaemo da smo do aritmetike sredine uzorka M doli tako to smo
svaki od 9 brojeva nae populacije upisali na poseban papiri, sve papirie ubacili u eir, dobro
ih izmeali i da smo (u skladu sa prethodno donesenom odlukom) odluili da populacijski
parametar procenimo na osnovu uzorka koji obuhvata samo 4 sluaja. Tako bismo npr. mogli
da iz eira izvuemo 4 broja
38 62 67 64
Ta etiri broja jesu na sluajni reprezentativni uzorak na osnovu koga emo napraviti
procenu aritmetike sredine popilacije. Kaemo sluajni jer smo odabir ta etiri broja u
potpunosti prepustili sluaju; meajui papirie u eiru trudili smo se da iskljuimo bilo kakav
sistematski uticaj na izvlaenje. Kaemo reprezentativni jer ovaj uzorak
reprezentuje/predstavlja nama obino nedostupnu populaciju; govori u njeno ime. Aritmetiku
sredinu uzorka izraunaemo po formuli

Formula 4.2. Aritmetika sredina uzorka () je kolinik zbira (svih pojedinanih (xi)
posmatranja i broja tih posmatranja (n).
Lako ete uoiti slinost izmeu Formule 4.1. i Formule 4.2. Aritmetika sredina
populacije i aritmetika sredina uzorka raunaju se na isti nain. Jedina razlika izmeu dve
formule je u notaciji. Kao to smo ve kazali populacijske parametre oznaavamo grkim
slovima a uzorake procene tih parametara latininim simbolima. Razlika izmeu dve formule
je i u tome to broj posmatranja/ispitanika u populaciji oznaavamo velikim latininim slovom
N a broj ispitanika u uzorku malim latininim slovom n.
Aritmetika sredina populacije je parametar a aritmetika sredina uzorka M je mera,
najbolja procena vrednosti parametra kojom raspolaemo. Aritmetika sredinu uzorka
oznaava se i kao AS i kao . Engleski naziv za aritmetiku sredinu je mean.

Sledei Formulu 2 za izraunavanje aritemetike sredine uzorka dobijamo vrednost

231
57.50
4

Posmatrajui ishod raunske operacije kojom smo izraunali i M lako uviamo da


nismo dobili isti rezultat odnosno da naa procene parametra ne odgovara njegovoj stvarnoj
vrednosti. Da stvar bude jo gora, veoma retko emo biti u prilici da znamo istinsku vrednost
parametra i samim tim da znamo koliko naa procena te vrednosti odstupa od parametra.
Naalost, u daljem bavljenju statistikom moraemo da se pomirimo sa takvim stanjem stvari.
Bez obzira koliko se trudili da naa mera bude nepristrasna procena parametra, u praksi nikada
neemo znati koliko ona odstupa od stvarne vrednosti parametra. Aritmetika sredina je oekivana
vrednost skora koji pripadnici neke populacije postiu na nekoj varijabli. Ukoliko npr. znamo da
prosena visina svih mladia iz Novog Sada 175 cm, najmanje emo pogreiti ako oekujemo da e
prvi mladi koji e proi ispred ulaza u na fakultet biti visok 175 cm.

Vano je da iz ovog, naoko veoma prostog, primera uoite jo jednu stvar. Odluili smo
se da stanje u populaciji od 9 ispitanika procenimo na osnovu uzorka u koji e ui 4 posmatranja
i dobili smo vrednost M = 57.50. Oigledno je da bi u nekom ponovljenom merenju u na
uzorak od 4 posmatranja najverovatnije ule neke druge vrednosti i da samim tim i aritmetika
sredina uzorka vie ne bi bila ista, naa porcena parametra ne bi bila ista. Sasvim je mogue da
u na sluajni uzorak uu 4 najmanja broja iz te mini populacije ili da pak 4 najvea broja budu
izvuena iz eira. Oigledno je da e svaki od mnogo razliitih uzoraka koji se mogu izvui iz
populacije dati drugaiju vrednost M, drugaiju procenu . Mi se ovde neemo previe dugo
baviti izraunavnjem mogueg broja razliitih uzoraka veliine n = 4 iz populacije veliine N = 9.

Za znatieljne: koliko je mogue izvui razliitih uzoraka veliine n = 4 iz populacije N = 9?


Odgovor na ovo pitanje dobiemo ako reimo jednainu k

N!
126
n!*(N n)!

Faktorijal broja 9 (N!)= 362880, faktorijal broja 4 (n!) = 24 a faktorijal broja 5 (N-n)! = 120.
Po istoj formuli postoji:
210 razliitih uzoraka veliine n = 4 koji se mogu izvui iz populacije N = 10
495 razliitih uzoraka veliine n = 4 koji se mogu izvui iz populacije N = 12
1001 razliit uzorak veliine n = 4 koji se mogu izvui iz populacije N = 14

Za nas je vanije da uoimo da je u svakoj realnoj situaciji kada se N meri stotinama


hiljada (npr. svi mladi koji ive u naoj zemlji) ili milionima ljudi (npr. svi graani Srbije sa
pravom glasa) a n iznosi 2 ili 3 hiljade ispitanika (broj ispitanika na koje se oslanjaju vodee
istraivake agencije kada pokuavaju da predvide ishod republikih izbora) broj razliitih
uzoraka koji se mogu izvui iz neke populacije praktino beskonaan. Primera radi naveemo
podatak da je broj razliitih kombinacija (uzoraka od 7 iz populacije od 39) u igri Loto negde
preko 14 miliona. Broj razliitih uzoraka veliine 2 hiljade iz populacije od 4.5 miliona je svakako
viestruko vei.
Iz beskonano mnogo uzoraka koje smo izvukli iz neke populacije dobiemo beskonani broj
meusobno razliitih procena aritmetike sredine te populacije. Bez obzira to znamo da bi neki
drugi uzorak dao drugaiju procenu parametra u realnim ogranienjima svakog istraivanja mi se
obino oslanjamo samo na jednu procenu parametra .

Jo jedna jedinstvena odlika aritmetike sredine: u univarijatnoj distribuciji (distribuciji jedne


varijable) suma kvadriranih odstupanja ostalih brojeva od aritmetike sredine je uvek manja od
sume kvadriranih odstupanja tih brojeva od bilo kog drugog broja iz te distribucije.

Medijana
Osim aritmetike sredine, kao mera centralne tendencije veoma esto se koristi i
medijana. Po definiciji, medijana je ona brojana vrednost koja neki niz brojeva (uzorak ili
populaciju) deli na 2 jednaka dela. Budui da se pola brojeva nalazi ispod a pola brojeva iznad
vrednosti medijane, medijana se naziva i sredinja ili centralna vrednost. Do vrednosti medijane
dolazimo tako to neki niz skorova poreamo po veliini od najmanjeg ka najveem i potom
pronaemo vrednost koja taj niz deli na dva jednaka dela, na dve polovine. U naem primeru
niza od 9 brojeva
38 46 54 56 62 64 67 68 77
medijana je broj 62 jer je taj broj istovremeno vii od 4 broja sa njegove leve i nii od 4 broja sa
njegove desne strane. Ukoliko bi trebalo da izraunamo medijanu nekog niza koji sainjava
paran broj posmatranja kao to je npr. niz
38 46 54 56 62 64 67 68 77 77
medijana bi se nalazila tano u sredini izmeu brojeva 62 i 64 i imala vrednost 63.

Medijanu oznaavamo sa Mdn. Engleski naziv za medijanu je median.

Veoma esto medijana se saoptava uporedo sa vrednou aritmetike sredine. To je


zbog toga to medijana, za razliku od aritmetike sredine, nije osteljiva na ekstremne vrednosti
na trke. Ukoliko bi neko napravio greku unosei podatke i kao najviu vrednost iz nae
populacije od 9 brojeva umesto 77 upisao 777 dolo bi do drastine promene aritmetike
sredine. U tom sluaju aritmetika sredina vie ne bi bila = 59.11 ve bi bila = 136.89.
Vrednost medijane se ne bi promenila i ostala bi ista Mdn = 62.

Za razliku od aritmetike sredine, medijana nije osetljiva na ekstremne vrednosti. Kao i aritmetika
sredina, medijana je uvek samo jedna i izraena je u mernim jedinicama varijable koju merimo. Za
razliku od aritmetike sredine, medijana ne poiva na svim prikupljenimm podacima. Posao
medijane je da se parkira u sredinu brojanog niza i ona uopte ne brine o tome koji se skorovi
nalaze bilo sa njene leve bilo sa njene desne strane. Ukoliko bismo na originalni niz od 9 brojeva:
38 46 54 56 62 64 67 68 77
zamenili npr. nizom:
38 46 54 56 62 664 667 668 777
aritmetika sredina bi se drastino promenila ali bi medijana ostala ista, ne bi ni trepnula. Neka se
ceo svet promeni, medijani je samo jedna stvar vana: da bude u sredini.

Medijana je mera centralne tendencije koju koristimo kada opisujemo podatke koji
dolaze sa ordinalne skale budui da nema nikakvog smisla da izraunavamo aritmetiku sredinu
ukoliko nije zadovoljen uslov ekvidistantnosti merne skale. Tako npr. medijanom a ne
aritmetikom sredinom- bismo opisali progresivnu fazu neke bolesti za grupu pacijenta.

Mod
Mod je trea i, videemo, najnesavrenija mera centralne tendencije. Mod je vrednost
najuestalijeg (najfrekventnijeg) posmatranja. U nizu mera
12445

mod ima vrednost 4. Vrednost moda je najea, pa samim tim postoji i najvea verovatnoa
da e se nai u uzorku koji vuemo iz neke populacije. Mod nije frekvencija najeeg skora;
mod je vrednost najeeg skora.
Za razliku od aritmetike sredine, mod nije osetljiv na ekstremne vrednosti, ne poiva na svim
prikupljenim podacima i ne mora da bude samo jedan. U distribuciji

12445669
imamo dva moda (4 i 6) pa za takvu distribuciju kaemo da je bimodalna. Kada skupljamo
antropometrijske podatke (visina, teina) o mukarcima i enama, obino dobijamo podatke koji se
bimodalno distribuiraju. Mada su u psihologiji takve pojave veoma retke, u naelu, moemo se
sresti i sa polimodlanim distribucijama tj. sa distribucijama koje imaju vie od dva moda.

Mada je mod najgrublja mera centralne tendencije, mod (ali ne aritmetiku sredinu i
medijanu) moemo raunati i kada imamo podatke koji potiu sa nominalne skale. Dakle, mada
nema nikakvog smisla da raunamo aritmetiku sredinu i medijanu aribtrarno dodeljenih
brojeva koji samo obeleavaju neke pojave sasvim je u redu da saoptimo koja je od tih pojava
najuestalija, da saoptimo mod.
Aritmetika sredina, medijana i mod
Aritmetika sredina i medijana su najee koriene mere centralne tendencije.
Aritmetiku sredinu raunamo ukoliko podaci dolaze sa intervalne i racio skale, medijanu
moemo da raunamo i kod podataka koji dolaze sa ordinalne skale. Mod moemo da
raunamo i kada imamo posla sa nominalnim podacima. Kod simetrinih distribucija
aritmetika sredina i medijana se nalaze jedna blizu druge. Ukoliko je distribucija savreno
simetrina, aritmetika sredina i medijana imaju istu vrednost. Ukoliko je distribucija
unimodalna i savreno simetrina -kao to je to sluaj sa normalnom (Gausovom) distribucijom
onda aritmetika sredina, medijana i mod imaju istu vrednost (Slika 4.5). U pozitivno
zakrivljenoj distribuciji aritmetika sredina ima viu vrednost nego mod (Slika 4.6) a u negativno
zakrivljenoj distribuciji mod ima viu vrednost nego aritemtika sredina (Slika 4.7). Vrednost
medijane je u oba sluaja i kod negativno i kod pozitivno zakrivljene distribucije u sredini:
izmeu vrednosti moda i vrednosti medijane.

Slika 4. 5. U normalnoj/Gausovoj distribuciji, aritmetika sredina, medijana i mod imaju istu vrednost. Postoji
potpuna saglasnost sve tri mere centralne tendencije.

Slika 4. 6. U pozitivno zakrivljenoj distribuciji postoji srazmerno mali broj ekstremno visokih vrednosti koje guraju
aritmetiku sredinu udesno. Mod se, kao i uvek, nalazi na mestu iznad koga je vrh distribucije. Stoga je aritmetika
sredina vea od medijane a medijana je vea od moda.

Slika 4.7. U negativno zakrivljenoj distribuciji postoji mali broj ekstremno niskih vrednosti koje guraju aritmetiku
sredinu ulevo. Mod je krajnje desno jer se tamo nalazi vrh distribucije, na mesti najeeg skora. Medijana je - za
razliku od aritmetike sredine- neosetljiva na ekstremne vrednosti pa e zadrati svoje mesto izmeu moda i
aritmetike sredine. Stoga je mod je vei od medijane a medijana je vea od aritmetike sredine.

Od sve tri mere centralne tendencije jedino aritmetika sredina poiva na svim
prikupljenim podacima tj. koristi sve prikupljene informacije. Isto tako, aritmetika sredina je
jedina od tri mere centralne tendencije koju emo koristiti kada od deskriptivne statistike
budemo preli na statistiku zakljuivanja. Medijanu i mod koristimo iskljuivo u deskriptivne
svrhe, kada bez pretenzija da zakoraimo u statistiku zakljuivanja- saimamo podatke koji su
pred nama; koristimo ih prvenstveno za opis pozitivno ili negativno zakrivljenih distribucija.
Zakljuak o merama centralne tendencije
Mere centralne tendencije nam govore otome gde se u opsegu brojeva od minus do plus
beskonano nalaze nai podaci. Centralnu tendenciju nekog niza skorova opisujemo jednim
brojem, najee aritmetikom sredinom. U sluaju veoma zakrivljenih distribucija i onda kada
nam je cilj da samo opisujemo podatke a ne i da iskoraimo u statistiku zakljuivanja, kao mere
centralne tendencije koristimo medijanu i mod.

II.

MERE VARIJABILNOSTI

Opseg
Navoenje opsega (razlike izmeu najvieg i najnieg skora ) je intuitivno najblii i
najprostiji nain da saeto opiemo varijabilnost neke distribucije. U primeru nae populacije od
9 brojeva
38 46 54 56 62 64 67 68 77

opseg (engleski range) je razlika izmeu brojeva 77 38 i iznosi 39. Kada smo malo pre govorili o
distribucijama koristili smo opseg da bismo ukazali na to da se distribucije (osim po obliku i po
merama centralne tendencije) mogu razlikovati i po varijabilnosti. Opseg je veoma gruba mera
varijabilnosti budui da je potpuno neosetljiv na skorove koji se nalaze izmeu najvieg i
najnieg skora. Koristimo ga samo u deskriptivnoj statistici, uglavnom da bismo otkrili greke
koje se deavaju prilikom unosa podataka i/ili da bismo otkrili trke, skorove koji jasno
odudaraju od ostalih. Opseg uzorka esto ne daje dobru procenu opsega populacije budui da
se u uzorku najverovatnije nee nai ekstremnii skorovi koji se nalaze u populaciji. Daleko je
vea verovatnoa da se ekstremni populacijski skorovi nau u veim nego u manjim uzorcima.
Drugim reima, veliina ospega uzorka zavisi od veliine samog uzorka a to je dosta nepoeljna
okolnost u situaciji kada na osnovu poznavanja uzroka pokuavamo da procenimo stanje u
populaciji. Zbog toga, za razliku od varijanse (i standardne devijacije, vidi dole) opseg nije
mera varijabilnosti koju emo koristiti kada sa deskriptivne statistike budemo preli na
statistiku zakljuivanja.
Kvartilni opseg i kvartilna devijacija
Jedan, danas sve ree korieni, nain da opiemo varijabilnost neke distribucije jeste
preko kvartilnog opsega ili kvartilne devijacije. Do vrednosti ovih mera varijabilnosti dolazimo
tako to distribuciju podelimo na etiri koraka ili kvartila. To emo uraditi tako to emo prvo
izraunati medijanu koja za niz skorova (za ovaj primer upotrebiemo neto dui niz)
22 25 34 35 41 41 46 46 46 48 49 54 54 59 60
ima vrednost 46.
Potom emo odrediti levu i desnu medijanu tj. medijane leve i desne polovine skorova. U
naem sluaju bie to brojevi 35 i 54.
22 25 34 35 41 41 46 46 46 48 49 54 54 59 60
Broj 35 oznaava prvi kvartil (Q1) tj. medijanu skorova koji se nalaze ulevo od medijane ukupnog
niza; broj 54 oznaava trei kvartil (Q3) tj. medijanu skorova koji se nalaze udesno od medijane
ukupnog niza.

Interkvartilni opseg (engleski interquartile range) je razlika izmeu prvog i treeg kvartila
IQR = Q3 Q1
u naem primeru IQR = 54 -35 = 19
Kvartilna devijacija (engleski quartile deviation) je jednaka polovini interkvartilnog opsega

QD
U naem primeru QD

IQR
2

54 35
9.5
2

Standardna devijacija
Upravo smo videli da su dve do sada razmatrane mere varijabilnosti daleko od lepih
osobina aritmetike sredine koje smo nedavno istakli: ni opseg ni kvartilna devijacija ne koriste
sve prikupljene informacije, njihova vrednost ne poiva na svim prikupljenim podacima. Treba
nam dakle neka mera varijabilnosti koja bi ila ruku pod ruku sa aritmetikom sredinom. Mera
varijabilnosti koji bismo koristili uvek kada koristimo aritmetiku sredinu a to se odnosi upravo
na poeljne istraivake situacije kada analiziramo podatke koji potiu sa intervalne ili racio
skale.
Na prvi pogled ini se da nije teko doi do takve mere varijabilnosti. Mogli bismo
jednostavno da izraunamo proseno odstupanje od aritmetike sredine. Zdrav razum nam
govori da to je varijabilnost nekog niza skorova vea, bie vea i odstupanja pojedinanih
skorova od njihove aritmetike sredine. I obrnuto: to je varijabilnost nekog niza skorova manja,
biie manja i odstupanja pojedinanih skorova od njihove aritmetike sredine. Ukoliko
izraunamo njihovo proseno odstupanje od aritmetike sredine to bi moglo da nam da dobru
sliku o varijabilnosti tog niza skorova.
[ Uskoro emo videti da je to (mada) intuitivno ujedno i loe reenje.]
Hajde da vidimo kuda e nas odvesti ovaj pristup, da izraunamo proseno odstupanje
od aritmetike sredine. Uradiemo to sluei se formulom

(x

N
Formula 4.3. Proseno linearno odstupanje od aritmetike sredine. Iako intuitivan, ovaj pristup ne vodi nikuda.

gde je oznaka za sumu, xi oznaka za svaki pojedinani skor, oznaka za aritmetiku sredinu
populacije a N oznaka za broj posmatranja odnosno oznaka za broj pripadnika te populacije. U
naem primeru populacije od 9 posmatranja i = 59.11

(38 ) (46 ) (54 ) (56 ) (62 ) (64 ) (67 ) (68 ) (77 )


9

(22.11) (13.11) (5.11) (3.11) 2.89 4.89 7.89 8.89 17.89


9

0
0
9

Ishod ovog rauna je, sa intuitivnog stanovita, neoekivan jer proizilazi da je


varijabilnost unutar nae populacije jednaka nuli, odnosno da unutar nae populacije nema
nikakve varijabilnosti. Taj zakljuak je oigledno pogrean jer se svaki od 9 skorova razlikuje od
svih ostalih skorova i svaki skor se razlikuje od njihove zajednike aritmetike sredine. Dakle,
varijabilnost postoji ali mi nismo uspeli da joj pristupimo na pravi nain. Izvor naeg problema
je u tome to se iznad razlomake crte (u brojiocu) pojavljuju negativni i pozitivni brojevi zbog
toga to su neki skorovi manji a neki vei od zajednike aritmetike sredine. U sledeem koraku
otkrivamo da se ti negativni i pozitivni brojevi potiru i da je njihov konani zbir jednak nuli.
Ukoliko nulu podelimo sa brojem posmatranja (N = 9) ili sa bilo kojim drugim brojem, krajnji
rezultat e uvek biti nula. Do tog ishoda doi emo uvek, bez obzira na to koliko skorova ini
nau populaciju, bez obzira na njihovu brojanu vrednost i bez obzira na vrednost aritmetike
sredine.
Jedna vana osobina aritmetike sredine o kojoj do sada nismo govorili jeste da je suma odstupanja
(devijacija) pojedinanih skorova od aritmetike sredine uvek jednaka nuli. To je ujedno i sutina
aritmetike sredine. Aritmetika sredina je teite niza skorova. Zbir linearnih odstupanja od
aritmetike sredine uvek e biti nula, pa e i njihov prosek biti uvek nula. Ukoliko ne bismo
kvadrirali odstupanja od aritmetike sredine indeks varijabilnosti bi bio nula za svaki niz brojeva i
samim tim bio bi potpuno beskorisan. Isto tako, suma kvadriranih odstupanja od aritmetike
sredine e uvek biti manja od sume kvadriranih odstupanja od bilo koje druge vrednosti. Na ovo
emo se vratiti u Poglavlju 6 kada budemo govorili o linearnom odnosu izmeu dve varijable.

Dakle, moemo da zakljuimo da nas raunanje prosenog odstupanja (prosene


devijacije) od aritmetike sredine vodi u orsokak zbog toga to se negativni i pozitivni brojevi
koji opisuju ta odstupanja meusobno potiru. Dobar nain da reim problem jeste da umesto
prosenog odstupanja od aritmetike sredine izraunamo proseno kvadrirano odstupanje od
aritmetike sredine. Jo u osnovnoj koli smo nauili da je svako a2 pozitivan broj (jer plus puta

plus daje plus, a minus put aminus takoe daje plus). Raunajui proseno kvadrirano
odstupanje oslobodili smo se opasnosti da zbir mera odstupanja bude nula. Takva odluka je
sasvim u redu i zbog toga to negativno odstupanje nekog skora od aritmetike sredine samo
po sebi ne znai nita loe, nema nikakvu negativnu konotaciju. Ukoliko npr. raunamo broj
neopravdanih izostanaka uenika iz nekog razreda, skorovi koji su manji od aritmetike sredine
(i samim tim imaju negativne devijacije od aritmetike sredine) govore upravo neto dobro i
pozitivno.
Hajde, da vidimo kuda e nas odvesti raunanje prosenog kvadrirarnog odstupanja od
aritmetike sredine. Krenuemo od formule

(x

N
Formula 4.4. Proseno kvadrirano odstupanje od aritmetike sredine. Pravi nain da opiemo varijabilnost nekog
niza brojeva

(38 ) 2 (46 ) 2 (54 ) 2 (56 ) 2 (62 ) 2 (64 ) 2 (67 ) 2 (68 ) 2 (77 ) 2


9

=127.43
Na taj nain dobili smo proseno kvadrirano odstupanje od aritmetike sredine, broj koji e
uvek biti 0 (u sluaju da su svi skorovi jednaki aritmetikoj sredini) ili vei od nule (u svim
ostalim sluajevima).
Proseno kvadrirano odstupanje od aritmetike sredine zovemo varijansa i oznaavamo sa
V ili sa 2.
V=

(x )
=

Kao to vidimo, formula za izraunavanje populacijske varijanse sastoji se iz brojioca u kome


se nalazi suma kvadriranih odstupanja (ili kako se skraeno kae suma kvadrata, na
engleskom sum of squares, skraeno SS) i imenioca u kome se nalazi broj skorova (N). Zbog
injenice da je varijansa prosek kvadriranih odstupanja od aritmetike sredine na
engleskom se za varijansu veoma esto koristi i izraz mean square koji se na na jezik
prevodi kao srednji kvadrat. Prema tome, gornju formulu moemo da dopunimo i da
napiemo kao
V=

(x )
=
i

SS
= srednji kvadrat
N

Izraunavanjem varijanse dobili smo meru varijabilnosti koja ima neke ali ne i sve dobre
osobine koje ima aritmetika sredina. Varijansa jeste jedna (iz istih podataka moe se izraunati
samo jedna vrednost varijanse) i poiva na svim prikupljenim podacima. Ipak, za razliku od
aritmetike sredine varijansa nije izraena u mernim jednicama varijable koju merimo.
Aritmetika sredina visine je izraena u centimentrima, aritmetika sredina teine je izraena u
kilogramima, aritmetika sredina inteligencije je izraena u IQ jedinicama. Ali izraunavajui
varijansu mi smo kvadrirali odstupanja svakog pojedinanog skora od aritmetike sredine. Ta
operacija je matematiki sasvim opravdana i, videli smo, krajnje poeljna. Ipak, ne umemo da
odgovorimo na pitanje ta je to kilogram na kvadrat , kakve veze imaju kvadratni centrimetri sa
visinom i ta je to IQ2. Zbog toga kaemo da je varijansa izraena kao nedimenzionalni broj. Da
bismo -u naem traganju za merom varijabilnosti koja e ii ruku pod ruku sa aritmetikom
sredinom- dobili meru varijabilnosti koja je izraena u mernim jednicima varijable koju merimo
pribei emo starom matematikom triku: izraunaemo kvadratni koren varijanse i nazvati ga
standardna devijacija (engleski standard deviation).

= 2
Formula 4.5. Standardna devijacija populacije je kvadratni koren populacijske varijanse

Za razliku od varijanse koje je nedimenzionalni broj standradna devijacija, kao i aritmetika


sredina je izraena u mernim jedinicama varijable koju merimo. Zapravo, standardna
devijacija poseduje sve tri lepe osobine koje poseduje i aritmetika sredina: ona je samo
jedna, poiva na svim prikupljenim informacijama i izraena je u mernim jednicama
varijable koju merimo. Standardna devijacija skorova koji opisuju visinu izraena je i
centimetrima, standardna devijacija skorova koji opisuju teinu izraena je u kilogramima,
standardna devijacija ineteligencije izraena je u IQ jedinicama.
Mada zbog jasno definisanog meusobnog odnosa varijansa i standardna devijacija u
deskriptivnoj statistici nose sa sobom istu koliinu informacija, treba uoiti da je varijansa
bogatiji (moemo da kaemo i stariji) pojam u odnosu na pojam standardne devijacije koji
je izveden iz pojma varijanse.

Kao to o aritmetikoj sredini moemo misliti kao o prosenom skoru tako o standardnoj
devijaciji moemo da mislimo kao o prosenoj varijabilnosti tj. kao o prosenom odstupanju
od aritmetike sredine.
Do standardne devijacije smo doli posle dve komplikacije. Prvo smo se oslobodili
negativnih brojeva u brojiocu tako to smo kvadrirali odstupanja od aritmetike sredine. Na taj
nain izraunali smo varijansu populacije. Potom smo izraunali kvadratni koren te varijanse i
dobili standardnu devijaciju, indeks varijabilnosti koji je izraen u mernim jedinicama
originalnog merenja.

Varijansu uzorka (SD2) raunamo na slian nain kao i varijansu populacije s time da u imeniocu
umesto vrednosti n imamo vrednost n-1.

SD

(X

M x )2
n 1
i

Formula 4.6. Varijansa uzorka. oznaka za sumu, xi =oznaka za svaki pojedinani skor, x = oznaka za
aritmetiku sredinu uzorka, n = oznaka za broj posmatranja odnosno oznaka za veliinu uzorka, n-1 = oznaka za
broj stepeni slobode

Broj n-1 nazivamo brojem stepeni slobode (engleski degrees of freedom ili skraeno df).
U ovom trenutku ne moemo da objasnimo ovaj pojam ali emo se vratiti na njega u dogledno
vreme. Vano je da uoite da je po definiciji broj n-1 najsliniji broju n i da sa poveanjem naeg
uzorka posledice delenja brojioca (sume kvadrata) sa n ili sa n-1 postaju sve manje. Dakle, im
na uzorak premai neki realni okvir od n = 30 (retka su psiholoka istraivanja koja e biti
obavljena na manjem uzorku) postaje prilino svejedno da li brojilac delimo sa 30 (n) ili sa 29
(n-1).
Kao i kod populacije, standardna devijacija uzorka je kvadratni koren varijanse uzorka.

SD SD 2

Standardna devijacija je mera prosene udaljenosti od aritmetike sredine i treba je


koristiti samo onda kada raunamo aritmetiku sredinu, a to je onda kada se bavimo podacima
koji potiu sa intervalne i racio skale. Standardna devijacija je jednaka nuli kada ne postoji
nikakva varijabilnost skorova, kada svi skorovi imaju istu vrednost.

Standardna devijacija je, kao i aritmetika sredina, veoma osetljiva na trke .

Zakljuak o merama varijabilnosti


Varijabilnost ili podatak o tome koliko se skorovi meusobno razlikuju je, uz meru
centralne tendencije, veoma vaan atribut svakog niza skorova. U psiholokim istraivanjima
varijabilnost najee izraavamo jednim brojem koji se odnosi na varijansu ili na standardnu
devijaciju. to je vea varijansa (ili standardna devijacija) vea je i varijabilnost izmeu skorova.
Pojam varijabilnosti je veoma vaan za razumevanje gradiva koje je pred nama. Uostalom, sva
psiholoka istraivanja se bave ispitivanjem varijanse. Ukoliko se ljudi meusobno ne bi
razlikovali u odnosu na neku bitnu osobinu (visinu donjeg praga ulne osetljivosti, inteligenciju,
anksioznost, ekstroverziju, lokus kontrole itd.) na nauni interes za tu osobinu bio bi svakako
manji. Psiholoka istraivanja pokuavaju da rasvetle uzroke variranja bilo koje od posmatranih
osobina tako to e variranje jedne varijable (varijansu varijable Y) dovesti u vezu sa variranjem
druge varijable (varijansom varijable X). Ukoliko npr. otkrijemo da su individualne razlike u
kolskom uspehu (varijansa varijable Y) povezane sa individualnim razlikama u vrednoi
(varijansa varijable X) onda moemo rei da smo varijansom varijable X bar donekle objasnili
varijansu varijable Y.

ta treba da znamo?
- Cilj deskriptivne (ili opisne) statistike je da numeriki i saeto prikazuje neke podatke.
Deskriptivna statistika se bavi opisom onoga to znamo.
- Najekonominiji nain da opiemo neku distribuciju jeste da definiemo njen oblik i da
navedemo neku meru njene centralne tendencije i neku meru njene varijabilnosti. Distribucije
se meusobno razlikuju po obliku, merama centralne tendencije i merama varijabilnosti.
- Horizonatlno odstupanje (zakrivljenost) od normalne distribucije nazivamo skjunes. Vertikalno
odstupanje od normalne distribucije zovemo kurtozis i ono ukazuje na to da li je gomilanje
skorova ispod take najvie uestalosti vie ili nie nego kod normalne distribucije.
-Aritmetika sredina je uvek samo jedna, poiva na svim prikupljenim podacima i izraena je u
mernim jedinicama varijable koju merimo. Osteljiva je na ekstremne vrednosti.
-Medijana je sredinja vrednost u distribuci neke varijable: vrednost koja je via od 50%
sluajeva i nia od 50% sluajeva. U distribuciji moe da bude samo jedna medijana; medijana je
izraena u mernim jedinicama varijable koju merimo ali ne poiva na svim prikupljenim
podacima. Medijana je neosetljiva na ekstremne vrednosti.
-Mod je vrednost najeeg skora, neosetljiv na ekstremne vrednosti. Distribucija moe da ima
vie od jednog moda. Distribucije sa dva moda nazivamo bimodalne, a one sa vie modova
polimodalne.
-Opseg je najjednostavnija mera varijabilnosti. Opseg je razmak izmeu najvieg i najnieg
skora.
- Interkvartilni opseg je razlika izmeu prvog i treeg kvartila. Kvartilna devijacija je jednaka
polovini interkvartilnog opsega.
-Varijansa je proseno kvadrirano odstupanje od aritmetike sredine. Varijansa je uvek
pozitivan broj: nula ili vea od nule. Za neki niz mera varijansa je samo jedna, poiva na svim
prikupljenim podacima ali nije izraena u mernim jedinicama varijable koju merimo. Varijansa je
nedimenzionalni broj.
-Standardna devijacija je kvadratni koren varijanse. Za neki niz mera standardna devijacija je
samo jedna, poiva na svim prikupljenim podacima i izraena je u mernim jedinicama varijable
koju merimo. Koristimo je uvek kada koristimo i aritmetiku sredinu, onda kada opisujemo
podatke sa intervalne ili racio skale. Standardna devijacija je uvek pozitivan broj: nula ili vea od
nule.

You might also like