Professional Documents
Culture Documents
Deskriptivna statistika
U uvodnom poglavlju kada smo odgovarali na pitanje: ta je statistika i emu ona slui?
kazali smo da postoje samo dva naina na koji koristimo statistiku. Jedan je da kvantitativno
opiemo neku pojavu a drugi je da statistikom analizom na osnovu manifestacije neke pojave
(uzorka) doemo do zakljuaka o samoj pojavi (populaciji). Dakle, moemo rei da postoje dve
vrste statistike koje se meusobno dopunjuju.
a) deskriptivna (ili opisna) statistika ija je cilj da sistematski, numeriki i saeto prikae
neke podatke; i
b) statistiku zakljuivanja iji je cilj da nam omogui uoptavanje (generalizaciju) od uzorka
na populaciju.
Sasvim prirodno, da biste do potpuno i do kraja shvatili razliku izmeu deskriptivne statistike i
statistike zakljuivanja bie potrebno da se upoznate i sa jednom i sa drugom tj. da proitate
celu ovu knjigu. Na ovom mestu dovoljno je da kaemo da se deskriptivna statistika bavi
kvantitativnim opisivanjem podataka kojim raspolaemo (najee su to podaci iz uzorka jer
retko ili gotovo nikad nismo u prilici da opisujemo cele populacije) dok statistika zakljuivanja
nastoji da uini korak dalje: da na osnovu raspoloivih podataka kae i neto vie.
Deskriptivna statistika se bavi opisom onoga to znamo. Statistika zakljuivanja ima mnogo tei
zadatak da na osnovu onoga to znamo kaemo neto o onome to ne znamo.
Ukoliko npr. izmerimo visinu svih deaka i devojica u nekom estom razredu osnovne
kole, nee nam biti teko da izraunamo prosenu visinu celog razreda, prosenu visinu
deaka i prosenu visinu devojica. To je, izmeu ostalog, posao deskriptivne statistike. Ukoliko
pak na osnovu tih podataka elimo da zakljuimo da razlika u visini izmeu deaka i devojica
(devojice su na tom uzrastu obino neto vie) nije sluajna ve je posledica delovanja nekog
sistematskog inioca (ranijeg poetka puberteta) i da najverovatnije ne vai samo za na uzorak
ve i za sve deake i devojice tog uzrasta onda prelazimo u domen statistike zakljuivanja. Ve
na ovom krajnje jednostavnom primeru uviate koliko je posao statistike zakljuivanja riziniji,
koliko je veliki iskorak od deskriptivne statistike do statistike zakljuivanja. Kako je uopte
mogue, ak i uz sve mogue ograde, tvrditi neto o stvarima koje ne poznajemo, koje nismo
izmerili? Moraete da saekate odgovor na ovo pitanje a on e vas, obeavam, uvesti u samu
sutinu naunog pristupa svetu. Ukoliko vam ovo obeanje u ovom trenutku izgleda moda
isuvie smelo upitajte se u emu se zapravo sastoji posao naunika. On ili ona neprekidno
pokuavaju da odgonetnu ovaj bskonano veliki i sloeni svet na osnovu veoma ograniene
koliine podataka kojima raspolau. Oni neprekidno ele da u svojim podacima pronau
pravilnosti koje ne opisuju samo te podatke ve se odnose i na injenice izvan i preko svojih
podataka. To, verujte, ne bi bilo mogue bez statistike zakljuivanja.
ta je to parametrijska a ta neprametrijska statistika?
Nezavisno od podele na deskriptivnu i statistiku zakljuivanja, postoji i podela po kojoj se statistika
se deli na
a) parametrijsku; i
b) neparametrijsku statistiku.
Iako emo se ve u ovom poglavlju pozivati na obe ove podele, pravi smisao druge podele (po kojoj
se statistika deli na parametrijsku i neprametrijsku) postae vam jasan tek kada budete proitali
Poglavlje 9 ove knjige.
2008.
bruto
zarade
2009.
neto
zarade
bruto
zarade
neto
zarade
bruto
zarade
2010.
neto
zarade
Republika Srbija
45674
32746
44147
31733
47450
34142
Centralna Srbija
45582
32688
44424
31930
47806
34422
GRAD BEOGRAD
56011
40089
55627
39862
59174
42489
MAVANSKI OKRUG
38514
27617
36142
25998
40154
28884
PODUNAVSKI OKRUG
47458
34117
42455
30653
47086
34082
UMADIJSKI OKRUG
39421
28324
38942
28044
41764
30119
POMORAVSKI OKRUG
38190
27368
36629
26605
38713
28367
BORSKI OKRUG
41569
29905
40757
29340
45628
32809
ZAJEARSKI OKRUG
34760
24925
34564
24822
38205
27507
ZALTIBORSKI OKRUG
39190
28460
36997
26848
40148
29165
MORAVIKI OKRUG
36907
26577
36808
26549
39830
28727
RASINSKI OKRUG
35863
26150
34736
25288
37086
26918
NIAVSKI OKRUG
38317
27337
36522
26269
39488
28513
TOPLIKI OKRUG
31234
22398
29510
21217
32669
23689
PINJSKI OKRUG
33556
24009
34102
24495
36302
26118
Vojvodina
45924
32906
43403
31203
46496
33392
SEVERNO-BAKI OKRUG
SREDNJE-BANATSKI
OKRUG
SEVERNO-BANATSKI
OKRUG
41947
30188
40874
29318
43102
30998
43209
30935
41824
30017
45310
32358
42385
30392
40707
29270
42348
30467
JUNO-BANATSKI OKRUG
47734
34173
44194
32125
49280
35212
ZAPADNO-BAKI OKRUG
43092
30974
40834
29383
42103
30291
JUNO-BAKI OKRUG
49290
35278
46774
33513
50524
36327
SREMSKI OKRUG
43611
31216
39095
28123
40853
29442
Tabela 4.1. Prosene zarade po okruzima , godinji prosek u dinarima za 2008 -2010.
Davno je reeno da slika govori vie od hiljadu rei. U naoj prii o deskriptivnoj statistici
to bi jednostavno znailo da je grafiki (slikovni) nain esto mnogo efikasniji u saetom
prikazivanju podataka od tabelarnog. Odista, dok tabele esto mogu da budu veoma
komplikovane i da zahtevaju prilian stepen koncentracije, grafikoni su uvek laki i jednostavni za
razumevanje. Postoji vie naina na koje moemo da grafiki predstavimo rezultate. Jedan,
moda i najee korien nain jeste upotrebom histograma (stubia).
9
7,74
6,56
6,26
5,45
5,91
3,86
3
2
1
0
2006
2007
2008
2009
2010
2011
Slika 4.1. Rast obima maloprodaje u Srbiji u milijardama evra za period 2006 2011. Izvor: magazin InStore, 2012.
Lako se moe uoiti da je taj promet, uprkos svetskoj ekonomskoj krizi koja je poela u jesen 2008. u stalnom
usponu i da se udvostruio u proteklih 6 godina.
Histogrami se mogu koristiti za prikazivanje bilo kojih podataka ali su naroito pogodni
za prikazivanje diskretnih varijabli ili odnosa diskretnih i kontinuiranih varijabli. Na apscisi (X osi)
Slike 4.1. su godine (diskretni, celi brojevi) dok se na ordinati (Y osi) nalazi maloprodajni promet
izraen u evrima (kontinuirana varijabla). Isti princip korien je i u Slici 4.2. koja prikazuje
promet u maloprodaji u pet ex-YU drava. Na apscisi se nalaze imena drava (nominalna,
diskretna varijabla) dok se na ordinati nalazi maloprodajni promet izraen u evrima
(kontinuirana varijabla).
9
8
7,74
7
5,67
4,72
5
4
2,81
3
2
0,86
1
0
Srbija
Hrvatska
Slovenija
Bosna i
Hercegovina
Crna Gora
Slika 4. 2. Obim maloprodaje u pet ex-YU drava u 2011. izraen u milijardama evra. Izvor: magazin InStore, 2012.
Uoavate da je maloprodajni promet najvei u najmnogoljudnijoj Srbiji a najmanji u Crnoj Gori koja ima najmanji
broj stanovnika.
Distribucije
U uvodnom poglavlju upoznali smo se sa pojmom varijabilnosti. Kazali smo da je
varijabilnost jedna od osnovnih zakonitosti ovog sveta i da se ljudi razlikuju po svim merenim
osobinama i da su sve pojave koje merimo varijabilne pa ih stoga u nauci i zovemo varijablama.
Nain na koji se varijable rasporeuju du kontinuuma naih ispitanika nazivamo distribucija
(raspored) neke varijable. U deskriptivnoj statistici mi nastojimo da opiemo distribuciju na
najekonominiji nain tako to emo opisati njen oblik i tako to emo navesti neku meru njene
centralne tendencije i neku meru njene varijabilnosti.
Distribucije se meusobno razlikuju po obliku, merama centralne tendencije i merama
varijabilnosti. Najjednostavniji numeriki opis neke distribucije sastoji se od navoenja mere
centralne tendencije i mere varijabilnosti.
Slika 4.3. e nam posluiti da detaljnije objasnimo mogue razlike izmeu distribucija. Najbolji
nain da mislite o nekoj distribuciji jeste da ispod krive koja je opisuje zamislite glavice
ispitanika iji skorovi obrazuju tu distribuciju. Tamo gde je kriva koja opisuje distribuciju najvia
nalazi se najvie ispitanika a tamo gde je kriva koja opisuje distribuciju najnia nalazi se
najmanje ispitanika. Na sve tri distribucije prikazane na Slici 4.3. najvie ispitanika u sredinjem
delu distribucije a najmanje na njenim krajevima. Oigledno je da su distribucije A i C istog
oblika a da je oblik distribucije B neto drugaiji. Isto tako, moemo rei i da se distribucije A i B
ne razlikuju po centralnoj tendenciji jer se najvei broj ispitanika u obe distribucije grupie oko
iste vrednosti. Nasuprot tome, centralna tendencija distribucije C pomerena je udesno, ka viim
vrednostima. S druge strane, varijabilnost (raspon od najnieg do najvieg skora) distribucije A i
C je jednaka dok je varijabilnost distribucije B neto manja. Moemo rei da je distribucija B ua
nego distribucije A i C jer je razmak izmeu najnieg skore te distribucije manji nego to je to
sluaj sa distribucijama A i C.
Slika 4. 3. Tri distribucije koje se meusobno razlikuju po obliku, centralnoj tendenciji i varijabilnosti
U psihologiji obino imamo posla sa varijablama koje se simetrino rasporeuju. Zbog toga su
na Slici 4.3. sve tri prikazane distribucije simetrine. Najee, distribucija psiholokih varijabli
ima zvonasti oblik kakav imaju distribucije A i C. Distribuciju takvog oblika zovemo normalna ili
Gausova distribucija u ast velikog nemakog matematiara iz 19. veka. Normalnom ili
Gausovom distribucijom emo se mnogo detaljnije baviti u Poglavlju 5. Na ovom mestu
dovoljno je da kaemo da nam, budui najea, ona slui kao standard za opisivanje drugih
distribucija koje horizonatlno ili vertikalno odstupaju od nje.
Horizonatlno odstupanje (zakrivljenost) od normalne distribucije nazivamo skjunes (od
engleskog skewness). Zavisno od smera odstupanja, postoje pozitivno (Slika 4.6.) i negativno
(Slika 4.7.) zakrivljene distribucije.
Vertikalno odstupanje od normalne distribucije zovemo kurtozis (engleski curtosis) i ono
ukazuje na to da li je gomilanje skorova ispod take najvie uestalosti vie ili nie nego kod
normalne distribucije. Budui da nam slui kao standard, za normalnu distribuciju kaemo da je
mezokurtina (tj. srednje visoka). Vie a ue distribucije su leptokurtine a nie a ire su
platokurtine (Slika 4.4).
Mere i parametri
Ve na samom poetku ove knjige istakli smo razliku izmeu uzoraka (podataka kojima
raspolaemo) i populacija (svih sluajeva koji nas zanimaju). Uzorci su dostupni i nee nam biti
naroito teko da ih opiemo merama centralne tendencije (kao to je npr. aritmetika sredina
uzorka) i merama varijabilnosti (kao to je npr. standardna devijacija uzorka). U tom svom znaenju,
re mera se odnosi na broj koji saima neke bitne osobine uzorka. S druge strane re parametar
oznaava broj koji saima neke bitne osobine populacije. Dok su nam mere lako dostupne i
poznate, parametri (pravo stanje stvari) nam uglavnom ostaju nedostupni i nepoznati zbog toga to
su populacije po pravilu ogromne a njihovo prouavanje skupo. Sve to znamo o populacijama i
parametrima znamo na osnovu prouavanju uzoraka. Zbog toga kaemo da su mere procene
populacijskih parametara do kojih dolazimo na osnovu prouavanja uzorka. Sasvim
razumljivo,prilikom odabira uzorka trudimo se da nam on omogui nepristrasnu i to je mogue
taniju procenu parametara (pravih vrednosti). Po unapred usvojenom dogovoru (konvenciji)
parametre oznaavamo grkim slovima () a mere latininim slovima (M, SD).
I.
videti, ova lepa osobina nije zajednika svim merama centralne tendencija ali ni svim
merama varjabilnosti
3. Aritmetika sredina je izraena u mernim jedinicama varijable koju merimo. Ukoliko
izraunavamo aritmetiku sredinu visine ona e biti izraena u centimetrima, ukoliko
izraunavamo aritmetiku sredinu teine ona e biti izraena u kilogramima itd. Kao to
ete uskoro videti, nisu sve mere centralne tendencije i sve mere varijabilnosti izraene
u jednicama varijable koje merimo.
Te lepe osobine aritmetike sredine e nam posluiti kao uzor na osnovu koga emo
procenjivati i ostale mere deskriptivne statistike, bez obzira da li se radi o merama centralne
tendencije ili se radi o merama varijabilnosti.
Aritmetika sredina ima i jedni ozbiljnu manu: veoma je osetljiva na ekstremne vrednosti ili trke
tj. na vrednosti koje jasno odudaraju od ostalih vrednosti u nekom nizu mera. Samo jedna takva
vrednost, samo jedan pogreno unet podatak ili samo jedan ispitanik koji po svojim osnovnim
osobinama ne pripada ostalim lanovima naeg uzorka moe da bitno utie na vrednost
aritmetike sredine. Taj problem osetljivost na trke- razmatraemo i kada uskoro budemo
govorili o standardnoj devijaciji i o Pirsonovom indeksu korelacije.
Formula 4.1. Aritmetika sredina populacije () je kolinik zbira (svih pojedinanih (xi) posmatranja i broja tih
posmatranja (N).
Primera radi, pretpostavimo da se populacija koja prouavamo sastoji od samo 9 sluajeva koji
su opisani brojevima:
46 64 54 67 77 68 62 56 38
Aritmetika sredina populacije je onda
532
59.11
9
Formula 4.2. Aritmetika sredina uzorka () je kolinik zbira (svih pojedinanih (xi)
posmatranja i broja tih posmatranja (n).
Lako ete uoiti slinost izmeu Formule 4.1. i Formule 4.2. Aritmetika sredina
populacije i aritmetika sredina uzorka raunaju se na isti nain. Jedina razlika izmeu dve
formule je u notaciji. Kao to smo ve kazali populacijske parametre oznaavamo grkim
slovima a uzorake procene tih parametara latininim simbolima. Razlika izmeu dve formule
je i u tome to broj posmatranja/ispitanika u populaciji oznaavamo velikim latininim slovom
N a broj ispitanika u uzorku malim latininim slovom n.
Aritmetika sredina populacije je parametar a aritmetika sredina uzorka M je mera,
najbolja procena vrednosti parametra kojom raspolaemo. Aritmetika sredinu uzorka
oznaava se i kao AS i kao . Engleski naziv za aritmetiku sredinu je mean.
231
57.50
4
Vano je da iz ovog, naoko veoma prostog, primera uoite jo jednu stvar. Odluili smo
se da stanje u populaciji od 9 ispitanika procenimo na osnovu uzorka u koji e ui 4 posmatranja
i dobili smo vrednost M = 57.50. Oigledno je da bi u nekom ponovljenom merenju u na
uzorak od 4 posmatranja najverovatnije ule neke druge vrednosti i da samim tim i aritmetika
sredina uzorka vie ne bi bila ista, naa porcena parametra ne bi bila ista. Sasvim je mogue da
u na sluajni uzorak uu 4 najmanja broja iz te mini populacije ili da pak 4 najvea broja budu
izvuena iz eira. Oigledno je da e svaki od mnogo razliitih uzoraka koji se mogu izvui iz
populacije dati drugaiju vrednost M, drugaiju procenu . Mi se ovde neemo previe dugo
baviti izraunavnjem mogueg broja razliitih uzoraka veliine n = 4 iz populacije veliine N = 9.
N!
126
n!*(N n)!
Faktorijal broja 9 (N!)= 362880, faktorijal broja 4 (n!) = 24 a faktorijal broja 5 (N-n)! = 120.
Po istoj formuli postoji:
210 razliitih uzoraka veliine n = 4 koji se mogu izvui iz populacije N = 10
495 razliitih uzoraka veliine n = 4 koji se mogu izvui iz populacije N = 12
1001 razliit uzorak veliine n = 4 koji se mogu izvui iz populacije N = 14
Medijana
Osim aritmetike sredine, kao mera centralne tendencije veoma esto se koristi i
medijana. Po definiciji, medijana je ona brojana vrednost koja neki niz brojeva (uzorak ili
populaciju) deli na 2 jednaka dela. Budui da se pola brojeva nalazi ispod a pola brojeva iznad
vrednosti medijane, medijana se naziva i sredinja ili centralna vrednost. Do vrednosti medijane
dolazimo tako to neki niz skorova poreamo po veliini od najmanjeg ka najveem i potom
pronaemo vrednost koja taj niz deli na dva jednaka dela, na dve polovine. U naem primeru
niza od 9 brojeva
38 46 54 56 62 64 67 68 77
medijana je broj 62 jer je taj broj istovremeno vii od 4 broja sa njegove leve i nii od 4 broja sa
njegove desne strane. Ukoliko bi trebalo da izraunamo medijanu nekog niza koji sainjava
paran broj posmatranja kao to je npr. niz
38 46 54 56 62 64 67 68 77 77
medijana bi se nalazila tano u sredini izmeu brojeva 62 i 64 i imala vrednost 63.
Za razliku od aritmetike sredine, medijana nije osetljiva na ekstremne vrednosti. Kao i aritmetika
sredina, medijana je uvek samo jedna i izraena je u mernim jedinicama varijable koju merimo. Za
razliku od aritmetike sredine, medijana ne poiva na svim prikupljenimm podacima. Posao
medijane je da se parkira u sredinu brojanog niza i ona uopte ne brine o tome koji se skorovi
nalaze bilo sa njene leve bilo sa njene desne strane. Ukoliko bismo na originalni niz od 9 brojeva:
38 46 54 56 62 64 67 68 77
zamenili npr. nizom:
38 46 54 56 62 664 667 668 777
aritmetika sredina bi se drastino promenila ali bi medijana ostala ista, ne bi ni trepnula. Neka se
ceo svet promeni, medijani je samo jedna stvar vana: da bude u sredini.
Medijana je mera centralne tendencije koju koristimo kada opisujemo podatke koji
dolaze sa ordinalne skale budui da nema nikakvog smisla da izraunavamo aritmetiku sredinu
ukoliko nije zadovoljen uslov ekvidistantnosti merne skale. Tako npr. medijanom a ne
aritmetikom sredinom- bismo opisali progresivnu fazu neke bolesti za grupu pacijenta.
Mod
Mod je trea i, videemo, najnesavrenija mera centralne tendencije. Mod je vrednost
najuestalijeg (najfrekventnijeg) posmatranja. U nizu mera
12445
mod ima vrednost 4. Vrednost moda je najea, pa samim tim postoji i najvea verovatnoa
da e se nai u uzorku koji vuemo iz neke populacije. Mod nije frekvencija najeeg skora;
mod je vrednost najeeg skora.
Za razliku od aritmetike sredine, mod nije osetljiv na ekstremne vrednosti, ne poiva na svim
prikupljenim podacima i ne mora da bude samo jedan. U distribuciji
12445669
imamo dva moda (4 i 6) pa za takvu distribuciju kaemo da je bimodalna. Kada skupljamo
antropometrijske podatke (visina, teina) o mukarcima i enama, obino dobijamo podatke koji se
bimodalno distribuiraju. Mada su u psihologiji takve pojave veoma retke, u naelu, moemo se
sresti i sa polimodlanim distribucijama tj. sa distribucijama koje imaju vie od dva moda.
Mada je mod najgrublja mera centralne tendencije, mod (ali ne aritmetiku sredinu i
medijanu) moemo raunati i kada imamo podatke koji potiu sa nominalne skale. Dakle, mada
nema nikakvog smisla da raunamo aritmetiku sredinu i medijanu aribtrarno dodeljenih
brojeva koji samo obeleavaju neke pojave sasvim je u redu da saoptimo koja je od tih pojava
najuestalija, da saoptimo mod.
Aritmetika sredina, medijana i mod
Aritmetika sredina i medijana su najee koriene mere centralne tendencije.
Aritmetiku sredinu raunamo ukoliko podaci dolaze sa intervalne i racio skale, medijanu
moemo da raunamo i kod podataka koji dolaze sa ordinalne skale. Mod moemo da
raunamo i kada imamo posla sa nominalnim podacima. Kod simetrinih distribucija
aritmetika sredina i medijana se nalaze jedna blizu druge. Ukoliko je distribucija savreno
simetrina, aritmetika sredina i medijana imaju istu vrednost. Ukoliko je distribucija
unimodalna i savreno simetrina -kao to je to sluaj sa normalnom (Gausovom) distribucijom
onda aritmetika sredina, medijana i mod imaju istu vrednost (Slika 4.5). U pozitivno
zakrivljenoj distribuciji aritmetika sredina ima viu vrednost nego mod (Slika 4.6) a u negativno
zakrivljenoj distribuciji mod ima viu vrednost nego aritemtika sredina (Slika 4.7). Vrednost
medijane je u oba sluaja i kod negativno i kod pozitivno zakrivljene distribucije u sredini:
izmeu vrednosti moda i vrednosti medijane.
Slika 4. 5. U normalnoj/Gausovoj distribuciji, aritmetika sredina, medijana i mod imaju istu vrednost. Postoji
potpuna saglasnost sve tri mere centralne tendencije.
Slika 4. 6. U pozitivno zakrivljenoj distribuciji postoji srazmerno mali broj ekstremno visokih vrednosti koje guraju
aritmetiku sredinu udesno. Mod se, kao i uvek, nalazi na mestu iznad koga je vrh distribucije. Stoga je aritmetika
sredina vea od medijane a medijana je vea od moda.
Slika 4.7. U negativno zakrivljenoj distribuciji postoji mali broj ekstremno niskih vrednosti koje guraju aritmetiku
sredinu ulevo. Mod je krajnje desno jer se tamo nalazi vrh distribucije, na mesti najeeg skora. Medijana je - za
razliku od aritmetike sredine- neosetljiva na ekstremne vrednosti pa e zadrati svoje mesto izmeu moda i
aritmetike sredine. Stoga je mod je vei od medijane a medijana je vea od aritmetike sredine.
Od sve tri mere centralne tendencije jedino aritmetika sredina poiva na svim
prikupljenim podacima tj. koristi sve prikupljene informacije. Isto tako, aritmetika sredina je
jedina od tri mere centralne tendencije koju emo koristiti kada od deskriptivne statistike
budemo preli na statistiku zakljuivanja. Medijanu i mod koristimo iskljuivo u deskriptivne
svrhe, kada bez pretenzija da zakoraimo u statistiku zakljuivanja- saimamo podatke koji su
pred nama; koristimo ih prvenstveno za opis pozitivno ili negativno zakrivljenih distribucija.
Zakljuak o merama centralne tendencije
Mere centralne tendencije nam govore otome gde se u opsegu brojeva od minus do plus
beskonano nalaze nai podaci. Centralnu tendenciju nekog niza skorova opisujemo jednim
brojem, najee aritmetikom sredinom. U sluaju veoma zakrivljenih distribucija i onda kada
nam je cilj da samo opisujemo podatke a ne i da iskoraimo u statistiku zakljuivanja, kao mere
centralne tendencije koristimo medijanu i mod.
II.
MERE VARIJABILNOSTI
Opseg
Navoenje opsega (razlike izmeu najvieg i najnieg skora ) je intuitivno najblii i
najprostiji nain da saeto opiemo varijabilnost neke distribucije. U primeru nae populacije od
9 brojeva
38 46 54 56 62 64 67 68 77
opseg (engleski range) je razlika izmeu brojeva 77 38 i iznosi 39. Kada smo malo pre govorili o
distribucijama koristili smo opseg da bismo ukazali na to da se distribucije (osim po obliku i po
merama centralne tendencije) mogu razlikovati i po varijabilnosti. Opseg je veoma gruba mera
varijabilnosti budui da je potpuno neosetljiv na skorove koji se nalaze izmeu najvieg i
najnieg skora. Koristimo ga samo u deskriptivnoj statistici, uglavnom da bismo otkrili greke
koje se deavaju prilikom unosa podataka i/ili da bismo otkrili trke, skorove koji jasno
odudaraju od ostalih. Opseg uzorka esto ne daje dobru procenu opsega populacije budui da
se u uzorku najverovatnije nee nai ekstremnii skorovi koji se nalaze u populaciji. Daleko je
vea verovatnoa da se ekstremni populacijski skorovi nau u veim nego u manjim uzorcima.
Drugim reima, veliina ospega uzorka zavisi od veliine samog uzorka a to je dosta nepoeljna
okolnost u situaciji kada na osnovu poznavanja uzroka pokuavamo da procenimo stanje u
populaciji. Zbog toga, za razliku od varijanse (i standardne devijacije, vidi dole) opseg nije
mera varijabilnosti koju emo koristiti kada sa deskriptivne statistike budemo preli na
statistiku zakljuivanja.
Kvartilni opseg i kvartilna devijacija
Jedan, danas sve ree korieni, nain da opiemo varijabilnost neke distribucije jeste
preko kvartilnog opsega ili kvartilne devijacije. Do vrednosti ovih mera varijabilnosti dolazimo
tako to distribuciju podelimo na etiri koraka ili kvartila. To emo uraditi tako to emo prvo
izraunati medijanu koja za niz skorova (za ovaj primer upotrebiemo neto dui niz)
22 25 34 35 41 41 46 46 46 48 49 54 54 59 60
ima vrednost 46.
Potom emo odrediti levu i desnu medijanu tj. medijane leve i desne polovine skorova. U
naem sluaju bie to brojevi 35 i 54.
22 25 34 35 41 41 46 46 46 48 49 54 54 59 60
Broj 35 oznaava prvi kvartil (Q1) tj. medijanu skorova koji se nalaze ulevo od medijane ukupnog
niza; broj 54 oznaava trei kvartil (Q3) tj. medijanu skorova koji se nalaze udesno od medijane
ukupnog niza.
Interkvartilni opseg (engleski interquartile range) je razlika izmeu prvog i treeg kvartila
IQR = Q3 Q1
u naem primeru IQR = 54 -35 = 19
Kvartilna devijacija (engleski quartile deviation) je jednaka polovini interkvartilnog opsega
QD
U naem primeru QD
IQR
2
54 35
9.5
2
Standardna devijacija
Upravo smo videli da su dve do sada razmatrane mere varijabilnosti daleko od lepih
osobina aritmetike sredine koje smo nedavno istakli: ni opseg ni kvartilna devijacija ne koriste
sve prikupljene informacije, njihova vrednost ne poiva na svim prikupljenim podacima. Treba
nam dakle neka mera varijabilnosti koja bi ila ruku pod ruku sa aritmetikom sredinom. Mera
varijabilnosti koji bismo koristili uvek kada koristimo aritmetiku sredinu a to se odnosi upravo
na poeljne istraivake situacije kada analiziramo podatke koji potiu sa intervalne ili racio
skale.
Na prvi pogled ini se da nije teko doi do takve mere varijabilnosti. Mogli bismo
jednostavno da izraunamo proseno odstupanje od aritmetike sredine. Zdrav razum nam
govori da to je varijabilnost nekog niza skorova vea, bie vea i odstupanja pojedinanih
skorova od njihove aritmetike sredine. I obrnuto: to je varijabilnost nekog niza skorova manja,
biie manja i odstupanja pojedinanih skorova od njihove aritmetike sredine. Ukoliko
izraunamo njihovo proseno odstupanje od aritmetike sredine to bi moglo da nam da dobru
sliku o varijabilnosti tog niza skorova.
[ Uskoro emo videti da je to (mada) intuitivno ujedno i loe reenje.]
Hajde da vidimo kuda e nas odvesti ovaj pristup, da izraunamo proseno odstupanje
od aritmetike sredine. Uradiemo to sluei se formulom
(x
N
Formula 4.3. Proseno linearno odstupanje od aritmetike sredine. Iako intuitivan, ovaj pristup ne vodi nikuda.
gde je oznaka za sumu, xi oznaka za svaki pojedinani skor, oznaka za aritmetiku sredinu
populacije a N oznaka za broj posmatranja odnosno oznaka za broj pripadnika te populacije. U
naem primeru populacije od 9 posmatranja i = 59.11
0
0
9
plus daje plus, a minus put aminus takoe daje plus). Raunajui proseno kvadrirano
odstupanje oslobodili smo se opasnosti da zbir mera odstupanja bude nula. Takva odluka je
sasvim u redu i zbog toga to negativno odstupanje nekog skora od aritmetike sredine samo
po sebi ne znai nita loe, nema nikakvu negativnu konotaciju. Ukoliko npr. raunamo broj
neopravdanih izostanaka uenika iz nekog razreda, skorovi koji su manji od aritmetike sredine
(i samim tim imaju negativne devijacije od aritmetike sredine) govore upravo neto dobro i
pozitivno.
Hajde, da vidimo kuda e nas odvesti raunanje prosenog kvadrirarnog odstupanja od
aritmetike sredine. Krenuemo od formule
(x
N
Formula 4.4. Proseno kvadrirano odstupanje od aritmetike sredine. Pravi nain da opiemo varijabilnost nekog
niza brojeva
=127.43
Na taj nain dobili smo proseno kvadrirano odstupanje od aritmetike sredine, broj koji e
uvek biti 0 (u sluaju da su svi skorovi jednaki aritmetikoj sredini) ili vei od nule (u svim
ostalim sluajevima).
Proseno kvadrirano odstupanje od aritmetike sredine zovemo varijansa i oznaavamo sa
V ili sa 2.
V=
(x )
=
(x )
=
i
SS
= srednji kvadrat
N
Izraunavanjem varijanse dobili smo meru varijabilnosti koja ima neke ali ne i sve dobre
osobine koje ima aritmetika sredina. Varijansa jeste jedna (iz istih podataka moe se izraunati
samo jedna vrednost varijanse) i poiva na svim prikupljenim podacima. Ipak, za razliku od
aritmetike sredine varijansa nije izraena u mernim jednicama varijable koju merimo.
Aritmetika sredina visine je izraena u centimentrima, aritmetika sredina teine je izraena u
kilogramima, aritmetika sredina inteligencije je izraena u IQ jedinicama. Ali izraunavajui
varijansu mi smo kvadrirali odstupanja svakog pojedinanog skora od aritmetike sredine. Ta
operacija je matematiki sasvim opravdana i, videli smo, krajnje poeljna. Ipak, ne umemo da
odgovorimo na pitanje ta je to kilogram na kvadrat , kakve veze imaju kvadratni centrimetri sa
visinom i ta je to IQ2. Zbog toga kaemo da je varijansa izraena kao nedimenzionalni broj. Da
bismo -u naem traganju za merom varijabilnosti koja e ii ruku pod ruku sa aritmetikom
sredinom- dobili meru varijabilnosti koja je izraena u mernim jednicima varijable koju merimo
pribei emo starom matematikom triku: izraunaemo kvadratni koren varijanse i nazvati ga
standardna devijacija (engleski standard deviation).
= 2
Formula 4.5. Standardna devijacija populacije je kvadratni koren populacijske varijanse
Kao to o aritmetikoj sredini moemo misliti kao o prosenom skoru tako o standardnoj
devijaciji moemo da mislimo kao o prosenoj varijabilnosti tj. kao o prosenom odstupanju
od aritmetike sredine.
Do standardne devijacije smo doli posle dve komplikacije. Prvo smo se oslobodili
negativnih brojeva u brojiocu tako to smo kvadrirali odstupanja od aritmetike sredine. Na taj
nain izraunali smo varijansu populacije. Potom smo izraunali kvadratni koren te varijanse i
dobili standardnu devijaciju, indeks varijabilnosti koji je izraen u mernim jedinicama
originalnog merenja.
Varijansu uzorka (SD2) raunamo na slian nain kao i varijansu populacije s time da u imeniocu
umesto vrednosti n imamo vrednost n-1.
SD
(X
M x )2
n 1
i
Formula 4.6. Varijansa uzorka. oznaka za sumu, xi =oznaka za svaki pojedinani skor, x = oznaka za
aritmetiku sredinu uzorka, n = oznaka za broj posmatranja odnosno oznaka za veliinu uzorka, n-1 = oznaka za
broj stepeni slobode
Broj n-1 nazivamo brojem stepeni slobode (engleski degrees of freedom ili skraeno df).
U ovom trenutku ne moemo da objasnimo ovaj pojam ali emo se vratiti na njega u dogledno
vreme. Vano je da uoite da je po definiciji broj n-1 najsliniji broju n i da sa poveanjem naeg
uzorka posledice delenja brojioca (sume kvadrata) sa n ili sa n-1 postaju sve manje. Dakle, im
na uzorak premai neki realni okvir od n = 30 (retka su psiholoka istraivanja koja e biti
obavljena na manjem uzorku) postaje prilino svejedno da li brojilac delimo sa 30 (n) ili sa 29
(n-1).
Kao i kod populacije, standardna devijacija uzorka je kvadratni koren varijanse uzorka.
SD SD 2
ta treba da znamo?
- Cilj deskriptivne (ili opisne) statistike je da numeriki i saeto prikazuje neke podatke.
Deskriptivna statistika se bavi opisom onoga to znamo.
- Najekonominiji nain da opiemo neku distribuciju jeste da definiemo njen oblik i da
navedemo neku meru njene centralne tendencije i neku meru njene varijabilnosti. Distribucije
se meusobno razlikuju po obliku, merama centralne tendencije i merama varijabilnosti.
- Horizonatlno odstupanje (zakrivljenost) od normalne distribucije nazivamo skjunes. Vertikalno
odstupanje od normalne distribucije zovemo kurtozis i ono ukazuje na to da li je gomilanje
skorova ispod take najvie uestalosti vie ili nie nego kod normalne distribucije.
-Aritmetika sredina je uvek samo jedna, poiva na svim prikupljenim podacima i izraena je u
mernim jedinicama varijable koju merimo. Osteljiva je na ekstremne vrednosti.
-Medijana je sredinja vrednost u distribuci neke varijable: vrednost koja je via od 50%
sluajeva i nia od 50% sluajeva. U distribuciji moe da bude samo jedna medijana; medijana je
izraena u mernim jedinicama varijable koju merimo ali ne poiva na svim prikupljenim
podacima. Medijana je neosetljiva na ekstremne vrednosti.
-Mod je vrednost najeeg skora, neosetljiv na ekstremne vrednosti. Distribucija moe da ima
vie od jednog moda. Distribucije sa dva moda nazivamo bimodalne, a one sa vie modova
polimodalne.
-Opseg je najjednostavnija mera varijabilnosti. Opseg je razmak izmeu najvieg i najnieg
skora.
- Interkvartilni opseg je razlika izmeu prvog i treeg kvartila. Kvartilna devijacija je jednaka
polovini interkvartilnog opsega.
-Varijansa je proseno kvadrirano odstupanje od aritmetike sredine. Varijansa je uvek
pozitivan broj: nula ili vea od nule. Za neki niz mera varijansa je samo jedna, poiva na svim
prikupljenim podacima ali nije izraena u mernim jedinicama varijable koju merimo. Varijansa je
nedimenzionalni broj.
-Standardna devijacija je kvadratni koren varijanse. Za neki niz mera standardna devijacija je
samo jedna, poiva na svim prikupljenim podacima i izraena je u mernim jedinicama varijable
koju merimo. Koristimo je uvek kada koristimo i aritmetiku sredinu, onda kada opisujemo
podatke sa intervalne ili racio skale. Standardna devijacija je uvek pozitivan broj: nula ili vea od
nule.