Professional Documents
Culture Documents
Statistika
1. Aritmetička sredina
X nadvučeno označava aritmetičku sredinu. X1, X2… jesu rezultati od prvog do poslednjeg, a N broj rezultata.
Kada imamo velik broj rezultata, rezultati se grupiraju u razrede, a oni su reprezentovani sredinom razreda.
Ovo je neophodno kod grafičkog prikazivanja rezultata. Najčešće se broj razreda kreće između 10 i 20.
Razredi moraju biti jednaki po veličini. Rasponom nazivamo razliku između najmanjeg i najvećeg rezultata.
Svaki idući razred počinje za jednu jedinicu više nego što prethodni završava.
Postoje pravila:
Ako pri određivanju granica razreda uzimamo istu tačnost kojom su izvršena merenja (npr. Celi
brojevi), onda idući razred treba započeti za jednu jedinicu merenja više, nego što je prethodni
razred završio.
Ako granice razreda postavljamo na veću tačnost od one kojom je izvršeno merenje (npr. Merenje je
izvršeno u celim brojevima, a granice razreda postavljamo u decimalama), onda je potrebno da
donja granica idućeg razreda bude jednaka gornjoj granici prethodnog razreda..
Postoji određena tendecija da se rezultati grupišu oko jedne vrednosti koja je nekako po sredini svih
razreda. Izračunavamo aritemtičku sredinu, nakon što smo rezultate grupisali u razrede. To možemo učiniti
tako da sredinu (X) svakog razreda pomnožimo frekvencijom pojedinog razreda (f) i da sumu umnožaka
podelimo brojem rezultata. Množeči sredinu svakog razreda sa frekvencijom tog razreda, mi smo zapravo
zbrojali sve rezultate u tom razredu.
Kada radimo sa velikim brojevima, kako bismo olakšali računanje, odredimo jednu privremenu aritmetičku
sredinu, pa samo računamo koliko ostali rezultati odstupaju od te sredine i onda privremenoj aritmetičkoj
sredini dodamo prosek svih odstupanja i dobijemo prvu arit. Sredinu.
2
Najkraći postupak: umesto da odstupanja računamo u apsolutnim razlikama, mi ih računamo u jedinicama
intervala, tj. Računamo odstupanje za 1 interval, 2 intervala... x prim označava intervalnu udaljenost
pojedinih razreda od privremene aritmetičke sredine.
Naći za svaki razred sredinu razreda
Izabraćemo privremenu arit.sr. a za nju možemo uzeti sredinu bilo kog razreda, najpraktičnije
najvećeg
Naći ćemo za koliko je intervala udaljena sredina pojedinog razreda od privremene as
Dobijene brojeve pomnožićemo sa frekvencijom pojedinih razreda i te ćemo rezultate zbrojiti s
obzirom na predznak
Vrednost dobijenu pod tačkom 5 algebarski ćemo pribrojiti privremenoj as.
Kontrola računa: za privremenu as odabere se sredina nekog drugog razreda. Na taj način će vrednosti x
prim, fx prim i suma fx prim biti izmenjene, a konačan rezultat, ako je račun bio tačan, će ostati potpuno
jednak.
AS je, kao težište rezultata, osetljiva i na broj i na vrednost rezultata.
Ponekad nije preporučljivo izračunavati AS. Jedan od glavnih razloga sastoji se u tome da nekada moramo
uzeti u račun i neke vrlo ekstremne vrednosti koje bitno menjaju AS.
Najpoznatije od drugih mera centralne tendencije su centralna vrednost (medijana), dominantna vrednost
(modalna vrednost).
Centralna vrednost
Centralna vrednost (C) je vrednost koja se u nizu rezultata, poređanih po veličini, nalazi tačno u sredini. To
nije vrednost C, nego samo njen položaj u rezultatima koji su poređani po veličini. Ako je broj rezultata
paran, C se izračunava tako što zbrojimo dva srednja rezultata i taj broj podelimo sa 2. Prednost C nad AS je
što na nju ne utiče vrednost pojedinih rezultata, te jedan vrlo ekstreman rezultat neće ništa promeniti
vrednost C, koja je uslovljena samo brojem rezultata.
Jedna od praktičnih upotreba centralne vrednosti sastoji se u lociranju optimalnog položaja.
Dominantna vrednost
Dominantna vrednost (D) je ona vrednost koja je u nizu merenja najčešće postignuta. Prednost D nad AS je
u tome što na nju ne utiče ni broj, ni vrednost rezultata, već samo frekvencija pojedinih rezultata.
Geometrijska sredina
Geometrijska sredina (G) je, prema definiciji, n-ti koren iz umnožaka između N brojeva. Ovo se pretežno
koristi kao mera prosečne brzine nekih promena.
Harmonična sredina
Harmoničnu sredinu (H) valja upotrebljavati kada želimo dobiti proseke nekih odnosa (npr. Prosečne km/h).
H se ne može izračunati ako je broj negativan ili jednak nuli.
II Mere varijabilnost
3
Rezultati se grupišu oko srednje vrednosti. Ako su vrednosti nekog niza merenja gusto grupirane oko
srednje vrednosti, onda nam ta srednja vrednost dobro reprezentuje rezultate, ali, ako su minimalno
grupisane oko srednje vrednosti, onda nam ona slabo reprezentuje rezultate.
Kada bi, u eksperimentalnom slučaju, sve vrednosti nekog niza bile jednake, onda bi srednja vrednost bila
potpuno tačan reprezent svih rezultata.
Raspon
Najjednostavnija (ali i najnetačnija) mera grupisanja rezultata oko neke srednje vrednosti je tzv raspon, tj.
Razlika između najvećeg i najmanjeg rezultata. Međutim, raspon je vrelo nesigurna i varljiva mera
varijabilnosti, jer bilo koji usamljeni ekstremni rezultat znatno povećava raspon, a da se grupacija oko AS
ipak nije bitno promenila.
Uzmemo li sve rezultate u obzir, raspon je razlika između najvećeg i najmanjeg rezultata. Uzmemo li u obzir
samo nekoliko rezultata, vrlo je mala verovatnoća da će među njima biti upravo najveći i najmanje rezultat.
Srednje odstupanje
Zanima li nas prosečna veličina odstupanja pojedinačnih rezultata, možemo izračunati srednje odstupanje.
Njega možemo izračunati uz aritmetičku sredinu, centralnu i dominantnu vrednost, ali nam ono ne može
dovoljno služiti ako želimo izvoditi dalja računanja.
Standardna devijacija
Kada bismo prosečno odstupanje računali vodeći računa o predznaku, onda bismokao sumu uvek dobili
nulu. Razlog tome je u tome što je aritmetička sredina vrednost od koje suma odstupanja iznad i ispod nje
uvek iznosi 0.
Jedan od načina da se izbegnu predznaci odstupanja jeste taj da se odstupanja kvadriraju. Osim toga, što je
odstupanje veće, to ono više dolazi do izražaja ako ga kvadriramo. Ako tako kvadrirana odstupanja zbrojimo
i izračunamo im aritmetičku sredinu, dobićemo meru varijabiliteta, koja se u statistici naziva varijanca.
Aritmetička sredina kvadriranih odstupanja izračunava se sa N-1, a ne s N.
Koren iz varijance, može se prikazati kao potpuno definisani razmak na skali rezultata. Taj drugi koren iz
varijance nazvan je standardna devijacija (označava se najčešće sa s, SD) i to zato što se ta mera koristi kao
standard za merenje varijabiliteta rezultata.
Ako aritmetičkoj sredini na jednu i na drugu stranu dodamo vrednost standardne devijacije, obuhvatićemo
68% rezultata (teoretski broj 68,26% i on vredi samo za idealno pravilnu raspodelu).
Ako aritmetičkoj sredini dodamo i levo i desno dve standardne devijacije, obuhvatićemo u idealnom slučaju
95,44% svih rezultata, a ako joj dodamotri standardne devijacije, obuhvatićemo 99,73% rezultata.
Uz pomoć standardne devijacije možemo uspešno predvideti u kom rasponu se kreću praktično svi rezultati.
Ona se može računati samo uz aritmetičku sredinu, a ne i uz druge mere centralne tendencije.
Kao neka kontrola pri računanju standardne devijacije, može nam poslužiti odnos između raspona i
standardne devijacije: taj odnos gotovo nikad nije manji od 2, a veći od 6,5.
Standardna devijacija sam donekle govori koliko vredi dobijena aritmetička sredina, tj. Da li je ona dobar ili
loš reprezent rezultata. Uz svaku aritmetičku sredinu treba da se navede i pripadna standardna devijacija.
Koeficijent varijabilnost
Kad su nam poznate aritmetička sredina i standardna devijacija nekih rezultata, onda su ti rezultati potpuno
definisani i možemo ih upoređivati sa nekim drugim rezultatima.
Kada imamo dve jednake aritmetičke sredine, lako je zaključiti da rezultati u prvom merenju znatno manje
variraju od rezultata u drugom merenju. Međutim, to nije slučaj kada imamo dve različite aritmetičke
4
sredine. Da bismo mogli međusobno upoređivati varijabilnost različitih pojava i svojstava, služimo se tzv.
Koeficijentom varijabilnosti (V) koji nam pokazuje koliki postotak vrednosti aritmetičke sredine iznosi
vrednost standardne devijacije. Koeficijent varijabilnosti je vrlo korisna mera u svim onim slučajevima kada
želimo znati: u kojem svojstvu neka grupa varira više, a u kojem manje i koja od grupa varira više, a koja
manje u istom svojstvu.
U nekim situacijama nije dopušteno upoređivati pojedine koeficijente varijabiliteta
Ako preskočimo grafičko prikazivanje rezultata izlažemo se dvostrukom riziku: postoji šansa da uopšte
nećemo uočiti neku posebno neočekivanu karakteristiku rezultata koju je gotovo nemoguće uočiti prilikom
baratanja brojevima; neke teške računarske pogreške takođe mogu ostati neotkrivene. Na primer,
ppogrešno stavljen decimalni zarez pri izračuavanju aritmetičke sredine biće odmah uočen kao pogreška
ako su rezultati prikazani grafički.
Kada se radi o čistoj deskripciji, međusobno nezavisnih ili slabo zavisnih podataka, najčešći način grafičkog
prikazivanja je u horizontalnim ili vertikalnim stupcima i u kružnom dijagramu (koji se još naziva i torta
dijagram). U popularnim časopisima, dnevnoj štampi i sl. Često se zbog veće plastičnosti rezultata daju
trodimenzionalni grafički prikazi nekih podnosa veličina. Treba upozoriti da to nije pogodan način.
Što se tiče dvodimenzionalnog prikaza: ako se umesto stupcima količine prikazuju kvadratima ili krugovima
to takođe nije pogodno, jer kako znamo, kvadrat dvostruko dužih stranica, po površini je 4x veći, a to isto
važi i za krug. Još je gora situacija u trodim. Prikazu:kocka koja ima 2x dužu stranicu od neke druge kocke
biće po svom volumenu 8x veća od prve kocke. Prikažemo li podatke u stupcima, dobićemo jasan i
nepristrasan odnos. Iako su odnosi ispravni, dojam što nam slika daje ni približno nije realan, jer neupućeni
posmatrač slike neće smatrati da je kocka b u svom volumenu više od 2,6x veća od kocke a.
Želimo li da podatke prikažemo trodim, onda se to može jedino tako, a da pritom ne učinimo nikakvu
pogrešku, da različite količine (vrednosti) prikažemo sumom jednakih volumenskih jedinica. Kada imamo
rezultate koji se razvijaju u vremenu ili koji se grupišu oko neke reprezentativne vrednosti, služimo se
grafičkim sistemom koordinatnog sistema. Položaj jedne tačke u ravni potpuno je određen sa dve
koordinate koje su međusobno okomite. Horizontalna koordinata koju nazivamo apcisa (osa x) obično nam
pritom služi za registraciju vrednosti merenja, a vertikalna koordinata, koju nazivamo ordinata (osa y), za
registraciju frekvencije. Ako su rezultati grupisani u razrede, onda na apscisu unesemo razrede ili sredinu
razreda.
Histogram se sastoji od niza pačetvorina, kojima površina (i visina) odgovara frekvenciji pojedinog razreda, a
suma površina svih pačetvorina odgovara ukupnoj frekvenciji (ukupna frekvencija-N) svih razreda.
Poligon se crta tako da iznad sredine svakog razreda označimo tačke u visini ordinate koja odgovara
frekvenciji tog razreda. No, poligon treba uzemljiti tj. Na levoj i desnoj strani krivulje dovesti na nultu
frekvenciju tj. Na apscisu. Poligon je više ili manje pravilna krivulja kojoj totalna površina odgovara ukupnoj
frekvenciji svih rezultata, ali površina iznad pojedinog razreda, ne odgovara frekvenciji tog razreda, već
frekvenciji razreda označava samo visina poligona tačno iznad sredine razreda. Treba upozoriti na jednu
pogrešku, pri crtanju histogramu, koja se u praksi često dešava. U praksi se, naime, zbog različitih razloga,
katkad dva ili više razreda, želi spojiti zajedno. Pogreška se sastoji u tome da se u poligon unese dvostruko
široka pačetvorina (jer zauzima dva razreda), a to je pogrešno.
Histogram je najtačniji prikaz distribucije frekvencije nekih rezultata, ali ipak u praksi se najčešće za grafičko
prikazivanje koristi poligon frekvencije. Glavni razlog tome je činjenica da je poligon obično pregledniji način
prikazivanja (on je sličniji teorijskoj krivulji). A posebno je pogodan u slučajevima kada na istoj slici želimo
prikazati dve ili više distribucija.
Npr. Ako merimo visinu momaka i devojaka, kako broj izmerenih nije jednak, moramo prethodno obe
distribucije svesti na zajedničku meru (zbog lakšeg upoređivanja), to se postiže tako da se za svaki razred
izračunaju relativne frekvencije, tj. Svaka se frekvencija prikaže u postotku ukupnog broja.
5
Iz histograma i poligona frekvencija može se izravno očitati jedino dominantna vrednost: to je u histogramu
razred sa najvišim stupcem, a u poligonu, razred iznad kojeg se nalazi vrh krivulje. Postoji još jedan i to vrlo
koristan i praktičan način grafičkog prikazivanja, koji je naročito pogodan kada želimo brzi pregled koliko
rezultata ili koliki se postotak rezultata nalazi ispod ili iznad nekog konkretnog rezultata, kao i podatak o
tome gde se otprilike nalazi centralna vrednost. Taj način prikazivanja zove se krivulja kumulativne
frekvencije (neki je zovu Galtonova oživa). Postupak je jednostavan: za apscisu se nanesu prave gornje
granice razreda, a na ordinati se nalazi kumulativna frekvencija (sabrane frekvencije od najnižeg razreda
nadalje). Prave gornje granice razreda računski dobijamo tako što uzmemo sredinu između gornje vrednosti
jednog razreda i donje vrednosti idućeg razreda.
Ako nas zanima neki određeni rezultat x,pa ako s tog rezultata povučemo sa apscise paralelu sa ordinatom,
sve do krivulje, a onda od krivulje paralelu sa apscisom, sve do ordinate, dobijamo željeni odgovor. Da smo
frekvencije imali u relativnim frekvencijama, dakle, u postotcima, onda bismo iste te podatke mogli davati u
postotcima. Ako je centralna vrednost ona vrednost iznad koje i ispod koje se nalazi tačno po 50% rezultata,
to bismo aproksimativno centralnu vrednost mogli očitati sa krivulje relativne kumulativne frekvencije, tako
da sa ordinate, kod oznake 50% povučemo paralelu sa apscisom do krivulje i onda spustimo okomicu na
apscisu, te tačno očitamo vrednost c.
Kada bi svi rezultati nekog merenja bili potpuno istovetni, onda bi tendencija grupisanja rezultata bila
maksimalna.
Kada bi kod nekog merenja svaki put dobili drugačiji rezultat, tačnije rečeno, kada bi svaki rezultat na nekoj
skali bio dobijen samo jedanput, onda ne bi bilo nikakve tendencije grupisanja rezultata. Nikada ne
nalazimo ni jedan od tih ekstrema, nego većinom dobijamo rezultate koji prikazuju obe ove tendencije, tj. I
tendenciju grupisanja oko neke centralne vrednosti i tendenciju raspršenja oko te srednje vrednosti. Takva
se raspodela naziva normalna raspodela. Krivulja koja prikazuje takvu raspodelu naziva se normalna
krivulja, a neki je zovu Gaussova krivulja, po matematičaru Gaussu, ili pak prema njenom karakterističnom
obliku, zvonasta krivulja. Normalna raspodela je osnova za razumevanje glavnih statističkih pojmova
vrednosti.
Među pojave koje se ne distribuišu po normalnoj raspodeli pripada donekle i težina ljudi.
6
Drugi uslov, tj. Da broj merenja bude dovoljno velik, posve je razumljiv: kod malog broja merenja neke
pojave, pa bila ona i idealna, normalno distribuirana u nekoj populaciji, pukim slučajem možemo dobiti
rezultate koji znatno odstupaju od normalne raspodele.
Jedna od osnovnih karakteristika normalne raspodele je to da se tzv. Mesto infleksije (tj. Mesto gde krivulja
iz konveksne prelazi u konkavnu) nalazi iznad +-1s kao i to da je normalna raspodela potpuno definisana ako
joj znamo aritmetičku sredinu i standardnu devijaciju. Iz tog sledi da postoje normalne raspodele vrlo
različite širine: od uskih (leptokurtičnih) do vrlo širokih (platikurtičnih).
Primer: ako bacamo dva novčića, pa gledamo na koju su stranu pali postoje praktično 3 mogućnosti ishoda
bacanja.
1. Mogućnost: na oba novčića pismo
2. Mogućnost: na jednom psimo, na drugom glava
3. Mogućnost: na oba novčića glava
Vrednost pojedinih kombinacija možemo izračunati pomoću tzv binomne raspodele, pri čemu p =vrednost
da će se nešto dogoditi (na primer glava) q=vrednost da se to neće dogoditi (dakle neće se dogoditi ni glava
ni pismo), a eksponent n=broj faktora (u našem slučaju broj novčića). Verovatnoća da će se nešto dogoditi
plus verovatnoća da se to neće dogoditi uvek je 100% (ili verovatnoća=P=1), pa je prema tome (p+q) uvek
jednako 1.
Uz pomoć tzv Paskalovog trougla moguće je utvrditi ove različite kombinacije i bez računanja.
No, činjenica je da da šansa 50:50 vredi samo kod bacanja 2 novčića. Već kod bacanja 4 novčića,
verovatnoća da će pasti 2 glave i 2 pisma, nije 50%, već 37,5%.
Postoji još jedan vrlo jednostavan i slikovit način za izračunavanje različitih ishoda jednake verovatnoće, a to
je tzv. Stablo verovatnoće.
Binomna raspodela nastaje kombinacijom faktora kod kojih je pojavljivanje uvek jednako verovatno (npr.
50% ili 10% ili bilo koja druga vrednost), dok je kod normalne raspodele situacija nešto drugačija.
Osim normalne i binomne raspodele, postoji još mnogo drugih raspodela: Poissonova raspodela, koja je
takođe slučajna raspodela, samo za razliku od normalne raspodele, slučajna raspodela vrlo retkih događaja
(dok je normalna raspodela raspodela događaja, kojima se verovatnoća kreće u blizini 50%). Spominjaćemo
još i F-raspodelu, hi-kvadrat raspodelu i druge.
Moguće je izračunati na koji deo standardne devijacije neki rezultat pada, a kad znamo taj podatak, znamo
odmah i koliko imamo rezultata većih i koliko manjih od tog rezultata. Na taj način možemo tačno odrediti
položaj pojedinca u grupi.
Kako je normalna raspodela potpuno tačno definisana, to mi za svaki rezultat, ako izračunamo na koji deo
standardne devijacije pada, možemo potpuno tačno ustanoviti koliki postotak rezultata je ispod, a koliki
iznad njega. Dakle, izražavanje nekog rezultata u terminima standardne devijacije, tj. Izračunavanje na koji
SD taj rezultat pada, naziva se pretvaranje rezultata z-vrednosti.
Budući da je u svim statističkim tablicama cela površina neke krivulje prikazana brojem 1 (što znači 100%),
to su delovi površine prikazani brojevima koji se kreću od 0 pa sve do blizu 0,5 (0,5 je površina jedne strane
normalne raspodele). Veličina površine ujedno znači verovatnoću.
Kod svih takvih zadataka najbolje je nacrtati površinu koja nas zanima.
7
Pomoću delova standardne devijacije, dakle pomoću z vrednosti mogu se lakše upoređivati rezultati
različitih merenja kod istog čoveka, a takođe i među pojedinim ljudima. Tako se na primer češće događa da
pojedinim ljudima iz neke skupine želimo dati jednu skupnu ocenu za njihov rezultat u niz disciplina, a ako
su merene jedinice iz disciplina različite, nailazimo na velike teškoće. Jedno od ispravnih rešenja tog
problema sastoji se u pretvaranju originalnih vrednosti rezultata u z vrednosti.takvo ocenjivanje u z
vrednostima vrlo je potrebno i u onim slučajevima kada tražimo skupinu ili prosečnu ocenu iz niza merenja
koje su na prvi pogled sprovedena u jednakim mernim jedinicama (na primer bodovima), ali pomoću
testova, koji imaju različit varijabilitet rezultata. Dakle, potrebno je pretvaranje u z vrednosti jer bi
jednostavnim zbrajanjem bruto rezultata 2 ili više merenja u ukupnom zbroju imali veću težinu, tj. Veću
važnost rezultata iz ovih merenja, u kojima je veća standardna devijacija. Često se pogrešno misli da glavnu
težinu rezultatima daje njihova apsolutna veličina. U ukupnom rezultatu taj broj, iako velik, neće ništa
uticati na položaj pojedinog ispitanika, tj. Njihov rang biće potpuno jednak bez tog testa kao i s njim-jer smo
svakom ispitaniku dali jednaku vrednost. Dakle, kakose vidi, taj test ne pridonosi ništa ukupnom rezultatu,
jer taj test nema varijabiliteta. (test koji se spominje je iz primera, videti na 101. Strani). Da bi se izbegle
negativne vrednosti kod takvog preračunavanja originalnih rezultata u z vrednosti, može se svakoj z
vrednosti dodati neki broj, tako da svi rezultati postanu pozitivni brojevi. Ako z vrednostima dodamo broj 5,
dobijamo tzv standardne vrednosti koje idu od 2 o 8 sa prosekom 5.
Centli
Položaj pojedinaca u grupi može se izračunati tzv centilom (percentilom): prvi centil obuhvata jedan posto
najslabijih; drugi centil jedan posto idućih najslabijih...
Ako neki rezultat pada u 22. Centil to znači da je samo 8% rezultata bolji od njega, a 92% rezultata su
jednaki ili slabiji.
Postoji računarski postupak za dobijanje centila pojedinog rezultata, a da pritom nije potrebno rezultat
najpre pretvoriti u z vrednost, ali ćemo najpre ukratko prikazati grafičku metodu kojom možemo s priličnom
tačnošću odrediti položaj rezultata u centilima. Postupak se sastoji u neznatnoj modifikaciji grafičkog
prikaza kumulativne frekvencije:
1. Frekvencije neke distribucije rezultata pretvorimo najpre u relativne frekvencije, pa nakon toga u
relativne kumulativne frekvencije.
2. Na apscisu unesemo prve gornje granice razreda, a na ordinatu unesemo relativne kumulativne
frekvencije tj. Kumulativne frekvencije u postotku ukupnog N.
Kada tako dobijene vrednosti unesemo u grafikon dobijamo krivulju relativne kumulativne frekvencije. Za
aproksimativno očitavanje centila ili centralne vrednosti ova nam krivulja može odlično poslužiti.
Centralna vrednost se iz ove slike (str 103) očitava tako da se sa relativne kumulativne frekvencije 50%
povuče paralela sa apscisom sve do krivulje i odatle se spusti okomica na apscisu. Na mestu gde ta okomica
seče apscisu nalazi se centralna vrednost.
Jedan, po izgledu nešto drugačiji, ali u stvari jednak postupak sastoji se u tome da se relativne kumulativne
frekvencije nanesu na ordinatu tzv papira verovatnoće. Sve ono što smo očitavali sa obične krivulje
relativne kumulativne frekvencije, možemo očitati i sa relativne kumulativne frekvencije prikazane na
papiru verovatnoće, samo što nam ona pruža još jednu prednost: ako je distribucija koju na ovaj način
prikazujemo približno normalna, tačke na papiru verovatnoće biće manje-više na pravcu.
Često nas, međutim, može zanimati obratni postupak: dok smo upravo sada našli koji centil odgovara
nekom određenom rezultatu, nas može zanimati i kojii rezultat odgovara kom određenom centilu. U tu
svrhu treba najpre željeni centil pomnožiti sa N i podeliti sa 100, pa ćemo tako dobiti rang rezultata koji je u
50. Centilu. Nakon toga treba u stupcu kumulativne frekvencije naći razred u kojem se taj rang rezultata
nalazi.
8
I na kraju, još nekoliko reči o poređenju između z vrednosti i centila. Prednost z vrednosti prema centilima
sastoji se u tome što, kako smo videli, z vrednosti možemo zbrajati i tražiti njihov prosek (jer su to
ekvidistantne jedinice tj. Jedinice sa jednakim međusobnim razmakom), dok kod centila takva zbrajanja i
traženja prosečnog centila nije dopušteno, jer centili u normalnoj raspodeli ne predstavljaju ekvidistantne
jedinice.
Sa druge strane, prednost centila sastoji se u tome da centili ne zahtevaju normalnu distribuciju: mi
možemo iz bilo kakve distribucije odrediti koji rezultat postiže 10% najboljih ili 30% nalošijih ispitanika.
Naprotiv, z vrednosti predstavljaju delove standardne devijacije, a ona je vezana uz normalnu raspodelu.
9
1. DEFINICIJA MERENJA
Merenje je prvi, neophodan čin statističkog postupka
- Svako merenje podrazumeva
1. predmet merenja (šta merimo)
2. merni instrument (aparat, čovek ili testovi)
3. mernu skalu tj. nivo merenja
- Statistika se bavi masovnim pojavama, prvenstveno ih numerički opisuje jer je to jedini način da steknemo uvid
u njih. Ona redukuje (kvalitativne pojave pretvara u numeričku formu) masovne pojave, kako bi bile preglednije i
kako bi lakše stekli uvid u njih, i dalje, lakše doneli sud o njima (što je manje jedinica lakše donosimo sud). Sve
ovo obavljamo merenjem.
Merenjem prikupljamo podatke potrebne za dalju deskripciju, estimaciju i inferenciju. Postoji više teorija
merenja. Klasična teorija merenja: «Merenje je pripisivanje brojeva nekim objektima (njihovim atributima)».
Druga teorija merenja kaže: «Merenje je i klasifikacija objekata s obzirom na posedovanje nekih svojstava.»
Varijable su predmet i rezultat merenja.
Uvek se javljaju i greške pri merenju, to je nužan deo i svako merenje se obavlja sa nekom greškom. Postoje 2
vrste grešaka pri merenju:
1. one koje su posledica nemogućnosti egzaktnog utvrđivanja veličina
2. one koje su posledica situacionih faktora, koje nije moguće kontrolisati ali koje utiču na merenje
(eksperimentalna greška).
Verovatnoća eksperimentalne greške je utoliko veća ukoliko pored eksperimentatora subjekta, u eksperimentu
učestvuju subjekti kao predmet merenja.
2. PREDMET MERENJA
- Predmet i rezultat merenja su varijable.
- Predmet merenja su atributi.
Predmet merenja mora biti precizno određen, i mora postojati u nekoj meri (mora biti merljiv kako bi uopšte i
sproveli merenje). Terston kaže da sve što postoji postoji u nekoj meri. Rezultat merenja su varijable.
3. VRSTE MERENJA
1. DIREKTNO – merenje uglavnom objektivno postojećih (fizičkih) pojava – egzaktnije – Stivens.
2. INDIREKTNO – merenje uglavnom subjektivno postojećih (psihičkih) pojava – Fehner. Pojavu koju treba da
merimo nije nam dostupna direktno, zbog toga merimo pojavu preko koje smatramo da se ova prva manifestuje.
Uzimamo da su u dovoljnoj međusobnoj korelaciji (ili kauzalnoj vezi) da bi ocenu pojave posrednika mogli dalje
da generalizujemo na pojavu koju merimo.
-U indirektnom merenju prisustvo greške je obično veće
4. MERNI INSTRUMENTI
Sredstvo (uređaj) koji omogućuje merenje je merni instrument
1. APARATI (vaga, visinometar, reakcionometar)
2. TESTOVI i UPITNICI - psihološki merni instrumenti (test inteligencije)
5. MERNA SKALA
- Merna skala je deo mernog instrumenta. Ona ima podeoke koji ukazuju na količinu predmeta merenja ili
količinu nekog njegovog svojstva ili atributa. Broj podeoka zavisi od
* volje onog koji meri
* varijabilnosti pojave koja se meri
* osetljivosti mernih instrumenata
- Empirijski rezultati pokazuju da je pouzdanost vrlo niska ako je merna skala podeljena na više podeoka, što je
više podeoka, manje je slaganja o kvantitetu odgovora
- Imaju velike varijacije s obzirom na njihovu primenu.
1. NOMINALNA (KATEGORIJALNA) SKALA
2. ORDINARNA (RANG) SKALA
3. INTERVALNA
4. RAZMERNA (RACIO) SKALA
6. VRSTE VARIJABLI
Varijabla je variranje između merene pojave, ili osobine pojave. Varijabla je simbol koji može da predstavlja bilo
koji član jednog skupa, tj. koji može da se zameni bilo kojim članom jednog skupa. Skup objekata koji varijabla
predstavlja je opseg ili domen varijable Varijable mogu biti:
a) - zavisne, konsekventne – one koje se mere i
- nezavisne, antecedentne- one koje predhode zavisnim i utiču na njih
b) - kvanttatvne (numeričke) varijable ili
- kvalitatvne varijable (kategorijalne)
Ako npr. imamo rezultat na testu izražen brojem taj rezultat je kvantitativna varijabla. Ako je rezultat izražen
rečima onda je on kvalitativna varijabla
c) - kontnuirane - meri se karakteristika ispitanika u opsegu vrednosti. Mogu da zauzmu beskonačno mnogo
tačaka. Objekt može da zauzme bilo koju vrednost, i to je pravo merenje (visina)
- diskontnuirane - varijable se ovde svrstavaju u kategorije, i bavimo se frekvencijama (učestalošću). U okviru
diskontinuiranih varijabli uočavamo i diskretne varijable
dihotomne - imaju samo dve vrednosti: živ-mrtav, muško-žensko
polihotomne - Objekti ne mogu imati bilo koju vrednost na kontinuumu već samo određene ta~ke u pravilnim
razmacima. Ovo i nije baš pravo merenje već je više prebrojavanje. (broj dece u porodici)
Varijable se razlikuju i po nivoima (skalama) merenja.
7. KVANTITATIVNE VARIJABLE
Vrednosti koje pripisujemo predmetu merenja se razlikuju po veličini. Ove varijable se izražavaju brojevima.
Nužno su kontinuirane. Merimo karakteristiku ispitanika u određenom opsegu vrednost. (starost u godinama,
visina, težina, prosečno primanje u domaćinstvu, broj braća i sestara, itd.)
8.KVALITATIVNE VARIJABLE
Predstavljaju vrednosti atributa koje merimo, a koje se razlikuju po kvalitetu (zanimanje). Mere se kategorijalnim
(nominalnim), eventualno rang (ordinalnim) skalama. Nužno su diskontinuirane. Daju nam malo informacija
pošto se mere frekvencijama . Osnovno je pitanje šta a ne koliko (pol, nacionalnost, pušač-nepušač, astrološki
znak, itd.)
9/10.NIVOI MERENJA
1. NOMINALNI
Ovo je kategorijalna skala zato što se entiteti raspoređuju u unapred određene kategorije. Nominalna skala radi
sa kvalitativnim podacima koji mogu da budu označeni brojevima ali tada broj služi samo kao oznaka, on je
zamena za ime. Ovaj nivo merenja služi samo za identifikaciju i klasifikaciju, jedino što sa njega možemo očitati je
da li je nešto isto ili različito. Osnovno pitanje je šta. Nominalne varijable se retko javljaju u individualnoj formi.
Mnogo je češće grupisanje nominalnih podataka.
Uz kategorijalne skale smemo upotrebljavati dominantnu vrednost, proporcije, hi kvadrat test, Ф, Kramerov fi i
koeficijent kontingencije
2. ORDINARNI
Latinska reč, ordo, što znači red, poredak. Ova skala se zove još i rang-skala. Ovde brojevi označavaju poredak,
rang, redosled, rastući niz, stepen, procenjivanje. Iz ove skale možemo očitati da li je nešto veće ili manje ali ne i
za koliko, što znači da nije ekvidistantna. Dobre su za kvantitativnu klasifikaciju, da duž nekog kontinuuma
razvrstaju vrednosti.
-Rade sa kvantitativnim i kvalitativnim varijablama
Ako su varijable stavovi, procene, stepeni onda su sigurno sa rang skale!
Kao i kod nominalnih podataka i ovde je moguće individualno i grupno prikazivanje rangova.
Uobičajeno se govori o silaznom i/ili uzlaznom poretku.
Likertova skala: O njoj ćete čuti više na Psihometriji i Socijalnoj psihologiji. Reč o jednom posebnom pristupu u
pravljenju stavki za neki upitnik, kada se ispitanicima navodi tvrdnja, a oni treba da odrede stepen svog slaganja
sa njom.
11
Na primer:
Tvrdnja: Mislim da homoseksualce treba na neki način obeležiti, tako da svako zna s kim ima posla!
u potpunosti se uglavnom se ne uglavnom se u potpunosti se
ne slažem slažem slažem slažem
Naravno, postoje i varijacije iste skale. Tako, vrlo često se u sredinu skale umeće odgovor: nisam siguran ili ne
znam i sl.
Likertova skala dobila je ime prema svom izumitelju. Ona predstavlja jednu ordinalnu skalu, gde otkrivamo i
prirodu ispitanikovog stava o nekom pitanju (za ili protiv) i stepen slaganja sa njim. Vrlo popularna i korisna
alatka u psihologiji!
Osnovne manjkavosti ordinalne skale: numerički odnos nije uspostavljen u potpunost (zna se da je veći ali ne i za
koliko); nema jednakost intervala (ne postoji jednakost u razlici među rangovima).
Ovaj nivo merenja se koristi isto kao kod nominalnih, uz dodatke: centralana vrednost, koeficijent korelacije ro,
tau, teta, i koeficijent w.
3. INTERVALNI
Entitet dobija skor, a ne atribut ili rang. Mogu se usposatvoljati odnosi veće-manje, ali i tvrditi da je skor od 20
upravo onoliko veći od 10, za koliko je 30 veći od dvadeset tj. postoji jednakost u intervalima – skala je
ekvidistantna (postoji jednakost u razlici među skorovima).Zna se ne samo redosled već i razlika među brojevima
na skali ali se ne zna za koliko puta je jedan skor veci od drugog. Sa ove skale možemo očitati za koliko jedinica je
jedan rezultat veći ili manji od nekog drugog. Ove skale nemaju apsolutnu nulu. Moguće je individualno i grupno
prikazivanje skorova.
Primenjuje se kao pod 1 i 2 uz dodatke: aritmetička sredina, standardna devijacija, z-skorovi i koeficijent
korelacije r ( i parcijalna i multipla korelacija)
Svi psihološki testovi su sa intervalnog nivoa
- Rade samo sa kvantitativnim varijablama
4. RAZMERNI (RACIO)
Zovu se i racio-skale od latinske reči "racio", što između ostalog znači "odnos", "količnik".Ovo je najsavršeniji nivo
merenja. Jednaki brojčani odnosi znače i jednake odnose u merenoj pojavi. To je moguće jer imaju apsolutnu
nulu. Moguće je individualno i grupno prikazivanje skorova. Sa njih možemo očitati za koliko puta je jedan skor
veći ili manji od nekog drugog. Na ovom nivou se uglavnom rade psihofizička i fizička merenja: vreme reakcije,
dužina obavljanja neke delatnosti, broj grešaka, opis stimulusa (svetlina, zapremina, itd.), fizičke mere...
Primena isto kao i 1, 2 i 3 sa dodatkom: geometrijska sredina i koeficijent varijabilnosti.
Postoji posebna podgrupa ovih skala, neki je zovu APSOLUTNA SKALA, specifične su po tome što su diskretne.
Česte su u psihologiji. Primeri: broj pokušaja, broj dece u porodici...
- Rade samo sa kvantitativnim varijablama
11. KONDENZOVANJE PODATAKA - SVRHA I NAČIN
Nakon merenja, postoji mogućnost da se rezultati merenja dovedu u formu radi lakšeg sagledavanja i dovođenja
u vezu. To se zove KONDENZOVANJE (sirovih, bruto) rezultata. Postoji 2 tipa kondenzovanja:
1. za NUMERIČKE VARIJABLE i
2. za KVALITATIVNE VARIJABLE
12. KONDENZOVANJE NUMERIČKIH PODATAKA
Radi se u slučaju kada je broj rezultata toliki da ne može da se ostvari sažimanje na broj. Tada se raspon na kome
su rezultati, podeli na razrede a razredi razvrstaju. Tako se dobijaju frekvencije, učestalost nekih rezultata. To je
tabelarni, pregledni, sažeti prikaz rezultata.
13. KONDENZOVANJE KVALITATIVNIH PODATAKA
Kvalitativni podaci se razvrstvaju u kategorije, postoje frekvencije, ali i procenti - koliko svaka kategorija nosi
procenata od ukupnog rezulata. Proporcije (procenti) više olakšavaju uvid u rezultate.
14. HISTOGRAM
12
Histogram se sastoji od niza stubaca čija visina (ili povšina) odgovara frekvenciji pojedinog razreda, a suma svih
stubaca je ukupna frekvencija svih rezultata N. Histogram je najtačniji prikaz rezultata i dokazuje da je
aritmetička sredina težište rezultata, i iz njega se odmah može očitati dominantna vrednost. Mod u histogramu
je razred sa najvišim stupcem. Koristi se kada je u pitanju 1 varijabla i kada su podaci kvalitativni. Ako je u pitanju
više od jedne varijable, histogram nije najbolji način grafičkog prikazivanja, osim ako stubovi nisu razdvojeni;
tada je opravdano nuditi paralelno dve (ili više) varijabli histogramom.
Primer: Devojčicama petog razreda osnovne škole dali smo zadatak da trče, bez ograničenog vremena i
kilometraže, i bez takmičenja. Jedini njihov zadatak je da odustanu onda kada zaista više nemaju snage da
13
nastave trčanje. Mi smo beležili na kom metru odustaje koliko devojčica. Na poligonu jasno možemo očitati da je
najviše devojčica uspelo da istrči 300 metara, a najmanje je bilo onih koje su istrčale samo 100 – 150 metara i
onih koje su se umorile tek posle 500 istrčanih metara.
16. KRUŽNI DIJAGRAM
Služi za deskripiciju međusobno nezavisnih ili slabo zavisnih podataka. Zove
se još pita ili torta dijagram. Kružni odsečak se računa ovako:
360° · f/N
gde je f frekvencija rezultata a N broj rezultata. Koristimo ga kada imamo
kategorijalne varijable
Dinamičko
grafičko
14
Ako se kutija nalazi više levo tada će kriva distribucije gravitirati ulevo što znači da ima više negativnih rezultata i
to je onda negativna zakošenost ili asimetrija ulevo .
Ako se kutija nalazi više desno, tada će kriva distribucije gravitirati udesno, što znači da ima više pozitivnih
rezultata i to je onda pozitivna zakošenost ili asimetrija udesno.
* KOORDINATNI SISTEM
Njime se služimo kada imamo rezultate koji se
razvijaju u vremenu ili koji se grupišu oko neke
reprezentativne vrednosti.
15
18. OPREMANJE GRAFIKONA I TABELA
Sve od 14. do 18. pitanja!
16
N - broj rezultata (br. merenja)
M - aritmetička sredina
Ukoliko postoji veliki broj rezultata, gore naveden način računanja bio bi dug i zamoran. Zato se rezultati grupišu
u razrede (10 do 20 razreda). Razredi su jednaki po veličini (intervalu), a svaki sledeći razred počinje za jednu
jedinicu više od predhodnog. Svaki razred ima svoju veličinu, odnosno određen broj rezultata koji obuhvata. To
se zove INTERVAL razreda (i). Interval se određuje na sledeći način:
1. nađe se razlika najvećeg i najmanjeg rezultata (raspon)
2. donese se odluka koliko razreda želimo
3. raspon podelimo sa željenim brojem razreda
- pored svakog razreda se udaraju ’’recke’’ koje govore koliko rezultata od ukupnog broja rezultata ulazi u taj
razred. Formula: M= ∑(f X)/N
- grupisanje rezultata u razrede je neophodno kod grafičkog prikazivanja
- kada i u ovom postupku moramo da računamo sa velikim brojevima, odredićemo proizvoljnu AS i računati samo
koliko ostali rezultati odstupaju od te sredine, i onda proizvoljnoj AS dodamo prosek svih odstupanja. Uz pomoć
privremene AS, M se može izračunati i na sledeći način:
M = Mpr – suma odstupanja/N
- proizvoljna (privremana) AS – oslanja se na pravilo da je suma svih odstupanja (računajući i algebarski
predznak) jednaka nuli
Kada neku pojavu izmerimo više puta i želimo da dobijemo zajedničku AS svih merenja, to ćemo učiniti na
N1M 1 N 2 M 2 ______ NnMn
sledeći način: M
N1 N 2 ______ Nn
17
One služe za reprezentaciju raspršenja rezultata. Na primer, aritmetička sredina nije nikakva garancija da se
rezultati grupišu oko njene vrednosti i zato je uvek potrebno znati kako i koliko se oni grupišu, odnosno da li je
dobijena aritmetička sredina dobar ili loš reprezentator rezultata.
1. RASPON (OPSEG)
On je najjednostavnija ali i najnetačnija mera grupisanja rezultata oko neke srednje vrednosti. Raspon je razlika
između najvećeg i najmanjeg rezultata . To je nesigurna mera jer je dovoljno da postoji i jedan ekstremni rezultat
(outlier) pa da se raspon poveća, a da se grupisanje oko aritmetičke sredine ne promeni. Na njega utiče i veličina
uzorka (br. merenja)
– raspon je to veći što je veći br. rezultata uzet u obzir. Kod idealno normalne distribucije raspon je jednak 6 SD.
2. SREDNJE ODSTUPANJE (PROSEČNO ODSTUPANJE)
Njime se određuje prosečno odstupanje pojedinih rezultata od aritmetčke sredine. Može se koristiti uz
aritmetičku sredinu, centralnu i dominantnu vrednost.
Formula:
PO = (∑ [X-M] ) / N [X-M] = apsolutna veličina
odstupanja
- Prosečno odstupanje je najpostenija (najpravednija) mera odstupanja, a moze biti i idealna mera samo pod
odredjenim uslovima.
- Prosečno odstupanje kao i aritmetička sredina predstavlja težiste (odstupanja od mere centralne tendencije)
- Kod računanja PO ne uzimamo u obzir algebarski predznak odstupanja tj. ne uzimamo u obzir u kom je smeru
odstupanje
3. STANDARDNA DEVIJACIJA
Kada bi se prosečno odstupanje računalo uzimajući u obzir predznake, rezultat bi uvek bio 0. Da bi se to izbeglo,
rezultat se kvadrira. Što je odstupanje veće to ono dolazi više do izražaja kada ga kvadriramo. Kada sumi svih
kvadriranih odstupanja izračunamo aritmetičku sredinu dobićemo meru varijabiliteta koja se zove VARIJANSA
(prosečna suma kvadriranih odstupanja) Drugi koren iz varijanse je standardna devijacija
SD = √ ∑(X-M)² / N-1)
Kada su rezultatai simetrično i normalno grupisani oko M, u intervalu -+1s, nalazi se 68,26% od ukupnog broja
rezultata, -+2s je 95,44%, a -+3s je 99,73% rezultata. SD se računa samo uz M. SD pokazuje nam koliko je M
dobar ili loš reprezentant rezultata.
Uz SD možemo predvideti u kojem se rasponu kreću praktično svi rezultati i to je njena najbitnija osobina –
obuhvatnost!
19
3. Asimptotčnost - krajevi ND se u nedogled približavaju X-osi ali je nikada ne dodiruju; nikada ne obuhvata
100% slučajeva
4. Kontnuiranost - neisprekidanost
27. POVRŠINA POD ND
To je teorijska distribucija relativne učestalosti vrednosti Y. Relativne učestalosti se izražavaju proporcijom, tj.
njihova suma je 1.0. Interval M +1σ obuhvata 0.34 rezultata (34%). Pošto je simetrična, +-σ obuhvata 0.68
rezultata, +-2σ obuhvata 0.95 rezultata, +-3σ 0.99 rezultata. Ako znamo z-skor možemo da odredimo koliki
procenat ispitanika se nalazi ispod i iznad tog skora. Ti procenti se nazivaju percentlima. Ako kažemo da je neki
ispitanik na 80-om percentilu to znači da 80% ispitanika ima niži skor od njega, a samo 20% viši.
28. ODSTUPANJA OD NORMALNE RASPODELE: ODSTUPANJE PO SIMETRIJI
Odstupanje ND po simetriji se zove zakošenost (skewness), i postoji dve vrste odstupanja:
1. Pozitvna zakošenost– ako distribuciona
kriva gravitira ka pozitivnim rezultatima, modalna
vrednost je na levoj strani (i tada kažemo da je test bio
težak) ASCD
20
3. Da su sva merenja izvršena istom metodom (na isti način) i u istim spoljašnjim uslovima (samo tada je
predmet merenja jedan jedini).
4. Uzorak na kome obavljamo istaživanje mora biti heterogen po svojstvu koje merimo, a homogen po svim
drugim svojstvima
32. DISTRIBUCIJE PODATAKA RAZLIČITE OD NORMALNE: POISSONOVA DISTRIBUCIJA
Kod ove distribucije, M je jednaka varijansi. Naziva se još i zakon retkih događaja. Kod testiranja Poissonove
distribucije, stepeni slobode se računaju : broj razreda – 2. Postoji postupak za izračunavanje Poissonove krive,
ali se brže računa preko Poissonovih tabela.
- Poissonova distribucija je teorijska distribucija raspodele događaja male verovatnoće.
33. TRANSFORMACIJA REZULTATA: SVRHA
Ako je distribucija normalna, poznato je koji procenat rezultata pada u koji interval. Interval u kojem se nalazi
rezultat lakše se određuje z-vrednostma. Njihov cilj je određivajnje položaja pojedinog rezultata u grupi. Da bi se
izbeglo računanje za svaki novi skup podataka, dolazi do transformacije rezultata (pretvaranja rezultata na
standardnoj skali ND).
Postoje razne transformacije: T, IQ, Z...One su mehanizmi za zaključivanje. Postoji nekoliko razloga za
transformacijom:
1. Pojednostavljivanje računanja (svim rezultatima se dodaje ista vrednost, translacija = pomeranje,
prevođenje rezultata).
2. Preglednost rezultata (eliminacija decimalnih mesta)
3. Korigovanje oblika distribucije (nelinearne transformacije menjaju oblik, linearne transformacije ostaju iste).
34. TRANSFORMACIJA REZULTATA: Z –VREDNOSTI
Kada rezultate izražavamo u jedinicama SD taj proces se zove pretvaranje (transformisanje) rezultata u z –
vrednost ili standardizacija rezultata. Za svaki pojedinačni skor možemo odrediti na koji deo SD pada (na koji deo
SD pada odstupanje jednog rezultata od M). Takođe možemo odrediti koji procenat skorova se nalazi ispod ili
iznad nekog konkretnog skora. Zet vrednost je vrsta transformacije. Cilj ove trasformacije je relativni učinak
(relativno postignuće), odnosno određivanje položaja pojedinog rezultata u grupi. Ova transformacija je
potrebna kada je potrebna prosečna ocena kod niza merenja koja se nalaze u istim jedinicama ali pomoću
testova koji imaju različit varijabilitet rezultata
- Transformacija sirovih (bruto) rezultata u z-vrednosti moze imati dvosmernu vezu.
- z-vrednosti zahtevaju ND jer su vezane za AS i SD
- zahtevaju najmanje intervalni nivo merenja
- z – vrednosti su ekvidistantne jedinice i mogu se zbrajati
- može se računati prosečni z - skor
- diferencijalna statistika se bavi indidvidualnim razlikama. Z – vrednosti se međusobno mogu porediti i to:
1. INTRAINDIVIDUALNO (unutar - pojedinačno): uspeh jednog pojedinca na različitim testovima
2. INTERINDIVIDUALNO (među – pojedinačno): uspeh različitih ispitanika na više testova; najbolji je onaj koji
ima najviši prosečni z – skor (npr. Prijemni ispit iz psihologije)
Formula za izračunavanje z – skora: Z = (X-M)/s
X – pojedinačni rezultat koji želimo da pretvorimo u z - skor
35. TRANSFORMACIJA REZULTATA U SKALE RAZLIČITE OD STANDARDNE
36. STATISTIČKO ZAKLJUČIVANJE: POPULACIJA I UZORAK
Inferencijalna statistika bavi se zaključivanjem sa uzorka na populaciju; procenjivanjem parametara populacije na
osnovu pokazatelja utvrđenih na uzorku; bazira se na slučajnom uzorkovanju.
Populacija (osnovni skup, statistička masa) predstavlja sve članove nekog skupa sa određenom karakteristikom
koju merimo. Svi članovi moraju biti homogeni po entitetu koji merimo; npr. populacija studenata psihologije -
zajedničko svojstvo im je da studiraju psihologiju a heterogeni su po ostalim karakteristikama (pol, godine,
nacionalna pripadnost, materijalno stanje itd.) Populacija je cilj zaključivanja, onaj domen o kome želimo da
saznamo i o kome želimo da zaključujemo. Nekada je populacija neograničena a nekada je praktično
21
nedostupna, ali i da je dostupna postoje razlozi za njeno ograničavanje (skupo, oduzima nam puno vremena,
mukotrpno...) – zato uzimamo uzorak. Uzorak je manji ili veći deo te populacije koji smo stvarno istraživali sa
ciljem da saznamo svojstva populacije.
Posle deskripcije uzorka , kondenzovajući i tumačeći rezultate, mi ih generalizujemo na populaciju (vršimo
estimaciju i inferenciju). Veličina i oblik varijacije uzorka zavisi od populacije i njenog sastava. Te varijacije su
dokaz da uzorak nije „mini duplikat“ populacije. Varijabilitet rezultata u populaciji direktno je proporcionalan
varijabilitetu rezultata iz uzorka.
- AS i SD uzorka su to manje što je uzorak (broj merenja) veći.
- Zajednička AS svih uzoraka je to bliže što je više uzoraka izmereno i što su ti uzorci veći.
- Raspršenje AS uzoraka oko je to manje što su uzorci veći
- AS uzoraka grupišu se oko po normalnoj raspodeli
Procenjujući na osnovu AS uzorka, mi po definiciji činimo grešku (svako merenje je sa greškom, a mi
procenjujemo na osnovu statistika – AS, ovo treba da je indirektno merenje jer se «manifestuje» preko
estimatora AS). Veličina te greške zavisi od tri stvari:
1. Reprezentativnosti uzorka
2. Veličine varijanse (varijabilnosti, raspršenja varijable odnosno pojave koju merimo),
3. Veličine uzorka
Teorema centralne granice – distribucija AS uzoraka iste veličine težiće ND čak iako populacija iz koje uzimamo
uzorke nije normalno distribuirana
37. STATISTIČKO ZAKLJUČIVANJE: VELIČINA UZORKA
Potrebna veličina uzorka zavsi prvenstveno od varijabilnosti pojave koju merimo. Ako je pojava malo varijabilna
biće nam dovoljan i manji uzorak, a kod jako varijabilnih pojava potreban je veliki uzorak. Na drugom mestu je
preciznost kojom želimo izmeriti pojavu. Što precizniji kriterijum želimo, to nam uzorak mora biti veći. Kod
istaraživanja retkih pojava uzorak nam mora biti vrlo veliki. Ako imamo kontrolni i eksperimentalni uzorak,
njihova veličina trebala bi biti približno jednaka.
Proporcija populacije uključena u uzorku ima samo blag uticaj na standardnu grešku aritmetičke sredine,
pogotovo ako govorimo o velikim populacijama. Za uzorak je mnogo bitnije da bude reprezentativan nego velik;
ako uzorak nije dovoljno reprezentativan ništa mu ne vredi njegova veličina.
38. STATISTIČKO ZAKLJUČIVANJE: REPREZENTATIVNOST UZORAKA
Da bi generalizacija sa uzorka na populaciju imala smisla, uzorak mora biti takav deo populacije koji poseduje ista
ili slična svojstva kao i populacija. Sličnost uzorka i populacije se opisuje pojmom reprezentativnosti. Drugim
recima reprezentativnost uzorka je skup osobina uzorka od kojih zavisi koliko je on verna slika populacije i da li je
doslovno odražava. Ako je uzorak ''isti'' kao populacija, naše generalizovanje i estimacija su opravdani. Pošto
uzorak ne može u svim svojstvima biti jednak populaciji, poželjno je da reflektuje populaciju u svojstvima koja su
relevantna za naše ispitivanje. Ideja o reprezentativnosti kao zahtevu počiva na tome da se treba ograničiti na
relevantna svojstva za nase istrazivanje. Reprezentativnost uzorka u odnosu na populaciju je osnovni kvalitet bilo
kog uzorka jer, ako uzorak po svojstvima koje nas interesuju ne liči na populaciju, onda je kompletna zamisao
izneverena. Pošto ne postoje jedinstveni brojčani pokazatelji kojima bismo prikazali meru reprezentativnosti,
postavlja sa pitanje kako da se uopšte ona proceni. Prvi i osnovni način za ocenu reprezentativnosti uzorka je u
evaluaciji procedure uzorkovanja – ako su poštoveni principi prostog slučajnog uzorkovanja (jedakih verovatnoća
biranja) možemo da kažemo da je taj uzorak ispunio uslove da bude reprezentativan.
Drugi preduslov za postizanje reprezentativnosti je pravilno dimenzioniranje uzorka.
39. PRINCIPI I TEHNIKE UZORKOVANJA: JEDNOSTAVNI NASUMIČNI UZORAK
Metode obezbeđivanja reprezentativnosti uzorka predstavljaju najbolji način da on bude nepristrasno utvđen
(izvucen iz populacije). Kada izvlacimo pojedinacne entitete nesmemo praviti diskriminaciju pojedinih kategorija,
vec obezbeđujemo da slucaj odlucuje. Ako nasumice biramo entitete veca je verovatnoca da ce se odraziti sva, a
i za nas relevantna svojstva.
22
Postupak uzorkovanja (izvlačenja uzorka) počinje na primeni zakona verovatnoće. Tehnički izbor je nasumični
izbor koji je i najčešće korišćeni metod. Nasumičnim izborom dobijamo jednostavni nasumični uzorak – ovde
slučaj odlučuje, a svi članovi populacije imaju jednaku verovatnoću da budu izabrani. Izbor svakog člana ne zavisi
od izbora ostalih članova.
40. PRINCIPI I TEHNIKE UZORKOVANJA: STRATIFIKOVANI NASUMIČNI UZORAK
Potrebnim korigovanjem nasumičnog izbora dobijamo stratifikovan nasumični uzorak. Korigovanje se sastoji u
određivanju stratuma (slojeva) ili areala – nehijerarhijskih delova populacije. Svakom stratumu određujemo
njegov procenat (proporciju) i udeo u ukupnoj populaciji, i na osnovu njega određujemo udeo koji će imati u
uzorku. Ponovo vršimo uzorkovanje na bazi slučaja (nasumično uzorkovanje).
Ponekad ne moramo koristiti proporcionalnu zastupljenost areala, već možemo uzeti podjednak broj slučajeva iz
svakog od naših areala, iako su oni nejednake veličine. To sve može zavisiti od ciljeva našeg istraživanja. Ovako
dobijamo neproporcionalni stratifikovan uzorak.
* postoje još neki verovatnosni uzorci: sistematski, klaster, kvotni
41. PRINCIPI I TEHNIKE UZORKOVANJA: NEVEROVATNOSNI UZORCI
Verovatnosni uzorci su oni čije se uzorkovanje bazira na zakonu verovatnoće (nasumični izbor).
Neverovatnosni uzorak (prigodni uzorak) je uzorak čija se tehnika uzorkovanja ne zasniva na statistici (na zakonu
verovatnoće) ali je legitimna (potrebna, opravdana) iz različitih razloga. To je onaj uzorak koji nam se “nađe pri
ruci” jer drugog nemamo.
42. STANDARDNA GREŠKA PROCENE ARITMETIČKE SREDINE
- Procenjujući μ na osnovu AS uzorka mi po definiciji činimo grešku, pa se postavlja pitanje kolika je ta greška i
od čega ona zavisi.
Procena može biti:
Fiksna procena – kada se greška tretira kao puko odstupanje , puka razlika između M i μ
Intervalna procena – omogućava nam da vidimo koliko smo daleko od populacije i u kom intervalu se
ona kreće. Te granice se zovu intervali pouzdanosti (poverenja)
Postoje naukom dogovorene veličine za rizik od greške. To su najčešće rizik od greške od 1% i od 5%. 1% je
strožiji kriterijum. Nivo statističke značajnosti može dvojako da se posmatra:
a) Pri nivou značajnosti od 0.05 rizik da ćemo pogrešiti je 5%
b) Broj ponovljenih operacija a da ishod bude jednak – kada bi pri nivou značajnosti od 0.05 uradili 100
istraživanja pod istim uslovima, 95 puta ćemo dobiti isti ishod a 5 puta drugačiji
SM zavisi od:
- Varijabilnosti varijable u
populaciji
- Veličine uzorka
- Reprezentativnosti uzorka
Varijabilnost
M će biti bliže μ što je
raspršenje varijable u
populaciji manje. Što je
raspšenje veće imamo više
razbacanih rezultata dalje od
AS i više šanse da napravimo
grešku.
Veličina uzorka
O veličini greške odlučuje i veličina uzorka. Ako imamo mali
uzorak lako se može dogoditi da izvučemo ekstremne
23
vrednosti. Povećavajući uzorak sve više i više, naša greška se smanjuje tj. tačnost procene naglo raste, zatim
usporava, i na posletku, posle određenog broja, tačnost ostaje konstantna i nema smisla više povećavati uzorak.
To se lepo ilustruje krivom negatvne akceleracije:
Reprezentatvnost uzorka
Problem reprezentativnosti uzorka je i dalje prisutan i time utiče na grešku procene. Kad dobijemo bruto (sirove)
rezultate, mi ne znamo ništa o reprezentativnosti. Za razliku od raspršenja i veličine uzorka, ona se ne može
kvantifikovati, pa smo primorani da smatramo da je reprezentativnost ostvarena u nekoj meri. Ipak jedno
možemo zaključiti: što uzorak vernije reprezentuje populaciju, to će greška procene biti manja.
Greška procene parametra na osnovu statistika M biće utoliko manja ukoliko je raspršenje varijable u
populaciji manje i što je uzorak koji je reprezentuje veći.
Greška procene parametra na osnovu statistika M biće utoliko veća ukoliko je raspršenje varijable u
populaciji veće i što je uzorak koji je reprezentuje manji.
σ (standardna devijacija populacije) – nam je nepoznata i mi možemo samo da nastojimo da je pogodimo.
Koristimo njenu procenu, približnu vrednost, kao zamenu za nju – standardnu devijaciju uzorka (s). prava
formula za standardnu grešku bila bi:
σM = σ / √N standarda greška aritmetčke sretčke sredine
σM – zapravo predstavlja standardnu devijaciju aritmetičkih sredina uzoraka oko prave, populacijske aritmetičke
sredine. Standardna greška je takođe standardna devijacija, ali dok je SD (s) mera variranja individualnih
rezultata oko njihove aritmetičke sredine, dotle je standardna greška mera variranja aritmetičkih sredina uzoraka
oko prave, populacijske aritmetičke sredine (μ). Pošto nam je σ nepoznata, fomula će glasiti:
SM = s / √N procena standardne greške aritmetčke sredine
Korenovanje je intervencija kojom veštački smanjujemo vrednost učečša veličine uzorka u proceni greške μ. Kao
posledicu u praktičnim istraživanjima dobijamo da nam povećavanje uzorka ne donosi i linearno smanjenje
standardne greške procene aritmetičke sredine populacije.
Uzorkovajući nasumično mi po pravilu postižemo da u varijabli koja ima manji opseg dobijemo i manji opseg na
uzorku, kao što ćemo na širokom opsegu dobiti i širok opseg uzorka.
43. STATISTIČKO ZAKLJUČIVANJE: INTERVALI POVERENJA I NIVOI ZNAČAJNOSTI
Posle izračunavanja procene greške aritmetičke sredine s M postavlja se pitanje: «šta dalje?»
- Kolika greška treba da bude da bi je smatrali velikom, a kolika da bi je smatrali dopustivom? Kolika je dopustiva
greška?
- Sa koliko sigurnosti (poverenja) možemo da prihvatimo rezultat izračunat uz određenu grešku?
Na ova pitanja ćemo odgovoriti posmatrajući distribuciju uzorka. Uzoračka distribucija je distribucija mogućih
uzoraka i njihovih aritmetičkih sredina koji se iz nekih populacija daju izvući. Svi ti uzorci imaju aritmetičke
sredine koje sve manje-više odstupaju od μ. AS uzoraka imaju svoju raspodelu. Tu raspodelu čine normalnom AS
uzoraka koje gravitiraju (teže) μ (njih ima više), kao i oni koji se manje-više raspršuju oko nje. Kada bi kojim
slučajem imali dostupne sve uzorke jedne populacije i njihove aritmetičke sredine, M tih aritmetičkih sredina
morala bi biti jednaka μ.
Aritmetička sredina je nepristrasan, konzistentan estimator. Nepristrasan je jer nijedan faktor ne odvlači
vrednost aritmetičke sredine od μ jer je uzorkovanje slučajno.
Aritmeti~ke sredine uzoraka se oko njihove (ujedno i populacijske) AS distribuiraju normalno. Za njih stoga važe
sva pravila za normalnu distribuciju. Njihov raspon podeljen je u 6 ekvidistantnih segmenata koji obuhvataju
slede}u povr{inu:
M ± 1 s = 68% rezultata
M ± 2 s = 95% rezultata
M ± 3 s = 99.9% rezultata (100%)
Odavde se zaključuje da AS svakog dovoljno velikog i reprezentativnog uzorka ima 68%
24
{anse da padne u +- 1 SD populacije, 95% {anse da padne u opseg od +- 2 SD i 99.9% da padne u opseg od M +- 3
SD.
Mi zapravo treba da procenimo udaljenost M uzorka od μ populacije, ali po{to je njihov odnos, naravno,
recipro~an, a mi nemamo drugog izbora, procenjujemo (udaljenost) μ na osnovu M.
Intervali pouzdanost (poverenja) zapravo govore kolike su verovatnoće da se μ nalazi na određenim
udaljenostima od M uzorka (u određenom rasponu). Od 3 moguća nivoa poverenja u statistici se teži da se uzme
što veći, sa strogim zahtevima i malom verovatnoćom da smo pogrešili. 95-o procentni nivo poverenja se obično
smatra dovoljnim da se u nauci nešto utvrdi.
Populaciska AS može da se procenjuje na dva načina:
1. fiksna procena – kada se grečka tretira kao puko odstupanje, puka razlika (mi-M)
2. intervalana procena – omogućava nam da vidimo koliko smo daleko od
populacije i u kojim granicama se ona kreće. Te granice se se zovu intervali poverenja.
Kada se procenjuje populacijski parametar uvek postoji neka greška procene. Postoje
naukom dogovorene veličine za rizik od greške. To su najčešće rizik od greške od 1% i
5%. 1% je strožiji kriterijum. U statistici se nivo značajnosti može posmatrati dvojako:
- rizikujemo 5% da ćemo napraviti grešku na nivou značajnosti od .05
- broj ponovljenih operacija a da ishod bude jednak tj. ako uzmemo nivo značajnosti od 5% kažemo da će od 100
istraživanja iste pojave, pod istim uslovima, 95 dati isti ishod a 5 puta će se desiti drugačije.
nivo poverenja 95% = nivo značajnost .05 = nivo rizika 5%
nivo poverenja 99% = nivo značajnost .01 = nivo rizika 1%
Odabir nivoa značajnosti je arbitraran (zavisi od volje i odluke istraživača).
44. STATISTIČKO ZAKLJUČIVANJE: STEPENI SLOBODE
Stepeni slobode odnose se na umanjenja koja se uvrštavaju u formule i služe za korekciju rezultata. Uz pomoć
njih teži se da se dobije što preciznija mera koja neće imati sistematsku tendenciju da bude ili uvek veća ili uvek
manja od populacijskog pandama. Najčešće se nalazi u imeniocu i uzorak se umanjuje (N-1, N-2 ...) da mera ne bi
bila sistematski veća. Takođe može da se oslanja na dimenzionalnost varijable. Pribegavamo stepenima slobode
samo kada imamo ograničavajući faktor (to je aritmetička sredina koju predhodno treba izračunati kao uslov da
se računaju odstupanja). AS je nepristrasan estimator dok je SD pristrasan jer je ograničena aritmetičkom
sredinom (ne možemo izračunati SD ako ne znamo AS).
45. STATISTIČKO ZAKLJUČIVANJE: NULTA HIPOTEZA H0
Problem istraživanja se iskazuje u vidu pitanja. Na to pitanje se daje probni odgovor I to je istraživačka hipoteza
koja se obično izražava u formi nulte hipoteze. Nulta hipoteza je pretpostavka da nema razlike medju
populacijama cije uzorke uporedjujemo. Testiranjem razlika medju populacijama mi pokusavamo da nulifikujemo
(ponistimo) nultu hipotezu.
Čim postavimo H0 imamo u vidu I alternatvnu hipotezu H1. Te dve hipoteze moraju biti mutualno ekskluzivne I
moraju obuhvatati sve vrednosti parametara. Ili je tačna jedna hipoteza ili druga, treće alternative nema!
46. GREŠKE (TIPA I I II) U STATISTIČKOM ZAKLJUČIVANJU
- Greška tpa I (α) je greška pri nulifikovanju nulte hipoteze, tamo gde je zapravo treba prihvatiti tj. odbacujemo
tačnu H0. Ona se dešava obično pri blažem nivou značajnosti (p = 0.05). Zove se još i ’’greška hiper produkcije
nalaza ’’
- Greška tpa II (β) je greška pri prihvatanju nulte hipoteze tamo gde je zapravo treba nulifikovati tj. prihvatamo
pogrešnu H0.Ona se dešava obično pri strožijem nivou značajnosti (p = 0.01). zove se još i ’’greška propuštanja
šanse.’’
Greška tipa I je opasnija jer ćemo u proseku kod svakog 20-og istraživanja, jednom pogrešno nulifikovati nultu
hipotezu. Kod greške tipa II i prihvatanja nulte hipoteze tamo gde je zapravo treba odbaciti, uvek ćemo posle
toga imati priliku da ponovo testiramo razlike. Ni jedna hipoteza nije do kraja tačna niti pogrešna jer će uvek
neko posle raditi to istraživanje i može da dokaže suprotno.
* t-test
25
- t-test služi za testiranje značajnosti razlike između aritmetičkih sredina dva uzorka (uvek samo dva!). Testiramo
razlike između AS zato što su one najbolji reprezentanti uzorka. Kada kažemo da postoji statistički značajna
razlika to znači da ta razlika nije slučajna već i da među populacijama postoji razlika. Ako kažemo da razlika nije
statistički značajna to znači da je ona slučajna i da među populacijama ne postoji.
Formule za izračunavanje t-testa
N ( N 1)
- Kod t-testa nulta hipoteza glasi : ne postoji statistički značajna razlika između aritmetičkih sredina dva uzorka
H0 = M1 = M2
H1 = M1 ≠ M2
- Generalni model testiranja razlika u statistici glasi : ∆mg /∆ug
tj. međugrupne razlike se suprotstavljaju unutargrupnim razlikama.
- Međugrupne razlike ∆mg kod t-testa predstavljaju razliku između AS dva uzorka
∆mg = M1-M2
- Unutargrupne razlike ∆ug kod t-testa predstavljaju odstupanja svakog individualnog rezultata od pripadajuće
AS, tj. predstavljaju standardnu grešku razlike
∆ug = sM1-M2
26
M1 M 2 s1
2
s
2
t s M1 M2 2
s M1M 2 N1 N2
Da bi neka razlika bila statistički značajana ona kod velikih uzoraka mora biti 1.96 puta veća od svoje greške,
odnosno t ≥ 1.96 (uz nivo značajnosti od 0.05) ili uz strožiji nivo
značajnosti (od 0.01) t ≥ 2.64
- kod velikih uzoraka i dobijene razlike M1-M2 i dobijeni t-odnosi se distribuiraju po normalnoj raspodeli
Mali nezavisni uzorci
Kod malih uzoraka dobijene razlike M1-M2 se distribuiraju po ND, ali ne i t-odnosi. Oni se raspoređuju po t-
raspodeli koja je slična ND ali je šira. t-raspodela je to šira što je uzorak manji. Kreće se od -3.5t do +3.5t
*t-odnos – standardna greška razlike između dve AS
Kod malih uzoraka nema kriterijuma od 0.01 ili 0.05 već se kriterijumi menjaju u zavisnosti od veličine uzorka, pa
se uzimaju stepeni slobode. T-vrednosti zavise od stepena slobode. U velikom broju računa stepeni slobode su
broj rezultata smanjen za 1: N-1 (ali može biti i N-2, N-3...) da bi znali da li je dobijena razlika između aritmetičkih
sredina značajna moramo se služiti t-tablicom, iz nje očitavamo graničnu vrednost t, koliko puta,uz određenu
veličinu uzorka, mora razlika biti veća od svoje greške da bi smo je mogli smatrati statistički značajnom.
Pri računanju značajnosti razlike između AS dva mala uzorka, pod pretpostavkom da su oba uzorka iz iste
populacije, mi ćemo izračunati zajedničku standardnu devijaciju.
s N 1 s 2 N 2 1
2 2
N1 N 2
s zajednicka 1 1 s M1 M 2 s zajednicka
N1 1 N 2 1 N1 N 2
Međutim to smemo uraditi samo ako se SD dva uzorka ne razlikuju značajno tj. ako su varijanse homogene.
Homogenost varijanse proveravamo uz pomoć F-testa .
veća varijansa
F = ———————
27
manja varijansa
Značajnost F-testa očitavamo u tablicama. Ukoliko F-test nije značajan možemo računati t-test. Ako je F-test
značajan mi možemo da primenimo :
1. Aproksimativnu metodu Cochran-a i Cox-ove
2. Neparametarski test sume rangova – testira da li ta dva mala uzorka pripadaju
populaciji sa istom Mdn
3. Da računamo t-test ali pod uslovima da su uzorci :
- slični po veličini
- slično ne-normalni (npr. distribucije oba uzorka su zakrivljene u levo, ili su
obe platikurtične itd... )
48. ZNAČAJNOST RAZLIKA IZMEĐU ARITMETIČKIH SREDINA: ZAVISNI UZORCI
Zavisni uzorci su u korelacionoj vezi. Jedna grupa je sama sebi kontrola. Na jednom uzorku se vrše dva merenja.
Posle prvog (pretest) se grupa podvrgava određenom tretmanu a zatim ponovnom merenju (posttest) da bi se
utvrdilo da li je došlo do neke pomene, da li postoji razlika uzmeđu ta dva merenja.
Veliki zavisni uzorci
s M1 M 2 s M2 1 s M2 2 2r12 s M 1 s M 2
49. ZNAČAJNOST RAZLIKA IZMEĐU ARITMETIČKIH SREDINA: MALI ZAVISNI UZORCI
Za testiranje značajnosti razlike između malih zavisnih uzoraka upotrebljavamo metodu diferencijacije. Ova
metoda markira promenu između dva merenja za svakog ispitanika posebno. Individualne razlike parova
rezultata se tretiraju kao jedan novi uzorak koji se dalje obrađuje kao i svaki drugi.
Metoda diferencijacije podrazumeva sledeće korake :
1. Za svakog ispitanika izračunamo diferencijaciju (promena a ne razlika!)
2. izračunamo aritmetičku sredinu sume dif
3. računamo odstupanje pojedinačnih promena od prosečne promene dif-Mdif i dobijamo kolonu d
4. kvadriramo d
5. računamo standardnu devijaciju dif po formuli : SDdif = √Σd² / N-1
6. računamo standardnu grešku prosečne promene : sMdif = SDdif / √N
X dif
t
7. računamo d 2
N ( N 1)
29
2. suma očekivanih frekvencija mora biti jednaka sumi opaženih (teorijskih) frekvencija. Moramo raditi sa
klasifikacijama koje su disjunktne = svaki ispitanik može dati samo jedan odgovor po varijabli. Jedino tako će zbir
marginalnih frekvencija biti jednak N
3. uzorak na kome radimo χ² mora biti dovoljno veliki –broj ćelija sa nultim vrednostima ne sme biti previše
velik a vrednosti u ćelijama ne smeju biti previše niske. Rešenje : ograničiti broj niskofrekventnih i praznih ćelija.
Različiti autori postavljaju različite zahteve.
4. kad go u χ² testu radimo sa nekim svojstvom koje se pojavilo, u račun treba staviti i frekvencije u kojima se to
svojstvo nije pojavilo.
58. HI-KVADRAT TEST: POSTUPCI U SLUČAJU NEZADOVOLJENIH USLOVA ZA PRIMENU
1. Ako imamo veliki uzorak a ipak ima puno niskofrekventnih ćelija, radi se Yates-ova korekcija – svaka razlika
između očekivanih i opaženih frekvencija umanji se za 0.5 pre kvadriranja. Smanjujući χ² dajemo mu manju
šansu da bude statistički značajan.
f f t 0.5
2
2 o
korekcija za nezavisne uzorke
ft
A D 1 2
ft
χ²=9.5 df=5 hi-kvadrat nije značajan na nivou yna ;ajnosti od .05, prihvatamo nultu hipotezu
Kada imamo jedan uzorak i jednu varijablu, mi možemo uvesti drugu varijablu i napraviti tabelu kontingencije
koja ima dva ulaza za dve varijable za svakog ispitanika. Na osnovu odgovora subjekata udaramo recke u ćelije,
dobićemo visokofrekventne, niskofrekventne i prazne. Zatim ćemo izračunati marginalne frekvencije – zbir frekv.
po kolonama i redovima. Zbir marginalnih frekv. mora biti jednak broju ispitanika N. To će se desiti samo ako
svaki ispitanik da samo jedan odgovor po varijabli.Marginalne frekv. nam daju više informacija. Testiramo
hipotezu : da li se naša dobijena opažena frekv. bitno razlikuje od teorijske?
Marginalne
Psihologija Pravo Ekonomija Poljoprivreda
frekv.
Za dečija igrališta 7 5 10 11 33
Za decu sa posebnim
potrebama 27 22 19 23 91
Za renoviranje i gradnju
6 8 11 7 32
škola
Za decu sa kosova 10 15 10 9 44
Marginalne frekv. 50 50 50 50 N = 200
Pitali smo studente navedenih fakulteta za kojiu humanitarnu akciju bi najpre dali donaciju. Predpostavljamo da
nema statistički značajne razlike između studenata navedenih fakulteta i njihove odluke. Uradićemo
A D
Ćelije A i D predstavljaju one ispitanike kod kojih je došlo do promene. Ovde očekivane frekvencije ne računamo
po standardom postupku jer bi nam to dalo potpuno nelogične i neupotrebljive rezultate.
62. HI-KVADRAT TEST: ODREĐIVANJE ZNAČAJNOSTI
Tabela kritičnih vrednosti hi- Kad ne bi našli nikakve razlike između opaženih i očekivanih frekvencija
kvadrat testa: izraz χ² bio bi 0. Što su razlike između opaženih i očekivanih frekvencija
Df / nivo veće, to je veći i definitivni izraz χ². Sto je χ² manji to je verovatnije da treba
.05 .01
znač. prihvatiti H0, a što je χ² veći to je verovatnije da H0 treba odbaciti jer se
1 3,841 6,635 opaženi rezultati znatno razlikuju od onih koje bi smo pod određenom
2 5,991 9,210 hipotezom očekivali. Tablica graničnih vrednosti hi-kvadarata pokazuje
3 7,815 11,345 koliko najmanje mora iznositi χ², uz određeni broj stupnjeva slobode, da bi
4 9,488 13,277
bio statistički značajan i da bi mogli odbaciti hipotezu. I ovde možemo tražiti
5 11,070 15,086
6 12,592 16,812 značajnost na nivou od 1% ili 5%.
7 14,067 18,475 Stepeni slobode = broj redova – 1×broj kolona – 1 df = (r-1)(k-1)
- kada imamo jednu varijablu df = broj ćelija – 1
31
63. SMISAO I PRINCIPI KORELACIJE
Koeficijent korelacije = stepen povezanosti iskazan brojem. Dobija se iz korelacionog računa.
Korelacija može biti:
1. Potpuna (maximalna) i pozitivna – linearnom porastu jedne varijable odgovara linearni porast druge varijable
ali tako da jednom rezultatu jedne varijable odgovara samo jedan rezultat druge varijable. To je najveća moguća
povezanost i iznosi r = +1
2. Nepotpuna i pozitivna – porastu jedne varijable odgovara porast druge varijable ali tako da jednom rezultatu
jedne varijable odgovara više rezultata druge varijable. 0<r<1
3. Nema korelacije – nekom rezultatu u jednoj varijabli odgovara bilo koji rezultat u drugoj varijabli. r =0
4. Nepotpuna i negativna – porastu jedne varijable odgovara pad druge varijable ali tako da jednom rezultatu
jedne varijable odgovara više rezultata druge varijable. -1<r<0
5. Potpuna (maximalna) i negativna – linearnom porastu jedne varijable odgovara linearni pad druge varijable,
ali tako da jednom rezultatu jedne varijable odgovara samo jedan rezultat druge varijable. r = -1
U prirodi se gotovo nikada ne
dešavaju maximalne korelacije jer
su pojave koje proučavamo veoma
varijabilne.
Pre nego što počnemo računati
povezanost koja nas zanima,
rezultate ćemo prikazati grafički
scatter-diagramom (diagram
raspršenja). Izračunavanje r
koeficijenta sprovešćemo ako je
povezanost manje-više linearna.
Linearna povezanost je takva povezanost koja se grafički može prikazati ravnom crtom. Postoje korelacije koje su
zakrivljene - imaju dva trenda, pravca.
X – nezavisna varijabla; možemo je samovoljno menjati
Y – zavisna varijabla; ono što istraživanjem želimo ustanoviti
Kada bi povezanost između dve varijable bila besprekorna svaki ispitanik bio bi u obe varijable na jednakim
mestima. Veličina razlika među zbrojenim z-vrednostima zavisi od visine povezanosti između varijabli; kada je
stepen povezanosti maksimalan razlike nema. Što je povezanost slabija to su razlike među z-vrednostima veće.
AS razlika među z-vrednostima nužno je nula. Visinu povezanosti između varijabli pokazuje nam prosek sume
svih kvadriranih razlika među z-vrednostima. Prosek ovde znači podeljen sa N-1.
r
(z x z y )2
N 1
Prosek dobijen ovom formulom nije pogodan jer se kreće od 0 do 4. mnogo je lakše interpretirati smer i stepen
povezanosti na sledeći način:
r=1-½ (z x z y )2
ovaj izraz je identičan izrazu r (z x z y )2
N 1 N 1
Ovaj koeficijent ima sledeće karakteristike:
- visina korelacije je prosečan proizvod između z-vrednosti obe varijable
- vrednost 0 znači da nema nikakve povezanosti među varijablama
- apsolutno veći broj koeficijenta znači veću povezanost; manji broj znači manju povezanost
- predznak koeficijenta označava smer korelacije: + pozitivna i – negativna povezanost
- najveća moguća pozitivna vrednost koeficijenta iznosi +1, a najveća moguća negativna vrednost koeficijenta –
1.
32
û Ako je neki rezultat X veći od Mx, i korespodentni rezultat Y veći od My, onda će i zx i zy biti pozitivnog
predznaka pa će i njihov produkt zx × zy biti + predznaka. Ako je neki rezultat X manji od Mx, i korespodentni
rezultat Y manji od My, onda će i zx i zy biti negativnog predznaka ali će njihov produkt biti + predznaka. Produkt
zx zy biće maksimalno pozitvna ako su oba člana para numerički jednaki (jednom rezultatu u X varijabli
odgovara ist taj rezultat u Y varijabli) i istog predznaka.
û Ako su korespodentne vrednosti z pretežno istog predznaka ali ne uvek
jednake numeričke vrednosti, r će bit pozitivan ali ne maksimalan r +1
û Ako među varijablama postoji potpuno negativan odnos to znači da će
nekoj vrednosti X, koja je iznad Mx, odgovarati korespodentna vrednost Y koja
je ispod My isto koliko je X iznad Mx. U tom slučaju produkt zx zy biće uvek
negatvan i to maximalno negatvan.
û ako su korespodentne z vrednosti pretežno suprotnog predznaka ali ne
jednake numeričke vrednosti biće -1 r 0
Koeficijent determinacije - r² - ukazuje nam na procenat zajedničkog variranja
(kovariranja) između dve varijable i to je kovarijansa
64. INTERPRETACIJA KOEFICIJENTA KORELACIJE
Ako je merenje sprovedeno na velikom broju slučajeva, kao gruba aproksimacija visine povezanosti između dve
varijable služi nam sledeća tablica:
r = od 0.00 do ± 0.20 znači nikakvu ili neznatnu povezanost
r = od 0.20 do ± 0.40 znači laku povezanost
r = od 0.40 do ± 0.70 znači stvarnu zanačajnu povezanost
r = od 0.70 do ± 1.00 znači visoku ili vrlo visoku povezanost
Procenat zajedničkih faktora je manji od broja izraženog u korelaciji, i sve je manji što je korelacija niža. Približno
možemo odrediti količinu zajedničkih faktora uz pomoć koeficijenta determinacije, tj. kvadrirnjem koeficijenta
korelacije. Npr. ako je r = 0.40 kvadriranjem dobijamo da te dve varijable imaju 16 % zajedničkih faktora.
Dvostruko veći koeficijent znači četiri puta veću povezanost, trostruko veći koeficijent znači devet puta veću
povezanost itd.
Visina korelacije može biti posledica raznih faktora, a ne samo povezanosti:
Grupisanje rezultata – grupisanje rezultata u razrede neće značajno menjati koeficijent korelacije ako je broj
razreda dovoljno veliki. Što je broj razreda manji to se koeficijent korelacije više deformiše.
Zakrivljeni odnos – ako odnos između dve varijable nije linearan nego zakrivljen, r može biti toliko iskrivljen
da njegovo izračunavanje nema nikakvog smisla.
Eliminisanje vrednost oko aritmetčke sredine – ako nam je varijabla recimo, starost u godinama, a želimo
utvrditirazlike u stavovima između starih i mladih, eliminisaćemo vrednosti oko AS tj. nećemo uzeti u obzir ljude
srednjih godina
Podskupovi sa različitm AS – sve ukupno predstavljaju povezanost iako ona realno ne postoji
Utcaj raspona – ako je raspon u jednoj varijabli ograničen on će biti nužno ograničen i u drugoj varijabli, što
značajno smanjuje koeficijent korelacije
Kauzalno interpretranje korelacije – znači da je jedna varijabla uzrok drugoj, ali sama činjenica da između dve
varijable postoji korelacija ne daje nam za pravo da te pojave povežemo kauzalnom vezom (cak i kada je to
ocigledno!)
65. USLOVI ZA RAČUNANJE PRODUKT-MOMENT KOEFICIJENTA KORELACIJE: MERNA SKALA I NORMALNOST
DISTRIBUCIJE
Racunanje r zahteva da su merene vrednosti (varijable) sa intervalnog ili razmernog (racio) nivoa. Iz toga
zaključujemo da r zahteva i normalno distribuiranje varijabli, a to je logično iz još jednog razloga – r se zasniva na
z-vrednostima. Visina korelacije je prosečan proizvod između z-vrednosti obe varijable. Prosečan ovde znači
podeljen sa N-1. Koeficijent korelacije se može računati i ako su distribucije varijabli simetrične npr. zakošene su
na istu stranu
33
66. USLOVI ZA RAČUNANJE PRODUKT-MOMENT KOEFICIJENTA KORELACIJE: LINEARNI ODNOS IZMEĐU VARIJABLI
Linearna povezanost je takva povezanost između varijabli koja se grafički može prikazati ravnom crtom tj
pravcem. Ovde mozemo pomenuti 5 oblika linearne povezanosti:
o Potpuna (maximalna) i pozitivna
o Nepotpuna i pozitivna
o Nema korelacije
o Nepotpuna i negativna
o Potpuna (maximalna) i negativna
Mnogo je složenije precizno izračunavanje drugih oblika povezanosti, nego izračunavanje linearne povezanosti.
67. USLOVI ZA RAČUNANJE PRODUKT-MOMENT KOEFICIJENTA KORELACIJE: HOMOSKEDASCITET
Pri racunanju koeficijenta korelacije moramo uzeti u obzir da rasprsenje rezutata oko linije korelacije mora biti
manje-vise podjednako uz citavu duzinu pravca. Osobina skater dijagrama da je u svim delovima podjednako
sirok naziva se homoskedascitet
68. IZBOR POSTUPAKA (KOEFICIJENTA) ZA RAČUNANJE KORELACIJE
Koji koeficijent korelacije ćemo primeniti zavisi od:
- normalnosti distribucije rezultata
- vrste skale merenja i vrste varijable
- da li su varijable u linearnom odnosu ili ne
1. Pirsonov produkt-moment koeficijent korelacije r
- zove se još i koeficijent linearne korelacije
- njega primenjujjemo pod sledećim uslovima:
a) kada su obe varijable sa najmanje intervalnog nivoa
b) obe varijable se normalno distribuiraju
c) varijable su u linearnom odnosu
2. Spirmanov koeficijent rang korelacije Ro (ρ)
- Rang-korelacija daje samo približnu indikaciju asocijacije između dve varijable i koristimo je samo kada
nemamo ispunjene uslove za r. Tada rangiramo rezultate varijabli i računamo Ro
- Uslov za računanje ovog koeficijenta je da bar jedna varijabla bude sa rang nivoa
6×ΣD²
Ro = 1- ———— N(N+1) / 2 – suma rangova
N(N²-1)
- Dešava se da više ispitanika ima isti rezultat, njima dodeljujemo i isti rang – zbrojimo rangove koje bi oni
zauzimali i podelimo brojem tih rangova. Treba napomenuti da vezani rangovi veštački povećavaju vrednost; što
je vezanih rangova više to je raspršenje rezultata veće. U takvim slučajevima primenjujemo korekturu u računu.
Razlika između korigovanog i nekorigovanog koeficijenta postaje to veća što su razlike među rangovima jedne i
druge varijable veće, tj. što je korelacija između njih niža (Razlika između korigovanog i nekorigovanog
koeficijenta obrnuto je proporcionalna korelaciji među varijablama)
3. Kendalov koeficijent rang korelacije Tau (τ)
Razlikuje se od Ro po sledećim svojstvima:
- kada bi na istom materijalu primenili oba koeficijenta, izraz Tau je uvek niži od izraza Ro
- Ro koeficijent je pogodniji jer on kvadrira razlike i ti me više naglašava veće nego manje razlike
- Uz Tau može da se računa parcijalna korelacija, dok uz Ro ne može
- Tau se može koristiti za koreliranje jedne ordinalne varijable sa jednom dihotomnom nominalnom
- Apoksimacija normalne raspodele mnogo je bolja kod Tau koeficijenta
4. Point biserijalni rpb
- Uslovi za primenu ovog koeficijenta su:
nešto više o korekturi u Pecu, str. 202
34
a) Jedna varijabla se raspoređuje normalno, što znači da je sa najmanje intervalnog nivoa i da je kontinuirana
b) Druga varijabla je prirodno dihotomizirana
5. Biserijalni rbis
- Uslovi za primenu ovog koeficijenta su:
a) Jedna varijabla se raspoređuje normalno, što znači da je sa najmanje intervalnog nivoa i da je kontinuirana
b) Druga varijabla je veštački dihotomizirana ali mora postojati predpostavka o normalnoj distribuciji
6. Fi koeficijent (φ)
- Računa se iz kontingencijske tabele koja nužno mora biti 2×2.
- testira povezanost između dve varijable koje su podeljene u dve kategorije
- bar jedna varijabla mora biti prirodno dihotomizirana
φ = a×d - b×c / sqrt (a+b)(c+d)(a+c) - prvi način
a b a+b
φ = √ χ²/N χ² = Nφ² - drugi način
c d c+d
Ako je značajn Fi onda je značajan i hi-kvadrat!
a+c b+d
7. Koeficijent kontngencije C
- testira povezanost između varijabli čiji su podaci smešteni u kontingencijsku tabelu koja ima veće dimenzije od
2×2.
- varijable su sa nominalnog nivoa podeljene u kategorije
- mana ovog koeficijenta je što on ne može dostići visinu od 1 i što njegova maximalna vrednost zavisi od broja
kategorija u tablici. Zbog toga se teško upoređuju pojedine vrednosti C, a još teže sa vrednostima r
C = √ χ²/N+χ²
Ako je značajn C onda je značajan i hi-kvadrat!
8. Tetrahorična korelacija r tet
Uslovi:
a) obe varijable su veštački dihotomizirane
b) obe varijable se normalno raspoređuju
c) između varijabli postoji linearan odnos
- r t se dobija uz pomoć r cos π
9. Koeficijent konkordacije W
- ispituje povezanost među rangovima; testira odnos između stvarnog slaganja i maximalnog mogućeg slaganja
0≤ r ≤1
- ako je N veći od 7 značajnost W može se izračunati pomoću hi-kvadrata. Ako je značajan hi-kvadrat onda je
značajan i W!
10.Frimanov Teta (θ)
- testira povezanost između jedne dihotomne nominalne varijable i jedne ordinalne
35
nominalni nivo; veštački intervalni ili
dihotomna var. rang nivo
kategorijalna var. dihotomizirana racio
36
( N 2)
tr df =N-2 Nbroj parova; 2broj varijabli;
1 r2
Očitavamo značajnost t-odnosa u tablicama. Ako je značajan t-test onda je značajan i r!
Drugi nacin je iz očitavanje iz D tablice, koja pokazuje koliki mora biti r na odredjenom df da bi bio znacajan.
- Spirmanov koeficijent rang korelacije Ro (ρ)
Ako je N10 značajnost rang-korelacije računamo prema formuli:
N 2
t Ro
1 Ro 2
Ako je značajan t-test onda je značajan i Ro!
- Kendalov koeficijent rang korelacije Tau (τ)
Ako je N10 i ako nema vezanih rangova sprovodimo testiranje:
- Najpre se testira statistička značajnost izraza S
N(N-1)(2N+5)
Varijansa S = ———————
18
- Nakon toga računamo z-vrednost
S-1
z = ————————
N(N-1)(2N+5) / 18
Ako je z veći od 1.96 smatramo da je Tau statistički značajan na nivou značajnosti nižem od 5%
a ako je z veći od 2.58 onda je tau značajan na nivou značajnosti nižem od 1%
- Ostali koeficijenti
» Značajnost koeficijenta rpb testira se tablicama kao i značajnost koeficijenta r
» Ako je N veći od 7 značajnost W može se izračunati pomoću hi-kvadrata. Ako je značajan hi-kvadrat, značajan je
iW
» Ako je značajan hi-kvadrat, značajan je i Fi
» Ako je značajan hi-kvadrat, značajan je i C
70. PROGNOZA IZ JEDNE VARIJABLE U DRUGU: LOGIČKE OSNOVE
Nakon što ustanovimo da između dve varijable postoji korelacije, mi možemo iz podataka jedne varijable
zaključiti koji joj rezultat odgovara u drugoj varijabli tj. možemo iz podataka jedne varijable prognozirati rezultat
u drugoj. Ako je korelacija maximalna (+1 ili -1) bez problema ćemo iz jedne vrednosti var. x izračunati koja
vrednost iz var. y joj odgovara, jer joj odgovara samo jedna! Međutim, to se retko dešava, mi uglavnom nalazimo
nepotpune korelacije (jednom rezultatu iz jedne varijable odgovara više rezultat iz druge varijable) te možemo
samo delimično predviđati y na osnovu x i obratno.
Osnovni uslovi za primenu jednostavne regresije:
Varijable su linearno povezane
Homoskedascitet – osobina skater-dijagrama da je u svim
delovima podjednako širok; rasprsenje rezutata oko linije
korelacije mora biti manje-više podjednako uz citavu dužinu
pravca. On može biti ozbiljno narušen ukoliko jedna ili obe
varijable nisu normalno distribuirane, ili bar simetrično
raspoređene (obe zakošene u itu strani itd...) zbog toga uvek prvo
crtamo skater-dijagram
71. PROGNOZA IZ JEDNE VARIJABLE U DRUGU: ODREĐIVANJE REGRESIJSKE LINIJE
Princip najmanjih kvadrata
Regresijaska linija je neophodna kao oslonac predviđanja jedne varijable na osnovu druge. Kada imamo
nepotpunu korelaciju rezultati nam nisu na istom pravcu. Potrbno je da nacrtamo pravac na skatergramu koji bi
najbolje reprezentovao obe varijable. To se radi uz metod najmanjih kvadrata koji glasi: najpošteniji je onaj
37
pravac regresije koji ima najmanju sumu kvadrata odstupanja pojedinačnih y rezultata od tog pravca. Rezultati na
tom pravcu ỹ su predviđeni, procenjeni, regresijski y. Za svaki individualni rezultat , za svaku tačku u skatergramu
dobijamo neku razliku y-ỹ , a suma tih razlika mora biti najmanja moguća (Σ (y-ỹ))²
ỹ = a+bx
- a i b su konstante i njih nalazimo matematičkim putem pomoću formula
a =M(y) – bM(x) M(y) – aritmetička sredina varijable y
M(x) – aritmetička sredina varijable x
y2 – y1
b = ———— - ako je korelacija maximalna
x2 – x1
NΣxy – (Σx)(Σy)
b = ————————— - ako je korelacija nepotpuna
NΣx² – Σ(x)²
- izračunamo nekoliko vrednosti ỹ
(dovoljno je dve ali bolje više) i
nacrtamo pravac
39