You are on page 1of 39

Ispitna pitanja za usmeni ispit iz Uvoda u statistiku

1. Merenje u psihologiji: definicija i vrste


2. Elementi merenja: predmet, instrument, skala
3. Varijable: definicija i podele
4. Vrste varijabli: kvantitativne i kvalitativne
5. Vrste varijabli: kontinuirane i diskretne
6. Vrste varijabli: zavisne i nezavisne
7. Nivoi merenja: nominalni i ordinalni
8. Nivoi merenja: intervalni i razmerni

9. Prikupljanje i priprema podataka za obradu


10. Principi i tehnike uzorkovanja: verovatnosni uzorci
11. Principi i tehnike uzorkovanja: neverovatnosni uzorci
12. Principi i tehnike uzorkovanja: jednostavni nasumični uzorak

13. Kondenzovanje podataka: svrha i postupci


14. Kondenzovanje kvantitativnih podataka
15. Kondenzovanje kvalitativnih podataka
16. Grafičko predstavljanje podataka: histogram
17. Grafičko predstavljanje podataka: poligon frekvencija
18. Grafičko predstavljanje podataka: kutijasti dijagram (box and whisker plot)
19. Opremanje grafikona i tabela

20. Mere centralne tendencije: svrha i izbor


21. Mere centralne tendencije: mod (dominantna vrednost)
22. Mere centralne tendencije: medijana (centralna vrednost)
23. Mere centralne tendencije: aritmetička sredina

24. Mere varijabilnosti: svrha i izbor


25. Mere varijabilnosti: raspon i interkvartilni raspon
26. Mere varijabilnosti: varijansa i standardna devijacija

29. Normalna raspodela: karakteristike


27. Normalna raspodela: značaj u psihologiji
28. Normalna raspodela: uslovi za dobijanje
30. Normalna raspodela: površina pod Gausovom krivom
31. Distribucije podataka različite od normalne
32. Vrste odstupanja od normalne raspodele
33. Statističke implikacije odstupanja od normalne raspodele
34. Testovi odstupanja od normalne raspodele

35. Transformacija sirovih rezultata: svrha i primena


36. Transformacija sirovih rezultata: z skala
37. Transformacija sirovih rezultata: skale centila, decila, kvartila

38. Statističko zaključivanje: nulta hipoteza


39. Statističko zaključivanje: populacija i uzorak
40. Statističko zaključivanje: veličina uzorka
41. Statističko zaključivanje: reprezentativnost uzorka
42. Statističko zaključivanje: intervali poverenja aritmetičke sredine
43. Statističko zaključivanje: nivoi značajnosti
44. Statističko zaključivanje: stepeni slobode
45. Statističko zaključivanje: greške tipa I i II
46. Statističko zaključivanje: snaga statističkih testova

47. Logičke osnove t testa


48. t test za velike nezavisne uzorke
49. t test za velike zavisne uzorke
50. t testovi za male uzorke
51. Uslovi za primenu t-testa: slučajno i nezavisno razvrstavanje subjekata u grupe
52. Uslovi za primenu t-testa: normalnost distribucija i homogenost varijansi
53. Dvosmerno i jednosmerno testiranje razlike

54. Vrste i namena neparametrijskih statističkih testova


55. Prednosti i nedostaci neparametrijskih statističkih testova u odnosu na parametrijske
56. Test značajnosti razlika među proporcijama
57. Hi-kvadrat test: namena i uslovi za primenu
58. Hi-kvadrat test: tabele kontingencije
59. Hi-kvadrat test: određivanje značajnosti
60. Hi-kvadrat test za jedan uzorak
61. Hi-kvadrat test za dva ili više nezavisnih uzoraka
62. Hi-kvadrat test za dva zavisna uzorka

63. Smisao i princip korelacije


64. Grafički prikaz povezanosti dve varijable
65. Korelacija i kauzalnost (uzročno-posledična veza)
66. Izbor odgovarajućeg koeficijenta korelacije
67. Interpretacija koeficijenta korelacije
68. Uslovi za računanje produkt-moment koeficijenta: merna skala i normalnost distribucije
69. Uslovi za računanje produkt-moment koeficijenta: linearan odnos između varijabli
70. Uslovi za računanje produkt-moment koeficijenta: homoskedasticitet
71. Neparametrijski koeficijenti korelacije: Spirmanov Ro
72. Neparametrijski koeficijenti korelacije: C i Fi
73. Testiranje značajnosti koeficijenata korelacije

Statistika

I Mere centralne tendecije

1. Aritmetička sredina
X nadvučeno označava aritmetičku sredinu. X1, X2… jesu rezultati od prvog do poslednjeg, a N broj rezultata.
Kada imamo velik broj rezultata, rezultati se grupiraju u razrede, a oni su reprezentovani sredinom razreda.
Ovo je neophodno kod grafičkog prikazivanja rezultata. Najčešće se broj razreda kreće između 10 i 20.
Razredi moraju biti jednaki po veličini. Rasponom nazivamo razliku između najmanjeg i najvećeg rezultata.
Svaki idući razred počinje za jednu jedinicu više nego što prethodni završava.
Postoje pravila:
 Ako pri određivanju granica razreda uzimamo istu tačnost kojom su izvršena merenja (npr. Celi
brojevi), onda idući razred treba započeti za jednu jedinicu merenja više, nego što je prethodni
razred završio.
 Ako granice razreda postavljamo na veću tačnost od one kojom je izvršeno merenje (npr. Merenje je
izvršeno u celim brojevima, a granice razreda postavljamo u decimalama), onda je potrebno da
donja granica idućeg razreda bude jednaka gornjoj granici prethodnog razreda..

Postoji određena tendecija da se rezultati grupišu oko jedne vrednosti koja je nekako po sredini svih
razreda. Izračunavamo aritemtičku sredinu, nakon što smo rezultate grupisali u razrede. To možemo učiniti
tako da sredinu (X) svakog razreda pomnožimo frekvencijom pojedinog razreda (f) i da sumu umnožaka
podelimo brojem rezultata. Množeči sredinu svakog razreda sa frekvencijom tog razreda, mi smo zapravo
zbrojali sve rezultate u tom razredu.

Kada radimo sa velikim brojevima, kako bismo olakšali računanje, odredimo jednu privremenu aritmetičku
sredinu, pa samo računamo koliko ostali rezultati odstupaju od te sredine i onda privremenoj aritmetičkoj
sredini dodamo prosek svih odstupanja i dobijemo prvu arit. Sredinu.

2
Najkraći postupak: umesto da odstupanja računamo u apsolutnim razlikama, mi ih računamo u jedinicama
intervala, tj. Računamo odstupanje za 1 interval, 2 intervala... x prim označava intervalnu udaljenost
pojedinih razreda od privremene aritmetičke sredine.
 Naći za svaki razred sredinu razreda
 Izabraćemo privremenu arit.sr. a za nju možemo uzeti sredinu bilo kog razreda, najpraktičnije
najvećeg
 Naći ćemo za koliko je intervala udaljena sredina pojedinog razreda od privremene as
 Dobijene brojeve pomnožićemo sa frekvencijom pojedinih razreda i te ćemo rezultate zbrojiti s
obzirom na predznak
 Vrednost dobijenu pod tačkom 5 algebarski ćemo pribrojiti privremenoj as.

Kontrola računa: za privremenu as odabere se sredina nekog drugog razreda. Na taj način će vrednosti x
prim, fx prim i suma fx prim biti izmenjene, a konačan rezultat, ako je račun bio tačan, će ostati potpuno
jednak.
AS je, kao težište rezultata, osetljiva i na broj i na vrednost rezultata.

Ponekad nije preporučljivo izračunavati AS. Jedan od glavnih razloga sastoji se u tome da nekada moramo
uzeti u račun i neke vrlo ekstremne vrednosti koje bitno menjaju AS.
Najpoznatije od drugih mera centralne tendencije su centralna vrednost (medijana), dominantna vrednost
(modalna vrednost).

Centralna vrednost

Centralna vrednost (C) je vrednost koja se u nizu rezultata, poređanih po veličini, nalazi tačno u sredini. To
nije vrednost C, nego samo njen položaj u rezultatima koji su poređani po veličini. Ako je broj rezultata
paran, C se izračunava tako što zbrojimo dva srednja rezultata i taj broj podelimo sa 2. Prednost C nad AS je
što na nju ne utiče vrednost pojedinih rezultata, te jedan vrlo ekstreman rezultat neće ništa promeniti
vrednost C, koja je uslovljena samo brojem rezultata.
Jedna od praktičnih upotreba centralne vrednosti sastoji se u lociranju optimalnog položaja.

Dominantna vrednost

Dominantna vrednost (D) je ona vrednost koja je u nizu merenja najčešće postignuta. Prednost D nad AS je
u tome što na nju ne utiče ni broj, ni vrednost rezultata, već samo frekvencija pojedinih rezultata.

Geometrijska sredina

Geometrijska sredina (G) je, prema definiciji, n-ti koren iz umnožaka između N brojeva. Ovo se pretežno
koristi kao mera prosečne brzine nekih promena.

Harmonična sredina

Harmoničnu sredinu (H) valja upotrebljavati kada želimo dobiti proseke nekih odnosa (npr. Prosečne km/h).
H se ne može izračunati ako je broj negativan ili jednak nuli.

II Mere varijabilnost

3
Rezultati se grupišu oko srednje vrednosti. Ako su vrednosti nekog niza merenja gusto grupirane oko
srednje vrednosti, onda nam ta srednja vrednost dobro reprezentuje rezultate, ali, ako su minimalno
grupisane oko srednje vrednosti, onda nam ona slabo reprezentuje rezultate.
Kada bi, u eksperimentalnom slučaju, sve vrednosti nekog niza bile jednake, onda bi srednja vrednost bila
potpuno tačan reprezent svih rezultata.

Raspon

Najjednostavnija (ali i najnetačnija) mera grupisanja rezultata oko neke srednje vrednosti je tzv raspon, tj.
Razlika između najvećeg i najmanjeg rezultata. Međutim, raspon je vrelo nesigurna i varljiva mera
varijabilnosti, jer bilo koji usamljeni ekstremni rezultat znatno povećava raspon, a da se grupacija oko AS
ipak nije bitno promenila.
Uzmemo li sve rezultate u obzir, raspon je razlika između najvećeg i najmanjeg rezultata. Uzmemo li u obzir
samo nekoliko rezultata, vrlo je mala verovatnoća da će među njima biti upravo najveći i najmanje rezultat.

Srednje odstupanje

Zanima li nas prosečna veličina odstupanja pojedinačnih rezultata, možemo izračunati srednje odstupanje.
Njega možemo izračunati uz aritmetičku sredinu, centralnu i dominantnu vrednost, ali nam ono ne može
dovoljno služiti ako želimo izvoditi dalja računanja.

Standardna devijacija

Kada bismo prosečno odstupanje računali vodeći računa o predznaku, onda bismokao sumu uvek dobili
nulu. Razlog tome je u tome što je aritmetička sredina vrednost od koje suma odstupanja iznad i ispod nje
uvek iznosi 0.
Jedan od načina da se izbegnu predznaci odstupanja jeste taj da se odstupanja kvadriraju. Osim toga, što je
odstupanje veće, to ono više dolazi do izražaja ako ga kvadriramo. Ako tako kvadrirana odstupanja zbrojimo
i izračunamo im aritmetičku sredinu, dobićemo meru varijabiliteta, koja se u statistici naziva varijanca.
Aritmetička sredina kvadriranih odstupanja izračunava se sa N-1, a ne s N.
Koren iz varijance, može se prikazati kao potpuno definisani razmak na skali rezultata. Taj drugi koren iz
varijance nazvan je standardna devijacija (označava se najčešće sa s, SD) i to zato što se ta mera koristi kao
standard za merenje varijabiliteta rezultata.

Ako aritmetičkoj sredini na jednu i na drugu stranu dodamo vrednost standardne devijacije, obuhvatićemo
68% rezultata (teoretski broj 68,26% i on vredi samo za idealno pravilnu raspodelu).
Ako aritmetičkoj sredini dodamo i levo i desno dve standardne devijacije, obuhvatićemo u idealnom slučaju
95,44% svih rezultata, a ako joj dodamotri standardne devijacije, obuhvatićemo 99,73% rezultata.
Uz pomoć standardne devijacije možemo uspešno predvideti u kom rasponu se kreću praktično svi rezultati.
Ona se može računati samo uz aritmetičku sredinu, a ne i uz druge mere centralne tendencije.
Kao neka kontrola pri računanju standardne devijacije, može nam poslužiti odnos između raspona i
standardne devijacije: taj odnos gotovo nikad nije manji od 2, a veći od 6,5.
Standardna devijacija sam donekle govori koliko vredi dobijena aritmetička sredina, tj. Da li je ona dobar ili
loš reprezent rezultata. Uz svaku aritmetičku sredinu treba da se navede i pripadna standardna devijacija.

Koeficijent varijabilnost

Kad su nam poznate aritmetička sredina i standardna devijacija nekih rezultata, onda su ti rezultati potpuno
definisani i možemo ih upoređivati sa nekim drugim rezultatima.
Kada imamo dve jednake aritmetičke sredine, lako je zaključiti da rezultati u prvom merenju znatno manje
variraju od rezultata u drugom merenju. Međutim, to nije slučaj kada imamo dve različite aritmetičke
4
sredine. Da bismo mogli međusobno upoređivati varijabilnost različitih pojava i svojstava, služimo se tzv.
Koeficijentom varijabilnosti (V) koji nam pokazuje koliki postotak vrednosti aritmetičke sredine iznosi
vrednost standardne devijacije. Koeficijent varijabilnosti je vrlo korisna mera u svim onim slučajevima kada
želimo znati: u kojem svojstvu neka grupa varira više, a u kojem manje i koja od grupa varira više, a koja
manje u istom svojstvu.
U nekim situacijama nije dopušteno upoređivati pojedine koeficijente varijabiliteta

III Grafičko prikazivanje rezultata

Ako preskočimo grafičko prikazivanje rezultata izlažemo se dvostrukom riziku: postoji šansa da uopšte
nećemo uočiti neku posebno neočekivanu karakteristiku rezultata koju je gotovo nemoguće uočiti prilikom
baratanja brojevima; neke teške računarske pogreške takođe mogu ostati neotkrivene. Na primer,
ppogrešno stavljen decimalni zarez pri izračuavanju aritmetičke sredine biće odmah uočen kao pogreška
ako su rezultati prikazani grafički.

Kada se radi o čistoj deskripciji, međusobno nezavisnih ili slabo zavisnih podataka, najčešći način grafičkog
prikazivanja je u horizontalnim ili vertikalnim stupcima i u kružnom dijagramu (koji se još naziva i torta
dijagram). U popularnim časopisima, dnevnoj štampi i sl. Često se zbog veće plastičnosti rezultata daju
trodimenzionalni grafički prikazi nekih podnosa veličina. Treba upozoriti da to nije pogodan način.
Što se tiče dvodimenzionalnog prikaza: ako se umesto stupcima količine prikazuju kvadratima ili krugovima
to takođe nije pogodno, jer kako znamo, kvadrat dvostruko dužih stranica, po površini je 4x veći, a to isto
važi i za krug. Još je gora situacija u trodim. Prikazu:kocka koja ima 2x dužu stranicu od neke druge kocke
biće po svom volumenu 8x veća od prve kocke. Prikažemo li podatke u stupcima, dobićemo jasan i
nepristrasan odnos. Iako su odnosi ispravni, dojam što nam slika daje ni približno nije realan, jer neupućeni
posmatrač slike neće smatrati da je kocka b u svom volumenu više od 2,6x veća od kocke a.
Želimo li da podatke prikažemo trodim, onda se to može jedino tako, a da pritom ne učinimo nikakvu
pogrešku, da različite količine (vrednosti) prikažemo sumom jednakih volumenskih jedinica. Kada imamo
rezultate koji se razvijaju u vremenu ili koji se grupišu oko neke reprezentativne vrednosti, služimo se
grafičkim sistemom koordinatnog sistema. Položaj jedne tačke u ravni potpuno je određen sa dve
koordinate koje su međusobno okomite. Horizontalna koordinata koju nazivamo apcisa (osa x) obično nam
pritom služi za registraciju vrednosti merenja, a vertikalna koordinata, koju nazivamo ordinata (osa y), za
registraciju frekvencije. Ako su rezultati grupisani u razrede, onda na apscisu unesemo razrede ili sredinu
razreda.
Histogram se sastoji od niza pačetvorina, kojima površina (i visina) odgovara frekvenciji pojedinog razreda, a
suma površina svih pačetvorina odgovara ukupnoj frekvenciji (ukupna frekvencija-N) svih razreda.
Poligon se crta tako da iznad sredine svakog razreda označimo tačke u visini ordinate koja odgovara
frekvenciji tog razreda. No, poligon treba uzemljiti tj. Na levoj i desnoj strani krivulje dovesti na nultu
frekvenciju tj. Na apscisu. Poligon je više ili manje pravilna krivulja kojoj totalna površina odgovara ukupnoj
frekvenciji svih rezultata, ali površina iznad pojedinog razreda, ne odgovara frekvenciji tog razreda, već
frekvenciji razreda označava samo visina poligona tačno iznad sredine razreda. Treba upozoriti na jednu
pogrešku, pri crtanju histogramu, koja se u praksi često dešava. U praksi se, naime, zbog različitih razloga,
katkad dva ili više razreda, želi spojiti zajedno. Pogreška se sastoji u tome da se u poligon unese dvostruko
široka pačetvorina (jer zauzima dva razreda), a to je pogrešno.
Histogram je najtačniji prikaz distribucije frekvencije nekih rezultata, ali ipak u praksi se najčešće za grafičko
prikazivanje koristi poligon frekvencije. Glavni razlog tome je činjenica da je poligon obično pregledniji način
prikazivanja (on je sličniji teorijskoj krivulji). A posebno je pogodan u slučajevima kada na istoj slici želimo
prikazati dve ili više distribucija.
Npr. Ako merimo visinu momaka i devojaka, kako broj izmerenih nije jednak, moramo prethodno obe
distribucije svesti na zajedničku meru (zbog lakšeg upoređivanja), to se postiže tako da se za svaki razred
izračunaju relativne frekvencije, tj. Svaka se frekvencija prikaže u postotku ukupnog broja.

5
Iz histograma i poligona frekvencija može se izravno očitati jedino dominantna vrednost: to je u histogramu
razred sa najvišim stupcem, a u poligonu, razred iznad kojeg se nalazi vrh krivulje. Postoji još jedan i to vrlo
koristan i praktičan način grafičkog prikazivanja, koji je naročito pogodan kada želimo brzi pregled koliko
rezultata ili koliki se postotak rezultata nalazi ispod ili iznad nekog konkretnog rezultata, kao i podatak o
tome gde se otprilike nalazi centralna vrednost. Taj način prikazivanja zove se krivulja kumulativne
frekvencije (neki je zovu Galtonova oživa). Postupak je jednostavan: za apscisu se nanesu prave gornje
granice razreda, a na ordinati se nalazi kumulativna frekvencija (sabrane frekvencije od najnižeg razreda
nadalje). Prave gornje granice razreda računski dobijamo tako što uzmemo sredinu između gornje vrednosti
jednog razreda i donje vrednosti idućeg razreda.
Ako nas zanima neki određeni rezultat x,pa ako s tog rezultata povučemo sa apscise paralelu sa ordinatom,
sve do krivulje, a onda od krivulje paralelu sa apscisom, sve do ordinate, dobijamo željeni odgovor. Da smo
frekvencije imali u relativnim frekvencijama, dakle, u postotcima, onda bismo iste te podatke mogli davati u
postotcima. Ako je centralna vrednost ona vrednost iznad koje i ispod koje se nalazi tačno po 50% rezultata,
to bismo aproksimativno centralnu vrednost mogli očitati sa krivulje relativne kumulativne frekvencije, tako
da sa ordinate, kod oznake 50% povučemo paralelu sa apscisom do krivulje i onda spustimo okomicu na
apscisu, te tačno očitamo vrednost c.

IV Normalna raspodela i neke druge raspodele

Kada bi svi rezultati nekog merenja bili potpuno istovetni, onda bi tendencija grupisanja rezultata bila
maksimalna.
Kada bi kod nekog merenja svaki put dobili drugačiji rezultat, tačnije rečeno, kada bi svaki rezultat na nekoj
skali bio dobijen samo jedanput, onda ne bi bilo nikakve tendencije grupisanja rezultata. Nikada ne
nalazimo ni jedan od tih ekstrema, nego većinom dobijamo rezultate koji prikazuju obe ove tendencije, tj. I
tendenciju grupisanja oko neke centralne vrednosti i tendenciju raspršenja oko te srednje vrednosti. Takva
se raspodela naziva normalna raspodela. Krivulja koja prikazuje takvu raspodelu naziva se normalna
krivulja, a neki je zovu Gaussova krivulja, po matematičaru Gaussu, ili pak prema njenom karakterističnom
obliku, zvonasta krivulja. Normalna raspodela je osnova za razumevanje glavnih statističkih pojmova
vrednosti.

Demonstracija postanka normalne raspodele (Gaussova sa ekserima i lopticom) sastoji se u tome da se


kuglice sipaju kroz levak i one, udarajući putem u prepreke (eksere) putuju prema dnu uređaja, gde se slažu
na karakterističan način tj. U obliku normalne raspodele. Primer: najviše ih ima u sredini, a prema krajevima
u svakoj pregradici, ima sve manje.
To što kuglice sipamo u sredini gornjeg ruba kutije, to je tendencija grupisanja rezultata oko sredine, a
ekseri koji ometaju kuglice i u koje kuglice udaraju, predstavljaju tendenciju raspršivanja rezultata. Neki
ekseri skrenuli su put kuglice na levo, a neki na desno, pa tako kuglica ipak, konačno, pada u sredinu dna
uređaja. Takvih kuglica ima najviše. No, kod nekih kuglica, udaranje u prepreke završilo je tako što je kuglica
konačno pretežno otišla u jednom ili drugom smeru. I napokon, samo kod malog broja kuglica, dogodilo se
to da svaki udarac u prepreku doveo do odbijanja kuglica u istom smeru, i to su one kuglice koje nalazimo u
ekstremnim levim ili desnim pregradama na dnu.
Glavni su uslovi da kod nekog merenja dobijamo normalnu raspodelu:
1. Da se ono što merimo stvarno raspoređuje po normalnoj raspodeli. Prema prilično raširenim
mišljenjima, sve ili gotovo sve što u prirodi merimo, raspoređuje se prema normalnoj raspodeli. To,
međutim, nije tačno.
2. Da imamo veliki broj rezultata (merenja).
3. Da su sva merenja sprovedena jednakim metodama i u što sličnijim vanjskim prilikama.
4. Skupina na kojoj obavljamo merenja mora biti homogena po ostalim svojstvima, a heterogena
(neselekcionisana) po onom svojstvu koje merimo.

Među pojave koje se ne distribuišu po normalnoj raspodeli pripada donekle i težina ljudi.
6
Drugi uslov, tj. Da broj merenja bude dovoljno velik, posve je razumljiv: kod malog broja merenja neke
pojave, pa bila ona i idealna, normalno distribuirana u nekoj populaciji, pukim slučajem možemo dobiti
rezultate koji znatno odstupaju od normalne raspodele.

Jedna od osnovnih karakteristika normalne raspodele je to da se tzv. Mesto infleksije (tj. Mesto gde krivulja
iz konveksne prelazi u konkavnu) nalazi iznad +-1s kao i to da je normalna raspodela potpuno definisana ako
joj znamo aritmetičku sredinu i standardnu devijaciju. Iz tog sledi da postoje normalne raspodele vrlo
različite širine: od uskih (leptokurtičnih) do vrlo širokih (platikurtičnih).
Primer: ako bacamo dva novčića, pa gledamo na koju su stranu pali postoje praktično 3 mogućnosti ishoda
bacanja.
1. Mogućnost: na oba novčića pismo
2. Mogućnost: na jednom psimo, na drugom glava
3. Mogućnost: na oba novčića glava

Vrednost pojedinih kombinacija možemo izračunati pomoću tzv binomne raspodele, pri čemu p =vrednost
da će se nešto dogoditi (na primer glava) q=vrednost da se to neće dogoditi (dakle neće se dogoditi ni glava
ni pismo), a eksponent n=broj faktora (u našem slučaju broj novčića). Verovatnoća da će se nešto dogoditi
plus verovatnoća da se to neće dogoditi uvek je 100% (ili verovatnoća=P=1), pa je prema tome (p+q) uvek
jednako 1.

Uz pomoć tzv Paskalovog trougla moguće je utvrditi ove različite kombinacije i bez računanja.

No, činjenica je da da šansa 50:50 vredi samo kod bacanja 2 novčića. Već kod bacanja 4 novčića,
verovatnoća da će pasti 2 glave i 2 pisma, nije 50%, već 37,5%.
Postoji još jedan vrlo jednostavan i slikovit način za izračunavanje različitih ishoda jednake verovatnoće, a to
je tzv. Stablo verovatnoće.
Binomna raspodela nastaje kombinacijom faktora kod kojih je pojavljivanje uvek jednako verovatno (npr.
50% ili 10% ili bilo koja druga vrednost), dok je kod normalne raspodele situacija nešto drugačija.
Osim normalne i binomne raspodele, postoji još mnogo drugih raspodela: Poissonova raspodela, koja je
takođe slučajna raspodela, samo za razliku od normalne raspodele, slučajna raspodela vrlo retkih događaja
(dok je normalna raspodela raspodela događaja, kojima se verovatnoća kreće u blizini 50%). Spominjaćemo
još i F-raspodelu, hi-kvadrat raspodelu i druge.

Za istoriju spoznaje normalne raspodele videti stranu 96.

V Položaj pojedinačnog rezultata u grupi

Moguće je izračunati na koji deo standardne devijacije neki rezultat pada, a kad znamo taj podatak, znamo
odmah i koliko imamo rezultata većih i koliko manjih od tog rezultata. Na taj način možemo tačno odrediti
položaj pojedinca u grupi.
Kako je normalna raspodela potpuno tačno definisana, to mi za svaki rezultat, ako izračunamo na koji deo
standardne devijacije pada, možemo potpuno tačno ustanoviti koliki postotak rezultata je ispod, a koliki
iznad njega. Dakle, izražavanje nekog rezultata u terminima standardne devijacije, tj. Izračunavanje na koji
SD taj rezultat pada, naziva se pretvaranje rezultata z-vrednosti.
Budući da je u svim statističkim tablicama cela površina neke krivulje prikazana brojem 1 (što znači 100%),
to su delovi površine prikazani brojevima koji se kreću od 0 pa sve do blizu 0,5 (0,5 je površina jedne strane
normalne raspodele). Veličina površine ujedno znači verovatnoću.

Kod svih takvih zadataka najbolje je nacrtati površinu koja nas zanima.

7
Pomoću delova standardne devijacije, dakle pomoću z vrednosti mogu se lakše upoređivati rezultati
različitih merenja kod istog čoveka, a takođe i među pojedinim ljudima. Tako se na primer češće događa da
pojedinim ljudima iz neke skupine želimo dati jednu skupnu ocenu za njihov rezultat u niz disciplina, a ako
su merene jedinice iz disciplina različite, nailazimo na velike teškoće. Jedno od ispravnih rešenja tog
problema sastoji se u pretvaranju originalnih vrednosti rezultata u z vrednosti.takvo ocenjivanje u z
vrednostima vrlo je potrebno i u onim slučajevima kada tražimo skupinu ili prosečnu ocenu iz niza merenja
koje su na prvi pogled sprovedena u jednakim mernim jedinicama (na primer bodovima), ali pomoću
testova, koji imaju različit varijabilitet rezultata. Dakle, potrebno je pretvaranje u z vrednosti jer bi
jednostavnim zbrajanjem bruto rezultata 2 ili više merenja u ukupnom zbroju imali veću težinu, tj. Veću
važnost rezultata iz ovih merenja, u kojima je veća standardna devijacija. Često se pogrešno misli da glavnu
težinu rezultatima daje njihova apsolutna veličina. U ukupnom rezultatu taj broj, iako velik, neće ništa
uticati na položaj pojedinog ispitanika, tj. Njihov rang biće potpuno jednak bez tog testa kao i s njim-jer smo
svakom ispitaniku dali jednaku vrednost. Dakle, kakose vidi, taj test ne pridonosi ništa ukupnom rezultatu,
jer taj test nema varijabiliteta. (test koji se spominje je iz primera, videti na 101. Strani). Da bi se izbegle
negativne vrednosti kod takvog preračunavanja originalnih rezultata u z vrednosti, može se svakoj z
vrednosti dodati neki broj, tako da svi rezultati postanu pozitivni brojevi. Ako z vrednostima dodamo broj 5,
dobijamo tzv standardne vrednosti koje idu od 2 o 8 sa prosekom 5.

Centli

Položaj pojedinaca u grupi može se izračunati tzv centilom (percentilom): prvi centil obuhvata jedan posto
najslabijih; drugi centil jedan posto idućih najslabijih...
Ako neki rezultat pada u 22. Centil to znači da je samo 8% rezultata bolji od njega, a 92% rezultata su
jednaki ili slabiji.
Postoji računarski postupak za dobijanje centila pojedinog rezultata, a da pritom nije potrebno rezultat
najpre pretvoriti u z vrednost, ali ćemo najpre ukratko prikazati grafičku metodu kojom možemo s priličnom
tačnošću odrediti položaj rezultata u centilima. Postupak se sastoji u neznatnoj modifikaciji grafičkog
prikaza kumulativne frekvencije:
1. Frekvencije neke distribucije rezultata pretvorimo najpre u relativne frekvencije, pa nakon toga u
relativne kumulativne frekvencije.
2. Na apscisu unesemo prve gornje granice razreda, a na ordinatu unesemo relativne kumulativne
frekvencije tj. Kumulativne frekvencije u postotku ukupnog N.
Kada tako dobijene vrednosti unesemo u grafikon dobijamo krivulju relativne kumulativne frekvencije. Za
aproksimativno očitavanje centila ili centralne vrednosti ova nam krivulja može odlično poslužiti.
Centralna vrednost se iz ove slike (str 103) očitava tako da se sa relativne kumulativne frekvencije 50%
povuče paralela sa apscisom sve do krivulje i odatle se spusti okomica na apscisu. Na mestu gde ta okomica
seče apscisu nalazi se centralna vrednost.
Jedan, po izgledu nešto drugačiji, ali u stvari jednak postupak sastoji se u tome da se relativne kumulativne
frekvencije nanesu na ordinatu tzv papira verovatnoće. Sve ono što smo očitavali sa obične krivulje
relativne kumulativne frekvencije, možemo očitati i sa relativne kumulativne frekvencije prikazane na
papiru verovatnoće, samo što nam ona pruža još jednu prednost: ako je distribucija koju na ovaj način
prikazujemo približno normalna, tačke na papiru verovatnoće biće manje-više na pravcu.

Nauči stranu 106 celu.

Često nas, međutim, može zanimati obratni postupak: dok smo upravo sada našli koji centil odgovara
nekom određenom rezultatu, nas može zanimati i kojii rezultat odgovara kom određenom centilu. U tu
svrhu treba najpre željeni centil pomnožiti sa N i podeliti sa 100, pa ćemo tako dobiti rang rezultata koji je u
50. Centilu. Nakon toga treba u stupcu kumulativne frekvencije naći razred u kojem se taj rang rezultata
nalazi.

8
I na kraju, još nekoliko reči o poređenju između z vrednosti i centila. Prednost z vrednosti prema centilima
sastoji se u tome što, kako smo videli, z vrednosti možemo zbrajati i tražiti njihov prosek (jer su to
ekvidistantne jedinice tj. Jedinice sa jednakim međusobnim razmakom), dok kod centila takva zbrajanja i
traženja prosečnog centila nije dopušteno, jer centili u normalnoj raspodeli ne predstavljaju ekvidistantne
jedinice.
Sa druge strane, prednost centila sastoji se u tome da centili ne zahtevaju normalnu distribuciju: mi
možemo iz bilo kakve distribucije odrediti koji rezultat postiže 10% najboljih ili 30% nalošijih ispitanika.
Naprotiv, z vrednosti predstavljaju delove standardne devijacije, a ona je vezana uz normalnu raspodelu.

9
1. DEFINICIJA MERENJA
Merenje je prvi, neophodan čin statističkog postupka
- Svako merenje podrazumeva
1. predmet merenja (šta merimo)
2. merni instrument (aparat, čovek ili testovi)
3. mernu skalu tj. nivo merenja
- Statistika se bavi masovnim pojavama, prvenstveno ih numerički opisuje jer je to jedini način da steknemo uvid
u njih. Ona redukuje (kvalitativne pojave pretvara u numeričku formu) masovne pojave, kako bi bile preglednije i
kako bi lakše stekli uvid u njih, i dalje, lakše doneli sud o njima (što je manje jedinica lakše donosimo sud). Sve
ovo obavljamo merenjem.
Merenjem prikupljamo podatke potrebne za dalju deskripciju, estimaciju i inferenciju. Postoji više teorija
merenja. Klasična teorija merenja: «Merenje je pripisivanje brojeva nekim objektima (njihovim atributima)».
Druga teorija merenja kaže: «Merenje je i klasifikacija objekata s obzirom na posedovanje nekih svojstava.»
Varijable su predmet i rezultat merenja.
Uvek se javljaju i greške pri merenju, to je nužan deo i svako merenje se obavlja sa nekom greškom. Postoje 2
vrste grešaka pri merenju:
1. one koje su posledica nemogućnosti egzaktnog utvrđivanja veličina
2. one koje su posledica situacionih faktora, koje nije moguće kontrolisati ali koje utiču na merenje
(eksperimentalna greška).
Verovatnoća eksperimentalne greške je utoliko veća ukoliko pored eksperimentatora subjekta, u eksperimentu
učestvuju subjekti kao predmet merenja.
2. PREDMET MERENJA
- Predmet i rezultat merenja su varijable.
- Predmet merenja su atributi.
Predmet merenja mora biti precizno određen, i mora postojati u nekoj meri (mora biti merljiv kako bi uopšte i
sproveli merenje). Terston kaže da sve što postoji postoji u nekoj meri. Rezultat merenja su varijable.
3. VRSTE MERENJA
1. DIREKTNO – merenje uglavnom objektivno postojećih (fizičkih) pojava – egzaktnije – Stivens.
2. INDIREKTNO – merenje uglavnom subjektivno postojećih (psihičkih) pojava – Fehner. Pojavu koju treba da
merimo nije nam dostupna direktno, zbog toga merimo pojavu preko koje smatramo da se ova prva manifestuje.
Uzimamo da su u dovoljnoj međusobnoj korelaciji (ili kauzalnoj vezi) da bi ocenu pojave posrednika mogli dalje
da generalizujemo na pojavu koju merimo.
-U indirektnom merenju prisustvo greške je obično veće
4. MERNI INSTRUMENTI
Sredstvo (uređaj) koji omogućuje merenje je merni instrument
1. APARATI (vaga, visinometar, reakcionometar)
2. TESTOVI i UPITNICI - psihološki merni instrumenti (test inteligencije)
5. MERNA SKALA
- Merna skala je deo mernog instrumenta. Ona ima podeoke koji ukazuju na količinu predmeta merenja ili
količinu nekog njegovog svojstva ili atributa. Broj podeoka zavisi od
* volje onog koji meri
* varijabilnosti pojave koja se meri
* osetljivosti mernih instrumenata
- Empirijski rezultati pokazuju da je pouzdanost vrlo niska ako je merna skala podeljena na više podeoka, što je
više podeoka, manje je slaganja o kvantitetu odgovora
- Imaju velike varijacije s obzirom na njihovu primenu.
1. NOMINALNA (KATEGORIJALNA) SKALA
2. ORDINARNA (RANG) SKALA
3. INTERVALNA
4. RAZMERNA (RACIO) SKALA
6. VRSTE VARIJABLI
Varijabla je variranje između merene pojave, ili osobine pojave. Varijabla je simbol koji može da predstavlja bilo
koji član jednog skupa, tj. koji može da se zameni bilo kojim članom jednog skupa. Skup objekata koji varijabla
predstavlja je opseg ili domen varijable Varijable mogu biti:
a) - zavisne, konsekventne – one koje se mere i
- nezavisne, antecedentne- one koje predhode zavisnim i utiču na njih
b) - kvanttatvne (numeričke) varijable ili
- kvalitatvne varijable (kategorijalne)
Ako npr. imamo rezultat na testu izražen brojem taj rezultat je kvantitativna varijabla. Ako je rezultat izražen
rečima onda je on kvalitativna varijabla
c) - kontnuirane - meri se karakteristika ispitanika u opsegu vrednosti. Mogu da zauzmu beskonačno mnogo
tačaka. Objekt može da zauzme bilo koju vrednost, i to je pravo merenje (visina)
- diskontnuirane - varijable se ovde svrstavaju u kategorije, i bavimo se frekvencijama (učestalošću). U okviru
diskontinuiranih varijabli uočavamo i diskretne varijable
dihotomne - imaju samo dve vrednosti: živ-mrtav, muško-žensko
polihotomne - Objekti ne mogu imati bilo koju vrednost na kontinuumu već samo određene ta~ke u pravilnim
razmacima. Ovo i nije baš pravo merenje već je više prebrojavanje. (broj dece u porodici)
Varijable se razlikuju i po nivoima (skalama) merenja.
7. KVANTITATIVNE VARIJABLE
Vrednosti koje pripisujemo predmetu merenja se razlikuju po veličini. Ove varijable se izražavaju brojevima.
Nužno su kontinuirane. Merimo karakteristiku ispitanika u određenom opsegu vrednost. (starost u godinama,
visina, težina, prosečno primanje u domaćinstvu, broj braća i sestara, itd.)
8.KVALITATIVNE VARIJABLE
Predstavljaju vrednosti atributa koje merimo, a koje se razlikuju po kvalitetu (zanimanje). Mere se kategorijalnim
(nominalnim), eventualno rang (ordinalnim) skalama. Nužno su diskontinuirane. Daju nam malo informacija
pošto se mere frekvencijama . Osnovno je pitanje šta a ne koliko (pol, nacionalnost, pušač-nepušač, astrološki
znak, itd.)
9/10.NIVOI MERENJA
1. NOMINALNI
Ovo je kategorijalna skala zato što se entiteti raspoređuju u unapred određene kategorije. Nominalna skala radi
sa kvalitativnim podacima koji mogu da budu označeni brojevima ali tada broj služi samo kao oznaka, on je
zamena za ime. Ovaj nivo merenja služi samo za identifikaciju i klasifikaciju, jedino što sa njega možemo očitati je
da li je nešto isto ili različito. Osnovno pitanje je šta. Nominalne varijable se retko javljaju u individualnoj formi.
Mnogo je češće grupisanje nominalnih podataka.
Uz kategorijalne skale smemo upotrebljavati dominantnu vrednost, proporcije, hi kvadrat test, Ф, Kramerov fi i
koeficijent kontingencije
2. ORDINARNI
Latinska reč, ordo, što znači red, poredak. Ova skala se zove još i rang-skala. Ovde brojevi označavaju poredak,
rang, redosled, rastući niz, stepen, procenjivanje. Iz ove skale možemo očitati da li je nešto veće ili manje ali ne i
za koliko, što znači da nije ekvidistantna. Dobre su za kvantitativnu klasifikaciju, da duž nekog kontinuuma
razvrstaju vrednosti.
-Rade sa kvantitativnim i kvalitativnim varijablama
Ako su varijable stavovi, procene, stepeni onda su sigurno sa rang skale!
Kao i kod nominalnih podataka i ovde je moguće individualno i grupno prikazivanje rangova.
Uobičajeno se govori o silaznom i/ili uzlaznom poretku.
Likertova skala: O njoj ćete čuti više na Psihometriji i Socijalnoj psihologiji. Reč o jednom posebnom pristupu u
pravljenju stavki za neki upitnik, kada se ispitanicima navodi tvrdnja, a oni treba da odrede stepen svog slaganja
sa njom.
11
Na primer:
Tvrdnja: Mislim da homoseksualce treba na neki način obeležiti, tako da svako zna s kim ima posla!
u potpunosti se uglavnom se ne uglavnom se u potpunosti se
ne slažem slažem slažem slažem

Naravno, postoje i varijacije iste skale. Tako, vrlo često se u sredinu skale umeće odgovor: nisam siguran ili ne
znam i sl.
Likertova skala dobila je ime prema svom izumitelju. Ona predstavlja jednu ordinalnu skalu, gde otkrivamo i
prirodu ispitanikovog stava o nekom pitanju (za ili protiv) i stepen slaganja sa njim. Vrlo popularna i korisna
alatka u psihologiji!
Osnovne manjkavosti ordinalne skale: numerički odnos nije uspostavljen u potpunost (zna se da je veći ali ne i za
koliko); nema jednakost intervala (ne postoji jednakost u razlici među rangovima).
Ovaj nivo merenja se koristi isto kao kod nominalnih, uz dodatke: centralana vrednost, koeficijent korelacije ro,
tau, teta, i koeficijent w.
3. INTERVALNI
Entitet dobija skor, a ne atribut ili rang. Mogu se usposatvoljati odnosi veće-manje, ali i tvrditi da je skor od 20
upravo onoliko veći od 10, za koliko je 30 veći od dvadeset tj. postoji jednakost u intervalima – skala je
ekvidistantna (postoji jednakost u razlici među skorovima).Zna se ne samo redosled već i razlika među brojevima
na skali ali se ne zna za koliko puta je jedan skor veci od drugog. Sa ove skale možemo očitati za koliko jedinica je
jedan rezultat veći ili manji od nekog drugog. Ove skale nemaju apsolutnu nulu. Moguće je individualno i grupno
prikazivanje skorova.
Primenjuje se kao pod 1 i 2 uz dodatke: aritmetička sredina, standardna devijacija, z-skorovi i koeficijent
korelacije r ( i parcijalna i multipla korelacija)
Svi psihološki testovi su sa intervalnog nivoa
- Rade samo sa kvantitativnim varijablama
4. RAZMERNI (RACIO)
Zovu se i racio-skale od latinske reči "racio", što između ostalog znači "odnos", "količnik".Ovo je najsavršeniji nivo
merenja. Jednaki brojčani odnosi znače i jednake odnose u merenoj pojavi. To je moguće jer imaju apsolutnu
nulu. Moguće je individualno i grupno prikazivanje skorova. Sa njih možemo očitati za koliko puta je jedan skor
veći ili manji od nekog drugog. Na ovom nivou se uglavnom rade psihofizička i fizička merenja: vreme reakcije,
dužina obavljanja neke delatnosti, broj grešaka, opis stimulusa (svetlina, zapremina, itd.), fizičke mere...
Primena isto kao i 1, 2 i 3 sa dodatkom: geometrijska sredina i koeficijent varijabilnosti.
Postoji posebna podgrupa ovih skala, neki je zovu APSOLUTNA SKALA, specifične su po tome što su diskretne.
Česte su u psihologiji. Primeri: broj pokušaja, broj dece u porodici...
- Rade samo sa kvantitativnim varijablama
11. KONDENZOVANJE PODATAKA - SVRHA I NAČIN
Nakon merenja, postoji mogućnost da se rezultati merenja dovedu u formu radi lakšeg sagledavanja i dovođenja
u vezu. To se zove KONDENZOVANJE (sirovih, bruto) rezultata. Postoji 2 tipa kondenzovanja:
1. za NUMERIČKE VARIJABLE i
2. za KVALITATIVNE VARIJABLE
12. KONDENZOVANJE NUMERIČKIH PODATAKA
Radi se u slučaju kada je broj rezultata toliki da ne može da se ostvari sažimanje na broj. Tada se raspon na kome
su rezultati, podeli na razrede a razredi razvrstaju. Tako se dobijaju frekvencije, učestalost nekih rezultata. To je
tabelarni, pregledni, sažeti prikaz rezultata.
13. KONDENZOVANJE KVALITATIVNIH PODATAKA
Kvalitativni podaci se razvrstvaju u kategorije, postoje frekvencije, ali i procenti - koliko svaka kategorija nosi
procenata od ukupnog rezulata. Proporcije (procenti) više olakšavaju uvid u rezultate.
14. HISTOGRAM

12
Histogram se sastoji od niza stubaca čija visina (ili povšina) odgovara frekvenciji pojedinog razreda, a suma svih
stubaca je ukupna frekvencija svih rezultata N. Histogram je najtačniji prikaz rezultata i dokazuje da je
aritmetička sredina težište rezultata, i iz njega se odmah može očitati dominantna vrednost. Mod u histogramu
je razred sa najvišim stupcem. Koristi se kada je u pitanju 1 varijabla i kada su podaci kvalitativni. Ako je u pitanju
više od jedne varijable, histogram nije najbolji način grafičkog prikazivanja, osim ako stubovi nisu razdvojeni;
tada je opravdano nuditi paralelno dve (ili više) varijabli histogramom.

- Histogram (kao i poligon) razvija efekat vremena


- Nije uobičajen trodimenzionalan histogram (treća dimenzija se simulira i nema nikakve povezanosti sa
rezultatima). Takođe nije uobičajen histogram u boji
- Kada se dve distribucije svode na ’’zajedničku meru’’ za svaki razred izračunaju se relativne frekvencije tj. svaka
frekvencija se prikaže u procentu ukupnog broja.
15. POLIGON FREKVENCIJA
Poligon je više ili manje pravilna kriva, kojoj totalna površina odgovara ukupnoj frekvenciji svih rezultata (N), ali
površina iznad pojedinog razreda ne odgovara frekvenciji tog razreda, već frekvenciju razreda označava samo
visina poligona tačno iznad sredine razreda.
Iznad sredine svakog razreda se crtaju tačke u visini ordinate koja je frekvencija tog razreda. Leva i desna krajnja
linija moraju da budu na apscisi ili koordinatnom početku. Ukupna površina poligona je ukupna frekvencija svih
rezultata (N). Poligon je pregledan i u njega se može ubaciti i više distribucija.
Iz poligona se odmah može očitatati dominantna vrednost. Mod u poligonu je razred iznad kojeg se nalazi vrh
krive. Koristi se kod odnosa između većeg broja varijabli i kada su podaci kvantitativni. Razvija efekat vremena.

Primer: Devojčicama petog razreda osnovne škole dali smo zadatak da trče, bez ograničenog vremena i
kilometraže, i bez takmičenja. Jedini njihov zadatak je da odustanu onda kada zaista više nemaju snage da

13
nastave trčanje. Mi smo beležili na kom metru odustaje koliko devojčica. Na poligonu jasno možemo očitati da je
najviše devojčica uspelo da istrči 300 metara, a najmanje je bilo onih koje su istrčale samo 100 – 150 metara i
onih koje su se umorile tek posle 500 istrčanih metara.
16. KRUŽNI DIJAGRAM
Služi za deskripiciju međusobno nezavisnih ili slabo zavisnih podataka. Zove
se još pita ili torta dijagram. Kružni odsečak se računa ovako:
360° · f/N
gde je f frekvencija rezultata a N broj rezultata. Koristimo ga kada imamo
kategorijalne varijable

Dinamičko
grafičko

predstavljanje se koristi kada se ne može


predstaviti frekvenca na kružnom dijagramu jer je
isuviše mala. Kod dinamičkog grafičkog
predstavljanja pojedini parčići se iseku i odvoje.
Tako su rezultati pregledniji od običnog
šrafiranog kružnog dijagrama. Vidi se koliki je
udeo pojedinih kategorija u glavnici. U DGP
možemo rotirati dijagram u 3D prostoru i
promeniti ugao gledanja (rakurs). DGP se može
koristiti i kod drugih dijagrama.

17. BOX AND WHISKERS PLOT

Na kutijastom dijagramu možemo videti:


- centralnu vrednost ili medijan koja se uvek nalazi tačno na sredini kutije, sa leve i desne strane nalazi se 50%
rezultata
- kutija obuhvata 50% rezultata odnosno 2. i 3. kvartil (Q2 i Q3)
- kutija predstavlja varijabilnost rezultata oko Mdn, tj. raspršenje rezultata
- raspon varijable; interval (Xmax-Xmin)
- rezultati koji se nalaze van kutije su outlieri
Ako se kutija nalazi tačno na sredini linije znači da je distribucija normalna i tada je
Mdn = M =MOD. Međutim to je retko jer se box and whiskers uglavnom koristi kada se rezultati ne raspoređuju
normalno, kada nisu sa intervalnog nivoa.

14
Ako se kutija nalazi više levo tada će kriva distribucije gravitirati ulevo što znači da ima više negativnih rezultata i
to je onda negativna zakošenost ili asimetrija ulevo .
Ako se kutija nalazi više desno, tada će kriva distribucije gravitirati udesno, što znači da ima više pozitivnih
rezultata i to je onda pozitivna zakošenost ili asimetrija udesno.
* KOORDINATNI SISTEM
Njime se služimo kada imamo rezultate koji se
razvijaju u vremenu ili koji se grupišu oko neke
reprezentativne vrednosti.

* KRIVA KUMULATIVNE FREKVENCIJE


- Galtonova ogiva – funkcija koja prikazuje kako se kumulira broj, odnosno procenat slučajeva sa porastom skora
na apscisi
Ovaj vid grafičkog prikazivanja pogodan je kada je želimo brzi pregled koliko rezultata ili koliki se procenat
rezultata nalazi ispod ili iznad nekog konkretnog rezultata. Daje nam i podatak o tome gde se otprilike nalazi
centralna vrednost.
Na apscisu se nanose prave gornje granice razreda a na ordinati se nalazi kumulativna frekvencija.
- prava gornja granica je sredina između gornje vrednosti jednog razreda i donje vrednosti idućeg razreda.
- kumulativna frekvencija je zbir svih frekvencija od najnižeg razreda na dalje
* Prikažemo li rezultate stupcima dobićemo jasan i nepristrasan odnos

15
18. OPREMANJE GRAFIKONA I TABELA
Sve od 14. do 18. pitanja!

19. MERE CENTRALNE TENDENCIJE (svrha, značaj i izbor)


Prosek je vrednost oko koje se kreće najviše rezultata i on najbolje reprezentuje pojavu koju posmatrammo
Tendencija grupisanja podataka oko neke tipične vrednosti je CENTRALNA TENDENCIJA. Raspodela podataka se
zove DISTRIBUCIJA podataka.
Podaci imaju 3 osobine:
1. tendencija grupisanja oko jedne centralne vrednosti (AS, medijan, mod)
2. tendencija variranja (odstupanja) oko CV
3. forma (oblik) tendecije
- Postoji potreba da se centralna tendencija izmeri, i ta potreba proističe iz kondenzovanja podataka
- U zavisnosti od toga da li zelimo da uzmemo u obzir outlier-e ili ne, koristimo i odgovarajuce mere centralne
tendencije.
- Izbor pokazatelja centralne tendencije zavisi i od prirode same varijable (npr. da li je ona diskretna ili ne), od
nivoa merenja i oblika distribucije.
Mere centralne tendencije su:
- aritmetčka sredina
- centralna vrednost – medijan
- dominantna vrednost – mod
20. ARITMETIČKA SREDINA
Jedna od najpoznatijih i najsavršenijih mera proseka je aritmetička sredina. AS je tačka oko koje suma pozitivnih i
negativnih vrednosti iznosi nula.
Uslovi za primenu AS su:
1. intervalni ili razmerni nivo merenja
2. numerički tip varijable
3. normalna distribucija
- AS je osetljiva na vrednost rezultata i broj merenja. Ona se za mali broj rezultata računa ovako:
(∑X) / N=M ∑X - suma rezultata

16
N - broj rezultata (br. merenja)
M - aritmetička sredina
Ukoliko postoji veliki broj rezultata, gore naveden način računanja bio bi dug i zamoran. Zato se rezultati grupišu
u razrede (10 do 20 razreda). Razredi su jednaki po veličini (intervalu), a svaki sledeći razred počinje za jednu
jedinicu više od predhodnog. Svaki razred ima svoju veličinu, odnosno određen broj rezultata koji obuhvata. To
se zove INTERVAL razreda (i). Interval se određuje na sledeći način:
1. nađe se razlika najvećeg i najmanjeg rezultata (raspon)
2. donese se odluka koliko razreda želimo
3. raspon podelimo sa željenim brojem razreda
- pored svakog razreda se udaraju ’’recke’’ koje govore koliko rezultata od ukupnog broja rezultata ulazi u taj
razred. Formula: M= ∑(f X)/N
- grupisanje rezultata u razrede je neophodno kod grafičkog prikazivanja
- kada i u ovom postupku moramo da računamo sa velikim brojevima, odredićemo proizvoljnu AS i računati samo
koliko ostali rezultati odstupaju od te sredine, i onda proizvoljnoj AS dodamo prosek svih odstupanja. Uz pomoć
privremene AS, M se može izračunati i na sledeći način:
M = Mpr – suma odstupanja/N
- proizvoljna (privremana) AS – oslanja se na pravilo da je suma svih odstupanja (računajući i algebarski
predznak) jednaka nuli
Kada neku pojavu izmerimo više puta i želimo da dobijemo zajedničku AS svih merenja, to ćemo učiniti na
N1M 1  N 2 M 2  ______  NnMn
sledeći način: M 
N1  N 2  ______  Nn

21. CENTRALNA VREDNOST (MEDIJAN)


Medijan je vrednost koja se u nizu rezultata poređanih po veličini nalazi tačno na sredini, i uvek predstvalja ceo
broj. Mdn je tačka od koje je najmanja suma svih odstupanja.
C = (N+1)/2
Ovaj broj pokazuje samo položaj rezultata koji zauzima Mdn (mesto, a ne vrednost).
Ako je broj rezultata paran C se izračunava tako što se zbroje dva srednja rezultata i taj zbir se podeli sa dva.
Sa obe strane medijana nalazi se po 50% rezultata.
- Na medijanu ne utiču «težine» outlier – a, i to je prednost C nad M
- Na Mdn utiče broj rezultata ali ne i njihova vrednost.
- Mdn ne zahteva ni jednu određenu raspodelu, podaci mogu biti i diskontinuirani
- Da bi odredili centralnu vrednost podaci moraju poticati najmanje sa rang - skale
Praktična upotreba Mdn je lociranje optimalnog položaja.
22. DOMINANTNA VREDNOST (MOD)
To je ona vrednost koja je u nizu merenja najčešće postignuta (najfrekventnija vrednost). Na nju utiče samo
frekvencija pojedinih rezultata. Nezavisna je od distribucije. Zove se još i MODALNA vrednost. MOD je jedina
mera centralne tendencije koja radi sa kvalitativnim varijablama sa nominalnog nivoa merenja.
* GEOMETRIJSKA SREDINA je n-ti koren iz proizvoda N brojeva
* HARMONIČNA SREDINA – upotrebljavamo je kada želimo dobiti proseke nekih odnosa
23. MERE VARIJABILNOSTI (SVRHA, ZNAČAJ I IZBOR)
Mere varijabilnost su:
- raspon,
- srednje odstupanje,
- standardna devijacija i
- koeficijent varijabilnosti.

17
One služe za reprezentaciju raspršenja rezultata. Na primer, aritmetička sredina nije nikakva garancija da se
rezultati grupišu oko njene vrednosti i zato je uvek potrebno znati kako i koliko se oni grupišu, odnosno da li je
dobijena aritmetička sredina dobar ili loš reprezentator rezultata.
1. RASPON (OPSEG)
On je najjednostavnija ali i najnetačnija mera grupisanja rezultata oko neke srednje vrednosti. Raspon je razlika
između najvećeg i najmanjeg rezultata . To je nesigurna mera jer je dovoljno da postoji i jedan ekstremni rezultat
(outlier) pa da se raspon poveća, a da se grupisanje oko aritmetičke sredine ne promeni. Na njega utiče i veličina
uzorka (br. merenja)
– raspon je to veći što je veći br. rezultata uzet u obzir. Kod idealno normalne distribucije raspon je jednak 6 SD.
2. SREDNJE ODSTUPANJE (PROSEČNO ODSTUPANJE)
Njime se određuje prosečno odstupanje pojedinih rezultata od aritmetčke sredine. Može se koristiti uz
aritmetičku sredinu, centralnu i dominantnu vrednost.
Formula:
PO = (∑ [X-M] ) / N [X-M] = apsolutna veličina
odstupanja
- Prosečno odstupanje je najpostenija (najpravednija) mera odstupanja, a moze biti i idealna mera samo pod
odredjenim uslovima.
- Prosečno odstupanje kao i aritmetička sredina predstavlja težiste (odstupanja od mere centralne tendencije)
- Kod računanja PO ne uzimamo u obzir algebarski predznak odstupanja tj. ne uzimamo u obzir u kom je smeru
odstupanje
3. STANDARDNA DEVIJACIJA
Kada bi se prosečno odstupanje računalo uzimajući u obzir predznake, rezultat bi uvek bio 0. Da bi se to izbeglo,
rezultat se kvadrira. Što je odstupanje veće to ono dolazi više do izražaja kada ga kvadriramo. Kada sumi svih
kvadriranih odstupanja izračunamo aritmetičku sredinu dobićemo meru varijabiliteta koja se zove VARIJANSA
(prosečna suma kvadriranih odstupanja) Drugi koren iz varijanse je standardna devijacija
SD = √ ∑(X-M)² / N-1)
Kada su rezultatai simetrično i normalno grupisani oko M, u intervalu -+1s, nalazi se 68,26% od ukupnog broja
rezultata, -+2s je 95,44%, a -+3s je 99,73% rezultata. SD se računa samo uz M. SD pokazuje nam koliko je M
dobar ili loš reprezentant rezultata.
Uz SD možemo predvideti u kojem se rasponu kreću praktično svi rezultati i to je njena najbitnija osobina –
obuhvatnost!

- SD ne upotrebljavamo kada nam


smetaju outlieri.
- Procenu σ (standardna devijacija
populacije) preciznije bi izračunali
kada bi imali odgovarajuću
aritmetičku sredinu populacije (μ).
Pošto je nemamo, koristimo samo
njenu procenu (iks bar). Pošto je
odgovarajuca AS uzorka vrednost sa
najmanjim zbirom kvadratnih
odstupanja (od nje), mi dobijamo manju SD nego što je to σ populacije. Da bi to donekle korigovali, da ne i
podcenili SD, N se smanjuje za 1 i time se povećava SD. Kada bi radili sa populacijom u imeniocu bi bilo samo N.
- odnos između SD i raspona gotovo nikad nije manji od 2 niti veći od 6.5
4. KOEFICIJENT VARIJABILNOSTI V
Pokazuje koliki postotak vrednost aritmetčke sredine iznosi vrednost standardne devijacije:
V= (SD·100) / M
Uz pomoć V možemo saznati:
18
- u kojem svojstvu neka grupa varira više a u kojem manje
- koja od grupa varira više a koja manje u istom svojstvu
24. SEMIINTERKVARTILNO RASPRŠENJE I RASPON
Stepen variranja se manifestuje kroz:
1. OPSEG VARIJABLE: to je mera raspršenosti. Postoji i bolja mera, ’’fer mera’’ i to je M.
2. MERA PROSEČNOG ODSTUPANJA OD CENTRALNE TENDENCIJE: to je najpoštenija mera, svi rezultati su uzeti u
obzir, i svaki rezultat utiče na nju.
PO= (∑X)/N
Poluinterkvartlno raspršenje (semiinterkvartlno) se označava sa Q. Koristi se kada nas zanima variranje unutar
2 centralna kvartila. Kvartli su delovi distribucione krive koji se dobijaju kada se distribucija podeli na 4 dela.
Ispod svakog kvartila leži 25% rezultata. Q = (Q3-Q1) /2
Q1 = (N+1)/4 25%
Q2 = (N+1)/2 50%
Q3 = 3(N+1)/4 75%
Q4 = N 100%
- Poluinterkvartilno raspršenje se zove još i semiinterkvartlni opseg.
- Poluinterkvartilno rasprsenje nam kazuje koliki je raspon rezultata nakon odbacivanja 25% najmanjih i 25%
najvecih rezultata.
- koristi se kada se podaci ne raspršuju normalno
- ide uz Mdn; Q2 = Mdn
25. SREDNJE KVADRATNO RASPRŠENJE
Srednje kvadratno raspršenje se obeležava sa σ (sigma) i predstavlja zapravo standardnu devijaciju. To je idealna
mera ali samo pod određenim uslovima.
S = σ = √ (∑XX) / (N-1)

26. NORMALNA RASPODELA I NJENA SVOJSTVA


Normalna raspodela ima tačno definisano grupisanje odnosno raspršenje oko centralne tendencije. Ona ima
svoju karakterističnu formu (zvonast oblik). Kriva koja to pokazuje se naziva Gausova kriva (normalna
distribucija, normala verovatnoće). Ona specifikuje relativnu učestalost Y za svaku vrednost X, definisana je
matematičkom jednačinom. Ona je teoriska tvorevina, stvarne raspodele manje vise odstupaju od nje (nikad
nece biti egzaktno normalne). ND je definisana kada je poznata AS i SD. Da bi kod nekog istraživanja dobili ND
moraju se zadovoljiti sledeći uslovi:
1. da se ono što merimo stvarno raspoređuje po normalnoj raspodeli
2. da imamo velik broj merenja (rezultata)
3. da su sva merenja sprovedena jednakom metodom i u što sličnijim spoljašnjim prilikama
4. uzorak na kome obavljamo istaživanje mora biti heterogen po svojstvu koje merimo, a homogen po svim
drugim svojstvima
Osnovna karakteristika ND je mesto infleksije. To je mesto gde ND prelazi iz konveksne u konkavnu i postoji 7
takvih tačaka.

Još jedno svojstvo ND – ako znamo z-skor možemo da odredimo


koliki procenat ispitanika se nalazi ispod i iznad tog skora. Ti procenti
se nazivaju percentlima.
Karakteristike ND:
1. Modalnost - jedan vrh
2. Simetričnost - normalna distribucija je savršeno simetrična. Njena AS se nalazi na mestu Mdn, što znači
da se levo i desno od nje nalazi po 50% rezultata.

19
3. Asimptotčnost - krajevi ND se u nedogled približavaju X-osi ali je nikada ne dodiruju; nikada ne obuhvata
100% slučajeva
4. Kontnuiranost - neisprekidanost
27. POVRŠINA POD ND
To je teorijska distribucija relativne učestalosti vrednosti Y. Relativne učestalosti se izražavaju proporcijom, tj.
njihova suma je 1.0. Interval M +1σ obuhvata 0.34 rezultata (34%). Pošto je simetrična, +-σ obuhvata 0.68
rezultata, +-2σ obuhvata 0.95 rezultata, +-3σ 0.99 rezultata. Ako znamo z-skor možemo da odredimo koliki
procenat ispitanika se nalazi ispod i iznad tog skora. Ti procenti se nazivaju percentlima. Ako kažemo da je neki
ispitanik na 80-om percentilu to znači da 80% ispitanika ima niži skor od njega, a samo 20% viši.
28. ODSTUPANJA OD NORMALNE RASPODELE: ODSTUPANJE PO SIMETRIJI
Odstupanje ND po simetriji se zove zakošenost (skewness), i postoji dve vrste odstupanja:
1. Pozitvna zakošenost– ako distribuciona
kriva gravitira ka pozitivnim rezultatima, modalna
vrednost je na levoj strani (i tada kažemo da je test bio
težak) ASCD

2. Negatvna zakošenost– ako distribuciona kriva


gravitira ka negativnim rezultatima, modalna vrednost je
na desnoj strani (i tada kažemo da je test bio lak)
ASCD
 Q3 - Q2 = Q2 – Q1  ND
 Q3 - Q2  Q2 – Q1  pozitivna zakošenost
 Q3 - Q2 Q2 – Q1  negativna zakošenost
- Statistički test koji testira skweness je Kolmogorov-Smirnof

29. ODSTUPANJA OD NORMALNE RASPODELE: ODSTUPANJE PO VISINI


Postoje dva odstupanja po visini. Tada su aritmetičke sredine jednake, ali su im SD različite. Širina ND zavisi od
standardne devijacije.
1. Platkurtčna - Spljoštena ND; Q 0.263
2. Leptokurtčna - Uska ND; Q 0.263
- Q normalne distribucije iznosi 0.263; ako je bitno veći ND biće platikurtična a ako je bitno
manji ND biće leptokurtična.
- Što su veća odstupanja od M i sto ih je više, to je veći kurtosis. Statistički test koji testira kurtosis je Wilk-Shapiro
(W-test).
30. ODSTUPANJA OD NORMALNE RASPODELE: MODALNOST
Modalnost predstavlja oblik krive. Mod se nalazi između -1s i +1s , kada prelazi iz konveksne u konkavnu (4.
mesto infleksije). Normalna distribucija je unimodalna, što znači da ima jednu dominantnu vrednost, jedan vrh.
Postoje i bimodalne krive: imaju dve dominantne vrednosti, odnosno 2 modusa, dva vrha.
- Kod unimodalne ND rezultati imaju jednu tendenciju grupisanja (centralnu u ovom slučaju), oni teže jednoj
vrednosti. Kod bimodalne rezultati imaju dve tendencije grupisanja (jedna grupa rezultata teži jednoj, a druga
drugoj vrednosti).
- distribucija može biti i polimodalna, sa više vrhova
31. USLOVI ZA DOBIJANJE ND
1. Da se ono što se meri, raspoređuje po normalnoj raspodeli.
2. Da postoji veliki broj merenja (rezultata) : kod malog broja merenja, samo pukim slučajem je moguće dobiti
rezultate koji znatno odstupaju od normalne raspodele. Zato je potreban veliki broj merenja.

20
3. Da su sva merenja izvršena istom metodom (na isti način) i u istim spoljašnjim uslovima (samo tada je
predmet merenja jedan jedini).
4. Uzorak na kome obavljamo istaživanje mora biti heterogen po svojstvu koje merimo, a homogen po svim
drugim svojstvima
32. DISTRIBUCIJE PODATAKA RAZLIČITE OD NORMALNE: POISSONOVA DISTRIBUCIJA
Kod ove distribucije, M je jednaka varijansi. Naziva se još i zakon retkih događaja. Kod testiranja Poissonove
distribucije, stepeni slobode se računaju : broj razreda – 2. Postoji postupak za izračunavanje Poissonove krive,
ali se brže računa preko Poissonovih tabela.
- Poissonova distribucija je teorijska distribucija raspodele događaja male verovatnoće.
33. TRANSFORMACIJA REZULTATA: SVRHA
Ako je distribucija normalna, poznato je koji procenat rezultata pada u koji interval. Interval u kojem se nalazi
rezultat lakše se određuje z-vrednostma. Njihov cilj je određivajnje položaja pojedinog rezultata u grupi. Da bi se
izbeglo računanje za svaki novi skup podataka, dolazi do transformacije rezultata (pretvaranja rezultata na
standardnoj skali ND).
Postoje razne transformacije: T, IQ, Z...One su mehanizmi za zaključivanje. Postoji nekoliko razloga za
transformacijom:
1. Pojednostavljivanje računanja (svim rezultatima se dodaje ista vrednost, translacija = pomeranje,
prevođenje rezultata).
2. Preglednost rezultata (eliminacija decimalnih mesta)
3. Korigovanje oblika distribucije (nelinearne transformacije menjaju oblik, linearne transformacije ostaju iste).
34. TRANSFORMACIJA REZULTATA: Z –VREDNOSTI
Kada rezultate izražavamo u jedinicama SD taj proces se zove pretvaranje (transformisanje) rezultata u z –
vrednost ili standardizacija rezultata. Za svaki pojedinačni skor možemo odrediti na koji deo SD pada (na koji deo
SD pada odstupanje jednog rezultata od M). Takođe možemo odrediti koji procenat skorova se nalazi ispod ili
iznad nekog konkretnog skora. Zet vrednost je vrsta transformacije. Cilj ove trasformacije je relativni učinak
(relativno postignuće), odnosno određivanje položaja pojedinog rezultata u grupi. Ova transformacija je
potrebna kada je potrebna prosečna ocena kod niza merenja koja se nalaze u istim jedinicama ali pomoću
testova koji imaju različit varijabilitet rezultata
- Transformacija sirovih (bruto) rezultata u z-vrednosti moze imati dvosmernu vezu.
- z-vrednosti zahtevaju ND jer su vezane za AS i SD
- zahtevaju najmanje intervalni nivo merenja
- z – vrednosti su ekvidistantne jedinice i mogu se zbrajati
- može se računati prosečni z - skor
- diferencijalna statistika se bavi indidvidualnim razlikama. Z – vrednosti se međusobno mogu porediti i to:
1. INTRAINDIVIDUALNO (unutar - pojedinačno): uspeh jednog pojedinca na različitim testovima
2. INTERINDIVIDUALNO (među – pojedinačno): uspeh različitih ispitanika na više testova; najbolji je onaj koji
ima najviši prosečni z – skor (npr. Prijemni ispit iz psihologije)
Formula za izračunavanje z – skora: Z = (X-M)/s
X – pojedinačni rezultat koji želimo da pretvorimo u z - skor
35. TRANSFORMACIJA REZULTATA U SKALE RAZLIČITE OD STANDARDNE
36. STATISTIČKO ZAKLJUČIVANJE: POPULACIJA I UZORAK
Inferencijalna statistika bavi se zaključivanjem sa uzorka na populaciju; procenjivanjem parametara populacije na
osnovu pokazatelja utvrđenih na uzorku; bazira se na slučajnom uzorkovanju.
Populacija (osnovni skup, statistička masa) predstavlja sve članove nekog skupa sa određenom karakteristikom
koju merimo. Svi članovi moraju biti homogeni po entitetu koji merimo; npr. populacija studenata psihologije -
zajedničko svojstvo im je da studiraju psihologiju a heterogeni su po ostalim karakteristikama (pol, godine,
nacionalna pripadnost, materijalno stanje itd.) Populacija je cilj zaključivanja, onaj domen o kome želimo da
saznamo i o kome želimo da zaključujemo. Nekada je populacija neograničena a nekada je praktično

21
nedostupna, ali i da je dostupna postoje razlozi za njeno ograničavanje (skupo, oduzima nam puno vremena,
mukotrpno...) – zato uzimamo uzorak. Uzorak je manji ili veći deo te populacije koji smo stvarno istraživali sa
ciljem da saznamo svojstva populacije.
Posle deskripcije uzorka , kondenzovajući i tumačeći rezultate, mi ih generalizujemo na populaciju (vršimo
estimaciju i inferenciju). Veličina i oblik varijacije uzorka zavisi od populacije i njenog sastava. Te varijacije su
dokaz da uzorak nije „mini duplikat“ populacije. Varijabilitet rezultata u populaciji direktno je proporcionalan
varijabilitetu rezultata iz uzorka.
- AS i SD uzorka su to manje što je uzorak (broj merenja) veći.
- Zajednička AS svih uzoraka je to bliže  što je više uzoraka izmereno i što su ti uzorci veći.
- Raspršenje AS uzoraka oko  je to manje što su uzorci veći
- AS uzoraka grupišu se oko  po normalnoj raspodeli
Procenjujući  na osnovu AS uzorka, mi po definiciji činimo grešku (svako merenje je sa greškom, a mi
procenjujemo  na osnovu statistika – AS, ovo treba da je indirektno merenje jer se  «manifestuje» preko
estimatora AS). Veličina te greške zavisi od tri stvari:
1. Reprezentativnosti uzorka
2. Veličine varijanse (varijabilnosti, raspršenja varijable odnosno pojave koju merimo),
3. Veličine uzorka
Teorema centralne granice – distribucija AS uzoraka iste veličine težiće ND čak iako populacija iz koje uzimamo
uzorke nije normalno distribuirana
37. STATISTIČKO ZAKLJUČIVANJE: VELIČINA UZORKA
Potrebna veličina uzorka zavsi prvenstveno od varijabilnosti pojave koju merimo. Ako je pojava malo varijabilna
biće nam dovoljan i manji uzorak, a kod jako varijabilnih pojava potreban je veliki uzorak. Na drugom mestu je
preciznost kojom želimo izmeriti pojavu. Što precizniji kriterijum želimo, to nam uzorak mora biti veći. Kod
istaraživanja retkih pojava uzorak nam mora biti vrlo veliki. Ako imamo kontrolni i eksperimentalni uzorak,
njihova veličina trebala bi biti približno jednaka.
Proporcija populacije uključena u uzorku ima samo blag uticaj na standardnu grešku aritmetičke sredine,
pogotovo ako govorimo o velikim populacijama. Za uzorak je mnogo bitnije da bude reprezentativan nego velik;
ako uzorak nije dovoljno reprezentativan ništa mu ne vredi njegova veličina.
38. STATISTIČKO ZAKLJUČIVANJE: REPREZENTATIVNOST UZORAKA
Da bi generalizacija sa uzorka na populaciju imala smisla, uzorak mora biti takav deo populacije koji poseduje ista
ili slična svojstva kao i populacija. Sličnost uzorka i populacije se opisuje pojmom reprezentativnosti. Drugim
recima reprezentativnost uzorka je skup osobina uzorka od kojih zavisi koliko je on verna slika populacije i da li je
doslovno odražava. Ako je uzorak ''isti'' kao populacija, naše generalizovanje i estimacija su opravdani. Pošto
uzorak ne može u svim svojstvima biti jednak populaciji, poželjno je da reflektuje populaciju u svojstvima koja su
relevantna za naše ispitivanje. Ideja o reprezentativnosti kao zahtevu počiva na tome da se treba ograničiti na
relevantna svojstva za nase istrazivanje. Reprezentativnost uzorka u odnosu na populaciju je osnovni kvalitet bilo
kog uzorka jer, ako uzorak po svojstvima koje nas interesuju ne liči na populaciju, onda je kompletna zamisao
izneverena. Pošto ne postoje jedinstveni brojčani pokazatelji kojima bismo prikazali meru reprezentativnosti,
postavlja sa pitanje kako da se uopšte ona proceni. Prvi i osnovni način za ocenu reprezentativnosti uzorka je u
evaluaciji procedure uzorkovanja – ako su poštoveni principi prostog slučajnog uzorkovanja (jedakih verovatnoća
biranja) možemo da kažemo da je taj uzorak ispunio uslove da bude reprezentativan.
Drugi preduslov za postizanje reprezentativnosti je pravilno dimenzioniranje uzorka.
39. PRINCIPI I TEHNIKE UZORKOVANJA: JEDNOSTAVNI NASUMIČNI UZORAK
Metode obezbeđivanja reprezentativnosti uzorka predstavljaju najbolji način da on bude nepristrasno utvđen
(izvucen iz populacije). Kada izvlacimo pojedinacne entitete nesmemo praviti diskriminaciju pojedinih kategorija,
vec obezbeđujemo da slucaj odlucuje. Ako nasumice biramo entitete veca je verovatnoca da ce se odraziti sva, a
i za nas relevantna svojstva.

22
Postupak uzorkovanja (izvlačenja uzorka) počinje na primeni zakona verovatnoće. Tehnički izbor je nasumični
izbor koji je i najčešće korišćeni metod. Nasumičnim izborom dobijamo jednostavni nasumični uzorak – ovde
slučaj odlučuje, a svi članovi populacije imaju jednaku verovatnoću da budu izabrani. Izbor svakog člana ne zavisi
od izbora ostalih članova.
40. PRINCIPI I TEHNIKE UZORKOVANJA: STRATIFIKOVANI NASUMIČNI UZORAK
Potrebnim korigovanjem nasumičnog izbora dobijamo stratifikovan nasumični uzorak. Korigovanje se sastoji u
određivanju stratuma (slojeva) ili areala – nehijerarhijskih delova populacije. Svakom stratumu određujemo
njegov procenat (proporciju) i udeo u ukupnoj populaciji, i na osnovu njega određujemo udeo koji će imati u
uzorku. Ponovo vršimo uzorkovanje na bazi slučaja (nasumično uzorkovanje).
Ponekad ne moramo koristiti proporcionalnu zastupljenost areala, već možemo uzeti podjednak broj slučajeva iz
svakog od naših areala, iako su oni nejednake veličine. To sve može zavisiti od ciljeva našeg istraživanja. Ovako
dobijamo neproporcionalni stratifikovan uzorak.
* postoje još neki verovatnosni uzorci: sistematski, klaster, kvotni
41. PRINCIPI I TEHNIKE UZORKOVANJA: NEVEROVATNOSNI UZORCI
Verovatnosni uzorci su oni čije se uzorkovanje bazira na zakonu verovatnoće (nasumični izbor).
Neverovatnosni uzorak (prigodni uzorak) je uzorak čija se tehnika uzorkovanja ne zasniva na statistici (na zakonu
verovatnoće) ali je legitimna (potrebna, opravdana) iz različitih razloga. To je onaj uzorak koji nam se “nađe pri
ruci” jer drugog nemamo.
42. STANDARDNA GREŠKA PROCENE ARITMETIČKE SREDINE
- Procenjujući μ na osnovu AS uzorka mi po definiciji činimo grešku, pa se postavlja pitanje kolika je ta greška i
od čega ona zavisi.
Procena može biti:
 Fiksna procena – kada se greška tretira kao puko odstupanje , puka razlika između M i μ
 Intervalna procena – omogućava nam da vidimo koliko smo daleko od populacije i u kom intervalu se
ona kreće. Te granice se zovu intervali pouzdanosti (poverenja)
Postoje naukom dogovorene veličine za rizik od greške. To su najčešće rizik od greške od 1% i od 5%. 1% je
strožiji kriterijum. Nivo statističke značajnosti može dvojako da se posmatra:
a) Pri nivou značajnosti od 0.05 rizik da ćemo pogrešiti je 5%
b) Broj ponovljenih operacija a da ishod bude jednak – kada bi pri nivou značajnosti od 0.05 uradili 100
istraživanja pod istim uslovima, 95 puta ćemo dobiti isti ishod a 5 puta drugačiji
SM zavisi od:
- Varijabilnosti varijable u
populaciji
- Veličine uzorka
- Reprezentativnosti uzorka
Varijabilnost
M će biti bliže μ što je
raspršenje varijable u
populaciji manje. Što je
raspšenje veće imamo više
razbacanih rezultata dalje od
AS i više šanse da napravimo

grešku.

Veličina uzorka
O veličini greške odlučuje i veličina uzorka. Ako imamo mali
uzorak lako se može dogoditi da izvučemo ekstremne
23
vrednosti. Povećavajući uzorak sve više i više, naša greška se smanjuje tj. tačnost procene naglo raste, zatim
usporava, i na posletku, posle određenog broja, tačnost ostaje konstantna i nema smisla više povećavati uzorak.
To se lepo ilustruje krivom negatvne akceleracije:

Reprezentatvnost uzorka
Problem reprezentativnosti uzorka je i dalje prisutan i time utiče na grešku procene. Kad dobijemo bruto (sirove)
rezultate, mi ne znamo ništa o reprezentativnosti. Za razliku od raspršenja i veličine uzorka, ona se ne može
kvantifikovati, pa smo primorani da smatramo da je reprezentativnost ostvarena u nekoj meri. Ipak jedno
možemo zaključiti: što uzorak vernije reprezentuje populaciju, to će greška procene biti manja.
 Greška procene parametra  na osnovu statistika M biće utoliko manja ukoliko je raspršenje varijable u
populaciji manje i što je uzorak koji je reprezentuje veći.
 Greška procene parametra  na osnovu statistika M biće utoliko veća ukoliko je raspršenje varijable u
populaciji veće i što je uzorak koji je reprezentuje manji.
σ (standardna devijacija populacije) – nam je nepoznata i mi možemo samo da nastojimo da je pogodimo.
Koristimo njenu procenu, približnu vrednost, kao zamenu za nju – standardnu devijaciju uzorka (s). prava
formula za standardnu grešku bila bi:
σM = σ / √N  standarda greška aritmetčke sretčke sredine
σM – zapravo predstavlja standardnu devijaciju aritmetičkih sredina uzoraka oko prave, populacijske aritmetičke
sredine. Standardna greška je takođe standardna devijacija, ali dok je SD (s) mera variranja individualnih
rezultata oko njihove aritmetičke sredine, dotle je standardna greška mera variranja aritmetičkih sredina uzoraka
oko prave, populacijske aritmetičke sredine (μ). Pošto nam je σ nepoznata, fomula će glasiti:
SM = s / √N  procena standardne greške aritmetčke sredine
Korenovanje je intervencija kojom veštački smanjujemo vrednost učečša veličine uzorka u proceni greške μ. Kao
posledicu u praktičnim istraživanjima dobijamo da nam povećavanje uzorka ne donosi i linearno smanjenje
standardne greške procene aritmetičke sredine populacije.
Uzorkovajući nasumično mi po pravilu postižemo da u varijabli koja ima manji opseg dobijemo i manji opseg na
uzorku, kao što ćemo na širokom opsegu dobiti i širok opseg uzorka.
43. STATISTIČKO ZAKLJUČIVANJE: INTERVALI POVERENJA I NIVOI ZNAČAJNOSTI
Posle izračunavanja procene greške aritmetičke sredine s M postavlja se pitanje: «šta dalje?»
- Kolika greška treba da bude da bi je smatrali velikom, a kolika da bi je smatrali dopustivom? Kolika je dopustiva
greška?
- Sa koliko sigurnosti (poverenja) možemo da prihvatimo rezultat izračunat uz određenu grešku?
Na ova pitanja ćemo odgovoriti posmatrajući distribuciju uzorka. Uzoračka distribucija je distribucija mogućih
uzoraka i njihovih aritmetičkih sredina koji se iz nekih populacija daju izvući. Svi ti uzorci imaju aritmetičke
sredine koje sve manje-više odstupaju od μ. AS uzoraka imaju svoju raspodelu. Tu raspodelu čine normalnom AS
uzoraka koje gravitiraju (teže) μ (njih ima više), kao i oni koji se manje-više raspršuju oko nje. Kada bi kojim
slučajem imali dostupne sve uzorke jedne populacije i njihove aritmetičke sredine, M tih aritmetičkih sredina
morala bi biti jednaka μ.
Aritmetička sredina je nepristrasan, konzistentan estimator. Nepristrasan je jer nijedan faktor ne odvlači
vrednost aritmetičke sredine od μ jer je uzorkovanje slučajno.
Aritmeti~ke sredine uzoraka se oko njihove (ujedno i populacijske) AS distribuiraju normalno. Za njih stoga važe
sva pravila za normalnu distribuciju. Njihov raspon podeljen je u 6 ekvidistantnih segmenata koji obuhvataju
slede}u povr{inu:
M ± 1 s = 68% rezultata
M ± 2 s = 95% rezultata
M ± 3 s = 99.9% rezultata (100%)
Odavde se zaključuje da AS svakog dovoljno velikog i reprezentativnog uzorka ima 68%

24
{anse da padne u +- 1 SD populacije, 95% {anse da padne u opseg od +- 2 SD i 99.9% da padne u opseg od M +- 3
SD.
Mi zapravo treba da procenimo udaljenost M uzorka od μ populacije, ali po{to je njihov odnos, naravno,
recipro~an, a mi nemamo drugog izbora, procenjujemo (udaljenost) μ na osnovu M.
Intervali pouzdanost (poverenja) zapravo govore kolike su verovatnoće da se μ nalazi na određenim
udaljenostima od M uzorka (u određenom rasponu). Od 3 moguća nivoa poverenja u statistici se teži da se uzme
što veći, sa strogim zahtevima i malom verovatnoćom da smo pogrešili. 95-o procentni nivo poverenja se obično
smatra dovoljnim da se u nauci nešto utvrdi.
Populaciska AS može da se procenjuje na dva načina:
1. fiksna procena – kada se grečka tretira kao puko odstupanje, puka razlika (mi-M)
2. intervalana procena – omogućava nam da vidimo koliko smo daleko od
populacije i u kojim granicama se ona kreće. Te granice se se zovu intervali poverenja.
Kada se procenjuje populacijski parametar uvek postoji neka greška procene. Postoje
naukom dogovorene veličine za rizik od greške. To su najčešće rizik od greške od 1% i
5%. 1% je strožiji kriterijum. U statistici se nivo značajnosti može posmatrati dvojako:
- rizikujemo 5% da ćemo napraviti grešku na nivou značajnosti od .05
- broj ponovljenih operacija a da ishod bude jednak tj. ako uzmemo nivo značajnosti od 5% kažemo da će od 100
istraživanja iste pojave, pod istim uslovima, 95 dati isti ishod a 5 puta će se desiti drugačije.
nivo poverenja 95% = nivo značajnost .05 = nivo rizika 5%
nivo poverenja 99% = nivo značajnost .01 = nivo rizika 1%
Odabir nivoa značajnosti je arbitraran (zavisi od volje i odluke istraživača).
44. STATISTIČKO ZAKLJUČIVANJE: STEPENI SLOBODE
Stepeni slobode odnose se na umanjenja koja se uvrštavaju u formule i služe za korekciju rezultata. Uz pomoć
njih teži se da se dobije što preciznija mera koja neće imati sistematsku tendenciju da bude ili uvek veća ili uvek
manja od populacijskog pandama. Najčešće se nalazi u imeniocu i uzorak se umanjuje (N-1, N-2 ...) da mera ne bi
bila sistematski veća. Takođe može da se oslanja na dimenzionalnost varijable. Pribegavamo stepenima slobode
samo kada imamo ograničavajući faktor (to je aritmetička sredina koju predhodno treba izračunati kao uslov da
se računaju odstupanja). AS je nepristrasan estimator dok je SD pristrasan jer je ograničena aritmetičkom
sredinom (ne možemo izračunati SD ako ne znamo AS).
45. STATISTIČKO ZAKLJUČIVANJE: NULTA HIPOTEZA H0
Problem istraživanja se iskazuje u vidu pitanja. Na to pitanje se daje probni odgovor I to je istraživačka hipoteza
koja se obično izražava u formi nulte hipoteze. Nulta hipoteza je pretpostavka da nema razlike medju
populacijama cije uzorke uporedjujemo. Testiranjem razlika medju populacijama mi pokusavamo da nulifikujemo
(ponistimo) nultu hipotezu.
Čim postavimo H0 imamo u vidu I alternatvnu hipotezu H1. Te dve hipoteze moraju biti mutualno ekskluzivne I
moraju obuhvatati sve vrednosti parametara. Ili je tačna jedna hipoteza ili druga, treće alternative nema!
46. GREŠKE (TIPA I I II) U STATISTIČKOM ZAKLJUČIVANJU
- Greška tpa I (α) je greška pri nulifikovanju nulte hipoteze, tamo gde je zapravo treba prihvatiti tj. odbacujemo
tačnu H0. Ona se dešava obično pri blažem nivou značajnosti (p = 0.05). Zove se još i ’’greška hiper produkcije
nalaza ’’
- Greška tpa II (β) je greška pri prihvatanju nulte hipoteze tamo gde je zapravo treba nulifikovati tj. prihvatamo
pogrešnu H0.Ona se dešava obično pri strožijem nivou značajnosti (p = 0.01). zove se još i ’’greška propuštanja
šanse.’’
Greška tipa I je opasnija jer ćemo u proseku kod svakog 20-og istraživanja, jednom pogrešno nulifikovati nultu
hipotezu. Kod greške tipa II i prihvatanja nulte hipoteze tamo gde je zapravo treba odbaciti, uvek ćemo posle
toga imati priliku da ponovo testiramo razlike. Ni jedna hipoteza nije do kraja tačna niti pogrešna jer će uvek
neko posle raditi to istraživanje i može da dokaže suprotno.
* t-test
25
- t-test služi za testiranje značajnosti razlike između aritmetičkih sredina dva uzorka (uvek samo dva!). Testiramo
razlike između AS zato što su one najbolji reprezentanti uzorka. Kada kažemo da postoji statistički značajna
razlika to znači da ta razlika nije slučajna već i da među populacijama postoji razlika. Ako kažemo da razlika nije
statistički značajna to znači da je ona slučajna i da među populacijama ne postoji.
Formule za izračunavanje t-testa

VELIKI UZORCI MALI UZORCI


N1  N 2
s M1  M 2  s zajednicka
M  M2 s1
2
s
2
N1 N 2
NEZAVISNI t 1 s M1 M2   2
s M1M 2
s  N  1  s 2  N 2  1
N1 N2 2 2
UZORCI
s zajednicka  1 1
 N1  1   N 2  1
X dif
t
ZAVISNI UZORCI s M1 M 2  s 2
M1 s 2
M2  2r12 s M 1 s M 2 d 2

N ( N  1)

- Kod t-testa nulta hipoteza glasi : ne postoji statistički značajna razlika između aritmetičkih sredina dva uzorka
H0 = M1 = M2
H1 = M1 ≠ M2
- Generalni model testiranja razlika u statistici glasi : ∆mg /∆ug
tj. međugrupne razlike se suprotstavljaju unutargrupnim razlikama.
- Međugrupne razlike ∆mg kod t-testa predstavljaju razliku između AS dva uzorka
∆mg = M1-M2
- Unutargrupne razlike ∆ug kod t-testa predstavljaju odstupanja svakog individualnog rezultata od pripadajuće
AS, tj. predstavljaju standardnu grešku razlike
∆ug = sM1-M2

- postoji dva kriterijuma za klasifikovanje uzorka :


1. po veličini se dele na male i velike; kod t-testa uzorak je veliki ako je
N1+N2 > 100 , znači da je uzorak mali kad je N1+N2 < 100
2. u zavisnosti od toga da li su u korelaciji dele se na zavisne (ako jesu povezani) i
nezavisne (ako nisu)

- Da bi se primenio t-test moraju se zadovoljiti određeni uslovi :


1. uzorci moraju biti dobijeni slučajnim uzorkovanjem
2. normalna raspodela
3. homogenost varijanse
47. ZNAČAJNOST RAZLIKA IZMEDU ARITMETICKIH SREDINA: NEZAVISNI UZORCI
Veliki nezavisni uzorci

26
M1  M 2 s1
2
s
2
t s M1 M2   2
s M1M 2 N1 N2
Da bi neka razlika bila statistički značajana ona kod velikih uzoraka mora biti 1.96 puta veća od svoje greške,
odnosno t ≥ 1.96 (uz nivo značajnosti od 0.05) ili uz strožiji nivo
značajnosti (od 0.01) t ≥ 2.64
- kod velikih uzoraka i dobijene razlike M1-M2 i dobijeni t-odnosi se distribuiraju po normalnoj raspodeli
Mali nezavisni uzorci
Kod malih uzoraka dobijene razlike M1-M2 se distribuiraju po ND, ali ne i t-odnosi. Oni se raspoređuju po t-
raspodeli koja je slična ND ali je šira. t-raspodela je to šira što je uzorak manji. Kreće se od -3.5t do +3.5t
*t-odnos – standardna greška razlike između dve AS

Kod malih uzoraka nema kriterijuma od 0.01 ili 0.05 već se kriterijumi menjaju u zavisnosti od veličine uzorka, pa
se uzimaju stepeni slobode. T-vrednosti zavise od stepena slobode. U velikom broju računa stepeni slobode su
broj rezultata smanjen za 1: N-1 (ali može biti i N-2, N-3...) da bi znali da li je dobijena razlika između aritmetičkih
sredina značajna moramo se služiti t-tablicom, iz nje očitavamo graničnu vrednost t, koliko puta,uz određenu
veličinu uzorka, mora razlika biti veća od svoje greške da bi smo je mogli smatrati statistički značajnom.

Distribucije t-odnosa za različit broj stepeni slobode.

Pri računanju značajnosti razlike između AS dva mala uzorka, pod pretpostavkom da su oba uzorka iz iste
populacije, mi ćemo izračunati zajedničku standardnu devijaciju.

s  N  1  s 2  N 2  1
2 2
N1  N 2
s zajednicka  1 1 s M1  M 2  s zajednicka
 N1  1   N 2  1 N1 N 2

Međutim to smemo uraditi samo ako se SD dva uzorka ne razlikuju značajno tj. ako su varijanse homogene.
Homogenost varijanse proveravamo uz pomoć F-testa .
veća varijansa
F = ———————
27
manja varijansa
Značajnost F-testa očitavamo u tablicama. Ukoliko F-test nije značajan možemo računati t-test. Ako je F-test
značajan mi možemo da primenimo :
1. Aproksimativnu metodu Cochran-a i Cox-ove
2. Neparametarski test sume rangova – testira da li ta dva mala uzorka pripadaju
populaciji sa istom Mdn
3. Da računamo t-test ali pod uslovima da su uzorci :
- slični po veličini
- slično ne-normalni (npr. distribucije oba uzorka su zakrivljene u levo, ili su
obe platikurtične itd... )
48. ZNAČAJNOST RAZLIKA IZMEĐU ARITMETIČKIH SREDINA: ZAVISNI UZORCI
Zavisni uzorci su u korelacionoj vezi. Jedna grupa je sama sebi kontrola. Na jednom uzorku se vrše dva merenja.
Posle prvog (pretest) se grupa podvrgava određenom tretmanu a zatim ponovnom merenju (posttest) da bi se
utvrdilo da li je došlo do neke pomene, da li postoji razlika uzmeđu ta dva merenja.
Veliki zavisni uzorci
s M1 M 2  s M2 1  s M2 2  2r12 s M 1 s M 2
49. ZNAČAJNOST RAZLIKA IZMEĐU ARITMETIČKIH SREDINA: MALI ZAVISNI UZORCI
Za testiranje značajnosti razlike između malih zavisnih uzoraka upotrebljavamo metodu diferencijacije. Ova
metoda markira promenu između dva merenja za svakog ispitanika posebno. Individualne razlike parova
rezultata se tretiraju kao jedan novi uzorak koji se dalje obrađuje kao i svaki drugi.
Metoda diferencijacije podrazumeva sledeće korake :
1. Za svakog ispitanika izračunamo diferencijaciju (promena a ne razlika!)
2. izračunamo aritmetičku sredinu sume dif
3. računamo odstupanje pojedinačnih promena od prosečne promene dif-Mdif i dobijamo kolonu d
4. kvadriramo d
5. računamo standardnu devijaciju dif po formuli : SDdif = √Σd² / N-1
6. računamo standardnu grešku prosečne promene : sMdif = SDdif / √N
X dif
t
7. računamo d 2

N ( N  1)

1. merenje 2. merenje dif dif-Mdif d d²


10 9 -1 1.5-(-1) 2.5 6.25
11 14 3 1.5-3 -1.5 2.25
15 20 5 1.5-5 -3.5 12.25
18 17 -1 1.5-(-1) 2.5 6.25
Mdif = 1.5 Σd²= 27
50. USLOVI ZA PRIMENU T-TESTA: SLUČAJNO I NEZAVISNO RAZVRSTAVANJE SUBJEKATA U GRUPE
39. pitanje
51. USLOVI ZA PRIMENU T-TESTA: NORMALNOST DISTRIBUCIJA
26. pitanje
52. USLOVI ZA PRIMENU T-TESTA: HOMOGENOST VARIJANSI
Homogenost varijanse znači da su raspršenja dva uzorka slična, podjednaka, da se SD ta dva uzorka statistički
značajno ne razlikuju.
Do nedavno se smatralo da je t-test otporan u odnosu na nehomogenost varijansi. Iako se ovo pokazalo
netačnim, postoje uslovi pod kojima su posledice nehomogenosti varijansi i distribucija koje odstupaju od
normalne – minimalne. A to su sledeći uslovi :
a) broj subjekata u obe grupe je isti (uzorci su isti, ili bar vrlo slični po veličini)
28
b) matične populacije imaju istu ili sličnu formu (oblik distribucija skorova je na primer zakošen na istu stranu)
c) nivo značajnosti je postavljen na blaži nivo od 0.05 umesto 0.01 (liberalniji nivo značajnosti)
53. NEPARAMETARSKI STATISTIČKI TESTOVI: NAMENA
Parametri populacije su AS i SD. Na njima počiva testiranje hipoteza. Kada varijable ne dopuštaju računanje
aritmetičke sredine (nominalne, rang) ne postoje populacijski parametri, pa su smišljeni drugačiji testovi koji
imaju drugačije racionale. To su neparametrijski testovi ili testovi slobodni od distribucije.
54. NEPARAMETARSKI STATISTIČKI TESTOVI: PREDNOSTI U ODNOSU NA PARAMETARSKE TESTOVE
1. Ne zahtevaju normalnu raspodelu
2. Mogu se koristiti za ordinarni i nominalni nivo merenja (mogu se primeniti ina vičim nivoima ali je to
besmisleno, nasilje nad podacima jer nećemo dobiti veliku količinu informacija)
3. Rade sa kvalitativnim varijablama
4. Imaju veću robustnost – otporniji su na povredu uslova (zato što nemaju posebne zahteve kao parametarski)
posebno na zahtev o veličini uzorka (nepar. testovi se uglavnom upotrebljavaju kada imamo mali broj ispitanika)
nedostaci:
Neparametarski testovi imaju manju snagu za oko trećinu od parametrijskih testova.
55. SNAGA STATISTIČKIH TESTOVA
1 – β greška – sposobnost testa da odbaci lažnu nultu hipotezu, odnosno da otkrije da postoji povezanost ili
razlike ako stvarno postoje. Snaga testa je ustvari sposobnost testa da se odupre β grešci, stoga = 1 – β
Parametarski testovi imaju za trecinu veću snagu od neparametarskih.
56. TEST ZNAČAJNOSTI RAZLIKA IZMEĐU PROPORCIJA
U slučaju kada obrađujemo podatke koji nisu rezultati kvantitativnog merenja, već možemo da odredimo samo u
kojoj frekvenciji se pojavljuje određeno svojstvo, radimo sa proporcijama (procentima). Proporcije predstavljaju
zgodnu zamenu za AS i SD kod neparametarskih testova kako bi se mogao primeniti t-test
Standardna greška proporcije - Ako N uzorka nije vrlo mali ili ako p nije jako nizak (ispod 0.10) ili vrlo visok
(iznad 0.90) možemo predpostaviti približno normalnu raspodelu proporcija uzoraka oko prave proporcije
populacije. Standardna greška proporcije računa se prema formuli:
Sp = √p×q / N q = 1-p  proporcija u kojoj se svojstvo nije pojavilo
Razlika između velikih nezavisnih uzoraka – računa se prema formuli: Sp1 – p2 = √p1×q1 / N1 + p2×q2 / N2
Distribucija proporcija i distribucija razlika među proporcijama odstupaju to više od ND što je N manji i što je p
bliži 0 ili 1. razlika među proporcijama statistički je značajna ako je tri puta veća od svoje greške (na nivou od 5%
značajna je ako je t veći od 1.96)
Razlika između velikih zavisnih uzoraka: Sp1 – p2 =√ Sp1² + Sp2² - 2r1.2 Sp1Sp2
57. HI-KVADRAT TEST: NAMENA I USLOVI ZA PRIMENU
- χ² test je neparametarski test, radi sa kvalitativnim (kategorijalnim) podacima (dakle sa frekvencijama) koji
često imaju status treće varijable (supresora ili moderatora) znači utiču na rezultate istraživanja
- podaci se kategorišu, zatim ih prebrojavamo i dobijamo frekvencije
- frekvencije se mogu prikazati histogramom koji je najbolji za grafičko prikazivanje kod hi-kvadrata
- χ² testra razlike :
a) kad imamo frekvencije jednog uzorka pa želimo ustanoviti da li te frekvencije odstupaju od onih koje
očekujemo uz neku hipotezu
b) kad imamo frekvencije dva ili više nezavisnih uzoraka pa želimo ustanoviti da li se uzorci razlikuju u opaženim
svojstvima
c) kad imamo frekvencije dva zavisna uzorka koji imaju dihotomna svojstva pa želimo ustanoviti da li je došlo do
promene tj. razlikuju li se uzorci u merenim svojstvima
Uslovi za primenu χ² testa :
1. χ² test računa se samo sa frekvencijama!

29
2. suma očekivanih frekvencija mora biti jednaka sumi opaženih (teorijskih) frekvencija. Moramo raditi sa
klasifikacijama koje su disjunktne = svaki ispitanik može dati samo jedan odgovor po varijabli. Jedino tako će zbir
marginalnih frekvencija biti jednak N
3. uzorak na kome radimo χ² mora biti dovoljno veliki –broj ćelija sa nultim vrednostima ne sme biti previše
velik a vrednosti u ćelijama ne smeju biti previše niske. Rešenje : ograničiti broj niskofrekventnih i praznih ćelija.
Različiti autori postavljaju različite zahteve.
4. kad go u χ² testu radimo sa nekim svojstvom koje se pojavilo, u račun treba staviti i frekvencije u kojima se to
svojstvo nije pojavilo.
58. HI-KVADRAT TEST: POSTUPCI U SLUČAJU NEZADOVOLJENIH USLOVA ZA PRIMENU
1. Ako imamo veliki uzorak a ipak ima puno niskofrekventnih ćelija, radi se Yates-ova korekcija – svaka razlika
između očekivanih i opaženih frekvencija umanji se za 0.5 pre kvadriranja. Smanjujući χ² dajemo mu manju
šansu da bude statistički značajan.
f  f t  0.5
2

 
2 o
korekcija za nezavisne uzorke
ft
 A  D  1 2

korekcija za zavisne uzorke


2 
A D
2. Bolji metodološki način od Yates-ove korekcije je spajanje susednih niskofrekventnih ćelija
3. najbolji način je ponoviti merenje na većem uzorku u nadi da će se popuniti praznine u ćelijama
59. HI-KVADRAT TEST: JEDNA VARIJABLA
Goodness of fit test
H0 – ne postoji razlika između dobijenih odgovora i slučajno raspoređenih odgovora
DA NE ZNAM NE Ukupno
ƒo 26 12 11 48
ƒt 16 16 16 48
 fo  ft  2
 
2

ft
χ²=9.5 df=5 hi-kvadrat nije značajan na nivou yna ;ajnosti od .05, prihvatamo nultu hipotezu
Kada imamo jedan uzorak i jednu varijablu, mi možemo uvesti drugu varijablu i napraviti tabelu kontingencije
koja ima dva ulaza za dve varijable za svakog ispitanika. Na osnovu odgovora subjekata udaramo recke u ćelije,
dobićemo visokofrekventne, niskofrekventne i prazne. Zatim ćemo izračunati marginalne frekvencije – zbir frekv.
po kolonama i redovima. Zbir marginalnih frekv. mora biti jednak broju ispitanika N. To će se desiti samo ako
svaki ispitanik da samo jedan odgovor po varijabli.Marginalne frekv. nam daju više informacija. Testiramo
hipotezu : da li se naša dobijena opažena frekv. bitno razlikuje od teorijske?
Marginalne
Psihologija Pravo Ekonomija Poljoprivreda
frekv.
Za dečija igrališta 7 5 10 11 33
Za decu sa posebnim
potrebama 27 22 19 23 91
Za renoviranje i gradnju
6 8 11 7 32
škola
Za decu sa kosova 10 15 10 9 44
Marginalne frekv. 50 50 50 50 N = 200
Pitali smo studente navedenih fakulteta za kojiu humanitarnu akciju bi najpre dali donaciju. Predpostavljamo da
nema statistički značajne razlike između studenata navedenih fakulteta i njihove odluke. Uradićemo

ƒo ƒt ƒo - ƒt ( ƒo - ƒt)² ( ƒo- ƒt)²/ ƒt


7 8.25 -1.25 1.56 0.19
5 8.25 -3.25 10.56 1.28
10 8.25 1.75 3.06 0.37
30
11 8.25 2.75 7.56 0.92
27 22.75 4.25 18.06 0.79
22 22.75 0.75 0.56 0.02
19 22.75 -3.75 14.06 0.62
23 22.75 0.25 0.06 0.002
6 8 -2 4 0.5
8 8 0 0 0
11 8 3 9 1.12
7 8 -1 1 0.12
10 11 1 1 0.09
15 11 4 16 1.45
10 11 -1 1 0.09
9 11 -2 4 0.36

χ² =7.92 nije značajan na nivou značajnosti .05, prihvatamo H0


df = (4-1)(4-1) = 9
60. HI-KVADRAT TEST: NEZAVISNI UZORCI
Testiraju se razlike kod dva ili više nezavisnih uzoraka; radi se sa kvalitativnim podacima. Ako u bilo kojoj ćeliji
imamo očekivanu frekvenciju manju od 5 upotrebićemo Yates-ovu korekciju.

Negativan stav Pozitivan stav Ukupno


Muškarci 9 14 23
Žene 17 9 26
Ukupno 26 23 49
- Ako nam je uzorak vrlo mali, radi se Fišerov egzaktni test
61. HI-KVADRAT TEST: ZAVISNI UZORCI
McNemarov test
Upoređujemo rezultate jedne grupe grupe ispitanika koje su postigli na testu pre i posle, ili uspeh jedne grupe u
različitim aktivnostima.
H0 – ne postoji statistički značajna razlika između prvog i drugog merenja
Test 2
2 
 A  D 2
Pali Položili A D
Položili A B
Test 1
Pali C D

Ako je (A+D) < 20 primenićemo Yates-ovu korekciju:  2 


 A  D  1 2

A D
Ćelije A i D predstavljaju one ispitanike kod kojih je došlo do promene. Ovde očekivane frekvencije ne računamo
po standardom postupku jer bi nam to dalo potpuno nelogične i neupotrebljive rezultate.
62. HI-KVADRAT TEST: ODREĐIVANJE ZNAČAJNOSTI
Tabela kritičnih vrednosti hi- Kad ne bi našli nikakve razlike između opaženih i očekivanih frekvencija
kvadrat testa: izraz χ² bio bi 0. Što su razlike između opaženih i očekivanih frekvencija
Df / nivo veće, to je veći i definitivni izraz χ². Sto je χ² manji to je verovatnije da treba
.05 .01
znač. prihvatiti H0, a što je χ² veći to je verovatnije da H0 treba odbaciti jer se
1 3,841 6,635 opaženi rezultati znatno razlikuju od onih koje bi smo pod određenom
2 5,991 9,210 hipotezom očekivali. Tablica graničnih vrednosti hi-kvadarata pokazuje
3 7,815 11,345 koliko najmanje mora iznositi χ², uz određeni broj stupnjeva slobode, da bi
4 9,488 13,277
bio statistički značajan i da bi mogli odbaciti hipotezu. I ovde možemo tražiti
5 11,070 15,086
6 12,592 16,812 značajnost na nivou od 1% ili 5%.
7 14,067 18,475 Stepeni slobode = broj redova – 1×broj kolona – 1 df = (r-1)(k-1)
- kada imamo jednu varijablu df = broj ćelija – 1
31
63. SMISAO I PRINCIPI KORELACIJE
Koeficijent korelacije = stepen povezanosti iskazan brojem. Dobija se iz korelacionog računa.
Korelacija može biti:
1. Potpuna (maximalna) i pozitivna – linearnom porastu jedne varijable odgovara linearni porast druge varijable
ali tako da jednom rezultatu jedne varijable odgovara samo jedan rezultat druge varijable. To je najveća moguća
povezanost i iznosi r = +1
2. Nepotpuna i pozitivna – porastu jedne varijable odgovara porast druge varijable ali tako da jednom rezultatu
jedne varijable odgovara više rezultata druge varijable. 0<r<1
3. Nema korelacije – nekom rezultatu u jednoj varijabli odgovara bilo koji rezultat u drugoj varijabli. r =0
4. Nepotpuna i negativna – porastu jedne varijable odgovara pad druge varijable ali tako da jednom rezultatu
jedne varijable odgovara više rezultata druge varijable. -1<r<0
5. Potpuna (maximalna) i negativna – linearnom porastu jedne varijable odgovara linearni pad druge varijable,
ali tako da jednom rezultatu jedne varijable odgovara samo jedan rezultat druge varijable. r = -1
U prirodi se gotovo nikada ne
dešavaju maximalne korelacije jer
su pojave koje proučavamo veoma
varijabilne.
Pre nego što počnemo računati
povezanost koja nas zanima,
rezultate ćemo prikazati grafički
scatter-diagramom (diagram
raspršenja). Izračunavanje r
koeficijenta sprovešćemo ako je
povezanost manje-više linearna.
Linearna povezanost je takva povezanost koja se grafički može prikazati ravnom crtom. Postoje korelacije koje su
zakrivljene - imaju dva trenda, pravca.
X – nezavisna varijabla; možemo je samovoljno menjati
Y – zavisna varijabla; ono što istraživanjem želimo ustanoviti
Kada bi povezanost između dve varijable bila besprekorna svaki ispitanik bio bi u obe varijable na jednakim
mestima. Veličina razlika među zbrojenim z-vrednostima zavisi od visine povezanosti između varijabli; kada je
stepen povezanosti maksimalan razlike nema. Što je povezanost slabija to su razlike među z-vrednostima veće.
AS razlika među z-vrednostima nužno je nula. Visinu povezanosti između varijabli pokazuje nam prosek sume
svih kvadriranih razlika među z-vrednostima. Prosek ovde znači podeljen sa N-1.

r
 (z x  z y )2
N 1
Prosek dobijen ovom formulom nije pogodan jer se kreće od 0 do 4. mnogo je lakše interpretirati smer i stepen
povezanosti na sledeći način:

r=1-½  (z x  z y )2
ovaj izraz je identičan izrazu r   (z x  z y )2
N 1 N 1
Ovaj koeficijent ima sledeće karakteristike:
- visina korelacije je prosečan proizvod između z-vrednosti obe varijable
- vrednost 0 znači da nema nikakve povezanosti među varijablama
- apsolutno veći broj koeficijenta znači veću povezanost; manji broj znači manju povezanost
- predznak koeficijenta označava smer korelacije: + pozitivna i – negativna povezanost
- najveća moguća pozitivna vrednost koeficijenta iznosi +1, a najveća moguća negativna vrednost koeficijenta –
1.

32
û Ako je neki rezultat X veći od Mx, i korespodentni rezultat Y veći od My, onda će i zx i zy biti pozitivnog
predznaka pa će i njihov produkt zx × zy biti + predznaka. Ako je neki rezultat X manji od Mx, i korespodentni
rezultat Y manji od My, onda će i zx i zy biti negativnog predznaka ali će njihov produkt biti + predznaka. Produkt
zx zy biće maksimalno pozitvna ako su oba člana para numerički jednaki (jednom rezultatu u X varijabli
odgovara ist taj rezultat u Y varijabli) i istog predznaka.
û Ako su korespodentne vrednosti z pretežno istog predznaka ali ne uvek
jednake numeričke vrednosti, r će bit pozitivan ali ne maksimalan r  +1
û Ako među varijablama postoji potpuno negativan odnos to znači da će
nekoj vrednosti X, koja je iznad Mx, odgovarati korespodentna vrednost Y koja
je ispod My isto koliko je X iznad Mx. U tom slučaju produkt zx zy biće uvek
negatvan i to maximalno negatvan.
û ako su korespodentne z vrednosti pretežno suprotnog predznaka ali ne
jednake numeričke vrednosti biće -1 r  0
Koeficijent determinacije - r² - ukazuje nam na procenat zajedničkog variranja
(kovariranja) između dve varijable i to je kovarijansa
64. INTERPRETACIJA KOEFICIJENTA KORELACIJE
Ako je merenje sprovedeno na velikom broju slučajeva, kao gruba aproksimacija visine povezanosti između dve
varijable služi nam sledeća tablica:
r = od 0.00 do ± 0.20 znači nikakvu ili neznatnu povezanost
r = od 0.20 do ± 0.40 znači laku povezanost
r = od 0.40 do ± 0.70 znači stvarnu zanačajnu povezanost
r = od 0.70 do ± 1.00 znači visoku ili vrlo visoku povezanost
Procenat zajedničkih faktora je manji od broja izraženog u korelaciji, i sve je manji što je korelacija niža. Približno
možemo odrediti količinu zajedničkih faktora uz pomoć koeficijenta determinacije, tj. kvadrirnjem koeficijenta
korelacije. Npr. ako je r = 0.40 kvadriranjem dobijamo da te dve varijable imaju 16 % zajedničkih faktora.
Dvostruko veći koeficijent znači četiri puta veću povezanost, trostruko veći koeficijent znači devet puta veću
povezanost itd.
Visina korelacije može biti posledica raznih faktora, a ne samo povezanosti:
 Grupisanje rezultata – grupisanje rezultata u razrede neće značajno menjati koeficijent korelacije ako je broj
razreda dovoljno veliki. Što je broj razreda manji to se koeficijent korelacije više deformiše.
 Zakrivljeni odnos – ako odnos između dve varijable nije linearan nego zakrivljen, r može biti toliko iskrivljen
da njegovo izračunavanje nema nikakvog smisla.
 Eliminisanje vrednost oko aritmetčke sredine – ako nam je varijabla recimo, starost u godinama, a želimo
utvrditirazlike u stavovima između starih i mladih, eliminisaćemo vrednosti oko AS tj. nećemo uzeti u obzir ljude
srednjih godina
 Podskupovi sa različitm AS – sve ukupno predstavljaju povezanost iako ona realno ne postoji
 Utcaj raspona – ako je raspon u jednoj varijabli ograničen on će biti nužno ograničen i u drugoj varijabli, što
značajno smanjuje koeficijent korelacije
 Kauzalno interpretranje korelacije – znači da je jedna varijabla uzrok drugoj, ali sama činjenica da između dve
varijable postoji korelacija ne daje nam za pravo da te pojave povežemo kauzalnom vezom (cak i kada je to
ocigledno!)
65. USLOVI ZA RAČUNANJE PRODUKT-MOMENT KOEFICIJENTA KORELACIJE: MERNA SKALA I NORMALNOST
DISTRIBUCIJE
Racunanje r zahteva da su merene vrednosti (varijable) sa intervalnog ili razmernog (racio) nivoa. Iz toga
zaključujemo da r zahteva i normalno distribuiranje varijabli, a to je logično iz još jednog razloga – r se zasniva na
z-vrednostima. Visina korelacije je prosečan proizvod između z-vrednosti obe varijable. Prosečan ovde znači
podeljen sa N-1. Koeficijent korelacije se može računati i ako su distribucije varijabli simetrične npr. zakošene su
na istu stranu

33
66. USLOVI ZA RAČUNANJE PRODUKT-MOMENT KOEFICIJENTA KORELACIJE: LINEARNI ODNOS IZMEĐU VARIJABLI
Linearna povezanost je takva povezanost između varijabli koja se grafički može prikazati ravnom crtom tj
pravcem. Ovde mozemo pomenuti 5 oblika linearne povezanosti:
o Potpuna (maximalna) i pozitivna
o Nepotpuna i pozitivna
o Nema korelacije
o Nepotpuna i negativna
o Potpuna (maximalna) i negativna
Mnogo je složenije precizno izračunavanje drugih oblika povezanosti, nego izračunavanje linearne povezanosti.
67. USLOVI ZA RAČUNANJE PRODUKT-MOMENT KOEFICIJENTA KORELACIJE: HOMOSKEDASCITET
Pri racunanju koeficijenta korelacije moramo uzeti u obzir da rasprsenje rezutata oko linije korelacije mora biti
manje-vise podjednako uz citavu duzinu pravca. Osobina skater dijagrama da je u svim delovima podjednako
sirok naziva se homoskedascitet
68. IZBOR POSTUPAKA (KOEFICIJENTA) ZA RAČUNANJE KORELACIJE
Koji koeficijent korelacije ćemo primeniti zavisi od:
- normalnosti distribucije rezultata
- vrste skale merenja i vrste varijable
- da li su varijable u linearnom odnosu ili ne
1. Pirsonov produkt-moment koeficijent korelacije r
- zove se još i koeficijent linearne korelacije
- njega primenjujjemo pod sledećim uslovima:
a) kada su obe varijable sa najmanje intervalnog nivoa
b) obe varijable se normalno distribuiraju
c) varijable su u linearnom odnosu
2. Spirmanov koeficijent rang korelacije Ro (ρ)
- Rang-korelacija daje samo približnu indikaciju asocijacije između dve varijable i koristimo je samo kada
nemamo ispunjene uslove za r. Tada rangiramo rezultate varijabli i računamo Ro
- Uslov za računanje ovog koeficijenta je da bar jedna varijabla bude sa rang nivoa
6×ΣD²
Ro = 1- ———— N(N+1) / 2 – suma rangova
N(N²-1)
- Dešava se da više ispitanika ima isti rezultat, njima dodeljujemo i isti rang – zbrojimo rangove koje bi oni
zauzimali i podelimo brojem tih rangova. Treba napomenuti da vezani rangovi veštački povećavaju vrednost; što
je vezanih rangova više to je raspršenje rezultata veće. U takvim slučajevima primenjujemo korekturu u računu. 
Razlika između korigovanog i nekorigovanog koeficijenta postaje to veća što su razlike među rangovima jedne i
druge varijable veće, tj. što je korelacija između njih niža (Razlika između korigovanog i nekorigovanog
koeficijenta obrnuto je proporcionalna korelaciji među varijablama)
3. Kendalov koeficijent rang korelacije Tau (τ)
Razlikuje se od Ro po sledećim svojstvima:
- kada bi na istom materijalu primenili oba koeficijenta, izraz Tau je uvek niži od izraza Ro
- Ro koeficijent je pogodniji jer on kvadrira razlike i ti me više naglašava veće nego manje razlike
- Uz Tau može da se računa parcijalna korelacija, dok uz Ro ne može
- Tau se može koristiti za koreliranje jedne ordinalne varijable sa jednom dihotomnom nominalnom
- Apoksimacija normalne raspodele mnogo je bolja kod Tau koeficijenta
4. Point biserijalni rpb
- Uslovi za primenu ovog koeficijenta su:


nešto više o korekturi u Pecu, str. 202

34
a) Jedna varijabla se raspoređuje normalno, što znači da je sa najmanje intervalnog nivoa i da je kontinuirana
b) Druga varijabla je prirodno dihotomizirana
5. Biserijalni rbis
- Uslovi za primenu ovog koeficijenta su:
a) Jedna varijabla se raspoređuje normalno, što znači da je sa najmanje intervalnog nivoa i da je kontinuirana
b) Druga varijabla je veštački dihotomizirana ali mora postojati predpostavka o normalnoj distribuciji
6. Fi koeficijent (φ)
- Računa se iz kontingencijske tabele koja nužno mora biti 2×2.
- testira povezanost između dve varijable koje su podeljene u dve kategorije
- bar jedna varijabla mora biti prirodno dihotomizirana
φ = a×d - b×c / sqrt (a+b)(c+d)(a+c) - prvi način
a b a+b
φ = √ χ²/N χ² = Nφ² - drugi način
c d c+d
Ako je značajn Fi onda je značajan i hi-kvadrat!
a+c b+d

7. Koeficijent kontngencije C
- testira povezanost između varijabli čiji su podaci smešteni u kontingencijsku tabelu koja ima veće dimenzije od
2×2.
- varijable su sa nominalnog nivoa podeljene u kategorije
- mana ovog koeficijenta je što on ne može dostići visinu od 1 i što njegova maximalna vrednost zavisi od broja
kategorija u tablici. Zbog toga se teško upoređuju pojedine vrednosti C, a još teže sa vrednostima r

C = √ χ²/N+χ²
Ako je značajn C onda je značajan i hi-kvadrat!
8. Tetrahorična korelacija r tet
Uslovi:
a) obe varijable su veštački dihotomizirane
b) obe varijable se normalno raspoređuju
c) između varijabli postoji linearan odnos
- r t se dobija uz pomoć r cos π
9. Koeficijent konkordacije W
- ispituje povezanost među rangovima; testira odnos između stvarnog slaganja i maximalnog mogućeg slaganja
0≤ r ≤1
- ako je N veći od 7 značajnost W može se izračunati pomoću hi-kvadrata. Ako je značajan hi-kvadrat onda je
značajan i W!
10.Frimanov Teta (θ)
- testira povezanost između jedne dihotomne nominalne varijable i jedne ordinalne

35
nominalni nivo; veštački intervalni ili
dihotomna var. rang nivo
kategorijalna var. dihotomizirana racio

nominalni nivo; C koeficijent


kategorijalna var. kontngencije
fi–koeficijent
dihotomna var.
φ
veštački Tetrahorički
dihotomizirana r tet
Spirmanov Spirmanov
rang nivo
rang koef. Ro rang koef. Ro
Point biserijski
intervalni ili racio Biseriski rbis Pirsonov r
rpb
69. TESTIRANJE ZNAČAJNOSTI KOEFICIJENTA KORELACIJE
Testiranjem značajnosti koeficijenta korelacije želimo utvrditi razlikuje li se on značajno od nule bez obzira na
predznak.
- Pirsonov produkt-moment koeficijent korelacije r
Računamo t-odnos (zato što je u hipotezi ključna reč razlika)

36
( N  2)
tr df =N-2 Nbroj parova; 2broj varijabli;
1  r2
Očitavamo značajnost t-odnosa u tablicama. Ako je značajan t-test onda je značajan i r!
Drugi nacin je iz očitavanje iz D tablice, koja pokazuje koliki mora biti r na odredjenom df da bi bio znacajan.
- Spirmanov koeficijent rang korelacije Ro (ρ)
Ako je N10 značajnost rang-korelacije računamo prema formuli:
N 2
t  Ro
1  Ro 2
Ako je značajan t-test onda je značajan i Ro!
- Kendalov koeficijent rang korelacije Tau (τ)
Ako je N10 i ako nema vezanih rangova sprovodimo testiranje:
- Najpre se testira statistička značajnost izraza S
N(N-1)(2N+5)
Varijansa S = ———————
18
- Nakon toga računamo z-vrednost
 S-1
z = ————————
 N(N-1)(2N+5) / 18
Ako je z veći od 1.96 smatramo da je Tau statistički značajan na nivou značajnosti nižem od 5%
a ako je z veći od 2.58 onda je tau značajan na nivou značajnosti nižem od 1%
- Ostali koeficijenti
» Značajnost koeficijenta rpb testira se tablicama kao i značajnost koeficijenta r
» Ako je N veći od 7 značajnost W može se izračunati pomoću hi-kvadrata. Ako je značajan hi-kvadrat, značajan je
iW
» Ako je značajan hi-kvadrat, značajan je i Fi
» Ako je značajan hi-kvadrat, značajan je i C
70. PROGNOZA IZ JEDNE VARIJABLE U DRUGU: LOGIČKE OSNOVE
Nakon što ustanovimo da između dve varijable postoji korelacije, mi možemo iz podataka jedne varijable
zaključiti koji joj rezultat odgovara u drugoj varijabli tj. možemo iz podataka jedne varijable prognozirati rezultat
u drugoj. Ako je korelacija maximalna (+1 ili -1) bez problema ćemo iz jedne vrednosti var. x izračunati koja
vrednost iz var. y joj odgovara, jer joj odgovara samo jedna! Međutim, to se retko dešava, mi uglavnom nalazimo
nepotpune korelacije (jednom rezultatu iz jedne varijable odgovara više rezultat iz druge varijable) te možemo
samo delimično predviđati y na osnovu x i obratno.
Osnovni uslovi za primenu jednostavne regresije:
 Varijable su linearno povezane
 Homoskedascitet – osobina skater-dijagrama da je u svim
delovima podjednako širok; rasprsenje rezutata oko linije
korelacije mora biti manje-više podjednako uz citavu dužinu
pravca. On može biti ozbiljno narušen ukoliko jedna ili obe
varijable nisu normalno distribuirane, ili bar simetrično
raspoređene (obe zakošene u itu strani itd...) zbog toga uvek prvo
crtamo skater-dijagram
71. PROGNOZA IZ JEDNE VARIJABLE U DRUGU: ODREĐIVANJE REGRESIJSKE LINIJE
Princip najmanjih kvadrata
Regresijaska linija je neophodna kao oslonac predviđanja jedne varijable na osnovu druge. Kada imamo
nepotpunu korelaciju rezultati nam nisu na istom pravcu. Potrbno je da nacrtamo pravac na skatergramu koji bi
najbolje reprezentovao obe varijable. To se radi uz metod najmanjih kvadrata koji glasi: najpošteniji je onaj
37
pravac regresije koji ima najmanju sumu kvadrata odstupanja pojedinačnih y rezultata od tog pravca. Rezultati na
tom pravcu ỹ su predviđeni, procenjeni, regresijski y. Za svaki individualni rezultat , za svaku tačku u skatergramu
dobijamo neku razliku y-ỹ , a suma tih razlika mora biti najmanja moguća (Σ (y-ỹ))²
ỹ = a+bx
- a i b su konstante i njih nalazimo matematičkim putem pomoću formula
a =M(y) – bM(x) M(y) – aritmetička sredina varijable y
M(x) – aritmetička sredina varijable x
y2 – y1
b = ———— - ako je korelacija maximalna
x2 – x1
NΣxy – (Σx)(Σy)
b = ————————— - ako je korelacija nepotpuna
NΣx² – Σ(x)²
- izračunamo nekoliko vrednosti ỹ
(dovoljno je dve ali bolje više) i
nacrtamo pravac

sa koga lako prognoziramo (očitavamo)


iz varijable x u varijablu y i obratno, ali
to nisu dva jednaka pravca (osim u
slučaju korelacije +1)! Oni će se seći pod
to većim uglom što je korelacija između
varijabli manja. Ako je korelacija 0 pravci
će se seći pod uglom od 90°
72.
PROGNOZA IZ JEDNE VARIJABLE U DRUGU: JEDNAČINA REGRESIJSKE LINIJE
Jednačina regresijske linije je određena vema konstantama: y = a + bx
a – odsečak na ordinati; predstavlja opseg u kome se nalazi varijabla koju
želimo da prognoziramo
b – nagib pravca: porast ili pad var. y kada se var. x promeni za 1 jedinicu; može
biti pozitivan (kada je korelacija +) i negativan (kada je korelacija - )
- ako nam je nagib negativan formula će biti nešto drugačija: y = - a + bx
73. PROGNOZA IZ JEDNE VARIJABLE U DRUGU: STANDARDNA GREŠKA PROGNOZE
Prognoza u većini sličajeva nije idealno tačna, pa se za nju
nužno vezuje neka greška. To je standardna greška
prognoze. SGP biće to veća što je korelacija među
varijablama manja i u tom slučaju su individualni rezultati
jako raspršeni oko regresijske linije. SGP kreće od
predpostavke da je raspršenje duž čitave dužine pravca
regresije podjednako. SGP je ustvari SD odstupanja od
regresijske linije i interpretire se na isti način. Može
koristiti intervale poverenja da bi utvrdili u kom intervalu
se najverovatnije kreće ỹ.
Organizacija, etape i osnovna logika statističkog postupka,
istraživanja i rezonovanja:
1.merenje
2.sistematizacija (klasifikacija) rezultata merenja
3.kondenzovanje (sažimanje, zbijanje)
4.eventualno grafičko prikazivanje (radi boljeg uvida)
38
5.međusobno upoređivanje rezultata (deskripcija pojave)
6.estimacija (procenjivanje)
7.inferencija (zaključivanje) – eventualno dalje predviđanje
Ciljevi statstke:
1) deskripcija pojava – kondenzovanje i pojednostavljenje slike
2) objašnjenje pojava (naučno objašnjenje) – statistika zaključivanja (inferencijalna)
3) predviđanje pojava (naučno predviđanje)
- Ekstremne vrednost – najniza i najvisa vrednost varijable. Određuju raspon varijable. Mesta na kojima se one
nalaze nazivaju se ekstremima.
- Aberantan rezultat (outlier) čini distribuciju diskontinuiranom.
- Stepen variranja se kvantifikuje (uzimaju se ekstremne vrednosti).
- Uniformna distribucija predstavlja slučaj kada su svi dobijeni rezultati jednake vrednosti.
- Realna ili opažena distribucija se od teorijske (očekivane) ND razlikuje po malim, nužnim varijacijama. Te
varijacije su nesistematične (slučajne). Ako su varijacije sistematske i značajne onda govorimo o drugim,
atipičnim distribucijama.
- ND ima sigmoidalan oblik i 7 tačaka infleksije (-3s -2s -1s M 1s 2s 3s)
- Verovatnost događaja kod ND krece se oko 50%.
- Enttet - skup osnovnih karakteristika.
- Kada varijanse dve populacije nisu homogene (nisu im ista raspršenja), nije dobro uzimati u obzir apsolutnu
razliku ΔBG
- nulifikovat – poništiti
- Svakom transformacijom rezultata, mi vršimo nasilje nad podacima. Pretvarajući rezultate u druge mere
relativnog učinka podaci postaju prikladni za određene vrste zaključivanja, ali mi smo ih time pokvarili i odnose
među njima prisilno izmenili. Zato transformaciju podataka treba činiti samo u nužnoj meri jer izaziva nus
(nepoželjne) pojave.

39

You might also like