You are on page 1of 8

Statistika – prvo gradivo

Središnje vrijednosti

o Aritmetička sredina
- Uvjeti za korištenje aritmetičke sredine:
1) Rezultati moraju biti prave mjerene vrijednosti, dobivene barem na intervalnoj ljestvici
2) Svi rezultati moraju biti rezultat istovrsnog mjerenja, dobiveni u jednakim uvjetima mjerenja
3) Određivanje aritmetičke sredine zahtijeva dovoljan broj rezultata (najmanje 30)
4) Distribucija rezultata mora biti normalna, što ujedno znači i simetrična
- Budući da se djelovanje NVF raspodjeljuje po slučaju, njihova distribucija je normalna
- Ako distribucija po obliku odstupa od normalne, na nju su djelovali i neki sistematski faktori
- Normalna distribucija pokazuje samo da uz predmet mjerenja i NVF nisu djelovali neki sistematski faktori, ne
jamči da smo izmjerili pravu vrijednost
- Grafički prikaz distribucije: apscisa – vrijednosti rezultata, ordinata – frekvencije
- Kad imamo dovoljno velik broj mjerenja, aritmetička sredina NVF bit će jednaka 0 pa ćemo dobiti μ
- Statističko zaključivanje je tipično induktivno zaključivanje
- Aritmetička sredina je stabilnija kad imamo više rezultata (ako dodamo jedan rezultat na njih 20, M će se
promijeniti, ako dodamo jedan rezultat na njih 200, ona će ostati ista, stabilna, promjene tek u drugoj, trećoj
decimali)
- Doprinos svakog pojedinog rezultata aritmetičkoj sredini je manji, što je N veći
- Aritmetička sredina osjetljiva je na vrijednost pojedinog rezultata
- Zajedničku aritmetičku sredinu smijemo računati kao prosjek svih aritmetičkih sredina samo ako su one
izračunate iz jednakog broja rezultata (N1=N2=N3=itd)
o Centralna vrijednost (medijan)
- Računamo ju ako u nizu rezultata imamo neku ekstremno veliku/malu vrijednost, tj. ako je distribucija
asimetrična
- Vrijednost koja se u nizu rezultata, poredanih po veličini, nalazi točno u sredini
- Ako je broj rezultata paran, C se izračunava tako da zbrojimo dva srednja rezultata i zbroj podijelimo s 2
- Na nju ne utječe numerička veličina pojedinih rezultata
- Centralna vrijednost je ona točka od koje je najmanji zbroj svih odstupanja
o Dominantna vrijednost
- Ona vrijednost koja je u nizu mjerenja najčešće postignuta
- Na nju ne utječe ni broj ni vrijednost rezultata, već samo frekvencija pojedinih rezultata
o Geometrijska sredina
- N-ti korijen iz umnožaka između N brojeva
- Pretežno se koristi kao mjera prosječne brzine nekih promjena (npr. koliko je puta prosječno porasla
populacija svake godine)
- Ne može se izračunavati ako je bilo koji broj negativan ili nula
o Harmonična sredina
- Upotrebljava se kada želimo dobiti prosjeke nekih odnosa (npr. prosječni kilometri na sat)
- Ne može se računati ako je bilo koji broj negativan ili nula

Mjere varijabilnosti

- Ako su vrijednosti nekog niza mjerenja gusto grupirane oko srednje vrijednosti, onda ta srednja vrijednost
dobro reprezentira rezultate
- Rezultati se više međusobno razlikuju što je više NVF
- Mjere raspršenja pokazuju koliko se rezultati u nekom skupu rezultata grupiraju oko središnje vrijednosti
o Raspon rezultata
- Najjednostavnija, ali i najnetočnija mjera variranja rezultata oko neke srednje vrijednosti
- Razlika između najvećeg i najmanjeg rezultata
- Nesigurna i varljiva mjera, bilo koji ekstremni rezultat znatno povećava raspon, a da se grupacija rezultata
oko M nije bitno promijenila
- Osnovni nedostatak: obično veći što je veći broj mjerenja neke pojave
o Srednje odstupanje
- Prosječna veličina odstupanja pojedinačnih rezultata (bez obzira na smjer odstupanja)
- Možemo ga izračunati uz M, C ili D, ali nam ne može poslužiti za izvođenje daljnjih računanja
- Grubi pokazatelj razlikovanja rezultata od središnje vrijednosti
o Standardna devijacija
- Odstupanja se kvadriraju da se izbjegnu predznaci odstupanja i zato što veća odstupanja više dolaze do
izražaja kvadriranjem
- Varijancu je nemoguće grafički predočiti
- SD je mjera koja se koristi kao standard za mjerenje varijabiliteta rezultata
- Svojom numeričkom vrijednošću odgovara numeričkim vrijednostima skale korištene pri mjerenju
- U deskriptivnoj statistici zanimaju nas samo karakteristike neke skupine podataka
- N (umjesto N-1) dolazi u nazivniku u posve deskriptivnoj analizi uzorka (tj kada nas zanimaju karakteristike
samo postojećih rezultata u uzorku) ili kad računamo SD populacije
- Smije se računati samo uz aritmetičku sredinu
- Odnos između raspona i SD nije gotovo nikad manji od 2 ili veći od 6,5
o Poluinterkvartilno raspršenje (Q)
- Uz centralnu vrijednost
- Niz dobivenih rezultata poreda se po veličini, u svakom kvartilu 25% rezultata
- Q2=C
- Vrijednost Q predstavlja polovinu razlike između graničnih vrijednosti trećeg i prvog kvartila
o Koeficijent varijabilnosti
- Njime se služimo da bismo mogli međusobno uspoređivati varijabilnost različitih pojava i svojstava (npr. ako
imamo dvije različite M i pripadajuće SD – koja više varira)
- Pokazuje nam koliki postotak vrijednosti aritmetičke sredine iznosi vrijednost standardne devijacije
- Koristan kad želimo znati u kojem svojstvu neka grupa varira više, a u kojem manje; koja od grupa varira više,
a koja manje u istom svojstvu

Normalna distribucija i neke druge distribucije

- Mjereći različite pojave, većinom dobivamo rezultate koji pokazuju i tendenciju grupiranja oko neke
središnje vrijednosti i tendenciju raspršenja oko te vrijednosti
- Glavni uvjeti za dobivanje normalne raspodjele:
1) Da se opravdano može pretpostaviti kako postoji prava vrijednost mjerenja koja je relativno stabilna u
vremenu te da pri njezinu mjerenju djeluju NVF
2) Da imamo veliki broj rezultata
3) Da su sva mjerenja provedena jednakom metodom i u jednakim (ili barem što sličnijim) prilikama
4) Skupina na kojoj obavljamo mjerenja mora biti homogena po svim drugim svojstvima, a heterogena po onom
svojstvu koje mjerimo
- Selekcija uzorka obično narušava normalitet distribucije
- Specifičnost normalne raspodjele: M+- 1SD > 68,26%, M+- 2SD > 95,44%, M+- 3SD > 99,73%
- Mjesto infleksije (mjesto gdje krivulja iz konveksne prelazi u konkavnu) nalazi se iznad +- 1SD
- Normalna distribucija potpuno je definirana ako joj znamo M i SD
- Normalne raspodjele mogu biti uske (leptokurtične), normalne (mezokurtične) ili široke (platikurtične)
- Poissonova raspodjela – slučajna raspodjela vrlo rijetkih događaja (dok je normalna raspodjela događaja
kojima se vjerojatnost kreće u blizini 50%)
o Asimetrične distribucije
- Nastaju u slučajevima u kojima na dio rezultata djeluju neki sistematski faktori
- Pozitivno asimetrična distribucija – M veći od C
- Negativno asimetrična distribucija – C veći od M
- Kod asimetrične distribucije obično je SD veća u usporedbi s normalnom distribucijom za iste numeričke
vrijednosti rezultata
- Kolomogorov-Smirnov test – za utvrđivanje razlikuje li se dobivena distribucija od normalne

Grafičko i tablično prikazivanje rezultata

- Kad se radi o čistoj deskripciji međusobno nezavisnih ili slabo zavisnih podataka > horizontalne trake,
vertikalni stupci, kružni dijagram (kut=fx360/N)
- Trodimenzionalno prikazivanje rezultata može biti podložno geometrijskim iluzijama
- Želimo li podatke prikazati trodimenzionalno, a da pritom ne učinimo pogrešku, onda različite količine
(vrijednosti) trebamo prikazati sumom jednakih volumenskih jedinica
- Koordinatnim sustavom se služimo kad imamo rezultate prikupljene u određenom vremenskom slijedu ili
rezultate koji se grupiraju oko neke reprezentativne vrijednosti
- Ako raspolažemo velikim brojem rezultata, korisno ih je grupirati u razrede
- Grupiranje rezultata u razrede – sažimanje rezultata u manji broj numeričkih klasa ili razreda, veličina
razreda treba biti jednaka za sve razrede, zatim treba odrediti koliko rezultata pripada u pojedine razrede
- Grupiranjem rezultata u razrede svi rezultati koji se nalaze u određenom razredu poprimaju numeričku
veličinu srednje vrijednosti tog razreda
- Donja i gornja granica razreda čine raspon razreda, a njihova M predstavlja srednju vrijednost razreda
- Distribucija grupiranih rezultata – na apscisi raspon ili srednja vrijednost razreda (ovisno želimo li rezultate
prikazati histogramom ili poligonom frekvencija), a na ordinatu frekvencija pojavljivanja rezultata
- Histogram – niz pravokutnika (stupaca) kojima površina i visina odgovara frekvenciji pojedinog razreda, a
suma površina svih pravokutnika odgovara ukupnoj frekvenciji svih razreda, najtočniji prikaz distribucije
frekvencije nekih rezultata
- Poligon frekvencija – iznad sredine svakog razreda označimo točku u visini ordinate, koja odgovara
frekvenciji tog razreda, uobičajeno je uzemljiti ga, on je više ili manje pravilna krivulja kojoj totalna površina
odgovara ukupnoj frekvenciji svih rezultata, ali površina iznad pojedinog razreda ne odgovara frekvenciji tog
razreda, već frekvenciju razreda označuje samo visina poligona točno iznad sredine razreda, pregledniji od
histograma (pogotovo ako uspoređujemo dvije različite distribucije)
- Svođenje dvije distribucije na zajedničku mjeru – za svaki razred izračunamo relativne frekvencije (svaka se
frekvencija prikaže u postotku ukupnog broja)
- Iz histrograma i poligona frekvencija dade se izravno očitati jedino dominantna vrijednost (u histogramu
razred s najvišim stupcem, u poligonu razred iznad kojega se nalazi vrh krivulje)
- Krivulja kumulativnih frekvencija („Galtonova oživa“) – koristi se kada želimo saznati koliko rezultata (ili
koliki postotak rezultata) se nalazi ispod ili iznad nekog konkretnog rezultata, te podatak o tome gdje se
otprilike nalazi centralna vrijednost; na apscisu se nanesu prave gornje granice razreda, a na ordinati se
nalazi kumulativna (ili relativna kumulativna) frekvencija (zbrojene frekvencije od najnižeg razreda nadalje)
- Prave gornje granice razreda – uzmemo sredinu između gornje vrijednosti jednog i donje vrijednosti idućeg
razreda
- Određivanje centralne vrijednosti u krivulji kumulativnih frekvencija: to je ona vrijednost iznad koje i ispod
koje se nalazi točno po 50% rezultata (s ordinate, kod oznake 50%, povučemo paralelu s apscisom do krivulje
i odande spustimo okomicu na apscisu te tamo očitamo vrijednost C)

Stablo i lišće prikaz distribucije rezultata (stem and leaf)

- Omogućava uvid u učestalost svakog pojedinog rezultata u pojedinoj kategoriji rezultata („razredu“)
- Iz njega se također lako uočava oblik distribucije rezultata
- Vidi se koliko točno rezultata imamo
- Vrlo koristan i kod usporedbe dviju distribucija
1) Odrediti vrijednosti za stablo (tj. vodeće brojeve) – oni zapravo označavaju kategorije (razrede) rezultata,
obično se uzimaju vrijednosti brojeva koji reprezentiraju desetice (0>0-9, 1> 10-19, itd), to su brojevi u
stupcu stablo (stem)
2) U kategoriju list (leaf) upisuju se vrijednosti prikupljenih rezultata koji započinju tim vodećim brojem (one
moraju biti napisane po redu)
- Vrijednosti pri formiranju stabla ovise o veličini, broju i rasponu dobivenih rezultata
- Kod velikog broja rezultata smanjuju se intervali pojedinih kategorija stabla (zbog preglednosti i kako ne bi
dobili leptokurtičnu distribuciju), vrlo često se učine dvije podkategorije unutar jedne vodeće brojke (s tim da
se ta razlika i jasno naznači – npr. *)

Položaj pojedinog rezultata u grupi

 Z-vrijednost
- M i SD potpuno definiraju raspodjelu rezultata pa je za svaki rezultat moguće izračunati na koji dio
standardne devijacije on pada (tada znamo i koliko imamo rezultata manjih i većih od tog rezultata)
- Razliku između rezultata i aritmetičke sredine podijelimo standardnom devijacijom (z-vrijednost) – rezultat
izražen u terminima standardne devijacije
- Pretvaranje rezultata u z-vrijednosti=izražavanje položaja nekog rezultata u skupini rezultata u kojoj se
nalazi, pomoću SD
- Tablica pokazuje površinu normalne distribucije od M do definiranog rezultata izraženog u z-vrijednosti
- Skala z-vrijednosti – skala s aritmetičkom sredinom 0 i standardnom devijacijom kao jediničnom vrijednošću
- Razliku između rezultata i M dijelimo standardnom devijacijom jer položaj nekog rezultata u odnosu na
aritmetičku sredinu ovisi o raspršenju rezultata u nekoj skupini rezultata (tj. SD)
- Pomoću z-vrijednosti mogu se uspoređivati rezultati različitih mjerenja kod istog čovjeka, a također i rezultati
različitih ljudi (zbrojimo z-vrijednosti svih rezultata i odredimo prosjek)
- Pretvaranje u z-vrijednosti je potrebno jer bi jednostavnim zbrajanjem bruto-rezultata dvaju ili više mjerenja
u ukupnom zbroju imali veću važnost rezultati iz onih mjerenja u kojima je veća SD
- Pri pretvaranju bruto-rezultata u z-vrijednosti dobivamo negativne vrijednosti za sve rezultate koji su manji
od aritmetičke sredine
- Ako se zbog nekog razloga žele izbjeći negativne vrijednosti, doda se neka konstanta dovoljno velika (veća od
+3) da svi rezultati postanu pozitivni
- Standardizacija – pretvaranje bruto rezultata u skalu z-vrijednosti
- Standardna normalna distribucija – distribucija rezultata izraženih na skali z-vrijednosti
- Kad se skala z-vrijednosti koristi za određivanje položaja pojedinog rezultata, onda se govori o baždarnoj skali
- Baždarna skala – dobiva se provedbom standardizacijskog postupka, tj prikupljanja rezultata na
reprezentativnoj skupini pojedinaca
 Centili i decili
- Za svaki rezultat možemo očitati i njegov položaj u centilima, ali prethodno treba rezultat pretvoriti u z-
vrijednost
- Određivanje graničnih vrijednosti centila pomoću z-vrijednosti i površine normalne distribucije opravdano je
samo ako su dobiveni rezultati normalno distribuirani
- Centile i decile ima smisla određivati samo s velikim brojem rezultata (N>100)
- Centil nekog rezultata = rang rezultata/N x 100 (rezultate treba najprije poredati po veličini)
- Odrediti u koji centil spada neki rezultat može se i grafički pomoću krivulje kumulativnih frekvencija
- Granične vrijednosti centila u skali centila određuju se tako da se najprije odredi redno mjesto (Rc) rezultata
koji predstavlja graničnu vrijednost, a onda se ta vrijednost potraži među rezultatima poredanima po veličini
- Ako ne raspolažemo velikim N i ako raspon dobivenih rezultata nije velik, granične će se vrijednosti susjednih
centila prekrivati, bit će numerički jednake (tada je bolje određivati granične vrijednosti decila)
- Skala centila ima 99, a skala decila 9 graničnih vrijednosti
- Linearna interpolacija – rezultati nisu cijeli brojevi
- Zbog nepreciznosti računa, ali i zbog ograničene veličine uzorka, preporuča se odrediti granične vrijednosti
centila i decila pomoću z-vrijednosti
- Granične vrijednosti: X= zxSD + M
- Svi rezultati koji su veći od granične vrijednosti c99 spadaju u 100. centil
- Skala decila i skala centila nemaju ekvidistantne jedinične vrijednosti – manja je razlika među graničnim
vrijednostima skale na mjestima veće čestine rezultata
- U normalnoj distribuciji veća je gustoća u sredini raspona rezultata (pa je tu i manja razlika među graničnim
vrijednostima), prema krajevima je gustoća sve manja
- Jedino kod pravokutne distribucije sve granične vrijednosti bit će jednako međusobno udaljene
- Prednost z-vrijednosti pred centilima: možemo ih zbrajati i tražiti prosjek, to su ekvidistantne jedinice
(jedinice s jednakim međusobnim razmakom uzduž cijele ljestvice), može se koristiti veći broj decimalnih
mjesta (dok računanje s decimalnim mjestima nema previše smisla kod centila i decila)
- Prednost centila pred z-vrijednostima: ne zahtijevaju normalnu distribuciju (dok z-vrijednosti predstavljaju
dijelove standardne devijacije koja je vezana uz normalnu raspodjelu)

Hi-kvadrat test (χ²-test)


 Razlike između aritmetičkih sredina, neki računi korelacije, itd. mogu se primijeniti samo na kvantitativne
brojčane podatke, koji su ili normalno raspoređeni ili bar simetrično raspoređeni
 Ako su podaci izraženi čestinom koja pripada nekim definiranim kategorijama ili ako distribucija značajno
odstupa od normalne, onda se dosad opisani postupci ne mogu upotrijebiti, već se koristi postupak nazvan
χ²-test
 χ²-test računa se samo s frekvencijama pa nije dopušteno u račun unositi nikakve mjerne jedinice!
 Može osobito poslužiti kad želimo utvrditi je li neke opažene frekvencije odstupaju od frekvencija koje bismo
očekivali pod određenom hipotezom
 Sličan računu korelacije utoliko što katkad tražimo povezanost između dvije varijable; međutim, račun
korelacije pokazuje nam stupanj povezanosti između dvije varijable, a χ²-test vjerojatnost povezanosti
 Formula za izračunavanje hi-kvadrata: χ²= Σ (fo-ft) /ft
2

 f = opažene frekvencije, f = očekivane (teoretske) frekvencije, koje bismo očekivali prema nekoj hipotezi
o t

 χ²-test najčešće upotrebljavamo u ovim slučajevima:


1. Kad imamo frekvencije jednog uzorka pa želimo ustanoviti odstupaju li one od frekvencija koje
očekujemo uz neku hipotezu
2. Kad imamo frekvencije dvaju ili više nezavisnih uzoraka te želimo ustanoviti razlikuju li se uzorci u
opaženim svojstvima
3. Kad imamo frekvenciju dvaju zavisnih uzoraka koji imaju dihotomna svojstva te želimo ustanoviti
razlikuju li se uzorci u mjerenim svojstvima, tj. je li došlo do promjene

Jedan uzorak 

 Kad ne bismo našli nikakve razlike između opažanih i očekivanih frekvencija, izraz χ² bi bio jednak 0 (to se
tvrdi nul-hipotezom, koja se testira, osim t-testa, i χ²-testom)
 Što su razlike između opaženih i očekivanih frekvencija veće, to je veći i definitivni izraz χ²
 Što je χ² manji (bliži nuli, ali samo do određene granice), to je vjerojatnije da treba prihvatiti postavljenu nul-
hipotezu, a što je on veći, vjerojatnije je da ju treba odbaciti
 U tablici možemo vidjeti do koje vrijednosti (uz određeni broj stupnjeva slobode) moramo smatrati da je χ²
još uvijek dovoljno visok, a da bismo mogli odbaciti nul-hipotezu, tj. koliko najmanje mora iznositi χ² da
odbacimo nul-hipotezu
 Centralna vrijednost hi-kvadrata uz neki stupanj slobode iznosi po prilici toliko koliko imamo stupnjeva
slobode
 Nul-hipotezu sigurno možemo prihvatiti (bez uvida u tablicu) ako je dobiveni χ² manji ili jednak broju
stupnjeva slobode!!!
 Kad imamo samo jednu varijablu s jednim nizom rezultata, broj stupnjeva slobode računa se prema formuli
N-1, pri čemu N znači ukupan broj polja tj. kategorija ishoda (a ne ukupan broj frekvencija)
 Hipoteza na temelju koje se dobivaju teoretske frekvencije nije isto što i nul-hipoteza (koja je statistički
pojam); nju sami odabiremo ovisno o tome kakve rezultate očekujemo
 Kada imamo 2 polja, ako je više od 20% očekivanih frekvencija manje od 5, treba spajati susjedna polja
zajedno
 Kada radimo samo s 2 polja, nijedna očekivana (teoretska) frekvencija ne smije biti manja od 5
 U testiranju Poissonove raspodjele, broj stupnjeva slobode računa se kao „broj razreda-2“

Dva ili više nezavisnih uzoraka

 Jedna varijabla (npr.spol) ide u stupac, a druga varijabla (npr. stav) ide u redak
 Teoretske frekvencije u svakom polju dobivamo tako da pomnožimo zbroj reda zbrojem stupca i rezultat
podijelimo totalnim zbrojem frekvencija
 Kad radimo s 2x2 tablicama (a također i onda kad radimo s drugim tablicama, npr 2x3, a u bilo kojem polju
imamo očekivanu frekvenciju manju od 5) možemo upotrijebiti Yatesovu korekciju, koja se sastoji u tome da
se za 0,5 smanji svaka opažena frekvencija koja je veća od očekivane, a za 0,5 poveća svaka opažena
frekvencija koja je manja od očekivane; svaka se razlika između očekivane i opažene frekvencije smanji za 0,5
 χ²-test s Yatesovom korekcijom: χ²= Σ (|fo-ft|-0,5) /ft 2

 U tablicama koje imaju redove i stupce, broj stupnjeva slobode izračunava se: (broj redova-1)(broj stupaca-1)
 Jednostavnija formula χ²-testa s uključenom Yatesovom korekcijom (slova su označena polja tablice) za 2x2
tablicu: χ²= [N(|ad-bc|-N/2) ]/(a+c)(b+d)(c+d)(a+b)        (modul-uvijek se manji izraz oduzima od većega)
2

 Kad imamo veće tablice, interpretacija je teža – pretvoriti frekvencije u tablici u postotke tako da ukupne
kategorije iznose 100%; ili-stavljati pluseve i minuse (je li opažena frekvencija manja ili veća od očekivane?)
 Tablice kontingencije
 χ² kod 2x2 tablica se smije upotrijebiti uvijek ako je N veći od 40; kad je manji od 40, ali veći od 20, smijemo
računati samo ako nijedna očekivana frekvencija nije manja od 5
 U tablicama kontingencije, kad je broj stupnjeva slobode veći od 1, χ²-test može se još računati ako manje od
20% polja ima očekivanu frekvenciju manju od 5, a ako nijedno polje nema očekivanu frekvenciju < 1 (ako taj
uvjet nije postignut, polja se moraju spajati)
 Fisherov „egzaktni test“ – za slučajeve vrlo malog N

Dva zavisna uzorka (McNemarov test)

 Ako uspoređujemo rezultate jedne te iste grupe „prije“ i „poslije“, ili uspoređujemo istu grupu u 2 različite
aktivnosti, onda vjerojatno postoji korelacija između prvih i drugih rezultata
 Razlike između 1. i 2. varijable nalaze se u poljima A i D
 A+D predstavlja totalni broj onih kod kojih se ne slaže uspjeh prvog i drugog mjerenja
 Budući da A+D predstavljaju ukupan broj ispitanika koji su promijenili svoj uspjeh, očekivali bismo pod nul-
hipotezom da bi se ½ (A+D) slučajeva promijenilo u jednom, a ½ (A+D) u drugom smjeru
 Pod nul-hipotezom očekivane frekvencije u polju A iznose ½ (A+D), a jednako toliko u polju D
 χ²=[(A-(A+D)/2) ] / [(A+D)/2]  + [(D-(A+D)/2) ] / [(A+D)/2]
2 2

 Skraćena formula: χ²= (A-D) /(A+D)


2

 Skraćena formula uz Yatesovu korekciju: χ²= (|A-D|-1) /(A+D)


2

 Zapravo se radi o testiranju značajnosti razlike između dviju proporcija: p1=(A+B)/N; p2= (B+D)/N
 Za neke rijetke situacije McNemarov test može biti izrazito nepogodan: ako neki postupan, primijenjen na
skupinu ispitanika, može kod njih proizvesti suprotne učinke, pa se može dogoditi da bude podjednako
ispitanika ili sličan broj u poljima A i D te će taj test tada dati malu vrijednost (što bi trebalo značiti da nije
došlo do promjene, a do značajnih promjena je došlo)

Neki osnovni uvjeti za upotrebu χ²-testa

 Praktična strana χ²-testa:  posjeduje aditivna svojstva – imamo pravo zbrojiti nekoliko hi-kvadrata iz istih
istraživanja i na značajnost dobivenog rezultata zaključivati iz tablice, s tim da zbrojimo i stupnjeve slobode
 Pri situacijama zbrajanja hi-kvadrata treba paziti da se zbroje svi raspoloživi rezultati, a ne samo pozitivni
 Smijemo zbrajati samo one hi-kvadrate koji svi pokazuju devijaciju u „istom smjeru“ (budući da je „smjer“
devijacije vidljiv samo iz inspekcije tablice, a ne iz samog broja jer je broj uvijek pozitivan, treba biti vrlo
oprezan)
 Glavni uvjeti za računanje χ²-testa:
1. Može se računati samo s frekvencijama – u polja χ²-testa ne smijemo unositi aritmetičke sredine, postotke ili
proporcije
2. Zbroj očekivanih (teoretskih) frekvencija mora biti jednak zbroju opaženih frekvencija – toleriraju se
minimalne razlike u vezi sa zaokruživanjem decimalnih brojeva
3. Kad god u χ²-testu radimo s nekim svojstvom koje se pojavilo ili se nije pojavilo, treba u računu staviti i
frekvencije u kojima se to stvojstvo nije pojavilo (ako to ne učinimo, može nam se u nekim slučajevima
dogoditi da zbroj opaženih frekvencija ne odgovara zbroju teoretskih)
4. Frekvencije u pojedinim poljima moraju biti u tom smislu nezavisne da svaka frekvencija u pojedinom polju
mora pripadati drugom individuumu (npr. ne smijemo u tablicu unositi nekoliko odgovora 1 ispitanika;
također, N se ne smije povećati tako da se na svakom ispitaniku učini nekoliko pokusa pa se svaki unese u
tablicu)
5. Nijedna teoretska frekvencija ne smije biti odveć mala , treba se pridržavati ovih pravila:
a. Kad imamo više od 2 polja, ako je više od 20% teoretskih frekvencija manje od 5, treba spajati susjedna polja;
kad radimo samo s 2 polja, ne smije ni jedna teoretska frekvencija biti manja od 5
b. Kod 2x2 tablica χ²-test se smije upotrijebiti uvijek ako je N veći od 40, ako je manji od 40, a veći od 20, ne
smije ni jedna teoretska frekvencija biti manja od 5
c. U tablicama kontingencije kad je broj stupnjeva slobode >1, χ²-test se smije računati ako manje od 20% polja
ima teoretsku frekvenciju manju od 5, a nijedno polje manju od 1 (ako to nije postignuto, treba spajati polja
pri čemu fenomen koji ispitujemo mora i dalje ostati vidljiv)
6. Kada postoji samo 1 stupanj slobode, potrebno je provesti korekciju za kontinuitet (Yatesova korekcija) – ako
su razlike između opaženih i očekivanih frekvencija vrlo male, tako da primjenom Yatesove korekcije
dobijemo razliku koja je numerički veća, onda upotreba te korekcije nema opravdanja; korekcija ima smisla
samo kod malih frekvencija u poljima jer će kod velikih frekvencija s korekcijom samo doći do malih razlika u
završnom rezultatu

Još o χ²-testu

 3 napomene:
1. Uz njegovu pomoć možemo ustanoviti  vjerojatnost povezanosti između dvije varijable
2. Kod χ²-testa i za suviše mali hi-kvadrat možemo smatrati da nije slučajno nastao; ni izrazito mali hi-
kvadrat ne možemo smatrati sigurno slučajnim, jer bi se on mogao pojaviti samo izvanredno rijetko
3. Pojedini korisnici χ²-testa nedovoljno razmišljaju o tome što ih zapravo zanima u njihovu istraživanju;
treba prethodno promisliti što nas zapravo zanima pa tek onda ići na izračunavanje teoretskih
frekvencija jer one ovise o hipotezi koju smo postavili

Standardna pogreška standardne devijacije i granice pouzdanosti standardne devijacije

 Kada bismo radili s velikim uzorcima (neki statističari velikim uzorcima smatraju uzorke veće od 30, a neki
veće od 100), distribucija varijanci odnosno standardnih devijacija uzoraka (oko standardne devijacije
populacije) uglavnom je normalna (simetrična) pa se možemo poslužiti poznatom logikom rezoniranja, tj. da
je oko 68% slučajeva u intervalu SD+/- jedna standardna pogreška, 95% u intervalu 2 standardne pogreške,
itd.
 Standardna pogreška standardne devijacije kod velikih uzoraka: SD =SD/ √2N
SD

 Radimo li s malim uzorcima, distribucija standardnih devijacija nije više normalna, pa makar uzorke uzimali iz
posve normalne distribucije (ona je asimetrična pa se ne može jednako dodavati i uzimati na lijevoj i desnoj
strani, nema smisla računati standardnu pogrešku, jer treba dodavati različite vrijednosti lijevo i desno)
 Ako su uzorci mali, a populacija normalno distribuirana, standardna devijacija dat će hi-kvadrat raspodjelu
 Izračunavanje granica pouzdanosti standardne devijacije: (N-1)SD /σ
2 2

 Teorem centralnih granica ne vrijedi kod standardne devijacije


 Testiranje značajnosti razlika između dvije standardne devijacije – pomoću F-testa

You might also like