Professional Documents
Culture Documents
Anegdotalni podaci
• Svi se ovi zaključci temelje na podacima. Problemi: Zaključak se temelji na svega jednom ili dva
slučaja. Upitno je da li su ti slučajevi reprezentativni za ciljanu populaciju.
Uzorak
• Kuhamo juhu i želimo provjeriti da li je dovoljno slana. Hoćemo li pojesti cijelu juhu da bismo to
provjerili?
• Slično možemo izabrati uzorak studenata i pitati ih koliko su potrošili na izlaske prošli mjesec. •
Populacija => svi studenti FOI-a • Uzorak => oni studenti koje smo pitali koliko su potrošili prošli
mjesec na izlaske • Na temelju karakteristika uzorka procjenjujemo kakva je populacija.
• Kako biramo uzorak? • Uzorak uvijek biramo slučajno – npr. popis svih imena možemo napisati na
kartice, pomiješati kartice i slučajno izvlačiti imena studenata koje ćemo uključiti u uzorak
Popis stanovništva – cenzus • Cenzus je prikupljanje podataka cijele populacije • Vrlo je teško
provesti cenzus – uvijek su neke jedinke isključene – cijena prikupljanja podataka malog broja takvih
jedinki je izuzetno velika • Populacija se stalno mijenja (ljudi umiru, rađaju se) – cenzus traje dugo i
svojstva se mogu promijeniti u toku provođenja cenzusa • Cenzus je vrlo kompleksna aktivnost koja
uključuje velik broj istraživača – događa se da ista jedinka bude uključena više puta (npr. studenti –
na fakultetu i kod kuće)
Opažajna studija • Podaci se prikupljaju na način da istraživač ne utječe na proces koji generira
podatke – samo ispituje, promatra, mjeri i sl. • Na temelju opažajnih studija ne možemo donositi
zaključke o uzročnoposljedičnoj povezanosti.
Primjer: Istraživači su izabrali slučajan uzorak 836 kupaca i zamolili ih da ispune upitnik o povjerenju u
robne marke i namjeru kupovanja proizvoda.
Eksperiment • Ako želimo provjeriti uzročno posljedičnu povezanost koristimo eksperiment. • Npr.
želimo znati da li popijena kava pozitivno utječe na rezultate ispita.
• Postupak: • Izaberemo uzorak ispitanika • Ispitanike slučajno raspodijelimo u grupe • Svakoj grupi
pridruži se drugačiji tretman (npr. jedna grupa prije ispita popije kavu, a druga ne)
• Potencijalni problemi: • Ako ispitanici znaju da li su bili podvrgnuti tretmanu ili ne to može utjecati
na rezultat • U medicini se koristi tzv. placebo i dvostruko maskiranje – pacijenti koji ne primaju
tretman primaju tabletu istog izgleda kao što je lijek, a niti liječnik koji prati pacijenta niti pacijent ne
znaju da li je to stvarni lijek ili placebo.
Izbor uzorka • Želimo donositi zaključke o cijeloj populaciji (osnovnom skupu) – ali ne možemo
uključiti sve elemente – nemamo dovoljno resursa
• Ako uzorak ne predstavlja svaku jedinku populacije kažemo da je pristran (eng. biased)
• Najbolji način za izbor reprezentativnog, nepristranog uzorka je slučajan izbor iz cijele populacije na
način da • Svaka jedinka iz populacije ima jednaku vjerojatnost da će biti uključena u uzorak. •
Vjerojatnosti odabira jedinki u uzorak su nezavisne.
Zašto slučajni odabir? • Nije moguće izabrati deterministički, po pravilu, reprezentativan uzorak!
Nikad ne možemo u planiranje uključiti sva svojstva opservacija koja mogu utjecati na analizirano
svojstvo.
• Slučajan odabir nas štiti od utjecaja svih svojstava populacije na rezultat, tako što osigurava da
uzorak u prosjeku odgovara ostaloj populaciji: • Štiti od pristranosti • Omogućava zaključivanje s
uzorka na populaciju
• Mogući izvori pristranosti kod slučajnog uzorka: • Neodaziv – ispitanici koje smo uključili u uzorak
ne žele sudjelovati u istraživanju. • Nepotpuni okvir uzorkovanja. • U društvenim istraživanjima
neodaziv može biti i po 80% - to ugrožava reprezentativnost uzorka.
Ostale vrste probabilističkih uzoraka • Stratificirani uzorak • Uzorak skupina (eng. cluster sampling)
• Višestupanjski uzorak • Sistematski uzorak
• Standardni statistički paketi i inferencijalne statističke metode koje učimo na ovom predmetu
valjani su samo za jednostavni slučajni uzorak. • Kod ostalih probabilističkih uzoraka potrebno je
primijeniti složene postupke ponderiranja opservacija s obzirom na vjerojatnost ulaska u uzorak.
Uzorak – korak po korak • Definicija populacije – mora biti dobro definirano (studenti – tko je sve
student, glasači – zanimaju nas samo oni koji će izaći na izbore …) • Okvir uzorkovanja • Dizajn uzorka
(vjerojatnosti izbora) • Ciljani uzorak
• Stvarni uzorak: Koliki je nonresponse ili ne sudjelovanje u uzorku? • Je li stvarni uzorak još uvijek
reprezentativan? • To su podaci koje analiziramo!
Neprobabilistički uzorci • Kvotni uzorak • Prigodni uzorak • Prosudbeni uzorak (ekspertni) • Lančano
izabran uzorak
Uzorak dobrovoljnih odgovora • Poziv nasumično odabranoj velikoj grupi pojedinaca • Svi koji
odgovore su uključeni u uzorak • NAJGORA VRSTA UZORKA! • Odgovaraju oni koji jako osjećaju za ili
protiv onoga o čemu se pita (TV glasanja, internetska glasanja, upiti osobama koje su pisale na Sabor
…)
Ostale greške uzorkovanja • Podesan uzorak (eng. convenience sampling) – anketa u prodajnom
centru, e-mail anketa, anketa vlastitih kupaca za analizu tržišta • Uzorak iz nepotpunog okvira
uzorkovanja • Nepokrivenost (eng. undercoverage) dijelova populacije – nema predstavnika dijela
populacije ili ih ima razmjerno bitno manje no što su zastupljeni u populaciji (npr. beskućnici)
•Pristranost (eng. bias) uzorka nije moguće naknadno popraviti!
• Ako neka kvantitativna varijabla u populaciji ima razdiobu koja nije jako nepravilna, za dovoljno
velike veličine uzorka razdioba uzorkovanja aritmetičke sredine te varijable je približno normalna.
• Ako je populacija dovoljno velika, preciznost procjene ovisi samo o apsolutnoj veličini uzorka, a ne i
o tome koliki je on relativno u odnosu na populaciju. Ako je aritmetička sredina varijable u populaciji
jednaka μ, a standardna devijacija jednaka σ, onda je distribucija uzorkovanja aritmetičkih sredina na
uzorcima normalna razdioba
Frakcija izbora • Frakcija izbora je omjer veličine uzorka (n) i veličine populacije (N)
Preduvjeti za primjenu CGT • Nezavisnost opservacija: Vjerojatnost izbora opservacije u uzorak mora
biti nezavisna od ostalih opservacija u uzorku. • Veličina uzorka: Uzorak mora biti dovoljno velik. Što
je oblik distribucije varijable nepravilniji, potreban je veći uzorak. • Uvjet randomizacije: Uzorak mora
biti izabran slučajno, inače pojam razdiobe uzorkovanja nema smisla!!!
Ponavljanje • Statistika na uzorku je slučajna varijabla (npr. aritmetička sredina, proporcija, medijan,
1. kvartil …) • Varijabilnost uzorkovanja je pojava da različiti slučajni uzorci iz iste populacije imaju
različite vrijednosti statistike na uzorku. • Razdioba uzorkovanja je razdioba vrijednosti koje bi
statistika mogla poprimiti na raznim uzorcima. • Centralni granični teorem nam govori da razdiobu
uzorkovanja proporcija i aritmetičkih sredina kada imamo dovoljno velik uzorak možemo modelirati
normalnom razdiobom. • Što je razdioba varijable nepravilnija, potreban je veći uzorak da bi
normalna razdioba bila prikladan model razdiobe uzorkovanja aritmetičke sredine. • Uvijek treba
provjeriti pretpostavke za primjenu centralnog graničnog teorema. • Kada uzimamo uzorke iz jako
velikih populacija frakcija izbora ne utječe značajno na standardnu devijaciju distribucije uzorkovanja.