You are on page 1of 3

METODA UZORKA

Anegdotalni podaci

• Svi se ovi zaključci temelje na podacima. Problemi: Zaključak se temelji na svega jednom ili dva
slučaja. Upitno je da li su ti slučajevi reprezentativni za ciljanu populaciju.

• Podatke prikupljene na neformalni način zovemo anegdotalnim podacima. • Anegdotalni podaci


mogu biti točni, ali predstavljati ekstremne slučajeve ili izuzetke. • Zaključci na temelju anegdotalnih
podataka nisu valjani

Uzorak

• Kuhamo juhu i želimo provjeriti da li je dovoljno slana. Hoćemo li pojesti cijelu juhu da bismo to
provjerili?

• Slično možemo izabrati uzorak studenata i pitati ih koliko su potrošili na izlaske prošli mjesec. •
Populacija => svi studenti FOI-a • Uzorak => oni studenti koje smo pitali koliko su potrošili prošli
mjesec na izlaske • Na temelju karakteristika uzorka procjenjujemo kakva je populacija.

• Kako biramo uzorak? • Uzorak uvijek biramo slučajno – npr. popis svih imena možemo napisati na
kartice, pomiješati kartice i slučajno izvlačiti imena studenata koje ćemo uključiti u uzorak

Načini prikupljanja podataka: • Popis stanovništva (cenzus) • Opažajna studija • Eksperiment

Popis stanovništva – cenzus • Cenzus je prikupljanje podataka cijele populacije • Vrlo je teško
provesti cenzus – uvijek su neke jedinke isključene – cijena prikupljanja podataka malog broja takvih
jedinki je izuzetno velika • Populacija se stalno mijenja (ljudi umiru, rađaju se) – cenzus traje dugo i
svojstva se mogu promijeniti u toku provođenja cenzusa • Cenzus je vrlo kompleksna aktivnost koja
uključuje velik broj istraživača – događa se da ista jedinka bude uključena više puta (npr. studenti –
na fakultetu i kod kuće)

Opažajna studija • Podaci se prikupljaju na način da istraživač ne utječe na proces koji generira
podatke – samo ispituje, promatra, mjeri i sl. • Na temelju opažajnih studija ne možemo donositi
zaključke o uzročnoposljedičnoj povezanosti.

Primjer: Istraživači su izabrali slučajan uzorak 836 kupaca i zamolili ih da ispune upitnik o povjerenju u
robne marke i namjeru kupovanja proizvoda.

Opažajne studije po vremenu na koje se odnose • Retrospektivne – prikupljaju se podaci o proteklim


događajima (npr. iz arhiva) • Prospektivne – izabere se uzorak i prati kroz vrijeme • Presječne –
izabere se uzorak i u jednom vremenskom trenutku prikupe podaci

Opažajne studije po učestalosti prikupljanja podataka • Presječna istraživanja – jedna vremenska


točka, više opservacija, više varijabli • Vremenski nizovi – više vremenskih točaka, više opservacija,
jedna varijabla • Panel istraživanja – više vremenskih točaka, više opservacija, više varijabli

Eksperiment • Ako želimo provjeriti uzročno posljedičnu povezanost koristimo eksperiment. • Npr.
želimo znati da li popijena kava pozitivno utječe na rezultate ispita.

• Postupak: • Izaberemo uzorak ispitanika • Ispitanike slučajno raspodijelimo u grupe • Svakoj grupi
pridruži se drugačiji tretman (npr. jedna grupa prije ispita popije kavu, a druga ne)

• Potencijalni problemi: • Ako ispitanici znaju da li su bili podvrgnuti tretmanu ili ne to može utjecati
na rezultat • U medicini se koristi tzv. placebo i dvostruko maskiranje – pacijenti koji ne primaju
tretman primaju tabletu istog izgleda kao što je lijek, a niti liječnik koji prati pacijenta niti pacijent ne
znaju da li je to stvarni lijek ili placebo.

Izbor uzorka • Želimo donositi zaključke o cijeloj populaciji (osnovnom skupu) – ali ne možemo
uključiti sve elemente – nemamo dovoljno resursa

• Izradimo popis svih jedinki u populaciji => okvir uzorkovanja.

• Iz okvira uzorkovanja biramo jedan podskup => uzorak

• Ideja – ako je uzorak dobro izabran on predstavlja cijelu populaciju – reprezentativan je

• Ako uzorak ne predstavlja svaku jedinku populacije kažemo da je pristran (eng. biased)

• Najbolji način za izbor reprezentativnog, nepristranog uzorka je slučajan izbor iz cijele populacije na
način da • Svaka jedinka iz populacije ima jednaku vjerojatnost da će biti uključena u uzorak. •
Vjerojatnosti odabira jedinki u uzorak su nezavisne.

• Takav uzorak zovemo jednostavni slučajni uzorak.

Zašto slučajni odabir? • Nije moguće izabrati deterministički, po pravilu, reprezentativan uzorak!
Nikad ne možemo u planiranje uključiti sva svojstva opservacija koja mogu utjecati na analizirano
svojstvo.

• Slučajan odabir nas štiti od utjecaja svih svojstava populacije na rezultat, tako što osigurava da
uzorak u prosjeku odgovara ostaloj populaciji: • Štiti od pristranosti • Omogućava zaključivanje s
uzorka na populaciju

• Mogući izvori pristranosti kod slučajnog uzorka: • Neodaziv – ispitanici koje smo uključili u uzorak
ne žele sudjelovati u istraživanju. • Nepotpuni okvir uzorkovanja. • U društvenim istraživanjima
neodaziv može biti i po 80% - to ugrožava reprezentativnost uzorka.

• Uzorak koji smo izabrali slučajno zove se probabilistički uzorak.

Ostale vrste probabilističkih uzoraka • Stratificirani uzorak • Uzorak skupina (eng. cluster sampling)
• Višestupanjski uzorak • Sistematski uzorak

• Standardni statistički paketi i inferencijalne statističke metode koje učimo na ovom predmetu
valjani su samo za jednostavni slučajni uzorak. • Kod ostalih probabilističkih uzoraka potrebno je
primijeniti složene postupke ponderiranja opservacija s obzirom na vjerojatnost ulaska u uzorak.

Uzorak – korak po korak • Definicija populacije – mora biti dobro definirano (studenti – tko je sve
student, glasači – zanimaju nas samo oni koji će izaći na izbore …) • Okvir uzorkovanja • Dizajn uzorka
(vjerojatnosti izbora) • Ciljani uzorak

• Stvarni uzorak: Koliki je nonresponse ili ne sudjelovanje u uzorku? • Je li stvarni uzorak još uvijek
reprezentativan? • To su podaci koje analiziramo!

Neprobabilistički uzorci • Kvotni uzorak • Prigodni uzorak • Prosudbeni uzorak (ekspertni) • Lančano
izabran uzorak

• Koristimo deskriptivnu statistiku da opišemo uzorak. • Ne smijemo generalizirati s uzorka na


populaciju.

Uzorak dobrovoljnih odgovora • Poziv nasumično odabranoj velikoj grupi pojedinaca • Svi koji
odgovore su uključeni u uzorak • NAJGORA VRSTA UZORKA! • Odgovaraju oni koji jako osjećaju za ili
protiv onoga o čemu se pita (TV glasanja, internetska glasanja, upiti osobama koje su pisale na Sabor
…)

Ostale greške uzorkovanja • Podesan uzorak (eng. convenience sampling) – anketa u prodajnom
centru, e-mail anketa, anketa vlastitih kupaca za analizu tržišta • Uzorak iz nepotpunog okvira
uzorkovanja • Nepokrivenost (eng. undercoverage) dijelova populacije – nema predstavnika dijela
populacije ili ih ima razmjerno bitno manje no što su zastupljeni u populaciji (npr. beskućnici)
•Pristranost (eng. bias) uzorka nije moguće naknadno popraviti!

Populacija i parametri • U statistici koristimo matematičke modele distribucija podataka da


predstavimo stvarnost. • Modeli su određeni svojim parametrima (npr. 𝜇 = 15, 𝜎 = 2) • Ako model
dobro opisuje distribuciju varijable u populaciji, onda njegove parametre zovemo populacijski
parametri. • Deskriptivni pokazatelji izračunati iz podataka na uzorku zovu se statistike. •
Statistikama na uzorku se služimo da bismo procijenili vrijednosti parametara populacije. • Činjenicu
da bismo na različitim uzorcima dobili različite procjene zovemo varijabilnost uzorkovanja.

Centralni granični teorem (CGT)

• Ako neka kvantitativna varijabla u populaciji ima razdiobu koja nije jako nepravilna, za dovoljno
velike veličine uzorka razdioba uzorkovanja aritmetičke sredine te varijable je približno normalna.

• Aritmetička sredina razdiobe uzorkovanja jednaka je aritmetičkoj sredini varijable u populaciji.

• Standardna devijacija razdiobe uzorkovanja aritmetičke sredine dobije se iz standardne devijacije


varijable (u populaciji) dijeljenjem s korijenom iz veličine uzorka.

• Standardna devijacija distribucije uzorkovanja mjeri preciznost procjene aritmetičke sredine


populacije na temelju uzorka.

• Ako je populacija dovoljno velika, preciznost procjene ovisi samo o apsolutnoj veličini uzorka, a ne i
o tome koliki je on relativno u odnosu na populaciju. Ako je aritmetička sredina varijable u populaciji
jednaka μ, a standardna devijacija jednaka σ, onda je distribucija uzorkovanja aritmetičkih sredina na
uzorcima normalna razdioba

Frakcija izbora • Frakcija izbora je omjer veličine uzorka (n) i veličine populacije (N)

Preduvjeti za primjenu CGT • Nezavisnost opservacija: Vjerojatnost izbora opservacije u uzorak mora
biti nezavisna od ostalih opservacija u uzorku. • Veličina uzorka: Uzorak mora biti dovoljno velik. Što
je oblik distribucije varijable nepravilniji, potreban je veći uzorak. • Uvjet randomizacije: Uzorak mora
biti izabran slučajno, inače pojam razdiobe uzorkovanja nema smisla!!!

Ponavljanje • Statistika na uzorku je slučajna varijabla (npr. aritmetička sredina, proporcija, medijan,
1. kvartil …) • Varijabilnost uzorkovanja je pojava da različiti slučajni uzorci iz iste populacije imaju
različite vrijednosti statistike na uzorku. • Razdioba uzorkovanja je razdioba vrijednosti koje bi
statistika mogla poprimiti na raznim uzorcima. • Centralni granični teorem nam govori da razdiobu
uzorkovanja proporcija i aritmetičkih sredina kada imamo dovoljno velik uzorak možemo modelirati
normalnom razdiobom. • Što je razdioba varijable nepravilnija, potreban je veći uzorak da bi
normalna razdioba bila prikladan model razdiobe uzorkovanja aritmetičke sredine. • Uvijek treba
provjeriti pretpostavke za primjenu centralnog graničnog teorema. • Kada uzimamo uzorke iz jako
velikih populacija frakcija izbora ne utječe značajno na standardnu devijaciju distribucije uzorkovanja.

You might also like