Metoda Uzorka (Statistika)

METODA UZORKA
Anegdotalni podaci
• Svi se ovi zaključci temelje na podacima. Problemi: Zaključak se temelji na svega jednom ili dva
slučaja. Upitno je da li su ti slučajevi reprezentativni za ciljanu populaciju.
• Podatke prikupljene na neformalni način zovemo anegdotalnim podacima. • Anegdotalni podaci

mogu biti točni, ali predstavljati ekstremne slučajeve ili izuzetke. • Zaključci na temelju anegdotalnih
podataka nisu valjani
Uzorak
• Kuhamo juhu i želimo provjeriti da li je dovoljno slana. Hoćemo li pojesti cijelu juhu da bismo to
provjerili?
• Slično možemo izabrati uzorak studenata i pitati ih koliko su potrošili na izlaske prošli mjesec. •
Populacija => svi studenti FOI-a • Uzorak => oni studenti koje smo pitali koliko su potrošili prošli
mjesec na izlaske • Na temelju karakteristika uzorka procjenjujemo kakva je populacija.
• Kako biramo uzorak? • Uzorak uvijek biramo slučajno – npr. popis svih imena možemo napisati na
kartice, pomiješati kartice i slučajno izvlačiti imena studenata koje ćemo uključiti u uzorak
Načini prikupljanja podataka: • Popis stanovništva (cenzus) • Opažajna studija • Eksperiment
Popis stanovništva – cenzus • Cenzus je prikupljanje podataka cijele populacije • Vrlo je teško
provesti cenzus – uvijek su neke jedinke isključene – cijena prikupljanja podataka malog broja takvih
jedinki je izuzetno velika • Populacija se stalno mijenja (ljudi umiru, rađaju se) – cenzus traje dugo i
svojstva se mogu promijeniti u toku provođenja cenzusa • Cenzus je vrlo kompleksna aktivnost koja
uključuje velik broj istraživača – događa se da ista jedinka bude uključena više puta (npr. studenti –
na fakultetu i kod kuće)
Opažajna studija • Podaci se prikupljaju na način da istraživač ne utječe na proces koji generira
podatke – samo ispituje, promatra, mjeri i sl. • Na temelju opažajnih studija ne možemo donositi
zaključke o uzročnoposljedičnoj povezanosti.
Primjer: Istraživači su izabrali slučajan uzorak 836 kupaca i zamolili ih da ispune upitnik o povjerenju u
robne marke i namjeru kupovanja proizvoda.
Opažajne studije po vremenu na koje se odnose • Retrospektivne – prikupljaju se podaci o proteklim

događajima (npr. iz arhiva) • Prospektivne – izabere se uzorak i prati kroz vrijeme • Presječne –
izabere se uzorak i u jednom vremenskom trenutku prikupe podaci
Opažajne studije po učestalosti prikupljanja podataka • Presječna istraživanja – jedna vremenska

točka, više opservacija, više varijabli • Vremenski nizovi – više vremenskih točaka, više opservacija,
jedna varijabla • Panel istraživanja – više vremenskih točaka, više opservacija, više varijabli
Eksperiment • Ako želimo provjeriti uzročno posljedičnu povezanost koristimo eksperiment. • Npr.
želimo znati da li popijena kava pozitivno utječe na rezultate ispita.
• Postupak: • Izaberemo uzorak ispitanika • Ispitanike slučajno raspodijelimo u grupe • Svakoj grupi
pridruži se drugačiji tretman (npr. jedna grupa prije ispita popije kavu, a druga ne)
• Potencijalni problemi: • Ako ispitanici znaju da li su bili podvrgnuti tretmanu ili ne to može utjecati
na rezultat • U medicini se koristi tzv. placebo i dvostruko maskiranje – pacijenti koji ne primaju
tretman primaju tabletu istog izgleda kao što je lijek, a niti liječnik koji prati pacijenta niti pacijent ne
znaju da li je to stvarni lijek ili placebo.
Izbor uzorka • Želimo donositi zaključke o cijeloj populaciji (osnovnom skupu) – ali ne možemo
uključiti sve elemente – nemamo dovoljno resursa
• Izradimo popis svih jedinki u populaciji => okvir uzorkovanja.
• Iz okvira uzorkovanja biramo jedan podskup => uzorak
• Ideja – ako je uzorak dobro izabran on predstavlja cijelu populaciju – reprezentativan je
• Ako uzorak ne predstavlja svaku jedinku populacije kažemo da je pristran (eng. biased)
• Najbolji način za izbor reprezentativnog, nepristranog uzorka je slučajan izbor iz cijele populacije na
način da • Svaka jedinka iz populacije ima jednaku vjerojatnost da će biti uključena u uzorak. •
Vjerojatnosti odabira jedinki u uzorak su nezavisne.
• Takav uzorak zovemo jednostavni slučajni uzorak.
Zašto slučajni odabir? • Nije moguće izabrati deterministički, po pravilu, reprezentativan uzorak!
Nikad ne možemo u planiranje uključiti sva svojstva opservacija koja mogu utjecati na analizirano
svojstvo.
• Slučajan odabir nas štiti od utjecaja svih svojstava populacije na rezultat, tako što osigurava da
uzorak u prosjeku odgovara ostaloj populaciji: • Štiti od pristranosti • Omogućava zaključivanje s
uzorka na populaciju
• Mogući izvori pristranosti kod slučajnog uzorka: • Neodaziv – ispitanici koje smo uključili u uzorak
ne žele sudjelovati u istraživanju. • Nepotpuni okvir uzorkovanja. • U društvenim istraživanjima
neodaziv može biti i po 80% - to ugrožava reprezentativnost uzorka.
• Uzorak koji smo izabrali slučajno zove se probabilistički uzorak.
Ostale vrste probabilističkih uzoraka • Stratificirani uzorak • Uzorak skupina (eng. cluster sampling)
• Višestupanjski uzorak • Sistematski uzorak
• Standardni statistički paketi i inferencijalne statističke metode koje učimo na ovom predmetu
valjani su samo za jednostavni slučajni uzorak. • Kod ostalih probabilističkih uzoraka potrebno je
primijeniti složene postupke ponderiranja opservacija s obzirom na vjerojatnost ulaska u uzorak.
Uzorak – korak po korak • Definicija populacije – mora biti dobro definirano (studenti – tko je sve
student, glasači – zanimaju nas samo oni koji će izaći na izbore …) • Okvir uzorkovanja • Dizajn uzorka
(vjerojatnosti izbora) • Ciljani uzorak
• Stvarni uzorak: Koliki je nonresponse ili ne sudjelovanje u uzorku? • Je li stvarni uzorak još uvijek
reprezentativan? • To su podaci koje analiziramo!
Neprobabilistički uzorci • Kvotni uzorak • Prigodni uzorak • Prosudbeni uzorak (ekspertni) • Lančano
izabran uzorak
• Koristimo deskriptivnu statistiku da opišemo uzorak. • Ne smijemo generalizirati s uzorka na

populaciju.
Uzorak dobrovoljnih odgovora • Poziv nasumično odabranoj velikoj grupi pojedinaca • Svi koji
odgovore su uključeni u uzorak • NAJGORA VRSTA UZORKA! • Odgovaraju oni koji jako osjećaju za ili
protiv onoga o čemu se pita (TV glasanja, internetska glasanja, upiti osobama koje su pisale na Sabor
…)
Ostale greške uzorkovanja • Podesan uzorak (eng. convenience sampling) – anketa u prodajnom
centru, e-mail anketa, anketa vlastitih kupaca za analizu tržišta • Uzorak iz nepotpunog okvira
uzorkovanja • Nepokrivenost (eng. undercoverage) dijelova populacije – nema predstavnika dijela
populacije ili ih ima razmjerno bitno manje no što su zastupljeni u populaciji (npr. beskućnici)
•Pristranost (eng. bias) uzorka nije moguće naknadno popraviti!
Populacija i parametri • U statistici koristimo matematičke modele distribucija podataka da

predstavimo stvarnost. • Modeli su određeni svojim parametrima (npr. 𝜇 = 15, 𝜎 = 2) • Ako model
dobro opisuje distribuciju varijable u populaciji, onda njegove parametre zovemo populacijski
parametri. • Deskriptivni pokazatelji izračunati iz podataka na uzorku zovu se statistike. •
Statistikama na uzorku se služimo da bismo procijenili vrijednosti parametara populacije. • Činjenicu
da bismo na različitim uzorcima dobili različite procjene zovemo varijabilnost uzorkovanja.
Centralni granični teorem (CGT)
• Ako neka kvantitativna varijabla u populaciji ima razdiobu koja nije jako nepravilna, za dovoljno
velike veličine uzorka razdioba uzorkovanja aritmetičke sredine te varijable je približno normalna.
• Aritmetička sredina razdiobe uzorkovanja jednaka je aritmetičkoj sredini varijable u populaciji.
• Standardna devijacija razdiobe uzorkovanja aritmetičke sredine dobije se iz standardne devijacije

varijable (u populaciji) dijeljenjem s korijenom iz veličine uzorka.
• Standardna devijacija distribucije uzorkovanja mjeri preciznost procjene aritmetičke sredine

populacije na temelju uzorka.
• Ako je populacija dovoljno velika, preciznost procjene ovisi samo o apsolutnoj veličini uzorka, a ne i
o tome koliki je on relativno u odnosu na populaciju. Ako je aritmetička sredina varijable u populaciji
jednaka μ, a standardna devijacija jednaka σ, onda je distribucija uzorkovanja aritmetičkih sredina na
uzorcima normalna razdioba
Frakcija izbora • Frakcija izbora je omjer veličine uzorka (n) i veličine populacije (N)
Preduvjeti za primjenu CGT • Nezavisnost opservacija: Vjerojatnost izbora opservacije u uzorak mora
biti nezavisna od ostalih opservacija u uzorku. • Veličina uzorka: Uzorak mora biti dovoljno velik. Što
je oblik distribucije varijable nepravilniji, potreban je veći uzorak. • Uvjet randomizacije: Uzorak mora
biti izabran slučajno, inače pojam razdiobe uzorkovanja nema smisla!!!
Ponavljanje • Statistika na uzorku je slučajna varijabla (npr. aritmetička sredina, proporcija, medijan,
1. kvartil …) • Varijabilnost uzorkovanja je pojava da različiti slučajni uzorci iz iste populacije imaju
različite vrijednosti statistike na uzorku. • Razdioba uzorkovanja je razdioba vrijednosti koje bi
statistika mogla poprimiti na raznim uzorcima. • Centralni granični teorem nam govori da razdiobu
uzorkovanja proporcija i aritmetičkih sredina kada imamo dovoljno velik uzorak možemo modelirati
normalnom razdiobom. • Što je razdioba varijable nepravilnija, potreban je veći uzorak da bi
normalna razdioba bila prikladan model razdiobe uzorkovanja aritmetičke sredine. • Uvijek treba
provjeriti pretpostavke za primjenu centralnog graničnog teorema. • Kada uzimamo uzorke iz jako
velikih populacija frakcija izbora ne utječe značajno na standardnu devijaciju distribucije uzorkovanja.

Metoda Uzorka (Statistika)

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Metoda Uzorka (Statistika)

Uploaded by

Copyright:

Available Formats

METODA UZORKA

• Podatke prikupljene na neformalni način zovemo anegdotalnim podacima. • Anegdotalni podaci

Načini prikupljanja podataka: • Popis stanovništva (cenzus) • Opažajna studija • Eksperiment

Opažajne studije po vremenu na koje se odnose • Retrospektivne – prikupljaju se podaci o proteklim

Opažajne studije po učestalosti prikupljanja podataka • Presječna istraživanja – jedna vremenska

• Izradimo popis svih jedinki u populaciji => okvir uzorkovanja.

• Iz okvira uzorkovanja biramo jedan podskup => uzorak

• Ideja – ako je uzorak dobro izabran on predstavlja cijelu populaciju – reprezentativan je

• Takav uzorak zovemo jednostavni slučajni uzorak.

• Uzorak koji smo izabrali slučajno zove se probabilistički uzorak.

• Koristimo deskriptivnu statistiku da opišemo uzorak. • Ne smijemo generalizirati s uzorka na

Populacija i parametri • U statistici koristimo matematičke modele distribucija podataka da

Centralni granični teorem (CGT)

• Aritmetička sredina razdiobe uzorkovanja jednaka je aritmetičkoj sredini varijable u populaciji.

• Standardna devijacija razdiobe uzorkovanja aritmetičke sredine dobije se iz standardne devijacije

• Standardna devijacija distribucije uzorkovanja mjeri preciznost procjene aritmetičke sredine

You might also like