Professional Documents
Culture Documents
KLASIFIKACIJA PODATAKA
1. KVALITATIVNI (kategorijalni)-npr. Npr.: spol, bračno stanje, boja očiju (=definirane kategorije)
2. KVANTITATIVNI (numerički)
a. Diskretni-npr. br. studenata, broj neispravnih proizvoda u seriji (=prebrojavanje)
b. Kontinuirani -npr. visina, masa, BDP (=mjerenje)
Podaci se mogu razvrstati u 4 mjerne ljestvice s obzirom na metrička svojstva: nominalna, ordinalna,
intervalna i omjerna.
Slično nominalnim podacima, ordinalni podaci su oznake ili nazivi, ali se mogu rangirati.
Primjeri:
Standards and Poor’s rating (AAA, AA+, AA, AA-, A+, A, A-, BBB,.., D)
Kod intervalne mjerne ljestvice jednake razlike u brojevima jednake su razlikama u mjernom svojstvu,
tj. razlike brojeva su jednake.
Primjer:
Mjerenje temperature:
Kod omjerne mjerne ljestvice jednake razlike u brojevima predstavljaju jednake razlike u mjernom
svojstvu.
VRSTE VARIJABLI
PRESJEČNI PODACI
Presječni podaci ili podaci vremenskog presjeka prikupljaju se u isto (ili u približno isto) vrijeme.
Prikuplja se ista vrsta podataka za više jedinica npr. noćenja turista u siječnju o.g. po županijama.
VREMENSKA SERIJA
Podaci se prikupljaju za određeno vremensko razdoblje (npr. 10 godina). Npr. izvoz iz Hrvatske
tijekom posljednjih 10 godina.
PANEL
Npr. godišnji podaci o BDP-u, izvozu i uvozu za Hrvatsku, Sloveniju i Mađarsku u razdoblju od 10
godina.
IZVORI PODATAKA
POPULACIJA I UZORAK
Populacija (ili osnovni skup) je cjelovit skup svih elemenata (vrijednosti) koji zanimaju istraživača.
OBILJEŽJA
Parametar je specifično obilježje populacije. Npr. prosječna starost svih studenata Fakulteta.
Statističko obilježje (eng. statistic) je specifično obilježje uzorka. Npr. prosječna starost uzorka
studenata Fakulteta.
Primjeri populacije:
Svi stanovnici Hrvatske. Sva domaćinstva u Primorsko-goranskoj županiji. Sve dionice kojima se trguje
na Zagrebačkoj burzi. Svi studenti Ekonomskog fakulteta u Rijeci.
Svaki element populacije bira se slučajnim izborom, ima jednaku mogućnost biti
izabran, svaki mogući uzorak veličine n ima jednake mogućnosti biti izabran.
SUSTAVNI UZORAK
Članovi populacije moraju biti poredani na način koji nije u vezi s predmetom interesa.
Izabere se svaki k-i element iz populacije: k=N/n
GRANE STATISTIKE
Statističke metode se rabe za analizu i istraživanje podataka kako bi se otkrili neočekivani odnosi.
Metode informacijskih sustava rabe se za prikupljanje i obradu podataka svih veličina, uključujući i
velike skupove podataka koja bi inače bilo teško učinkovito procijeniti.
Upravljanje ljudskim resursima – razumijevanje odnosa između pokretača ljudskih resursa, ključnih
poslovnih rezultata, vještina zaposlenika, sposobnosti i motivacije.
Financijska analiza – određivanje zašto se događaju određeni trendovi kako bi se prognozirala buduća
financijska okolina.
1. KVALITATIVNI PODACI
a. Tablice-distribucija frekvencija (1 varijabla), tablica kontingence (2+ varijabli)
b. Grafikoni-jednostavni stupci, strukturni krug, Paretov dijagram-1 varijabla
-višestruki (dvostruki) stupci-2+ varijable
2. KVANTITATIVNI PODACI
a. Uređeni niz-dijagram točaka, S-L dijagram
b. Distribucija frekvencija-histogram, poligon frekvencija (pojedinačne varijable)
-dijagram rasipanja (istraživanje odnosa među varijablama)
c. Kumulativna distribucija-kumulanta
Prikazuje broj opažanja za svaku kombinaciju dviju (ili više) kvalitativnih varijabli
r redaka i c stupaca-tablica kontingence reda r x c
PARETOV DIJAGRAM
DISTRIBUCIJA FREKVENCIJA
Distribucija frekvencija je popis ili tablica koja sadrži razrede (klase) ili grupe (kategorije ili raspone
podataka) i pripadajuće frekvencije.
Broj razreda ovisi o veličini uzorka, veći uzorak uobičajeno ima veći broj razreda.
Širina razreda-formula:
KOLIKO RAZREDA?
Puno razreda (uski intervali)-Može dovesti do prilično „nazubljene” distribucije s „rupama” za prazne
razrede.
Malo razreda (široki intervali)-Može previše sažeti varijacije i dovesti do „kockaste” distribucije
POLIGON FREKVENCIJA
Linijski grafikon
Na apscisi se prikazuje sredina razreda.
Na ordinati se prikazuju frekvencije, relativne
frekvencije ili postoci.
Dodaje se i jedan razred prije prvog razreda, te jedan razred nakon posljednjeg razreda.
Frekvencije nadodanih razreda su 0
DIJAGRAM RASIPANJA
DESKRIPTIVNA STATISTIKA
BROJČANE MJERE
ARITMETIČKA SREDINA
Izdvojenice (engl. outliers) su ekstremne vrijednosti koje su netipično male ili netipično velike
Razlozi za pojavu izdvojenica su različiti, npr.:
• rijedak podatak
• krivo razvrstavanje podataka u grupu
• pogreška mjerenja
• pogreška unosa podataka
Izdvojenice mogu značajno utjecati na veličinu prosjeka pa s takvim utjecajem prosjek može
biti loša mjera centralne tendencije
„UREĐENI” PROSJEK
Sa ciljem da se odstrani utjecaj netipično malih i/ili velikih vrijednosti podataka, može se ukloniti, tj.
„odrezati” postotak malih ili velikih vrijednosti u skupu podataka.
MEDIJAN (Me)
Ukoliko niz podataka sadrži izdvojenice, umjesto aritmetičke sredine prikladnije je koristiti
medijan.
MEDIJAN je mjera položaja koja niz podataka uređenih po veličini dijeli na dva jednakobrojna
dijela. Ubraja se u skupinu pokazatelja koji se nazivaju kvantili.
KVANTILI su vrijednosti koje niz uređenih podataka dijele općenito na q jednakih dijelova.
Za izračun medijana potrebno je prvo podatke urediti po veličini. Zatim se izračunava
medijalna točka.
PREDNOSTI MEDIJANA:
NEDOSTACI MEDIJANA:
MOD (Mo)
PREDNOSTI MODA:
Kvartili
Harmonijska sredina
Geometrijska sredina
KVARTILI
Osim medijana, koji niz uređenih podataka po veličini dijeli na dva jednaka dijela, koriste se
još neke mjere položaja.
Kvartili (engl. quartiles ili hinge) niz podataka uređenih po veličini dijeli na četvrtine, a
percentili na stote dijelove.
• Prvi kvartil (Q1) niz dijeli na dva nejednaka dijela tako da prvi dio obuhvaća ¼ podataka, a
drugi dio preostale ¾ podataka.
• Treći kvartil (Q3) niz dijeli na dva nejednaka dijela tako da prvi dio obuhvaća ¾ podataka,
a drugi dio preostalu ¼ podataka.
GEOMETRIJSKA SREDINA
koristi se:
• za izračunavanje stope promjene pojave u vremenu
• kao srednja vrijednost numeričkih podataka
Geometrijska sredina može se koristiti u poslovnoj ekonomiji za određivanje prosječne stope
povrata na ulaganje
MJERE DISPERZIJE (VARIJABILNOSTI)
Varijabilnost podataka mjeri se stupnjem rasipanja, odnosno disperzije oko neke mjere
centralne tendencije.
To su potpune i nepotpune mjere disperzije:
• Raspon varijacije
• Interkvartil
• Varijanca
• Standardna devijacija
• Koeficijent varijacije
• Srednje apsolutno odstupanje
RASPON VARIJACIJE
Najjednostavnija mjera disperzije je raspon varijacije, koji predstavlja razliku između najveće i
najmanje vrijednosti podataka
INTERKVARTIL
BP grafikon sastoji se od pravokutnika (ili kutije, engl. box) čiju veličinu određuju kvartili.
Pravokutnik je podijeljen na mjestu medijana, a iz njega vire „brkovi” do najmanje i najveće
vrijednosti podataka.
Jednostavni BP-dijagram ističe pet vrijednosti:
• medijan
• kvartile
• najmanju vrijednost i najveću vrijednost
Uz BP-dijagram uobičajeno se prikazuje tablica tih pet ključnih pokazatelja tzv. five number
summary (5’S).
BP-dijagram je prikladan za prikaz raspona varijacije i interkvartila te smjera eventualne
asimetrije podataka.
VARIJANCA
STANDARDNA DEVIJACIJA
Srednje apsolutno odstupanje (MAD engl. Mean Absolute Deviation) uzima apsolutne
vrijednosti odstupana xi od aritmetičke sredine.
KOEFICIJENT VARIJACIJE
Mjere oblika distribucije podataka opisuju način na koji su podaci raspoređeni između
najmanje i najveće vrijednosti.
Pokazatelji su:
• Koeficijent asimetrije i
• Koeficijent zaobljenosti
MJERE ASIMETRIJE
EMPIRIJSKO PRAVILO
ČEBIŠEVLJEVO PRAVILO
Čebiševljevo pravilo koristi se za distribucije koje nemaju poznat oblik ili koje nisu zvonolikog
oblika i određuje sljedeće obuhvate podataka:
• Najmanje 75% podataka obuhvaćeno je rasponom µ ± 2σ
• Najmanje 89% podataka obuhvaćeno je rasponom µ ± 3σ
• Najmanje 94% podataka obuhvaćeno je rasponom µ ± 4σ
Kao netipične (izdvojene) vrijednosti najčešće se određuju one koje su izvan granica
aritmetičke sredine ±3 standardne devijacije te je takve vrijednosti potrebno dodatno
analizirati.
ANALIZA VREMENSKIH NIZOVA
Grafičkim prikazom vremenskih nizova postiže se jasnija i preglednija slika kretanja vrijednosti
promatran pojave kroz vrijeme.
• linijskim grafikonom
• površinskim grafikonom (obično su to stupci koji su naslonjeni jedan na drugi, jer vrijeme
teče kontinuirano).
• linijskim grafikonom.
POKAZATELJI DINAMIKE
U svrhu definiranja kretanja vrijednosti neke pojave u vremenu koriste se apsolutni i relativni
pokazatelji:
• relativan odnos između dva ili više stanja jedne te iste pojave na dva različita mjesta ili u dva
različita vremenska intervala
Podjela indeksa:
indekse je lako izračunati kako iz apsolutnih podataka, tako i iz koeficijenata ili samih indeksa
- ukratko iz svih vrsta statističkih podataka i pokazatelja
indeksi daju zornu sliku o veličini relativnih promjena pojava u vremenu
s obzirom da su indeksi neimenovani brojevi, moguće je uspoređivati indekse raznovrsnih
pojava, čija usporedba inače ne bi bila moguća zbog različitih mjernih jedinica
Individualni indeksi su relativni pokazatelji dinamike kretanja vrijednosti pojave vremenskog niza i
njima se uspoređuje stanje jedne pojave u različitim vremenskim intervalima ili momentima.
verižne indekse
bazne indekse.
VERIŽNI INDEKSI
Verižni indeksi su relativni brojevi koji pokazuju promjene stanja pojave u uzastopnim
razdobljima.
Verižni indeks (Vt) računa se tako da se vrijednost frekvencije vremenskog niza podijeli s
vrijednosti prethodnog razdoblja i omjer pomnoži sa 100
Oduzme li se od verižnih indeksa 100, razlika pokazuje iznos relativne promjene razine pojave
u uzastopnim razdobljima.
Verižni indeksi grafički se prikazuju jednostavnim stupcima ili specifičnim linijskim
grafikonom.
Bazni indeksi (It) mjere promjenu razine pojave u relativnom iznosu prema razini pojave u
razdoblju izabranom za bazu usporedbe
Za bazno razdoblje treba uzeti vrijeme u kojemu pojava nije bila izložena neuobičajenim
utjecajima.
Indeksi na stalnoj bazi ili bazni indeksi pokazuju relativne promjene (u %) pojave u tekućem
razdoblju u odnosu na neko odabrano bazno razdoblje. Ako se od baznih indeksa oduzme
100, onda rezultat pokazuje za koliko % se vrijednost pojave u jednom razdoblju promijenila
u odnosu na odabrano bazno razdoblje.
Bazni indeksi se tumače u postotcima tako da se od njih oduzme 100.
Pri provođenju statističke analize u praksi treba pažljivo birati bazno razdoblje jer se
pogrešnim izborom mogu dobiti iskrivljene predodžbe o dinamici pojave.
Ako se na primjer za bazno razdoblje odabere takvo razdoblje u kojemu je vrijednost pojave
najmanja u nizu, izračunati bazni indeksi će pokazivati porast u odnosu na bazu.
Ako se, suprotno, za bazno razdoblje odabere ono u kojemu je vrijednost pojave najveća u
nizu, bazni indeksi će pokazivati stalan pad u odnosu na izabranu bazu. Na taj način se u
praksi može manipulirati podacima.
TUMAČENJE INDEKSA
Kod tumačenja indeksa korisnici često ne znaju kada upotrebljavati postotke, a kada
indeksne poene.
Pravilo je jednostavno: kada se tumači vrijednost samo jednog indeksa koriste se postoci, a
kada se uspoređuje vrijednost dvaju indeksa razlika se iskazuje u indeksnim poenima.
Znači da je Laspeyresov indeks za 1,8 indeksna poena veći od Paascheovog indeksa (110,4%-
108,6%=1,8 indeksna poena).
Ako se istražuje jakost statističkih veza – stupanj statističke povezanosti između pojava –
primijenit će se korelacijska analiza
Ako je svrha analitički (jednadžbom) izraziti odnos između pojava ocjenjivat će se regresijski
modeli
Model koji sadrži jednu zavisnu i jednu nezavisnu varijablu naziva se modelom jednostavne
regresije, a model s dvije ili više nezavisnih varijabli model višestruke regresije.
Regresijska i korelacijska analiza provode se na osnovi stvarnih vrijednosti pojava (varijabli),
tj. prikupljenih podataka o analiziranim pojavama.
Povezanost pojava može biti:
• funkcionalna (matematička) – veze se mogu predočiti izrazima na temelju kojih se točno
utvrđuje vrijednost jedne za danu vrijednost druge (drugih) vrijednosti: Y = f (X )
• statistička – jednoj vrijednosti jedne pojave odgovara više vrijednosti druge (drugih)
pojava
DIJAGRAM RASIPANJA
Za određivanje oblika regresije kao vrlo prikladno, a jednostavno sredstvo koristi se dijagram
rasipanja.
Stoga je polazna točka u korelacijskoj i regresijskoj analizi izrada dijagrama rasipanja.
Dijagram rasipanja je grafički prikaz točaka u koordinatnom sustavu koje predstavljaju niz
uređenih parova (x1, y1), (x2, y2), …, (xn, yn); pri čemu su xi vrijednosti jedne nezavisne
varijable (X), a yi, vrijednosti zavisne varijable (Y).
Iz rasporeda točaka može se zaključiti o obliku, smjeru i jakosti veze, odnosno jesu li varijable
korelirane ili nisu.
• Pozitivan ili izravan odnos između dvaju varijabli je odnos između dviju varijabli u kojem ako
jedna varijabla raste i druga varijabla raste i obratno.
• Svi linearni odnosi s pozitivnim nagibom (smjerom) su izravni odnosi.
• Inverzan ili negativan odnos je odnos između dviju varijabli u kojem jedna varijabla raste dok
se druga smanjuje i obratno.
• Svi linearni odnosi s negativnim nagibom (smjerom) su inverzni odnosi.
• Nelinearan (krivolinijski) odnos između dvije varijable
• Nema povezanosti između dvije varijable
KOVARIJANCA
r Tumačenje
0 Odsutnost veze
0 – (±0,5) Slaba veza
(±0,5) – (±0,8) Veza srednje jakosti
(±0,8) – (±1) Jaka veza
±1 Potpuna veza
Ispitivanje stupnja veze između pojava danih u obliku modaliteta redoslijedne (ordinalne, rang)
varijable nije moguće na isti način kao i za varijable dane u obliku numeričkih nizova (kvantitativna
varijabla), jer varijable ranga nemaju za to potrebna metrička svojstva. Stoga se koriste
neparametrijske metode.
Vrijednosti dviju rang varijabli rangiraju se po veličini, a povezanost njihovih rangova mjeri se
Spearmanovim koeficijentom korelacije ranga
MODEL JEDNOSTAVNE LINEARNE REGRESIJE
b0 je očekivana vrijednost zavisne varijable (y) kada je vrijednost nezavisne varijable (x)
jednaka nuli (x=0).
b1 pokazuje prosječnu promjenu zavisne varijable (y) kada se nezavisna varijabla (x)
promijeni za jedinični iznos
Metoda najmanjih kvadrata je procedura kojom se, na temelju podataka iz uzorka, ocjenjuje
regresijska jednadžba, odnosno parametri b0 i b1
Metoda najmanjih kvadrata koristi podatke uzorka za procjenu vrijednosti b0 i b1 za koje zbroj
kvadrata odstupanja između stvarnih vrijednosti zavisne varijable yi i procijenjenih vrijednosti zavisne
varijable postiže minimum
Analiza varijance u modelu jednostavne linearne regresije (ANOVA) polazi od raščlambe zbroja
kvadrata odstupanja vrijednosti zavisne varijable od njezina prosjeka (SST) na komponentu
protumačenu modelom (SSR) i neprotumačenu (SSE) ili rezidualnu komponentu:
Broj stupnjeva slobode općenito se odnosi na broj nezavisnihopažanja u uzorku minus broj
populacije koji se moraju procijeniti iz podataka uzorka.
KOEFICIJENT DETERMINACIJE
Na ovaj način ne dobiva se njegov predznak, već se predznak određuje prema predznaku regresijskog
koeficijenta b1:
Prije početka modeliranja, preporuča se grafički prikazati podatke. Na taj se način može brzo
procijeniti postoji li među podacima linearan odnos.
• Linearnost trenda može se uočiti iz grafikona. Ako varijabla X (vrijeme) ima linearni odnos s Y
onda će se točke, koje prikazuju parove njihovih vrijednosti, nakupljati oko ravne linije.
• Ako je prisutna krivulja, koristiti nelinearni trend
MODEL TRENDA
ako model uključuje vrijednost X=0, b0 pokazuje vrijednost varijable Y za X=O, odnosno b0 je
očekivana vrijednost vremenskog niza u ishodišnom razdoblju
ako model ne uključuje X=0, b0 nema posebno značenje u regresijskom modelu.
pokazuje prosječnu linearnu promjenu zavisne varijable Y kada nezavisna varijabla (vrijeme)
poraste za jedinicu X.
Cilj regresijske analize je ocijeniti nepoznate parametre b0 i b1, koji pokazuju kako promjene
nezavisne varijable (vrijeme) utječu na vrijednosti zavisne varijable.
Jedan od načina provjere je da se grafički prikaže standardna pogreška u odnosu na zavisnu varijablu
Y.
Prilikom izrade modela možete se zapitati koji statistički testovi mogu pokazati je li model dobar. Ne
postoji jedan točan odgovor. Pokazatelji koji se najčešće koriste:
MSE – Prosječna kvadratna pogreška – ili varijanca regresije je aritmetička sredina kvadrata
rezidualnih odstupanja.
Standardna pogreška procjene – ili standardna devijacija trenda je pozitivan drugi korijen iz
varijance. Treba biti manja u usporedbi s drugim modelima. Vrijednost će ovisiti o vrijednosti
varijable Y koja se modelira. Znači, usporedba je moguća samo s drugim modelima koji imaju
jednaku zavisnu varijablu.
R2 – Koeficijent determinacije – je proporcija modelom protumačenog dijela zbroja kvadrata
odstupanja u ukupnom zbroju kvadrata odstupanja. Ova vrijednost treba biti što viša
Osnovno obilježje ekstrapolacije trenda je da su buduće vrijednosti bilo koje varijable “određene
isključivo svojim povijesnim vrijednostima."
Osnovna procedura:
Prednosti:
Nedostaci: