You are on page 1of 15

Pojam i uloga statistike

Statistika je grana primijenjene matematike koja se bavi zakonitostima koje važe za slučajne događaje

- Skup numeričkih i grafičkih metoda koje koristimo zbog opisivanja, sažetog prikazivanja,
analiziranja i objašnjavanja nekih masovnih pojava

Statistička pismenost – nameće se kao obrazovni cilj zajedno s drugim oblicima građanske pismenosti
(zbog manipuliranjima statističkim rezultatima ili netočnih interpretacija medija)

Deskriptivna statistika – omogućava prikazivanje većeg broja podataka kako bsmo podatke prikazali
na sažet, razumljiv i logičan način

Inferencijalna / induktivna statistika – omogućava generaliziranje nalaza dobivenih mjerenjem na


ograničenom broju entiteta; zaključivanje o populaciji na temelju podataka prikupljenih na
reprezentativnom uzorku

Osnovni statistički pojmovi

Pojam i vrste varijabli

Varijabla – promjenjiva veličina koja može poprimiti različite vrijednosti iz nekog definiranog intervala

- Suprotni pojam konstanta – sva mjerenja daju isti rezultat

Podatak – rezultat dobiven mjerenjem na nekoj varijabli

Razine ili skale mjerenja

1. Nominalna
- Razvrstavanje slučajeva na temelju nekog atributa u grupe, klase ili kategorije
- Vrijednost nominalnog obilježja  naziv, ime, kategorija
- Mora omogućiti razvrstavanje svih slučajeva, svaki slučaj se mora moći klasificirati u jednu
kategoriju
- Brojevi imaju ulogu oznake  arbitrarno, nemaju pravu numeričku vrijednost
- Nisu dopuštene standardne računska operacije
- Ne označava redoslijed, ni intenzitet

2. Ordinalna (skala rangova)


- Prikazuje relativni stupanj izraženosti nekog svojstva
- Podaci se mogu međusobno usporediti i rangirati
- Brojevi pokazuju višu ili nižu poziciju na skali, ali te razlike ne izražavaju precizno
- Nema ekvidistalne jedinice mjerenja (nisu jednako udaljene)
- Ne primjenjuju se aritmetičke operacije

3. Intervalna
- Nudi informaciju o redoslijedu i razlici brojeva na skali
- Poznat je rang i stupanj izraženosti podataka
- Primjereno je korištenje osnovnih aritmetičkih operacija (osim množenja i dijeljenja)
- Nema apsolutnu nulu  nula je arbitrarna

4. Omjerna
- Informacija o redoslijedu, razlici, ima apsolutnu nulu
- Smiju se koristit sve osnovne aritmetičke operacije

Ostale klasifikacije varijabli

a) Kvalitativne – oznake i brojevi koje pridružujemo entitetima ne predstavljaju mjeru količine


(nominalne i ordinalne)
Kvantitativne – brojevi koje pridružujemo entitetima predstavljaju mjeru količine (intervalne i
omjerne)
o Diskontinuirane kvantitativne  mogu poprimiti samo neke vrijednosti iz određenog
intervala, između njih postoji skokovit prijelaz
o Kontinuirane kvantitativne  teorijski mogu poprimit bilo koju vrijednost iz
određenog intervala
b) Nezavisna varijabla – ona koja utječe
Zavisna varijabla – ona koja se mijenja pod utjecajem nezavisne

Uređivanje i prikazivanje statističkim podacima

Grupiranje podataka

- Grupiranje podataka prema modalitetima (kategorijama ili vrijednostima) promatrane


varijable tako da u pojedinim skupinama budu oni elementi statističkog skupa koji su istog ili
sličnog modaliteta varijable prema kojoj je izvršeno grupiranje

- Postupak grupiranje mora bit izvršen prema načelima:


o Iscrpnosti – svaki element mora se moći razvrstati u neki podskup
o Isključivosti – jedan element smije biti razvrstan u samo jedan podskup

- Frekvencije (f) pojedinih modaliteta dobivaju se prebrojavanjem


o Apsolutna frekvencija – ukupan broj pojavljivanja nekog modaliteta u osnovnom
skupu
o Relativna frekvencija – omjer apsolutne frekvencije i opsega statističkog skupa

Formiranje statističkih nizova

- Statistički niz je niz različitih modaliteta neke varijable, poredanih prema odgovarajućem
pravilu, s pripadajućim frekvencijama

Vrste:
- Nominalni niz
o U istu grupu svrstavaju se elementi jednog modaliteta nominalne kategorije
o Jednostavno je ako ima mali broj kategorija
o Poredak je arbitraran
- Ordinalni niz
o Isto kao i nominalni nizovi
o Redoslijed grupa je bitan
o Nastaje na temelju rangova ordinalne varijable

- Numerički niz
o Za diskontinuirane kvantitativne varijable koje mogu poprimiti manji broj vrijednosti
 svaka brojčana vrijednost je zasebna grupa
o Ako je broj različitih vrijednosti velik  susjedne brojčane vrijednosti se svrstavaju u
grupe

- Kumulativne frekvencije / kumulativni niz – dobiva se ako se frekvencije uzastopnih razreda


redom zbrajaju (samo za ordinalni ili numerički niz)

o niz „manje od“ – rastući kumulativni niz;


zbrajanje frekvencija od prve (najmanji
rezultat) do posljednje (najveći rezultat)
o niz „više od“ – padajući kumulativni niz;
zbrajanje frekvencija od posljednje do
prve

Statističke tablice

- Treba biti što jednostavnija


- Opis tablice iscrpan, jasno odijeljen od tijela tablice
- Za pisanje brojeva – decimalan zarez

Vrste:
- Jednostavne
o Jedan statistički niz na temelju modaliteta jedne varijable
- Kombinirane (kontingencijske)
o Jedan statistički niz promatran prema dva ili više modaliteta neke druge varijable
- Skupne
o Više statističkih nizova nastalih grupiranjem elemenata različitih statističkih skupova
prema istom obilježju

Grafičko prikazivanje podataka

- Površinski grafikon
o Stat. Veličine prikazane geometrijskim likovima  površine razmjerne frekvencijama
o Vrste:
 Jednostavni stupci
 Dvostruki stupci
 Razdijeljeni stupci
 Strukturni krug
 Histogram frekvencije

- Linijski grafikon
o Prikazivanje distribucija frekvencija i dinamike pojava  točke prikazuju frekvencije

- Kartogram
o Grupiranje podataka prema geografskom obilježju
o Geografski nominalni nizovi
o Vrste:
 Dijagramska karta
 Piktogramska karta
 Statistička karta

 Histogramom i poligonom frekvencija prikazujemo apsolutne, relativne i kumulativne


frekvencije
 Kvalitativni podaci – površinski grafikoni

Mjere centralne tendencije

- Srednje vrijednosti
- Numerički pokazatelj koji reprezentira niz podataka koji
tvore neki statistički skup
- Podaci se gomilaju/tendiraju oko te vrijednosti
- Potpune – računaju se na temelju vrijednosti svih podataka
- Položajne – određuju se na temelju središnjeg položaja / učestalosti pojavljivanja

a) Aritmetička sredina

X
x
N
- Omjer sume rezultata i broja rezultata
- Za kvantitativne varijable; može i za omjerne (samo ako je normalna distribucija, održiva
pretpostavka o ekvidistanci)
- Što je broj rezultata veći, manji je doprinos pojedinog rezultata
- Treba paziti na ekstremne vrijednosti  tada nije dobar pokazatelj srednje vrijednosti

- Jednostavna – svi rezultati se zbroje i podijele sa brojem rezultata


- Vagana – svakom rezultatu daje se težina ovisno o učestalosti

b) Medijan / centralna vrijednost

 pozicija centralne vrijednosti


- C, Md
- Vrijednost točno na sredini niza podataka poredanih po veličini
- Dijeli niz na dva jednaka dijela
- Prihvatljiv za ordinalne varijable

c) Mod / dominantna vrijednost


- D, Mo
- Rezultat koji se najčešće pojavljuje
- Mora postojati barem dva jednaka podatka
- Mogu biti bimodalne ili multimodalne  mod se ne računa jer nije reprezentativan
- Najfrekventniji/ najvjerojatniji rezultat  dominira učestalošću pojavljivanja
- Za sve skale
- Prednosti: ekstremne vrijednosti ne utječu na mod, koristi se za sve vrste varijabli
- Nedostatci: nepouzdan kod asimetričnih distribucija, osjetljiv na način grupiranja, osjetljiv na
višedimenzionalne distribucije

Mjere disperzije (raspršenja i varijabilnosti)

- Apsolutne – raspršenje iskazano istom jedinicom kao


i rezultati
- Relativne – raspršenje iskazano relativno

a) Raspon varijacija
- Razlika najvećeg i najmanjeg rezultata

b) Kvartili
- Vrijednosti koje niz podataka poredanih po veličini dijele na četiri jednaka dijela
- Q1 – donji kvartil
- Q2 – medijan
- Q3 – gornji kvartil

- Interkvartil – raspon varijacija središnjih 50% rezultata

- Kvartilna devijacija – poluinterkvartilno raspršenje

- Decil – 10 jednaki dijelova


- Centil – 100 jednakih dijelova

c) Aritmetička devijacija (srednje odstupanje)


- prosječno odstupanj rezultata od aritmetičke sredine

d) Varijanca

-
- S  uzorak
- σ  populacija
- prosječno kvadratno odstupanje rezultata od aritmetičke sredine

e) standardna devijacija

σ (X − 𝑋ത)2
𝜎=ඨ
𝑁
-
- S  uzorak
- σ  populacija
- pozitivni drugi korijen iz varijance
- prosječno odstupanje rezultata od aritmetičke sredine

Distribucije

Distribucija prikazuje frekvenciju kojom se pojavljuju pojedini rezultati nekog skupa poredani po
veličini

- Pokazuje: modalnost, raspon, jednolikost, simetričnost i zaobljenost distribucije

- Empirijske distribucije – formirane mjerenjem


- Teorijske distribucije – očekivane na temelju nekih teorijskih postavki
o Diskontinuirane – poprimaju prebrojivo mnogo vrijednosti
o Kontinuirane – poprimaju bilo koju vrijednost
- Statistik – vrijednost iz uzorka
- Parametar – vrijednost populacije

Normalna distribucija

- Obilježja:
o Zvonolika
o Unimodalna
o Aritmetička sredina jednaka medijanu i modu
o Bilateralno simetrična simetričnost s obzirom na aritmetičku sredinu
o Mezokurtična

- Distribuciju rezultata određuju aritmetička sredina i standardna devijacija

- Oblik krivulje

Mjera simetrije (skewness)

o Asimetrična je kada se podaci gomilaju oko manje (pozitivno asimetrična) ili veće
(negativno asimetrična) vrijednosti od sredine raspona varijacija
o Jako pozitivna α3 = +2, jako negativna α3 = -2
o Simetrične distribucije je α3 = 0

Mjera zaobljenosti (kurtosis)

o Leprokurtična  visoka i skinny α4 > 3


o Platikurtična  spljoštena, široka α4 < 3
o Mezokurtična  normalna distribucija α4 = 3

- Površina ispod krivulje p=1


- Aritmetička sredina = 0
- Standardna devijacija = 1

Z-vrijednost
- Standardizacija – omogućuje da se rezultati različitih normalnih distribucija izraze u obliku u
kojem su usporedivi
- Oblik početne distribucije se ne mijenja, ne pretvara se u normalnu
- z = (X – μ) / σ

- Rješenja traži u tablici


- Kada se traži površina ispod krivulje  z vrijednosti na suprotnim stranama se zbrajaju, a na
istim oduzimaju

Uvod u inferencijalnu statistiku

- Zaključivanje o populaciji; generalizacija podataka dobivenih na uzorku


- Testira hipoteze i vrši statističke procjene

Vrste testova:

- Parametrijski – normalno distribuirane intervalne ili omjerne varijable


- Neprametrijski – za distribucije koje nisu normalne ili nominalne i ordinalne varijable

Uzorak

- Uzorkovanje je odabir nekih elemenata iz populacije prema određenim pravilima, s ciljem da


uzorak posluži za procjenu ili predviđanje obilježja populacije
- Okvir uzorkovanja je popis svih elemenata populacije na temelju kojeg je sačinjen uzorak

Statističke procjene

- Procjene vrijednosti – vrijednost statistika uzima se kao vrijednost parametra


- Procjena intervala – procjenjuje interval koji obuhvaća parametar populacije

- Sampling distribucija – distribucija statistika uzorka koje bismo dobili kad bismo iz neke
populacije selektirali sve moguće uzorke određene veličine i za svaki od njih izračunali dani
statistik
- Normalno distribuirana  što je veći broj uzorka to je normalnija
- Tendira normalnoj distribuciji čak i ako distribucija populacije nije normalna
Standardna pogreška aritmetičke sredine

- Procjena standardne pogreške aritmetičke sredine

Interval pouzdanosti

- Raspon vrijednosti u kojem se uz određenu vjerojatnost nalazi parametar


- Rizik da će procjena parametra bit pogrešna

 interval pouzdanosti aritmetičke sredine


- Cl – procijenjeni interval
- Može se uvrstiti ona formulica za standardnu pogrešku aritmetičke sredine

- Z-vrijednosti za pojedine razine rizika


o 90%  1,645
o 95$  1,96
o 99%  2,58

Pojam i vrste hipoteze

Hipoteza je tvrdnja koja dovodi u odnos svije varijable

- Nulta hipoteza H0 - nema razlike ili povezanosti među varijablama


- Neusmjerena alternativna hipoteza H1 – postoji razlika ili povezanost među varijablama
- Usmjerena alternativna hipoteza H1 – govori o povezanosti i smjeru veze
- Nultu hipotezu prihvaćamo ako je testovni statistik manji od granične tablične vrijednosti

- Nezavisni uzorci – svaki slučaj pripada svojoj grupi; odabir elementa jednog uzorka nije
određen odabirom elementa drugog skupa
- Zavisni uzorci – ispitanici su prisutni u više grupa; odabir elementa jednog uzorka određen je
odabirom elementa drugog uzorka
Vrste pogrešaka

- Pogreška tipa 1
o Pogrešno odbacivanje točne nulte hipoteze
o Ako smanjimo sa 0.05 na 0.01  manja vjerojatnost da ćemo pogrešno odbaciti
nultu hipotezu
- Pogreška tipa 2
o Pogrešno prihvaćanje netočne nulte hipoteze
o Ako se smanjuje vjerojatnost prve, povećava se vjerojatnost druge pogreške 
inverzno povezane

Snaga statističkog testa – vjerojatnost odbacivanja nul-hipoteze kada je neistinita, odnosno


prihvaćanje kada je istinita

T-Test

- Parametrijski test
- Uspoređuje aritmetičke sredine dvaju grupa
- Nezavisna varijabla  nominalna
- Zavisna varijabla  kvantitativna

- One-sample, independent samples, dependent samples


- T-distribucija
- Sampling distribucija
- Stupnjevi slobode  t distribucija sličnija normalnoj što je veći broj stupnjeva slobode
- P<0.05  statistički značajno  | t | > 1,96 (kada je testovni statistik veći od granične
vrijednosti)

- One-sample  aritmetička sredina vrijednosti i neka fiksna vrijednost 


- Za nezavisne uzorke ovisi jesu li varijance homogene (podjednake)
o F-test
o Ako je dobiveni F veći od granične vrijednosti odbacujemo nul-hipotezu  nisu
homogene

Analiza varijance

- Parametrijski test
- Usporedba aritmetičkih sredina dvaju ili više grupa
- Zavisna varijabla  omjerna ljestvica
- Nezavisna varijabla  nominalna ljestvica
- H0  sve grupe pripadaju istoj populaciji

- Varijabilitet unutar grupa  unutargrupni varijabilitet  odstupanje rezultata od aritmetičke


sredine grupe
- Varijabilitet između grupa  međugrupni varijabilitet  odstupanje aritmetičke sredine
uzorka od zajedničke aritmetičke sredine svih rezultata u svim grupama

- Međugrupne > unutargrupne  razlika je statistički značajna; nisu populacije s istim


aritmetičkim sredinama

- Izračuna se formulica, dobiju se varijance koje se uvrštavaju u F-test


- Međugrupni i unutargrupni varijabilitet računa se F-testom
- P<0.05  statistički značajna razlika
Post-hoc testovi

- Govore među kojim grupama su razlike statistički značajne

Korelacijska analiza

- Govori o stupnju povezanosti


- Povezanost znači da je veličinu jedne varijable moguće predvidjeti na temelju poznavanja
veličine druge varijable
- Ne ukazuje na kauzalnost

Koeficijent korelacije

- Smjer  pozitivan ili negativan


- Veličina  -1 do +1
- Crta regresije

 Pearsonov koeficijent r
- Parametrijski
 Spearmanov p
- Neparametrijski

P<0.05  povezanost je statistički značajna

2  
 f o  f t 2
χ2–test
ft
- Hi-kvadrat test
- Neparametrijski test
- Koristi se samo na frekvencijama  ukazuje odstupa li naša distribucija od očekivane

- Ft  očekivane/teorijske frekvencije
- Fo  opažene frekvencije
- P<0.05 razlika statistički značajna  χ2< χ2gr

You might also like