Professional Documents
Culture Documents
Statistika
Što je statistika ?
Znanstvena disciplina koja proučava postupke
prikupljanja, uređivanja, analize tumačenja
(interpretacije) podataka za izvedbu zaključaka o
pojavama, procesima i sustavima izloženim
nesigurnostima i varijacijama
Deskriptivna statistika i statističko zaključivanje
• Osmišljavanje eksperimenta (engl. experimental
design) je grana statistike koja se bavi načinima
objektivnog prikupljanja odnosnih podataka vazanih
za rješavanje promatranog problema
• Deskriptivna (opisna) statistika je grana statistike
koja se bavi određivanjem, opisivanjem i
predočavanjem karakteristika prikupljenih podataka
• Statističko zaključivanje je grana statistike koja se
bavi vrednovanjem informacija izvedenih iz
podataka o uzorkku radi donošenja zaključaka o
populaciji, kao izvedbom znanja dobivenih iz
karakteristika prikupljenih podataka (razvoj modela)
Statističke mjerne skale
• Mjerenjem prikupljeni podatci očitavaju se u
karakterističnim statističkim mjernim skalama.
• Nominalna mjerna skala-pridjeljuje statističkim
obilježjima vrijednosti opisne prirode
• Ordinalna mjerna skala-sadrži vrijednosti
redoslijedne prirode, koje omogućuju ocjenjivanje i
rangiranje
• Intervalna mjerna skala-sadrži numeričke vrijednosti u
unaprijed definiranom području zajedno sa
metrikom za njihovu usporedbu
• Omjerna mjerna skala-sadrži vrijednosti određene
na način da jednake razlike u vrijednostima
predstavljaju jednake razlike u statističkom obilježju
Upoznavanje s prirodom procesa putem statističke
analize podataka
• Formulirati problem
• Upoznati se s podatcima
• Provjeriti stacionarnost ako se radi o vremenskom
nizu
• Napraviti eksploratornu (opisnu) analizu radi
upoznavanja s prirodom procesa, pojave ili sustava
• Postoje li iznimke (engl. outliers)?
• Zaključiti o nastavku postupka
s=
√ ∑ ( x−x)2
n−1
2.Predavanje
Primijenjena statistika
Postupak postava hipoteze
• Razmotriti problem i postaviti pretpostavke.
• Postaviti nul-hipotezu i alternativnu hipotezu (nulhipoteza
je uobičajeno mišljenje ili specifična
vrijednost parametra).
• Izračunati vrijednost statističkog testa uvažavajući
dane podatke
• Temeljem vrijednosti statističkog testa I distribucije
te uvažavanjem preptostavki odrediti p-vrijednost
statističkog testa
• Odbaciti ili prihvatiti nul-hipotezu, ovisno o pvrijednosti
i prethodno određenoj razini značajnosti
Raspodjela po kvartilima:
nulta xmin -Q0
prva 25% - Q1
druga median-Q2
treća 75%-Q3
ćetvrta xmax-Q4
Studentova t razdioba
Gama-funkcija
• Poopćenje faktorijele na pozitivne realne brojeve
Gamma-razdioba
• Parametri: parametar oblika (α), parametar razmjera (1/β = λ)
Parametri vezani za obilježja statističke varijable
• Aritmetička srednja vrijednost = αβ
• Varijanca = αβ2
Poissonova razdioba
• Statistička razdioba diskretne statističke varijable, daje vjerojatnost dobivanja
zbroja opažanja, ako je
Opažanja
• Neprerađeni, sirovi podatci,
dobiveni mjerenjima (mjernim
instrumentima, postupcima,
anketama, preuzeti od trećih
strana) → subjektivni, s
pogreškama kao rezultat
utjecajnih veličina
Postavljanje hipoteze
• 1. Definirati problem (postaviti pitanje)
• 2. Napraviti pregled prethodnih spoznaja o problemu
• 3. Postaviti hipotezu
• 4. Osmisliti pokus (eksperiment) kojim će hipoteza biti
testirana
• 5. Analizirati prikupljene eksperimentalne podatke te
izvesti zaključak o prihvatljivosti hipoteze
• 6. Predstaviti rezultat istraživanja
Postavljanje hipoteze
• Neka je promatrano obilježje neke populacije X.
Statistička hipoteza je bilo koja pretpostavka o
populacijskoj razdiobi X.
• Statistička hipoteza je jednostavna ako
jednoznačno određuje populacijsku razdiobu od X.
• U suprotnom, statistička hipoteza je složena
Postavljena hipoteza je osnovna ili nul-hipoteza
(općeprihvaćena, u inženjerskoj praksi: negacijska)
• Njoj suprotna hipoteza naziva se alternativna hipoteza (u inženjerskoj praksi:
afirmacijska).
• Uobičajeno se za nul-hipotezu uzima ona konzervativnija (prihvaćenija,
uobičajenija) ->
‘nema promjene’
Hipotezu testiramo (provjeravamo) kako bismo donijeli odluku o njenom
odbacivanju ili zadržavanju (do sljedećeg testa/provjere)
• Odluku o odbacivanju donosimo zasnovano na statističkoj analizi uzoraka
populacije (dakle, ne cijele populacije!) -> moguće pogreške u odluci
Postavljanje hipoteze
• Pogreška prve vrste – nul-hipoteza H0 je odbačena
iako je trebala biti zadržana
• Pogreška druge vrste – nul-hipoteza H0 nije odbačena
iako je alternativna hipoteza H1 trebala biti zadržana
Statistički gledano: hipoteza nikad ne može biti prihvaćena, nego tek zadržana
do sljedeće provjere
Pri testiranju (provjeri) hipoteze, važnu ulogu ima vjerojatnost pojave
pogrešaka.
• Može se pokazati kako je za definiranu razinu značajnosti testa α, , među
testovima kod kojih vjerojatnost pogreške prve vrste ne prelazi α moguće
pronaći ili konstruirati testove koji će dati minimalnu pogrešku druge vrste.
• Varijabla α predstavlja vjerojatnost odbacivanja nulte hipoteze.
Pri testiranju (provjeri) hipoteze, važnu ulogu ima
vjerojatnost pojave pogrešaka.
• Može se pokazati kako je za definiranu razinu
značajnosti testa α, , među testovima kod
kojih vjerojatnost pogreške prve vrste ne prelazi α
moguće pronaći ili konstruirati testove koji će dati
minimalnu pogrešku druge vrste.
• Varijabla α predstavlja vjerojatnost odbacivanja nulte
hipoteze kad ona treba ostati zadržana (pogreška
prve vrste)
Uloga α- i p-vrijednosti u provjeri hipoteze
• Testna statistika:
• Statistička značajnost: α
• F(Yi) … kontinuirana teorijska kumulativna razdioba
• H0: opažanja pripadaju referentnoj razdiobi
• H1: opažanja ne pripadaju referentnoj razdiobi
• Kriterij odluke: D veći od kritične vrijednosti iz
tablica ili određene programski (R) - p vrijednost
Shapiro-Wilk test
• Provjerava sukladnost eksperimentalne i normalne
statističke razdiobe (po veličini poredana opažanja)
• Testna statistika:
• Statistička značajnost: α
• X(i) opažanja, ai koeficijenti određeni normalnom razdiobom ekv. oblika
• H0: opažanja pripadaju normalnoj razdiobi
• H1: opažanja ne pripadaju normalnoj razdiobi
• Kriterij odluke: W veći od kritične vrijednosti iz tablica ili određene
programski (R) - p-vrijednost
Asocijacija u statistici
• Predstavlja općenitu povezanost dviju ili više statističkih varijabli (unutar
uzorka, uzoraka, populacije ili populacija)
• Ukoliko je povezanost linearna, ona se naziva korelacija
Korelacija
• Mjera linearne sličnosti uspoređivanih skupova podataka
• Objektivna analiza traži neovisni kriterij sličnosti
• Za vremenske nizove podataka -> sličnost valnih oblika
Koeficijent korelacije
• Koeficijent korelacije dvaju skupova podataka:
{Xi, i = 1, ..., n} i {Yi, i = 1, ..., m}
Mjera sličnosti dvaju skupova podataka
Autokorelacija
• Postupak određivanja koeficijenta korelacije može se primijeniti i na jednom
skupu podataka
• Svrha:
• (i) Procjena frekvencijskog spektra
• (ii) Dva identična vremenska niza, fazno pomaknuti
jedan u odnosu na drugi → mjerenje faznog pomaka
Korelogram
• Dijagram koeficijenata korelacije za parove varijabli iz promatranog skupa
podataka
E je slučajna varijabla
Reziduali su slučajne varijable na koje se primjenjuje statistička analiza →
skupovi reziduala imaju svoje statistike i slijede statističke razdiobe
-između 0 i 1
Fligner-Killeen test
• Neparametarski test (nije vezan za specifičnu statističku razdiobu)
homogenosti varijance.
• Provjera usmjerena na medijan
Kategorička varijabla
• Svaka ne-numerička (ne-brojčana) opisna varijabla
• Pristupi statističke analize radu s kategoričkim
varijablama se razlikuju.
• Kreiranje lažnih varijabli (napr. Crveno → 1, Bijelo
→ 2, Plavo → 3, pa rad s brojčanim vrijednostima)
• Iskorištavanje mogućnosti diskretnih statističkih
razdioba kao statističkih modela
- Kružni dijagram
- Štapićasti dijagram
Tablica slučajeva (engl. contingency table)
-Elementi tablice su brojevi pojavljivanja slučajeva s
vrijednostima dviju varijabli (retci, odnosno stupci)
-Mozaik-dijagram
- Dijagram asocijacija između vrijednosti
- Korelacijski dijagram
Šesto predavanje
Primijenjena statistika
χ2 test
• Test statističke neovisnosti dviju varijabli
• Primjenjiv i na kategoričke varijable predstavljene
tablicom slučaja
• χ2 testna statistika
F- statistika
-odnosi se na iste
formule kao za
koeficijentt
određenja no
njegova je statistika F
Standardna regresija
• Regresijski model s optimalnim izborom značajnih prediktora
• Prediktori poznati iz iskustva ili znanja vezanog za promatranu disciplinu
• Statistička značajnost prediktora smatra se razumljivom i provjerenom
Stepwise regresija
• Primjenjuje se u slučaju kad postoji veći broj prediktora čija statistička
značajnost ne može biti ustanovljena ili provjerena na temelju iskustva i
poznavanja discipline (domensko znanje)
• Iteracijski postupak za uklanjanje prediktora koji ne doprinose točnosti modela
(onih koji nisu statistički značajni)
• Optimizacijski postupak koji ima svoje kriterije
Poopćeni linearni model omogućava modeliranje pojave ili sustava kad nisu
ispunjene pretpostavke za primjenu modela linearne regresije
Jedanaesto predavanje
Primijenjena statistika
Welch t-test
• Slična namjena kao i kod ANOVA-e, uz iznimku
kako NE traži homogenost varijance