Bilješke S Predavanja Statistika

Prvo predavanje
Statistika
Što je statistika ?
Znanstvena disciplina koja proučava postupke
prikupljanja, uređivanja, analize tumačenja
(interpretacije) podataka za izvedbu zaključaka o
pojavama, procesima i sustavima izloženim
nesigurnostima i varijacijama
Deskriptivna statistika i statističko zaključivanje
• Osmišljavanje eksperimenta (engl. experimental
design) je grana statistike koja se bavi načinima
objektivnog prikupljanja odnosnih podataka vazanih
za rješavanje promatranog problema
• Deskriptivna (opisna) statistika je grana statistike
koja se bavi određivanjem, opisivanjem i
predočavanjem karakteristika prikupljenih podataka
• Statističko zaključivanje je grana statistike koja se
bavi vrednovanjem informacija izvedenih iz
podataka o uzorkku radi donošenja zaključaka o
populaciji, kao izvedbom znanja dobivenih iz
karakteristika prikupljenih podataka (razvoj modela)
Statističke mjerne skale
• Mjerenjem prikupljeni podatci očitavaju se u
karakterističnim statističkim mjernim skalama.
• Nominalna mjerna skala-pridjeljuje statističkim
obilježjima vrijednosti opisne prirode
• Ordinalna mjerna skala-sadrži vrijednosti
redoslijedne prirode, koje omogućuju ocjenjivanje i
rangiranje
• Intervalna mjerna skala-sadrži numeričke vrijednosti u
unaprijed definiranom području zajedno sa
metrikom za njihovu usporedbu
• Omjerna mjerna skala-sadrži vrijednosti određene
na način da jednake razlike u vrijednostima
predstavljaju jednake razlike u statističkom obilježju
Upoznavanje s prirodom procesa putem statističke
analize podataka
• Formulirati problem
• Upoznati se s podatcima
• Provjeriti stacionarnost ako se radi o vremenskom
nizu
• Napraviti eksploratornu (opisnu) analizu radi
upoznavanja s prirodom procesa, pojave ili sustava
• Postoje li iznimke (engl. outliers)?
• Zaključiti o nastavku postupka
• Koraci eksploratorne analize

• Grafički prikaz vrijednosti promatrane varijable
ovisno o rednom broju uzorka ili trenucima
uzimanja uzoraka (vrijeme)
Koraci eksploratorne analize

1---Izračunavanje očekivanja
2---Aritmetička srednja vrijednost
3--- Varijanca
s=
∑ (x−x)2
n−1
4---Standardna devijacija
s=
√ ∑ ( x−x)2
n−1
2.Predavanje
Primijenjena statistika
Postupak postava hipoteze
• Razmotriti problem i postaviti pretpostavke.
• Postaviti nul-hipotezu i alternativnu hipotezu (nulhipoteza
je uobičajeno mišljenje ili specifična
vrijednost parametra).
• Izračunati vrijednost statističkog testa uvažavajući
dane podatke
• Temeljem vrijednosti statističkog testa I distribucije
te uvažavanjem preptostavki odrediti p-vrijednost
statističkog testa
• Odbaciti ili prihvatiti nul-hipotezu, ovisno o pvrijednosti
i prethodno određenoj razini značajnosti
Definicija statističke razdiobe - diskretna slučajna

varijabla
• Slučajna variabla X je diskretna slučajna varijabla s
konačnim skupom mogućih vrijednosti (opažanja),
ako se za svako pojedinačno opažanje xi može
definirati realan broj pi = P(X = xi), zvan vjerojatnost
(pojave) opažanja (ishoda) xi. Statistička razdioba
diskretne slučajne varijable X definirana je skupom
parova (xi, pi = P(X = xi)), uz uvjete:
Definicija statističke razdiobe - neprekidna
(kontinuirana) slučajna varijabla
• Za slučajnu varijablu X kažemo da je neprekidna
(kontinuirana) slučajna varijabla ako postoji
nenegativna realna funkcija f, zadana na skupu
realnih brojeva, takva da je za
Statistička razdioba (distribucija) predstavlja skup
svih opažanja promatranog statističkog obilježja
(statističke varijable
Obilježja statističke razdiobe

• Parametri razdiobe
• Grafički prikaz razdiobe
• Mjere centralne tendencije i raspršenosti statističke
razdiobe
• Analitički opis vjerojatnosti statističke razdiobe
• Gustoća vjerojatnosti razdiobe za zadanu vrijednost
• Kvartila za zadanu vjerojatnost
• Slučajni niz koji slijedi zadanu razdiobu nulta xmin Q0
primjer gaussova razdioba:
Raspodjela po kvartilima:
nulta xmin -Q0
prva 25% - Q1
druga median-Q2
treća 75%-Q3
ćetvrta xmax-Q4
Funkcijska obilježja statističkih razdioba

• Funkcija kumulativne vjerojatnosti (kumulativna vjerojatnost) statistilke
razdiobe – krivulja oblika slova S, koja za zadanu vrijednost x pokazuje
vjerojatnost postizanja opažanja koje je jednako
ili manje od x
Funkcijska obilježja statističkih razdioba

• Funkcija gustoće vjerojatnosti (gustoća
vjerojatnosti) statističke razdiobe predstavljena je
krivuljom s vrijednostima jednakim derivacijama
kumulativne vjerojatnosti (njene vrijednosti su uvijek
nenegativne!)
• Vrijednosti gustoće vjerojatnosti: tablice, računalni
programi
Studentova t razdioba
Primjena: za slučajeve s malim brojem opažanja

• Za N>120 t-razdioba postaje identična Gaussovoj
• U praksi: za probleme s N<30 → Studentova trazdioba
Fisherova F-razdioba
• Parametri: r – broj stupnjeva slobode u brojniku, s –

broj stupnjeva slobode u nazivniku, ncp (Non-
Centrality Parameter)
Gama-funkcija
• Poopćenje faktorijele na pozitivne realne brojeve
Gamma-razdioba
• Parametri: parametar oblika (α), parametar razmjera (1/β = λ)
Parametri vezani za obilježja statističke varijable
• Aritmetička srednja vrijednost = αβ
• Varijanca = αβ2
Poissonova razdioba
• Statistička razdioba diskretne statističke varijable, daje vjerojatnost dobivanja
zbroja opažanja, ako je
• Parametri: aritmetička srednja vrijednost broja opažanja po uzorku, λ

3. Predavanje
Cilj statističke analize: temeljem danih opažanja
(uzorka) izvesti zaključke o populaciji/statističkoj
varijabli statističkog skupa
Opažanja
• Neprerađeni, sirovi podatci,
dobiveni mjerenjima (mjernim
instrumentima, postupcima,
anketama, preuzeti od trećih
strana) → subjektivni, s
pogreškama kao rezultat
utjecajnih veličina
Normiranje vrijednosti (opažanja) statističkih

varijabli
• Interpretacija: normirana (z-) vrijednost govori koliko izvorno opažanje x

odstupa od aritmetičke srednje vrijednosti u jedinicama vrijednost standardne
devijacije s → transformacija u vrijednosti standardne normalne distribucije
N(0,1)
• Primjena: određivanje dijela populacije: (I) s vrijednostima manjim od x, (ii) s
vrijednostima većim od x, (iii) s vrijednostima u određenim granicama
Hipoteza i njeno postavljanje
• Provjera hipoteze
• Statistički testovi
Podjela hipoteze:
 Nul hipoteza
 Alternativna hipoteza
Postavljanje hipoteze
• 1. Definirati problem (postaviti pitanje)
• 2. Napraviti pregled prethodnih spoznaja o problemu
• 3. Postaviti hipotezu
• 4. Osmisliti pokus (eksperiment) kojim će hipoteza biti
testirana
• 5. Analizirati prikupljene eksperimentalne podatke te
izvesti zaključak o prihvatljivosti hipoteze
• 6. Predstaviti rezultat istraživanja
• Neka je promatrano obilježje neke populacije X.
Statistička hipoteza je bilo koja pretpostavka o
populacijskoj razdiobi X.
• Statistička hipoteza je jednostavna ako
jednoznačno određuje populacijsku razdiobu od X.
• U suprotnom, statistička hipoteza je složena
Postavljena hipoteza je osnovna ili nul-hipoteza
(općeprihvaćena, u inženjerskoj praksi: negacijska)
• Njoj suprotna hipoteza naziva se alternativna hipoteza (u inženjerskoj praksi:
afirmacijska).
• Uobičajeno se za nul-hipotezu uzima ona konzervativnija (prihvaćenija,
uobičajenija) ->
‘nema promjene’
Hipotezu testiramo (provjeravamo) kako bismo donijeli odluku o njenom
odbacivanju ili zadržavanju (do sljedećeg testa/provjere)
• Odluku o odbacivanju donosimo zasnovano na statističkoj analizi uzoraka
populacije (dakle, ne cijele populacije!) -> moguće pogreške u odluci
• Pogreška prve vrste – nul-hipoteza H0 je odbačena
iako je trebala biti zadržana
• Pogreška druge vrste – nul-hipoteza H0 nije odbačena
iako je alternativna hipoteza H1 trebala biti zadržana
Statistički gledano: hipoteza nikad ne može biti prihvaćena, nego tek zadržana
do sljedeće provjere
Pri testiranju (provjeri) hipoteze, važnu ulogu ima vjerojatnost pojave
pogrešaka.
• Može se pokazati kako je za definiranu razinu značajnosti testa α, , među
testovima kod kojih vjerojatnost pogreške prve vrste ne prelazi α moguće
pronaći ili konstruirati testove koji će dati minimalnu pogrešku druge vrste.
• Varijabla α predstavlja vjerojatnost odbacivanja nulte hipoteze.
Pri testiranju (provjeri) hipoteze, važnu ulogu ima
vjerojatnost pojave pogrešaka.
• Može se pokazati kako je za definiranu razinu
značajnosti testa α, , među testovima kod
kojih vjerojatnost pogreške prve vrste ne prelazi α
moguće pronaći ili konstruirati testove koji će dati
minimalnu pogrešku druge vrste.
• Varijabla α predstavlja vjerojatnost odbacivanja nulte
hipoteze kad ona treba ostati zadržana (pogreška
prve vrste)
Uloga α- i p-vrijednosti u provjeri hipoteze
p-vrijednost promatranog statističkog modela je

vjerojatnost, uz uvjet da je nul-hipoteza zadržana,
da će promatrani parametar statističke analize biti
iste ili veće vrijednosti od one u stvarnim
opažanjima
Uloga α- i p-vrijednosti u provjeri hipoteze

• Hipoteza H0 bit će odbačena ako je p-vrijednost manja od vrijednosti
parametra α
Statistički testovi
• Postupci provjere hipoteze radi njenog zadržavanja ili odbacivanja
• Postupci određivanja statističke značajnosti, kojoj je mjera p-vrijednost
Ako istu pojavu opisuju dvije teorije, treba prihvatiti
onu jednostavniju.
Provjera sukladnosti empirijske razdiobe s referentnom teorijskom (obično
Gaussovom, normalnom) razdiobom
Kolmogorov-Smirnov test
• Provjerava sukladnost eksperimentalne i zadane
referentne (teorijske) statističke razdiobe
• Testna statistika:
• Statistička značajnost: α
• F(Yi) … kontinuirana teorijska kumulativna razdioba
• H0: opažanja pripadaju referentnoj razdiobi
• H1: opažanja ne pripadaju referentnoj razdiobi
• Kriterij odluke: D veći od kritične vrijednosti iz
tablica ili određene programski (R) - p vrijednost
Shapiro-Wilk test
• Provjerava sukladnost eksperimentalne i normalne
statističke razdiobe (po veličini poredana opažanja)
• X(i) opažanja, ai koeficijenti određeni normalnom razdiobom ekv. oblika
• H0: opažanja pripadaju normalnoj razdiobi
• H1: opažanja ne pripadaju normalnoj razdiobi
• Kriterij odluke: W veći od kritične vrijednosti iz tablica ili određene
programski (R) - p-vrijednost
χ2 (čit: hi-kvadrat) test varijance

• Provjerava sukladnost eksperimentalne i unaprijed definirane varijance
• s2 eksperimentalna varijanca, σ2 ciljana varijanca
• H0: s2 = σ2
• H1: s2 > σ2, s2 < σ2, s2 <> σ2
• Kriterij odluke: odbaciti H0 ako je:
• χ2.,N-1 je kritična vrijednost χ2 razdiobe iz tablica iliodređena programski (R)
- p-vrijednost
Četvrto predavanje
Asocijacija u statistici
• Predstavlja općenitu povezanost dviju ili više statističkih varijabli (unutar
uzorka, uzoraka, populacije ili populacija)
• Ukoliko je povezanost linearna, ona se naziva korelacija
Pearsonov koeficijent korelacije

• Mjera asocijacije/korelacije (linearne) povezanosti
dviju kontinuiranih varijabli
• Mjera jačine povezanosti, ali NE i statističke
značajnosti
• Statistička značajnost određuje se npr. t-testom
primijenjenim na vrijednosti koeficijenata korelacije
uzoraka
Pravila asocijacija
• Određuju vjerojatnosti zajedničkog pojavljivanja.
Potrebno za razvoj svakog modela:

COINCIDENCE≠CORRELATION≠CAUSATION
PODUDARANJE≠KORELACIJA≠UZROČNO−POSLJEDIČNAVEZA
Korelacija
• Mjera linearne sličnosti uspoređivanih skupova podataka
• Objektivna analiza traži neovisni kriterij sličnosti
• Za vremenske nizove podataka -> sličnost valnih oblika
Koeficijent korelacije
• Koeficijent korelacije dvaju skupova podataka:
{Xi, i = 1, ..., n} i {Yi, i = 1, ..., m}
Mjera sličnosti dvaju skupova podataka
Autokorelacija
• Postupak određivanja koeficijenta korelacije može se primijeniti i na jednom
skupu podataka
• Svrha:
• (i) Procjena frekvencijskog spektra
• (ii) Dva identična vremenska niza, fazno pomaknuti
jedan u odnosu na drugi → mjerenje faznog pomaka
Korelogram
• Dijagram koeficijenata korelacije za parove varijabli iz promatranog skupa
podataka
Problem razvoja modela

• Model – matematički opis odnosa između uzročnih I posljedičnih varijabli
Regresijski model
• Funkcija koja povezuje prediktore i cilj
• Linearni regresijski model → funkcija je linearna kombinacija vrijednosti

prediktora
Jednostavni (jednostruki) linearni regresijski model
E je slučajna varijabla
Reziduali su slučajne varijable na koje se primjenjuje statistička analiza →
skupovi reziduala imaju svoje statistike i slijede statističke razdiobe
Pretpostavke razvoja regresijskog modela

• 1. Linearni odnos prediktora i ishoda
• 2. Normalna razdioba reziduala
• 3. Nepromjenjiva (konstantna) varijanca reziduala (homoskedastičnost)
• 4. Statistička neovisnost reziduala
Jednostruka linearna regresija

Peto predavanje
Linearni odnos prediktora i ishoda

• Odnos reziduala i prognozoranih vrijednosti
Testovi: Shapiro-Wilk, Kolmogorov-Smirnov

• Q-Q dijagram
Nepromjenjiva (konstantna) varijanca reziduala (homoskedastičnost)

Provjera je li varijanca reziduala jednolika i nepromjenjiva unutar populacije
• Pretpostavka: k uzoraka uzeto je iz populacije te se provjeravaju njihove
varijance
• Statistički testovi: Bartlett, Levene, Fligner-Killeen Residuals vs Leverage dij.
Linearni korelacijski koeficijent → koeficijent određenja (coefficient of

determination, R2)
R pokazuje udio ukupne varijance objašnjen linearnim modelom
2
-između 0 i 1
Fligner-Killeen test
• Neparametarski test (nije vezan za specifičnu statističku razdiobu)
homogenosti varijance.
• Provjera usmjerena na medijan
Kategorička varijabla
• Svaka ne-numerička (ne-brojčana) opisna varijabla
• Pristupi statističke analize radu s kategoričkim
varijablama se razlikuju.
• Kreiranje lažnih varijabli (napr. Crveno → 1, Bijelo
→ 2, Plavo → 3, pa rad s brojčanim vrijednostima)
• Iskorištavanje mogućnosti diskretnih statističkih
razdioba kao statističkih modela
- Kružni dijagram
- Štapićasti dijagram
Tablica slučajeva (engl. contingency table)
-Elementi tablice su brojevi pojavljivanja slučajeva s
vrijednostima dviju varijabli (retci, odnosno stupci)
-Mozaik-dijagram
- Dijagram asocijacija između vrijednosti
- Korelacijski dijagram
Šesto predavanje
χ2 test
• Test statističke neovisnosti dviju varijabli
• Primjenjiv i na kategoričke varijable predstavljene
tablicom slučaja
• χ2 testna statistika
Statistički test razlike proporcija

Relativni rizik
• Definiran kao omjer dvaju uspješnih ishoda iz
tablice slučajeva.
• Radi se o veličinama iz istog stupca
Omjer izgleda
• Neka je p vjerojatnost uspješnog ishoda.
• Omjer izgleda definira se kao:
Frekvencije i proporcije → temeljne osnove za statistički opis kategoričkih

varijabli
Područje pouzdanosti- Ovisno koliku pouzdanost želimo(općenito 95%)
Sedmo predavanje
Linearni regresijski model

• y … ishod/cilj
• x … prediktor
Višestruka linearna regresija

• Više prediktora, jedan ili više ishoda
Geometrijska interpretacija linearne regresije

• Jednostruka: pravac koji prolazi ravninom zadanom
ishodom i prediktorom, određen optimizacijskim
uvjetom da zbroj kvadrata udaljenosti opažanja od
pravca bude minimalan
• Višestruka: (n-1)-dimenzionalna ravnina koja prolazi
n-dimenzionalnim prostorom zadanim ishodom i
prediktorima, određena optimizacijskim uvjetom da
zbroj kvadrata udaljenosti opažanja od ravnine
bude minimalan
Mješovita višestruka linearna regresija

• Odgovor ne ovisi samo o prediktorima, već i o njihovim linearnim
kombinacijama
Problem izbora prediktora

• Opažanja kao neuređeni nositelji informacija o
promatranom procesu, pojavi ili sustavu
• Ulazne veličine (prediktori) su pretpostavljeni za
određenu izlaznu velličinu (odgovor) na temelju
prethodnih spoznaja i iskustva – kandidati za prediktore
Unatražni postupak izbora prediktora (engl. Backward Predictor Selection)
• Iteracijski postupak kojim se u razvoju modela obuhvaćaju svi pretpostavljeni
kandidati, a potom se radi njihov izbor – zadržavanje onih koji su statistički
značajni
Analiza najvažnijih komponenata (engl. Principal Component Analysis)
• PCA: oblikovati nove opisne varijable (umjetne prediktore) kao linearne
kombinacije izvornih prediktora prema kriteriju obuhvaćanja ukupne varijance
• PCA je definirana kao ortogonalna linearna transformacija koja preslikava
izvorna opažanja u novi 2D koordinatni sustav određen iznosima varijanci: prva
koordinata (prva najvažnija komponenta) s najvećim udjelom ukupne varijance,
druga koordinata (druga najvažnija komponenta) s narednim najvećim udjelom
varijance itd.
Rezultat PCA transformacije je skup novih opisnih varijabli (prediktora)
izvedenih kao linearne kombinacije originalnih prediktora, s koeficijentima
određenim po kriteriju obuhvaćanja varijance (optimizacijski problem)
PC2 – PC1 dijagram
Osmo predavanje
Uspješnost statističkog modela (modela zasnovanog na opažanjima)
Provjera ispunjavanja zahtjeva linearne regresije

• Linearni odnos prediktora i ishoda → korelogram
• Normalna razdioba reziduala → Q-Q dijagram
• Nepromjenjiva varijanca reziduala → statistički
testovi: Bartlett, Levene, Fligner-Killeen
• Statistička neovisnost reziduala → Residuals vs Leverage dijagram, analiza
utjecajnih opažanja, iznimke razdiobe (engl. outlliers)
Koeficijent određenja (engl. Coefficient of Determination)
-Ukupni zbroj kvadrata
-Objašnjeni zbroj kvadrata
- Zbroj kvadrata reziduala
-Koeficijent određenja(vrlo važna stavka za provjeru

modela)
Prilagođeni koeficijent određenja-
On nam govori kakav nam je R2s obzirom na broj varijabli

Deveto predavanje
Rezidual
• Razlika između vrijednosti prognozirane modelom i stvarnog opažanja izlazne
veličine
Skup reziduala može se razumjeti kao nova populacija na koju se može
primijeniti statistička analiza
Analiza reziduala
• Grafički prikaz
• Opisna (eksploratorna) statistička analiza:
aritmetička srednja vrijednost, kvartile, standardna devijacija, kutijasti dijagrami
• Funkcija gustoće vjerojatnosti statističke razdiobe
• Identifikacija utjecajnih opažanja
• Identifikacija iznimaka razdiobe (outliers)
• Provjera ispunjavanja pretpostavki linearne regresije: linearni odnos prediktora
i odgovora, normalnost reziduala (Q-Q dijagram), homogenost varijance,
neovisnost reziduala
F- statistika
-odnosi se na iste
formule kao za
koeficijentt
određenja no
njegova je statistika F
Izbor varijabli u završnom modelu

• Unatražni postupak izbora prediktora (Backward Predictor Selection)
• Analiza najvažnijih komponenata (Principal Component Analysis, PCA)
Selekcija varijabli u konačnom modelu
• Različiti pristupi, ovisno o broju prediktora, traženoj
točnosti, računalnoj učinkovitosti
• Unatražni izbor (engl. backward selection)
• Napredna izbor (engl. forward selection)
• Iteracijski izbor (engl. stepwise selection)
Usporedba dva modela. R2 i postotak objašnjenog varijabiliteta
• R-kvadrat (R2) je udio varijance u ishodu (odgovoru) koji se objašnjava
varijablama prediktora. U višestrukim regresijskim modelima, R2 odgovara
kvadratnoj korelaciji između promatranih vrijednosti ishoda (odgovora) i
predviđenih vrijednosti po modelu.
• Što je veći R-kvadrat, model je bolji
• Korijen srednje kvadratne pogreške (RMSE), koja mjeri prosječnu pogrešku
koju je napravio model u predviđanju ishoda za promatranje.
• RMSE je kvadratni korijen srednje kvadratne pogreške (MSE)
• MSE je prosječna kvadratna razlika između promatranih stvarnih izlaznih
vrijednosti i vrijednosti predviđenih modelom.
• MSE = srednje ((promatrano - predviđene) ^ 2), RMSE = sqrt (MSE).
• Model je to bolji što je RMSE manji. Srednja apsolutna pogreška (MAE),
poput RMSE, MAE mjeri pogrešku predviđanja.
• MAE je definirana kao prosječna apsolutna razlika između promatranih i
predviđenih ishoda:
• MAE = srednja vrijednost (abs (opažena - predviđena)).
• MAE je manje osjetljiv na iznimke razdioba (outliere) u odnosu na RMSE.
PROBLEM sa svim prethodnim mjerilima
uspješnosti je što jako ovise o dodanim ili oduzetim opažanjima.
Deseto predavanje
Standardna regresija
• Regresijski model s optimalnim izborom značajnih prediktora
• Prediktori poznati iz iskustva ili znanja vezanog za promatranu disciplinu
• Statistička značajnost prediktora smatra se razumljivom i provjerenom
Stepwise regresija
• Primjenjuje se u slučaju kad postoji veći broj prediktora čija statistička
značajnost ne može biti ustanovljena ili provjerena na temelju iskustva i
poznavanja discipline (domensko znanje)
• Iteracijski postupak za uklanjanje prediktora koji ne doprinose točnosti modela
(onih koji nisu statistički značajni)
• Optimizacijski postupak koji ima svoje kriterije
Poopćeni linearni model omogućava modeliranje pojave ili sustava kad nisu
ispunjene pretpostavke za primjenu modela linearne regresije
Jedanaesto predavanje
Osnovna namjena ANOVA-e

• Usporedba srednjih vrijednosti
• Navedena usporedba može se raditi primjenom t-testa (n<=30), ali i ANOVA-
om
• t-test određuje statističku značajnost ako je razlika srednjih vrijednosti
podijeljena sa standardnom vrijednosti razlika veća od kritične vrijednosti (qt() u
R-u)
• ANOVA se također koristi za višestruke usporedbe (tri ili više srednjih
vrijednosti)
• Na kraju ANOVA može uspoređivati kvalitetu regresijskih modela numeričkih
varijabli
ANOVA tablica
Pretpostavke jednostruke ANOVA-e

• Slučajno uzimanje uzoraka
• Homogene varijance
• Neovisnost pogrešaka
• Normalna razdioba pogrešaka
• Aditivnost učinaka tretmana
Welch t-test
• Slična namjena kao i kod ANOVA-e, uz iznimku
kako NE traži homogenost varijance

Bilješke S Predavanja Statistika

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bilješke S Predavanja Statistika

Uploaded by

Copyright:

Available Formats

Prvo predavanje

• Koraci eksploratorne analize

Koraci eksploratorne analize

Definicija statističke razdiobe - diskretna slučajna

Obilježja statističke razdiobe

primjer gaussova razdioba:

Funkcijska obilježja statističkih razdioba

Funkcijska obilježja statističkih razdioba

Primjena: za slučajeve s malim brojem opažanja

• Parametri: r – broj stupnjeva slobode u brojniku, s –

• Parametri: aritmetička srednja vrijednost broja opažanja po uzorku, λ

Normiranje vrijednosti (opažanja) statističkih

• Interpretacija: normirana (z-) vrijednost govori koliko izvorno opažanje x

p-vrijednost promatranog statističkog modela je

Uloga α- i p-vrijednosti u provjeri hipoteze

χ2 (čit: hi-kvadrat) test varijance

Pearsonov koeficijent korelacije

Potrebno za razvoj svakog modela:

Problem razvoja modela

• Linearni regresijski model → funkcija je linearna kombinacija vrijednosti

Jednostavni (jednostruki) linearni regresijski model

Pretpostavke razvoja regresijskog modela

Jednostruka linearna regresija

Linearni odnos prediktora i ishoda

Testovi: Shapiro-Wilk, Kolmogorov-Smirnov

Nepromjenjiva (konstantna) varijanca reziduala (homoskedastičnost)

Linearni korelacijski koeficijent → koeficijent određenja (coefficient of

Statistički test razlike proporcija

Frekvencije i proporcije → temeljne osnove za statistički opis kategoričkih

Linearni regresijski model

Višestruka linearna regresija

Geometrijska interpretacija linearne regresije

Mješovita višestruka linearna regresija

Problem izbora prediktora

Provjera ispunjavanja zahtjeva linearne regresije

-Ukupni zbroj kvadrata

-Objašnjeni zbroj kvadrata

- Zbroj kvadrata reziduala

-Koeficijent određenja(vrlo važna stavka za provjeru

Prilagođeni koeficijent određenja-

On nam govori kakav nam je R2s obzirom na broj varijabli

Izbor varijabli u završnom modelu

Osnovna namjena ANOVA-e

Pretpostavke jednostruke ANOVA-e

You might also like