Uvod U Statisticko Zakljucivanje PDF

Prof.dr.sc.
Bojana Dalbelo Bai

FER
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Uvod u statistiko zakljuivanje

2005/2006

1.
Statistika - Nazivlje ............................................................ 2
2.
Statistika podjela statistikih analiza ................................. 2
3.
Objekti, varijable, mjerne skale........................................... 3
4.
Ekstremne i nedostajue vrijednosti podaci.......................... 4
5.
Ciljevi statistike analize ..................................................... 9
6.
Deskriptivna statistika ........................................................ 9
7.
Standardizacija ................................................................ 15
8.
ebievljev teorem .......................................................... 15
9.
Teorijske Distribucije........................................................ 16
10.
Distribucija uzorkovanja srednje vrijednosti. ................... 22
11.
Intervalne procjene ...................................................... 24
12.
Binomna distribucija ..................................................... 25
13.
Intervalne procjene proporcije....................................... 29
14.
Testiranje hipoteza ....................................................... 30
15.
Pogreke prvog i drugog reda........................................ 34
16.
Primjer: testiranje proporcija ......................................... 36
17.03.2004.
1/56
Prof.dr.sc. Bojana Dalbelo Bai

FER

2005/2006
UVOD
Data mining = dubinska analiza (inteligentna analiza podataka)
= rudarenje podataka
Veina metoda za dubinsku analizu podataka (engl. data mining)
temelji se na multivarijatnoj statistici -> zahtijeva znanje temeljne
statistike!
1. Statistika - Nazivlje
rije STATISTIKA (lat. status = stanje)
Statistika - science of making sense out of data.

Statistika primijenjena u raznim znanostima nosi razliite
nazive: biometrija, psihometrija, tehnometrija itd.
Neka podruja znanosti razvila su vlastito nazivlje od tuda razliita
imena za iste metode!
(Primjer: PCA = Karhunen-Love transformacija; Z = U )
2. Statistika podjela statistikih analiza

Prema nainima stvaranja zakljuka
deskriptivna
(numeriki i grafiki postupci, usporedba s EDA exploratory

data analysis)
inferencijalna
(intervalne procjene, testiranje hipoteza na temelju uzorka)
KAKO ispravno generalizirati na temelju uzorka?
17.03.2004.
2/56

FER

2005/2006
Prema broju varijabli u analizi

rije VARIJABLA (engl. variable = variate = factor)
univarijatna
bivarijatna
multivarijatna
(testiranje, eksplorativna statistika)
Prema vrsti modela

parametarska
neparametarska
Inferencijalno statistiko zakljuivanje temelji se na
teoriji vjerojatnosti
Sluajni pokus, sluajni dogaaj
Sluajna varijabla
(pridruivanje numerike vrijednosti ishodu sluajnog pokusa)
3. Objekti, varijable, mjerne skale

Objekti (entiteti, jedinice)
Varijable (= obiljeja, znaajke, atributi)
Varijable s obzirom na ulogu u statistikoj analizi:
zavisne, kriterijske varijable
(engl. target, dependent, criterion, response variable)
SAS
nezavisne, prediktorske varijable
(engl. independent, predictior, controlled, regressor
variable)
(Primjer: kako spol, dob i obrazovanje utjeu na prihode ili, kako
prihodi, zaposlenost i posjedovanje nekretnina utjee na dodjelu
kredita)
17.03.2004.
3/56

FER

2005/2006
Varijable s obzirom na mjerne skale:

Mjerne skale:
nominalna (engl. nominal)
kvalitativne
ureajna ( relacija < ) (engl. ordinal)
[opservacije nisu ekvidistantne,
primjer: skala tvrdoe]
kvantitativne
intervalna (operacije + i -)
[ekvidistantne opservacije, nema ishodita,
primjer C, F]
racionalna (operacije +, -, *, /)
[primjer K]
Prve dvije skale jo se zovu kategorijske (engl. categorical).

Zadnje dvije jo se zovu metrika skala. Alternativni par
naziva: diskretne vs. kontinuirane.
4. Ekstremne i nedostajue vrijednosti podaci

(engl. outliers and missing values)
Statistical Computing
Metode multivarijatne statistike metode razvijene prije
nastanka raunala.
Masovna uporaba stat. metoda: GIGO efekt
Panja: u svakom velikom skupu podatka ima pogreaka.
Ekstremne vrijednosti (engl. outliers)
Podaci koji su nekonzistentni s veinom podataka.
Kako odeujemo outliere? Od kuda dolaze outlieri? to
uiniti s njima?
Vano je znati: Ekstremne vrijednosti mogu znaajno
utjecati na rezultate analize!
17.03.2004.
4/56

FER

2005/2006
Porijeklo
Provjeriti jesu li pogreke u unosu ili mjerenju! Ispraviti
ili podatke koje ne moemo ispraviti ukloniti.
Priroda pojave.
Odreivanje
Posebne metode. Grafike metode mogu pomoi!
Na temelju IQR-a: Q0.25-1.5IQR < x < Q0.75+1.5IQR
Na temelju teorema (ebiev): 4 od srednje
vrijednosti obuhvaa 94% podataka.
to uiniti?
Nema jedinstvenog recepta!
Potrebno iskustvo eksperta.
Da li nas takvi podaci vode prema istini?
DA - tada ukljuiti u analizu.
NE - ukloniti podatke. Opisati u izvjetaju
strunjaci s drugaijim miljenjem mogu raditi
alternativne analize.
Nedostajue vrijednosti
nadomjetanje s nulom ili nekom konstantom
nadomjetanje sa srednjom vrijednou (panja moe
kreirati outliere !) za metrike podatke ili s najee
pojavljivanim atributom za nemetrike podatke
17.03.2004.
5/56

FER

2005/2006
uklanjanje podataka (redaka) s nedostajuim

vrijednostima (nije zadovoljavajue ali je najsigurnije)
Primjer: 2000 podataka od toga 1300 sa nedostajuim
vrijednostima!
Razmotriti strategiju uzorkovanja! Zato potroiti
resurse za sakupljanje nepotpunih podataka koji e biti
odbaeni.
Nadomjetanje s najee pojavljivanom vrijednou u
klasi
Regresija
EM algoritam (engl. Expectation Maximization)
17.03.2004.
6/56

FER

2005/2006
Populacija, uzorak, uzorkovanje

Populacija skup svih moguih vrijednosti nekog opaanja
ili mjerenja - ne objekata!
(matematiki: vrijednosti sluajne varijable).
(broj elemenata N)
Uzorak podskup populacije (konana ili beskonana).

Populacija je opisana parametrima.
na populaciju i oznaava se malim grkim slovima (, ,
itd).
Statistika (ili procjenitelj) - procjena nekog parametra
populacije na temelju uzorka
srednja
vrijednost
standardna
devijacija
varijanca
proporcija
parametar
statistika
s2
p
esto nam vrijednosti parametra populacija nisu dostupne te

ih procjenjujemo na temelju uzorka. (broj elemenata n)
17.03.2004.
7/56

FER

2005/2006
Postupak uzimanja uzorka je uzorkovanje

1. s vraanjem ili
2. bez vraanja
Sluajni uzorak je reprezentativni uzorak. Nalaenje
reprezentativnog uzorka moe biti zahtjevno, i zato esto
pristrano!
(Primjer: telefonska anketa)
Uzimanje (sluajnog) reprezentativnog uzorka:
1. Numerirati objekte
2. Generirati onoliko sluajnih brojeva koliki je uzorak
(tablica ili generator sluajnih brojeva)
3. Uzeti one objekte koji odgovaraju tim brojevima
Stratificiran uzorak (engl. stratified random sample)
Uzorak dobiven podjelom populacije na nepreklapajue
dijelove, (engl. strata) i uzimanje sluajnog uzorka iz svakog
dijela.
vana metoda kada je jedna od ciljnih klasa vrlo mala u
odnosu na populaciju
Napomena: jo se esto koristi termin particija skupa za
podjelu skupa na nepreklapajue dijelove.
17.03.2004.
8/56

FER

2005/2006
DESKRIPTIVNA I INFERENCIJALNA STATISTIKA

5. Ciljevi statistike analize
skupljanje
podataka
manipulacija
podacima
interpretacija
redukcija podataka
alat za inferencijalno
zakljuivanje
identifikacija relacija ili
asocijacija (grupiranja)
meu podacima
6. Deskriptivna statistika
Mjere centralne tendencije:
aritmetika sredina (engl. mean)
medijan
mod
geometrijska sredina
harmonijska sredina
17.03.2004.
9/56

FER

2005/2006
Mjere rasipanja
varijanca (srednje kvadratno odstupanje)
standardna devijacija
rang (max-min)
interkvartilni rang
Koliko podataka sadri IQR?
srednje apsolutno odstupanje

koeficijent varijacije
(s/x, bez dimenzije - usporedba disperzije

raznorodnih nizova)
GINI
1
yi y j
n i< j

2
MAD (Median Absolute Deviation)

MAD = medi |yi medj(yj)|
17.03.2004.
10/56

FER

2005/2006
Mjere zakrivljenosti i spljotenosti

Zakrivljenost (engl. skewness)
pozitivna
nula
Spljotenost (engl. kustosis)

negativna
negativna
pozitivna
Normalna distribucija ima oba parametra 0.
Distribucije frekvencija
relativne
kumulativne
teorijski model
17.03.2004.
11/56

FER

2005/2006
Grafiki prikazi empirijskih distribucija :

histogrami
Histogram (Irisdat.sta 5v*150c)
SEPALLEN = 150*0,5*normal(x; 5,8433; 0,8281)
40
35
30
No of obs
25
20
15
10
5
0
3,5
4,0
4,5
5,0
5,5
6,0
6,5
7,0
7,5
8,0
8,5
SEPALLEN
poligoni
box and whisker plot
Box Plot (Irisdat.sta 5v*150c)
8,5
8,0
7,5
SEPALLEN
7,0
6,5
6,0
5,5
5,0
4,5
4,0
SETOSA
VERSICOL
VIRGINIC
Median
25%-75%
Non-Outlier Range
Outliers
IRISTYPE
17.03.2004.
12/56

FER

2005/2006
stem and leaf plot
17.03.2004.
13/56

FER

2005/2006
Provjera normalnosti podataka: grafiki prikazi (najee

histrogrami)+ testovi (Shapiro-Wilk, Kolmogorov-Smirnov).
Prikaz multivarijatnih podataka Chernoff faces
17.03.2004.
14/56

FER

2005/2006
7. Standardizacija
Omoguava odreivanje relativnog poloaja nekog podatka
(u ekonomiji z-skor) i time usporedbu podataka razliitih
obiljeja:
u=
xx
s
Standardizirane vrijednosti varijable pokazuju relativan

poloaj neke vrijednosti u nizu, one ne ovise o mjernim
jedinicama pa slue za usporedbu raznorodnih nizova.
8. ebievljev teorem
Za bilo koju distribuciju vrijedi da se u intervalu
x k, k>1 nalazi se najmanje (1-1/k2)% podataka.

Primjer
Za k= 2 izraunamo da je barem 75% podataka unutar
intervala x 2s.
17.03.2004.
15/56

FER

2005/2006
Za podatke distribuirane po normalnoj distribuciji vrijedi:

U intervalu x s nalazi se priblino 68% podataka,
U intervalu x 2s nalazi se priblino 95% podataka,
U intervalu x 3s nalazi se priblino 99% podataka.
9. Teorijske Distribucije
Najvanije su:
binomna
normalna
t distribucija (Gosset)
17.03.2004.
16/56

FER

2005/2006
F distribucija (Fisher)
To su distribucije uzorkovanja (opisane matematiki) koje

nastaju ponovljenim uzorkovanjima i izraunom statistike
(procjenitelja) iz uzorka. (simulacija)
*
Normalna distribucija
f ( x) =
1 x
Normalna distribucija s
oekivanjem = 0 i
standardnom devijacijom = 1.

1
e 2
2
X : N(0,1) - Oznaavamo je s
U ili Z.
0.4
Vrijednosti vjerojatnosti tj.

povrina ispod krivulje U dani su
u statistikim tablicama.
0.3
0.2
0.1
-3
-2
-1
Uobiajena oznaka za normalnu distribuciju s parametrima: oekivanjem i varijancom 2 je

N(, 2).
17.03.2004.
17/56

FER

2005/2006
Velika veina obiljeja u prirodi distribuirana je prema normalnoj razdiobi.
Iz tablica za jedininu normalnu distribuciju U oitavamo:

P( -1.65 < U < 1.65) = 90%
P( -1.96 < U < 1.96) = 95%
P( -2.58 < U < 2.58) = 99%
Neka je X normalno distribuirana, tj. X: N(, 2). Vrijedi
transformacija:
STANDARDIZACIJA
najvanija transformacija podataka
- svoenje X: N(, 2) na U sa transformacijom

X:N( , 2 )
17.03.2004.
U=
X
.
P( - 1.65 < X < + 1.65) = 90%

P( - 1.96 < X < + 1.96) = 95%
P( - 2.58 < X < + 2.58) = 99%
18/56

FER

2005/2006
INFERENCIJALNA STATISTIKA
Populacija uzorak, parametar, statistika (procjenitelj)
populacija
smjer
zakljuivanja
uzorak
Populacija skup svih moguih vrijednosti opaanja ili

mjerenja, ne objekata ili
(matematiki: vrijednosti sluajne varijable).
(broj elemenata N)
Uzorak podskup populacije (konana ili beskonana).
- uzorkovanje (s vraanjem ili bez)
- sluajni uzorak (svaki element populacije
ima istu vjerojatnost biti izabran!) (broj
elemenata n)
Parametar je bilo koja funkcija populacije, neko svojstvo

populacije koje nas zanima, npr. srednja vrijednost,
standardna devijacija, proporcija, itd. Parametar se odnosi
na populaciju i oznaava se malim grkim slovima (, ,
itd).
esto nam vrijednosti parametra populacija nisu dostupne te
ih procjenjujemo na temelju uzorka.
Procjena nekog parametra populacije na temelju uzorka
naziva se statistika (ili procjenitelj) i oznaava se malim
slovima ( x , s, p,). Openito je vrijednost statistike i
nepoznatog parametra populacije dana s izrazom:
17.03.2004.
19/56

FER

2005/2006
nepoznato
Parametar_populacije = Statistika pogreka
Ono to elimo znati je s kojom tonou (preciznou) i s

kojom
pouzdanou
(vjerojatnosti),
neka
statistika
procjenjuje parametar populacije.
Primjer: = x pogreka
Parametar (, , 2) svojstvo populacije
Statistika ( x , p, s2) funkcija uzorka
populacija PARAMETAR
uzorak
STATISTIKA
- za svaki novi uzorak izvuen iz iste populacije (istog

osnovnog skupa) moemo dobiti razliitu vrijednost
statistike.
(animacija)
Ali, ako znamo kako je statistika uzorka distribuirana tj.
ako znamo kako je distribuirana vrijednost statistike ( x ) na
temelju beskonano mnogo uzoraka iste veliine izvuenih iz
te populacije (to je distribucija vjerojatnosti statistike
uzorka)
17.03.2004.
20/56

FER

2005/2006
Ta se distribucija vjerojatnosti statistike uzorka naziva se

DISTRIBUCIJA UZORKOVANJA
(engl. sampling distribution)
Ako znamo distribuciju uzorkovanja tada uz pomo

vjerojatnosti moemo procijeniti s kojom pouzdanou se
parametar populacije nalazi u odreenim granicama.
Dakle, moemo odrediti granice oko x u kojima se nalazi
parametar i pridruenu vjerojatnost za takvo odstupanje.
( = x pogreka, uz odreenu vjerojatnost, tj.
pouzdanost).
Poznavanje distribucije uzorkovanja neke statistike temelj je

za inferencijalno statistiko zakljuivanje (intervale
procjene parametara populacije, testiranje hipoteza).
Svaki
parametar
populacije
(srednja
vrijednost
,
2
proporcija , varijanca , ) ima svoju distribuciju
uzorkovanja.
Vano svojstvo distribucije vjerojatnosti statistike su njezino
oekivanje i standardna devijacija. Ta se standardna
devijacija distribucije neke statistike naziva STANDARDNA
POGREKA (SE).
Od posebnog je znaenja distribucija uzorkovanja srednje
vrijednosti.
17.03.2004.
21/56

FER
10.

2005/2006
Distribucija uzorkovanja srednje vrijednosti

CENTRALNI GRANINI TEOREM
Neka je dana populacija sa srednjom vrijednou i

standardnom devijacijom .
Neka je x srednja vrijednost od n sluajno odabranih
nezavisnih opservacija iz te populacije.
Distribucija uzorkovanja srednje vrijednosti pribliava se
normalnoj sa oekivanjem i standardnom devijacijom
, kada n
n
(pogledati tekst i simulacije na adresi
http://www.ruf.rice.edu/~lane/rvls.html, posebno za ilustraciju CGT pogledati

animirani primjer na adresi
http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html)
Standardna pogreka (engl. standard error) nekog

parametra je sandardna devijacija distribucije uzorkovanja
tog parametra. Ponekad se oznaava sa SE.
Primjer: Standardna pogreka distribucije uzorkovanja
srednje vrijednosti je SE = X = X , gdje je X sluajna

n
varijabla osnovnog skupa (na primjer: visine populacije
studenata Zagrebakog Sveuilita, teine proizvoda koje
proizvede neka tvornica, itd.). esto se umjesto X pie
samo .
Prije smo napomenuli da je

Parametar = Statistika pogreka.
17.03.2004.
22/56

FER

2005/2006
Ako za statistiku koja nas zanima odaberemo srednju

vrijednost tada je
= x pogreka.
No sada, na temelju centralnog graninog teorema koji nam
kae da su srednje vrijednosti uzoraka veliine n takoer
distribuirane normalno sa standardnom pogrekom SE =
, moemo pisati:
n
= x up
, sa pouzdanou I(up),
gdje je u0 vrijednost jedinine normalne razdiobe, a I(up)

pripadna pouzdanost (vjerojatnost). Te se vrijednosti
oitavaju u statistikim tablicama.
up
pouzdanost I(up)
1.64
90%
1.96
95%
2.58
99%
Intervalna procjena oekivanja (za velike uzorke, n30)

= x up
, sa pouzdanou I(up),
dok je za male uzorke umjesto vrijednosti up jedinine

normalne distribucije vrijednost studentove t-distribucije
koja se oitava iz statistikih tablica za zadani broj stupnjeva
slobode k, gdje je k=n-1, a n je broj elemenata u uzorku.
= x t(k)
, s pouzdanou ovisnom o t(k).
Centralni granini teorem (CGT)
17.03.2004.
U=
23/56

FER
11.

2005/2006
Intervalne procjene
Iz tvrdnje CGT-a slijede formule za

Intervalne procjene oekivanja (za velike n, n>30):
X :N( , 2/n )
< < x + 1.65

) = 90%
n
n
< < x + 1.96

) = 95%
P( x - 1.96
n
n
< < x + 2.58

) = 99%
P( x - 2.58
n
n
P( x - 1.65
Primjer:
Naka je X je normalno distribuirana sl. varijabla (krae emo rei

normalna distribucija).
Naka su parametri od X oekivanje 34 i standardna devijacija 4.
To zapisujemo X:N(34, 42).
Kolika je vjerojatnost da sluajno izvuen primjer iz te distribucije
poprimi vrijednost veu od 30?
P(X > 30) = P(U > (30 34)/4) ) = P(U > -1) = (oitavamo iz stat.
tablica) = 0.841
Ako sada izvlaimo uzorak od 16 elemenata iz zadane distribucije X:
N(34, 42) i raunamo srednju vrijednost, kolika je vjerojatnost da
srednja vrijednost izraunata iz tog uzorka bude vea od 30?
Prema CGT, X je distribuirano s oekivanjem 34 i standardnom
devijacijom SE = 4 16 = 1, dakle
P( X > 30) =(standardizacija)=P(U > (30 34)/1) ) = P( U > -4) = 1.
0.4
0.3
0.2
0.1
-7.5
17.03.2004.
-5
-2.5
2.5
7.5
24/56

FER
12.

2005/2006
Binomna distribucija
Sluajni pokus: dva mogua ishoda, A i nonA.

Vjerojatnost dogaaja A, P(A) = i vjerojatnost da se ne desi A,
P(non A) = 1 - .
Primjer: Promatramo jedan proizvod: proizvod je ispravan s
vjerojatnou . Mogui dogaaji:

A = proizvod je ispravan, P(A) =
non A = proizvod je neispravan, P(non A) = 1 - .
Pretpostavimo da imamo nizove od n takvih nezavisnih pokusa

(Bernoullijevi nizovi).
Kolika je vjerojatnost da e se dogaaj A pojaviti tono x puta u tom
nizu?
Primjer: Uzorak od n proizvoda, kolika je vjerojatnost da tono x od n
proizvoda ( 0 x n ) bude ispravno?
Binomna sluajna varijabla s parametrima n i .
Kolika je vjerojatnost da e se dogaaj A pojaviti tono x puta u tom
nizu? tj. Kolika je vjerojatnost da sluajna varijabla X poprimi
vrijednost x?
n
P(X = x) = x (1 )n x
x
17.03.2004.
(1)
25/56

FER

2005/2006
Kolika je vjerojatnost da e se dogaaj A pojaviti izmeu x1 i x2 puta u

tom nizu od n pokusa?
P(x1 X x2) =
n
i (1 )
x2
i = x1
n i
. (2)
Oekivanje binomne sluajne varijable X je E(X) = n

Varijanca binomne sluajne varijable V(X) = 2 = n(1-)
Primjer:
n = 15, = 0.2 x = 4
P(X = 4) = 0.188
Primjer:
Da li je povoljno kladiti se da e u 24 uzastopna bacanja

igrae kocke
barem jednom pasti
dvostruka
estica?
Primjer:
N = 300, = 0.2, P( 100 > X > 50) = ?
17.03.2004.
26/56

FER

2005/2006
Aproksimacija binomne normalnom (Moivre-Laplaceova formula)

x n
x n
.
U 2
P(x1 X x 2 ) P 1
(
)
(
)
1
n
n
Uz uvjet n > 5 i n(1-) > 5.

Proporcija
X binomna sluajna varijabla s parametrima n i , tj.
X:B(, n)
Proporcija je omjer P = X/n.
17.03.2004.
27/56

FER

2005/2006
Distribucija uzorkovanja proporcije.

Promatramo nizove od n elemenata.
Zanima nas broj elemenata u tom nizu od n koji imaju neko
svojstvo A. Oznaimo taj broj s x.
(Bernoullijevi nizovi)
Proporcija P je omjer P = X/n
Primjer.
Neka je dana neka hipoteza h.
Pretpostavimo da imamo uzorak sastavljen 14
elemenata tj. primjera za uenje. Ako 8 od 14 primjera
zadovoljava hipotezu h tada je proporcija uspjeha
hipoteze h na tom skupu (uzorku) jednaka p1 = x/n =
8/14.
Uzmimo neki drugi uzorak tj. skup primjera za uenje i
neka je na tom skupu proporcija valjanosti hipoteza
p2 = 5/14.
Neka je dan neki trei skup primjera za uenje iste
veliine i neka je na njemu p3 = 7/14.
.
Ako nastavimo s tim postupkom u dobivamo
distribuciju uzorkovanja proporcije koju
oznaavamo s P.
(Posljedica Moivre -Laplaceovog teorema - CGT)
Distribucija uzorkovanja proporcije za velike n pribliava
se normalnoj distribuciji s
Oekivanjem
Standardnom devijacijom P =
17.03.2004.
(1 )
.
n
28/56

FER
13.

2005/2006
Intervalne procjene proporcije
Parametar populacije = statistika_uzorka pogreka

Primjeri: = p pogreka, = x pogreka.
Na temelju poznate distribucije uzorkovanja proporcije
izvode se intervalne procjene proporcije.
(1 )
(1 )
< < p + 2.58
) = 99%
n
n
(1 )
(1 )
P( p 1.96
< < p + 1.96
) = 95%
n
n
P( p - 2.58
Primjer:
Jedan strijelac je pogodio 5 puta u metu od 10 pokuaja.
Drugi strijelac je pogodio 50 puta u metu od 100 pokuaja.
to moemo rei o pravoj proporciji pogodaka jednog i drugog
strijelca.
0.5(1 0.5)
0.5(1 0.5)
< < 0.5 + 1.96
) = 95%
10
10
0.5(1 0.5)
0.5(1 0.5)
< < 0.5 + 1.96
) = 95%
P( 0.5 1.96
100
100
P( 0.5 1.96
Prvi strijelac:
P( 0.5 1.96*0.158 < < 0.5 + 1.96*0.158) = 95%
P( 0.5 0.31 < < 0.5 + 0.31) = 95%
P( 0.19 < < 0.81) = 95%
Drugi strijelac:
P( 0.5 1.96*0.05 < < 0.5 + 1.96*0.05) = 95%
P( 0.5 0.098 < < 0.5 + 0.098) = 95%
P( 0.402 < < 0.598) = 95%
17.03.2004.
29/56

FER
14.

2005/2006
Testiranje hipoteza
1. direktno statistiko zakljuivanje (inferencijalno): tokovne ili
intervalne procjene
- uzorak koristimo za procjenu parametra populacije.

2. indirektno: testiranje hipoteza
Uzorak podrava ili diskreditira a priori postavljenu tvrdnju ili
pretpostavku o stvarnoj vrijednosti parametra populacije
Hipoteza o populacionom parametru proizlazi iz
prethodnih ispitivanja
teoretskih pretpostavki.
Ako postupkom testiranja naemo da je H0 neprihvatljiva s aspekta

vjerojatnosti, tada prihvaamo (vjerujemo) u alternativnu hipotezu.
Isto kao to ne moemo nai 100% interval pouzdanosti tako ni
testiranje ne daje 100% sigurnost u ispravnost odluke ve su
pouzdanosti s kojim radimo 90, 95, 99%. Naime, u postupku
testiranja unaprijed zadajemo (i time kontroliramo) pogreku (tj. rizik
s kojim radimo statistiki test) a to je vjerojatnost odbacivanja istinite
hipoteze. Ta se vjerojatnost naziva nivo signifikantnosti (nivo
znaajnosti) ili pogreka prvog reda i oznaava se s .
17.03.2004.
30/56

FER

2005/2006
Postupak:
Postavljaju se dvije meusobno iskljuive hipoteze koje zajedniki
iscrpljuju sve mogunosti:
dvostrani test
H0 = a
H1 a
ili
H0 =
H1 <
ili
H0 =
H1 >
jednostrani
testovi
a
a
a
a
U zadnja dva sluaja moramo biti sigurni da > a,

< a, nije mogue !!!
Povrina odgovara
vjerojatnosti , tj. nivou
signifikantnosti testa
jednostrani test
Povrine zajedno
odgovaraju
vjerojatnosti ,
tj. nivou
signifikantnosti testa
dvostrani test
Postavljanje hipoteza deava se na logikoj razini, tj. vezano je za

problem poznavanja podruja problema. Prihvaanje hipoteze tj.
vjerovanje u odreenu hipotezu je stvar statistike odluke.
17.03.2004.
31/56

FER

2005/2006
Primjer:
H0 = 20
H1 20
Uzorak od 100 elemenata dao je
a) x = 19.1
b) x = 19.9
c) x = 16.
Pretpostavimo da znamo da je st.dev. populacije = 3.
Pitanje je da li je mogue, tj. koliko je vjerojatno da dobijemo srednju
vrijednost uzorka x = 19.1 ako je = 20. Ako je ta vjerojatnost mala
onda smo skloni ne vjerovati u pretpostavku iz nulte hipoteze.
Pitanje je koliko je to malo vjerojatno ?
Obino je to 1% ili 5% i naziva se nivo znaajnosti
(signifikantnosti) i oznaava se s .
je vjerojatnost odbacivanja istinite hipoteze!
Rizik testiranja koji se odreuje unaprijed!
a) x = 19.1, odaberemo = 0.05 tj. 5%. Radimo dvostrani U - test.
U=
19.1 20
=-3
3
100
Vjerojatnost da je P (U < - 3) je praktiki jednaka 0 (pa onda i

2*P (U < - 3)0, jer radimo dvostrani test pa gledamo povrine u oba
repa), tj. ta je vjerojatnost puno manja od 0.05 (koliki je nivo
signifikantnosti testa) pa odbacujemo nultu hipotezu.
Interpretacija: Vjerojatnost da na temelju uzorka od 100 elemenata
dobijemo srednju vrijednost 19.1, ako je prava vrijednost 20, je
praktiki nula pa smo stoga skloni NE vjerovati u nultu hipotezu tj.
odbacujemo je.
b) x = 19.9, odaberemo = 0.05 tj. 5%. Radimo dvostrani U - test.
17.03.2004.
32/56

FER
U=

2005/2006
19.9 20
= - 0.33
3
100
Iz statistikih tablica slijedi da je vjerojatnost 2*P (U < - 0.33) =

2*0.37 = 0.74 to je puno vee od = 0.05 (koliki je nivo
signifikantnosti testa) => prihvaamo nultu hipotezu.
Interpretacija: Nemamo razloga, na temelju predoenog uzorka
(uzorak od 100 elemenata ija je srednja vrijednost x =19.9),
sumnjati u istinitost nulte hipoteze!
Vjerojatnost da dobijemo srednju vrijednost uzorka (po apsolutnoj
vrijednosti jednaku ili veu od) x = 19.1 je 0.74, ako je stvarna
srednja vrijednost populacije 20. To je puno vea vjerojatnost od 0.05
to je granina vjerojatnost s kojom radimo testiranje.
Mogli bi rei da uzorak podrava tvrdnju iz nulte hipoteze s
vjerojatnou 0.74.
Dvostrani test:
ukupna provrina
(vjerojatnost)
2*P (U < - 0.33)
2*0.37 = 0.74
Povrina
Povrina
0.37
=0.37
-0.33
17.03.2004.
Povrina
= 0.37
0.33
33/56

FER
15.

2005/2006
Pogreke prvog i drugog reda
Prilikom testiranja moemo uiniti dva tipa pogreaka.

Greke I i II reda.
Usporedba postupka statistikog testiranja i pravosudnog postupka:
H0 Osumnjieni je nevin
H1 Osumnjieni je kriv
Odluka
suda
Nevin
Kriv
Stvarno stanje
Nevin
Kriv
pogreka
pogreka
Zakljuak
H0
prihvaamo
H0
odbacujemo
Stvarno stanje
H0 je istina H0 je la
(greka
II reda)
(greka I
reda)
Pogreka I reda ili je pogreka koju uvijek moemo kontrolirati

prilikom statistikog zakljuivanja. Ona se zadaje unaprijed, a
hipoteze se formuliraju tako da ona pogreka koja nam je vanija
bude pogreka prvog reda . Na primjer, u pravosudnom postupku
moemo uiniti dvije pogreke, da nevinog ovjeka osudimo ili da
krivog oslobodimo. Moemo se odluiti da je vanije kontrolirati
vjerojatnost pogreke da nevinog ovjeka osudimo.
Formuliramo hipoteze:
H0 Osumnjieni je nevin i
H1 Osumnjieni je kriv.
Pogreka prvog reda ili je vjerojatnost odbacivanja hipoteze H0
kada je ona zapravo istinita, tj. u ovom sluaju vjerojatnost da
nevinog ovjeka proglasimo krivim.
Kada bi obrnuli hipoteze i stavili H0 Osumnjieni je kriv, tada bi
zadavali unaprijed i time kontrolirali pogreku da krivog ovjeka
oslobodimo.
Pogreka II reda ili
Vjerojatnost prihvaanja hipoteze H0 kada je H1 istina (dakle H0 je
la)!
U naem primjeru postavljenih hipoteza:
H0 Osumnjieni je nevin
17.03.2004.
34/56

FER

2005/2006
H1 Osumnjieni je kriv
to je sluaj kada je osumnjieni zaista kriv no mi ga proglasimo
nevinim.
ovisi o:
pravoj vrijednosti parametra o kojem raspravljamo (alternativna
hipoteza), pada kada je vea razlika izmeu pretpostavljene i
prave vrijednosti parametra koji se testira (distribucije su

razdijeljene)
pogreci , tj. raste kada pada i obrnuto, te jednostranom ili
dvostranom testu,
standardnoj devijaciji populacije, se poveava to je st.dev.
populacije vea
veliini uzorka, se smanjuje kada veliina uzorka raste.

zadnja dva parametra odreuju standardnu pogreku SE.
17.03.2004.
35/56

FER
16.

2005/2006
Primjer: testiranje proporcija
1. Formuliranje statistike hipoteze

H0 = 0.005
H1 < 0.005
(jednostrani, lijevi test podruje
odbacivanja hipoteze je na lijevo)
2. Odredi statistiku za testiranje : proporcija P
P
Znamo da vrijedi U =
p(1 p)
n
3. Odaberi nivo znaajnosti testa tj. pogreku prvog reda ,
neka je = 5% i pripadnu kritinu vrijednost oitaj iz
tablica.
Za odabrani nivo znaajnosti i jednostrani test ukrit=-1.64
4. Uzmi sluajan uzorak n=2000 i izraunaj vrijednost
statistike P na njemu, tj. p=3/2000=0.0015
0.0015 0.005
u=
= 2.26
0.005(1 0.005)
2000
5. Donesi odluku:
Ako je izraunata vrijednost statistike u < ukrit odbaci
nultu hipotezu. Kako je 2.26 < -1.64 H0 odbacujemo!
17.03.2004.
36/56

FER

2005/2006
0.4
0.3
Povrina
=5%
0.2
0.1
-3
-2
-1
Podruje prihvaanja H0
Podruje
odbacivanja H0
-1.64
0.0
-2.26
17.03.2004.
37/56

FER

2005/2006
2 test
Neparametarski test
Koristi se za dvije kategorije testova:
Testiranje ponaanja po distribuciji ( engl. goodness of
fit )
Testiranje nezavisnosti klasifikacija: kontigencijske
tablice (engl. contigency tables)
H0 dvije kvalitativne populacijske varijable su nezavisne
RxS tablice
2 = (fobs- fizracunata)2 / fizracunata
PU A I
NEPU A I
total
MU KARCI
110
90
200
ENE
104
96
200
total
214
186
400
17.03.2004.
38/56

FER

2005/2006
Teorijske frekvencije
PUAI
NEPUAI
total
MUKARCI
107=
(214*200/400)
93
200
ENE
107
93
200
total
214
186
400
2 = (110-107)2/107 + (104-107)2/107 +(90-93)/93 +(96-93)/93 =

0.084 + 0.084 + 0.097 + 0.097 = 0.362
koristiti statistike tablice ili program

Broj stupnjeva slobode = (R-1)(S-1)
17.03.2004.
39/56

FER

2005/2006
ANOVA
(ANALIZA VARIJANCE)
R.A. Fisher (1890. 1962.)
Fisher was a genius who almost single-handedly created the foundations for modern
statistical science .
Anders Hald A History of Mathematical Statistics (1998)
Svrha:
Nalaenje faktora koji najvie utjeu na model (primjer
regresija)
Reducira se na testiranje razlike izmeu srednjih
vrijednosti vie uzoraka.
U principu uzorci nisu nezavisni i dobiveni su dizajnom
eksperimenta (kada se kontrolira vrijednost faktora)
2 populacije ANOVA t-test
Zato se ne testira nizom t-testova?
1. broj testova n(n-1)/2
2. nivo znaajnosti se automatski poveava:
=0.01 za pojedinani test, vjerojatnost izbjegavanja
pogreke je 0.99 pa je vjerojatnost izbjegavanja pogreke
jest (1-)k za k testova. Vjerojatnost u k testova je 1(1-)k to je za k*10 iznosi 0.364
3. Individualni testovi nisu nezavisni jedan od drugog
4. Individualni testovi mogu proizvesti kontradiktoran
rezultat (sve su srednje vrijednosti jednake, jedan test
odbacuje hipotezu)
Testiranje
pomou usporedbom varijanci!
Varijanca je suma kvadrata devijacija podataka od njihove

srednje vrijednosti SS (sum of squares) podijeljena s (n-1).
17.03.2004.
40/56

FER

2005/2006
VARIJANCA MOE BITI PARTICIONIRANA!

TOTALNA VARIJABILNOST SSTOTAL =
VARIJABILNOST UNUTAR GRUPA
SSERROR (ILI RESIDUAL) +
VARIJABILNOST IZMEU GRUPA SS(EFFECT)
Particioniranje varijance:
O1
O2
O3
x
SS
Ukupna x
Total SS
Grupa 1
3
2
1
Grupa 2
6
7
5
2
2
6
2
4
28
Uoi: SS koji se temelji na varijabilnosti unutar grupa (2) je

znatno manje nego ukupana varijabilnost (28).
Razlog te razlike lei u razliitosti srednjih vrijednosti grupa!
ERROR variance (due to random error),

SS (unutar grupa) = 2 + 2 = 4
SS Effect, SS(zbog varijabilnosti sred.vr.) = 28 (2+2) = 24
TOTALNA
17.03.2004.
41/56

FER
Mnoge stat. procedure koriste omjer

2005/2006
Objanjena varijabilnost
Nebjanjena varijabilnost
Mean Square Effect MS

Varijabiln ost izmedju grupa
tj.
Varijabiln ost unutar grupa
Mean Square Error MS
Effect
Error
H0 nema razlike izmeu grupa
ak i kada vrijedi H0 oekujemo manje razlike u

oekivanjima izmeu grupa, ali procijenjene varijance
izmeu grupa i unutar grupa trebaju biti jednake.
F test da li se omjer varijanci bitno razlikuje od 1.
n broj elemenata, k broj grupa (uzoraka)

i indeks podatka u uzorku(grupi)
j je indeks grupe
F (n-k, k-1)
VANO: pretpostavke ANOVE:
Podaci su normalno distribuirani
Varijance uzoraka su jednake
Testiranje jednakosti varijanci: Barlett, Cochran
17.03.2004.
42/56

FER
17.03.2004.

2005/2006
43/56

FER

2005/2006
ANOVA I REGRESIJA
ANOVA je moni postupak za analizu kvalitete regresijskog

modela.
VARIJANCA
unutar
modela
moe
se
paticionirati, a zatim se ti dijelovi stavljaju u odnos tako
otkrivajui injenice o modelu!
ANOVA slui i za provjeru modela (goodness (or lack) of fit)
TOTALNA VARIJABILNOST SSTOTAL =

VARIJABILNOST REZIDUALA (POGREKE-ERROR)
SSRESIDUAL + VARIJABILNOST OBJANJENA REG. MODELOM
SSREG
SSTOTAL = ( yi y ) 2 = SS ERROR + SS REGRESSION = ( yi y i ) 2 + ( y i y ) 2
17.03.2004.
44/56

FER

2005/2006
VIESTRUKI REGRESIJSKI MODEL

(engl. Multiple Linear Regression)
Linearna regresija
Yi = a + bX i
Yi Yi
jest rezidual ili pogreka koja nastaje kada predviamo Y

u zavisnosti od X.
Reziduali predstavljaju onaj dio varijabilnosti koji nije mogue
objasniti modelom.
Reziduali se moraju paljivo provjeriti jer oni odraavaju ispunjavanje
pretpostavki modela najbolje grafiki (posebno za male uzorke kada
numeriki postupci nisu odgovarajui)
17.03.2004.
45/56

FER

2005/2006
(analiza reziduala - animacija linearna regresija - uvid u

zadovoljavanje pretpostavki - grafiki)
Najbolji
fit
regresijske
funkcije
moe
minimiziranjem sume kvadrata pogreke min
se
(Y Y )
i
dobiti
2
Da li se best fit moe dobiti na drugi nain ? Zato ba min

SS?
17.03.2004.
46/56

FER

2005/2006
Mjera korisnosti modela koeficijent determinacije R2

(goodness of fit)
Mjeri proporciju varijance zavisne varijable oko njezine srednje
vrijednosti koja je objanjena prediktorskim varijablama.
0 < R2 < 1
Vei R znai veu snagu modela u objanjavanju regresijske funkcije i
dakle, bolju predikciju zavisne varijable.
Osnovna ideja: izraunati redukciju pogreke predikcije kada je
informacija koju osigurava nezavisna varijabla ukljuena u model.
SSTOTAL = ( yi y ) 2 = SS ERROR + SS REGRESSION = ( yi y i ) 2 + ( y i y ) 2
17.03.2004.
47/56

FER

2005/2006
1. Ako nema x u modelu, tj. nema doprinosa x-a predikciji y onda je

najbolji pogodak srednja vrijednost y
2. Ako sada ukljuimo informacije s kojom x predvia y, pogreka

je reducirana. S obzirom da regresijska funkcija predstavlja najbolji
opis podataka (best fit) pogreka je
n
SS error = ( yi y i ) 2
i =1
R2 je relativno smanjenje pogreke kada je informacija o X

ukljuena u model
17.03.2004.
48/56

FER
R2 =

2005/2006
SS REG SSTOT SS ERR

=
SSTOT
SSTOT
To je koliina varijacije Y objanjena s X.

Za jednostavnu linearnu regresiju koeficijent
determinacije jest kvadrat korelacijskog koeficijenta
izmeu X i Y. (Pogledati animaciju RUVL kompozicija r2)
17.03.2004.
49/56

FER

2005/2006
Pretpostavke za jednostavnu linearnu i multiplu regresiju:
Odnos izmeu x i y je linearan (uoi razliku izmeu ne-linearne i

krivolinijske asocijacije moe biti transformirana).
Sve varijable su nezavisne, nema korelacije s bilo kojom treom
varijablom.
Za svaki X, vrijednosti Y su distribuirani normalno
Za svaki X, Y distribucija ima istu varijancu. (homoscedastic
data). HOMOSCEDASTIC data sluajna pogreka je normalno
distribuirana
To se grafiki provjerava crtanjem pogreke u odnosu na signal
bez pogreke.
17.03.2004.
50/56

FER

2005/2006
Vrlo esto nije zadovoljeno posebno kada podaci pokrivaju iroki

rang. Inae se kae da su podaci heteroscedatic sluajna
pogreka (rezidual) zavisi od jaine signala, veliine nezavisne
varijable.
17.03.2004.
51/56

FER
17.03.2004.

2005/2006
52/56

FER

2005/2006
VIE NEZAVISNIH VARIJABLI

(Francis Galton, 1886.)
y = a0 + a1 x1 + a2 x2 + + ak xk +
je ERROR ili RESIDUAL s oekivanjem 0.

Jednadba odreuje hiperravninu u k-dim prostoru (k broj
varijabli)
a0, a1, an odreeni tako da je suma kvadrata pogreke je
minimalna
Neke napomene za interpretaciju:
Za k = 1 jednostavna linearna regresija

F-ratio testira nultu hipotezu da su svi koeficijenti nezavisnih
varijabli 0 tj.
H0 a0 = a1 = = an = 0
F(k, n-k-1)
F se odnosi prema r2 (godness to of fit):
r 2 (n k 1)
F=
(1 r 2 )k
17.03.2004.
53/56

FER

2005/2006
SSRES je procjena varijabilnosti du regresijske linije i koristi se

za nalaenje procjenjene standardne pogreke pojedinih
regresijskih koeficijenata ai. Procjena standardne pogreke je
distribuirana kao t(n-k-1). Interval pouzdanosti je dan s
+/- t(/2, n-k-1)s(ai)
Ako su dvije nezavisne varijable izrazito korelirane, teko je
procijeniti
regresijske koeficijente i dobivene vrijednosti
koeficijenata ne reflektiraju stvarne ovisnosti. (vano: outlieri
mogu znaajno utjecati na kolinearnost!)
17.03.2004.
54/56

FER

2005/2006
RAUNANJE JEDINSTVENE I DIJELJENE VARIJANCE IZMEU

NEZAVISNIH VARIJABLI
Temelj za procjenu svih regresijskih odnosa je korelacija izmeu
nezavisne varijable i zavisnih varijabli.
Korelacija je osnova za oblikovanje regresijske varijate procjenom
regresijskih koeficijenata za za svaku nezavisnu varijablu koja
maksimizira predvianje zavisne varijable.
Za sluaj Y = a X1 + a0 postotak objanjene varijabilnosti zavisne
varijable je kvadrat korelacije
X1
Za sluaj vie nezavisnih varijabli potrebno je razmotriti postojanje

korelacije izmeu nezavisnih varijabli jer one dijele neto prediktivne
moi. Stoga se direktna korelacija zavisna i nezavisna varijable ne
moe uzeti u obzir.
Parcijalni korelacijski koeficijent je korelacija Xi i Yi kada su

utjecaji drugih nezavisnih varijabli uklonjeni.
Semiparcijalni koeficijent se razlikuje od gornjeg jer predstavlja
korelaciju Xi i Yi kada su efekti drugih nezivisnih varijabli uklonjeni
samo iz Xi.
Koristi se za identifikaciju varijable koje imaju najveu inkrementalnu
prediktivnu mo.
Kvadrat daje jedinstvenu varijancu obkenjenu s nezavisnom
varijablom.
17.03.2004.
Y1
55/56

FER

2005/2006
a
X1
17.03.2004.
c
b
X2
56/56

Uvod U Statisticko Zakljucivanje PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Uvod U Statisticko Zakljucivanje PDF

Uploaded by

Copyright:

Available Formats

Prof.dr.sc.

Bojana Dalbelo Bai

Uvod u statistiko zakljuivanje

Uvod u statistiko zakljuivanje

Statistika - Nazivlje ............................................................ 2

Statistika podjela statistikih analiza ................................. 2

Objekti, varijable, mjerne skale........................................... 3

Ekstremne i nedostajue vrijednosti podaci.......................... 4

Ciljevi statistike analize ..................................................... 9

Deskriptivna statistika ........................................................ 9

ebievljev teorem .......................................................... 15

Distribucija uzorkovanja srednje vrijednosti. ................... 22

Intervalne procjene ...................................................... 24

Binomna distribucija ..................................................... 25

Intervalne procjene proporcije....................................... 29

Testiranje hipoteza ....................................................... 30

Pogreke prvog i drugog reda........................................ 34

Primjer: testiranje proporcija ......................................... 36

Prof.dr.sc. Bojana Dalbelo Bai

Uvod u statistiko zakljuivanje

rije STATISTIKA (lat. status = stanje)

Statistika - science of making sense out of data.

2. Statistika podjela statistikih analiza

(numeriki i grafiki postupci, usporedba s EDA exploratory

Prof.dr.sc. Bojana Dalbelo Bai

Uvod u statistiko zakljuivanje

Prema broju varijabli u analizi

(testiranje, eksplorativna statistika)

Prema vrsti modela

3. Objekti, varijable, mjerne skale

Prof.dr.sc. Bojana Dalbelo Bai

Uvod u statistiko zakljuivanje

Varijable s obzirom na mjerne skale:

Prve dvije skale jo se zovu kategorijske (engl. categorical).

4. Ekstremne i nedostajue vrijednosti podaci

Prof.dr.sc. Bojana Dalbelo Bai

Uvod u statistiko zakljuivanje

Prof.dr.sc. Bojana Dalbelo Bai

Uvod u statistiko zakljuivanje

uklanjanje podataka (redaka) s nedostajuim

Prof.dr.sc. Bojana Dalbelo Bai

Uvod u statistiko zakljuivanje

Populacija, uzorak, uzorkovanje

Uzorak podskup populacije (konana ili beskonana).

esto nam vrijednosti parametra populacija nisu dostupne te

Prof.dr.sc. Bojana Dalbelo Bai

Uvod u statistiko zakljuivanje

Postupak uzimanja uzorka je uzorkovanje

Prof.dr.sc. Bojana Dalbelo Bai

Uvod u statistiko zakljuivanje

DESKRIPTIVNA I INFERENCIJALNA STATISTIKA

Prof.dr.sc. Bojana Dalbelo Bai

Uvod u statistiko zakljuivanje

Koliko podataka sadri IQR?

srednje apsolutno odstupanje

(s/x, bez dimenzije - usporedba disperzije

MAD (Median Absolute Deviation)

Prof.dr.sc. Bojana Dalbelo Bai

Uvod u statistiko zakljuivanje

Mjere zakrivljenosti i spljotenosti

Spljotenost (engl. kustosis)

Normalna distribucija ima oba parametra 0.

Prof.dr.sc. Bojana Dalbelo Bai