Professional Documents
Culture Documents
Uvod U Statisticko Zakljucivanje PDF
Uvod U Statisticko Zakljucivanje PDF
BILJEKE ZA PREDAVANJA
(za internu uporabu)
2.
3.
4.
5.
6.
7.
Standardizacija ................................................................ 15
8.
9.
Teorijske Distribucije........................................................ 16
10.
11.
12.
13.
14.
15.
16.
17.03.2004.
1/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
UVOD
Data mining = dubinska analiza (inteligentna analiza podataka)
= rudarenje podataka
Veina metoda za dubinsku analizu podataka (engl. data mining)
temelji se na multivarijatnoj statistici -> zahtijeva znanje temeljne
statistike!
1. Statistika - Nazivlje
inferencijalna
(intervalne procjene, testiranje hipoteza na temelju uzorka)
KAKO ispravno generalizirati na temelju uzorka?
17.03.2004.
2/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
univarijatna
bivarijatna
multivarijatna
17.03.2004.
3/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
intervalna (operacije + i -)
[ekvidistantne opservacije, nema ishodita,
primjer C, F]
racionalna (operacije +, -, *, /)
[primjer K]
4/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Porijeklo
Provjeriti jesu li pogreke u unosu ili mjerenju! Ispraviti
ili podatke koje ne moemo ispraviti ukloniti.
Priroda pojave.
Odreivanje
Posebne metode. Grafike metode mogu pomoi!
Na temelju IQR-a: Q0.25-1.5IQR < x < Q0.75+1.5IQR
Na temelju teorema (ebiev): 4 od srednje
vrijednosti obuhvaa 94% podataka.
to uiniti?
Nema jedinstvenog recepta!
Potrebno iskustvo eksperta.
Da li nas takvi podaci vode prema istini?
DA - tada ukljuiti u analizu.
NE - ukloniti podatke. Opisati u izvjetaju
strunjaci s drugaijim miljenjem mogu raditi
alternativne analize.
Nedostajue vrijednosti
nadomjetanje s nulom ili nekom konstantom
nadomjetanje sa srednjom vrijednou (panja moe
kreirati outliere !) za metrike podatke ili s najee
pojavljivanim atributom za nemetrike podatke
17.03.2004.
5/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
6/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
srednja
vrijednost
standardna
devijacija
varijanca
proporcija
parametar
statistika
s2
p
17.03.2004.
7/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
8/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
manipulacija
podacima
interpretacija
redukcija podataka
alat za inferencijalno
zakljuivanje
identifikacija relacija ili
asocijacija (grupiranja)
meu podacima
6. Deskriptivna statistika
Mjere centralne tendencije:
aritmetika sredina (engl. mean)
medijan
mod
geometrijska sredina
harmonijska sredina
17.03.2004.
9/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Mjere rasipanja
varijanca (srednje kvadratno odstupanje)
standardna devijacija
rang (max-min)
interkvartilni rang
1
yi y j
n i< j
2
17.03.2004.
10/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
nula
negativna
pozitivna
Distribucije frekvencija
relativne
kumulativne
teorijski model
17.03.2004.
11/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
No of obs
25
20
15
10
5
0
3,5
4,0
4,5
5,0
5,5
6,0
6,5
7,0
7,5
8,0
8,5
SEPALLEN
poligoni
box and whisker plot
Box Plot (Irisdat.sta 5v*150c)
8,5
8,0
7,5
SEPALLEN
7,0
6,5
6,0
5,5
5,0
4,5
4,0
SETOSA
VERSICOL
VIRGINIC
Median
25%-75%
Non-Outlier Range
Outliers
IRISTYPE
17.03.2004.
12/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
13/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
14/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
7. Standardizacija
Omoguava odreivanje relativnog poloaja nekog podatka
(u ekonomiji z-skor) i time usporedbu podataka razliitih
obiljeja:
u=
xx
s
17.03.2004.
15/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
9. Teorijske Distribucije
Najvanije su:
binomna
normalna
t distribucija (Gosset)
17.03.2004.
16/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
F distribucija (Fisher)
Normalna distribucija
f ( x) =
1 x
Normalna distribucija s
oekivanjem = 0 i
standardnom devijacijom = 1.
1
e 2
2
X : N(0,1) - Oznaavamo je s
U ili Z.
0.4
0.3
0.2
0.1
-3
-2
-1
17/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
U=
X
.
18/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
INFERENCIJALNA STATISTIKA
Populacija uzorak, parametar, statistika (procjenitelj)
populacija
smjer
zakljuivanja
uzorak
17.03.2004.
19/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
nepoznato
uzorak
STATISTIKA
17.03.2004.
20/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
21/56
10.
BILJEKE ZA PREDAVANJA
(za internu uporabu)
, kada n
n
17.03.2004.
22/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
, moemo pisati:
n
= x up
, sa pouzdanou I(up),
1.64
90%
1.96
95%
2.58
99%
, sa pouzdanou I(up),
17.03.2004.
U=
23/56
11.
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Intervalne procjene
X :N( , 2/n )
Primjer:
0.3
0.2
0.1
-7.5
17.03.2004.
-5
-2.5
2.5
7.5
24/56
12.
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Binomna distribucija
P(X = x) = x (1 )n x
x
17.03.2004.
(1)
25/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
n
i (1 )
x2
i = x1
n i
. (2)
Primjer:
n = 15, = 0.2 x = 4
P(X = 4) = 0.188
Primjer:
Primjer:
17.03.2004.
26/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
(
)
(
)
1
n
n
17.03.2004.
27/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Primjer.
Neka je dana neka hipoteza h.
Pretpostavimo da imamo uzorak sastavljen 14
elemenata tj. primjera za uenje. Ako 8 od 14 primjera
zadovoljava hipotezu h tada je proporcija uspjeha
hipoteze h na tom skupu (uzorku) jednaka p1 = x/n =
8/14.
Uzmimo neki drugi uzorak tj. skup primjera za uenje i
neka je na tom skupu proporcija valjanosti hipoteza
p2 = 5/14.
Neka je dan neki trei skup primjera za uenje iste
veliine i neka je na njemu p3 = 7/14.
.
Ako nastavimo s tim postupkom u dobivamo
distribuciju uzorkovanja proporcije koju
oznaavamo s P.
(Posljedica Moivre -Laplaceovog teorema - CGT)
Distribucija uzorkovanja proporcije za velike n pribliava
se normalnoj distribuciji s
Oekivanjem
Standardnom devijacijom P =
17.03.2004.
(1 )
.
n
28/56
13.
BILJEKE ZA PREDAVANJA
(za internu uporabu)
P( p - 2.58
Primjer:
Jedan strijelac je pogodio 5 puta u metu od 10 pokuaja.
Drugi strijelac je pogodio 50 puta u metu od 100 pokuaja.
to moemo rei o pravoj proporciji pogodaka jednog i drugog
strijelca.
0.5(1 0.5)
0.5(1 0.5)
< < 0.5 + 1.96
) = 95%
10
10
0.5(1 0.5)
0.5(1 0.5)
< < 0.5 + 1.96
) = 95%
P( 0.5 1.96
100
100
P( 0.5 1.96
Prvi strijelac:
P( 0.5 1.96*0.158 < < 0.5 + 1.96*0.158) = 95%
P( 0.5 0.31 < < 0.5 + 0.31) = 95%
P( 0.19 < < 0.81) = 95%
Drugi strijelac:
P( 0.5 1.96*0.05 < < 0.5 + 1.96*0.05) = 95%
P( 0.5 0.098 < < 0.5 + 0.098) = 95%
P( 0.402 < < 0.598) = 95%
17.03.2004.
29/56
14.
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Testiranje hipoteza
intervalne procjene
17.03.2004.
30/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Postupak:
Postavljaju se dvije meusobno iskljuive hipoteze koje zajedniki
iscrpljuju sve mogunosti:
dvostrani test
H0 = a
H1 a
ili
H0 =
H1 <
ili
H0 =
H1 >
jednostrani
testovi
a
a
a
a
jednostrani test
Povrine zajedno
odgovaraju
vjerojatnosti ,
tj. nivou
signifikantnosti testa
dvostrani test
17.03.2004.
31/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Primjer:
H0 = 20
H1 20
Uzorak od 100 elemenata dao je
a) x = 19.1
b) x = 19.9
c) x = 16.
Pretpostavimo da znamo da je st.dev. populacije = 3.
Pitanje je da li je mogue, tj. koliko je vjerojatno da dobijemo srednju
vrijednost uzorka x = 19.1 ako je = 20. Ako je ta vjerojatnost mala
onda smo skloni ne vjerovati u pretpostavku iz nulte hipoteze.
Pitanje je koliko je to malo vjerojatno ?
Obino je to 1% ili 5% i naziva se nivo znaajnosti
(signifikantnosti) i oznaava se s .
je vjerojatnost odbacivanja istinite hipoteze!
Rizik testiranja koji se odreuje unaprijed!
a) x = 19.1, odaberemo = 0.05 tj. 5%. Radimo dvostrani U - test.
U=
19.1 20
=-3
3
100
32/56
U=
BILJEKE ZA PREDAVANJA
(za internu uporabu)
19.9 20
= - 0.33
3
100
Dvostrani test:
ukupna provrina
(vjerojatnost)
2*P (U < - 0.33)
2*0.37 = 0.74
Povrina
Povrina
0.37
=0.37
-0.33
17.03.2004.
Povrina
= 0.37
0.33
33/56
15.
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Odluka
suda
Nevin
Kriv
Stvarno stanje
Nevin
Kriv
pogreka
pogreka
Zakljuak
H0
prihvaamo
H0
odbacujemo
Stvarno stanje
H0 je istina H0 je la
(greka
II reda)
(greka I
reda)
34/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
H1 Osumnjieni je kriv
to je sluaj kada je osumnjieni zaista kriv no mi ga proglasimo
nevinim.
ovisi o:
pravoj vrijednosti parametra o kojem raspravljamo (alternativna
hipoteza), pada kada je vea razlika izmeu pretpostavljene i
populacije vea
17.03.2004.
35/56
16.
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
36/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
0.4
0.3
Povrina
=5%
0.2
0.1
-3
-2
-1
Podruje prihvaanja H0
Podruje
odbacivanja H0
-1.64
0.0
-2.26
17.03.2004.
37/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
2 test
Neparametarski test
Koristi se za dvije kategorije testova:
Testiranje ponaanja po distribuciji ( engl. goodness of
fit )
Testiranje nezavisnosti klasifikacija: kontigencijske
tablice (engl. contigency tables)
H0 dvije kvalitativne populacijske varijable su nezavisne
RxS tablice
PU A I
NEPU A I
total
MU KARCI
110
90
200
ENE
104
96
200
total
214
186
400
17.03.2004.
38/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Teorijske frekvencije
PUAI
NEPUAI
total
MUKARCI
107=
(214*200/400)
93
200
ENE
107
93
200
total
214
186
400
17.03.2004.
39/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
ANOVA
(ANALIZA VARIJANCE)
R.A. Fisher (1890. 1962.)
Fisher was a genius who almost single-handedly created the foundations for modern
statistical science .
Anders Hald A History of Mathematical Statistics (1998)
Svrha:
Nalaenje faktora koji najvie utjeu na model (primjer
regresija)
Reducira se na testiranje razlike izmeu srednjih
vrijednosti vie uzoraka.
U principu uzorci nisu nezavisni i dobiveni su dizajnom
eksperimenta (kada se kontrolira vrijednost faktora)
2 populacije ANOVA t-test
Zato se ne testira nizom t-testova?
1. broj testova n(n-1)/2
2. nivo znaajnosti se automatski poveava:
=0.01 za pojedinani test, vjerojatnost izbjegavanja
pogreke je 0.99 pa je vjerojatnost izbjegavanja pogreke
jest (1-)k za k testova. Vjerojatnost u k testova je 1(1-)k to je za k*10 iznosi 0.364
3. Individualni testovi nisu nezavisni jedan od drugog
4. Individualni testovi mogu proizvesti kontradiktoran
rezultat (sve su srednje vrijednosti jednake, jedan test
odbacuje hipotezu)
Testiranje
40/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Particioniranje varijance:
O1
O2
O3
x
SS
Ukupna x
Total SS
Grupa 1
3
2
1
Grupa 2
6
7
5
2
2
6
2
4
28
17.03.2004.
41/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Objanjena varijabilnost
Nebjanjena varijabilnost
Effect
Error
17.03.2004.
42/56
17.03.2004.
BILJEKE ZA PREDAVANJA
(za internu uporabu)
43/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
ANOVA I REGRESIJA
17.03.2004.
44/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
Yi = a + bX i
Yi Yi
17.03.2004.
45/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
fit
regresijske
funkcije
moe
se
(Y Y )
i
dobiti
2
17.03.2004.
46/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
47/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
SS error = ( yi y i ) 2
i =1
17.03.2004.
48/56
R2 =
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
49/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
50/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
51/56
17.03.2004.
BILJEKE ZA PREDAVANJA
(za internu uporabu)
52/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
r 2 (n k 1)
F=
(1 r 2 )k
17.03.2004.
53/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
17.03.2004.
54/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
X1
17.03.2004.
Y1
55/56
BILJEKE ZA PREDAVANJA
(za internu uporabu)
a
X1
17.03.2004.
c
b
X2
56/56