You are on page 1of 56

Prof.dr.sc.

Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Uvod u statistiko zakljuivanje


1.

Statistika - Nazivlje ............................................................ 2

2.

Statistika podjela statistikih analiza ................................. 2

3.

Objekti, varijable, mjerne skale........................................... 3

4.

Ekstremne i nedostajue vrijednosti podaci.......................... 4

5.

Ciljevi statistike analize ..................................................... 9

6.

Deskriptivna statistika ........................................................ 9

7.

Standardizacija ................................................................ 15

8.

ebievljev teorem .......................................................... 15

9.

Teorijske Distribucije........................................................ 16

10.

Distribucija uzorkovanja srednje vrijednosti. ................... 22

11.

Intervalne procjene ...................................................... 24

12.

Binomna distribucija ..................................................... 25

13.

Intervalne procjene proporcije....................................... 29

14.

Testiranje hipoteza ....................................................... 30

15.

Pogreke prvog i drugog reda........................................ 34

16.

Primjer: testiranje proporcija ......................................... 36

17.03.2004.

1/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

UVOD
Data mining = dubinska analiza (inteligentna analiza podataka)
= rudarenje podataka
Veina metoda za dubinsku analizu podataka (engl. data mining)
temelji se na multivarijatnoj statistici -> zahtijeva znanje temeljne
statistike!

1. Statistika - Nazivlje

rije STATISTIKA (lat. status = stanje)

Statistika - science of making sense out of data.


Statistika primijenjena u raznim znanostima nosi razliite
nazive: biometrija, psihometrija, tehnometrija itd.
Neka podruja znanosti razvila su vlastito nazivlje od tuda razliita
imena za iste metode!
(Primjer: PCA = Karhunen-Love transformacija; Z = U )

2. Statistika podjela statistikih analiza


Prema nainima stvaranja zakljuka
deskriptivna

(numeriki i grafiki postupci, usporedba s EDA exploratory


data analysis)

inferencijalna
(intervalne procjene, testiranje hipoteza na temelju uzorka)
KAKO ispravno generalizirati na temelju uzorka?

17.03.2004.

2/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Prema broju varijabli u analizi


rije VARIJABLA (engl. variable = variate = factor)

univarijatna
bivarijatna
multivarijatna

(testiranje, eksplorativna statistika)

Prema vrsti modela


parametarska
neparametarska
Inferencijalno statistiko zakljuivanje temelji se na
teoriji vjerojatnosti
Sluajni pokus, sluajni dogaaj
Sluajna varijabla
(pridruivanje numerike vrijednosti ishodu sluajnog pokusa)

3. Objekti, varijable, mjerne skale


Objekti (entiteti, jedinice)
Varijable (= obiljeja, znaajke, atributi)
Varijable s obzirom na ulogu u statistikoj analizi:
zavisne, kriterijske varijable
(engl. target, dependent, criterion, response variable)
SAS
nezavisne, prediktorske varijable
(engl. independent, predictior, controlled, regressor
variable)
(Primjer: kako spol, dob i obrazovanje utjeu na prihode ili, kako
prihodi, zaposlenost i posjedovanje nekretnina utjee na dodjelu
kredita)

17.03.2004.

3/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Varijable s obzirom na mjerne skale:


Mjerne skale:
nominalna (engl. nominal)
kvalitativne
ureajna ( relacija < ) (engl. ordinal)
[opservacije nisu ekvidistantne,
primjer: skala tvrdoe]
kvantitativne

intervalna (operacije + i -)
[ekvidistantne opservacije, nema ishodita,
primjer C, F]
racionalna (operacije +, -, *, /)
[primjer K]

Prve dvije skale jo se zovu kategorijske (engl. categorical).


Zadnje dvije jo se zovu metrika skala. Alternativni par
naziva: diskretne vs. kontinuirane.

4. Ekstremne i nedostajue vrijednosti podaci


(engl. outliers and missing values)
Statistical Computing
Metode multivarijatne statistike metode razvijene prije
nastanka raunala.
Masovna uporaba stat. metoda: GIGO efekt
Panja: u svakom velikom skupu podatka ima pogreaka.
Ekstremne vrijednosti (engl. outliers)
Podaci koji su nekonzistentni s veinom podataka.
Kako odeujemo outliere? Od kuda dolaze outlieri? to
uiniti s njima?
Vano je znati: Ekstremne vrijednosti mogu znaajno
utjecati na rezultate analize!
17.03.2004.

4/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Porijeklo
Provjeriti jesu li pogreke u unosu ili mjerenju! Ispraviti
ili podatke koje ne moemo ispraviti ukloniti.
Priroda pojave.
Odreivanje
Posebne metode. Grafike metode mogu pomoi!
Na temelju IQR-a: Q0.25-1.5IQR < x < Q0.75+1.5IQR
Na temelju teorema (ebiev): 4 od srednje
vrijednosti obuhvaa 94% podataka.
to uiniti?
Nema jedinstvenog recepta!
Potrebno iskustvo eksperta.
Da li nas takvi podaci vode prema istini?
DA - tada ukljuiti u analizu.
NE - ukloniti podatke. Opisati u izvjetaju
strunjaci s drugaijim miljenjem mogu raditi
alternativne analize.
Nedostajue vrijednosti
nadomjetanje s nulom ili nekom konstantom
nadomjetanje sa srednjom vrijednou (panja moe
kreirati outliere !) za metrike podatke ili s najee
pojavljivanim atributom za nemetrike podatke

17.03.2004.

5/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

uklanjanje podataka (redaka) s nedostajuim


vrijednostima (nije zadovoljavajue ali je najsigurnije)
Primjer: 2000 podataka od toga 1300 sa nedostajuim
vrijednostima!
Razmotriti strategiju uzorkovanja! Zato potroiti
resurse za sakupljanje nepotpunih podataka koji e biti
odbaeni.
Nadomjetanje s najee pojavljivanom vrijednou u
klasi
Regresija
EM algoritam (engl. Expectation Maximization)

17.03.2004.

6/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Populacija, uzorak, uzorkovanje


Populacija skup svih moguih vrijednosti nekog opaanja
ili mjerenja - ne objekata!
(matematiki: vrijednosti sluajne varijable).
(broj elemenata N)

Uzorak podskup populacije (konana ili beskonana).


Populacija je opisana parametrima.
na populaciju i oznaava se malim grkim slovima (, ,
itd).
Statistika (ili procjenitelj) - procjena nekog parametra
populacije na temelju uzorka

srednja
vrijednost
standardna
devijacija
varijanca
proporcija

parametar

statistika

s2
p

esto nam vrijednosti parametra populacija nisu dostupne te


ih procjenjujemo na temelju uzorka. (broj elemenata n)

17.03.2004.

7/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Postupak uzimanja uzorka je uzorkovanje


1. s vraanjem ili
2. bez vraanja
Sluajni uzorak je reprezentativni uzorak. Nalaenje
reprezentativnog uzorka moe biti zahtjevno, i zato esto
pristrano!
(Primjer: telefonska anketa)
Uzimanje (sluajnog) reprezentativnog uzorka:
1. Numerirati objekte
2. Generirati onoliko sluajnih brojeva koliki je uzorak
(tablica ili generator sluajnih brojeva)
3. Uzeti one objekte koji odgovaraju tim brojevima
Stratificiran uzorak (engl. stratified random sample)
Uzorak dobiven podjelom populacije na nepreklapajue
dijelove, (engl. strata) i uzimanje sluajnog uzorka iz svakog
dijela.
vana metoda kada je jedna od ciljnih klasa vrlo mala u
odnosu na populaciju
Napomena: jo se esto koristi termin particija skupa za
podjelu skupa na nepreklapajue dijelove.

17.03.2004.

8/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

DESKRIPTIVNA I INFERENCIJALNA STATISTIKA


5. Ciljevi statistike analize
skupljanje
podataka

manipulacija
podacima

interpretacija

redukcija podataka
alat za inferencijalno
zakljuivanje
identifikacija relacija ili
asocijacija (grupiranja)
meu podacima

6. Deskriptivna statistika
Mjere centralne tendencije:
aritmetika sredina (engl. mean)
medijan
mod
geometrijska sredina
harmonijska sredina

17.03.2004.

9/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Mjere rasipanja
varijanca (srednje kvadratno odstupanje)
standardna devijacija
rang (max-min)
interkvartilni rang

Koliko podataka sadri IQR?

srednje apsolutno odstupanje


koeficijent varijacije

(s/x, bez dimenzije - usporedba disperzije


raznorodnih nizova)
GINI

1
yi y j
n i< j

2

MAD (Median Absolute Deviation)


MAD = medi |yi medj(yj)|

17.03.2004.

10/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

Uvod u statistiko zakljuivanje


2005/2006

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Mjere zakrivljenosti i spljotenosti


Zakrivljenost (engl. skewness)
pozitivna

nula

Spljotenost (engl. kustosis)


negativna

negativna

pozitivna

Normalna distribucija ima oba parametra 0.

Distribucije frekvencija
relativne
kumulativne
teorijski model

17.03.2004.

11/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

Uvod u statistiko zakljuivanje


2005/2006

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Grafiki prikazi empirijskih distribucija :


histogrami
Histogram (Irisdat.sta 5v*150c)
SEPALLEN = 150*0,5*normal(x; 5,8433; 0,8281)
40
35
30

No of obs

25
20
15
10
5
0
3,5

4,0

4,5

5,0

5,5

6,0

6,5

7,0

7,5

8,0

8,5

SEPALLEN

poligoni
box and whisker plot
Box Plot (Irisdat.sta 5v*150c)
8,5
8,0
7,5

SEPALLEN

7,0
6,5
6,0
5,5
5,0
4,5
4,0
SETOSA

VERSICOL

VIRGINIC

Median
25%-75%
Non-Outlier Range
Outliers

IRISTYPE

17.03.2004.

12/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

stem and leaf plot

17.03.2004.

13/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Provjera normalnosti podataka: grafiki prikazi (najee


histrogrami)+ testovi (Shapiro-Wilk, Kolmogorov-Smirnov).

Prikaz multivarijatnih podataka Chernoff faces

17.03.2004.

14/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

7. Standardizacija
Omoguava odreivanje relativnog poloaja nekog podatka
(u ekonomiji z-skor) i time usporedbu podataka razliitih
obiljeja:

u=

xx
s

Standardizirane vrijednosti varijable pokazuju relativan


poloaj neke vrijednosti u nizu, one ne ovise o mjernim
jedinicama pa slue za usporedbu raznorodnih nizova.
8. ebievljev teorem
Za bilo koju distribuciju vrijedi da se u intervalu

x k, k>1 nalazi se najmanje (1-1/k2)% podataka.


Primjer
Za k= 2 izraunamo da je barem 75% podataka unutar
intervala x 2s.

17.03.2004.

15/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Za podatke distribuirane po normalnoj distribuciji vrijedi:


U intervalu x s nalazi se priblino 68% podataka,
U intervalu x 2s nalazi se priblino 95% podataka,
U intervalu x 3s nalazi se priblino 99% podataka.

9. Teorijske Distribucije
Najvanije su:
binomna
normalna

t distribucija (Gosset)

17.03.2004.

16/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

F distribucija (Fisher)

To su distribucije uzorkovanja (opisane matematiki) koje


nastaju ponovljenim uzorkovanjima i izraunom statistike
(procjenitelja) iz uzorka. (simulacija)
*

Normalna distribucija
f ( x) =

1 x

Normalna distribucija s
oekivanjem = 0 i
standardnom devijacijom = 1.


1
e 2
2

X : N(0,1) - Oznaavamo je s
U ili Z.

0.4

Vrijednosti vjerojatnosti tj.


povrina ispod krivulje U dani su
u statistikim tablicama.

0.3

0.2

0.1

-3

-2

-1

Uobiajena oznaka za normalnu distribuciju s parametrima: oekivanjem i varijancom 2 je


N(, 2).
17.03.2004.

17/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Velika veina obiljeja u prirodi distribuirana je prema normalnoj razdiobi.

Iz tablica za jedininu normalnu distribuciju U oitavamo:


P( -1.65 < U < 1.65) = 90%
P( -1.96 < U < 1.96) = 95%
P( -2.58 < U < 2.58) = 99%
Neka je X normalno distribuirana, tj. X: N(, 2). Vrijedi
transformacija:
STANDARDIZACIJA

najvanija transformacija podataka

- svoenje X: N(, 2) na U sa transformacijom


X:N( , 2 )

17.03.2004.

U=

X
.

P( - 1.65 < X < + 1.65) = 90%


P( - 1.96 < X < + 1.96) = 95%
P( - 2.58 < X < + 2.58) = 99%

18/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

INFERENCIJALNA STATISTIKA
Populacija uzorak, parametar, statistika (procjenitelj)
populacija

smjer
zakljuivanja

uzorak

Populacija skup svih moguih vrijednosti opaanja ili


mjerenja, ne objekata ili
(matematiki: vrijednosti sluajne varijable).
(broj elemenata N)
Uzorak podskup populacije (konana ili beskonana).
- uzorkovanje (s vraanjem ili bez)
- sluajni uzorak (svaki element populacije
ima istu vjerojatnost biti izabran!) (broj
elemenata n)

Parametar je bilo koja funkcija populacije, neko svojstvo


populacije koje nas zanima, npr. srednja vrijednost,
standardna devijacija, proporcija, itd. Parametar se odnosi
na populaciju i oznaava se malim grkim slovima (, ,
itd).
esto nam vrijednosti parametra populacija nisu dostupne te
ih procjenjujemo na temelju uzorka.
Procjena nekog parametra populacije na temelju uzorka
naziva se statistika (ili procjenitelj) i oznaava se malim
slovima ( x , s, p,). Openito je vrijednost statistike i
nepoznatog parametra populacije dana s izrazom:

17.03.2004.

19/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

nepoznato

Parametar_populacije = Statistika pogreka

Ono to elimo znati je s kojom tonou (preciznou) i s


kojom
pouzdanou
(vjerojatnosti),
neka
statistika
procjenjuje parametar populacije.
Primjer: = x pogreka
Parametar (, , 2) svojstvo populacije
Statistika ( x , p, s2) funkcija uzorka
populacija PARAMETAR

uzorak
STATISTIKA

- za svaki novi uzorak izvuen iz iste populacije (istog


osnovnog skupa) moemo dobiti razliitu vrijednost
statistike.
(animacija)
Ali, ako znamo kako je statistika uzorka distribuirana tj.
ako znamo kako je distribuirana vrijednost statistike ( x ) na
temelju beskonano mnogo uzoraka iste veliine izvuenih iz
te populacije (to je distribucija vjerojatnosti statistike
uzorka)

17.03.2004.

20/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Ta se distribucija vjerojatnosti statistike uzorka naziva se


DISTRIBUCIJA UZORKOVANJA
(engl. sampling distribution)

Ako znamo distribuciju uzorkovanja tada uz pomo


vjerojatnosti moemo procijeniti s kojom pouzdanou se
parametar populacije nalazi u odreenim granicama.
Dakle, moemo odrediti granice oko x u kojima se nalazi
parametar i pridruenu vjerojatnost za takvo odstupanje.
( = x pogreka, uz odreenu vjerojatnost, tj.
pouzdanost).

Poznavanje distribucije uzorkovanja neke statistike temelj je


za inferencijalno statistiko zakljuivanje (intervale
procjene parametara populacije, testiranje hipoteza).
Svaki
parametar
populacije
(srednja
vrijednost
,
2
proporcija , varijanca , ) ima svoju distribuciju
uzorkovanja.
Vano svojstvo distribucije vjerojatnosti statistike su njezino
oekivanje i standardna devijacija. Ta se standardna
devijacija distribucije neke statistike naziva STANDARDNA
POGREKA (SE).
Od posebnog je znaenja distribucija uzorkovanja srednje
vrijednosti.

17.03.2004.

21/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

10.

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Distribucija uzorkovanja srednje vrijednosti


CENTRALNI GRANINI TEOREM

Neka je dana populacija sa srednjom vrijednou i


standardnom devijacijom .
Neka je x srednja vrijednost od n sluajno odabranih
nezavisnih opservacija iz te populacije.
Distribucija uzorkovanja srednje vrijednosti pribliava se
normalnoj sa oekivanjem i standardnom devijacijom

, kada n
n

(pogledati tekst i simulacije na adresi

http://www.ruf.rice.edu/~lane/rvls.html, posebno za ilustraciju CGT pogledati


animirani primjer na adresi
http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html)

Standardna pogreka (engl. standard error) nekog


parametra je sandardna devijacija distribucije uzorkovanja
tog parametra. Ponekad se oznaava sa SE.
Primjer: Standardna pogreka distribucije uzorkovanja

srednje vrijednosti je SE = X = X , gdje je X sluajna


n
varijabla osnovnog skupa (na primjer: visine populacije
studenata Zagrebakog Sveuilita, teine proizvoda koje
proizvede neka tvornica, itd.). esto se umjesto X pie
samo .

Prije smo napomenuli da je


Parametar = Statistika pogreka.

17.03.2004.

22/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Ako za statistiku koja nas zanima odaberemo srednju


vrijednost tada je
= x pogreka.
No sada, na temelju centralnog graninog teorema koji nam
kae da su srednje vrijednosti uzoraka veliine n takoer
distribuirane normalno sa standardnom pogrekom SE =

, moemo pisati:
n

= x up

, sa pouzdanou I(up),

gdje je u0 vrijednost jedinine normalne razdiobe, a I(up)


pripadna pouzdanost (vjerojatnost). Te se vrijednosti
oitavaju u statistikim tablicama.
up
pouzdanost I(up)

1.64
90%

1.96
95%

2.58
99%

Intervalna procjena oekivanja (za velike uzorke, n30)


= x up

, sa pouzdanou I(up),

dok je za male uzorke umjesto vrijednosti up jedinine


normalne distribucije vrijednost studentove t-distribucije
koja se oitava iz statistikih tablica za zadani broj stupnjeva
slobode k, gdje je k=n-1, a n je broj elemenata u uzorku.
= x t(k)

, s pouzdanou ovisnom o t(k).

Centralni granini teorem (CGT)

17.03.2004.

U=

23/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

11.

Uvod u statistiko zakljuivanje


2005/2006

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Intervalne procjene

Iz tvrdnje CGT-a slijede formule za


Intervalne procjene oekivanja (za velike n, n>30):

X :N( , 2/n )

< < x + 1.65


) = 90%
n
n

< < x + 1.96


) = 95%
P( x - 1.96
n
n

< < x + 2.58


) = 99%
P( x - 2.58
n
n
P( x - 1.65

Primjer:

Naka je X je normalno distribuirana sl. varijabla (krae emo rei


normalna distribucija).
Naka su parametri od X oekivanje 34 i standardna devijacija 4.
To zapisujemo X:N(34, 42).
Kolika je vjerojatnost da sluajno izvuen primjer iz te distribucije
poprimi vrijednost veu od 30?
P(X > 30) = P(U > (30 34)/4) ) = P(U > -1) = (oitavamo iz stat.
tablica) = 0.841
Ako sada izvlaimo uzorak od 16 elemenata iz zadane distribucije X:
N(34, 42) i raunamo srednju vrijednost, kolika je vjerojatnost da
srednja vrijednost izraunata iz tog uzorka bude vea od 30?
Prema CGT, X je distribuirano s oekivanjem 34 i standardnom
devijacijom SE = 4 16 = 1, dakle
P( X > 30) =(standardizacija)=P(U > (30 34)/1) ) = P( U > -4) = 1.
0.4

0.3

0.2

0.1

-7.5

17.03.2004.

-5

-2.5

2.5

7.5

24/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

12.

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Binomna distribucija

Sluajni pokus: dva mogua ishoda, A i nonA.


Vjerojatnost dogaaja A, P(A) = i vjerojatnost da se ne desi A,
P(non A) = 1 - .

Primjer: Promatramo jedan proizvod: proizvod je ispravan s

vjerojatnou . Mogui dogaaji:


A = proizvod je ispravan, P(A) =
non A = proizvod je neispravan, P(non A) = 1 - .

Pretpostavimo da imamo nizove od n takvih nezavisnih pokusa


(Bernoullijevi nizovi).
Kolika je vjerojatnost da e se dogaaj A pojaviti tono x puta u tom
nizu?
Primjer: Uzorak od n proizvoda, kolika je vjerojatnost da tono x od n
proizvoda ( 0 x n ) bude ispravno?
Binomna sluajna varijabla s parametrima n i .
Kolika je vjerojatnost da e se dogaaj A pojaviti tono x puta u tom
nizu? tj. Kolika je vjerojatnost da sluajna varijabla X poprimi
vrijednost x?
n

P(X = x) = x (1 )n x
x

17.03.2004.

(1)

25/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

Uvod u statistiko zakljuivanje


2005/2006

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Kolika je vjerojatnost da e se dogaaj A pojaviti izmeu x1 i x2 puta u


tom nizu od n pokusa?
P(x1 X x2) =

n
i (1 )
x2

i = x1

n i

. (2)

Oekivanje binomne sluajne varijable X je E(X) = n


Varijanca binomne sluajne varijable V(X) = 2 = n(1-)

Primjer:

n = 15, = 0.2 x = 4
P(X = 4) = 0.188

Primjer:

Da li je povoljno kladiti se da e u 24 uzastopna bacanja


igrae kocke
barem jednom pasti
dvostruka
estica?

Primjer:

N = 300, = 0.2, P( 100 > X > 50) = ?

17.03.2004.

26/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Aproksimacija binomne normalnom (Moivre-Laplaceova formula)


x n
x n
.
U 2
P(x1 X x 2 ) P 1

(
)
(
)
1

n
n

Uz uvjet n > 5 i n(1-) > 5.


Proporcija
X binomna sluajna varijabla s parametrima n i , tj.
X:B(, n)
Proporcija je omjer P = X/n.

17.03.2004.

27/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Distribucija uzorkovanja proporcije.


Promatramo nizove od n elemenata.
Zanima nas broj elemenata u tom nizu od n koji imaju neko
svojstvo A. Oznaimo taj broj s x.
(Bernoullijevi nizovi)
Proporcija P je omjer P = X/n

Primjer.
Neka je dana neka hipoteza h.
Pretpostavimo da imamo uzorak sastavljen 14
elemenata tj. primjera za uenje. Ako 8 od 14 primjera
zadovoljava hipotezu h tada je proporcija uspjeha
hipoteze h na tom skupu (uzorku) jednaka p1 = x/n =
8/14.
Uzmimo neki drugi uzorak tj. skup primjera za uenje i
neka je na tom skupu proporcija valjanosti hipoteza
p2 = 5/14.
Neka je dan neki trei skup primjera za uenje iste
veliine i neka je na njemu p3 = 7/14.
.
Ako nastavimo s tim postupkom u dobivamo
distribuciju uzorkovanja proporcije koju
oznaavamo s P.
(Posljedica Moivre -Laplaceovog teorema - CGT)
Distribucija uzorkovanja proporcije za velike n pribliava
se normalnoj distribuciji s
Oekivanjem

Standardnom devijacijom P =

17.03.2004.

(1 )
.
n

28/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

13.

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Intervalne procjene proporcije

Parametar populacije = statistika_uzorka pogreka


Primjeri: = p pogreka, = x pogreka.
Na temelju poznate distribucije uzorkovanja proporcije
izvode se intervalne procjene proporcije.
(1 )
(1 )
< < p + 2.58
) = 99%
n
n
(1 )
(1 )
P( p 1.96
< < p + 1.96
) = 95%
n
n

P( p - 2.58

Primjer:
Jedan strijelac je pogodio 5 puta u metu od 10 pokuaja.
Drugi strijelac je pogodio 50 puta u metu od 100 pokuaja.
to moemo rei o pravoj proporciji pogodaka jednog i drugog
strijelca.

0.5(1 0.5)
0.5(1 0.5)
< < 0.5 + 1.96
) = 95%
10
10
0.5(1 0.5)
0.5(1 0.5)
< < 0.5 + 1.96
) = 95%
P( 0.5 1.96
100
100
P( 0.5 1.96

Prvi strijelac:
P( 0.5 1.96*0.158 < < 0.5 + 1.96*0.158) = 95%
P( 0.5 0.31 < < 0.5 + 0.31) = 95%
P( 0.19 < < 0.81) = 95%
Drugi strijelac:
P( 0.5 1.96*0.05 < < 0.5 + 1.96*0.05) = 95%
P( 0.5 0.098 < < 0.5 + 0.098) = 95%
P( 0.402 < < 0.598) = 95%

17.03.2004.

29/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

14.

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Testiranje hipoteza

1. direktno statistiko zakljuivanje (inferencijalno): tokovne ili

intervalne procjene

- uzorak koristimo za procjenu parametra populacije.


2. indirektno: testiranje hipoteza
Uzorak podrava ili diskreditira a priori postavljenu tvrdnju ili
pretpostavku o stvarnoj vrijednosti parametra populacije
Hipoteza o populacionom parametru proizlazi iz
prethodnih ispitivanja
teoretskih pretpostavki.

Ako postupkom testiranja naemo da je H0 neprihvatljiva s aspekta


vjerojatnosti, tada prihvaamo (vjerujemo) u alternativnu hipotezu.
Isto kao to ne moemo nai 100% interval pouzdanosti tako ni
testiranje ne daje 100% sigurnost u ispravnost odluke ve su
pouzdanosti s kojim radimo 90, 95, 99%. Naime, u postupku
testiranja unaprijed zadajemo (i time kontroliramo) pogreku (tj. rizik
s kojim radimo statistiki test) a to je vjerojatnost odbacivanja istinite
hipoteze. Ta se vjerojatnost naziva nivo signifikantnosti (nivo
znaajnosti) ili pogreka prvog reda i oznaava se s .

17.03.2004.

30/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Postupak:
Postavljaju se dvije meusobno iskljuive hipoteze koje zajedniki
iscrpljuju sve mogunosti:

dvostrani test

H0 = a
H1 a
ili
H0 =
H1 <
ili
H0 =
H1 >

jednostrani
testovi

a
a
a
a

U zadnja dva sluaja moramo biti sigurni da > a,


< a, nije mogue !!!
Povrina odgovara
vjerojatnosti , tj. nivou
signifikantnosti testa

jednostrani test

Povrine zajedno
odgovaraju
vjerojatnosti ,
tj. nivou
signifikantnosti testa

dvostrani test

Postavljanje hipoteza deava se na logikoj razini, tj. vezano je za


problem poznavanja podruja problema. Prihvaanje hipoteze tj.
vjerovanje u odreenu hipotezu je stvar statistike odluke.

17.03.2004.

31/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Primjer:
H0 = 20
H1 20
Uzorak od 100 elemenata dao je
a) x = 19.1
b) x = 19.9
c) x = 16.
Pretpostavimo da znamo da je st.dev. populacije = 3.
Pitanje je da li je mogue, tj. koliko je vjerojatno da dobijemo srednju
vrijednost uzorka x = 19.1 ako je = 20. Ako je ta vjerojatnost mala
onda smo skloni ne vjerovati u pretpostavku iz nulte hipoteze.
Pitanje je koliko je to malo vjerojatno ?
Obino je to 1% ili 5% i naziva se nivo znaajnosti
(signifikantnosti) i oznaava se s .
je vjerojatnost odbacivanja istinite hipoteze!
Rizik testiranja koji se odreuje unaprijed!
a) x = 19.1, odaberemo = 0.05 tj. 5%. Radimo dvostrani U - test.
U=

19.1 20
=-3
3
100

Vjerojatnost da je P (U < - 3) je praktiki jednaka 0 (pa onda i


2*P (U < - 3)0, jer radimo dvostrani test pa gledamo povrine u oba
repa), tj. ta je vjerojatnost puno manja od 0.05 (koliki je nivo
signifikantnosti testa) pa odbacujemo nultu hipotezu.
Interpretacija: Vjerojatnost da na temelju uzorka od 100 elemenata
dobijemo srednju vrijednost 19.1, ako je prava vrijednost 20, je
praktiki nula pa smo stoga skloni NE vjerovati u nultu hipotezu tj.
odbacujemo je.
b) x = 19.9, odaberemo = 0.05 tj. 5%. Radimo dvostrani U - test.
17.03.2004.

32/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

U=

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

19.9 20
= - 0.33
3
100

Iz statistikih tablica slijedi da je vjerojatnost 2*P (U < - 0.33) =


2*0.37 = 0.74 to je puno vee od = 0.05 (koliki je nivo
signifikantnosti testa) => prihvaamo nultu hipotezu.
Interpretacija: Nemamo razloga, na temelju predoenog uzorka
(uzorak od 100 elemenata ija je srednja vrijednost x =19.9),
sumnjati u istinitost nulte hipoteze!
Vjerojatnost da dobijemo srednju vrijednost uzorka (po apsolutnoj
vrijednosti jednaku ili veu od) x = 19.1 je 0.74, ako je stvarna
srednja vrijednost populacije 20. To je puno vea vjerojatnost od 0.05
to je granina vjerojatnost s kojom radimo testiranje.
Mogli bi rei da uzorak podrava tvrdnju iz nulte hipoteze s
vjerojatnou 0.74.

Dvostrani test:
ukupna provrina
(vjerojatnost)
2*P (U < - 0.33)
2*0.37 = 0.74

Povrina
Povrina
0.37
=0.37
-0.33

17.03.2004.

Povrina
= 0.37
0.33

33/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

15.

Uvod u statistiko zakljuivanje


2005/2006

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Pogreke prvog i drugog reda

Prilikom testiranja moemo uiniti dva tipa pogreaka.


Greke I i II reda.
Usporedba postupka statistikog testiranja i pravosudnog postupka:
H0 Osumnjieni je nevin
H1 Osumnjieni je kriv

Odluka
suda
Nevin
Kriv

Stvarno stanje
Nevin
Kriv

pogreka

pogreka

Zakljuak

H0

prihvaamo

H0

odbacujemo

Stvarno stanje
H0 je istina H0 je la

(greka
II reda)
(greka I

reda)

Pogreka I reda ili je pogreka koju uvijek moemo kontrolirati


prilikom statistikog zakljuivanja. Ona se zadaje unaprijed, a
hipoteze se formuliraju tako da ona pogreka koja nam je vanija
bude pogreka prvog reda . Na primjer, u pravosudnom postupku
moemo uiniti dvije pogreke, da nevinog ovjeka osudimo ili da
krivog oslobodimo. Moemo se odluiti da je vanije kontrolirati
vjerojatnost pogreke da nevinog ovjeka osudimo.
Formuliramo hipoteze:
H0 Osumnjieni je nevin i
H1 Osumnjieni je kriv.
Pogreka prvog reda ili je vjerojatnost odbacivanja hipoteze H0
kada je ona zapravo istinita, tj. u ovom sluaju vjerojatnost da
nevinog ovjeka proglasimo krivim.
Kada bi obrnuli hipoteze i stavili H0 Osumnjieni je kriv, tada bi
zadavali unaprijed i time kontrolirali pogreku da krivog ovjeka
oslobodimo.
Pogreka II reda ili
Vjerojatnost prihvaanja hipoteze H0 kada je H1 istina (dakle H0 je
la)!
U naem primjeru postavljenih hipoteza:
H0 Osumnjieni je nevin
17.03.2004.

34/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

H1 Osumnjieni je kriv
to je sluaj kada je osumnjieni zaista kriv no mi ga proglasimo
nevinim.
ovisi o:
pravoj vrijednosti parametra o kojem raspravljamo (alternativna
hipoteza), pada kada je vea razlika izmeu pretpostavljene i

prave vrijednosti parametra koji se testira (distribucije su


razdijeljene)
pogreci , tj. raste kada pada i obrnuto, te jednostranom ili
dvostranom testu,
standardnoj devijaciji populacije, se poveava to je st.dev.

populacije vea

veliini uzorka, se smanjuje kada veliina uzorka raste.


zadnja dva parametra odreuju standardnu pogreku SE.

17.03.2004.

35/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

16.

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Primjer: testiranje proporcija

1. Formuliranje statistike hipoteze


H0 = 0.005
H1 < 0.005
(jednostrani, lijevi test podruje
odbacivanja hipoteze je na lijevo)
2. Odredi statistiku za testiranje : proporcija P
P
Znamo da vrijedi U =
p(1 p)
n
3. Odaberi nivo znaajnosti testa tj. pogreku prvog reda ,
neka je = 5% i pripadnu kritinu vrijednost oitaj iz
tablica.
Za odabrani nivo znaajnosti i jednostrani test ukrit=-1.64
4. Uzmi sluajan uzorak n=2000 i izraunaj vrijednost
statistike P na njemu, tj. p=3/2000=0.0015
0.0015 0.005
u=
= 2.26
0.005(1 0.005)
2000
5. Donesi odluku:
Ako je izraunata vrijednost statistike u < ukrit odbaci
nultu hipotezu. Kako je 2.26 < -1.64 H0 odbacujemo!

17.03.2004.

36/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

Uvod u statistiko zakljuivanje


2005/2006

BILJEKE ZA PREDAVANJA
(za internu uporabu)

0.4

0.3

Povrina
=5%

0.2

0.1

-3

-2

-1

Podruje prihvaanja H0

Podruje
odbacivanja H0

-1.64

0.0

-2.26

17.03.2004.

37/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

2 test

Neparametarski test
Koristi se za dvije kategorije testova:
Testiranje ponaanja po distribuciji ( engl. goodness of
fit )
Testiranje nezavisnosti klasifikacija: kontigencijske
tablice (engl. contigency tables)
H0 dvije kvalitativne populacijske varijable su nezavisne
RxS tablice

2 = (fobs- fizracunata)2 / fizracunata

PU A I

NEPU A I

total

MU KARCI

110

90

200

ENE

104

96

200

total

214

186

400

17.03.2004.

38/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Teorijske frekvencije

PUAI

NEPUAI

total

MUKARCI

107=
(214*200/400)

93

200

ENE

107

93

200

total

214

186

400

2 = (110-107)2/107 + (104-107)2/107 +(90-93)/93 +(96-93)/93 =


0.084 + 0.084 + 0.097 + 0.097 = 0.362

koristiti statistike tablice ili program


Broj stupnjeva slobode = (R-1)(S-1)

17.03.2004.

39/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

ANOVA

(ANALIZA VARIJANCE)
R.A. Fisher (1890. 1962.)
Fisher was a genius who almost single-handedly created the foundations for modern
statistical science .
Anders Hald A History of Mathematical Statistics (1998)

Svrha:
Nalaenje faktora koji najvie utjeu na model (primjer
regresija)
Reducira se na testiranje razlike izmeu srednjih
vrijednosti vie uzoraka.
U principu uzorci nisu nezavisni i dobiveni su dizajnom
eksperimenta (kada se kontrolira vrijednost faktora)
2 populacije ANOVA t-test
Zato se ne testira nizom t-testova?
1. broj testova n(n-1)/2
2. nivo znaajnosti se automatski poveava:
=0.01 za pojedinani test, vjerojatnost izbjegavanja
pogreke je 0.99 pa je vjerojatnost izbjegavanja pogreke
jest (1-)k za k testova. Vjerojatnost u k testova je 1(1-)k to je za k*10 iznosi 0.364
3. Individualni testovi nisu nezavisni jedan od drugog
4. Individualni testovi mogu proizvesti kontradiktoran
rezultat (sve su srednje vrijednosti jednake, jedan test
odbacuje hipotezu)

Testiranje

pomou usporedbom varijanci!

Varijanca je suma kvadrata devijacija podataka od njihove


srednje vrijednosti SS (sum of squares) podijeljena s (n-1).
17.03.2004.

40/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

Uvod u statistiko zakljuivanje


2005/2006

BILJEKE ZA PREDAVANJA
(za internu uporabu)

VARIJANCA MOE BITI PARTICIONIRANA!


TOTALNA VARIJABILNOST SSTOTAL =
VARIJABILNOST UNUTAR GRUPA
SSERROR (ILI RESIDUAL) +
VARIJABILNOST IZMEU GRUPA SS(EFFECT)

Particioniranje varijance:

O1
O2
O3

x
SS
Ukupna x
Total SS

Grupa 1
3
2
1

Grupa 2
6
7
5

2
2

6
2
4
28

Uoi: SS koji se temelji na varijabilnosti unutar grupa (2) je


znatno manje nego ukupana varijabilnost (28).
Razlog te razlike lei u razliitosti srednjih vrijednosti grupa!

ERROR variance (due to random error),


SS (unutar grupa) = 2 + 2 = 4
SS Effect, SS(zbog varijabilnosti sred.vr.) = 28 (2+2) = 24
TOTALNA

17.03.2004.

41/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Mnoge stat. procedure koriste omjer

Uvod u statistiko zakljuivanje


2005/2006

Objanjena varijabilnost
Nebjanjena varijabilnost

Mean Square Effect MS


Varijabiln ost izmedju grupa
tj.
Varijabiln ost unutar grupa
Mean Square Error MS

Effect
Error

H0 nema razlike izmeu grupa

ak i kada vrijedi H0 oekujemo manje razlike u


oekivanjima izmeu grupa, ali procijenjene varijance
izmeu grupa i unutar grupa trebaju biti jednake.
F test da li se omjer varijanci bitno razlikuje od 1.

n broj elemenata, k broj grupa (uzoraka)


i indeks podatka u uzorku(grupi)
j je indeks grupe
F (n-k, k-1)
VANO: pretpostavke ANOVE:
Podaci su normalno distribuirani
Varijance uzoraka su jednake
Testiranje jednakosti varijanci: Barlett, Cochran

17.03.2004.

42/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

17.03.2004.

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

43/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

ANOVA I REGRESIJA

ANOVA je moni postupak za analizu kvalitete regresijskog


modela.
VARIJANCA
unutar
modela
moe
se
paticionirati, a zatim se ti dijelovi stavljaju u odnos tako
otkrivajui injenice o modelu!
ANOVA slui i za provjeru modela (goodness (or lack) of fit)

TOTALNA VARIJABILNOST SSTOTAL =


VARIJABILNOST REZIDUALA (POGREKE-ERROR)
SSRESIDUAL + VARIJABILNOST OBJANJENA REG. MODELOM
SSREG

SSTOTAL = ( yi y ) 2 = SS ERROR + SS REGRESSION = ( yi y i ) 2 + ( y i y ) 2

17.03.2004.

44/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

VIESTRUKI REGRESIJSKI MODEL


(engl. Multiple Linear Regression)
Linearna regresija

Yi = a + bX i
Yi Yi

jest rezidual ili pogreka koja nastaje kada predviamo Y


u zavisnosti od X.
Reziduali predstavljaju onaj dio varijabilnosti koji nije mogue
objasniti modelom.
Reziduali se moraju paljivo provjeriti jer oni odraavaju ispunjavanje
pretpostavki modela najbolje grafiki (posebno za male uzorke kada
numeriki postupci nisu odgovarajui)

17.03.2004.

45/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

(analiza reziduala - animacija linearna regresija - uvid u


zadovoljavanje pretpostavki - grafiki)
Najbolji

fit

regresijske

funkcije

moe

minimiziranjem sume kvadrata pogreke min

se

(Y Y )
i

dobiti
2

Da li se best fit moe dobiti na drugi nain ? Zato ba min


SS?

17.03.2004.

46/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Mjera korisnosti modela koeficijent determinacije R2


(goodness of fit)
Mjeri proporciju varijance zavisne varijable oko njezine srednje
vrijednosti koja je objanjena prediktorskim varijablama.
0 < R2 < 1
Vei R znai veu snagu modela u objanjavanju regresijske funkcije i
dakle, bolju predikciju zavisne varijable.
Osnovna ideja: izraunati redukciju pogreke predikcije kada je
informacija koju osigurava nezavisna varijabla ukljuena u model.

SSTOTAL = ( yi y ) 2 = SS ERROR + SS REGRESSION = ( yi y i ) 2 + ( y i y ) 2

17.03.2004.

47/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

1. Ako nema x u modelu, tj. nema doprinosa x-a predikciji y onda je


najbolji pogodak srednja vrijednost y

2. Ako sada ukljuimo informacije s kojom x predvia y, pogreka


je reducirana. S obzirom da regresijska funkcija predstavlja najbolji
opis podataka (best fit) pogreka je
n

SS error = ( yi y i ) 2
i =1

R2 je relativno smanjenje pogreke kada je informacija o X


ukljuena u model

17.03.2004.

48/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

R2 =

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

SS REG SSTOT SS ERR


=
SSTOT
SSTOT

To je koliina varijacije Y objanjena s X.


Za jednostavnu linearnu regresiju koeficijent
determinacije jest kvadrat korelacijskog koeficijenta
izmeu X i Y. (Pogledati animaciju RUVL kompozicija r2)

17.03.2004.

49/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Pretpostavke za jednostavnu linearnu i multiplu regresiju:

Odnos izmeu x i y je linearan (uoi razliku izmeu ne-linearne i


krivolinijske asocijacije moe biti transformirana).
Sve varijable su nezavisne, nema korelacije s bilo kojom treom
varijablom.
Za svaki X, vrijednosti Y su distribuirani normalno
Za svaki X, Y distribucija ima istu varijancu. (homoscedastic
data). HOMOSCEDASTIC data sluajna pogreka je normalno
distribuirana
To se grafiki provjerava crtanjem pogreke u odnosu na signal
bez pogreke.

17.03.2004.

50/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

Vrlo esto nije zadovoljeno posebno kada podaci pokrivaju iroki


rang. Inae se kae da su podaci heteroscedatic sluajna
pogreka (rezidual) zavisi od jaine signala, veliine nezavisne
varijable.

17.03.2004.

51/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

17.03.2004.

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

52/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

VIE NEZAVISNIH VARIJABLI


(Francis Galton, 1886.)
y = a0 + a1 x1 + a2 x2 + + ak xk +

je ERROR ili RESIDUAL s oekivanjem 0.


Jednadba odreuje hiperravninu u k-dim prostoru (k broj
varijabli)
a0, a1, an odreeni tako da je suma kvadrata pogreke je
minimalna

Neke napomene za interpretaciju:

Za k = 1 jednostavna linearna regresija


F-ratio testira nultu hipotezu da su svi koeficijenti nezavisnih
varijabli 0 tj.
H0 a0 = a1 = = an = 0
F(k, n-k-1)
F se odnosi prema r2 (godness to of fit):

r 2 (n k 1)
F=
(1 r 2 )k
17.03.2004.

53/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

SSRES je procjena varijabilnosti du regresijske linije i koristi se


za nalaenje procjenjene standardne pogreke pojedinih
regresijskih koeficijenata ai. Procjena standardne pogreke je
distribuirana kao t(n-k-1). Interval pouzdanosti je dan s
+/- t(/2, n-k-1)s(ai)
Ako su dvije nezavisne varijable izrazito korelirane, teko je
procijeniti
regresijske koeficijente i dobivene vrijednosti
koeficijenata ne reflektiraju stvarne ovisnosti. (vano: outlieri
mogu znaajno utjecati na kolinearnost!)

17.03.2004.

54/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

RAUNANJE JEDINSTVENE I DIJELJENE VARIJANCE IZMEU


NEZAVISNIH VARIJABLI
Temelj za procjenu svih regresijskih odnosa je korelacija izmeu
nezavisne varijable i zavisnih varijabli.
Korelacija je osnova za oblikovanje regresijske varijate procjenom
regresijskih koeficijenata za za svaku nezavisnu varijablu koja
maksimizira predvianje zavisne varijable.
Za sluaj Y = a X1 + a0 postotak objanjene varijabilnosti zavisne
varijable je kvadrat korelacije

X1

Za sluaj vie nezavisnih varijabli potrebno je razmotriti postojanje


korelacije izmeu nezavisnih varijabli jer one dijele neto prediktivne
moi. Stoga se direktna korelacija zavisna i nezavisna varijable ne
moe uzeti u obzir.

Parcijalni korelacijski koeficijent je korelacija Xi i Yi kada su


utjecaji drugih nezavisnih varijabli uklonjeni.
Semiparcijalni koeficijent se razlikuje od gornjeg jer predstavlja
korelaciju Xi i Yi kada su efekti drugih nezivisnih varijabli uklonjeni
samo iz Xi.
Koristi se za identifikaciju varijable koje imaju najveu inkrementalnu
prediktivnu mo.
Kvadrat daje jedinstvenu varijancu obkenjenu s nezavisnom
varijablom.

17.03.2004.

Y1

55/56

Prof.dr.sc. Bojana Dalbelo Bai


FER

BILJEKE ZA PREDAVANJA
(za internu uporabu)

Uvod u statistiko zakljuivanje


2005/2006

a
X1

17.03.2004.

c
b

X2

56/56

You might also like