You are on page 1of 61

Višestruka Linearna Regresija

1
Uvod

• Kada se izvodi ?
A) kada pokušavamo opisati set podataka,
B) kada parametri u poznatoj naučnoj jednačini
treba da budu procijenjeni,
C) kada pokušavamo razviti nove modele koji
opisuju ili predviđaju specifičnu izlaznu
varijablu,
D) kada pokušavamo kontrolisati ili optimirati
procese.
2
Regresioni model
• Je linearna funkcija nepoznatih parametara b0, b1, b2, i td..
• Dobija se istovremenom regresijom zavisne varijable Y u zavisnosti od
VIŠE nezavisnih varijabli xi

Y  b0  b1 x1  b 2 x2    b m xm  
Y  f (X )  
f ( X ) - Deterministička funkcija
 - Greška sa određenom raspodjelom
Izvori greške:
- slučajna ili greška mjerenja
- greška usljed nemogućnosti fitovanja funkcijom

Krajnji cilj Regresije je MINIMIZIRATI ovu drugu grešku


3
Regresioni Model
Višestruka linearna regresija može iznaći model sa članovima višeg
reda (kvadratni, kubni, ..) izvedene iz nezavisnih varijabli:

Y  b 0  b1 x1  b 2 x2  b 3 x1 x2  b 4 x1  
2

x3  x1 x2 , x4  x1
2

Y  b 0  b1 x1  b 2 x2  b 3 x3  b 4 x4  

Neke nelinearne zavisnosti se mogu linearizirati:

K  C n meb T
1
ln K  ln C  n ln   m ln   β
T
Y  b 0  b1 x1  b 2 x2  b 3 x3
4
Ilustracija – uticaj članova višeg reda na
oblik funkcije
E (Y )  50  10 x1  7 x2 E (Y )  50  10 x1  7 x2  5 x1 x2

E (Y )  800  10 x1  7 x2  8.5 x1  5 x2  4 x1 x2
2 2

5
Interpretacija koeficijenata
Y  b0  b1 x1  b2 x2  
b3
b2 b1

Y  b0  b1 x1  b2 x2  b3 x1 x2  
b1
b1
b2
b0 b0

Nema interakcije Ima interakcije 6


Metod najmanjih kvadrata
pretpostavke
E(y|x3)

1. Greška  je normalno
raspoređena,
E(y|x2)
2. E() = 0, sa srednjom
vrijednošću 0, E(y|x1)
3. Standardna devijacija y je ista
za sve vrijednosti y i iznosi s
4. Nema varijacije postavljenih
vrijednosti nezavisnih varijabli xi
x1 x2 x3

7
Metod najmanjih kvadrata
Yi  b 0  b1 xi1  b 2 xi 2    b k xi ,m   i
m
 b 0   b j xij   i i  1,...,n
j 1
2
n n
 m

Funkcija najmanjih kvadrata L    i    yi  b 0   b j xij 
2

i 1 i 1  j 1 

Procjene b0, b1, …, bm , koeficijenata b0, b1, …, bm moraju zadovoljiti uslove:

L  n m

 2  yi  b0   b j xij   0
b0 i 1  j 1 
b ,b ,..., b
i
0 1 m

L n
 m

 2  yi  b0   b j xij xij  0 j  1,...m
b j i 1  j 1 
b0 ,b1 ,..., bm
8
Metod najmanjih kvadrata
Pošto je:
  y  Xbˆ 
n
L        y  Xbˆ
T
2 T
i
i 1

 ( y  Xbˆ )T ( y  Xbˆ )  y T y  2bˆ T X T y  bˆ T ( X T X ) bˆ

L
 0  X T X bˆ  X T y
b

b  X X  X T y
ˆ T 1
Odakle je:
9
Matrični pristup VLR
• Najjednostavniji način rješavanja sistema jednačina je tzv.
Matrični pristup. Sistem jednačina u matričnoj notaciji je:

bˆ   X T X  X T y
1

• Minimizacija sume kvadratnih odstupanja daje rješenje, odnosno


koeficijente b0, b1, …, bm koji procjenjuju nepoznate b0, b1, …, bm
• Procedura izračunavanja idealna za kompjuter
10
Procjena Varijanse greške modela (2)
Slučajna komponenta  je najbitniji dio regresionog modela a
određuje se na bazi sume kvadratnih odstupanja:

  y  Xbˆ 
2

SSE    yi  yˆ i 
n n
       y  Xbˆ
T
2 T
i
i 1 i 1

Procjena varijanse greške se izračunava dijeljenjem sa brojem


steprni slobode df=(n-p):

SSE
S  MSE 
2

n p
Gdje je:n broje eksperimenata a p broj članova u regresionom modelu sa
slobodnim članom.

11
Procjena Standardne greške modela ()
Procjena standardne greške je kvadratni korijen iz varijanse
greške S:
SSE SSE
S   S 
2

n p n p

• Mala vrijednost ukazuje na (po definiciji) malu varijaciju


grešaka oko predviđenih srednjih vrijednosti.
• Pošto je po pretpostavci srednja vrijednost grešaka nula,
mala varijacija znači je standardna greška blizu nuli.
• Bolji model je onaj sa manjom standardnom greškom
• Kako odrediti da li je vrijednost greške Mala/Velika?
12
Procjena Varijanse greške za individualne
regresione koeficijente
Koeficijenti b0, b1, …, bm procjenjuju nepoznate b0, b1, , bm i u
stvari predstavljaju najbolje procjene (srednje vrijednosti) pri čemu
se pri svakoj procjeni pravi greška. Vektor varijansi grešaka
vezanih za procjene individualnih koeficijenata je:
Var bˆ   2C   j jj

,a vrijednosti Cjj su dijagonalni članovi matrice kovarijansi:

 C00  C0 m  Matrica kovarianse


C  X X       
' 1

 
Cm 0  Cmm 
Napomena: Vrijedi za Striktnu pretpostavku da su greške konstantne i normalno raspoređene sa N(0, 2): 13
Primjer 1
Za ispitivanje „vijeka“ alata pri obradi čelika sa srednjim sadržajem ugljika sa alatima sa TiN
presvlakom izvršen je eksperiment.
Brzina rezanja v, posmak f i dubina rezanja uzeti na dva nivoa i izvršen je eksperiment, a
rezultati su dati u tabeli ispod.

Potrebno je: korištenjem višestruke linearne regresije iznaći model sa linearnim članovima,
odrediti koeficijente uz nezavisno promjenljive i izračunati standardnu grešku.

14
Ciljevi analize Pr.1
PREDVIĐANJE
Iznaći jednačinu koja optimalno
predviđa određeni fenomen

CILJ !?
OBJAŠNJENJE
Razumijevanje fenomena (pojave) -
istražuje vezu između varijabli (jačinu i
prirodu veze)

15
Matrični pristup – Excel Pr.1
T  b0  b1v  b 2 f  b3d  

1 350 0,04 0,3 160


C  X T X  
1
1 350 0,04 1,2 120
1 350 0,32 0,3 110
1 350 0,32 1,2 20
X Y XT y 
1 270 0,04 0,3 60
1 270 0,04 1,2 50
b̂   X T X  X T y 
1
1 270 0,32 0,3 7
1 270 0,32 1,2 2

Excell funkcije: aktiviranje sa Ctrl+Shift+Enter nakon unosa


“=mmult (array;array)” . “=minvrse(array)” , “=transpose(array)”
Prethodno potrebno rezervisati prostor u skladu sa redom matrice (plavi
16
dio iznad)
Regresioni model – Pr.1

• Četiri nezavisne varijable potencijalno objašnjavaju


zavisnu varijablu

Koeficienti Komponeta greške

T  245,80  0,54v  224,11 f  40,27 d  

Zavisna variabla Nezavisne variable

17
Interpretacija Modela
Način interpretiranja koeficijenata b1 do b4

y = b0 + b1x1 + b2x2 +..+ bkxk


y = b0 + b1(x1+1) + b2x2 +…+ bkxk
= b0 + b1x1 + b2x2 +…+ bkxk + b1
T  245,80  0,54v  224,11 f  40,27 d
1.Svako povećanje brzine rezanja za 1 m/min uzrokovat će smanjenje srednje vrijednosti
vijeka trajanja alata za 0,54 minute
2. Povećanje posmaka za 1 mm/o uzrokovat će smanjenje srednje vrijednosti vijeka trajanja
alata za 224,11 minuta (za 0,01 mm/o smanjenje Tsr za 2,24 minute)
3. Povećanje dubine za 1 mm uzrokovat će smanjenje srednje vrijednosti vijeka trajanja
alata za 40,27 minuta (za 0,1 mm smanjenje Tsr za 4,03 minute)
18
Procjena modela Primjer1
Procjena Standardne Greške
Yex p Ypr ed rez  Yex p - Ypr ed
SSE y T y  bˆ T X T y
S   
2

n p n p
58653  56068 ,5
  646,125
84
 S  646,125  25,42 n
y  66,125 SSE   rezi
1

Da li je vrijednost standardne greške Mala/Velika?


- ugrubo rang +- 50min obuhvata 95% grešaka
- nije zadovoljen kriterij uporedbe maksimalnog apsolutnog
reziduala sa srednjom vrijednošću zavisne varijable (udio oko
30% a kriterij 0,1%) 19
Dodatna pitanja??
1. Da li varijacija pojedinih nezavisno-promjenljivih varijabli
ZNAČAJNO utiče na varijaciju zavisne varijable?

2. Koliki udio varijacije u ukupnoj objašnjava regresioni model

3. Da li su pretpostavke o greškama zadovoljene?

4. Da li ima boljih modela?

5. Koja nezavisno promjenljiva ima najjači uticaj?

6. Da li su interakcije pojedinih nezavisno promjenljivih


značajne?
20
Testiranje značajnosti individualnih
regresionih koeficijenata (S/N odnos)
Pocijenjeni koeficijenti imaju srednju vrijednost i standardnu grešku:

 
E ( b i )  bˆi i SE βˆi  S2C jj

H0  0

SEb1  SEbi  SEb2 


b1 b2
bi
1 α 1 α
 Vrijednost koeficijenta

Ukoliko oblast (1-α obično područje koje obuhvata 95% vrijednosti) obuhvata vrijednost nula (0) tada
je vrijednost procijenjenog koeficijenta toliko blizu nuli da bi se mogla pripisati standardnoj grešci
vezanoj za taj koeficijent, u suprotnom imamo sistemsko odstupanje koje ukazuje na značajnost.
21
1. Testiranje značajnosti individualnih
regresionih koeficijenata
Individualni t-test testira hipotezu:
H 0 : bi  0 naspram H1 : bi  0

za svaki regresioni koeficijent parcijalno, dok su ostale nezavisno


promjenljive već u modelu.

- Ovaj test baziran je na Studentovoj t statistici datoj sa:


bˆ i  bi bˆ i
t 
SE bi 
ˆ ˆ 2C jj
za d f = (n - p) stepeni slobode.
22
“pristup kritična vrijednost”
H0  0

t  raspodjela
SEb2  za (n  p)df
tkrit
SEb1 
t1rac  tkrit
b1 b2
1 α b1 b2
t1rac  tkrit  t (standardna dev.)

bi  0 bi
trac  
SE bi  S2C jj

Korištenje pristupa “kritični nivo”


- izračunava se t-statistika za svaki koeficijent iz odnosa vrijednost koeficijenta/standardna
greška (signal naspram šum), te se izračunata vrijednost poredi sa kritičnom uzetom iz t-raspodjele za
zahtijevani nivo značajnosti (obično 0,05) i broj stepeni slobode (n-p). Ukoliko je apsolutna vrijednost t-
statistike manja od kritične tada koeficijent nije STATISTIČKI ZNAČAJAN. (Ne odbacuje se Ho na zadanom
nivou pouzdanosti (obično 0,05). EXCELL “=tinv(0,05;n-p)” “Enter”
23
Testiranje Validnosti modela
• Postavljamo pitanje:
Da li postoji barem jedna nezavisna varijabla koja je u linearnoj
vezi sa zavisnom varijablom? Koja uzrokuje varijaciju zavisne
varijable.
• Za odgovor na pitanje testiramo hipotezu:

H0: b1 = b2 = … = bk = 0
H1: najmanje jedan bi je različita od nule

• Ukoliko je najmanje jedan bi različit od nule, model ima određenu


validnost.

24
Testiranje Validnosti Modela
1. Definiše se Srednja Kvadratno Odstupanje Regresije (MSR)
2. Definiše se Srednja Kvadratna Greška (MSE)
SSR SSE
MSR  MSE 
k n  k 1
K – broj nezavisno promjenljivih (bez slobodnog člana bo), n broj eksperimenata

Y Y Y

Y Y

X X X

Ukupna Varijacija Objašnjena Varijacija Neobjašnjena Varijacija


Syy SSR SSE
25
(yi-y)2= (y-yf)2+ (yi-yf)2
Testiranje Validnosti Modela
Odnos MSR/MSE ima F-raspodjelu

SSR Region odbacivanja


MSR k
F 
MSE SSE
n  k 1 F>Fa,i,n-i-1
F D is trib utio n fo r 4 and 2 0 D e g re e s o f F re e d o m
10% Izračunato
0 .7
5% 1%
0 .6

0 .5

0 .4
Pdf

0 .3

0 .2

0 .1

0 .0

0 5 10 15
F r a ti o

Ukoliko F odnos pada u (95%) područje tada nema razlike u


varijacijama usljed regresije i usljed greške (vrijednosti suma potiču iz 26
iste normalne raspodjele – uticaj i greška S/N pomiješani)
2. Koeficijent Determinacije
• Još jedan pokazatelj da li je standardna greška S mala,
ili ne?
• Procjenjuje koliki udio varijabiliteta zavisne varijable ‘y’
vrijednosti je objašnjen regresionim modelom.
Koeficijent determinacije se izračunava iz odnosa:
SSR SST  SSE
R 
2

SST SST
Vidljivo je da, SSE (pa i s) utiče na vrijednost R2.

27
Primjer interpretacije
Koeficijenta Determinacije
R2 = 0.955

što znači da je 95.5% variabiliteta


vrijednosti izlazne varijable objašnjeno
regresionim modelom.

Alternativna mjera jačine regresionog modela je “Podešeni” Koeficijent


Determinacije (može se i smanjiti sa dodavanjem nove promjenljive!):

 MSE 
R 2 (adj)  1  100 %
 SST n  1 
Pri procjeni modela oba koeficijenta treba uporediti. Ukoliko je razlika
značajna to je pokazatelj Overfitting-a: 28
3. Analiza Reziduala
(provjera pretpostavki o modelu)
• Reziduali
rez  y  yˆ
• Standardizirani Reziduali
rezi rezi
di   2
MSE S
• A) korelacija reziduala sa nezavisno promjenljivim
• B) provjera pretpostavke o normalnom rasporedu greški
(reziduala)
29
Analiza Reziduala
A)
• Korelacija reziduala sa nezavisno promjenljivim i sa rezultatima
predviđanja poredanim po rastućem redoslijedu

• Ukoliko korelacija postoji, izabrani model nije adekvatan da fituje podatke (npr
uvođenje x12 u model..)

30
Analiza Reziduala
B) Normal Probability Plot (Kumulativna vjerovatnoća
naspram reziduala poredanih po rastućem redoslijedu)

Normal Probaility Plot


1,20
R2 = 0,9344
1,00
Kumulativna
vjerovatnoća

0,80
0,60

0,40
0,20

0,00
-0,15 -0,10 -0,05 -0,200,00 0,05 0,10 0,15

Reziduali

Kumulativna vjerovatnoća
k  0,5
Pk  (k  1,2,3..., n)
n
31
Procedura Regresione Analize
• step-by-step pristup:
1. Odrediti regresioni model.
2. izvršiti F test (anova test) i R 2 da se odredi kako dobro model fituje
(eksperimentalne) podatke
3. Provjeriti t-test za pojedine regresione koeficijente da se vidi koji su
značajno uticajni u prisustvu ostalih
4. Ukoliko se komparira više različitih modela koristiti R 2(adj) da se uporedi
njihova efektivnost
5. izvršiti analizu reziduala da se provjere pretpostavke (regresione)
6. Izbor najboljeg regresionog modela
- postepeno uvođenje članova (prvo linearni a potom interakcije ...)
- postepena eliminacija članova (prvo složen model a potom
uproštavanje)
32
Primjer 1 - nastavak
1. t-vrijednosti
2. Intervali 95% Excel
3. t-kritično
4. P<> od α (0.05)
5. SSE, SSR
6. F-računsko
7. F-kritično
“=finv(0,05;p-1,n-p)”
8. Koeficijent
determinacije
9. Podešeni koeficijent
determinacije

33
Provjera pretpostavki
Residuals vs. Predicted T(min)

30,000
20,000
10,000
Residuals

0,000
-10,000
-20,000
-30,000
-40,000
-50,00 0,00 50,00 100,00 150,00 200,00
Predicted T(min)

Cumulative Probability vs. Residuals y = 0,0154x + 0,5


2
R = 0,9389
1,00
Cumulative Probability

0,80

0,60

0,40
0,20

0,00
-40,000
-0,20 -30,000 -20,000 -10,000 0,000 10,000 20,000 30,000

Residuals

Dodatno DZ-provjera normalnosti reziduala –grafički Lekcija 4


Grafička interpretacija

120,0 140,0

100,0 120,0

100,0
80,0 120,0-140,0
100,0-120,0 80,0 100,0-120,0

T(min)

T(min)
60,0 80,0-100,0 60,0 80,0-100,0
60,0-80,0 60,0-80,0
40,0
40,0 40,0-60,0 40,0-60,0
20,0-40,0 20,0
20,0 20,0-40,0
0,0-20,0 0,0
0,0-20,0
-20,0

135,0
0,0 -20,0-0,0
0,0

0,0

165,0
1,2

0,1
0,1

0,1
1,1

195,0
0,1
1,0

0,2
0,9
0,2

v(mm/min)

0,2
0,8

225,0
0,2
f(mm/o)
0,7

0,3
0,2

0,6

f(mm/o)

0,3
d(mm)

255,0
0,5

0,3
0,3

0,4
0,3
Dizajnirani eksperimenti

Faktorna ANOVA
Dumy varijable
ANCOVA
Višestruka Regresija
1. Zavisna varijabla Y (kontinuirana)
2. Kontinuirane nezavisne varijable X1, X2, …, Xp

Y  b 0  b1 X 1   bpX p 

Kontinuirane nezavisne varijable X1, X2, …, Xp su vrlo


često mjerene i posmatrane (nisu postavljene na
specifičnu vrijednost)
Pogodno za Višestruku regresiju
Tabela za Model Višestruke Regresije

Source S.S. d.f.


Regression SSReg p
Error SSError n–p-1
Total SSTotal n-1
ANOVA Model
Factor Coding
1. Zavisna varijabla Y (kontinuirana)
2. Kategorične nezavisne varijable (Faktori) A, B, C,…
Y    ai  b j   ab ij  
Main Effects Interactions
Kategorične nezavisne varijable A, B, C... postavljene na
specificirane nivoe.
Faktori se Kodiraju
Vrijednosti nezavisnih varijabli se standardizuju u rang -1 +1
Statistički model za dva faktora

yij    a i  b j  ab ij  


Ukupna srednja v.
Efekt interakcije A i B
Glavni efekt od A Glavni efekt od B
ANOVA tabela za dva faktora

Source SS df MS
A SSA a -1 SSA/(a – 1)
B SSA b-1 SSB/(a – 1)
AB SSAB (a -1)(b -1) SSAB/(a – 1) (a – 1)

Error SSError ab(n – 1) SSError/ab(n – 1)

Na bazi suma kvadrata može odrediti nivo uticaja


pojedinih nezavisno promjenljivih na promjenu zavisne
varijablu
Statistički model za tri faktora

yijk/    a i  b j   k

 ab ij  a ik  b  jk  ab ijk   ijk/


2-str ukeinter akcije 3str ukeinter akcije slučluča gr eška
ANOVA tabela za tri faktora
Source SS df MS F p -value
A SSA a-1 MSA MSA/MSError

B SSB b-1 MSB MSB/MSError

C SSC c-1 MSC MSC/MSError

AB SSAB (a - 1)(b - 1) MSAB MSAB/MSError

AC SSAC (a - 1)(c - 1) MSAC MSAC/MSError

BC SSBC (b - 1)(c - 1) MSBC MSBC/MSError

ABC SSABC (a - 1)(b - 1)(c - 1) MSABC MSABC/MSError

Error SSError abc(n - 1) MSError


Eksperimentalni Planovi (DOE)

• Selekcion planovi - izbor uticajnih parametara


• Optimizacioni planovi – optimizacija procesa

Cilj DOE:
Što više informacija o sistemu sa Što manje
eksperimenata!!
Tipovi planova
KODIRANJE FAKTORA
za ANOVA-u
• tzv Factor Koding
• za faktor sa 2 nivoa variranja donji je -1 a gornji
+1,
• za faktor sa 3 nivoa variranja donji -1; srednji 0;
gornji +1;
• Kod za interakcije dobija se množenjem
odgovarajućih kodiranih kolona
2k Faktorijal Plan Matrice

Koristan u ranoj fazi eksperimentisanja – obezbjeđuje


minimalan broj eksperimenata, lak za planiranje,
implementaciju, analizu i interpretaciju
2k plan- kodiranje
• Prva kolona starta sa -1 i mijenja se potom naizmjenično za sve
eksperimente
• Druga kolona starta sa -1 dva puta a potom +1 dva puta i tako
naizmjenično do popunjavanja kolone
• Treća kolona starta sa -1 ponovljeno četiri puta nakon čega ide
+1 četiri puta i tako naizmjenično do popunjavanja kolone
• Generalno ita kolona Xi starta sa 2i-1 ponavljanja -1 a potom isti
broj ponavljanja +1

Napomena: Može i obratan


redoslijed kolona
Terminologija
Linearni kontrast za nezavisno promjenljivu A: porede kombinacije
vrijednosti zavisno promjenljive Y kada je A na niskom (-1) nivou
sa kombinacijama vrijednosti kada je isti na visokom (+1) novou
Linearni kontrast za interakciju nezavisno promjenljivih AB: porede
kombinacije vrijednosti gdje su i A i B na visokom (+1) ili niskom
(-1) nivou sa kombinacijama vrijednosti gdje je A na visokom (+1)
a B na niskom (-1) i obratno.
Linearni efekt za nezavisno promjenljive i interakcije dobije se kada
se odgovarajući konrtast podijeli sa polovinom od ukupnog broja
eksperimenata:

Linearni Efekt=
 rezultata na nivou 2 faktora -  rezultata na nivou1 faktora
polovina od broja eksperimenata

npr
Primjer2 2k Faktorijal Plan Matrice

v(mm/min) f(mm/o) d(mm) fv fd vd fvd T(min)


1 -1 -1 -1 1 1 1 -1 160
1 -1 -1 1 1 -1 -1 1 120
1 -1 1 -1 -1 -1 1 1 110
1 -1 1 1 -1 1 -1 -1 20
1 1 -1 -1 -1 1 -1 1 60
1 1 -1 1 -1 -1 1 -1 50
1 1 1 -1 1 -1 -1 -1 7
1 1 1 1 1 1 1 1 2
Linearni efekti
(120  20  50  2)  (160  110  60  7)
Uticaj d   36,2
8/ 2

(160  20  60  2)  (120  110  50  7)


Uticaj fxd   11,2
8/2

v(mm/min) f(mm/o) d(mm) fv fd vd fvd T(min)


1 -1 -1 -1 1 1 1 -1 160
1 -1 -1 1 1 -1 -1 1 120
1 -1 1 -1 -1 -1 1 1 110
1 -1 1 1 -1 1 -1 -1 20
1 1 -1 -1 -1 1 -1 1 60
1 1 -1 1 -1 -1 1 -1 50
1 1 1 -1 1 -1 -1 -1 7
1 1 1 1 1 1 1 1 2

Matrica X
Matrični pristup određivanju kontrasta,
efekata i suma kvadrata
• Kontrasti su rezultat proizvoda transponovane
X matrice i kolone Y

XT y 

Kontrast
Uticaj 
N n/2
N-ukupan broj eksperimenata
n-broj ponavljanja mjerenja Y
Statistički model za tri faktora - Excel

• Koeficijenti reprezentuju distancu između nivoa faktora i ukupne srednje


vrijednosti svih eksperimenata – polovične vrijednosti od uticaja (Efekta)
• Veličina koeficijenta odražava jačinu uticaja ...i može se komparirati sa
ostalim uticajima
F test za glavne efekte i interakcije
zahtijeva izračunavanje odgovarajućih
suma kvadrata
Source S.S. d.f.
Main Effects
Kontrast  2

A SSA a-1 SS 
N n
B SSB b-1
Interactions  Kontrast 
2
SSefekt 
(a – 1)(b – N n
AB SSAB
1) 2
2 k n
Y
⁞ SSTot    Y  sr
2

N n
ijk
i 1 j 1 k 1
SSErr
Error n–p-1
or

Total
SSTot
n-1 F=MSefekt/MSerror
al
Kvalitative Nezavisne Variable u
Regresionoj analizi
• U mnogim realnim situacijama jedna ili više
nezavisnih varijabli su kvalitativne.
• Uključenje kvalitativnih variabli u regresionu analizu
radi se pomoću indikator (dummy) varijabli.
• Indikator varijable (I) mogu uzeti jednu od dvije
vrijednosti, “nula” or “jedan”.
1 Ako je prvi odrashladno
11 korišteno
Temperatura dva uslova
ispod ispunjen
50o
sredstvo
I=
0 Ako je drugi
00 bez od dva50
rashladnog
temperatura uslova
sredstva
o i višeispunjen
55
Indikator (Dummy) varijable
Generalno ( n-1) indikator variable su potrebne da se predstavi kvalitativni
faktor sa n nivoa variranja. Primjer: tri tipa mašina su korištena u
eksperimentu predstavljene su korištenjem dvije indikator varijable x1 i x2;

Alternativno šema kodiranja može uzeti -1 vrijednost za sve indikator


varijable kada se predstavlja posljednji nivo variranja faktora:
Kvalitativne Nezavisne Varijable;
Primjer: Cijena Auta na aukciji (II)
• Primjer 2 - nastavak
– Cilj: predvidjeti cijenu auta na aukciji.
– Prodavac vjeruje da pokazivač na odometru (pređeni
kilometri) i boja auta utiču na cijenu auta.
– Kategorije boje su:
• Bijela
• Srebrna
• Ostale Napomena: “Boja”
je kvalitativna
varijabla. 57
Kvalitativne Nezavisne Varijable;
Primjer: Cijena Auta na aukciji (II)
• Primjer 2 - nastavak

1 ako je boja bijela


I1 =
0 ako boja nije bijela
1 ako je boja srebrna
I2 = 0 ako boja nije srebrna

Kategorija “Ostale boje” definisana je sa:


I1 = 0; I2 = 0
58
Koliko je potrebno Indikator Varijabli?

• Napomena: Da se predstavi situacija sa tri moguće boje


potrebne su dvije indikator varijable.

• Generalno, da se predstave nominalne varijable sa m


mogućih vrijednosti, moramo kreirati m-1 indikator
variablu.

59
Kvalitativne Nezavisne Varijable;
Primjer: Cijena Auta na aukciji (II)
• Rješenje
– Pretpostavljeni model je
y = b0 + b1(kilometraža) + b2I1 + b3I2 + 
– Podaci
Price Odometer I-1 I-2
14636 37388 1 0 Bijela boja
14122 44758 1 0
14016 45833 0 0 Ostale boje
15590 30862 0 0
15568 31705 0 1
14718 34010 0 1 Srebrna boja
. . . .
Unesite
.
podatke
.
u Excel
. . 60
Primjer: Cijena Auta na aukciji (II)

Cijena = 16.837 - .0591(Odometer) + .0911(I-1) + .3304(I-2)

Price

Price = 16.837 - .0591(Odometer) + .0911(0) + .3304(1)

Price = 16.837 - .0591(Odometer) + .0911(1) + .3304(0)


Price = 16.837 - .0591(Odometer) + .0911(0) + .3304(0)

Odometer 61

You might also like