Professional Documents
Culture Documents
JE7 VišestrukaRegresija ES7
JE7 VišestrukaRegresija ES7
1
Uvod
• Kada se izvodi ?
A) kada pokušavamo opisati set podataka,
B) kada parametri u poznatoj naučnoj jednačini
treba da budu procijenjeni,
C) kada pokušavamo razviti nove modele koji
opisuju ili predviđaju specifičnu izlaznu
varijablu,
D) kada pokušavamo kontrolisati ili optimirati
procese.
2
Regresioni model
• Je linearna funkcija nepoznatih parametara b0, b1, b2, i td..
• Dobija se istovremenom regresijom zavisne varijable Y u zavisnosti od
VIŠE nezavisnih varijabli xi
Y b0 b1 x1 b 2 x2 b m xm
Y f (X )
f ( X ) - Deterministička funkcija
- Greška sa određenom raspodjelom
Izvori greške:
- slučajna ili greška mjerenja
- greška usljed nemogućnosti fitovanja funkcijom
Y b 0 b1 x1 b 2 x2 b 3 x1 x2 b 4 x1
2
x3 x1 x2 , x4 x1
2
Y b 0 b1 x1 b 2 x2 b 3 x3 b 4 x4
K C n meb T
1
ln K ln C n ln m ln β
T
Y b 0 b1 x1 b 2 x2 b 3 x3
4
Ilustracija – uticaj članova višeg reda na
oblik funkcije
E (Y ) 50 10 x1 7 x2 E (Y ) 50 10 x1 7 x2 5 x1 x2
E (Y ) 800 10 x1 7 x2 8.5 x1 5 x2 4 x1 x2
2 2
5
Interpretacija koeficijenata
Y b0 b1 x1 b2 x2
b3
b2 b1
Y b0 b1 x1 b2 x2 b3 x1 x2
b1
b1
b2
b0 b0
1. Greška je normalno
raspoređena,
E(y|x2)
2. E() = 0, sa srednjom
vrijednošću 0, E(y|x1)
3. Standardna devijacija y je ista
za sve vrijednosti y i iznosi s
4. Nema varijacije postavljenih
vrijednosti nezavisnih varijabli xi
x1 x2 x3
7
Metod najmanjih kvadrata
Yi b 0 b1 xi1 b 2 xi 2 b k xi ,m i
m
b 0 b j xij i i 1,...,n
j 1
2
n n
m
Funkcija najmanjih kvadrata L i yi b 0 b j xij
2
i 1 i 1 j 1
L n m
2 yi b0 b j xij 0
b0 i 1 j 1
b ,b ,..., b
i
0 1 m
L n
m
2 yi b0 b j xij xij 0 j 1,...m
b j i 1 j 1
b0 ,b1 ,..., bm
8
Metod najmanjih kvadrata
Pošto je:
y Xbˆ
n
L y Xbˆ
T
2 T
i
i 1
L
0 X T X bˆ X T y
b
b X X X T y
ˆ T 1
Odakle je:
9
Matrični pristup VLR
• Najjednostavniji način rješavanja sistema jednačina je tzv.
Matrični pristup. Sistem jednačina u matričnoj notaciji je:
bˆ X T X X T y
1
y Xbˆ
2
SSE yi yˆ i
n n
y Xbˆ
T
2 T
i
i 1 i 1
SSE
S MSE
2
n p
Gdje je:n broje eksperimenata a p broj članova u regresionom modelu sa
slobodnim članom.
11
Procjena Standardne greške modela ()
Procjena standardne greške je kvadratni korijen iz varijanse
greške S:
SSE SSE
S S
2
n p n p
Cm 0 Cmm
Napomena: Vrijedi za Striktnu pretpostavku da su greške konstantne i normalno raspoređene sa N(0, 2): 13
Primjer 1
Za ispitivanje „vijeka“ alata pri obradi čelika sa srednjim sadržajem ugljika sa alatima sa TiN
presvlakom izvršen je eksperiment.
Brzina rezanja v, posmak f i dubina rezanja uzeti na dva nivoa i izvršen je eksperiment, a
rezultati su dati u tabeli ispod.
Potrebno je: korištenjem višestruke linearne regresije iznaći model sa linearnim članovima,
odrediti koeficijente uz nezavisno promjenljive i izračunati standardnu grešku.
14
Ciljevi analize Pr.1
PREDVIĐANJE
Iznaći jednačinu koja optimalno
predviđa određeni fenomen
CILJ !?
OBJAŠNJENJE
Razumijevanje fenomena (pojave) -
istražuje vezu između varijabli (jačinu i
prirodu veze)
15
Matrični pristup – Excel Pr.1
T b0 b1v b 2 f b3d
17
Interpretacija Modela
Način interpretiranja koeficijenata b1 do b4
n p n p
58653 56068 ,5
646,125
84
S 646,125 25,42 n
y 66,125 SSE rezi
1
E ( b i ) bˆi i SE βˆi S2C jj
H0 0
Ukoliko oblast (1-α obično područje koje obuhvata 95% vrijednosti) obuhvata vrijednost nula (0) tada
je vrijednost procijenjenog koeficijenta toliko blizu nuli da bi se mogla pripisati standardnoj grešci
vezanoj za taj koeficijent, u suprotnom imamo sistemsko odstupanje koje ukazuje na značajnost.
21
1. Testiranje značajnosti individualnih
regresionih koeficijenata
Individualni t-test testira hipotezu:
H 0 : bi 0 naspram H1 : bi 0
t raspodjela
SEb2 za (n p)df
tkrit
SEb1
t1rac tkrit
b1 b2
1 α b1 b2
t1rac tkrit t (standardna dev.)
bi 0 bi
trac
SE bi S2C jj
H0: b1 = b2 = … = bk = 0
H1: najmanje jedan bi je različita od nule
24
Testiranje Validnosti Modela
1. Definiše se Srednja Kvadratno Odstupanje Regresije (MSR)
2. Definiše se Srednja Kvadratna Greška (MSE)
SSR SSE
MSR MSE
k n k 1
K – broj nezavisno promjenljivih (bez slobodnog člana bo), n broj eksperimenata
Y Y Y
Y Y
X X X
0 .5
0 .4
Pdf
0 .3
0 .2
0 .1
0 .0
0 5 10 15
F r a ti o
27
Primjer interpretacije
Koeficijenta Determinacije
R2 = 0.955
MSE
R 2 (adj) 1 100 %
SST n 1
Pri procjeni modela oba koeficijenta treba uporediti. Ukoliko je razlika
značajna to je pokazatelj Overfitting-a: 28
3. Analiza Reziduala
(provjera pretpostavki o modelu)
• Reziduali
rez y yˆ
• Standardizirani Reziduali
rezi rezi
di 2
MSE S
• A) korelacija reziduala sa nezavisno promjenljivim
• B) provjera pretpostavke o normalnom rasporedu greški
(reziduala)
29
Analiza Reziduala
A)
• Korelacija reziduala sa nezavisno promjenljivim i sa rezultatima
predviđanja poredanim po rastućem redoslijedu
• Ukoliko korelacija postoji, izabrani model nije adekvatan da fituje podatke (npr
uvođenje x12 u model..)
30
Analiza Reziduala
B) Normal Probability Plot (Kumulativna vjerovatnoća
naspram reziduala poredanih po rastućem redoslijedu)
0,80
0,60
0,40
0,20
0,00
-0,15 -0,10 -0,05 -0,200,00 0,05 0,10 0,15
Reziduali
Kumulativna vjerovatnoća
k 0,5
Pk (k 1,2,3..., n)
n
31
Procedura Regresione Analize
• step-by-step pristup:
1. Odrediti regresioni model.
2. izvršiti F test (anova test) i R 2 da se odredi kako dobro model fituje
(eksperimentalne) podatke
3. Provjeriti t-test za pojedine regresione koeficijente da se vidi koji su
značajno uticajni u prisustvu ostalih
4. Ukoliko se komparira više različitih modela koristiti R 2(adj) da se uporedi
njihova efektivnost
5. izvršiti analizu reziduala da se provjere pretpostavke (regresione)
6. Izbor najboljeg regresionog modela
- postepeno uvođenje članova (prvo linearni a potom interakcije ...)
- postepena eliminacija članova (prvo složen model a potom
uproštavanje)
32
Primjer 1 - nastavak
1. t-vrijednosti
2. Intervali 95% Excel
3. t-kritično
4. P<> od α (0.05)
5. SSE, SSR
6. F-računsko
7. F-kritično
“=finv(0,05;p-1,n-p)”
8. Koeficijent
determinacije
9. Podešeni koeficijent
determinacije
33
Provjera pretpostavki
Residuals vs. Predicted T(min)
30,000
20,000
10,000
Residuals
0,000
-10,000
-20,000
-30,000
-40,000
-50,00 0,00 50,00 100,00 150,00 200,00
Predicted T(min)
0,80
0,60
0,40
0,20
0,00
-40,000
-0,20 -30,000 -20,000 -10,000 0,000 10,000 20,000 30,000
Residuals
120,0 140,0
100,0 120,0
100,0
80,0 120,0-140,0
100,0-120,0 80,0 100,0-120,0
T(min)
T(min)
60,0 80,0-100,0 60,0 80,0-100,0
60,0-80,0 60,0-80,0
40,0
40,0 40,0-60,0 40,0-60,0
20,0-40,0 20,0
20,0 20,0-40,0
0,0-20,0 0,0
0,0-20,0
-20,0
135,0
0,0 -20,0-0,0
0,0
0,0
165,0
1,2
0,1
0,1
0,1
1,1
195,0
0,1
1,0
0,2
0,9
0,2
v(mm/min)
0,2
0,8
225,0
0,2
f(mm/o)
0,7
0,3
0,2
0,6
f(mm/o)
0,3
d(mm)
255,0
0,5
0,3
0,3
0,4
0,3
Dizajnirani eksperimenti
Faktorna ANOVA
Dumy varijable
ANCOVA
Višestruka Regresija
1. Zavisna varijabla Y (kontinuirana)
2. Kontinuirane nezavisne varijable X1, X2, …, Xp
Y b 0 b1 X 1 bpX p
Source SS df MS
A SSA a -1 SSA/(a – 1)
B SSA b-1 SSB/(a – 1)
AB SSAB (a -1)(b -1) SSAB/(a – 1) (a – 1)
yijk/ a i b j k
Cilj DOE:
Što više informacija o sistemu sa Što manje
eksperimenata!!
Tipovi planova
KODIRANJE FAKTORA
za ANOVA-u
• tzv Factor Koding
• za faktor sa 2 nivoa variranja donji je -1 a gornji
+1,
• za faktor sa 3 nivoa variranja donji -1; srednji 0;
gornji +1;
• Kod za interakcije dobija se množenjem
odgovarajućih kodiranih kolona
2k Faktorijal Plan Matrice
Linearni Efekt=
rezultata na nivou 2 faktora - rezultata na nivou1 faktora
polovina od broja eksperimenata
npr
Primjer2 2k Faktorijal Plan Matrice
Matrica X
Matrični pristup određivanju kontrasta,
efekata i suma kvadrata
• Kontrasti su rezultat proizvoda transponovane
X matrice i kolone Y
XT y
Kontrast
Uticaj
N n/2
N-ukupan broj eksperimenata
n-broj ponavljanja mjerenja Y
Statistički model za tri faktora - Excel
A SSA a-1 SS
N n
B SSB b-1
Interactions Kontrast
2
SSefekt
(a – 1)(b – N n
AB SSAB
1) 2
2 k n
Y
⁞ SSTot Y sr
2
N n
ijk
i 1 j 1 k 1
SSErr
Error n–p-1
or
Total
SSTot
n-1 F=MSefekt/MSerror
al
Kvalitative Nezavisne Variable u
Regresionoj analizi
• U mnogim realnim situacijama jedna ili više
nezavisnih varijabli su kvalitativne.
• Uključenje kvalitativnih variabli u regresionu analizu
radi se pomoću indikator (dummy) varijabli.
• Indikator varijable (I) mogu uzeti jednu od dvije
vrijednosti, “nula” or “jedan”.
1 Ako je prvi odrashladno
11 korišteno
Temperatura dva uslova
ispod ispunjen
50o
sredstvo
I=
0 Ako je drugi
00 bez od dva50
rashladnog
temperatura uslova
sredstva
o i višeispunjen
55
Indikator (Dummy) varijable
Generalno ( n-1) indikator variable su potrebne da se predstavi kvalitativni
faktor sa n nivoa variranja. Primjer: tri tipa mašina su korištena u
eksperimentu predstavljene su korištenjem dvije indikator varijable x1 i x2;
59
Kvalitativne Nezavisne Varijable;
Primjer: Cijena Auta na aukciji (II)
• Rješenje
– Pretpostavljeni model je
y = b0 + b1(kilometraža) + b2I1 + b3I2 +
– Podaci
Price Odometer I-1 I-2
14636 37388 1 0 Bijela boja
14122 44758 1 0
14016 45833 0 0 Ostale boje
15590 30862 0 0
15568 31705 0 1
14718 34010 0 1 Srebrna boja
. . . .
Unesite
.
podatke
.
u Excel
. . 60
Primjer: Cijena Auta na aukciji (II)
Price
Odometer 61