Professional Documents
Culture Documents
3 4
5 6
1
Model jednostavne linearne regresije Model jednostavne linearne regresije
uzorka uzorka
• Regresiona linija uzorka daje procjenu • Koeficijenti b0 i b1 se mogu izračunati koristedi
regresione linije populacije sljedede jednačine
b1
( x x )( y y )
yˆ i b0 b1 x
(x x) 2
e ( y yˆ ) [ y (b
2 2
0 b1 x)]2
7
n
8
9 10
Excel EXcel
• Excel
– Data
• Data Analysis
–Regression
11 12
2
Excel Output Scatter Plot
SUMMARY OUTPUT
Regresiona jednačina:
Kataloška prodaja
Prodaja -15,332 0,022(Plata)
Regression Statistics
7.000
Multiple R 0,700
R Square 0,489
6.000
Adjusted R Square 0,489
Standard Error 687,068
Observations 1000
5.000 y = 0,022x - 15,332
R² = 0,489
Prodaja
4.000
ANOVA
df SS MS F Significance F
3.000
Nagib= 0,022
Regression 1 451.624.335,7 451.624.335,7 956,706 0,00
Residual 998 471.117.860,1 472.062,0
2.000
Total 999 922.742.195,7
1.000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept -15,332 45,374 -0,338 0,736 -104,372 73,708
0
Salary 0,02196 0,00071 30,931 0,000 0,021 0,023
0 20.000 40.000 60.000 80.000 100.000 120.000 140.000 160.000 180.000
Odsječak=-15,332
Plata
13 14
Napomena Napomena
• Da li je mogude predvidjeti vrijednost izvan • b0 = odsječak na y osi kada je vrijednost
domena podataka uzorka: nezavisne varijable x = 0
– Kada je Plata = 0: • Znamo da Prodaja ne može biti negativna, tako b0 = -
• Prodaja = -15,332 + 0,022(0 KM) = -15,332 KM 15,332 pokazuje da, za prodaju u okviru raspona
podataka plate, b0 je dio zavisne varijable (Prodaja)
– Kada je Plata = 50.000 KM: koji nije objašnjen sa Platom
• Prodaja = -15,332 + 0,022(50.000 KM)
• Prodaja = 1084,668 KM
• Parametri modela trebaju biti interpretirani
unutar domena podataka uzorka nezavisne
varijable. 15 16
Zaključivanje
• b1 = nagib prave linije i računa se kao tgα – α • Zaključivanje korištenjem regresije je statistički
je ugao što ga prava linija spaja sa pozitivnim validno samo u domenu podataka uzorka koji
smjerom x ose, odnosno promjena zavisne je korišten da se dobije jednačina regresije
varijable y kao rezultat jedinične promjene
nezavisne varijable x.
• Pošto je regresiona kriva sa pozitivnim nagibom, b1 =
0,022 pokazuje da prodaja raste za 0,022 KM za
svaku jednu KM uvedanja plate
17 18
3
Koeficijenti b0 i b1 Objašnjena i neobjašnjena varijacija
y Neobjašnjena
• Izračunati koeficijente koristede formule: suma kvadrata
yi Ukupna suma i
kvadrata
SSE = (yi - yi )2
xy
x y y
n -2
SST = (yi - y)
b1 b0 y b1 x
( x) 2 Objašnjena
x n
2
y suma kvadrata
-2
SSR = (yi - y)
Prodaja Plata xy y2 x2 y- y-
y x
1.216.768 56.103.900 88.830.214.784 2.403.266.228 4.084.068.970.000
b1= 0,021961
b0= -15,3324
Xi x
19 20
( y yˆ ) 2
23 24
4
Koeficijent determinicacije R2 Koeficijent determinicacije R2
• Označava se sa R2 i računa se kao količnik • R2 = 1 – savršen linearni odnos varijabli
između SSR i SST – 100% varijabiliteta zavisne varijable y je objašnjeno sa
SSR varijabiltetom nezavisne varijable x
R 2
SST • R2 = 0 – nema linearnog odnosa varijabli
– vrijednost zavisne varijable y ne zavisi od nezavisne
varijable x
• ili R 1
2 SSE
SST – 0% varijabiliteta zavisne varijable y je objašnjen sa
varijabiltetom nezavisne varijable
• 0 < R2 < 1
• Vrijednost mu je u rasponu od 0 do 1 – dio varijabilteta zavisne varijable y je objašnjen sa
varijabiltetom nezavisne varijable
0 R2 1
25 26
R2 r 2
SST 922.742.195,70
Adjusted R Square 0,489
Standard Error 687,068
Observations 1000 48,9% varijabiliteta Prodaje je
objašnjeno varijabilitetom Plate
• Gdje je:
ANOVA
df SS MS F Significance F
Regression 1 451.624.335,7 451.624.335,7 956,706 0,00
– r = koeficijent korelacije Residual 998 471.117.860,1 472.062,0
Total 999 922.742.195,7
– R2 = koeficijent determinacije Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept -15,332 45,374 -0,338 0,736 -104,372 73,708
Salary 0,02196 0,00071 30,931 0,000 0,021 0,023
27 28
29 30
5
Prosječne vrijednosti varijacija u regresiji
Excel Output – MS (Mean Squares)
n
(Yi Y ) 2
• Mean SST = i 1
n 1
Varijansa uzorka • MS – Mean Squares
– Podijeliti Sums of Squares sa respektivnim
n stepenima slobode
(Yi Y ) 2 Mean Square Regression (MSR) – MS Regression = MSR = SSR/k
• Mean SSR = i 1
• 451.624.335,68/1 = 451.624.335,68
k
– MS Residual = MSE = [SSE/(n-k-1)]
n • 471.117.860,07/988 = 472.061,98
(Y Y ) i i
2
• Mean SSE = i 1
Mean Square Error (MSE) • MSR i MSE – prosječne devijacije
(n k 1)
31 32
F-test F - test
• Significance F
ANOVA
– Nivo signifikantnosti u vezi sa F vrijednosti je α vjerovatnoda (da se df SS MS F Sig F
odbaci nulta hipoteza H0 kada je ona tačna i kada ne bi trebala biti Regression 1 451.624.335,68 451.624.335,68 956,71 0,000
odbačena) da se odbaci nulta hipoteza da je model loš (da su svi Residual 998 471.117.860,07 472.061,98
koeficijenti nezavisnih varijabli jednaki nula). Total 999 922.742.195,74
• Najčešde se koristi 0,05 nivo signifikantnosti (p-vrijednost) u
cilju zaključivanja da li model može nešto da ponudi u smislu
objašnjenja zavisne varijable, i u tom slučaju gledamo da je
Significance F manje od 0,05.
35 36
6
Broj stepeni slobode brojnika je u prvom redu d.f.
F-Test Broj stepeni nazivnika je u prvoj koloni d.f.
MSRegression MSR
F
• Nulta i alternativna hopteza za F test su: F-Distribution Tables
MSError MSE
– H0: 1 = 2 = k = 0 Alpha is: 0,05 This table is best for regression & ANOVA tests were d.f. 1 tend to be small
n k 1 Observations 1000
– n = veličina uzorka Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
–
Intercept -15,332 45,374 -0,338 0,736 -104,372 73,708
k = broj nezavisnihi varijabli u modelu Salary 0,02196 0,00071 30,931 0,000 0,021 0,023
39 40
Excel Output
Standardna devijacija nagiba
• Varijacija nagiba linija regresije za različite uzorke
Standardna devijacija nagiba
• Standardna devijacija nagiba (koeficijenta b1) je: SUMMARY OUTPUT
Regression Statistics
sε sε
sb1 Multiple R
R Square
0,700
0,489 sb1
(x x) 2
( x) 2 Adjusted R Square 0,489
x2 n
Standard Error
Observations
687,068
1000
SSE
– sε = standardna greška (mjera devijacije y Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
n k 1
Intercept -15,332 45,374 -0,338 0,736 -104,372 73,708
Salary 0,02196 0,00071 30,931 0,000 0,021 0,023
oko linije regresije)
41 42
7
Zaključivanje o koeficijentu nagiba Excel Output
• t test za nagib regresione linije populacije SUMMARY OUTPUT
Regresiona jednačina:
– Da li postoji linearna veza između varijabli x i y?
Prodaja -15,332 0,022(Plata)
Regression Statistics
b β1
Residual 998 471.117.860,1 472.062,0
t 1
Total 999 922.742.195,7
sb1 Intercept
Coefficients
-15,332
Standard Error
45,374
t Stat
-0,338
P-value
0,736
Lower 95%
-104,372
Upper 95%
73,708
Gdje je: Salary 0,02196 0,00071 30,931 0,000 0,021 0,023
β1 = Hipotezirani nagib
b1 = Nagib regresione linije uzorka Nagib regresione linije u ovom modelu je 0,02196. Standard
sb1 = Standardna greška nagiba regresione linije 43 error Plate je 0,00071. Da li plata utiče na Prodaju? 44
Excel Output
Intervali pouzdanosti za nagib
Intervali pouzdanosti za nagib
• Na 95% nivou pouzdanosti, interval
SUMMARY OUTPUT
Regresiona jednačina:
pouzdanosti za nagib je od 0,021 do 0,023
Prodaja -15,332 0,022(Plata)
Regression Statistics
8
Intervali pouzdanosti za nagib
• Procjena intervala pouzdanosti za nagib je: • Predvidjeti koliko de kupac kupiti ako mu je
b1 tα/ 2 sb1 d.f. n 2 plata 70.000 KM
• Predvidjeti prodaju za platu 70.000 KM
• b1= 0,02196
Prodaja -15,332 0,02196(Plata)
• tα/2=1,96
yˆ 15,332 0,02196* (70.000)
• Sb1= 0,00071
• 0,02196±1,96* 0,00071= 0,020568 do 0,023354 yˆ 1.521,87 KM
• od 0,020568 do 0,023354
49 50
1 (x p x )
2
Procjena prosječne vrijednosti yˆ tα/ 2 sε
n (x x )2
• Izračunati 95% interval pouzdanosti za prosječnu prodaju
yˆ tačka procjene 1.521,87
za sve kupce sa platom 70.000 KM.
tα/ 2 kriticna vrijednost sa (n - 2) d.f 1,96
• Procjena intervala pouzdanosti za E(y)|xp
sε standardnagreška 687,068
1 (x p x )
2
x p data vrijednost nezavisne varijable 70.000
yˆ tα/ 2 sε
n (x x )2 x aritmeticka sredina nezavisne varijable 56.104
yˆ tačka procjene n velicina uzorka 1000
tα/ 2 kriticna vrijednost sa (n - 2) d.f
1 ( 50.000 56.104 )2
sε st andardnagreška 1.521,87 1,96 * 687,068*
1.000 936.421.374.789,992
x p data vrijednost nezavisne varijable
1.521,87 43,42
x aritmeticka sredina nezavisne varijable
Interval pouzdanosti je od 1.478,45do 1.565,29
n velicina uzorka 51 52
9
Provjera prve pretpostavke Provjera druge pretpostavke
Reziduali vs Plata
Histogram reziduala 5000
250
4000
200 3000
2000
Frekvencija
Residuals
150
1000
100
0
0 20.000 40.000 60.000 80.000 100.000 120.000 140.000 160.000 180.000
-1000
50
-2000
0
-3000
0
200
400
600
800
More
1000
1200
1400
1600
1800
2000
2200
2400
2600
2800
3000
3200
3400
3600
-800
-600
-400
-200
-2000
-1800
-1600
-1400
-1200
-1000
Plata
Reziduali
• Reziduali su normalno distribuirani • Varijansa nije konstantna za cijeli raspon x varijable
• Vrijednosti reziduala su centrirane oko nule • Uvjet konstantne varijanse reziduala je narušen
55 56
10