You are on page 1of 10

Jednostavna linearna regresija

• Jednostavna linearna regresija:


– Predvidjeti vrijednost zavisne varijable na
Regresiona analiza osnovu vrijednosti jedne nezavisne varijable
– Objasniti uticaj promjene nezavisne
Prof. dr. Mugdim Pašid varijable na zavisnu varijablu
• Može biti više nezavisnih varijabli, ali tada nije
riječ o jednostavnoj linearnoj regresiji
• Koristedemo termin regresiona analiza
1 2

Model jednostavne linearne regresije


Jednostavna linearna regresija
populacije
• Pretpostavke: Regresioni model populacije
– Ima samo jedna nezavisna varijabla x y  β0  β1 x  ε
– Odnos između nezavisne varijable x i zavisne Linearna komponenta Grešaka (Rezidual)
varijable y je opisan linearnom funkcijom
– Promjene u zavisnoj varijabli su prouzrokovane • Rezidual (Random Error) razlika između stvarne
promjenama nezavisne varijable y y vrijednosti i vrijednosti y predviđene
modelom populacije

3 4

Model jednostavne linearne regresije Model jednostavne linearne regresije


populacije - pretpostavke populacije
• Vrijednosti greške ε su statistički nezavisne
y  β0  β1 x  ε
• Vrijednosti greške ε su normalno distribuirane za y
bilo koju datu vrijednost x
• The probability distribution of the errors is Predviđena
normal vrijednost y za xi
Nagib = β1

• Distribucije mogudih vrijednosti grešaka imaju


jednake varijanse za sve vrijednosti x εi - greška za vrijednost xi
• Aritmetičke sredine zavisne varijable y, za sve Promatrana
specificirane vriejdnosti nezavisne varijable, vrijednost y za xi
mogu biti povezane pravom linijom koja se naziva
regresioni model populacije. Odsječak na y osi = β0 xi x

5 6

1
Model jednostavne linearne regresije Model jednostavne linearne regresije
uzorka uzorka
• Regresiona linija uzorka daje procjenu • Koeficijenti b0 i b1 se mogu izračunati koristedi
regresione linije populacije sljedede jednačine
b1 
 ( x  x )( y  y )
yˆ i  b0  b1 x
 (x  x) 2

• Pojedinačna greška ima aritmetičku sredinu 0 • ili


• Koeficijenti b0 i b1 se dobiju minimiziranjem
 xy   n
x y
sume kvadrata reziduala – metoda najmanjih b1  b0  y  b1 x
x  
2
( x)
kvadrata 2

e  ( y yˆ )  [ y  (b
2 2
0  b1 x)]2
7
n
8

Objašnjenje odsječka i nagiba Primjer


• Menadžer želi da istraži odnos između Prodaje
• b0 = odsječak na y osi kada je vrijednost nezavisne
putem kataloga i Plate kupaca. Pod platom se
varijable x = 0
smatraju primanja i muža i žene zajedno ako je
kupac oženjen/udata.
• b1 = nagib prave linije i računa se kao tgα – α je
ugao što ga prava linija spaja sa pozitivnim • Catalog.xls
smjerom x ose, odnosno promjena zavisne • Zavisna varijabla (y): Prodaja
varijable y kao rezultat jedinične promjene • Nezavisna varijabla (x): Plata
nezavisne varijable x. – Plata = ukupna primanja u porodici
• Uzorak 1000 kupaca

9 10

Excel EXcel
• Excel
– Data
• Data Analysis
–Regression

11 12

2
Excel Output Scatter Plot
SUMMARY OUTPUT
Regresiona jednačina:
Kataloška prodaja
Prodaja  -15,332  0,022(Plata)
Regression Statistics
7.000
Multiple R 0,700
R Square 0,489
6.000
Adjusted R Square 0,489
Standard Error 687,068
Observations 1000
5.000 y = 0,022x - 15,332
R² = 0,489

Prodaja
4.000
ANOVA
df SS MS F Significance F
3.000
Nagib= 0,022
Regression 1 451.624.335,7 451.624.335,7 956,706 0,00
Residual 998 471.117.860,1 472.062,0
2.000
Total 999 922.742.195,7

1.000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept -15,332 45,374 -0,338 0,736 -104,372 73,708
0
Salary 0,02196 0,00071 30,931 0,000 0,021 0,023
0 20.000 40.000 60.000 80.000 100.000 120.000 140.000 160.000 180.000
Odsječak=-15,332
Plata

13 14

Napomena Napomena
• Da li je mogude predvidjeti vrijednost izvan • b0 = odsječak na y osi kada je vrijednost
domena podataka uzorka: nezavisne varijable x = 0
– Kada je Plata = 0: • Znamo da Prodaja ne može biti negativna, tako b0 = -
• Prodaja = -15,332 + 0,022(0 KM) = -15,332 KM 15,332 pokazuje da, za prodaju u okviru raspona
podataka plate, b0 je dio zavisne varijable (Prodaja)
– Kada je Plata = 50.000 KM: koji nije objašnjen sa Platom
• Prodaja = -15,332 + 0,022(50.000 KM)
• Prodaja = 1084,668 KM
• Parametri modela trebaju biti interpretirani
unutar domena podataka uzorka nezavisne
varijable. 15 16

Zaključivanje
• b1 = nagib prave linije i računa se kao tgα – α • Zaključivanje korištenjem regresije je statistički
je ugao što ga prava linija spaja sa pozitivnim validno samo u domenu podataka uzorka koji
smjerom x ose, odnosno promjena zavisne je korišten da se dobije jednačina regresije
varijable y kao rezultat jedinične promjene
nezavisne varijable x.
• Pošto je regresiona kriva sa pozitivnim nagibom, b1 =
0,022 pokazuje da prodaja raste za 0,022 KM za
svaku jednu KM uvedanja plate

17 18

3
Koeficijenti b0 i b1 Objašnjena i neobjašnjena varijacija

y Neobjašnjena
• Izračunati koeficijente koristede formule: suma kvadrata
yi Ukupna suma i
kvadrata 
SSE = (yi - yi )2
 xy   

x y y
n -2
SST = (yi - y)
b1  b0  y  b1 x
( x) 2 Objašnjena
x  n
2 
y  suma kvadrata
-2
SSR = (yi - y)
Prodaja Plata xy y2 x2 y- y-
y x
1.216.768 56.103.900 88.830.214.784 2.403.266.228 4.084.068.970.000

b1= 0,021961
b0= -15,3324
Xi x
19 20

Objašnjena i neobjašnjena suma


Objašnjena i neobjašnjena varijacija
kvadrata
• Ukupna varijacija se sastoji iz dva dijela SST  SSE  SSR • Neobjašnjena suma kvadrata:
• SST – Sum of Squres Total SST   ( y  y ) 2
– Varijacija koja se pripisuje drugim faktorima koji
– Mjeri varijaciju vrijednosti yi oko njihove srednje vrijednosti -y
– Broj stepeni slobode: (n- 1) df
nisu odnos između varijabli x i y
• SSE – Sum of Squares Error SSE   ( y  yˆ ) 2 • Objašnjena suma kvadrata:
– Neobjašnjena suma kvadrata
– Varijacija koja se pripisuje odnosu između varijabli
– Broj stepeni slobode: (n- k-1) df
xiy
• SSR – Sum of Squares Regression SSR   ( yˆ  y ) 2

– Suma kvadrata objašnjena regresijom


– Broj stepeni slobode: (k) df

y = srednja vrijednost zavisne varijable n = veličina uzorka


y = Promatrana vrijednost zavisne varijable k = broj nezavisnih varijabli u modelu
21 22
ŷ = Procijenjena vrijednost y za određenu vrijednost x

Osobine Koeficijent determinicacije R2


• Koeficijent determinacije je dio ukupne
varijacije zavisne varijable koji je objašnjen
• Regresiona linija kod jednostavne regresije varijacijom nezavisne varijable
- -
uvije siječe y i x (aritmetičke sredine y i x) – Procenat varijabiliteta zavisne varijable objašnjen
• Suma reziduala kod regresione linije dobijene varijabilitetom nezavisne varijable
metodom najmanjih kvadrata je nula (0) • Često se naziva “R na kvadrat”
 ( y yˆ )  0 • Pokazuje linearno uklapanje modela
• Suma kvadrata rezidula je minimalna – “linear fit of the model”

 ( y yˆ ) 2

23 24

4
Koeficijent determinicacije R2 Koeficijent determinicacije R2
• Označava se sa R2 i računa se kao količnik • R2 = 1 – savršen linearni odnos varijabli
između SSR i SST – 100% varijabiliteta zavisne varijable y je objašnjeno sa
SSR varijabiltetom nezavisne varijable x
R 2
SST • R2 = 0 – nema linearnog odnosa varijabli
– vrijednost zavisne varijable y ne zavisi od nezavisne
varijable x
• ili R 1
2 SSE
SST – 0% varijabiliteta zavisne varijable y je objašnjen sa
varijabiltetom nezavisne varijable
• 0 < R2 < 1
• Vrijednost mu je u rasponu od 0 do 1 – dio varijabilteta zavisne varijable y je objašnjen sa
varijabiltetom nezavisne varijable
0  R2  1
25 26

Koeficijent determinicacije R2 i Ecxel Output


koeficijent korelacije r Koeficijent determinicacije R2
SSR 451.624.335,7
• Kod jednostavne regresione analize (jedna SUMMARY OUTPUT R2  
SST 922.742.195,70
 0,489
nezavisna varijabla) vrijedi: Regression Statistics
SSE 471.117.860,1
Multiple R
R Square
0,700
0,489
R2  1  1  0,489

R2  r 2
SST 922.742.195,70
Adjusted R Square 0,489
Standard Error 687,068
Observations 1000 48,9% varijabiliteta Prodaje je
objašnjeno varijabilitetom Plate
• Gdje je:
ANOVA
df SS MS F Significance F
Regression 1 451.624.335,7 451.624.335,7 956,706 0,00
– r = koeficijent korelacije Residual 998 471.117.860,1 472.062,0
Total 999 922.742.195,7
– R2 = koeficijent determinacije Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept -15,332 45,374 -0,338 0,736 -104,372 73,708
Salary 0,02196 0,00071 30,931 0,000 0,021 0,023

27 28

Excel Output – stepeni slobode


Excel Output – stepeni slobode
df - Degrees of Freedom: k; n-k-1; n-1
SUMMARY OUTPUT
• k = broj nezavisnih varijabli u modelu
• n = veličina uzorka Regression Statistics
Multiple R 0,700 𝑑. 𝑓. 𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 = 𝑘 = 1
• Broj stepeni slobode je generalno (n-1) R Square 0,489
𝑑. 𝑓. 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 = 𝑛 − 𝑘 − 1 = 1000 − 1 − 1 = 998
Adjusted R Square 0,489
• Broj stepeni slobode za Regression je k Standard Error 687,068 𝑑. 𝑓. 𝑇𝑜𝑡𝑎𝑙 = 𝑑. 𝑓. 𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 + 𝑑. 𝑓. 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 = 1 + 988 = 999
Observations 1000
– U našem primjeru k = 1 jer imamo samo jednu nezavisnu varijablu
– d.f. Regression = 1 ANOVA

• Broj stepeni slobode za Residual je n-k-1 Regression


df
1
SS
451.624.335,7
MS
451.624.335,7
F
956,706
Significance F
0,00
– U našem primjeru, d.f. Residual = 1000 – 1 - 1 = 998 Residual 998 471.117.860,1 472.062,0
Total 999 922.742.195,7
• d.f. Regression + d.f. Residual = d.f. Total
– U našem primjeru, 1 + 998 = 999 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept -15,332 45,374 -0,338 0,736 -104,372 73,708
Salary 0,02196 0,00071 30,931 0,000 0,021 0,023

29 30

5
Prosječne vrijednosti varijacija u regresiji
Excel Output – MS (Mean Squares)
n
 (Yi  Y ) 2

• Mean SST = i 1
n 1
Varijansa uzorka • MS – Mean Squares
– Podijeliti Sums of Squares sa respektivnim
n stepenima slobode
 (Yi  Y ) 2 Mean Square Regression (MSR) – MS Regression = MSR = SSR/k
• Mean SSR = i 1
• 451.624.335,68/1 = 451.624.335,68
k
– MS Residual = MSE = [SSE/(n-k-1)]
n  • 471.117.860,07/988 = 472.061,98
 (Y  Y ) i i
2

• Mean SSE = i 1
Mean Square Error (MSE) • MSR i MSE – prosječne devijacije
(n  k  1)

31 32

MSR i MSE F-test – a first stop test


• F-vrijednost je odnos dvije varijanse. MSRegression MSR
SUMMARY OUTPUT F 
MSError MSE
Regression Statistics
Multiple R
R Square
0,700
0,489 𝑆𝑆𝑅 451.624.335,68 • F- distribucija je distribucija vjerovatnode sa dva stepena slobode –
𝑀𝑆𝑅 = = = 451.624.335,68 jedan za MSR i drugi za MSE.
Adjusted R Square 0,489 𝑘 1
Standard Error 687,068
Observations 1000 𝑀𝑆𝐸 =
𝑆𝑆𝐸
=
471.117.860,07
= 472.061,98
• To je test odnosa dvije varijanse kojim se određuje da li su varijanse
𝑛−𝑘−1 998 jednake jedna drugoj, odnosno, da li je F vrijednost 1 ili blizu 1.
ANOVA
df SS MS F Significance F • Opdi test kojim se testira da li je ijedan koeficijent βi (i=1 do k)
Regression 1 451.624.335,7 451.624.335,7 956,706 0,00 signifikantno različit od nule
Residual 998 471.117.860,1 472.062,0
Total 999 922.742.195,7 • Ako postoji samo jedna nezavisna varijabla F-Test = (t-test)2 odnosno,
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
F = t2
Intercept -15,332 45,374 -0,338 0,736 -104,372 73,708 • Odnos koji je jednak 1 (ili blizu 1 na osnovu uzorka) pokazuje da je
Salary 0,02196 0,00071 30,931 0,000 0,021 0,023
model loš i da nema odnosa između bilo koje nezavisne varijable sa
33 zavisnom varijablom. 34

F-test F - test

• Significance F
ANOVA
– Nivo signifikantnosti u vezi sa F vrijednosti je α vjerovatnoda (da se df SS MS F Sig F
odbaci nulta hipoteza H0 kada je ona tačna i kada ne bi trebala biti Regression 1 451.624.335,68 451.624.335,68 956,71 0,000
odbačena) da se odbaci nulta hipoteza da je model loš (da su svi Residual 998 471.117.860,07 472.061,98
koeficijenti nezavisnih varijabli jednaki nula). Total 999 922.742.195,74
• Najčešde se koristi 0,05 nivo signifikantnosti (p-vrijednost) u
cilju zaključivanja da li model može nešto da ponudi u smislu
objašnjenja zavisne varijable, i u tom slučaju gledamo da je
Significance F manje od 0,05.

35 36

6
Broj stepeni slobode brojnika je u prvom redu d.f.
F-Test Broj stepeni nazivnika je u prvoj koloni d.f.
MSRegression MSR
F 
• Nulta i alternativna hopteza za F test su: F-Distribution Tables
MSError MSE
– H0: 1 = 2 = k = 0 Alpha is: 0,05 This table is best for regression & ANOVA tests were d.f. 1 tend to be small

– Ha: barem jedan i ≠ 0


d.f. 1 2 3 4 5 6 7 8 9 10 11 12
1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 242,98 243,91
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41
• U našem primjeru 3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91
– Test statistika Fstat = 956.71
200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,93 1,88 1,84 1,80
– Uporediti ovu vrijednost sa vrijednošdu u F tabeli sa 1 i 998 stepeni
500 3,86 3,01 2,62 2,39 2,23 2,12 2,03 1,96 1,90 1,85 1,81 1,77
slobode na nivou signifikantnosti npr. α=0,05 (približno Fcrit=3,85)
1000 3,85 3,00 2,61 2,38 2,22 2,11 2,02 1,95 1,89 1,84 1,80 1,76
– Ili vidjeti p-vrijednost da li je manja od 0,05. U našem primjeru p-
vrijednost je 0,000.
– Zaključak?
– Odbaciti nultu hipotezu Broj stepeni slobode brojnika = k = 1
Broj stepeni nazivnika je n-k-1 = 998
37 38

Standardna greška Excel Output – Standardna greška


• Varijacija promatranih y vrijednosti u odnosu na
liniju regresije
SUMMARY OUTPUT
• Standardna devijacija varijacije promatranih

𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝐸𝑟𝑟𝑜𝑟 = 𝑀𝑆𝐸 = 472.061,98 = 687,068
Regression Statistics
vrijednosti y oko linije regresije y je: Multiple R 0,700
R Square 0,489
SSE Adjusted R Square 0,489
sε   MSE Standard Error 687,068

n  k 1 Observations 1000

• Gdje je: ANOVA


df SS MS F Significance F
– SSE = Sum of Squares Error Regression
Residual
1
998
451.624.335,7
471.117.860,1
451.624.335,7
472.062,0
956,706 0,00

– MSE = Mean Square Error Total 999 922.742.195,7

– n = veličina uzorka Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept -15,332 45,374 -0,338 0,736 -104,372 73,708
k = broj nezavisnihi varijabli u modelu Salary 0,02196 0,00071 30,931 0,000 0,021 0,023

39 40

Excel Output
Standardna devijacija nagiba
• Varijacija nagiba linija regresije za različite uzorke
Standardna devijacija nagiba
• Standardna devijacija nagiba (koeficijenta b1) je: SUMMARY OUTPUT

Regression Statistics
sε sε
sb1   Multiple R
R Square
0,700
0,489 sb1
 (x  x) 2
( x) 2 Adjusted R Square 0,489

 x2  n
Standard Error
Observations
687,068
1000

• Gdje je: ANOVA

– sb1= standardna greška nagiba regresione linije


df SS MS F Significance F
Regression 1 451.624.335,7 451.624.335,7 956,706 0,00
Residual 998 471.117.860,1 472.062,0
Total 999 922.742.195,7

SSE
– sε  = standardna greška (mjera devijacije y Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

n  k 1
Intercept -15,332 45,374 -0,338 0,736 -104,372 73,708
Salary 0,02196 0,00071 30,931 0,000 0,021 0,023
oko linije regresije)
41 42

7
Zaključivanje o koeficijentu nagiba Excel Output
• t test za nagib regresione linije populacije SUMMARY OUTPUT
Regresiona jednačina:
– Da li postoji linearna veza između varijabli x i y?
Prodaja  -15,332  0,022(Plata)
Regression Statistics

• Nulta i Istraživačka (alternativna) hipoteze su


Multiple R 0,700
R Square 0,489
Adjusted R Square 0,489

– H0: β1 = 0 (Ne postoji lenearna veza) Standard Error


Observations
687,068
1000

– H1: β1  0 (Postoji linearna veza) ANOVA


df SS MS F Significance F
• Test statistika: d.f.  n  2
Regression 1 451.624.335,7 451.624.335,7 956,706 0,00

b  β1
Residual 998 471.117.860,1 472.062,0

t 1
Total 999 922.742.195,7

sb1 Intercept
Coefficients
-15,332
Standard Error
45,374
t Stat
-0,338
P-value
0,736
Lower 95%
-104,372
Upper 95%
73,708
Gdje je: Salary 0,02196 0,00071 30,931 0,000 0,021 0,023
β1 = Hipotezirani nagib
b1 = Nagib regresione linije uzorka Nagib regresione linije u ovom modelu je 0,02196. Standard
sb1 = Standardna greška nagiba regresione linije 43 error Plate je 0,00071. Da li plata utiče na Prodaju? 44

Nagib regresione linije u ovom modelu je 0,02196.


Standard error Plate je 0,00071. Zaključivanje o koeficijentu nagiba
Da li plata utiče na Prodaju?
• H0: β1 = 0 (Ne postoji lenearna veza)
• H1: β1  0 (Postoji linearna veza)
SUMMARY OUTPUT
Regresiona jednačina:
Regression Statistics
Prodaja  -15,332  0,022(Plata) b1  β1 d.f.  n  2  1000 2  998
Multiple R
R Square
0,700
0,489
t
Adjusted R Square 0,489 sb1
Standard Error
Observations
687,068
1000
• tstat = (0,02196-0)/0,00071
• tstat= 30,9296
ANOVA
• p = 0,000 Područje
df SS MS F Significance F Područje
Regression 1 451.624.335,7 451.624.335,7 956,706 0,00 • tstat > tcrit odbacivanja H0 0,475 0,475 odbacivanja H0
Residual 998 471.117.860,1 472.062,0 • p<α 0,95
Total 999 922.742.195,7
Odbaciti H0: 1 = 0
α=0,025
• α=0,025

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept -15,332 45,374 -0,338 0,736 -104,372 73,708 -tα/2, n-2 = - 1,96 tα/2, n-2 = 1,96
Salary 0,02196 0,00071 30,931 0,000 0,021 0,023 Područje
neodbacivanja H0
• Zaključak:
b1 sb1 t • Postoji dokaz da Plata utiče na Prodaju
45
• Dakle nagib regresione linije je različit od nule. 46

Excel Output
Intervali pouzdanosti za nagib
Intervali pouzdanosti za nagib
• Na 95% nivou pouzdanosti, interval
SUMMARY OUTPUT
Regresiona jednačina:
pouzdanosti za nagib je od 0,021 do 0,023
Prodaja  -15,332  0,022(Plata)
Regression Statistics

• Sa 95% pouzdanošdu može se redi da je


Multiple R 0,700
R Square 0,489
Adjusted R Square 0,489
Standard Error
Observations
687,068
1000
prosječni uticaj na Prodaju između 0,021 i
ANOVA
0,023 KM po jednoj KM plate.
Regression
df
1
SS
451.624.335,7
MS
451.624.335,7
F
956,706
Significance F
0,00 • Pošto interval ne uključuje 0, može se
Residual 998 471.117.860,1 472.062,0
Total 999 922.742.195,7 zaključiti da postoji signifikantan odnos
Intercept
Coefficients
-15,332
Standard Error
45,374
t Stat
-0,338
P-value
0,736
Lower 95%
-104,372
Upper 95%
73,708
između Prodaje i Plate na 0,05 nivou
Salary 0,02196 0,00071 30,931 0,000 0,020568 0,023354 signifikanstnosti
b1 47 48

8
Intervali pouzdanosti za nagib
• Procjena intervala pouzdanosti za nagib je: • Predvidjeti koliko de kupac kupiti ako mu je
b1  tα/ 2 sb1 d.f.  n  2 plata 70.000 KM
• Predvidjeti prodaju za platu 70.000 KM
• b1= 0,02196
Prodaja  -15,332 0,02196(Plata)
• tα/2=1,96
yˆ  15,332  0,02196* (70.000)
• Sb1= 0,00071
• 0,02196±1,96* 0,00071= 0,020568 do 0,023354 yˆ  1.521,87 KM
• od 0,020568 do 0,023354
49 50

1 (x p  x )
2
Procjena prosječne vrijednosti yˆ  tα/ 2 sε 
n  (x  x )2
• Izračunati 95% interval pouzdanosti za prosječnu prodaju
yˆ  tačka procjene  1.521,87
za sve kupce sa platom 70.000 KM.
tα/ 2  kriticna vrijednost sa (n - 2) d.f  1,96
• Procjena intervala pouzdanosti za E(y)|xp
sε  standardnagreška  687,068
1 (x p  x )
2
x p  data vrijednost nezavisne varijable  70.000
yˆ  tα/ 2 sε 
n  (x  x )2 x  aritmeticka sredina nezavisne varijable  56.104
yˆ  tačka procjene n  velicina uzorka  1000
tα/ 2  kriticna vrijednost sa (n - 2) d.f
1 ( 50.000  56.104 )2
sε  st andardnagreška 1.521,87  1,96 * 687,068* 
1.000 936.421.374.789,992
x p  data vrijednost nezavisne varijable
1.521,87  43,42
x  aritmeticka sredina nezavisne varijable
Interval pouzdanosti je od 1.478,45do 1.565,29
n  velicina uzorka 51 52

Procjena individualne vrijednosti Analiza reziduala


• Procjena intervala pouzdanosti za y|xp • Dvije važne pretpostavke kod linearne regresije:
– Greške (reziduali) u modelu su normalno distribuirane
• Odrediti 95% interval pouzdanosti koliko kupi • Vrijednosti reziduala su centrirane su oko nule (aritmetička sredina
jedan kupac sa 70.000 KM platom vjerovatnode distribucije greške je nula)

• Tačka procjene yˆ  1.521,87 KM – Greške u modelu imaju konstantnu varijansu za cijeli


raspon nezavisne varijable
1 (x p  x )
2
ŷ  tα/2 sε 1   • Grafička analiza reziduala
n  (x  x )2
– Nacrtati histogram reziduala da se provjeri normalna
1 ( 50.000  56.104 )2 ditribucija reziduala
1.521,87  1,96 * 687,068* 1  
1.000 936.421.374.789,992 – Nacrtati scatter plot Residuals vs. Nezavisna varijabla
1.521,87  1347,35
Interval pouzdanosti je od 174,52do 2869,22 53 54

9
Provjera prve pretpostavke Provjera druge pretpostavke
Reziduali vs Plata
Histogram reziduala 5000
250
4000

200 3000

2000
Frekvencija

Residuals
150

1000

100
0
0 20.000 40.000 60.000 80.000 100.000 120.000 140.000 160.000 180.000
-1000
50

-2000

0
-3000
0
200
400
600
800

More
1000
1200
1400
1600
1800
2000
2200
2400
2600
2800
3000
3200
3400
3600
-800
-600
-400
-200
-2000
-1800
-1600
-1400
-1200
-1000

Plata

Reziduali
• Reziduali su normalno distribuirani • Varijansa nije konstantna za cijeli raspon x varijable
• Vrijednosti reziduala su centrirane oko nule • Uvjet konstantne varijanse reziduala je narušen
55 56

10

You might also like