You are on page 1of 40

Statistika

Predavanje 11

Jednostavna linearna regresija


Fokus predavanja
 Kako na osnovu regresione analize i
vrijednosti nezavisne varijable predviđati
vrijednost zavisne varijable
 Značenje regresionih koeficijenata b0 i b1
 Zaključivanje u vezi sa koeficijentom pravca i
koeficijentom korelacije
 Ocjena srednje vrijednosti Y i predviđanje
pojedinačnih vrijednosti Y

Statistika – Predavanje 11 11-2


Korelacija vs. Regresija
 Dijagram rasturanja se može koristiti da pokaže
relaciju između dvije varijable
 Korelacija mjeri jačinu linearne veze između
dvije varijable
 Korelacija se bavi jačinom veze
 Korelacija se ne bavi pitanjem kauzalnosti

Statistika – Predavanje 11 11-3


Tipovi relacija
Linearne relacije Krivolinijske veze

Y Y

X X

Y Y

X X
Statistika – Predavanje 11 11-6
Tipovi relacija
(nastavak)
Snažne relacije Slabe relacije

Y Y

X X

Y Y

X X
Statistika – Predavanje 11 11-7
Tipovi relacija
(nastavak)
Nema relacije

X
Statistika – Predavanje 11 11-8
Uvod u
regresionu analizu
 Regresiona analiza se koristi za:
 Predviđanje vrijednosti zavisne varijable na osnovu
vrijednosti makar jedne nezavisne varijable
 Objašnjavanje efekata promjena nezavisne varijable
na zavisnu promjenljivu
Zavisna varijabla: varijabla koju želimo da
objasnimo ili predviđamo
Nezavisna varijabla: varijabla koja se koristi da za
objašnjavanje zavisne varijable

Statistika – Predavanje 11 11-4


Model jednostavne linearne
regresije

 Samo jedna nezavisna varijabla, X


 Relacija između X i Y se opisuje
linearnom funkcijom
 Pretpostavlja se da su promjene u Y
izazvane promjenama u X

Statistika – Predavanje 11 11-5.


Model jednostavne linearne
regresije

Koeficijent Slučajna
Presjek Y Nezavisna greška
nagiba
(populacija) varijabla
(populacija)
Zavisna
varijabla

Yi  β0  β1Xi  ε i
Linearna komponenta Komponenta
greške

Statistika – Predavanje 11 11-9


Model jednostavne linearne
regresije
(nastavak)

Y Yi  β0  β1Xi  ε i
Opservirana
(prava) vrijednost
Y za Xi
εi Nagib = β1
Predviđena Greška za
(ocijenjena)
vrijednost Xi
vrijednost Y za Xi

Presjek = β0

Xi X
Statistika – Predavanje 11 11-10
Pretpostavke regresionog modela

Pretpostavke dočarava akronim LINE:


 Linearnost
 Između pojedinih vrijednosti nezavisne promjenljive X i odgovarajućih
prosječnih vrijednosti Y postoji linearna veza.
 Nezavisnost grešaka (Indipendency)
 Vrijednosti grešaka su statistički nezavisne (između bilo koja dva
stohastička člana ne postoji linearna veza).
 Normalnost grešaka (stohastički član ima normalan raspored)
 greške (ε) su normalno raspoređene za bilo koju vrijednost varijable X
εi : N(0;σ2)
 Jednake varijanse (Homoskedastičnost) (Equal variance)
 Raspored vjerovatnoće grešaka ima konstantnu varijansu
 X nije slučajna promjenljiva

Statistika – Predavanje 11 11-11


Jednačina jednostavne linearne
regresije (Regresiona prava)
Jednačina jednostavne linearne regresije daje
ocjenu regresione prave populacije

Ocijenjena (ili
predviđena) Y Ocjena
Ocjena
vrijednost za regresionog
regresionog
opservaciju i presjeka
nagiba
Vrijednost X za

Ŷi  b0  b1Xi
opservaciju i

Očekivana vrijednost greške ei je nula

Statistika – Predavanje 11 11-11


Metod najmanjih kvadrata

 b0 i b1 vrijednosti se dobijaju tako što se


minimizira suma kvadrata razlika između Y i

min  (Yi Ŷi )  min  (Yi  (b0  b1Xi ))


2 2

Statistika – Predavanje 11 11-13


Metod najmanjih kvadrata

 Koeficijenti b0 i b1 dobijaju se primjenom


formula

n XY   X  Y
b1 
n  X 2  ( X ) 2

b0  Y  b X

Statistika – Predavanje 11 11-14


Interpretacija presjeka i nagiba

 b0 je ocijenjena prosječna vrijednost Y


kada je vrijednost X jednaka nula

 b1 je ocijenjena promjena prosječne


vrijednosti Y kao rezultat jedinične
promjene X

Statistika – Predavanje 11 11-15


Mjere varijacije

 Ukupna varijacija ima dvije komponente:


SST  SSR  SSE
Ukupna suma Regresiona Suma kvadrata
kvadrata suma kvadrata grešaka

SST   ( Yi  Y )2 SSR   ( Ŷi  Y )2 SSE   ( Yi  Ŷi )2


gdje:
Y = prosječna vrijednost zavisne varijable
Yi = Opservirana vrijednost zavisne varijable
Ŷ = Predviđena vrijednost Yza datu X vrijednost
i i
Statistika – Predavanje 11 11-16
Mjere varijacije
(nastavak)

 SST = ukupna suma kvadrata


 Mjeri varijaciju Yi vrijednosti oko njihove sredine Y
 SSR = regresiona suma kvadrata
 Objašnjava varijacije koje se pripisuju odnosu između
XiY
 SSE = suma kvadrata grešaka
 Varijacije su izazvane nekim drugim faktorima a ne
relacijom između X i Y

Statistika – Predavanje 11 11-17


Mjere varijacije
(nastavak)
Y
Yi  
SSE = (Yi - Yi )2 Y
_
SST = (Yi - Y)2

Y  _
_ SSR = (Yi - Y)2 _
Y Y

Xi X
Statistika – Predavanje 11 11-18
Koeficijent determinacije, R2
 Koeficijent determinacije mjeri dio ukupnih
varijacija zavisne promjenljive koji je objašnjen
varijacijama nezavisne varijable
 Koeficijent determinacije se naziva R na
kvadrat, R2

2 SSR regresiona suma kvadrata


R  
SST ukupna suma kvadrata

2
pažnja: 0  R 1
Statistika – Predavanje 11 11-19
Primjeri za R2 vrijednosti
Y
R2 = 1

Perfektna linearna relacija


između X i Y:
X
R2 = 1
Y 100% varijacija Y je
objašnjeno varijacijama X

X
R =1
2

Statistika – Predavanje 11 11-20


Primjeri za R2 vrijednosti
Y
0 < R2 < 1

Slabija linearna veza


između X i Y:
X
Dio ali ne sve varijacije Y
Y
objašnjen je varijacijama X

X
Statistika – Predavanje 11 11-21
Primjeri za R2 vrijednosti

R2 = 0
Y
Nema linearne veze između
X i Y:

Vrijednost Y ne zavisi od X.
X (Nimalo varijacijaY nije
R2 = 0
objašnjeno varijacijama X.)

Statistika – Predavanje 11 11-22


Standardna greška regresije
 Standardna devijacija varijacija opservacija oko
regresione linije izračunava se prema formuli

SSE  i i
( Y  Ŷ ) 2

S YX   i1
n2 n2
gdje
SSE = suma kvadrata grešaka
n = veličina uzorka

Statistika – Predavanje 11 11-23


Upoređivanje standardnih
grešaka
SYX mjeri varijacije opserviranih Y vrijednosti
oko regresione linije
Y Y

mala sYX X velika sYX X

Veličinu SYX trebalo bi uvijek vrednovati relativno u odnosu na Y


vrijednosti u uzorku

Statistika – Predavanje 11 11-24


Nagib regresije

 Standardna greška regresionog koeficijenta


nagiba (b1) ocjenjuje se formulom

S YX S YX
Sb1  
SSX  (X  X)
i
2

gdje:
Sb1 = standardna greška ocjene koeficijenta nagiba – metod ONK

SSE
S YX  = Standardna greška regresije
n2
Statistika – Predavanje 11 11-25
Upoređivanje standardnih
grešaka koeficijenta pravca
Sb1 mjeri varijaciju nagiba regresionih linija iz različitih
uzoraka koji se mogu odrediti

Y Y

mala Sb1 X velika Sb1 X

Statistika – Predavanje 11 11-26


Testiranje značajnosti regresione
veze: t test
 t test za nagib regresije populacije
 Postoji li linearna veza između X i Y?
 Nulta i alternativna hipoteza
H0: β1 = 0 (nema linearne veze, X ne utiče na Y)
H1: β1 0 (linearna veza postoji)
 Test statistika
gdje:
b1  β1
t*  b1 = ocijenjeni koeficijent pravca
Sb1 regresije
β1 = nagib prave populacije
Sb 1= standardna greška ocjene
s.s.  n  2
koeficijenta nagiba
Statistika – Predavanje 11 11-27
Interval povjerenja ocjene
koeficijenta pravca

Interval povjerenja koeficijenta pravca:

b1  t / 2, n 2Sb1 s.s. = n - 2

Statistika – Predavanje 11 11-28


Ocjenjivanje srednjih vrijednosti Y i
predviđanje pojedinačnih vrijednosti Y
Cilj: Formirati intervale oko Y radi ukazivanja
na neizvjesnost u pogledu vrijednosti Y za
Interval dato Xi
povjerenja
aritmetičke Y 
Y
sredine Y,
za dato Xi

Y = b0+b1Xi

Interval predviđanja
individualnih Y, za
dato Xi Xi
Statistika – Predavanje 11
X 11-29
Interval povjerenja za sredinu
promjenljive Y, za dato X
Interval povjerenja za prosječnu vrijednost
Y
za datu vrijednost Xi
Interval povjerenja za μ Y|X  X i :
Yˆ  t n  2SYX hi
Veličina intervala varira u skladu
sa udaljenosti od sredine, X.

1 (Xi  X)2 1 (Xi  X)2


hi    
n SSX n  (Xi  X)2
Statistika – Predavanje 11 11-30
Interval predviđanja za pojedinačne
vrijednosti Y, za dato X
Interval povjerenja za individualne
vrijednosti Y za date vrijednosti Xi

Interval povjerenja za YX  X i :
Yˆ  t n  2SYX 1  hi

Ovo se dodaje širini intervala da bi se izrazila


neizvjesnost u pogledu svake pojedinačne
situacije

Statistika – Predavanje 11 11-31


Algoritam proste linearne
regresije

 Identifikacija promjenljivih
 Odabir slučajnog uzorka
 Dijagram raspršenosti i izbor odgovarajućeg
regresionog modela
 Primjena metoda ONK
 Vrednovanje ocijenjenih vrijednosti
 Ispitivanje da li su pretpostavke modela
ispunjene
 Testiranje značajnosti regresije
 Predviđanje
Statistika – Predavanje 11 11-32
Slabosti regresione analize

 Nepoznavanje značaja pretpostavki o primjeni


ONK
 Nepoznavanje metoda za vrednovanje
pretpostavki
 Nepoznavanje alternativnih metoda ocjenjivanja
u slučaju da neka pretpostavka nije ispunjena
 Korišćenje regresionog modela bez poznavanja
suštine problema
 Ekstrapolacija izvan relevantnog domena
(opsega)

Statistika – Predavanje 11 11-33


Strategije za izbjegavanje
nedostataka regresije
 Početi sa dijagramom rasturanja X vs. Y radi
uočavanja moguće relacije zavisnosti

 Provjeriti da li su ispunjene pretpostavke

 Ako neka pretpostavka nije ispunjena


koristiti neki drugi metod ocjenjivanja
umjesto ONK

Statistika – Predavanje 11 11-34


Strategije za izbjegavanje
nedostataka regresije
(nastavak)

 Testirati značajnost ocjena regresionih


koeficijenata i konstruisati intervale povjerenja

 Ne predviđati za vrijednosti izvan relevantnog


opsega

Statistika – Predavanje 11 11-35


Koeficijent proste linearne
korelacije uzorka, r
SS xy
r
SS xx SS yy

( xi )( yi )
SS xy   ( xi  x )( yi  y )   xi yi 
n

( xi ) 2
SS xy   ( xi  x ) 2   xi2 
n

Statistika – Predavanje 11 11-36


Koeficijent proste linearne
korelacije uzorka, r

Statistika – Predavanje 11 11-37


t test značajnosti koeficijenta
proste linearne korelacije

 Hipoteza
H0: ρ = 0 (nema korelacije između X i Y)
HA: ρ ≠ 0 (postoji korelacija)

 Test statistika
r -ρ
 t (sa n – 2 stepeni slobode)
1 r 2
gdje
n2
r   r 2 ako b1  0
r   r 2 ako b1  0

Statistika – Predavanje 11 11-38


Rezime

 Uvod u regresionu analizu i tipovi regresionih


modela
 Pretpostavke regresione analize
 Jednačina proste linearne regresije
 Mjere varijacije

Statistika – Predavanje 11 11-39


Rezime
(nastavak)

 Ocjena i test značajnosti nagiba regresije


 Korelacija – mjeri jačinu relacije
 Ocjena srednjih vrijednosti i predviđanje
individualnih vrijednosti
 Nedostaci regresije i strategije za njihovo
prevazilaženje

Statistika – Predavanje 11 11-40

You might also like