Regresija

Prof.dr.sc.
Bojana Dalbelo Bašić Uvod u statističko učenje
Statističko učenje
Multidisciplinarnost područja – razvoja i primjene
- pozvani predavači
- seminari
Teme 15.03.2005.
Proširenje tema iz uvoda u statističke metode:
- Neparametarska statistika
- ANOVA
- Regresija
17.03.2004. 1/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
χ2 test
Neparametarski test
Koristi se za dvije kategorije testova:

• Testiranje ponašanja po distribuciji ( engl. goodness of
fit )
• Testiranje nezavisnosti klasifikacija: kontigencijske
tablice (engl. contigency tables)
H0 dvije kvalitativne populacijske varijable su nezavisne
RxS tablice očekivana, teorijska
χ2 = Σ (fobs- fizracunata)2 / fizracunata
PUŠ AĆ I NEPUŠ AĆ I total
MUŠ KARCI 110 90 200
Ž ENE 104 96 200
total 214 186 400
Teorijske (oč ekivane) frekvencije
PUŠ AĆ I NEPUŠ AĆ I total
MUŠ KARCI 107= 93 200

(214*200/400)
17.03.2004. 2/22
Ž ENE 107 93 200
total 214 186 400
χ2 = (110-107)2/107 + (104-107)2/107 +(90-93)/93 +(96-93)/93 =

0.084 + 0.084 + 0.097 + 0.097 = 0.362
Broj stupnjeva slobode = (R-1)(S-1) za tablicu RxS
2 x 2 Table (Irisdat.sta)
Column 1 Column 2 Row
Totals
Frequencies, row 1 110 90 200
Percent of total 27,500% 22,500% 50,000%
Percent of total 26,000% 24,000% 50,000%
Column totals 214 186 400
Percent of total 53,500% 46,500%
Chi-square (df=1) ,36 p= ,5475
V-square (df=1) ,36 p= ,5480
Yates corrected Chi-square ,25 p= ,6162
Phi-square ,00090
Fisher exact p, one-tailed p= ,3081
two-tailed p= ,6163
McNemar Chi-square (A/D) ,82 p= ,3651
Chi-square (B/C) ,87 p= ,3506
Primjer 2:
Muškarci 41 preferiraju novu formulu od 50.
Žene preferiraju novu formulu od 50.
(Statistica example)
17.03.2004. 3/22
2 x 2 Table (Irisdat.sta)
Column 1 Column 2 Row
Totals
Percent of total 41,000% 9,000% 50,000%
Percent of total 27,000% 23,000% 50,000%
Column totals 68 32 100
Percent of total 68,000% 32,000%
Chi-square (df=1) 9,01 p= ,0027
V-square (df=1) 8,92 p= ,0028
Yates corrected Chi-square 7,77 p= ,0053
Phi-square ,09007
Fisher exact p, one-tailed p= ,0025
two-tailed p= ,0049
McNemar Chi-square (A/D) 4,52 p= ,0336
Chi-square (B/C) 8,03 p= ,0046
ANOVA
(ANALIZA VARIJANCE , ANalisys Of VAriance)
R.A. Fisher
Svrha:
• Nalaženje faktora koji najviše utječu na model (primjer
regresija)
• Reducira se na testiranje razlike između srednjih
vrijednosti više uzoraka.
• U principu uzorci nisu nezavisni i dobiveni su dizajnom
eksperimenta (kada se kontrolira vrijednost faktora)
2 populacije ANOVA → t-test
Zašto se ne testira nizom t-testova?
1. broj testova n(n-1)/2

2. nivo značajnosti se automatski povećava:
α=0.01 za pojedinačni test, vjerojatnost izbjegavanja
pogreške je 0.99 pa je vjerojatnost izbjegavanja pogreške
α jest (1-α)k za k testova. Vjerojatnost α u k testova je 1-
(1-α)k što je za k=10 iznosi 0.364
17.03.2004. 4/22
3. Individualni testovi nisu nezavisni jedan od drugog

4. Individualni testovi mogu proizvesti kontradiktoran
rezultat (sve su srednje vrijednosti jednake, jedan test
odbacuje hipotezu)
Testiranje x pomoću usporedbom varijanci!
Varijanca je suma kvadrata devijacija podataka od njihove

srednje vrijednosti SS (sum of squares) podijeljena s (n-1).
VARIJANCA MOŽE BITI PARTICIONIRANA!

TOTALNA VARIJABILNOST SSTOTAL =
VARIJABILNOST UNUTAR GRUPA SSERROR (ILI RESIDUAL) +
VARIJABILNOST IZMEĐU GRUPA SS(EFFECT)
Particioniranje varijance:
Grupa 1 Grupa 2
O1 3 6
O2 2 7
O3 1 5
x 2 6
SS 2 2
Ukupna x 4
Total SS 28
Uoči: SS koji se temelji na varijabilnosti unutar grupa (2) je

znatno manje nego ukupana varijabilnost (28).
Razlog te razlike leži u različitosti srednjih vrijednosti grupa!
17.03.2004. 5/22
SS (TOTAL) = SS (unutar grupa) + SS(zbog varijabilnosti sred.vr.)
Slučajne oscilacije - ERROR variance (due to random error),

(neobjašnjena varijabilnost)
SS (unutar grupa) = 2 + 2 = 4
SS Effect, SS(zbog varijabilnosti sred.vr.) = 28 – (2+2) = 24

(varijabilnost zbog efekta)
TOTALNA
Univariate Results for Each DV (Spreadsheet2)

Sigma-restricted parameterization
Effective hypothesis decomposition
GENERAL Degr. of Var1 Var1 Var1 Var1
Effect Freedom SS MS F p
Intercept 1 96,00000 96,00000 96,00000 0,000608
"Var2" 1 24,00000 24,00000 24,00000 0,008050
Error 4 4,00000 1,00000
Total 5 28,00000
Objašnjena varijabilnost
Mnoge stat. procedure koriste omjer
Nebjašnjena varijabilnost
Varijabiln ost izmedju grupa Mean Square Effect MS Effect

tj.
Varijabiln ost unutar grupa Mean Square Error MS Error
H0 nema razlike između grupa
Čak i kada vrijedi H0 očekujemo manje razlike u

očekivanjima između grupa, ali procijenjene varijance
između grupa i unutar grupa trebaju biti jednake.
F test – da li se omjer varijanci bitno razlikuje od 1.

17.03.2004. 6/22
• n broj elemenata, k broj grupa (uzoraka)

• i indeks podatka u uzorku(grupi)
• j je indeks grupe
F (n-k, k-1)
VAŽNO: pretpostavke ANOVE:

• Podaci su normalno distribuirani
• Varijance uzoraka su jednake
Testiranje jednakosti varijanci: Barlett, Cochran
17.03.2004. 7/22
ANOVA I REGRESIJA
ANOVA je moćni postupak za analizu kvalitete regresijskog

modela. VARIJANCA unutar modela može se
particionirati, a zatim se ti dijelovi stavljaju u odnos tako
otkrivajući činjenice o modelu!
ANOVA služi i za provjeru modela (goodness (or lack) of fit)
TOTALNA VARIJABILNOST SSTOTAL =

VARIJABILNOST REZIDUALA (POGREŠKE-ERROR)
SSRESIDUAL/ERROR + VARIJABILNOST OBJAŠNJENA REG.
MODELOM SSREG
SSTOTAL = ∑ ( yi − y ) 2 = SS ERROR + SS REGRESSION = ∑ ( yi − yˆ i ) 2 + ∑ ( yˆ i − y ) 2
17.03.2004. 8/22
VIŠESTRUKI REGRESIJSKI MODEL

(engl. Multiple Linear Regression)
History Lesson
Sir Francis Galton, in his 1885 Presidential address before the

anthropology section of the British Association for the Advancement of Science
(Stigler, 1986), described a study he had made that compared the heights of children
with the heights of their parents. He examined the heights of parents and their grown
children, perhaps to gain some insight into what degree height is an inherited
characteristic. He published his results in a paper, "Regression Towards Mediocrity In
Hereditary Stature," (Galton, F. (1886)).
Figure A shows a JMP scatterplot of Galton's original data. The right-hand plot is his
attempt to summarize the data and fit a line. He multiplied the womens' heights by
1.08 to make them comparable to mens' heights and defined the parent's height as
the average of the two parents. He defined ranges of parents' heights and calculated
the mean child's height for each range. Then he drew a straight line that went
through the means as best he could.
He thought he had made a discovery when he found that the heights of the
children tended to be more moderate than the heights of their parents. For
example, if parents were very tall the children tended to be tall but shorter than
their parents. If parents were very short the children tended to be short but taller
than their parents were. This discovery he called "regression to the mean," with
the word "regression" meaning to come back to.
17.03.2004. 9/22
However, Galton's original regression concept considered the variance of both

variables, as does orthogonal regression, which is discussed later. Unfortunately,
the word "regression" later became synonomous with the least squares method,
which assumes the X values are fixed.
Linearna regresija
Podaci sakupljeni mjerenjem, promatranjem, zanima nas odnos

između mjerenih varijabli -> oblikujemo model.
Najčešće je taj model linearna funkcija – pravac, ali ne mora biti i isti
se postupak može primijeniti sve dok je model linearan (!).
Y=ax + b
Y=a + bx + cx2
Linearan model je onaj koji je linearan u parametrima koji se

procjenjuju – odnos između varijabli to ne mora biti!
Crtamo dijagram raspršenja - scatter diagram
(Pogledati animaciju RUVL Regression by eye)
Često transformiramo varijable da bi odnos između njih bio linearan
Primjer: logY = a logx + b
(RUVL , podaci MOLD, sqrt, square)
17.03.2004. 10/22
Problem ekstremnih vrijednosti (outliers)
(Coimbra, leverege effect)
Regresijski model je onaj s pomoću kojeg procjenjujemo vrijednost

jedne varijable na temelju druge.
Yî = a + bX i
Yî − Yijest rezidual, devijacija ili pogreška koja nastaje kada

predviđamo Y u zavisnosti od X.
Reziduali predstavljaju onaj dio varijabilnosti koji nije moguće

objasniti modelom.
17.03.2004. 11/22
Reziduali se moraju pažljivo provjeriti jer oni odražavaju ispunjavanje

pretpostavki modela – najbolje grafički (posebno za male uzorke kada
numerički postupci nisu odgovarajući)
(analiza reziduala - animacija linearna regresija - uvid u zadovoljavanje pretpostavki - grafički)
Najbolja krivulja (best fit) regresijske funkcije može se dobiti

minimiziranjem sume kvadrata pogreške min ∑ (Yˆ − Y )
i
i i
2
.
Od svih krivulja koje aproksimiraju neki skup točaka krivulja sa
svojstvom min ∑ (Yî − Yi ) naziva se
2
LEAST SQUARE REGRESSION CURVE
17.03.2004. 12/22
(Uoči: ako zamjenimo x s y dobit ćemo drugačiju krivulju!)
Da li se best fit može dobiti na drugi način ? Zašto baš min SS?
Mjera korisnosti modela – koeficijent determinacije R2

(goodness of fit)
Mjeri proporciju varijance zavisne varijable oko njezine srednje

vrijednosti koja je objašnjena prediktorskim (zavisnim) varijablama.
0 < R2 < 1
Veći R znači veću snagu modela u objašnjavanju regresijske funkcije i

dakle, bolju predikciju zavisne varijable.
Osnovna ideja: izračunati redukciju pogreške predikcije kada je
informacija koju osigurava nezavisna varijabla uključena u model.
SSTOTAL = ∑ ( yi − y ) 2 = SS ERROR + SS REGRESSION = ∑ ( yi − yˆ i ) 2 + ∑ ( yˆ i − y ) 2
17.03.2004. 13/22
1. Ako nema x u modelu, tj. nema doprinosa x-a predikciji y onda je

najbolji pogodak srednja vrijednost y
2. Ako sada uključimo informacije s kojom x predviđa y, pogreška

je reducirana. S obzirom da regresijska funkcija predstavlja najbolji
opis podataka (best fit) pogreška je
n
SS error = ∑ ( yi − yˆ i ) 2 model
i =1
• R2 je relativno smanjenje pogreške kada je informacija o X

uključena u model
17.03.2004. 14/22
SS REG SSTOT − SS ERR

R2 = =
SSTOT SSTOT
• To je količina varijacije Y objašnjena s X.
• Za jednostavnu linearnu regresiju koeficijent

determinacije jest kvadrat korelacijskog koeficijenta
između X i Y.
(Pogledati animaciju RUVL Komponente r2)
Izvod normalnih jednadžbi ………….
Izvod za y = ax + bx2 …………………
17.03.2004. 15/22
Pretpostavke za jednostavnu linearnu i multiplu regresiju:
• Odnos između x i y je linearan (uoči razliku između ne-linearne i

krivolinijske asocijacije → može biti transformirana).
• Sve varijable su nezavisne, nema korelacije s bilo kojom trećom
varijablom.
• Za svaki X, vrijednosti Y su distribuirani normalno
• Za svaki X, Y distribucija ima istu varijancu. (homoscedastic
data). HOMOSCEDASTIC data – slučajna pogreška je normalno
distribuirana – često narušena pretpostavka!
To se grafički provjerava crtanjem pogreške u odnosu na signal

bez pogreške.
17.03.2004. 16/22
Vrlo često nije zadovoljeno posebno kada podaci pokrivaju široki

rang. Inače se kaže da su podaci heteroscedatic – slučajna
pogreška (rezidual) zavisi od jačine signala, veličine nezavisne
varijable.
17.03.2004. 17/22
17.03.2004. 18/22
VIŠE NEZAVISNIH VARIJABLI
(Francis Galton, 1886.)
Slična jednostavnoj linearnoj regresiji osim što je više ulaznih

(nezavisnih) varijabli
y = a0 + a1 x1 + a2 x2 + …… + ak xk + ε
ε je ERROR ili RESIDUAL s očekivanjem 0.
• Jednadžba određuje hiperravninu u k-dim prostoru (k broj

varijabli)
• a0, a1, ……an određeni tako da je suma kvadrata pogreške je
minimalna
• Važno: pretpostavke iste kao i u običnoj linearnoj regresiji!
• Za analizu model služimo se ANOVA tablicom
Neke napomene za interpretaciju:
• Za k = 1 jednostavna linearna regresija

• F-ratio testira nultu hipotezu da su svi koeficijenti nezavisnih
varijabli 0 tj.
H0 a0 = a1 = ……= an = 0
F(k, n-k-1)
F se odnosi prema r2 (godness to of fit):
17.03.2004. 19/22
r 2 (n − k − 1)
F=
(1 − r 2 )k
• SSRES je procjena varijabilnosti duž regresijske linije i koristi se
za nalaženje procijenjene standardne pogreške pojedinih
regresijskih koeficijenata ai. Procjena standardne pogreške je
distribuirana kao t(n-k-1). Interval pouzdanosti je dan s
+/- t(α/2, n-k-1)s(ai)
• Ako su dvije nezavisne varijable izrazito korelirane, teško je

procijeniti regresijske koeficijente i dobivene vrijednosti
koeficijenata ne reflektiraju stvarne ovisnosti. (važno: outlieri
mogu značajno utjecati na kolinearnost!)
17.03.2004. 20/22
RAČUNANJE JEDINSTVENE I DIJELJENE VARIJANCE IZMEĐU

NEZAVISNIH VARIJABLI
Temelj za procjenu svih regresijskih odnosa je korelacija između

nezavisne varijable i zavisnih varijabli.
Korelacija je osnova za oblikovanje regresijske varijate procjenom

regresijskih koeficijenata za za svaku nezavisnu varijablu koja
maksimizira predviđanje zavisne varijable.
Za slučaj Y = a X1 + a0 postotak objašnjene varijabilnosti zavisne

varijable je kvadrat korelacije
Y X1
Za slučaj više nezavisnih varijabli potrebno je razmotriti postojanje

korelacije između nezavisnih varijabli jer one dijele nešto prediktivne
moći. Stoga se direktna korelacija zavisna i nezavisna varijable ne
može uzeti u obzir.
Parcijalni korelacijski koeficijent je korelacija Xi i Yi kada su

utjecaji drugih nezavisnih varijabli uklonjeni.
Semiparcijalni koeficijent se razlikuje od gornjeg jer predstavlja
korelaciju Xi i Yi kada su efekti drugih nezivisnih varijabli uklonjeni
samo iz Xi.
Koristi se za identifikaciju varijable koje imaju najveću inkrementalnu
prediktivnu moć.
Kvadrat daje jedinstvenu varijancu objašnjenu s nezavisnom
varijablom.
Y1
17.03.2004. 21/22
c
a
b
X2
X1
17.03.2004. 22/22

Regresija

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresija

Uploaded by

Copyright:

Available Formats

Prof.dr.sc.

Bojana Dalbelo Bašić Uvod u statističko učenje

Multidisciplinarnost područja – razvoja i primjene

Proširenje tema iz uvoda u statističke metode:

Koristi se za dvije kategorije testova:

H0 dvije kvalitativne populacijske varijable su nezavisne

RxS tablice očekivana, teorijska

χ2 = Σ (fobs- fizracunata)2 / fizracunata

PUŠ AĆ I NEPUŠ AĆ I total

MUŠ KARCI 110 90 200

Ž ENE 104 96 200

total 214 186 400

Teorijske (oč ekivane) frekvencije

PUŠ AĆ I NEPUŠ AĆ I total

MUŠ KARCI 107= 93 200

Ž ENE 107 93 200

total 214 186 400

χ2 = (110-107)2/107 + (104-107)2/107 +(90-93)/93 +(96-93)/93 =

Broj stupnjeva slobode = (R-1)(S-1) za tablicu RxS

2 populacije ANOVA → t-test

Zašto se ne testira nizom t-testova?

1. broj testova n(n-1)/2

3. Individualni testovi nisu nezavisni jedan od drugog

Testiranje x pomoću usporedbom varijanci!

Varijanca je suma kvadrata devijacija podataka od njihove

VARIJANCA MOŽE BITI PARTICIONIRANA!

Uoči: SS koji se temelji na varijabilnosti unutar grupa (2) je

SS (TOTAL) = SS (unutar grupa) + SS(zbog varijabilnosti sred.vr.)

Slučajne oscilacije - ERROR variance (due to random error),

SS Effect, SS(zbog varijabilnosti sred.vr.) = 28 – (2+2) = 24

Univariate Results for Each DV (Spreadsheet2)

Varijabiln ost izmedju grupa Mean Square Effect MS Effect

H0 nema razlike između grupa

Čak i kada vrijedi H0 očekujemo manje razlike u

F test – da li se omjer varijanci bitno razlikuje od 1.

• n broj elemenata, k broj grupa (uzoraka)

VAŽNO: pretpostavke ANOVE:

ANOVA je moćni postupak za analizu kvalitete regresijskog

ANOVA služi i za provjeru modela (goodness (or lack) of fit)

TOTALNA VARIJABILNOST SSTOTAL =

SSTOTAL = ∑ ( yi − y ) 2 = SS ERROR + SS REGRESSION = ∑ ( yi − yˆ i ) 2 + ∑ ( yˆ i − y ) 2

VIŠESTRUKI REGRESIJSKI MODEL

Sir Francis Galton, in his 1885 Presidential address before the

However, Galton's original regression concept considered the variance of both

Podaci sakupljeni mjerenjem, promatranjem, zanima nas odnos

Linearan model je onaj koji je linearan u parametrima koji se

Crtamo dijagram raspršenja - scatter diagram

(Pogledati animaciju RUVL Regression by eye)

Često transformiramo varijable da bi odnos između njih bio linearan

Primjer: logY = a logx + b

(RUVL , podaci MOLD, sqrt, square)

Problem ekstremnih vrijednosti (outliers)

(Coimbra, leverege effect)

Regresijski model je onaj s pomoću kojeg procjenjujemo vrijednost

Yˆi − Yijest rezidual, devijacija ili pogreška koja nastaje kada

Reziduali predstavljaju onaj dio varijabilnosti koji nije moguće

Reziduali se moraju pažljivo provjeriti jer oni odražavaju ispunjavanje

(analiza reziduala - animacija linearna regresija - uvid u zadovoljavanje pretpostavki - grafički)

Najbolja krivulja (best fit) regresijske funkcije može se dobiti

LEAST SQUARE REGRESSION CURVE

(Uoči: ako zamjenimo x s y dobit ćemo drugačiju krivulju!)

Mjera korisnosti modela – koeficijent determinacije R2

Mjeri proporciju varijance zavisne varijable oko njezine srednje

Veći R znači veću snagu modela u objašnjavanju regresijske funkcije i