Professional Documents
Culture Documents
Regresija
Regresija
Statističko učenje
- pozvani predavači
- seminari
Teme 15.03.2005.
- Neparametarska statistika
- ANOVA
- Regresija
17.03.2004. 1/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
χ2 test
Neparametarski test
17.03.2004. 2/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
2 x 2 Table (Irisdat.sta)
Column 1 Column 2 Row
Totals
Frequencies, row 1 110 90 200
Percent of total 27,500% 22,500% 50,000%
Frequencies, row 2 104 96 200
Percent of total 26,000% 24,000% 50,000%
Column totals 214 186 400
Percent of total 53,500% 46,500%
Chi-square (df=1) ,36 p= ,5475
V-square (df=1) ,36 p= ,5480
Yates corrected Chi-square ,25 p= ,6162
Phi-square ,00090
Fisher exact p, one-tailed p= ,3081
two-tailed p= ,6163
McNemar Chi-square (A/D) ,82 p= ,3651
Chi-square (B/C) ,87 p= ,3506
Primjer 2:
Muškarci 41 preferiraju novu formulu od 50.
Žene preferiraju novu formulu od 50.
(Statistica example)
17.03.2004. 3/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
2 x 2 Table (Irisdat.sta)
Column 1 Column 2 Row
Totals
Frequencies, row 1 41 9 50
Percent of total 41,000% 9,000% 50,000%
Frequencies, row 2 27 23 50
Percent of total 27,000% 23,000% 50,000%
Column totals 68 32 100
Percent of total 68,000% 32,000%
Chi-square (df=1) 9,01 p= ,0027
V-square (df=1) 8,92 p= ,0028
Yates corrected Chi-square 7,77 p= ,0053
Phi-square ,09007
Fisher exact p, one-tailed p= ,0025
two-tailed p= ,0049
McNemar Chi-square (A/D) 4,52 p= ,0336
Chi-square (B/C) 8,03 p= ,0046
ANOVA
(ANALIZA VARIJANCE , ANalisys Of VAriance)
R.A. Fisher
Svrha:
• Nalaženje faktora koji najviše utječu na model (primjer
regresija)
• Reducira se na testiranje razlike između srednjih
vrijednosti više uzoraka.
• U principu uzorci nisu nezavisni i dobiveni su dizajnom
eksperimenta (kada se kontrolira vrijednost faktora)
17.03.2004. 4/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Particioniranje varijance:
Grupa 1 Grupa 2
O1 3 6
O2 2 7
O3 1 5
x 2 6
SS 2 2
Ukupna x 4
Total SS 28
17.03.2004. 5/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
TOTALNA
Objašnjena varijabilnost
Mnoge stat. procedure koriste omjer
Nebjašnjena varijabilnost
17.03.2004. 7/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
ANOVA I REGRESIJA
17.03.2004. 8/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
History Lesson
He thought he had made a discovery when he found that the heights of the
children tended to be more moderate than the heights of their parents. For
example, if parents were very tall the children tended to be tall but shorter than
their parents. If parents were very short the children tended to be short but taller
than their parents were. This discovery he called "regression to the mean," with
the word "regression" meaning to come back to.
17.03.2004. 9/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Linearna regresija
Najčešće je taj model linearna funkcija – pravac, ali ne mora biti i isti
se postupak može primijeniti sve dok je model linearan (!).
Y=ax + b
Y=a + bx + cx2
17.03.2004. 10/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Yˆi = a + bX i
17.03.2004. 11/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
17.03.2004. 12/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Da li se best fit može dobiti na drugi način ? Zašto baš min SS?
0 < R2 < 1
17.03.2004. 13/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
17.03.2004. 14/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
17.03.2004. 15/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
17.03.2004. 16/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
17.03.2004. 17/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
17.03.2004. 18/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
y = a0 + a1 x1 + a2 x2 + …… + ak xk + ε
F(k, n-k-1)
F se odnosi prema r2 (godness to of fit):
17.03.2004. 19/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
r 2 (n − k − 1)
F=
(1 − r 2 )k
• SSRES je procjena varijabilnosti duž regresijske linije i koristi se
za nalaženje procijenjene standardne pogreške pojedinih
regresijskih koeficijenata ai. Procjena standardne pogreške je
distribuirana kao t(n-k-1). Interval pouzdanosti je dan s
+/- t(α/2, n-k-1)s(ai)
17.03.2004. 20/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Y X1
Y1
17.03.2004. 21/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
c
a
b
X2
X1
17.03.2004. 22/22