LINEARNA REGRESIA Regresija Regresijska analiza bavi se ispitivanjem ovisnosti jedne varijable o jednoj ili više nezavisnih varijabli

s ciljem određivanja analitičkog izraza koji opisuje vezu, to jest model koji služi u analitičke i prediktivne svrhe. Deterministički model (funkcionalan) pretpostavlja se egzaktna veza među varijablama ( za svaku vrijednost nezavisne varijable, jednoznačno je određena vrijednost zavisne varijable) y=f(x). Statistički model vrijednost zavisne varijable y nije jednoznačno određena za zadanu vrijednost nezavisne varijable .Postoje varijacije y-a zbog neuključenosti varijabli koje utječu na ponašanje zavisnih varijabli ili zbog slučajnih utjecaja Y=deterministička komponenta+slučajna pogreška Jednostavna (linearna ) regresija bavi se pronalaženjem analitičkog izraza kojim se opisuje povezanost zavisne varijable s jednom nezavisnom varijablom. Model linearne regresije je (probabilistički model).Pretpostavlja se da je zavisna varijabla y slučajna varijabla povezana s nezavisnom varijablom X izrazom : Yi=α +βXi+ei i=1..n Pretpostavlja se da za svaku vrijednost varijablex postoji distribucija vrijednosti varijable y, α i β su nepoznati parametri, ei greška relacije. To su nepoznate slučajne varijable za koje se pretpostavlja da su međusobno nezavisne i normalno distribuirane slučajne varijable sa sredinom nula i varijancom σ2 ei~N(0,σ2) , E(ei,ej)=0 , i≠j U klasičnoj regresijskoj analizi pretpostavlja se da je varijabla x nestohastička (u ponavljanim uzorcima ima iste vrijednosti) Pošto su varijable yi linearne funkcije normalno distribuiranih varijabli ei, one su također normalno distribuirane s parametrima : E(yi) =E(α+βXi+ei)=Yi=α +βXi+E(ei)=α +βXi Var(yi)=Var(α+βXi+ei)=Var(ei)=σ2

koeficijent korelacije .. Ppretpostavlja se linearna regresijska veza među varijablama y i x . testiraju se hipoteze o parametrima u regresijskom modelu . te se ispituju jesu li ispunjene polazne postavke o modelu. koriste se za predviđanje.. Polazeći od uzorka velićine n i opaženih vrijednosti x i y crta se dijagram rasipanja. Računaju se elementi analize varijance . koeficijent determinacije . Ako je model zadovoljavajući. Ispituje se kakvoća i upotrebljivost dobivenih rezultata. standardne devijacije i koeficijenta varijacije regresije. Nepoznati se parametri procjenjuju metodom najmanjih kvadrata Računaju se procjene pokazatelja reprezentativnosti modela . kao što su procjene varijance. korak 4. procjenjivanje i dr. .Analiza modela linearne regresije korak 1. korak 5. korak 3. pri čemu je model populacije: Yi=α +βXi+ei korak 2.

Procjenjivanje parametara : metoda najmanjih kvadrata Metoda najmanjih kvadrata sastoji se u određivanju regresijskog pravca. Gornja jednadžba se može zapisati i vrijednost zavisnih varijabli. su rezidualna odstupanja ( tj. a procjene slučajnih vrijednosti ). slijedi : je i-ta procjenjena ili regresijska Suma kvadrata rezidualnih odstupanja glasi : Iz zahtjeva da ta suma bude minimalna dolazi se do normalnih jednadžbi za procjenitelje metodom najmanjih kvadrata.koji minimizira sumu kvadratnih rezidualnih odstupanja. . Model uzorka s procjenjenim parametrimna glasi : i su procijenjeni parametri. iz čega .

je vrijednost regresije ako je vrijednost nezavisne varijable Regresijski koeficijent je promjena regresijske vrijednosti zavisne varijable za jedinično povećanje varijable x .n.to jest prosječna promjena zavisne varijable y za jedinično povećanje varijable x. procijenjene nezavisne vrijednosti varijable procjene slučajnih osnovi varijabli uzorka.. i=1... Regresijske vrijednosti . procjena standardne devijacije i C.Interpretacija procjena Konstantni član (intercept) x=0.V su mjere disperzije regresijskog procjena modela. i=1.. Rezidualna odstupanja . i=1. (To su ordinate na regresijskom pravcu). na To su razlike empirijskih i regresijskih vrijednosti.n.n su ei . .n su zavisne varijable za zadane vrijednosti xi . Procjena varijance koeficijenta varijacije . i=1.

Procjena standardne devijacije regresije izražena je u istim mjernim jedinicama kao i vrijednosti zavisne varijable. Jednadžba analize varijance .Procjena standardne devijacije regresije se interpretira kao prosječno odstupanje empirijskih od regresijskih vrijednosti. tablica anova Odstupanje empirijskih vrijednosti yi od prosjeka može se raščlaniti na protumačeno odstupanje (odstupanje odgovarajuće regresijske vrijednosti od prosijeka ) i neprotumačeno odstupanje : S obzirom da je odstupanje pojedinačnih vrijednosti varijable od prosijeka uvijek jednako nuli : računa se suma kvadrata odstupanja : . Model je dobar ako su procjene varijance i standardne devijacije male. Procjena koeficijenta varijacije je relativna mjera disperzije oko regresijskog pravca.

Dobivena se jednadžba zove jednadžba analize varijance. Njene su komponente : Ukupna suma kvadrata ST: Protumačena suma kvadrata SP : Suma kvadrata ne protumačenih ili rezidualnih odstupanja SR: Jednadžba analize varijance se može zapisati : ST=SP+SR Elementi analize varijance predočeni su u tabeli analize varijance (ANOVA): Izvor varijacije Stupnjevi Sume kvadrata sredine F-omjer slobode DF SF kvadrata MS Protumačen modelom 1 SP SP/1 SP/1 SR(n-2) PROB>F Neprotumačena odstupanja n-2 Ukupno n-1 SR ST SR/(n-2) .

Definiran je izrazom : . Korigirani koeficijent determinacije je mjera reprezentativnosti modela koja se izračunava korigiranjem koeficijentadeterminacije faktorom koji ovisi o broju stupnjeva slobode: Koeficijent linearne korelacije je mjera jakosti i smjera linearne veze između varijabli x i y.Koeficijent determinacije je proporcija varijacije iz uzorka protumačena linearnom regresijskom vezom : INTERPRETACIJA: 100(r2)% varijacija iz uzorka može se protumačiti uporabom x-a za procjenu y-a u modelu jednostavne linearne regresije.

distribucija procjenitelja parametra β je normalna s očekivanom vrijednosti jednakom parametru β i standardnom devijacijom jednakoj standardnoj pogrešci regresijskog koeficijenta . Procjena jednim brojem parametra je Predviđanje pojedinačnih vrijednosti zavisne varijable za danu vrijednost nezavisne varijable. .Intervalna procjena parametara β Ako su ispunjene pretpostavke o modelu jednostavne linearne regresije .

Testiranje hipoteze o paramet β .

na osnovi uzorka od 10 studenata (x-pismeni . y-usmeni izraženo u postotcima .Primjer : Na osnovi rezultata na pismenom ispitnom roku predviđamo ocjene na usmenom ispitu. uz pomoć programa SPSS) Prikaz rezultata grafički: .

“procijenjeni“ .Vrijednosti na pravcu „predviđeni“ .Najtočniji pravac regresije je onaj koji ima najmanju sumu kvadrata odstupanja pojedinačnih Y rezultata od tog pravca. „regresijski“ Y .Uz pomoć formule : biti će izračunata jednadžba pravca regresije Uz pomoć programa SPSS dobijemo rezultate : Analiza varijance (tablica ANOVA) =26.Suma kvadrata tih razlika mora biti što manja . .770 X ---formula regresijskog pravaca. stoga je metoda dobila ime „metoda najmanjih kvadrata“ Nisu svi rezultati na pravcu.639+0.). onda za svaki predviđeni rezultat Y dobije se razlika (Y.

jer se ko aritmetičke sredine radi o variranju aritmetičke sredine uzorka oko prave aritmetičke sredine .182 … . Pogreška prognoze Greška prilikom prognoze kod regresijskog pravca je veća što je manja korelacija . Formula za izračun pogreške je slična kao i za izračun standardne devijacije i glasi : standardna devijacija iznosi ∂= 8. Rezidualnih odstupanja SR = 602. variranje rezultata oko pravca regresije .Suma kvadrata tj. Pri računanju pogreške raspršenja oko pravca regresije .459 Napomena: S istim podacima računamo regresijski pravac i koeficijent korelacije r. To nisu dva jednaka pravca (osim u korelaciji +1) . Upravo to nas interesira tu . mora se pretpostaviti da je raspršenje rezultata oko pravca regresije podjednako uz čitavu duljinu pravca. a sijeku se pod što većim kutom . Ito kao što smo izračunali pravac regresije za varijablu Y kako bi iz X prognozirati Y . 95% rezultata varira za + 2x 8. isto možemo izračunati pravac regresije za pravac X. a kod standardne devijacije radi se o variranju rezultata dobivenih mjerenjem oko aritmetičke sredine uzorka. što je korelacija između njih manja(u slučaju korelacije 0 pravci su okomiti).182 . što znači da su rezultati jako raspršeni oko pravca regresije .182 Standardan pogreška po svom smislu odgovara po svom smislu standardnoj devijaciji i ne treba je miješati sa izrazom „standardan pogreška „ kod aritmetičke sredine . To znači da kao i kod standardne devijacije 68 % rezultata Y varijable varira za + 8.

A. Zagreb: Alinea. Varaždin: FOI (4) Dalbelo Bašić.fer. B. (1997) Osnovne statističke metode za nematematičare.05 možemo sa velikom sigurnošću predvidjeti uspjeh na usmenom ispitu na osnovi rezultata pismenog ispita studenata te si predviđati potrebne resurse za izvođenje ispita.Zaključak Uz visok koeficijent korelacije 0. Regresija Materijal za kolegij “Statističko učenje”. Dostupno na: http://www.) (5)Halmi. K. Jastrebarsko: Naklada Slap (3) Kero.01. 1999.hr/predmeti/stu/Regresija. Zagreb: Školska knjiga (2) Petz. (2003) Statistika u primjerima. I.2011. Bojanić-Glavica. LITERATURA (1) Šošić. i značajnost statističke vjerojatnost manje od 0. B.. .zemris. Temelji kvantitativne analize u društvenim znanostima. B. (2004) Primijenjena statistika.862 .pdf (zadnji pristup: 11.