You are on page 1of 7

VII.

Regresia
n cazul n care dou seturi de date variaz mpreun, corelaia ne spune dac aceast variaie este direct (pozitiv) sau invers (negativ). De asemenea corelaia ne indic puterea acestei relaii prin valoarea covarianei. Cu toate acestea exist alte informaii folositoare pe care corelaia nu ni le spune, cum ar fi: care este forma matematic a relaiei (incluznd modul n care se modific o variabil n raport cu cealalt) dac i cu ct, deviaz de la formula general orice observaie particular. cum putem folosi relaia de corelaie pentru a prezice sau prognoza valoarea cea mai probabil pentru a doua variabil, dac cunoatem o valoare dat a unei variabile. Regresia ne permite s aflm toate aceste informaii, regresia fiind complementar corelaiei. Prin intermediul regresiei se pot face predicii ale unei variabile, n funcie de valoarea altei variabile. Predicia este procesul de estimare a valorii unei variabile cunoscnd valoarea altei variabile. Tipuri de regresie Analiza regresiei poate avea diferite forme. Cea mai simpl este regresia liniar (aceasta este metoda pe care vom insista). Scopul regresiei liniare este de a gsi dreapta de regresie, adic "linia dreapt care se potrivete cel mai bine" datelor noastre ("best-fit straight line"). Aceast linie este rezultatul modului n care cele dou seturi de date covariaz (variaz mpreun).

Fig. 29. Reprezentarea grafic a dreptei de regresie. De asemenea este posibil s se fac regresie liniar multipl, n care este definit relaia dintre o variabil dependent "predicted" i dou sau mai multe variabile independente "predictor". Ecuaia regresiei liniare Deoarece vorbim despre regresie liniar, ecuaia de regresie are aceeai form cu ecuaia ce descrie o linie dreapt: y = a + bx (36) unde: - x (variabila reprezentat pe axa Ox) este de obicei variabila independent, care este cunoscut; - y (variabila reprezentat pe axa Oy) este de obicei variabila dependent, pe care o estimm; - b reprezint panta, sau gradientul liniei;

- a se numete intercept i reprezint intersecia dintre dreapta de regresie i axa Oy (valoarea lui y cnd x = 0). n figura 29 este prezentat graficul a dou variabile (y, x) reprezentate n sistemul de coordonare xOy, mpreun cu dreapta de regresie (linia ce se potrivete cel mai binepunctelor ce reprezint dependena date). Dreapta de regresie a fost determinat prin metoda celor mai mici ptrate, metod ce va fi prezentat n continuare. n ecuaia dreptei de regresie (y = 1 + 2x) din figura de mai sus, interceptul este egal cu 1,0 iar panta este egal cu 2,0. Deci, dac tim valoarea lui x putem calcula valoarea lui y. De exemplu, dac x = 3, atunci y = 1 + (23) = 7. Dreapta de regresie intersecteaz axa Oy la valoarea 1 (dat de coeficientul a) i pentru fiecare cretere a lui x cu o unitate, y crete cu dou uniti, deci panta (gradientul) este egal cu 2. Menionm c valoarea coeficienilor de regresie a i b poate s fie i negativ. Regresia liniar implic dou variabile, valoarea unei variabile fiind dependent de valoarea celeilalte. n literatura de specialitate se utilizeaz urmtoarea convenie: variabila dependent este y (fiind reprezentat pe axa Oy), iar variabila independent este x (reprezentat pe axa Ox). Conform acestei convenii putem se spune c "regresm y pe x" adic putem folosi ecuaia regresiei pentru a prezice valoarea variabilei y dac se cunoate valoarea variabilei x. Not: dac vrem s estimm valoarea lui x din valoarea lui y, nu putem rearanja pur i simplu ecuaia! Pentru a face acest lucru, trebuie s repetm calculele pentru determinarea regresiei (folosind procedura de mai jos) considernd y ca variabil independent i x ca variabil dependent. deci trebuie s regresm x pe y. n majoritatea cazurilor, acest calcul va produce valori diferite pentru noi coeficienii de regresie a i b! Exist dou posibiliti de calculare a coeficienilor de regresie a i b: Daca se cunoaste valoarea coeficientului de corelatie r dintre cele dou variabile X si Y, mediile (Mx, My) i abaterile standard (Sx, Sy) a celor dou variabile putem aplica urmtoarele formule: S b=r y (37) Sx a = My b Mx (38) unde: r - valoarea coeficientului de corelatie dintre X i Y, Sy - abaterea standard a variabilei Y, Sx - abaterea standard a variabilei X, My - media variabilei Y, Mx - media variabilei X. Metoda celor mai mici ptrate Cea de-a doua modalitate de calcul este metoda celor mai mici ptrate. Aceasta cale nu necesit cunoaterea valorii coeficientului de corelaie, a mediei sau a abaterii standard a variabilelor implicate. De aceea metoda este util n cazurile n care cunoatem doar datele brute. Metoda celor mai mici ptrate implic gsirea coeficienilor unici de regresie a i b astfel nct suma ptratelor rezidurilor s fie minim. Rezidurile sunt diferenele dintre valorile actuale i valorile estimate (prezise), de exemplu diferena dintre valorile y observate i valorile y estimate prin introducerea lui x n ecuaia de regresie. S considerm figura urmtoare, care reprezint un grafic tip "scatter" a variabilelor x i y pentru care vrem s determinm dreapta de regresie. Diferena (rezidul) dintre fiecare valoare y observat i valoarea corespunztoare estimat (prezis) este notat 'dy', unde 'd' reprezint 'diferena'. Deci pentru a 5-a valoare a lui y din grafic, diferena dintre valoarea prezis i cea real (dy5) este 4,95 - 4,05 = 0,90. Vrem s definim linia pentru care suma tuturor ptratelor valorilor "dy" este minim. Altfel spus dorim ca linia (dreapta de regresie) s treac ct mai aproape posibil de toate valorile observate.

Fig. 30. Metoda celor mai mici ptrate.


Pentru calculul coeficienilor a si b prin metoda celor mai mici ptrate, trebuie rezolvat urmatorul sistem de ecuatii: n a + b x = y (39) a x + b x 2 = ( x y)
Unde n este mrimea eantioanelor. Exemplu: S determinm ecuaia dreptei de regresie (prin metoda celor mai mici ptrate) pentru seturile de date ce reprezint cantitatea total de precipitaii i debit (coeficientul de corelaie este 0,915; s-a calculat n capitolul anterior). Variabilele care reprezint precipitaiile (n mm) sunt notate cu x, iar variabilele care reprezint debitul (m3/s) sunt notate cu y . Pentru a calcula coeficienii de regresie trebuie determinate valorile: n (mrimea eantioanelor), suma tuturor valorilor x, suma tuturor valorilor y, suma tuturor patratelor valorilor x, suma tuturor produselor xy. Mrimea eantioanelor n se determin prin numrarea perechilor din cele 2 seturi de date (n cazul nostru n = 10). Precipitaii (mm) x 1,2 1,8 4 3,6 1,9 2,4 2,7 0,4 0,1 0,9
x = 19

Debit (m3/s) y 2,7 2,4 8,1 7,2 2,5 3,7 4,6 1,7 1,8 1,4
y = 36,1

Tabelul 13. Metoda celor mai mici patrate x2


1,44 3,24 16 12,96 3,61 5,76 7,29 0,16 0,01 0,81 x2 = 51,28

xy
3,24 4,32 32,4 25,92 4,75 8,88 12,42 0,68 0,18 1,26 xy = 94,05

n urma calculelor se obine: 10a + 19b = 36,1 19a +51,28b = 94,05 n urma calculului va rezulta: a = 0,42 i b = 1,68 Ecuaia de regresie obinuta este: Y = 0,42 + 1,68X Vom face n continuare predicii ale debitului pornind de la aceast ecuaie n situaiile n care cantitatea de precipitaii este 1,2 mm respectiv 4 mm: Y1 = 0,42 + 1,681,2 = 2,44 Y2 = 0,42 + 1,684 = 7,14 Putem observa c ntre valorile estimate i valorile efective obinute sunt cteva diferene (2,44 estimat fa de 2,7 obinut, respectiv 7,14 estimat fa de 8,1 obinut). Aceste diferene ntre valorile reale i cele estimate reprezint erorile de estimare sau valorile reziduale. Dac am calcula toate valorile reziduale i media lor, am obine media zero, iar abaterea standard ar fi eroarea standard a estimrii. Aceasta se interpreteaza asemntor cu abaterea standard n situatia unei distribuii normale a datelor. Formula de calcul prescurtat a acestei erori standard este:
sy = sy 1 r2
x

(40)

Unde sy este abaterea standard a variabilei y, iar r este valoarea coeficientului de corelaie. Pentru cazul nostru (sy = 2,22 i r = 0,915): s y = 2,22 1 0,915 2 = 0,89
x

S lum cazul n care cantitatea de precipitaii este 1,2 mm. Valoarea estimat a debitului este de 2,44. Cu ajutorul erori standard a estimrii putem aproxima c n 68% din cazurile n care cantitatea de precipitaii este 1,2 mm, debitul va avea o valoare cuprins ntre 2,44 0,89 (adic, ntre 1 i +1 sy/x). Cu ct coeficientul de corelatie este mai mare, cu att eroarea de estimare va fi mai mic. Datorit facilitilor oferite de calculator, sunt rare cazurile n care se determin ecuaia de regresie (cu metoda celor mai mici patrate) prin calcule manuale. Exist o mulime de programe care pot efectua aceste calcule, unul din acestea fiind i programul EXCEL!

Dou drepte de regresie Dup cum am atras atenia mai sus, pentru orice set de date, se pot trasa dou drepte de regresie, care minimizeaz suma patratelor rezidurilor pe axele Ox respectiv Oy (figura 31). Dac valoarea y va fi estimat folosind valoarea x, atunci se folosete drepta care minimizeaz reziduurile pe axa Oy. Dac valoarea x va fi estimat folosind valoarea y, atunci se folosete drepta care minimizeaz reziduurile pe axa Ox.

Figura 31.

Coeficientul de determinare (r2) Coeficientul de determinare a fost definit n paragraful anterior. Acesta este folosit pentru a cuantifica partea din variaia unei variabile ce poate fi explicat prin variaia celeilalte variabile i este calculat prin ridicarea la patrat a coeficientului de corelaie Pearson (rxy). Figura 32 reprezint un grafic tip "scatter" a debitului (Q) de la dou staii de captare vecine, mpreun cu dreapta de regresie. Relaia liniar nu este perfect, punctele ce reprezint datele aflndu-se n jurul dreptei de regresie. Acest lucru ne spune c nu numai debitul Q2 controleaz valoarea debitului Q1, mai exist i alte variabile care influeneaz aceast relaie.

Figura 32. Coeficientul de determinare (r) este egal cu 0,978. Aceast valoare ne spune c 97,8% din variaia debitului Q1 este determinat de variaia debitului Q2. O afirmaie echivalent este urmtoarea: 2,2% din variaia lui Q1 este determinat de alte variabile. Valoarea r din exemplul de mai sus este foarte ridicat. n multe situaii se obin valori r2 mult mai mici.

Regresia neliniar Uneori relaia dintre dou variabile nu este liniar, deci trebuie efectuat o regresie neliniar (figura 33). Regresia neliniar nu este scopul acestui capitol, totui se poate aminti c programul EXCEL are facilitai de efectuare a unui numr limitat de fitri neliniare.

Figura 33. Regresie neliniar

Limitele regresiei liniare Principalele limite ale regresiei liniare sunt: Sunt necesare date scalate pe un interval; Datele trebuie s fie aproximativ normal distribuite; Relaia dintre variabile este presupus liniar, uneori o fitare neliniar poate determina un rezultat de estimare mai bun; Se presupune c msurtorile independente sunt lipsite de erori; Ecuaia regresiei nu trebuie folosit pentru a prezice valori ntr-un domeniu prea deprtat de datele originale; Pentru orice valoare x, valoarea y corespondent face parte dintr-o populaie normal distribuit. (adic rezidurile regresiei trebuie s aib o distribuie normal, cu media aritmetic egal cu zero); Residurile nu trebuie s aib vreo tendin (ex. panta regresiei rezidurilor pe x trebuie s fie zero). Dac folosim x ca variabil independent, atunci estimm valoarea lui y din valoarea lui x. Dac vrem s estimm valoarea lui x din valoarea lui y, nu se poate rearanja ecuaia regresiei (dup cum am spus i mai sus), ci trebuie calculat o alt ecuaie de regresie folosind y ca variabil independent i x ca variabil dependent. Teste de semnificaie Ecuaia regresiei poate fi folosit pentru a face predicii (estimri) complet acurate numai dac cele dou variabile sunt corelate perfect liniar. Totui, ntr-o manier similar altor tehnici ale statisticii, putem testa semnificaia coeficienilor de regresie calculai. Putem de asemenea s definim intervale de ncredere pentru orice valoare y estimat cu ajutorul ecuaiei de regresie. Testele de semnificaie pentru coeficienii de regresie se bazeaz pe o teorie similat distribuiei mediei eantioanelor i pe cunoaterea coeficientului de corelaie. Detaliile teoretice nu vor fi aprofundate n acest capitol, limitndu-ne doar la modalitatea de aplicare a acestor teste. Eroarea standard de predicie Pentru a putea determina intervalul de ncredere i a putea efectua testele de semnificaie, trebuie determinat eroarea standard de predicie, notat sy.x (sau sx.y dac x este estimat din valoarea y). Eroarea standard de predicie este calculat din deviaia standard a rezidurilor dreptei de regresie:
s y. x =

(y y ) / (n 2)
c

(41)

unde y reprezint valoarea variabilei dependente, iar yc reprezint valoarea estimat folosind ecuaia de regresie. Relaia 41 este similar relaiei de calcul a deviaiei standard a eantioanelor, doar c: msurm deviaiile valorilor y fa de drepta de regresie (deviaia standard msoar deviaiile fa de media aritmetic); mprim la n-2 grade de libertate (avem dou eantioane, ambele avnd mrimea n). Eroarea standard de predicie (sy.x) este o msur a mprtierii valorilor observate n jurul dreptei obinute prin fitare (regresie), deci poate fi folosit pentru a cuantifica incertitudinea prediciei. Relaia 41 este destul de complicat, din fericire programul EXCEL calculeaz eroarea standard de predicie n cadrul analizei de regresie pe care o poate efectua (regression analysis tool).

Testul-t pentru pant Atunci cnd se fac deducii statistice folosind regresia liniar (medoda celor mai mici ptrate) se presupune c s-a eantionat o populaie ce are o relaie liniar ntre x i y, cu valori fixe (dar necunoscute) ale pantei i interceptului.

Valorile interceptului (a) i pantei (b) calculate folosind eantioanele X i Y estimeaz parametrii de regresie ai populaiei, adic ne dau dreapta de regresie, care fiteaz ntreaga populaie. Dei analiza corelaiilor ne indic dac exist o corelaie semnificativ ntre cele dou variabile, putem testa dac valoarea determinat pentru panta dreptei de regresie (b) este semnificativ diferit de zero. Dac b nu este diferit de zero, atunci nu exist nici o justificare statistic pentru a folosi valoarile x n scopul estimrii valorilor y. Formal, putem exprima ipoteza nulului i ipoteza alternativ n modul urmtor: H0: = 0, ipoteza nulului H1 : 0 unde este panta dreptei de regresie a populaiei. Distribuia valorii pantei (b) este o distribuie de tip-t. Deci, la fel ca la distribuia coeficientului de corelaie putem s: transformm panta (b) n valori t; folosim distribuia-t pentru a obine probabilitatea ca valoarea calculat a coeficientului s provin din eantionarea aleatoare a dou populaii ntre care nu exist o interdependen liniar (dac nu sunt liniar relaionate, panta va fi foarte aproape de zero). Programul Excel poate efectua testul-t pentru pant, deci nu e nevoie s mai facem calculele manual, este suficient s nelegem urmtoarele: eroarea standard de predicie (sx.y) este folosit pentru a standardiza panta (b); cu ct crete mprtierea valorilor n jurul dreptei de regresie, cu att crete valoarea sx.y; cu ct sx.y e mai mare, cu att valoarea t calculat e mai mic, crescnd ansa ca panta (b) s provin din eantionarea aleatoare a dou populaii ntre care nu exist o interdependen liniar; dac tcalc > tcrit, ipoteza nulului (panta este nul) poate fi respins; de obicei se plic testul-t tiat la ambele capete "two-tailed test"; gradul de libertate pentru acest test se consider egal cu n - 2.

Testul-t pentru intercept De asemenea putem determina semnificaia statistic a interceptului. Ipoteza nulului si ipoteza alternativ se pot scrie: H0: = 0, ipoteza nulului H1 : 0 unde este interceptul populaiei Y La fel ca i n cazul pantei, interceptul are o distribuie ce urmeaz distribuia-t, i poate fi standardizat n uniti-t folosind eroarea standard estimat. Testul-t pentru intercept poate fi efectuat folosind pachetul analizei statistice din programul EXCEL. Procedura pentru testarea semnificaiei statistice a interceptului este aceeai ca n cazul testului-t pentru pant. Analiza varianei n multe programe statistice, efectuarea unei analize de regresie se poate face n cadrul analizei ANOVA (analysis of variance). Aceast analiz este o alternativ la testele-t pentru a verifica dac ecuaia de regresie are semnificaie statistic. Analiza regresiei n ANOVA este chiar simpl. Pur i simplu se testeaz raportul dintre variana exprimat folosind ecuaia regresiei (explained variance) i variana rezidurilor (unexplained variance). Acest raport este notat F i urmeaz distribuia-F. Programul EXCEL calculeaz valoarea F i ne d probabilitatea p asociat cu aceast valoare pentru care regresia are semnificaie statistic.

You might also like