You are on page 1of 8

Regresia liniară

1. Intoducere Fiind dată o funcţie y(x) pentru care se cunoaşte un eşantion de volum n (sunt cunoscute n perechi de valori (xi,yi), i=1,…,n), se doreşte a se estima comportamentul acestei funcţii şi pentru alte valori ale variabilei x. Această prognoză se efectuează utilizând ecuaţia ce descrie legătura dintre cele două seturi de date (xi,yi), i=1,…,n. În acest context, se consideră una dintre variabile (x) ca variabilă independentă sau variabilă predictor, iar cealaltă variabilă (y) ca variabilă dependentă sau variabilă răspuns. Legătura dintre cele două variabile este descrisă de o ecuaţie liniară, denumita ecuaţia de regresie, căreia îi corespunde geometric dreapta de regresie. Ca metodologie, în cazul variabilelor numerice, variabila dependentă se distribuie pe axa ordonatelor, în timp ce variabila independentă se distribuie pe axa absciselor. Modul de prezentare al legăturii liniare dintre două variabile, în general numerice, atunci când aceasta există, se numeşte metoda regresiei liniare (regresia liniară). Ecuaţia dreptei de regresie se poate scrie sub forma , unde:  ŷ este valoarea estimată a variabilei răspuns,  b0 se numeste interceptor,  b1 este panta dreptei de regresie,  b0 şi b1 poartă numele de coeficienţi de regresie. Un exemplu de regresie liniară este prezentat în figura 1

1

Ideea de bază urmărită de metoda celor mai mici pătrate este determiarea coeficienţilor de regresie b0 şi b1 prin minimizarea erorii pătratice totale (Sum of Squared Errors = SSE) a populaţiei p. . este necesară introducerea unui termen de eroare.Figura 1: Regresie liniară pentru estimarea valorii nutritive (Rating) a cerealelor (ca alimente pentru micul dejun) în funcție de continutul de zahăr 2. Expresia detaliată a erorii pătratice totale este 2 . aceea care este valabilă pentru întreaga plajă de valori posibile. metodă ce va fi discutată în continuare. nu doar pentru un eşantion considerat. Metoda celor mai mici pătrate Ecuaţia dreptei de regresie se stabileşte pe baza metodei celor mai mici pătrate. Aceşti termeni eroare reprezinta diferenţa dintre valoarea reală a variabilei răspuns şi valoarea estimată a acestuia . Termenii eroare sunt necesari pentru a modela factorul de nedeterminare. Pentru a putea reprezenta adevărata legătură liniară. deci pentru întreaga p opulaţie.

3 . varianţa şi deviaţia standard) sunt măsuri ce caracterizează doar variabilitatea variabilei răspuns. reprezintă o măsură globlă a erorii de predicţie ca urmare a ecuaţiei de regresie estimate. . 3. Altfel spus. SSE reprezintă suma distanţelor de la valorile variabilei răspuns la dreapta de regresie. este valoarea medie a variabilei predictor şi este valoarea medie a variabilei răspuns. unde n este numărul total de observaţii. Evaluarea calitatii regresiei Suma erorilor pătratice. O altă modalitate de reprezentare a SST este în funcţie de varianţa variabilelor răspuns. rezulta . iar o altă reprezentare se poate face în funcţie de deviaţia standard: Toate aceste măsuri (SST. O altă măsură.Minimizarea SSE implică calcularea derivatelor de ordinul I a SSE si egalarea lor cu zero Prin rezolvarea sistemului de ecuaţii. care caracterizează setul de date este suma totală a distanţelor dintre valorile variabilei răspuns şi media acestor valori (Sum of Squares Total – SST).

Cu toate acestea. Pentru a evalua aceasta comparatie de mai sus (cum aproximează un set de date o dreapta de regresie faţă de o dreaptă medie). Coeficientul de determinare măsoară cât de bine se potriveşte regresia ca o aproximare a relaţiei liniare dintre predictori şi variabilele răspuns: Cu alte cuvinte. Valoarea maximă ( 1 ) a lui este caracteristică situaţiei în care regresia se potriveşte perfect la setul de date (toate punctele “cad” pe dreapta de regresie). Practic. Sau.Daca dorim sa comparam cât de bine poate aproxima un set de date o dreapta de regresie fata de aproximarea mai grosiera data de o dreaptă medie. iar erorile reziduale ar fi nule . ceea ce înseamnă că rămâne în continuare un anumit grad de variabilitate ce nu poate fi exprimat de regresie. de cele mai multe ori performanţele dreptei de regresie sunt mult mai bune (SSE are valori mult mai mici decât SST). Deci. este utilă expresia SSR – Sum of Squares Regression: Se poate demonstra că: . altfel spus. poate fi interpretat ca proporţia de variabilitate din variabila y ce poate fi exprimată de relaţia liniară dintre variabilele predictor şi variabilele răspuns. de care este “răspunzătoare” legătura liniară dintre răspuns şi predictor. 4 . SSR măsoară acea porţiune a variabiltăţii variabilei răspus. SSR arată cu cât se îmbunătăţeşte acurateţea predicţiei atunci când avem în vedere şi informaţia furnizată de variabilele predictor. adica SSE=0. SSE poate fi privit ca o modalitatea de a măsura variabilitatea din y ce provine din restul surselor (incluzând erori aleatoare) după ce a fost luată în calcul acea porţiune de variabilitate din y de care “răspunde” x. se poate demonstra că nu toate punctele de date se regăsesc exact pe dreapta de regresie.

m = 1 fiind cazul regresiei liniare simple.Valoarea minimă ( zero ) a lui este caracteristică situaţiei în care regresia nu aduce nicio îmbunătăţire faţă de aproximarea cu o dreaptă medie (SSE=SST). Având în vedere că coeficientul de determinare este pătratul coeficientului de corelaţie şi că primul poate lua valori înte 0 şi 1.7 indică faptul că variabilele sunt puternic corelate in sens pozitiv (cand x creste si y creste)  Valori între 0. În plus.7 indică faptul că variabilele sunt slab corelate  Valori între 0. Eroarea standard de estimare O altă măsură folosită pentru a cuantifica legătura liniară dintre două variabile este coeficientul de corelaţie.33 indică faptul că variabilele nu sunt corelate  Valori între -0.7 indică faptul că variabilele sunt puternic corelate dar într-un sens negativ ( cand x creste. unde m indică numărul de predictori folosiţi.33 şi -0. semnificaţia uzuală a valorilor coeficientului de corelaţie este următoarea:  Valori mai mari decât 0. coeficientul de corelaţie poate lua valori între -1 şi 1. y scade). Eroarea standard de estimare.  Valori mai mici decât -0.33 şi -0. 5 . r definit ca . s măsoară acurateţea cu care regresia se potriveşte la setul de date.33 şi 0. unde sx şi sy reprezintă deviaţiile standard ale setului de variabile predictor şi ale variabilelor răspuns. Pentru a determina eroarea standard de estimare este necesar să calculam eroarea pătratică medie (Mean Squared Error – MSE) .7 indică faptul că variabilele sunt slab corelate dar într-un sens negativ.

Rezultate experimentale Pentru exemplul prezentat mai departe a fost ales setul de date Cereals şi s-a dorit aproximarea variabilei răspuns Rating (Valoarea nutritiva) pe baza variabilei predictor Sodium. Tabelul pe baza căruia s-a determinat dreapta de regresie (folosind coloanele Sodium şi Rating) Obiectivele urmărite: 1. Tabelul 1.4. Calcularea coeficienţilor b0 şi b1 ai regresiei b0 = 44.0102 6 .7731 b1 = -0.

7 .Fig. Reprezentarea Rating-ului cerealelor în funcţie de conţinutul de sodiu 2. Calcularea SSR ssr = 6.7371e+003 3.2527 Se poate observa că această valoare este mai mică decât suma totală a erorilor ceea ce înseamnă că o proporţie mică din variabilitatea totală a setului de date va fi justificată de legătura liniară dintre cele două variabile Sodium şi Rating. 2. Calcularea SST sst = 5.

deci.0011 Aşa cum era de aşteptat s-a obţinut o valoare mică a coeficientului de determinare. Calcularea erorii medii standard s s = 20. Pentru a avea o evaluare şi mai bună a relaţiei dintre variabilele predictor şi cele răspuns. dreapta de regresie se potriveşte destul de puţin cu setul de date.9961 6. Calcularea coeficientului de determinare r2 r2 = 0. această valoare indică faptul că între variabilele predictor şi cele răspuns există o corelaţie negativă slabă. am calculate şi coeficientului de corelatie r r = -0. aşa cum se poate observa şi pe grafic.0330 Conform interpretarilor cunoscute. 5. 8 .5.