You are on page 1of 21

BIOSTATISTICA

regresie - corelatie

Conf.dr. Lucian V. Boiculese

Regresia Liniară
Termenul de regresie a fost introdus de matematicianul Galton (1886).
Metoda constă în determinarea unei funcţii liniare f(x) = y = a + bx, care să
aproximeze calculul valorilor y prin valorile x.
Metoda de calcul pentru parametrii dreptei de regresie, constă în
definirea unei erori şi minimizarea acesteia.
Considerăm că avem două şiruri de date corespunzătoare variabilelor
aleatoare de interes X şi respectiv Y.
În tabelul următor sunt prezentate cele două şiruri: X: x1 x2 …. xn
Y: y1 y2 … yn

Dorim să determinăm parametrii a, b ce definesc dreapta de regresie:
f(x) = y = a + bx.
Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a
minimiza suma pătratelor erorilor dintre valorile yi (extrase din experiment) şi
valorile f(xi) calculate cu ajutorul formulei dreptei de regresie.
Se defineşte eroarea:  i  f ( xi )  y i  a  b  xi  y i
Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare
există în toate cazurile când i  0. Pentru a nu pierde această informaţie se va
folosi pătratul erorii. Eroarea totală va fi formată din suma tuturor erorilor
determinate de cele n valori experimentale:

Condiţia este ca derivata funcţie de fiecare variabilă în parte să fie zero. Obţinem astfel sistemul de ecuaţii:  n    a  b  x  y  2   i i n a  0  i 1  0  2   a  b  xi  yi   0  a    n   ni 1   0   a  b  xi  yi 2 2   a  b  xi  yi xi  0 b  i 1  i 1   0 b n n  X  Y   xi  y i b i 1 n a  Y b X n  X 2   xi2 Media variabilei x respectiv media i 1 variabilei y definesc un punct de pe linia de regresie!! Era cumva de așteptat …. .. n n       a  b  xi  yi 2 i 2 i 1 i 1 Eroarea totală trebuie minimizată în variabilele a şi b pentru a obţine o aproximare cât mai corectă a valorilor lui y funcţie de x.

Astfel se poate crea un interval de încredere pentru cele două necunoscute a şi b. Dacă valoarea parametrului b este negativă atunci dependenţa între cele două variabile aleatoare este invers proporţională. y va rămâne constant y = a.209 4 3.5 Y y = 0. Oricât am modifica variabila x . Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’. la rândul lor. Astfel o creştere a variabilei x va duce la o creştere a variabilei y. X=0 X 0 1 2 3 4 5 6 În concluzie s-au dedus parametrii dreptei: y = a + bx. Parametrul b este panta dreptei.628 1 . .628x + 1.yi) 2 a tg(α)=b 1. Norul de puncte reprezentat grafic formează diagrama REGRESIE de LINIARĂ dispersie. Dacă valoarea lui b este pozitivă atunci dependenţa între cele două variabile aleatoare este direct proporţională. reprezintă variabile aleatoare. se obţine pentru b=0.5 3 f(0)= a α 2. Cazul în care nu există dependenţă între cele două variabile x.5 a tg a = b = 0. Dacă x=0 atunci y = a.5 (xi. Observaţie: Atât a cât şi b sunt deduse din eşantioane. 5 f(x)=Y = a + bX 4. respectiv y. deci.

Y y=a+bx amax a amin a X Figura 2. Acest interval este datorat tocmai estimărilor parametrilor dreptei de regresie. bmin  tg a1   b  b .10 2 . amax  a  a . Ymax  .Reprezentarea grafică a suprafeţei de regresie. În acest caz unei valori xi îi va corespunde un interval de valori yi  Ymin . amax). amin  a  a . Prin estimarea parametrilor a şi b se vor obţine pentru intervale simetrice valorile limită: a  a0  a . respectiv b  b0  b . Pentru x=0 intervalul coincide cu (amin. Reprezentând grafic dreapta de regresie pentru cele 4 cazuri limită obţinem o suprafaţă de regresie. bmax  tg a 2   b  b . .

.

x2.indiferent de valoare. poate fi : un an.…xp) . . Interpretarea coeficienților dreptei de regresie Coeficienții covariabilelor Forma generală a dreptei de regresie pentru analiza multivariată (cu p covariabile) este: YA = f(x1.…xi+1.x2. Valoarea de un punct a covariabilei depinde de unitatea de măsură.…xp)=b0+b1*x1+…+bi*(xi+1)+…+bp*xp (B) Scădem din (B) pe (A): YB-YA = f(x1.…xp)=b0+b1*x1+b2*x2+…bi*xi+…+bp*xp (A) Considerăm că avem o creștere de o unitate a covariabilei xi. Avem în continuare conform relației matematice: YB = f(x1.x2. o lună . Atenție nu contează valoarea efectivă a celorlalte covariabile – contează să nu fie modificate .…xp)=bi*(xi+1)-bi*xi = bi Această diferență a lui y este egală cu bi (dacă bi este negativ atunci y va scădea). o zi. 1 mmL etc.f(x1. un gram .…xi+1. Tragem următoarea concluzie: În cadrul regresiei liniare coeficientul unei covariabile reprezintă efectul asupra ieșirii (variabilei y) pentru o creștere a covariabilei cu un punct (evident măsurat în unitatea de măsură stabilită) și păstrarea constantă a valorilor celorlalte covariabile. 1 cm. Astfel noua valoare va fi xi+1. Avem o creștere/descreștere a lui y tocmai cu bi coeficientul covariabilei modificate cu o unitate.x2. 1 Kg.

IMC=0 …etc. x2=IMC-ul. X2. x3=TAS…. TAS=120 … etc. Practic b0 reprezintă ordonata de intersecție a dreptei – sau intersecția dreptei cu axa YY`. Pentru a avea o imagine reală se poate considera (dar nu obligatoriu) pacientul ideal de greutate G=70 Kg. Astfel coeficientul b0 capătă sens deoarece reprezintă ieșirea din sistem pentru pacientul ideal – practic s-a făcut o translare a graficului din originea (0.0…) în noua origine (G=70Kg. x2=0 .xp=0 atunci f(0. …Xp au valoarea 0 deci x1=0.0. Interpretarea coeficienților dreptei de regresie Termenul liber Acesta este notat cu b0.…0)=b0.. De multe ori în practica medicală acest coeficient b0 nu are sens. Apoi se raportează toate celelalte valori la forma ideală. .…xp)=b0+b1*x1+b2*x2+…bi*xi+…+bp*xp (A) Dacă toate covariabilele X1. TAS=120. etc. Iată de exemplu să considerăm x1=greutatea. Pot fi aceste valori 0 ? Evident nu – nu există persoană cu greutate=0.x2.0. …). Iată repetăm forma generală a dreptei de regresie pentru analiza multivariată (cu p covariabile) este: Y=f(x1..

r”). iar cealaltă variază aleator a fost descrisă de forma liniară a dreptei de regresie. .  y2 . Corelaţie Legătura dintre două variabile aleatoare în care una dintre ele variază constant (sau controlat).  1 .y)=r(y.  reprezintă coeficientul de corelaţie. REȚINEȚI n  x  x   y  y  Corelația măsoară intensitatea i i legăturii dintre două variabile legăturii). i i Regresia reprezintă un model i 1 i 1 matematic – putem afla valoarea Y funcție de covairabilele Xi. Domeniul de variaţie este cuprins între –1 şi 1. acestea sunt independente. atunci nu există dependenţă între cele două variabile aleatoare. Practic gradul de dependenţă dintre cele două variabile aleatoare este definit de acest coeficient de corelaţie (se mai notează şi cu .. Corelaţia caracterizează legătura dintre două variabile aleatoare X şi Y cu     repartiţii normale N  x . Dacă =0.    1. r i 1 aleatoare Formula (puterea prezintă simetrie: n n  x  x    y  y  2 2 r(x.x) – comutativitate.  x2 respectiv N  y .

Observaţii:  Dacă   0 atunci cele două variabile aleatoare sunt dependente stocastic (aleator). Cu cât  se apropie de valoarea 1 cu atât dependenţa este mai puternică.Tipuri de legături între seturi de date. ρ=-1 avem anticorelație ! Graficele de mai jos exprimă o legătură puternică. între două variabile aleatoare.  Dacă <0 atunci cele două variabile aleatoare variază invers proporţional şi legătura este cu atât mai puternică cu cât coeficientul de corelaţie este mai apropiat de valoarea –1. spunem că cele două variabile aleatoare sunt dependente direct proporţional.  Pentru >0. Y Y Variabilitate mare implică corelație mică ! X X Legătură puternică Legătură slabă Figura 41 . . respectiv slabă.

iar dependenţa aleatoare devine deterministă (unui punct pe x îi corespunde un singur punct pe y) şi dreptele de regresie au alura primei bisectoare. xn respectiv Y: y1. x2.b’. diferă substanţial deoarece în primul caz s-a pus condiţia ca suma pătratelor erorilor pe direcţia oy să fie minimă iar în al doilea caz condiţia a fost ca suma pătratelor erorilor pe ox să fie minimă. y2. b b Calculând regresia x = g(y) = a’ +b’y (2) şi comparând cu relaţia (1) cele două drepte pot sau nu coincide. Prezentăm mai jos în patru grafice succesive cele relatate. … . Notăm cu A dreapta y=f(x). Dacă dreptele se suprapun atunci =1. . Deducerea coeficienţilor a. Observaţii asupra regresiei liniare şi corelaţiei Presupunem că avem două seturi de date X: x1. cunoscând pe x. În general dreptele pot sau nu să se apropie mai mult sau mai puţin demonstrând dependenţa dintre date. Calculând regresia y = f(x) = a + bx. obţinem anumite valori pentru a 1 coeficienţii a şi b. Astfel. Şi în acest caz legătura este de tip determinist. Dacă  = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua şi dependenţa este invers proporţională. Dacă extragem pe x funcţie de y avem: x    y (1). Corelaţia exprimă tocmai această asemănare dintre cele două drepte de regresie. respectiv a’. putem determina pe y cu o precizie bună funcţie de datele din eşantion. respectiv cu B dreapta x=g(y).b. …yn.

Dacă valoarea coeficientului de corelaţie este 0 atunci cele două drepte fac un unghi de 900. Dependenţă deterministă Dependenţă stohastică invers proporţională invers proporţională Figura 42 -Tipuri de dependenţe între regresie şi corelaţie. A. Este normal ca legătura dintre cele două drepte să determine şi semnul coeficientului de corelaţie. . sunt perpendiculare.B A B  .B A B  . Dacă din y=f(x) obţinem o pantă negativă atunci tot negativă va fi şi panta obţinută din calculul x=g(y) şi tot negativ va fi şi coeficientul de corelaţie (evident legătura rămâne valabilă şi pentru cazul pozitiv). Dependenţă deterministă Dependenţă stohastică direct proporţională direct proporţională A.

.

org/wiki/File:Correlation_examples2.wikipedia.svg . http://en. Exemple: Diagrame de dispersie și corelațiile corespunzătoare.

Se impune astfel dezvoltarea de metode de deducere a legăturilor de tip neliniar existente între variabila de intrare notată x (numită şi variabilă independentă sau factor) şi variabila y (numită şi variabilă dependentă). Prezentăm în continuare câteva modele neliniare de interes pentru determinarea regresiei.Modele de regresie neliniară În practica de zi cu zi se întâlnesc des cazuri în care legătura de tip liniar dintre două variabile nu este satisfăcătoare şi reprezintă doar o latură particulară a realităţii. Modele parabolice Parabola este exprimarea variabilei dependente faţă de variabila x la puterea a doua. conţinând eventual termeni liberi şi eventual termen x la puterea întâi. Expresia matematică este: y = a + b  x + c  x2 Y M C>0 m C<0 X 0 .

y . curba tinzând asimptotic la valoarea a (y = a ) pentru x tinzând la infinit. Pentru b > 0 avem dependenţă descrescătoare şi curba tinde asimptotic tot la valoarea a pentru x tinzând la infinit. x Graficul funcţiei depinde de semnul coeficientului b (ca şi în celelalte cazuri). pentru x > 0. y a bx b x a x . Reprezentarea grafică a hiperbolei este realizată în figura următoare: Y b>0 a b<0 X 0 Figura 44 – Regresii hiperbolice Există mai multe modele hiperbolice. dintre care menţionăm: 1 1 axb y . Pentru b < 0 avem dependenţă crescătoare. b Exprimarea matematică este: y  a  . Modele hiperbolice Există modele din cadrul fenomenelor reale biologice care pot lua o formă hiperbolică.

Y b>0 b<0 A(o.  Pentru x = 0 se obţine y = a. a). cu x  . Pentru coeficient b > 0 se obţine o curbă crescătoare iar pentru coeficient b < 0 se obţine o curbă descrescătoare. Legătura de tip exponenţial Funcţia de tip exponenţial are forma matematică următoare: y  a  e b x .a) X 0 Figura 45 – Regresii de tip exponenţial . iar toate curbele au un punct comun anume A (0.

ceea ce reprezintă cazul cel mai simplu sau poate depinde neliniar de variabilele de interes. căci eliminând o parte din variabile aproximarea sistemului este mai ..Analiză multivariabilă (regresie multiplă) Legătura multiplă reprezintă o relaţie matematică în care există mai multe variabile factoriale sau independente. Există şi alte metode de analiză discriminantă pentru alegerea variabilelor factoriale de interes. Funcţia f(xi) poate fi liniară. Această alegere are mare efect asupra erorii sistemului. Sunt situaţii în care nu se cunosc care variabile să se ia în consideraţie în cadrul regresiei multiple. Astfel variabila dependentă poate fi exprimată matematic cu formula: y  f ( xi )   . Pentru a determina variabilele independente care au efect important asupra variabilei rezultative (y) se calculează spre exemplu coeficientul de corelaţie şi se aleg acele variabile ce corespund valorilor maxime ale acestui coeficient. cu i având valori de la 1 la n (n reprezintă numărul de variabile). Ecuaţia în cadrul unei legături multiple liniare este de forma: y = a0 + a1  x1 + a2  x2 + … + an  xn .grosolană” .

.056 . Coeficienții de corelație: r1=0.003 .978.Diferă la a doua zecimală. Dacă din modelul matematic rezultă o dependență direct proporțională deci pantă pozitivă atunci sigur și corelația va fi pozitivă (și invers). r2=0.781 . Coeficientul de corelație măsoară intensitatea relației liniare dintre două variabile aleatoare – este o valoare standardizată între -1 și 1. Panta dreptei de regresie măsoară în medie dependenţa ca model matematic dintre variabila dependentă Y şi covariabilele Xi. (r2)^2=0. Observație – asupra valorilor numerice ale coeficientului de corelație respectiv pantei dreptei de regresie. Nu putem afirma că o pantă mare atrage după sine un coeficient de corelație mare (și reciproc pantă mică corelație mică – este fals !). b2=2. Cu cât variabilitatea datelor este mai mare cu atât acest coeficient va fi mai mic.988 Diferențe mari ! Coeficienții de determinare: (r1)^2=0. Iată un exemplu grafic: Pantele dreptelor de regresie sunt foarte apropiate: b1=2.655 .

TESTING THE MODEL – P VALUE .COMPUTING THE COEFFICIENTS . known_x's) • y-intercept. r2: =RSQ(known_y's. a: =INTERCEPT(known_y's. de determinare. known_x's) • Coeficientul de corelație. known_x's) EXAMPLES OF REGRESSION .PLOTTING THE DATA – REGRESSION LINE . b: =SLOPE(known_y's. known_x's) • Corf. r: =CORREL(known_y's.Excel – funcții pentru calculul regresiei liniare și a corelației: • Panta.

v1) ? • ……………………………. definiți regresia… • Ce este corelația ? • Ce înțelegem prin relație direct proporțională ? • Prin ce metodă determinăm coeficienții dreptei de regresie ? • Ce au în comun regresia și corelația ? • Cum interpretăm coeficientul variabilei X din modelul liniar de regresie ? • Scrieți funcția liniară a dreptei de regresie. . Exemple de posibile întrebări de examen • Ce reprezintă regresia. • Puteți desena două seturi de date (de tip XY) primul să exprime corelație slabă iar al doilea corelație puternică ? • Notăm cu r corelația și cu V1 respectiv V2 cele două variabile aleatoare studiate. • Desenați o dreaptă de regresie ce să reprezinte o dependență direct proporțională • Independența a două variabile X și Y cum se observă prin regresie ? Dar prin corelație ? • Coeficientul de determinare variază între limitele …… • Coeficientul de corelație variază între limitele…. Este adevărată relația:r1(v1.etc.v2)=r2(v2.