7. ANALIZA CORELATIEI 7.1. ASPECTE GENERALE Prin analiza varianţei se pune în evidenţă influenţa unor factori asupra unei caracteristici studiate dar nu se determină gradul acestei influenţe, nu se spune nimic cu privire la forma legăturii pusă în evidenţă. In cadrul distribuţiilor bidimensionale sau multidimensionale, cercetarea este interesată să cunoască dependenţa care există între două sau mai multe variabile. Analiza corelaţiei este o metodă statistică prin care se cercetează şi se exprimă existenţa, natura şi intensitatea legăturilor dintre variabile prin intermediul unor indicatori statistici. În cadrul distribuţiilor bidimensionale una din variabile, notată totdeauna cu x reprezintă variabila independentă stabilită arbitrar şi considerată ca nefiind afectată de erori şi cea de a doua, notată cu y, reprezintă variabila dependentă care se obţine prin măsurători şi care este afectată de erori. Totdeauna ca variabilă independentă se alege acea mărime care se determină uşor şi direct, iar ca variabilă dependentă urmează să fie aleasă cea care se stabileşte indirect prin utilizarea unor instrumente. In sectorul forestier : - variabila independentă : x - diametrul de bază ( d1,3 ); - variabila dependentă: y - înălţimea arboretului ( h ), volumul, diametrul coroanei, creşterea radială. In practică se înâlnesc două tipuri de legături sau dependenţe : - funcţionale de forma y - f(x) care apar atunci când unei anumite valori date lui x îi corespunde o valoare variabilei dependente y. - corelaţii care apar în cazul în care pentru o anumită valoare x putem avea valori diferite pentru y, deci unei valori x putându-i corespunde o serie de distribuţie care necesită calculul tuturor indicatorilor statistici (medie, dispersie). Tabelul 7.1 x Valoarea dependentă n y sy sy % s y x1 y11 y12 y13 . . . . x2 y21 y22 y23 . . . . . . . . . . . . . . . . . . . . . . . . . . . Într-un arboret echien de fag la acelaşi diametru se pot întâlni diferite valori pentru înălţime. In cazul relaţiilor statistice legătura nu are loc de la valoare la valoare ci de la valoare la distribuţie. Pentru fiecare valoare x apare o anumită distribuţie cu caracteristicile ei statistice, indicatori proprii (medie, dispersie etc.). Pentru practică asemenea legături ( statistice ) dintre fenomene sau caracteristici prezintă importaţă cunoscând variaţia unei caracteristici se poate afla valoarea altei caracteristici sau însuşiri fără a recurge la măsurători suplimentare. Corelaţia poate fi simplă, multiplă care la rândul lor pot fi directă sau pozitivă respectiv inversă sau negativă; totodată corelaţia poate fi liniară sau curbilinie (fig. 7.1 ). Exemple de corelaţii din domeniul dendrometriei : Corelaţii directe : d1,3 şi ir ; d1,3 - diametrul la 1,30m ; iK - creşterea radială d0,3 şi d1,3 d0,3 - diametrul la 0,3m ; Corelaţii indirecte : - d1,3 şi f1,3 ; f1,3 - coeficient de formă - vârsta şi numărul de arbori la ha. 7.2. METODE DE CONSTATARE A CORELAŢIILOR Existenţa corelaţiei poate fi identificată cu ajutorul reprezentărilor grafice (pt.N, 100) sau cu ajutorul tabelei de corelaţie (pt. N . 100). Intr-un sistem de axe se reprezintă grafic cuplurile carteziene (xi, yi) rezultate din măsurători. Dacă norul de puncte se aranjează de-a lungul unei drepte rezultă că între cele două variabile corelaţia e strânsă (fig. 7.2). Dreapta de regresie se orientează pe axa mare a elipsei de corelaţie. Legătura dintre x şi y va fi cu atât mai strânsă cu cât axa mică a elipsei este mai redusă. Dacă norul de puncte se dispersează mai mult iar axa mică a elipsei se măreşte, deducem că între cele două variabile slăbeşte corelaţia. Dacă valorile se dispersează în tot câmpul rezultă că nu trebuie să căutăm legături între variabile şi deci acestea sunt independente (r = 0). Dacă N > 100, atunci pe baza datelor din teren, valorile care au fost grupate în clase pe x şi y , se întocmeşte o tabelă de corelaţie. Fig. 7.1 Tipuri de corelaţii. Fig. 7.2 Dispunerea norului de puncte. Pentru întocmirea tabelei de corelaţie se stabileşte mai întâi numărul de clase şi intervalul de clasă pentru ambele variabile. In tabel se trec centrele claselor. Sumele coloanelor reprezintă distribuţia marginală a variabilei x, iar sumele pe orizontală reprezintă distribuţia marginală a variabilei dependente y. Pentru fiecare clasă x şi y se formează câte o distribuţie de clasă cu medii şi abateri standard proprii. Tabelul 7.2 y/ x 8 10 12 14 16 18 ny 9 1 2 s 8 1 2 1 e 7 1 1 1 r . 1 i . 1 a . 1 1 2 nx s e r i a x nxy y legătura lineară + + + legătură curbilinie nxy = N = ∑ nx = ∑ ny 7.3. COVARIANTA In cazul a două însuşiri corelate avem de a face cu două distribuţii de frecvenţe: o distribuţie a variabilei x, caracterizată printr-o varianţă s x 2 şi o distribuţie a variabilei y, caracterizată prin varianţa s y 2 . Pe lângă cele două varianţe s x 2 şi s y 2 se poate vorbi de o varianţă comună s xy 2 denumită covarianţă care reprezintă gradul de împrăştiere a celor două variabile xi şi yi faţă de mediile respective şi este dată de relaţia : -pentru un număr mare de măsurători s x x y y n sau s n x y xy xy i i xy i i 2 2 1 1 · − − − · − ∑ ∑ ( )( ) - pentru valori grupate în clase sau dacă se porneşte de la valori individuale se foloseşte următoarea relaţie: s n n x y n n x n y s n x y n x y xy ij i j i i j j j q i p j q i p xy i i i i n i i n i n 2 1 1 1 1 2 1 1 1 1 1 1 1 · − ¸ 1 ] 1 · − ¸ 1 ] 1 ¹ ' ¹ ¹ ¹ ¹ ¹ · · · · · · · ∑ ∑ ∑ ∑ ∑ ∑ ∑ ( )( ) ( )( ) - daca se porneşte de la valori individuale se poate folosi urmatoarea relaţie: s x y x y n n xy i i i i 2 1 · − − ∑ ∑ ∑ - în toate situaţiile: s s s xy x y 2 ≤ ⋅ Covarianţa este un indice al corelaţiei care, faţă de raportul de corelaţie η, prezintă avantajul că indică şi sensul corelaţiei. Covarianţa se poate aplica nu numai în cazul când unei valori x îi corespund mai multe valori y, ci şi în cazul când unei valori x îi corespunde o singură valoare y. Pentru a putea trage concluzii din covarianţă asupra corelaţiei dintre două însuşiri este necesar să fie comparată cu varianţele însuşirilor respective. Deci la orice corelaţie trebuie să calculăm s s x y 2 2 , şi sxy 2 . Valoarea covarianţei trebuie să se găsească între valorile s x 2 şi sy 2 în cazul unei corelaţii. Un dezavantaj al covarianţei este acela că valoarea ei este influenţată de unitatea de măsură folosită, neajuns care poate fi înlăturat dacă se exprimă covarianţa în valori relative. Acest lucru se realizează prin împărţirea covarianţei la varianţele celor două însuşiri corelate. 7.4. COEFICIENTUL DE CORELAŢIE Coeficientul de corelaţie (teoretic) ρ exprimă gradul legăturii liniare dintre cele două variabile. Datorită faptului că de cele mai multe ori ρ nu se cunoaşte în locul lui se foloseşte coeficientul de corelaţie empiric r determinat pe baza probei extrasă din populaţie. Coeficientul de corelaţie r exprimă gradul de împrăştiere a variabilei y în jurul dreptei de regresie, redând totodată şi intensitatea legăturii dintre cele două variabile. Pentru distribuţiile bidimensionale (fig. 7.3) se va calcula r numai dacă distribuţia e normală, proba s-a constituit randomizat şi dacă valorile extreme au fost eliminate. O distribuţie bidimensională este normală atunci când : - distribuţiile marginale ale fiecărei variabile sunt normale; - distribuţiile de clasă - distribuţii legate - sunt normale şi au abateri standard independente de x şi de y; - mediile teoretice µx şi µy se ordonează de-a lungul unor linii drepte (drepte de regresie). Când r = t 1 - legătură funcţională r = 0 - variabile independente Deoarece σ σ σ xy x y r 2 2 2 1 ≤ ⋅ ⇒ ≤ r ∈ [ -1,1 ] legătura este de corelaţie. Fig. 7.3 Distribuţia normală bidimensională. Semnul minus ne arată o corelaţie inversă, iar semnul plus o corelaţie directă. Valoarea în mărime absolută indică intensitatea corelaţiei. Calculul coeficientului de corelaţie pentru N < 100 se face cu relaţia: [ ] [ ] r N xy x y N x x N y y · − − − ∑ ∑ ∑ ∑ ∑ ∑ ∑ ( )( ) ( ) ( ) 2 2 2 2 pentru N > 100 [ ] [ ] r N xy n x n y n N n x xn N n y yn xy x y x x y y · ⋅ − ⋅ ⋅ − − ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ( )( ) ( ) ( ) 2 2 2 2 2 2 Calculul coeficientului de corelaţie se poate face şi în funcţie de mediile celor două variabile cu ajutorul relaţiei: [ ] r x x y y x x y y x y n x y x n x y n y xy i i i i i i i i i i i i · − − − − − · · − ⋅ − ⋅ − ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ( )( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 2 1 1 1 O altă relaţie de calcul pentru coeficientul de corelaţie, indiferent de N : ρ σ σ σ · 2 xy x y , iar pentru probe r s s s xy x y · ⋅ 2 sx - abaterea standard pentru caracteristica x; sy - abaterea standard pentru caracteristica y; sxy - covarianţa ( varianţa comună ). Pentru valori negrupate în clase varianţele şi covarianţa se determină cu relaţiile: s x x N N s y y N N s x x y y N xy x y N N x y xy 2 2 2 2 2 2 2 1 1 1 1 · − − · − − · − − − · − ⋅ − ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ( ) ( ) ( )( ) Pentru valori grupate în clase, varianţele şi covarianţa, se determină cu relaţiile : s x x n n s y y n n x i i i y i i i 2 2 2 2 1 1 · − ⋅ − · − ⋅ − ∑ ∑ ∑ ∑ ( ) ( ) Relaţia de calcul a coeficientului corelţiei funcţie de momente este: r m m m m m z x y x y · − − ⋅ 2 mx , my , mz reprezintă momentele centrate de ordinul II pentru seriile x, y, z. Seria pe z se obţine făcând sumele pe diagonală în tabelul de corelaţie. O estimaţie a coeficientului de corelaţie (un procedeu expeditiv) este dată de relaţia : r = sin [ 360 (n’ - 0,25 )] unde n’ reprezintă frecvenţa relativă a valorilor mai mari decât cele două mediane (Mx şi My ). Procedeul este aplicabil în cazul unor probe suficient de mari, normal distribuite. Valoarea coeficientului de corelaţie este valabilă numai în cazul distribuţiilor bidimensionale normale sau apropiate de acestea. Prezenţa unui coeficient de corelaţie ridicat între două caracteristici nu trebuie neapărat interpretată ca o dependenţă cauzală ; uneori, corelaţia este determinată de alţi factori care influenţează simultan asupra ambelor caracteristici. Analiza relaţiilor cauzale între caracteristicile studiate trebuie făcută prin prisma metodelor specifice disciplinei respective. Stabilirea coeficientului de corelaţie este primul pas în cercetare, urmând apoi să se descopere legăturile cauzale dintre fenomenele luate în considerare. La stabilirea coeficientului de corelaţie se vor evita unităţi ce fac parte din alte populaţii statistice. Eşantionul se alege la întâmplare. Asupra mărimii coeficientului de corelaţie influenţează puternic erorile de măsurare. 7.5. EXAMINAREA SEMNIFICATIEI COEFICIENTULUI DE CORELATIE Coeficientul de corelaţie empiric r reprezintă o estimaţie a coeficientului de corelaţie teoretic ϕ al populaţiei din care a fost extrasă proba. Pentru coeficientul de corelaţie calculat r este necesar să se stabilească autenticitatea valorii, respectiv dacă nu cumva valoarea găsită se datoreşte unor erori de eşantionaj. Pentru stabilirea autenticităţii coeficientului de corelaţie empiric se foloseşte metoda Fischer care se aplică ori de câte ori N < 30 iar valoarea lui r - (coeficientul de corelaţie) este foarte apropiată de 1. In condiţiile unui număr mic de măsurători valoarea lui r nu se mai distribuie după o curbă normală şi atunci trebuie luată în considerare valoarea transformată a lui r. z r r · + − 1 2 1 1 ln Pentru testarea semnificaţiei se utilizează relaţia: u z s s N eroarea valorii z z z exp ; · · − 1 3 Dacă uexp < utabelar pentru p = 95% şi α sau q = 5%. , z este nesemnificativ, deci, corelaţia dintre variabile nu poate fi luată în considerare. Dacă uexp > uteoretic existenţa corelaţiei este dovedită. Limitele de încredere ale coeficientului de corelaţie se stabilesc folosind limitele de încredere ale valorii z : - pentru p = 95%; z t ut ⋅ s In funcţie de limitele de încredere ale lui z se pot stabili limitele de încredere ale lui r. Valoarea coeficientului de corelaţie teoretic ϕ se găseşte în intervalul dintre cele două limite ale lui r. Pentru probe formate dintr-un număr redus de observaţii cu un coeficient de corelaţie relativ mic apropiat de 0, se aplică testul t: t r r N exp · − ⋅ − 1 2 2 Funcţie de f = N - 2 se stabileşte tteor (tabelat) şi acesta în funcţie de f şi α. Dacă texp < tteor ⇒ corelaţia nesemnificativă. Pentru valori mici ale coeficientului de corelaţie şi în cazul unor probe formate dintr-un mare număr de observaţii semnificaţia autenticităţii coeficientului de corelaţie empiric r se face cu ajutorul testului u. u r s s r N r r exp ; · · − 1 2 sr = eroarea de reprezentativitate a coeficientului de corelaţie care depinde de mărimea probei. Dacă uexp > uteoretic ⇒ coeficientul de corelaţie r este semnificativ. Limitele de încredere sunt r t uteor ⋅ sr respectiv, r - ut ⋅ sr < ϕ < r + ut ⋅ sr Limitele de încredere ale lui r: r t ut ⋅ sr iar pentru ϕ r - ut ⋅ sr < ϕ < r + ut ⋅ sr Pentru testarea autenticităţii coeficientului de corelaţie în cazul unui număr mare de măsurători şi când r are o valoare ridicată se poate folosi şi testul “ F “ al lui Fischer. F N r r exp ( ) · − − 2 1 2 2 N = volumul colectivităţii studiate. Fteor se extrage din tabele în funcţie de gradele de libertate şi funcţie de probabilitatea de transgresiune. Dacă Fexp > Fteor rezultă că legătura dintre cele două variabile este autentică.
Sign up to vote on this title
UsefulNot useful