CAPITOLUL 5

CAPITOLUL 5 ANALIZA LEGĂTURILOR DINTRE VARIABILELE STATISTICE
Consideraţii preliminare
Prezentul capitol urmăreşte să prezinte metode şi tehnici statistice folosite în analiza legăturilor, dependenţelor care se manifestă între cele mai multe fenomene de masă din viaţa reală. Indicatorii statistici pot, astfel, să rezume şi să prezinte sintetic legăturile dintre două caracteristici statistice (în cazul datelor bivariate) sau dintre mai multe caracteristici (în cazul datelor multivariate). Corelaţia va arăta cât de puternică este legătura, dependenţa dintre variabile, în timp ce regresia va ajuta în explicarea şi previzionarea unui factor pe baza valorii altuia (altora), ceea ce, evident, va reduce incertitudinea privitoare la fenomene importante, dar aleatoare.

Termeni cheie
analiză dispresională asociere coeficient de contingenţă coeficient de corelaţie coeficient de corelaţie a rangurilor coeficient de corelaţie parţială coeficient de determinaţie coeficient de determinaţie multiplă coeficient de regresie coeficient de regresie parţială corelaţie corelaţie neparametrică diagramă de împrăştiere legătură statistică plan de regresie raport de corelaţie raport de corelaţie multiplă regresie regresie liniară simplă regresie multiplă regresie neliniară tabel de asociere tabel de corelaţie test de independenţă

STATISTICĂ ECONOMICĂ

Noţiuni teoretice
5.1. INTRODUCERE Fenomenele şi procesele social-economice nu sunt în general, fenomene independente, ci ele se manifestă ca rezultat al acţiunii unor factori de influenţă şi condiţionează, la rândul lor, manifestarea altora. Spunem, aşadar, că între fenomenele de masă, colective se manifestă legături, dependenţe. Legăturile statistice sunt specifice fenomenelor de tip colectiv, sistemelor deschise, complexe, caracterizate de relaţii suple, neunivoce, în care cauzele interacţionează cu factorii aleatori. Aşadar, unei valori a factorului cauzal îi corespunde o distribuţie de valori ale factorului dependent, cea ce ne îndreptăţeşte să le tratăm ca variabile aleatoare şi să le analizăm utilizând metode statistice. Legea statistică nu poate fi pusă în evidenţă la nivelul fiecărui caz particular, fiecărui element în parte, ci numai la nivelul unei mase de evenimente cu structură completă. DEFINIŢIE: Legăturile statistice (stohastice) sunt relaţii prin care se realizează procesul de determinare, apariţie şi dezvoltare a fenomenelor de masă. Trebuie subliniat că metodele şi tehnicile statistice utilizate în studiul legăturilor dintre fenomenele de masă sunt cuprinse într-o categorie numită „analiza corelaţiei“. Trebuie să facem, însă, distincţia dintre un model de corelaţie — care ne arată cât de puternic sunt legate cele două variabile, cât de mult tind să se modifice împreună — şi un model de regresie — care examinează schimbările unei variabile ca o funcţie de schimbările sau nivelurile altei (altor) variabile. Modelul de regresie permite previzionarea uneia dintre variabile pe baza informaţiilor despre alte variabile. Totodată, analiza corelaţiei (în sens larg) este specifică variabilelor cantitative, numerice, măsurate pe scale de intervale şi de rapoarte. Printr-o extensie a semnificaţiei, putem efectua analiza bivariată şi multivariată a caracteristicilor calitative (nominale şi ordinale) prin studiul asocierii (sau contingenţei) luând în considerare distribuţia simultană a unităţilor statistice după două sau mai multe variabile calitative.

CAPITOLUL 5

5.2. CLASIFICAREA LEGĂTURILOR STATISTICE 1. după tipul variabilelor luate în consideraţie şi scala pe care sunt măsurate datele bi(multi)variate, legăturile pot fi clasificate — aşa cum am văzut în paragraful precedent — în asocieri şi corelaţii statistice. 2. după numărul variabilelor statistice luate în consideraţie, putem avea legături simple şi legături multiple. 3. după sensul legăturilor dintre variabile, putem avea legături directe şi legături inverse. 4. după forma ecuaţiei menită să descrie relaţia dintre variabile (adică modelul matematic propriu dependenţei studiate) putem avea legături liniare şi legături neliniare. 5. după modul de manifestare în timp a legăturii dintre variabile, avem legături sincrone şi legături asincrone. În cele ce urmează, în analiza statistică a legăturilor dintre variabilele social-economice cu ajutorul metodelor regresiei şi corelaţiei, vom nota cu: X — variabila cauzală, numită şi independentă sau exogenă, explicativă; Y — variabila efect, numită şi dependentă sau endogenă, explicată, care poate fi, aşadar, cunoscută când se cunoaşte variabila explicativă (sau când se cunosc variabilele explicative). 5.3. DIAGRAMA DE ÎMPRĂŞTIERE ŞI TABELUL BIDIMENSIONAL a) Diagrama de împrăştiere indică, în sistemul de coordonate rectangulare, fiecare unitate statistică (fiecare caz individual) printr-un punct. Variabila studiată drept factor cauzal, de influenţă (X) este reprezentată pe axa orizontală (a absciselor). Variabila de răspuns, care poate fi influenţată (Y) defineşte axa verticală (a ordonatelor). Forma de distribuire a punctelor pe grafic (adică norul de puncte) ne dă informaţii privind: 1. existenţa legăturii dintre variabile

STATISTICĂ ECONOMICĂ

2. sensul legăturii dintre variabile

a)

b)

Figura nr. 5.2 a) legătură directă şi b) legătură inversă 3. forma legăturii dintre variabile. b) Metoda tabelului de corelaţie se utilizează în cazul grupării combinate după două variabile numerice. Frecvenţele din interiorul tabelului permit, la fel ca şi în cazul diagramei de împrăştiere, identificarea existenţei, sensului şi chiar a formei dependenţei statistice. 5.4. ELEMENTE DE ANALIZĂ DISPERSIONALĂ (ANOVA) Pentru a înţelege conţinutul şi modul de utilizare a analizei dispersionale sunt necesare trei observaţii preliminare: 1. Este firesc , după aplicarea metodelor elementare prin care am constatat logic ce se pot stabili relaţii de dependenţă între variabile, să testăm ipoteza statistică privitoare la semnificaţia acestei dependenţe; 2. pentru fiecare nivel/variantă/interval de variaţie al factorului cauzal, se înregistrează o distribuţie de valori ale factorului efect, distribuţie pe care o putem caracteriza prin nivelul mediu.

CAPITOLUL 5
y y y1=y2= =yr yr y2 y1 o x1 x2 ...... xr x o x1 x2 ..... xr x

a)

b)

Fig. 5.3 - a) medii de grupă egale; b) mediile de grupă inegale

Analiza dispersională va urmări, deci, să testeze semnificaţia diferenţei dintre mediile de grupă în populaţia generală (estimate prin mediile de grupă din eşantion). 3. să mai notăm că, în general, în analiza dispersională, nivelurile x1, x2, ..., xr sunt niveluri ale unei variabile categoriale (numite şi tratamente), dar, cum ceea ce este valabil pentru o scală inferioară (nominală) este valabil şi pentru orice altă scală superioară (ordinală, de intervale, de rapoarte), analiza se poate extinde.

În modelul de analiză dispersională unifactorială se testează ipoteza nulă: H0: µy1 = µy2 = ... = µyr cu ipoteza alternativă cel puţin două medii din populaţie nu sunt egale: H1 : µyi ≠ µyi (i ≠ j)

Setul de date pentru analiza dispersională unifactorială constă în valorile variabilei Y pentru cele r grupe independente. Volumele grupelor pot fi diferite n1 ≠ n2 ≠ ... ≠ nr (Tabelul 5.1):

STATISTICĂ ECONOMICĂ Tabelul 5.1

Sistematizarea datelor pentru ANOVA
Gr. 1 y11 y12 . . Grupe după factorul cauză Gr. 2 ... . Gr.r y21 ..... yr1 y22 ..... yr2 . . y 2n 2 ..... y rn r
y2 n2

y1n1
Media Vol. grupă
y1 n1

..... .....

yr nr

Testul statistic F pentru analiza dispersională unifactorială este raportul indicatorilor de variabilitate pentru cele două surse de variaţie: variabilitatea dintre grupe împărţită la variabilitatea din interiorul grupelor Pentru testarea ipotezei nule, vom estima mediile de grupă şi media totală din colectivitatea generală pe baza datelor din eşantion. yi =
j=1

¦ y ij ni ,
r

ni

i = 1, r ¦ yi n i n

(5.1)

y=

i =1 j=1

¦ ¦ y ij n
r

r ni

=

i =1

(5.2) (5.3)

n = ¦ ni
i =1

Varianţa dintre grupe, dată de influenţa factorului cauzal, numită şi varianţa factorială este:
S1 = ¦ y i − y n i
i =1 r

(

)

2

(5.4)

iar varianţa din interiorul grupelor, numită şi varianţa reziduală, este: S 2 = ¦ ¦ y ij − y i
i =1 j=1 r ni

(

)

2

(5.5)

Împrăştierea totală a valorilor individuale faţă de media generală y este dată de varianţa totală:

CAPITOLUL 5

S = ¦ ¦ y ij − y
i =1 j=1

r ni

(

)

2

(5.6)

Pentru a face comparabile aceste măsuri ale variabilităţii, le vom raporta pe fiecare la gradele de libertate, transformând astfel suma de pătrate în media pătratele abaterilor. Obţinem astfel:
2 s1 =

S1 = r −1

i =1

¦ yi − y n i r −1

r

(

)

2

(5.7)

s2 = 2

S2 = n−r

i =1 j=1

¦ ¦ y ij − y i n−r

r ni

(

)

2

(5.8)

Statistica F pentru analiza dispersională unifactorială are forma:
F=
2 s1

s2 2

=

var iabilitatea dintre grupe variabilitatea din interiorul grupelor

(5.9)

Tabelul 5.2 Calculul statisticii F pentru analiza dispersională unifactorială Sursa Gradele Varianţa Dispersia Statistica F variaţiei de (suma corectată (media libertate pătratelor) pătratelor) 2 2 r–1 S1 Factorul X s1 s1 S2 n–r Reziduală F= s2 s2 2 2 Totală r–1 S = S1 + S2
2 s2 ≠ s1 + s2 2

Rezultatul este semnificativ dacă: Fcalc(r-1) > Ftab(r- 1),(n- r),α deoarece acest lucru indică diferenţe mai mari între mediile grupelor decât cele datorate întâmplării..
5.5. REGRESIA ŞI CORELAŢIA SIMPLĂ LINIARĂ

Deşi diagrama de împrăştiere poate fi extrem de utilă în determinarea formei legăturii dintre variabilele statistice, sunt disponibile şi metode mai exacte pentru a stabili modelul de legătură.

STATISTICĂ ECONOMICĂ

5.5.1. Regresia simplă liniară

Relaţia dintre variabila efect (Y) şi variabila cauză (X) studiată de regresia simplă liniară într-o populaţie statistică poate fi descrisă prin modelul liniar matematic general: (5.10) Yi = α + βXi + εi Valoarea parametrului α arată punctul în care linia interceptează (taie) axa OY (fig. 5.4), iar εi reprezintă componenta reziduală (eroarea aleatoare) pentru fiecare unitate, adică partea din valoarea variabilei Y care nu poate fi măsurată prin relaţia sistematică existentă cu variabila X.

y 3 2 1 o

0,5 {

{b

{
1 3 4 x

{
a

1

2

Fig. 5.4 - Modelul liniar unifactorial

Dacă datele disponibile provin dintr-un eşantion, modelul de regresie liniară în eşantion este (5.11) yi = a + bxi + ei cu componenta predictibilă: ˆ y i = a + bx i (5.12) ei = yi – (a + bxi) (5.13) Un criteriu pentru determinarea valorilor a şi b este metoda minimizării sumei pătratelor deviaţiilor (abaterilor sau reziduurilor) ei. Metoda, cunoscută ca metoda celor mai mici pătrate, înseamnă minimizarea relaţiei:
2 ˆ 2 ¦ e i2 = ¦ (y i − y i ) = ¦ (y i − a − bx i ) i =1 i =1 n n n

(5.14)

i =1

CAPITOLUL 5

Se obţine astfel:
na + b ¦ x i = ¦ y i
i =1 i =1 n n

(5.15a)
n

a ¦ x i + b ¦ x i2 = ¦ x i y i
i =1 i =1 i =1

n

n

(5.15b)

Estimatorii a (intercepţia) şi b (panta) ai parametrilor α şi β sunt daţi, atunci de:
n n · § n ·§ n 2 ¦ y i ¦ x i − ¨ ¦ x i ¸¨ ¦ x i y i ¸ i =1 i =1 ¹ © i=1 ¹© i =1 a= 2 n §n · n ¦ x i2 − ¨ ¦ x i ¸ i =1 © i =1 ¹ n § n ·§ n · n n ¦ x i y i − ¨ ¦ x i ¸¨ ¦ y i ¸ ¦ x i y i − n x ⋅ y i =1 © i=1 ¹© i =1 ¹ = i =1 b= 2 n n 2 2 §n · 2 ¦ xi − nx n¦ xi − ¨ ¦ xi ¸ i =1 i =1 © i =1 ¹

(5.16)

(5.17)

Se observă, totodată, că:
¦ x i − x yi − y ¦ xi − x n Estimatorul a (intercepţia) poate lua valori negative sau pozitive, în funcţie de semnul numărătorului din relaţia (5.16). Estimatorul b (panta liniei drepte) numit şi coeficient de regresie are întotdeauna semnul indicatorului sxy, numit şi covarianţa între x şi y (asupra căruia vom reveni în paragrafele următoare).
n n

i =1

(

)(

)
= s xy s2 x (5.18)

b=

i =1

(

n

)

2

STATISTICĂ ECONOMICĂ

y

y ÿ=a+bx b<0 x o

y

ÿ=a+bx b>0 o a)

ÿ=a+bx b=0 x o x

b)

c)

Fig. 5.5 - Linii de regresie cu: a) pantă pozitivă b) pantă negativă c) pantă egală cu zero

Vom obţine astfel:
i =1

ˆ ¦ yi = ¦ yi
i =1

n

n

(5.19)

în condiţiile respectării ipotezelor modelului de regresie liniară. Dacă datele au fost sistematizate utilizând metoda grupării, iar valorile xi şi yi se întâlnesc cu frecvenţele ni, atunci:
a ¦ n i + b ¦ x i n i = ¦ yi n i
i =1 r i =1 i =1 r r r

(5.20a)

a ¦ x i n i + b ¦ x i2 n i = ¦ x i y i n i
i =1

r

r

ˆ ¦ yi n i = ¦ yi n i
i =1

i =1 r

i =1

i =1

(5.20b) (5.21)

r

În cazul în care datele au fost sistematizate într-un tabel cu dublă intrare, iar valorile xi şi yj se întâlnesc cu frecvenţele nij: a ¦ ¦ n ij + b ¦ x i n i. = ¦ y j n. j
i =1 j=1 r i =1 r j=1 r m r m

(5.22a) (5.22b)

a ¦ x i n i. + b ¦ x i2 n i. = ¦ ¦ x i y j n ij
i =1 i =1 i =1 j=1

r m

j=1

ˆ ¦ y j n. j = ¦ y j n. j
j=1

m

m

(5.23)

CAPITOLUL 5

EXEMPLUL 5.1. Numărul de copii înscrişi şi numărul de cadre didactice din 10 unităţi preşcolare este (Tabelul 5.3):
Nr. crt. al unităţii preşcolare 1 2 3 4 5 6 7 8 9 10 Total Nr. copii înscrişi (xi) (persoane) 20 323 156 180 98 73 334 20 52 203 1459 Tabelul 5.3 Nr cadre didactice (yi) (persoane) 2 21 18 14 11 6 21 1 2 17 113

­na + b ¦ x i = ¦ y i ® 2 ¯a ¦ x i + b ¦ x i = ¦ x i y i
2 ¦ y i ⋅ ¦ x i − ¦ x i ¦ x i y i 113 ⋅ 332.267 − 1459 ⋅ 24.256 2.156.667 a= = = = 1.193.989 10 ⋅ 332.267 − 1459 2 n ¦ x i2 − (¦ x i )2

= 1,80627

b=

n ¦ x i y i − ¦ x i ¦ y i 10 ⋅ 24.256 − 1459 ⋅ 113 77693 = = 0,06507 = n ¦ x i2 − (¦ x i )2 10 ⋅ 332.267 − (1459)2 1193989

Modelul de regresie va fi: ˆ y i = 1,80627 + 0,06507 ⋅ x i Calculele intermediare necesare sunt prezentate în tabelul 5.4 col. 3,4,5.
Nr. crt. 0 1 2 3 4 xi 1 20 323 156 180 yi 2 2 21 18 14

x i2
3 400 104.329 24.336 32.400

y i2
4 4 441 324 196

xiyi 5 40 6.783 2.808 2.520

ˆ yi
6 3 23 12 14

ˆ (y i − y i )
7 1 4 36 0

Tabelul 5.4

2

(y

i

−y

)

2

8 86,43 94,09 44,89 7,29

STATISTICĂ ECONOMICĂ 5 6 7 8 9 10 Total 98 73 334 20 52 203 1459 11 6 21 1 2 17 113 9.604 5.329 111.556 400 2.704 41.209 332.267 121 36 441 1 4 289 1857 1.078 438 7.014 20 104 3.451 24256 8 7 24 3 5 15 113 9 1 9 4 9 4 77 0,09 28,09 94,09 106,09 86,43 32,49 579,98

Valorile ajustate ale numărului de cadre didactice în funcţie de numărul de copii înscrişi sunt calculate în coloana 6 a tabelului 5.4.
5.5.2. Indicatori ai calităţii ajustării Abaterea medie pătratică (eroarea standard) a reziduurilor este o măsură absolută a calităţii ajustării pe baza regresiei în eşantion, iar coeficientul de determinaţie este un indicator relativ. Se observă că(fig.5.6): ˆ ˆ y i − y = ( y i − y i ) + ( y i − y) (5.24)

y y yi–ÿi yi–y { ÿ –y { i

{

ÿ=a+bx

o

x

Fig. 5.6 - Abaterea valorilor individuale yi de la medie
2 2 ˆ 2 ˆ ¦ ( y i − y) = ¦ ( y i − y i ) + ¦ ( y i − y) i =1 i =1 n n n

i =1

(5.25)

CAPITOLUL 5

Putem nota:
i =1 n 2 2 ¦ ( y i − y) = ∆ y = varianţa totală, suma pătratelor abaterilor totale. 2 ˆ 2 ¦ ( y i − y i ) = ∆ e = varianţa neexplicată, suma pătratelor erorilor. 2 2 ˆ ¦ ( y i − y) = ∆ y / x = varianţa explicată, suma pătratelor abaterilor daton

i =1 n i =1

rate regresiei. ∆2y = ∆2y / x + ∆2 e Tabelul ANOVA este (Tabelul 5.5)
Tabelul 5.5 Tabelul ANOVA pentru testarea calităţii ajustării Sursa variaţiei Suma pătratelor Grade de Media pătratelor libertate (dispersia corectată) n Datorată k 2 ∆2y / x ˆ 2 ∆2y / x = ¦ y i − y regresiei sy/x =
i =1

(5.26)

(

)

k

Reziduală Totală

ˆ ∆2 = ¦ (y i − y i ) e
i =1 n

n

2

n–k–1 n–1

2 se =

∆2 e

∆2y = ¦ y i − y
i =1

(

)

n − k −1
∆2 y n −1

2

s2 = y

În tabelul ANOVA, k reprezintă numărul variabilelor independente luate în consideraţie. În analiza regresiei liniare simple, k = 1. Pentru analiza calităţii ajustării în regresia simplă liniară, abaterea medie pătratică a erorilor în eşantion este:
se = ∆2 e =
i =1

ˆ ¦ (y i − y i )

n

2

n−2 n−2 Alternativ, putem calcula: ∆2y ∆2y / x ∆2 = 1,00 = 2 + 2e 2 ∆y ∆y ∆y

(5.27)

(5.28)

STATISTICĂ ECONOMICĂ

Coeficientul de determinaţie este: R2 = ∆2y / x ∆2y = 1− ∆2 e 2 ∆y

( = ¦ (y
n i =1 n i =1

ˆ ¦ yi − y
i

) − y)

2

2

(5.29)

Raportul ∆2y / x / ∆2y reprezintă proporţia variaţiei totală care este explicată de linia de regresie. Cu cât raportul R2 are o valoare mai apropiată de 1 (sau de 100% într-o exprimare procentuală), cu atât putem aprecia că variabila independentă X explică mai bine variaţia variabilei efect Y.
ˆ Dacă β = 0, înseamnă că linia de regresie este orizontală, adică Y = Y , atunci valoarea lui X nu este de nici un ajutor în previzionarea variabilei Y: nu contează cât de mult se modifică X, deoarece nu implică nici o modificare în Y (în medie). Vom testa, prin urmare dacă panta (β) este diferită de zero. Ipoteza nulă (H0) va fi atunci aceea că panta (β) este egală cu zero, cu ipoteza alternativă (H1) că panta (β) este diferită de zero (pozitivă sau negativă, test bilateral): H0 : β = 0 (µb = β = 0) H1 : β ≠ 0 Dacă volumul eşantionului este mare, vom utiliza testul Z: b − µb b − 0 Z= = sb sb unde sb reprezintă abaterea medie pătratică obţinută din distribuţia de eşantionare a coeficientului b:

sb = s2 b
2 s2 = se b n

(5.30)
1
2

(5.31)

Pentru un prag de semnificaţie α, vom respinge ipoteza nulă (H0), când Z > Zα/2 sau Z < – Zα/2 şi vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o populaţie cu β = 0. Dacă volumul eşantionului este mic, vom utiliza testul t: b − µb b − 0 t n −2 = = sb sb

i =1

¦ (x i − x )

CAPITOLUL 5

statistică ce urmează o distribuţie t cu (n – 2) grade de libertate. Intervalul de încredere pentru coeficientul de regresie b este dat de: b – t(α/2, n -2) ⋅ sb ≤ β ≤ b + t(α/2, n-2) ⋅ sb
5.5.3. Corelaţia simplă liniară

(5.32)

. Plecând de la reprezentarea grafică prin intermediul diagramei de împrăştiere, putem calcula un indicator care să măsoare legătura dintre cele două variabile.
5.5.3.1. Covarianţa

Astfel, vom începe cu împărţirea planului diagramei în patru cadrane, în raport cu nivelurile medii din eşantion, x şi y (fig. 5.7):

y

cadranul II

cadranul I

y cadranul III

cadranul IV

o

x

x

Fig. 5.7 - Diagrama de împrăştiere cu cadranele separate de medii

Pentru punctele de pe grafic, produselor lor de la medii pot fi pozitive sau negative, astfel (Tabelul 5.6):
Tabelul 5.6 Semnele produselor devierilor (abaterilor) Cadranul I II III IV xi – x + – – + yi – y + + – – (xi – x )(yi – y ) + – + –

STATISTICĂ ECONOMICĂ

Este firesc atunci să calculăm media acestor produse ale abaterilor, medie care ne va oferi un indicator absolut al legăturii dintre variabile. Acest indicator, numit covarianţa între X şi Y, ne arată cât de mult se modifică împreună cele două variabile:
cov(x , y) = s xy =
i =1

¦ (xi - x )(yi - y ) n

n

= xy − x ⋅ y =

n ¦ x i yi − ¦ x i ¦ yi
i =1

n

n

n

n

i =1 2

i =1

(5.33)

Covarianţa are valoare pozitivă dacă legătura dintre variabile este directă şi negativă, dacă legătura dintre variabile este inversă. Dacă valoarea covarianţei este egală cu zero, acest lucru implică lipsa legăturii între variabile, sau, cel puţin, lipsa legăturii liniare.
5.5.3.2. Coeficientul de corelaţie liniară Coeficientul de corelaţie standardizează media produselor abaterilor: semnul coeficientului indică direcţia legăturii, iar valoarea lui indică intensitatea legăturii.

ª ( x − x ) 2 º ª n ( y − y) 2 º «i¦ i » «i¦ i » ¬ =1 ¼ ¬ =1 ¼ sau, prin transformări elementare:
n

rxy =

cov(x, y) = = sxs y sx ⋅ sy

s xy

i =1

¦ ( x i − x )( y i − y)

n

(5.34)

rxy =

n ¦ x i yi − ¦ xi ¦ yi
i =1 i =1 i =1 2º ª n 2 §n · n n n ¦ x i − ¨ ¦ x i ¸ » «n ¦ y i2 − § ¦ y i · » « ¨ ¸ © i =1 ¹ » « i =1 © i =1 ¹ » « i =1 ¬ ¼¬ ¼ 2 ºª

n

n

n

(5.35)

r Dacă perechile de valori (xi, yi) apar cu frecvenţa ni; § ¦ n i = n · , formula ¸ ¨ ¹ © i =1 devine:

rxy =

i =1

¦ ni ¦ x i yin i − ¦ x in i ¦ yin i
i =1 i =1 i =1 2 · ºª r

r

r

r

r

2 ªr r r §r xn §r yn · º 2 2 «¦ ni ¦ x i ni − ¨ ¦ i i ¸ »«¦ ni ¦ yi ni − ¨ ¦ i i ¸ » ¹ » «i =1 i =1 © i =1 © i =1 ¹ » «i =1 i =1 ¬ ¼¬ ¼

(5.36)

CAPITOLUL 5

iar dacă datele au fost sistematizate într-un tabel cu dublă intrare, în care §r m · perechile (xi, yi) apar cu frecvenţele nij ¨ ¦ ¦ n ij = n ¸ , atunci: ¨ i =1 j=1 ¸ © ¹ (5.37) 2º 2º ªr m ªr m m r § · §m · « ¦ ¦ n ij ¦ x i2 n i − ¨ ¦ x i n i ¸ » « ¦ ¦ n ij ¦ y 2 n j − ¨ ¦ y j n j ¸ » ¨ j=1 ¸ ¨ ¸ i =1 j=1 j=1 j «i =1 j=1 i =1 © ¹ » © ¹ »« ¼ ¬ ¼¬ Valoarea coeficientului de corelaţie (rxy sau simplu, r) este situată între –1 şi 1. O valoare 1 indică o corelaţie liniară directă şi perfectă (funcţională), iar o valoare –1 indică o corelaţie liniară inversă perfectă. Interpretarea uzuală a lui r este aceea că semnul indică direcţia legăturii, iar valoarea indică intensitatea ei. O valoarea O arată (de obicei) lipsa legăturii între variabile. Aşadar, coeficientul de corelaţie, r, este un indicator ce caracterizează direcţia şi intensitatea legăturii liniare. Se observă că: s (5.38) r=b x sy
EXEMPLUL 5.2. Considerăm datele din Exemplul 5.1. Pe baza lor se determină coeficientul corelaţiei rxy, folosindu-se datele intermediare din Tabelul 5.4.:
rxy =
i =1 j=1

¦ ¦ n ij ¦ ¦ x i y i n ij − ¦ x i n i ¦ y j n j
i =1 j=1 i =1 j=1

r m

r m

r

m

rxy = =

[

n¦ x i yi − ¦ x i ¦ yi − (¦ x i ) =
2

n ¦ x i2

][

n ¦ y i2

− (¦ y i )

2

]

=

77693 1193989 ⋅ (18570 − 12769)

=

77693 1193989 ⋅ 5801

77693 77693 = = 0,93 1092,698 ⋅ 76,1643 83224,578

Rezultă deci că între cele două variabile există o legătură directă şi foarte puternică. Semnificaţia coeficientului de corelaţie (r) poate fi testată utilizând testul t: t n −2 = r n−2 1− r
2

(5.39)

STATISTICĂ ECONOMICĂ

Ipoteza nulă se respinge dacă valoarea calculată tn-2 este mai mare decât valoarea tabelată tα/2,n-2 pentru testul bilateral şi tcalc. >tα,n-2 sau tcalc. < -tα,n-2 pentru testul unilateral dreapta, respectiv, stânga.
EXEMPLUL 5.3. Vom testa semnificaţia coeficientului de corelaţie calculat în Exemplul 5.1: rxy 0,93 ⋅ n−2 = ⋅ 8 = 7,158 t= 2 1 − 0,932 1 − rxy

tcalc. = 7,158 se compară cu valoarea tabelară a lui t, din tabelul repartiţiei Student (anexa) pentru un nivel de semnificaţie de 5% (α = 0,05) şi n – 2 = 8 grade de libertate: tα,n-2 = t0,05;8 = 2,306 Cum tcalc. > ttab rezultă că coeficientul de corelaţie liniară simplă determinat este semnificativ statistic (semnificativ diferit de zero).
5.5.3.3. Raportul de corelaţie

Un alt indicator relativ pentru măsurarea intensităţii legăturii dintre variabile este raportul de corelaţie, rădăcina pătrată a coeficientului de determinaţie (5.29), adică:
R=
i =1 n i =1

( ¦ (y
n

ˆ ¦ yi − y
i

) − y)

2

2

= 1 − i =1 n ¦ yi − y
i =1

ˆ ¦ (y i − y )

n

2

(

)

2

(5.40)

Raportul de corelaţie ia valori cuprinse între 0 şi 1. Cu cât valoarea indicatorului este mai apropiată de 1, cu atât legătura dintre variabile este mai puternică. Valori apropiate de 0 ne indică legături de intensitate slabă între variabile. În analiza corelaţiei simple liniare se observă că: r2 = R2 (5.41) şi r= R (5.42)
EXEMPLUL 5.4. Pentru calculul raportului de corelaţie vom lua în considerare datele din Exemplul 5.1:

CAPITOLUL 5

R = 1−
R = 1−

ˆ ∑ (y i − y i )
∑ yi − y

2

(

)

2

77 = 0,93 579,98 Rezultă că legătura dintre cele două variabile este foarte puternică.

5.6. REGRESIA ŞI CORELAŢIA MULTIPLĂ LINIARĂ

În numeroase situaţii, însă, variabila rezultativă supusă studiului poate fi afectată (determinată) de mai mulţi factori de influenţă.
5.6.1. Regresia multiplă liniară Regresia multiplă liniară extinde analiza regresiei, utilizând două sau mai multe variabile independente. Astfel, dacă luăm în consideraţie o variabilă dependentă (Y) şi două variabile independente (X1 şi X2), modelul de regresie multiplă liniară în colectivitatea generală devine: Yi = α + β1X1i + β 2 X 2i + ε i (5.43) iar în eşantionul cu care lucrăm, linia de regresie multiplă este: yi = a + b1x1i + b2x2i + ei (5.44)

În eşantion, coeficienţii b1 şi b2 sunt numiţi coeficienţi de regresie parţiali şi ei ne arată doar influenţa parţială a fiecărei variabile independente, atunci când influenţa tuturor celorlalte variabile independente este considerată constantă. ˆ y i = a + b1 x1i + b 2 x 2i (5.45) Aplicând metoda celor mai mici pătrate, sistemul de 3 ecuaţii simultane cu 3 necunoscute, pentru determinarea estimatorilor a, b1 şi b2 este:

STATISTICĂ ECONOMICĂ
n n n ­ na + b1 ¦ x 1i + b 2 ¦ x 2i = ¦ y i ° i =1 i =1 i =1 ° n n n n ° 2 ®a ¦ x 1i + b1 ¦ x 1i + b 2 ¦ x 1i x 2i = ¦ x 1i y i i =1 i =1 i =1 ° i =1 n n n n ° a ¦ x 2i + b1 ¦ x 1i x 2i + b 2 ¦ x 2i = ¦ x 2i y i 2 ° i =1 i =1 i =1 i =1 ¯

(5.46)

Dacă luăm în considerare k variabile independente, atunci modelul poate fi generalizat la: Yi = α + β1X1i + β 2 X 2i + ... + β k X ki + ε i (5.47) În acest caz apare o ipoteză specială, şi anume aceea că o variabilă independentă nu poate să fie exprimată ca o combinaţie liniară perfectă a celorlalte variabile independente. Cu alte cuvinte, nu este posibil să găsim un set de numere d0, d1, d2, ..., dk, astfel încât: d 0 + d1X1i + d 2 X 2i + ... + d k X ki = 0 , i =1, n (5.48) În practică, deşi situaţia aceasta, numită multicoliniaritate perfectă, este rar întâlnită, sunt mai frecvente cazurile de multicoliniaritate ridicată Ecuaţia de regresie multiplă în eşantion este: ˆ y i = a + b1 x 1i + b 2 x 2i + ... + b k x ki (5.49)
5.6.2. Corelaţia multiplă liniară

Pentru a studia intensitatea legăturii dintre o caracteristică dependentă (Y) şi mai multe caracteristici independente utilizând metoda corelaţiei, calculăm raportul de corelaţie multiplă:
Ry, x 1 , x 2 , ..., x k =
i =1 n i =1

ˆ ¦ (y i − y )

n

2

2 ¦ (y i − y )

1 = 1 − i =n 2 ¦ (y i − y ) i =1

ˆ ¦ (y i − y i )

n

2

(5.50)

Raportul (coeficientul) de corelaţie multiplă are valori cuprinse între 0 (dacă nu există legătură între variabilă dependentă şi variabilele independente) şi 1 (dacă există legătură perfectă). (5.51) Ry, x 1 , x 2 , ..., x k > | ryx j | j = 1, k

CAPITOLUL 5

Pătratul raportului de corelaţie multiplă este coeficientul de determinaţie multiplă (R2). El arată proporţia din variaţia totală a variabilei Y, care este explicată de variabilele independente X1, X2, ..., Xk. Testarea semnificaţiei raportului de corelaţie multiplă se poate face utilizând statistica F: n − k −1 R 2 F= ⋅ (5.52) k 1− R2 unde k reprezintă numărul variabilelor independente. Dacă: Fcalc. > Fα, k, n-k-1 se acceptă ipoteza conform căreia variabilele X1, X2, ..., Xk au o influenţă semnificativă asupra variabilei rezultative, Y. În afara coeficienţilor de corelaţie simplă şi multiplă, în analiza corelaţiei dintre variabile se mai pot calcula şi coeficienţii de corelaţie parţială, ce caracterizează intensitatea legăturii dintre două variabile, în ipoteza că celelalte variabile rămân constante. De pildă, în cazul a două variabile independente, coeficientul de corelaţie parţială între Y şi X1, eliminând influenţa variabilei X2 este: ryx1 − ryx 2 ⋅ rx1x 2 ryx1 ⋅ x 2 = (5.53) 2 2 1 − ryx 2 ⋅ 1 − rx1x 2

(

)(

)

şi coeficientul de corelaţie parţială între Y şi X2, eliminând influenţa variabilei X1 este: ryx2 − ryx1 ⋅ rx1x 2 ryx2 ⋅x1 = (5.54) 2 2 1 − ryx1 1 − rx1x 2

(

)(

)

5.7. REGRESIA ŞI CORELAŢIA NELINIARĂ

Când — din consideraţii teoretice ori din studierea diagramei de împrăştiere — observăm că dependenţa nu este de tip liniar, o funcţie neliniară trebuie să fie utilizată pentru a descrie legătura dintre caracteristici.
5.7.1. Regresia neliniară

1°. Modelele polinominale reprezintă o categorie des întâlnită printre modelele neliniare ce descriu relaţiile dintre caracteristicile social-economice. Modelul de regresie în eşantion are forma generală:

STATISTICĂ ECONOMICĂ

ˆ y i = a + b1 x i + b 2 x i2 + ... + b k x ik

(5.55)

unde k reprezintă gradul funcţiei. În general, regresia polinomială (5.55) poate să fie studiată ca un caz special de regresie multiplă: ˆ y i = a + b1 x1i + b 2 x 2i + ... + b k x ki 2°. Modelele ce necesită transformarea variabilelor în vederea liniarizării sunt cele în care aplicarea regresiei presupune o schimbare de variabilă, astfel încât relaţia între transformată şi cealaltă variabilă să fie de tip liniar. De pildă, în cazul unui model exponenţial ˆ y i = a ⋅ b xi (5.56) logaritmând expresia funcţională exponenţială, obţinem: ˆ log y i = log a + (log b ) ⋅ x i (5.57) O altă situaţie este cea a dependenţei invers proporţionale: 1 ˆ yi = a + b (5.58) xi 1 , modelul se liniarizează. când, utilizând variabila transformată x ,i = xi
5.7.2. Corelaţia neliniară

Pentru analiza intensităţii legăturii dintre variabile cu ajutorul indicatorilor corelaţiei, am arătat, deja, în paragraful 5.5.3 că indicatori precum covarianţa sau coeficientul de corelaţie liniară nu sunt potriviţi în cazul legăturii neliniare. Calculăm, deci, raportul de corelaţie R (5.40).
R=
i =1 n

ˆ ¦ (y i − y )

n

2 2

i =1

¦ (y i − y )

1 = 1 − i =n 2 ¦ (y i − y ) i =1

ˆ ¦ (y i − y i )

n

2

indicator care ia valori între 0 şi 1 şi arată o corelaţie cu atât mai puternică între variabile, cu cât valoarea sa este mai apropiată de 1.

CAPITOLUL 5

5.8. ANALIZA STATISTICĂ A LEGĂTURII DINTRE VARIABILELE CALITATIVE

Metodele neparametrice de analiză a corelaţiei se folosesc îndeosebi pentru studierea asocierii dintre variabilele calitative, dar, cum metodele valabile pentru o scală inferioară (nominală sau ordinală) sunt valabile şi pentru o scală superioară (numerică) vom putea folosi corelaţia neparametrică (sau liberă de distribuţie) şi pentru variabilele numerice.
5.8.1. Asocierea variabilelor alternative

În cazul variabilelor alternative (dihotomice), datele se sistematizează întrun tabel „2 x 2“, care are forma (Tabelul 5.7):
Tabelul „2x2“ Clasele lui Y Y(y1) non Y(y2) n12 n11 n22 n21 n.1 n.2 Tabelul 5.7 Total n1. n2. n..

Clasele lui x X(x1) nonX(x2) Total

O asociere puternică înntre variabile se remarcă în cazul concentrării frecvenţelor pe una dintre diagonalele tabelului. Coeficientul ϕ de măsurare a asocierii dintre variabilele alternative, sistematizate într-un tabel „2 x 2“ este: n n − n 21 n 12 (5.59) ϕ = 11 22 n.1 n.2 n 1 .n 2 . Coeficientul ϕ ia valori în intervalul [-1, 1]. O valoare apropiată de 0, ne arată o independenţă între aceste clasificări. O valoare apropiată de +1 sau de –1, ne arată o dependenţă între variabile. Coeficientul Q (al lui Yule) care măsoară şi el intensitatea asocierii dintre variabile alternative, are formula: n n − n 21 n 12 Q = 11 22 (5.60) n 11 n 22 + n 21 n 12 Acest indicator ia valori cuprinse între –1 şi +1. O valoare apropiată de +1 ne arată o asociere pozitivă; iar o valoare apropiată de –1, o asociere negativă.

STATISTICĂ ECONOMICĂ

5.8.2. Asocierea variabilelor nominale

Aceasta este situaţia în care variabilele sunt nealternative şi au o structură constituită dintr-un sistem de clase (categorii), în număr mai mare de 2. Clasele reprezintă stări calitative, pe care le putem obţine chiar şi pentru variabilele numerice, printr-o reducţie de scală. Într-o astfel de situaţie, tabelul de contingenţă în care se sistematizează datele are r rânduri (r clase pentru variabila X) şi c coloane (c clase pentru variabila Y) (Tabelul 5.8)
Tabelul 5.8 Clase pentru X X1 X2 . . Xi . . Xr Total Tabel de contingenţă Clase pentru Y Y1 Y2 .......... Yj .......... Yc n11 n12 .......... n1j .......... n1c n21 n22 .......... n2j .......... n2c . . ni1 ni2 .......... nij .......... nic . . nr1 nr2 .......... nrj .......... nrc n.1 n.2 .......... n.j .......... n.c Total n1. n2. . . ni. . . nr. n..

Testul χ2 de independenţă pentru tabelul „r x c“ de contingenţă (asociere) se aplică sub presupunerea că fiecare observaţie (unitate statistică) este clasificată independent de orice altă observaţie. Vom determina atunci frecvenţele teoretice (aşteptate) în rândul i şi coloana j: n i. ⋅ n . j (5.61) f ij = n.. şi vom calcula testul statistic: 2 2 r c n ij − f ij n c n ij χ2 = ¦¦ (5.62) = ¦¦ −n f ij i =1 j=1 i =1 j=1 f ij

(

)

Ipoteza nulă se respinge (şi deci se acceptă ipoteza alternativă, aceea că există dependenţă între clasificarea pe linii şi cea pe coloane), la un nivel de 2 semnificaţie α, dacă χ calc. > χ 2α, (r-1)(c-1), unde (r-1)(c-1) reprezintă gradele de libertate.

CAPITOLUL 5

5.8.3. Asocierea variabilelor ordinale (corelaţia rangurilor)

Variabilele social-economice măsurate pe o scală ordinală presupun acordarea unor numere de ordine (ranguri) tuturor unităţilor, astfel încât unităţile să poată fi ordonate în funcţie de criteriile studiate. Rangurile sunt de la 1, până la n. Coeficientul de corelaţie a rangurilor Spearman (rs) se determină ca: 6¦ d i2 rs = 1 − (5.63) n n 2 −1 unde di = rxi – ryi reprezintă diferenţa dintre rangurile perechi acordate aceleiaşi unităţi statistice. Coeficientul de corelaţie a rangurilor Spearman ia valori cuprinse în intervalul [-1, 1]. Valori (în modul) apropiate de unitate indică o asociere puternică între variabile, iar valori apropiate de zero indică o asociere slabă între variabile. EXEMPLUL 5.5. Pentru 6 studenţi dintr-o grupă se cunosc: calificativele pentru nivelul de pregătire al studenţilor la matematică, obţinute în timpul anului şi notele obţinute la examenul de statistică:

(

)

Student 1 2 3 4 5 6

Calificativ la matematică bun slab excepţional satisfăcător foarte slab foarte bun

Tabelul 5.9 Notă la statistică 9 3 10 6 5 8

Se acordă ranguri valorilor celor două variabile (Tabelul 5.10, col. 1, 2)

STATISTICĂ ECONOMICĂ Tabelul 5.10 Student 0 1 2 3 4 5 6 Total Rang pt. x rxi 1 4 2 6 3 1 5 Rang pt. y ryi 2 5 1 6 3 2 4 Diferenţa între ranguri di = rxi - ryi 3 -1 +1 0 0 -1 +1 di2 4 1 1 0 0 1 1 4

rs = 1 −

6⋅4 = 0,89 indică o asociere puternică între cele 2 varia6 ⋅ (36 − 1)

bile. Coeficientul de corelaţie a rangurilor Kendall (τ),necesită ordonarea — crescător — a unităţilor după rangurile acordate variabilei X şi înscrierea în paralel, a rangurilor acordate după variabila Y. Atunci 2S τ= (5.64) n (n − 1) unde: S = P – Q, P = ¦pi, Q = qi pi = numărul rangurilor superioare fiecărui rang ryi, acordat după variabila Y, de la el în jos; qi = numărul rangurilor inferioare fiecărui rang ryi, acordat după variabila Y, de la el în jos. Acest indicator ia valori cuprinse în intervalul [-1, 1], iar interpretarea este similară cu cea a coeficientului de corelaţie a rangurilor Spearman. În general, coeficientul rangurilor Kendall are o valoare mai mică decât coeficientul rangurilor Spearman şi, pentru un număr mare de unităţi statistice (n) avem relaţia 2 τ ≅ rs (5.65) 3
EXEMPLUL 5.6. Folosim datele din Tabelul 5.9. Ordonăm studenţii (crescător) după rangurile acordate variabilei: „Calificativul pentru pregătirea la matematică“.

CAPITOLUL 5 Tabelul 5.11 Qi 1 1 0 0 1 1 2=Q

Student 5 2 4 1 6 3 Total

rxi 1 2 3 4 5 6

ryi 2 1 3 5 4 6

Pi 4 4 3 1 1 0 13=P

S = P − Q = 13 − 2 = 11 2⋅S 2 ⋅ 11 22 rk = = = = 0,73 n (n − 1) 6 ⋅ 5 30

Între cele două variabile există o asociere destul de puternică şi directă.

Analiza legăturii dintre variabile

Diagrama de împrăştiere

Analiza dispersională

Se studiază cauzalitatea DA Analiza regresiei NU Analiza corelaţiei

Nr. variabile independente O variabilă Regresie simplă Mai multe variabile Regresie multiplă

Date numerice din eşantioane mari sau povenite din populaţii normale DA Corelaţie parametrică Legătură între două variabile DA NU • Raportul de corelaţie multiplă
R = R2

NU

Legătură liniară DA Model de regresie simplă liniară

Legătură liniară DA Model de regresie multiplă liniară

NU Model de regresie simplă neliniară

NU Model de regresie multiplă neliniară Legătură liniară • Covarianţa
s xy Σ( x i − x )( yi − y) = n

y i = a + bx i

yi = a + b1x1i +

... + b k x ki

• Raportul de corelaţie
R = R2

• Coeficientul de corelaţie parţială

• Coeficientul de corelaţie Calitatea ajustării
rxy = s xy s xs y

Eroarea standard a reziduurilor
se = Σ( y i − y ) 2 n − k −1

Coeficientul de determinaţie
R2 = Σ( yi − y) 2 Σ ( y i − yi ) 2 Σ( yi − y)
2 ∧

• Raportul de corelaţie
R= R
=
2

Corelaţie neparametrică

Σ( yi − y) 2

Variabile alternative • coeficientul ϕ
ϕ= n11n 22 − n 21n12 n.1 ⋅ n .2 ⋅ n1. ⋅ n 2.

Variabile nominale • testul χ2
χ2 =

= 1−

• coeficientul Q
n n − n 21n12 ϕ = 11 22 n11n 22 + n 21n12

i =1 j=1

¦¦

r c

(n ij − fij ) 2 f ij

Variabile ordinale • Coeficientul de corelaţie a rangurilor Spearman
rS = 1 − n ( n 2 − 1) 6Σd i2

unde fij =

n i.n . j n..

• Coeficientul de corelaţie a rangurilor Kendall
τ= 2S n (n − 1)

STATISTICĂ ECONOMICĂ

Întrebări recapitulative
1. Definiţi conceptul de legătură statistică. 2. Cum clasificaţi legăturile statistice? Exemplificaţi. 3. Ce este şi cum se alcătuieşte o diagramă de împrăştiere? Ce informaţii oferă? 4. Analiza dispersională (ANOVA) — conţinut, mod de utilizare. 5. Prezentaţi modelul de analiză dispersională unifactorială. 6. În ce constă metoda regresiei? 7. Descrieţi metoda regresiei simple liniare. 8. Ce reprezintă coeficienţii a şi b ai liniei de regresie? 9. Cum se apreciază calitatea ajustării? Indicatori. 10. Testarea semnificaţiei parametrului b al modelului de ajustare. 11. Cum se defineşte corelaţia liniară simplă? 12. Ce reprezintă covarianţa? 13. Coeficientul de corelaţie: concept, mod de calcul, interpretare. 14. Testarea semnificaţiei coeficientului de corelaţie. 15. Ce reprezintă raportul de corelaţie? Cum se determină? Ce semnificaţie prezintă valoarea lui? 16. Regresia şi corelaţia multiplă liniară. 17. În ce condiţii se aplică regresia şi corelaţia neliniară? 18. Daţi exemple de modele polinomiale utilizate în studiul legăturilor neliniare. 19. Ce este corelaţia neparametrică şi în ce condiţii se foloseşte? 20. Prezentaţi asocierea variabilelor alternative. 21. Prin ce modalităţi, se studiază asocierea variabilelor nominale? 22. Care sunt indicatorii prin care se măsoară asocierea variabilelor ordinale? 23. Coeficientul lui Spearman de corelaţie a rangurilor, definiţie, mod de calcul, interpretare. 24. Coeficientul de corelaţie a rangurilor Kendall — definiţie, mod de calcul, interpretare.

Sign up to vote on this title
UsefulNot useful