-1

-

1.1 : Legătura dintre două variabile : relaţii deterministe şi relaţii stochastice Se consideră două caracteristici , X şi Y : se presupune că valoarea indicatorului Y este influenţată într-un fel sau altul de către valoarea pe care o ia indicatorul X. Cel mai simplu tip de astfel de “ influenţă “ este aşa-numita “ dependenţă de tip funcţional “ : în cazul unei astfel de dependenţe , avem o relaţie de forma : Y = f (X) , unde f este o functie . Se poate intampla sa stim ca intre caracteristicile X , Y exista o relatie de tipul mentionat , dar sa nu cunoastem care este functia “ f “ implicata . De aceea , se pun doua probleme diferite : - cum ne dam seama ca dependenta dintre caracteristicile X , Y este una de tip functional ? - in caz afirmativ : cum gasim expresia acestei functii , sau macar o serie de informatii despre caracteristicile acestei functii ? Precizare : dupa cum se stie din teoria elementara , o functie este o corespondenta intre doua multimi , avand ca proprietate esentiala urmatoarea : la o valoare data x0 a caracteristicii X , corespunde cel mult o singura valoare a caracteristicii Y :aceasta valoare , pe care o notam cu y0 , este chiar valoarea luata de f pentru X = x0 , adica y0 = f (x0) . De exemplu : sa consideram corespondenta intre caracteristicile X , Y data de graficul de mai jos :

-2-

Este clar ca aceasta corespondenta de la multimea { 1, 2 , 3 , 4 , 5 } la multimea { 1, 2 , 3 , 4 , 5, 6 , 7 , 8} nu este de tip functie . Unul dintre motive : la valoarea x0=1 corespund trei valori ale caracteristicii Y , anume

y '0 = 1 ; y '0' = 2 ; y '0'' = 6 .
Exemplul precedent ridica o nouă problemă , anume : in conditiile figurii prezentate , se mai poate măcar admite că între caracteristicile X , Y exista vreo legatura ? Iata şi o alta situatie :

-3Si in acest caz , figura ilustreaza o corespondenta de la multimea { 1, 2 , 3 , 4 , 5 } la { 1, 2 , 3 , 4 , 5 , 6 } , corespondenta care nu este de tip functie : de data aceasta insa , este clar ca odata cu cresterea valorii lui x∈ X , valorile corespunzatoare ale lui y∈ Y au tendinta să crească . Astfel , pentru x1 = 1 corespund valorile y 1 = 1 ; y 1 = 2 ; pentru x2= 2 , corespund valorile nu mai mici y 2 = 2 ; y 2 = 3 , etc. : asadar , exista in mod categoric o influenta a lui X asupra lui Y , numai ca aceasta influenta nu este de tip functie. Precizare : dintre tipurile de influente care nu au caracter functional , vom studia numai dependentele cu caracter stochastic : asupra acestei notiuni vom reveni pe parcurs . In studierea dependentei dintre doua caracteristici , se folosesc drept date specifice , esantioane de forma { ( x1 , y 1 ) , ( x 2 , y 2 ) , ... , ( x n , y n ) } ,obtinute in urma efectuarii unor cercetari sau experiente specifice.
' '' ' ''

In cazul in care la fiecare valoare “ x “ corespunde o singura valoare “ y “ , adica : daca ( ∋ )i , j = 1, n , i ≠ j pentru care x i = x j , atunci obligatoriu avem si y i = y j se poate trece la cautarea unei functii “ f “ , pentru care sa se poata afirma ca verifica relatia Y=f(X). In raport cu esantionul {( x i , y i )}i = 1,n , o astfel de functie va trebui sa verifice relatiile

y i = f ( x i ) , i = 1, n

.

Din numeroase motive , o astfel de pretentie este fara sens : intai , din punct de vedere matematic , exista o infinitate de functii cu proprietatea y i = f ( x i ) , i = 1, n , pentru orice esantion { ( x i , y i )}i =1,n . Pe de alta parte , in orice situatie practica ce poate fi imaginata , pretentia ca y i sa coincida perfect cu f ( x i ) , pentru orice i = 1, n este si ea exagerata : este imposibil ca , intre cele doua seturi de valori sa nu apara mici deosebiri. Pentru a preintampina astfel de inconveniente , se iau o serie de masuri : iata primele astfel de precautii : - ne asiguram ca – din punct de vedere al contextului practic in care lucram – intre caracteristicile X , Y sa existe o legatura ; - in caz ca o astfel de legatura exista , urmeaza sa determinam care dintre caracteristici

-4este “ variabila independenta “ si care “ variabila dependenta “ sau “ determinata “ : in materialul de fata , variabila independenta va fi notata cu X , iar cea determinata , cu Y ; - se construieste un esantion { ( x i , y i )}i =1,n si se reprezinta grafic punctele corespunzatoare in planul (XOY) ; dupa inspectarea reprezentarii grafice , se alege o functie “ f “ care sa para potrivita .

De exemplu : iata trei situatii , privind reprezentarea grafica a cate unui esantion :
Vom inspecta graficele , pentru a incerca sa stabilim tipul de functie “ f “ pentru care se poate afirma – in fiecare caz separat – ca avem Y = f ( X ). Este clar ca optiunile cele mai bune par a fi urmatoarele : - in cazul variantei 1: Y = a·X + b ( dependenta liniara ) ; - in cazul variantei 2: Y = a·X2 + b·X + c ( dependenta parabolica de grad 2 ) ; a - in cazul variantei 3 : Y = + c ( dependenta de tip hiperbolic ) . X+b

-5-

Rezumat ; precizari finale :
- functia aleasa “ f “ contine o serie de parametri necunoscuti : determinarea de valori ( aproximative ) pentru acesti parametri , pe baza unui esantion { ( x i , y i )}i =1,n va fi numita “ estimare “ ( asadar , la varianta 1 de mai sus – vom estima parametrii a , b , c pe baza esantionului xi yi 1 0 2 3 4 5 6 7 8 0,8 1 1,5 2,1 2,5 3 3,2

-6-

Functia “f ” , in care parametrii au fost inlocuiti cu valorile estimate , va fi numita “ functie estimata “: - pentru un esantion si pentru o functie estimata pe baza acestui esantion , notata cu
~ ~ ~

f , nu avem y i = f ( x i ) , ci numai y i ≈ f ( x i ) .
Cantitatile

e i = y i − f ( x i ) , i = 1, n
vor fi numite reziduuri . Orice metoda de estimare are la baza ideea minimizarii reziduurilor . Trebuie insa remarcat faptul ca se pot folosi diferite concepte de minim .

~

1.2 : Metoda celor mai mici patrate ( CMMP )

Vom considera cazul unui esantion ( sau : sondaj ) { ( x i ; y i )}i = 1,n . Se considera situatia in care caracteristica Y depinde liniar in raport cu caracteristica X , adica

Y= a+b⋅X In acest caz , lista de reziduuri va fi {e i }i = 1,n , unde ei = yi – a – b·xi .
Pentru estimarea coeficientilor a , b vom folosi drept conditie de minim a listei reziduurilor , conditia :
n

( min ) ∑ e i2 .
a,b i =1

Asadar , urmeaza sa rezolvam problema de minim nerestrictionat :

(min) f ( a , b ) = ∑
i =1

n

( y i − a − b ⋅ xi )

2

.

Conditiile necesare de extrem sunt : ⎧∂f ⎪∂ a =0 ⎪ . ⎨ ⎪∂f =0 ⎪ ⎩∂ b Avem :

-7-

n n ⎡ n ⎤ ∂f = − 2 ⋅ ∑ ( y i − a − b ⋅ x i ) = − 2 ⋅ ⎢∑ y i − n ⋅ a − b ⋅ ∑ x i ⎥ = 0 ∂a i =1 i =1 ⎣ i =1 ⎦

⇔ n ⋅ a + b ⋅ ∑ xi = ∑ y i ; ( 1 )
i =1 i =1

n

n

Sa notam :

1 n - media valorilor {xi } : x = ⋅ ∑ x i ; n i =1 1 n - media valorilor {yi } : y = ⋅ ∑ y i . n i =1
Cu aceste notatii , ecuatia (1) devine :

(2)

a+ b⋅ x=y

n n n ⎡ n ⎤ ∂f = − 2 ⋅ ∑ x i ⋅ ( y i − a − b ⋅ x i ) = − 2 ⋅ ⎢ ∑ x i ⋅ y i − a ⋅ ∑ x i − b ⋅ ∑ x i2 ⎥ = 0 ∂b i =1 i =1 i =1 ⎣ i =1 ⎦

⇔ a ⋅ ∑ xi + b ⋅ ∑ x =
2 i i =1 i =1

n

n

∑x
i =1

n

i

⋅ yi;

Sa notam :

m2 x

n 1 n 2 1 n 2 1 2 = ⋅ ∑ x i ; m y = ⋅ ∑ y i ; s xy = ⋅ ∑ x i ⋅ y i . n i =1 n i =1 n i =1

Atunci ecuatia (2) se poate scrie :

(4)

a ⋅ x + b ⋅ m 2 = s xy x

Sistemul :

⎧ a+b⋅x=y ⎪ ⎨ 2 ⎪a ⋅ x + b ⋅ m x = s xy ⎩

-8se numeste sistemul ecuatiilor normale si se considera in general ca este datorat lui C.F. Gauss ( 1795 ) . Solutiile acestui sistem , adica valorile coeficientilor dreptei de regresie estimate pe baza esantionului dat , vor fi notate prin a , b : ele sunt date de formulele
^ ^

⎧^ ⎪b = ⎪ - varianta 1 : ⎨ ⎪ ⎪ ⎩

∑ xi ⋅ y i − n ⋅ x ⋅ y 2 ∑ xi2 − n ⋅ x
^

=
^

∑ ( xi − x) ⋅ ( y i − y ) ∑ ( x i − x)2

a = y − b⋅ x

⎧ ^ s xy − x ⋅ y ⎪b = 2 ⎪ - varianta 2 : ⎨ m2 − x . x ^ ⎪ ^ ⎪ a = y − b⋅x ⎩
In fine , daca tinem seama ca avem : - dispersia de selectie a datelor {xi } ( sau : varianţa ) : σ x = m x − x - covarianţa de selecţie a datelor {xi} , { yi } : σ xy = s xy − x ⋅ y , gasim varianta :
2 2 2

⎧^ σ XY ⎪b = σ2 . - varianta 3 : ⎨ X ^ ^ ⎪ a = y − b⋅x ⎩
Odata determinate valorile estimate a , b , se poate scrie ecuatia dreptei de regresie , care se mai numeste si dreapta celor mai mici patrate ( vom intalni drepte de regresie determinate si prin alte metode ). Atunci , valorile caracteristicii Y determinate folosind dreapta celor mai mici patrate vor fi :
^ ^ ^

^ ^

y i = a + b⋅ x i , i = 1, n , sau
^ ^

y i = y + b⋅ ( x i − x ) , i = 1, n

-9-

Pentru reziduuri avem formulele :
^ ^

e i = y i − y i = ( y i − y ) − b⋅ ( x i − x ).
Sa observam ca suma reziduurilor este egala cu zero , deoarece se cunoaste proprietatea ca suma abaterilor unei caracteristici in raport cu media acelei caracteristici este zero , adica

∑ ( xi − x ) = 0 ; ∑ ( y i − y ) = 0
i =1 i =1

n

n

.

Atunci , avem relatia importanta :

y=

∑ yi = ∑ yi
n n

^

1.3 : Variatia explicata ; variatia ne – explicata
Scopul unui model de regresie liniara este de a explica o parte din modificarea valorilor caracteristicii Y , prin faptul ca valoarea caracteristicii X s-a modificat ea insasi . Acest fapt se poate exprima pe scurt astfel : daca X se modifica , şi Y se modifică în consecinţa

Acest fenomen constituie ceeace numim variaţia explicată de catre modelul de regresie. Dar este posibil sa aiba loc si alt fenomen , anume : desi X nu s-a modificat , totusi Y se mai modifica inca

adica este posibil sa aiba loc si o variatie a lui Y , neexplicata de catre model . Aceasta ar avea loc in cazul in care , la valori “ x “ egale , sa corespunda mai multe valori pentru “ y “ , sau daca la valori “ x “ foarte apropiate intre ele , sa corespunda valori “ y “ mult diferite intre ele .

- 10 -

Asadar , situatia descrisa se poate sintetiza astfel :

variaţia totală a lui Y

variaţie = + neexplicată în cadrul modelului de către model

variaţia explicată

Acest mecanism este ilustrat in figura urmatoare :

Asadar : in relatia

(y i − y ) = ( y i − y ) + ( y i − y i ) ,
- termenul ( y i − y ) reprezinta variatia totala a lui Y ; - termenul ( y i − y ) reprezinta variatia explicata de catre model ; - termenul e i = ( y i − y i ) reprezinta variatia ne-explicata de catre model , sau reziduul .
^

^

^

^

- 11 -

O astfel de descompunere este valabila si pentru varianţe , adica avem :

∑ ( y i − y )2 =
i =1

n

∑ ( y i − y )2 +
i =1

n

^

∑ ( y i − y i )2
i =1

n

^

In adevar :

^ y i2

= ∑ [ y − b⋅ ( x i − x) ]2 = = n ⋅ y + 2 ⋅ y ⋅ b⋅ ∑ ( x i − x) + b ⋅ ∑ ( x i − x )2 = = y ⋅ n ⋅ y + 0 + b⋅ b⋅ ∑ ( x i − x )2 = = y ⋅ ∑ y i + b⋅ ∑ ( x i − x ) ⋅ y i = = =
^ ^ ^ 2 ^ ^2

^

∑ [ y + b⋅ ( xi − x) ] ⋅ y i = ∑ yi ⋅ yi
^

^

Deci :

∑ ( yi − yi ) = ∑
2

^

y i2 y i2

− 2 ⋅ ∑ yi ⋅ yi + ∑ yi = − 2 ⋅ ∑ yi + ∑ yi = − ∑ yi
^2 ^2 ^2

^

^2

=

=∑

y i2

si

- 12 ^ ^ y i2 ^ y i2 ^

∑ ( yi − y) = ∑
2

− 2 ⋅ y ⋅ ∑ yi + n ⋅ y = − 2 ⋅ y ⋅ ∑ yi + n ⋅ y = − 2⋅n⋅y +n⋅y = −n⋅y
2 2 2 2

2

=

=∑ =∑

^ y i2 ^ y i2

In final , se obtine :

∑ ( y i − y )2 = ∑ y i2 − n ⋅ y

2

=

⎡ ^2 ⎡ 2⎤ = ⎢ ∑ y i − n ⋅ y ⎥ + ⎢ ∑ y i2 − ⎥ ⎢ ⎢ ⎦ ⎣ ⎣
=
In relatia finala , adica :

⎤ yi ⎥ = ∑ ⎥ ⎦
^2

∑ ( y i − y ) 2 + ∑ ( y i − y i )2

^

^

∑ ( yi − y)
- termenul Sg = - termenul Se = - termenul Sr =

2

=

∑ ( yi − y)

^

2

+ ∑ ( y i − y i )2

^

∑ ( y i − y )2
^

se numeste variatie totala ;

∑ ( y i − y ) 2 se numeste variatie explicata prin regresie ;
^

∑ ( y i − y i )2 se numeste variatie reziduala sau variatie ne-explicata :

asadar , avem relatia

Sg = Se + Sr .

Pentru a masura procentual gradul in care regresia liniara explica variatia lui Y , se foloseste urmatorul coeficient de determinare , R , cu valori in intervalul [ 0; 1]:

- 13 -

R2 =

Se Sg

Iata si cateva forme echivalente utile pentru coeficientul de determinare :

R =

2

∑ ( y i − y )2 ∑ ( y i − y )2

^

= b

^ 2

∑ xi2 − n ⋅ x ⋅ 2 ∑ y i2 − n ⋅ y

2

.

APLICATIA 1 :

( & 1.2 , pag. 12 si & 1.3 )

Se stie ca variabila Y este influentata de catre variabila X . S-au determinat datele de sondaj : 2 3 4 5 xi 1 yi 2,5 5,6 8 9,7 10,3 - a): stabiliti grafic daca se poate folosi o dreapta de ajustare pentru a descrie dependenta lui Y in raport cu X ; -b): determinati dreapta celor mai mici patrate ; - c): calculati variatiile corespunzatoare acesteia ( variabila totala ; explicata si reziduala ) ; - d): care este valoarea coeficientului de determinare R ? Cum se interpreteaza rezultatul ?

Rezolvare : - a): reprezentarea grafica a norului de puncte dat este urmatoarea

- 14 -

Prin pozitia lor , punctele nu par sa difere mult fata de o dreapta . Observare : linia poligonala care se obtine unind cate doua puncte consecutive este evident convexa , deci – la un studiu mai pretentios – nu ar trebui totusi folosi dreapta ca functie de ajustare .

- b : avem calculele urmatoare

xi 1 2 3 4 5
TOTAL : 15

yi

x i2 2,5 1 5,6 4 8 9 9,7 16 10,3 25
36,1 55

xi ⋅ y i 2,5 11,2 24 38,8 51,5
128

y i2 6,25 31,36 64 94,09 106,09
301,79

Atunci :

- 15 • n=5 • • • •

∑x
i =1 n

n

i

= 15 ⇒ x =

15 = 3 5 36,1 = 7,22 5 55 = 11 5 128 = 25,6 5

∑y
i =1 n

i

= 36,1 ⇒ y = = 55 ⇒ m 2 = X

∑x
i =1 x

2 i

∑x
i =1

i

⋅ y i = 128 ⇒ s XY =

Dreapta celor mai mici patrate are ecuatia :

⎧ a + b ⋅ x = y ⇒ a + 3 ⋅ b = 7,22 ⎨ 2 ⎩a ⋅ x + b ⋅ m X = s XY ⇒ 3 ⋅ a + 11 ⋅ b = 25,2

de unde se obtine :

⎧ a = 1, 31 si deci dreapta celor mai mici patrate este : ⎨ ⎩b = 1, 97

y = 1, 31 + 1, 97 ⋅ x
- c): calculele necesare sunt sintetizate in tabelul urmator :

xi yi
1 2,5 2 5,6 3 8 4 9,7 5 10,3

y i = 1 , 31 + 1, 97 ⋅ x i
3, 28 5, 25 7, 22 9, 19 11, 16 TOTAL :

^

(y i − y )2 = = ( y i − 7, 22) 2
22,28 2,62 0,61 6,15 9,49
41,15

_

( y i − y )2 = = ( y i − 7, 22)2 15,52 3,88 0 3,88 15,52
38,81
^

^

_

(y i − y i )2 = = ei 0,61 0,12 0,61 0,26 0,74
2,34

^

- 16 -

deci avem :

S g = 41 , 15 ; S e = 38 , 81 ; S R = 2 , 34

- d : R2 =

S e 38, 81 = = 0 , 94 S g 41, 15

Avand o valoare apropiata de 1 , constatam ca regresia liniara explica in proportie de 97% variatia lui Y prin variatia lui X .

2.1 : Modelul regresiei simple

Vom relua unele dintre conceptele deja prezentate , urmand sa facem completarile necesare studiului regresiei in cazul stochastic . Fie astfel sondajul { ( xi , yi )}i=1,n : modelul de regresie liniara simpla intre caracteristicile X si Y are aspectul :

yi = a + b· xi + ei , i = 1, n
Aici erorile ei sunt considerate variabile aleatoare , ce nu pot fi observate direct : aceste variabile verifica ipotezele urmatoare : - toate variabilele ei au media zero si aceeaşi dispersie s ;
2

- toate variabilele ei au repartitie normala , deci e i = N( 0 ; s 2 ) , i = 1 , n
- aceste variabile sunt doua cate doua independente , deci au covarianţa egala cu zero : cov ( e i ; e j ) = 0 , i ≠ j; i , j = 1, n . De observat ca in aceste conditii , si yi au caracter aleator , intrucat depind de variabilele aleatoare ei .

- 17 Cum in cadrul modelului valorile xi sunt considerate deterministe , avem

M( y i ) = M ( a + b ⋅ x i + ei ) = a + b ⋅ x i + M( ei ) = a + b ⋅ x i ; D2 ( y i ) = D2 ( a + b ⋅ x i + e i ) = D2 ( ei ) = s 2 .
Variabilele y i au si ele repartitii normale , anume : aceste variabile , avem :

y i = N (a + b ⋅ x i ; s )

: pentru

cov( y i ; y j ) = cov (a + b ⋅ x i + e i ; a + b ⋅ x j + e j ) = cov (e i ; e j ) = 0
deci

y i , y j sunt si ele variabile aleatoare independente ( reamintim ca pentru variabilele

aleatoare cu repartitie normala , independenta si necorelarea sunt proprietati echivalente ). Notă : semnificaţia erorilor aleatoare este aceasta : pentru un set fixat de valori ale variabilei X , prin repetarea experimentului , se pot obţine valori diferite ale variabilei Y .

2.2 Distributia estimatorilor proveniti din metoda CMMP 2.2.1: Media estimatorului b
^

Pentru estimatorii a , b vom folosi expresiile alternative

^ ^

⎧^ ∑ ( xi − x) ⋅ y i ⎪b = ∑ ( xi − x)2 , unde : ⎪ ⎨ ⎪ ^ ^ ⎪ a = y − b⋅ x ⎩

⎧ ⎪x = ⎪ ⎨ ⎪ ⎪y = ⎩

∑ xi
n

∑ yi
n

- 18 In aceste formule , y i si y sunt variabile aleatoare repartizate normal , restul componentelor fiind constante : asadar si a , b vor fi tot variabile aleatoare normal repartizate . Asadar , avem :
^ ^

⎛ ∑ ( x i − x) ⋅ y i ⎛^⎞ M ⎜ b ⎟ = M⎜ ⎜ ∑ ( x − x) 2 ⎝ ⎠ i ⎝

⎞ ⎟= ⎟ ⎠

∑ ( x − x ) ⋅ M( y ) = ∑ ( x − x)
i i 2 i

=

∑(x

∑(x

i

− x) ⋅ ( a + b ⋅ x i )
i

− x)

2

=

a ⋅ ∑ ( x i − x) + b ⋅ ∑ ( x i − x) ⋅ x i

∑(x

i

− x) 2

=

=

b ⋅ ∑ ( x i − x) ⋅ x i

∑(x

i

− x)2

deoarece stim ca avem :

∑ ( xi − x) = 0 . ∑ ( xi − x)2 = ∑ ( xi − x) ⋅ xi , deci in final avem

Mai mult , avem :

⎛^⎞ M⎜b⎟ = b ⎜ ⎟ ⎝ ⎠

In concluzie :

b este un estimator nedeplasat pentru parametrul b

^

- 19 ^

2.2.2: Media estimatorului a

Din relatia de definitie a lui a se deduce :
^ ⎛^⎞ ⎛ ⎞ ⎛ ^⎞ M ⎜ a ⎟ = M ⎜ y − b⋅ x ⎟ = M y − x ⋅ M ⎜ b ⎟ = ⎝ ⎠ ⎝ ⎠ ⎝ ⎠

^

( )

=M (y) −x⋅b
Dar se stie ca :

⎛ ∑ y i ⎞ ∑ M( y i ) M y =M⎜ = ⎜ n ⎟= ⎟ n ⎝ ⎠ n ⋅ a + b ⋅ ∑ xi = = a+b⋅x n

( )

∑ ( a + b ⋅ xi ) =
n

deci in final obtinem :

⎛^⎞ M ⎜ a⎟ = a + b ⋅x − x ⋅ b ⇒ ⎜ ⎟ ⎝ ⎠
⎛^⎞ ⇒ M ⎜a⎟ = a ⎝ ⎠
Asadar :
^

a este un estimator nedeplasat pentru parametrul a

- 20 -

2.2.3: Dispersia estimatorului b

^

Utilizand relatiile din sectiunea 2.2.1 , gasim

⎛ ∑ ( x i − x) ⋅ y i ⎛^⎞ D2 ⎜ b ⎟ = D2 ⎜ ⎜ ∑ ( x − x) 2 ⎝ ⎠ i ⎝ =

⎞ ⎟= ⎟ ⎠
2 2

∑ ( x − x) ⋅ D ( y ) = [∑ ( x − x) ]
2 2 i i 2 2 i

∑ ( x − x) ⋅ s [ ∑ ( x − x) ]
2 i 2 i

s2 = ∑ ( x i − x) 2

Rezultat :

D ⎜b⎟ = ⎜ ⎟ ⎝ ⎠

2⎛

^⎞

s2

∑ ( x i − x) 2

- 21 ^

2.2.4: Dispersia estimatorului a

Urmand formula lui a , avem :

^

D ( a ) = D ( y − b⋅ x ) = D ( y ) − 2 ⋅ x ⋅ cov ( y , b ) + x ⋅ D ( b ) ;
deoarece avem

2

^

2

^

2

^

2

2

^

⎛ ∑ y i ∑ ( x j − x) ⋅ y j ⎞ ⎜ ⎟ j i ⎟= cov ( y , b ) = cov ⎜ ; ⎜ n ( x i − x) 2 ⎟ ∑ ⎜ ⎟ i ⎝ ⎠
^

∑∑ ( x j − x) ⋅ cov ( y i , y j )
=
i j

n ⋅ ∑ ( x i − x) 2
i i i≠ j i , j = 1, n

= ( x j − x ) ⋅ cov y i , y j
2

∑ ( x i − x) ⋅ D 2 ( y j ) + ∑
=
i

(

)
=

n ⋅ ∑ ( x i − x) s 2 ⋅ ∑ ( x i − x) + 0 n ⋅ ∑ ( x i − x) 2
i i

=

=

n ⋅ ∑ ( x i − x) 2
i

s2 ⋅ 0

= 0`

Cum avem :
2 2⎛ ⎜

D ( y )= D ⎜ ⎟ ⎝ n ⎠

∑ y i ⎞ = ∑ D2 ( y i ) = n ⋅ s 2 = ⎟
n2 n2

s2 , n

deci in final obtinem :

- 22 -

D (a)= D ( y )+ x ⋅ D (b )= s2 x ⋅ s2 = = + n ∑ ( x i − x) 2 = s 2 ⋅ [ ∑ ( x i − x) 2 + n ⋅ x ] n ⋅ ∑ ( x i − x) 2
2 2

2

^

2

2

2

^

.

Cum stim ca :

∑ ( x i − x) 2 = ∑ x i2 − n ⋅ x
in final obtinem :

2

,

D

2

∑ x i2 ⋅ s 2 (a) = n ⋅ ∑ ( x i − x) 2 n
^

- 23 ^ ^

2.2.5 : Covarianta estimatorilor a , b

Avem :

^ ^ ^ ⎛^ ^ ⎞ ⎛^ ⎞ cov ⎜ b , a ⎟ = cov⎜ b , y − b⋅ x ⎟ = cov ( b , y ) − x ⋅ D 2 ( b ) = ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠

= 0 −

∑ ( x i − x) 2

x ⋅ s2

;

In final , am obtinut rezultatul :

⎛^ ^ ⎞ cov ⎜ b , a ⎟ = ⎝ ⎠

∑ ( x i − x) 2

x ⋅ s2

.

== // ==

APLICATIA 2 ( la &2.1 si &2.2 )
Pentru modelul liniar Y = a + b·X + e dispunem de urmatoarele date de sondaj :

xi 1,2 2,5 3,7 4,1 5,6 6,3 7,5 yi 7 13 17 19 25 28 33 Sa determinam dispersiile estimatorilor a , b precum si cov ( a , b ) .
^ ^ ^ ^

- 24 Rezolvare : avem rezultatele urmatoare :

∑x

i

= 30,9 ; ∑ y i = 142 ; ∑ x i y i = 745 , 6 ; ∑ x i2 = 165 , 49

Asadar , coeficientii dreptei celor mai mici patrate sunt dati de sistemul

⎧ n ⋅ a + b ⋅ ∑ xi = ∑ y i 7 ⋅ a + 30, 9b = 142 ⎧ ⎪ ⇒⎨ ⎨ 2 ⎪a ⋅ ∑ x i + b ⋅ ∑ x i = ∑ x i ⋅y i ⎩ 30, 9 ⋅ a + 165, 49 ⋅ b = 745, 6 ⎩
de unde gasim :

⎧ a = 2, 26 ⇒ dreapta celor mai mici patrate are ecuatia : y = 2,26 + 4, 08 · x. ⎨ ⎩b = 4, 08
Expresia reziduului este :
e i = y i − y i , unde y i = 2,26 + 4, 08 · x i
^ ^

Valorile estimate ale reziduurilor apar in tabelul urmator :
^

yi

ei

7,16 12,46 17,36 18,99 25,11 27,96 32,86 - 0,16 0,54 - 0,36 0,01 0 0,11 0,04 - 0,14

Avem :

− 0, 18 = − 0, 03 7 ∑ e i2 − [M (e )] 2 = 0 , 07 ⇒ s 2 = 0 , 07 e i2 = 0 , 48 ⇒ D 2 ( e ) = ∑ i n

∑e

i

= − 0 , 18 ⇒ M (e i ) =

Pe de alta parte , avem :

x= ⇒

∑x
n

i

=

30 , 9 = 4 , 414 ⇒ 7
2

∑(x

i

− x ) 2 = ∑ x i2 − 2 ⋅ x ⋅ ∑ x i + x = 165 , 49 − 2 ⋅ 4 , 414 ⋅ 30 , 9 + ( 4 ,414) 2 = 29 , 09

- 25 s2 0 , 07 deci : ( & 2.2. 3 ) D ( b ) = = = 0 , 024 2 ∑ ( x i − x ) 29, 09
2 ^

( & 2.2. 4 ) D ( a ) =

2

^

∑x n⋅ ∑(x − x)
2 i i

2

s2 165 , 49 0 , 07 = ⋅ = 0 , 01 n 7 ⋅ 29, 09 7

( & 2.2. 5 ) cov ( a , b ) =

^

^

x ⋅ s2 4 , 41 ⋅ 0 , 07 = = 0 , 01 2 29 , 09 ∑ ( xi − x )

2. 2. 3 : Estimarea dispersiei erorilor

Ne vom ocupa acum de estimarea dispersiei s a reziduurilor : aceasta cantitate s-a dovedit esentiala in descrierea caracteristicilor estimatorilor a , b . Dar , prin structura modelului , aceasta nu este cunoscuta apriori si va trebui estimata pe baza esantionului de care dispunem. Daca a reusi sa determinam erorile ei , atunci dispersia lor s-ar putea estima prin estimatorul nedeplasat “ dispersie de selectie modificata “ , dat de expresia :
^ ^

2

η

2

∑ ( ei − e)2 =
n −1

,

unde prin e am notat media de selectie a erorilor

Din pacate insa , cantitatile { ei } nu sunt observabile direct , ci pot fi estimate numai prin relatiile :

{ ei } .

e i = y i − y i , unde : y i = a + b⋅ x i = y + b⋅ ( x i − x ) .
In continuare ,vom utiliza unele dintre rezultatele precedente : - stim ca media reziduurilor este zero , deci :

^

^

^

^

^

∑ ( ei − e ) 2 = ∑ ei2 =
- deci :

∑ ( yi − yi ) 2 :

^

- 26 ^ ⎛ ^2 ⎞ ⎡ 2⎤ 2 M ⎢∑ ( y i − y i ) ⎥ = ∑ M( y i ) − ∑ M ⎜ y i ⎟ = ⎜ ⎟ ⎣ ⎦ ⎝ ⎠

⎡ ⎛^ ⎞ ⎛ ^ ⎞⎤ = ∑ D2 ( y i ) + M 2 ( y i ) − ∑ ⎢ D2 ⎜ y i ⎟ + M 2 ⎜ y i ⎟ ⎥ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠⎦ ⎣ ⎝ ⎠
- dar avem :

[

]

⎛^ ⎞ ⎛^ ^ ⎞ ⎛^⎞ ⎛^⎞ M ⎜ y i ⎟ = M ⎜ a + b⋅ x i ⎟ = M ⎜ a ⎟ + x i ⋅ M ⎜ b ⎟ = ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ = a + b ⋅ x i = M( y i )
- astfel , inlocuim si gasim :
^ ⎛ ⎞ ⎛^ ⎞ M ⎜ ∑ ( y i − y i ) 2 ⎟ = ∑ D2 ( y i ) − ∑ D2 ⎜ y i ⎟ = ⎠ ⎝ ⎠ ⎝

= n ⋅ s2 −

⎛^ ⎞ D2 ⎜ y i ⎟ ∑ ⎝ ⎠

Vom calcula valoarea expresiei D ⎜ y i ⎟ ; avem : ⎜ ⎟

2⎛

^

⎞ ⎠

D 2 ( y i ) = D 2 (a + b⋅ x i ) = D 2 ( a ) + x i2 ⋅ D 2 ( b ) + 2 ⋅ x i ⋅ cov( a ; b ) = = n ⋅ ∑ ( x j − x) s2 ⋅ ∑ x2 j + 2 x i2 ⋅ s 2 2 ⋅ xi ⋅ x ⋅ s 2 − = ( x j − x)2 ∑ ( x j − x)2 ∑

^

^

^

^

^

^ ^

⎛ ∑ x2 ⎞ s2 j = ⋅⎜ + x i2 − 2 ⋅ x i ⋅ x ⎟ = ⎟ ∑ ( x j − x )2 ⎜ n ⎝ ⎠ ⎛ ∑ x 2 nx 2 2⎞ s2 j = ⋅⎜ − + x i2 − 2 ⋅ x i ⋅ x + x ⎟ = ⎟ n ∑ ( x j − x)2 ⎜ n ⎝ ⎠ ⎛ ∑ ( x j − x)2 ⎞ s2 = ⋅⎜ + ( xi − x)2 ⎟ = ⎟ n ∑ ( x j − x)2 ⎜ ⎝ ⎠
2 ⎞ ⎛1 ⎜ + ( xi − x) ⎟ =s ⋅ ⎜ n ∑ ( x j − x )2 ⎟ ⎝ ⎠ 2

de unde gasim imediat forma finala , anume ;

- 27 -

^ ⎛ ⎡ ∑ ( x i − x) 2 ⎞ 2⎤ 2 2 ⎜n ⎟ + M ⎢∑ ( y i − y i ) ⎥ = n ⋅ s − s ⋅ ⎜ n ∑ ( x − x)2 ⎟ ⎦ ⎣ j ⎝ ⎠

^ ⎡ ⎤ M ⎢∑ ( y i − y i )2 ⎥ ⎣ ⎦ ⇒ s2 = n−2

Asadar , estimatorul abaterii medii patratice a erorilor reziduale este :

θ* =

∑ ( y i − y i )2 n−2

^

- 28 -

2.4 : Inferenta statistica asupra parametrilor modelului
2.4.1: Teste privind panta b a dreptei de regresie

Am vazut ca estimatorul b are o distributie normala , si ca avem :

^

⎧ ^ ⎪ M (b ) = b ⎪ ; ⎨ 2 ^ s2 ⎪ D (b ) = ⎪ ∑ ( x i − x) 2 ⎩
Asadar , expresia :
^

Z=

b−b D ( b)
2 ^

are o repartitie normala normata : folosind estimatorul θ aleatoare

*

pentru s

, gasim variabila

T=

b−b (n − 2 ) ⋅ ∑ ( x i − x ) 2

^

∑ (y i − y i )2

^

care are o repartitie Student , cu ( n-2) grade de libertate . In cazul testarii ipotezei nule :

- 29 -

⎧ H 0 :b = b 0 ⎨ ⎩ H 1 :b ≠ b 0
utilizam statistica

,

tc =

b−b

^

∑ (y i − y i )2 (n − 2 ) ⋅ ∑ ( x i − x ) 2

^

.

- Se respinge H0 la pragul de semnificatie α , daca | t c | > t ( α / 2 ; n − 2 )

OBSERVARE : daca se accepta ipoteza H 0 :b = 0 , in raport cu alternativa H 1 :b ≠ 0 ,
atunci Y nu depinde de fapt de X : modelul de regresie devine

y i = a + ei .
Daca insa se respinge H 0 :b = 0 si se prefera H 1 :b ≠ 0 , adica
^

tc >

b

∑ (y i − y i )2 (n − 2 ) ⋅ ∑ ( x i − x ) 2
.

^

,

relatia dintre Y si X este semnificativa la pragul de semnificatie α

- 30 -

2.4 : Inferenta statistica asupra parametrilor modelului 2.4.2 : Interval de incredere pentru b

Un interval de incredere , cu coeficientul de incredere ( 1 – α ) pentru parametrul b este dat de legea Student Tn − 2 si deci are aspectul ;

^ ^ ⎛ ^ ⎜^ ( y i − y i )2 ( y i − y i )2 ∑ ∑ ;b + t(α / 2;n − 2 ) ⋅ ⎜ b − t(α / 2;n − 2 ) ⋅ 2 (n − 2 ) ⋅ ∑ ( x i − x ) (n − 2) ⋅ ∑ ( x i − x ) 2 ⎜ ⎝

⎞ ⎟ ⎟, ⎟ ⎠

sau , pe scurt : b ± t ( α / 2 ; n − 2 ) ⋅ σ (b ) .

^

^

Observare : acest interval poate fi utilizat si pentru testarea perechii de ipoteze

H 0 : b = b 0 , cu alternativa H1 : b ≠ b 0

- 31 -

2.4 : Inferenta statistica asupra parametrilor modelului 2.4.3 : Teste privind taietura a in origine

Vom folosi faptul deja demonstrat , anume ca estimatorul a are o repartitie normala , cu caracteristicile :
^ ⎧ M( a ) = a ⎪ ⎪ ⎨ 2 ^ s 2 ⋅ ∑ x i2 ⎪D ( a ) = n ⋅ ∑ ( x i − x )2 ⎪ ⎩

^

Asadar , variabila aleatoare

Z=
are o repartitie normala normata .

a−a D ( a)
2 ^

^

Daca s este necunoscut , deci se estimeaza folosind estimatorul

2

θ =
atunci variabila aleatoare

*

∑ ( y i − y i )2
n−2

^

T=

a−a

^

θ ⋅

*

∑ xi2 n ⋅ ∑ ( x i − x)2
^

are o repartitie Student , cu ( n-2 ) grade de libertate . In continuare , se imita procedurile pentru b

- 32 -

2.4 : Inferenta statistica asupra parametrilor modelului 2.4.4 : Un exemplu numeric

Fie datele :

xi 1 3 7 11 14 y i 4 9 15 26 32

Sa determinam dreapta celor mai mici patrate si sa efectuam testarile corespunzatoare . Avem urmatoarele valori estimate :

1 • x = ⋅ ( 1 + 3 + 7 + 11 + 14 ) = 7,2 5 1 • y = ⋅ ( 4 + 9 + 15 + 26 + 32 ) = 17, 2 5
deci obtinem tabelul :

x i − x -6,2

-4,2 -0,2 3,8 6,8

y i − y -13,2 -8,2 -2,2 8,8 14,8
Atunci :

• ∑ ( x i − x ) ⋅ ( y i − y ) = 250 , 8 • ∑ ( x i − x )2 = 116 , 8

deci :

• b=
^

^

∑ ( xi − x) ⋅ ( y i − y ) = 250 ,8 = 2 , 147 ; 116, 8 ∑ ( x i − x )2
^

• a = y − b⋅ x = 17 , 2 − 2, 147 ⋅ 7 , 2 = 1 , 742 .

- 33 ^ ^

Reziduurile estimate se determina cu relatia e i = y i − y i , unde valorile calculate y i ale variabilei Y se determina prin inlocuirea in ecuatia dreptei , deci

y i = a + b⋅ x i = 1 , 742 + 2 , 147 ⋅ x i ;
obtinem tabelul :

^

^

^

xi 1 yi 4
^

3 9

7 15

11 26

14 32

y i 3, 9 8,18 16,77 25,36 31,8 ei 0,1 0,82 - 1,77 0,64 0,2
Indicele de determinare ,

R =
devine :

2

∑ yi − n ⋅ y 2 ∑ y i2 − n ⋅ y

^2

2

R2 =

2017, 725 − 5 ⋅ ( 17, 2)2 = 0 , 992 . 2022 − 5 ⋅ ( 17, 2)2

Deci variatia lui Y este determinata in proportie de 99 , 2% de catre variatia lui X . Sa trecem la estimarea repartitiei estimatorilor a , b : pentru aceasta trebuie estimat intai abaterea medie patratica a reziduurilor .
^ ^

Avem :

θ =

*

∑ ( y i − y i )2 =
n−2

^

4 , 265 = 1 , 192 : 3

aceasta valoare constituie o estimare nedeplasata a lui s .

- 34 Atunci :

s2 valoarea estimata pentru D ( b ) = va fi data de : ∑ ( x i − x)2
2 ^

1 , 1922 = 0 , 012 = ( 0 , 1103 )2 116 ,8
^

Deci abaterea standard a variabilei aleatoare b este : σ ^ = 0 , 1103 .
b

Valoarea estimata pentru D ( a ) = s

2

^

2

∑ xi2 ⋅ n ⋅ ∑ ( x i − x )2

va fi deci

( 1 , 192)2 ⋅

376 = 0 , 9148 = ( 0 , 9565 )2 . 5 ⋅ 116 , 8
^

Deci abaterea standard a variabilei aleatoare a este : σ^ = 0 , 9565 .
a ^ ^

Acum se poate trece la efectuarea de teste privind valorile a , b . Alegem pragul α = 0 , 90 ; din tabela Student citim

t ( α / 2 ; n − 2 ) = t ( 0 , 45 ; 3 ) = 2 , 6 .
- Verificarea ipotezei : H 0 : b = 3 , cu alternativa H1 : b ≠ 3 ;

Avem : t c =

b − 3 2 , 147 − 3 = = − 7 , 73 ; cum avem | t c | > t ( 0 , 45 ; 3 ) , σ^ 0, 1103
b

^

deducem ca , la pragul α = 0 , 90 se respinge H0 si se prefera H1 .

- Interval de incredere pentru b :
Pentru α = 0 , 90 avem intervalul : ( 2 , 147 ± 2 ,6 ⋅ 0 ,1103 ) = ( 1 ,86 ; 2,434) .

- 35 Asadar , pentru valoarea estimata a lui b se poate alege orice valoare din acest interval : evident

ca valoarea cea mai tentanta este b = 2. - Verificarea ipotezei : H 0 : a = 1 , cu alternativa H1 : a ≠ 1 Avem t c =

~

se accepta H 0 1 , 742 − 1 = 0 ,7757 < t ( 0 , 45 ; 3 ) = 2 , 6 , deci : . se respinge H1 0 ,9565

- Interval de incredere pentru a : avem

( 1 , 742 ± 2 ,6 ⋅ 0 , 9565 ) = ( − 0 , 745 ; 4 , 23) .
Observare : daca Y reprezinta beneficiul realizat in urma producerii unei cantitati X de produs

atunci este important sa avem : X = 0 → Y=0 ( daca nu produc nimic , beneficiul este zero ) : cum valoarea a = 0 apartine intervalului ( − 0 , 745 ; 4 , 23 ) , datele problemei ar putea confirma că avem un model de evaluare a nivelului beneficiului in functie de nivelul productiei .

2.4 : Inferenta statistica asupra parametrilor modelului 2.4.5 : Interval de incredere pentru a

Un interval de incredere de nivel ( 1- α ) pentru parametrul a este definit de relatia
^ ^ ^ ^

( a − t ( α / 2, n − 2 ) ⋅ σ( a ) ; a − t ( α / 2, n − 2 ) ⋅ σ( a ) ) ,
sau :
^ ^

a ± t ( α / 2, n − 2 ) ⋅ σ( a ) .
Asadar : - se respinge ipoteza H 0 : a = a 0 , in raport cu ipoteza alternativa H1 : a ≠ a 0 la pragul de semnificatie α daca valoarea a 0 nu apartine intervalului

a ± t ( α / 2, n − 2 ) ⋅ σ( a ) .

^

^

- 36 -

2.4 : Inferenta statistica asupra parametrilor modelului 2.4.6 : Interval de incredere pentru μ Y ( x )

Vom gasi acum interval de incredere pentru μ Y ( x ) = a + b ⋅ x . S-a stabilit ca estimatorul lui μ Y ( x ) este dat de dreapta celor mai mici patrate , adica : y ( x ) = a + b⋅ x . Estimatorul y ( x ) este normal distribuit , deoarece este o combinatie liniara de doi estimatori cu repartitie normala . Stim ca acest estimator este nedeplasat , si ca are abaterea standard
^ ^ ^ ^

⎛1 ⎞ σ ⎜ y(x) ⎟ = s 2 ⋅ ⎜ + ⎜ ⎟ ⎜n ⎝ ⎠ ⎝
2⎛ ^

( x − x)2 ∑ ( x i − x)2

⎞ ⎟. ⎟ ⎠

Se observa ca daca valoarea lui x este relativ indepartata de valoarea x , valoarea dispersiei estimatorului este relativ mare si deci estimatorul devine neprecis : atunci , pentru astfel de valori , estimarea lui μ Y ( x ) este bine sa nu se faca cu dreapta de regresie . In continuare , expresia
^

y(x) − μ Y (x) Z= ⎛^ ⎞ σ ⎜ y(x) ⎟ ⎟ ⎜ ⎠ ⎝
are o repartitie normala normata . Cum dispersia s a rezidurilor este necunoscuta , nu putem utiliza statistica Z , si va
2

trebui sa estimam s prin estimatorul

θ* =
^

∑ ( y i − y i )2 : atunci folosim statistica n−2
( x − x)2 ∑ ( x i − x)2

^

T= θ ⋅
*

y(x) − μ Y (x) 1 + n

- 37 -

care are o repartitie Student cu ( n-2) grade de libertate .

Intervalul de incredere de nivel ( 1 – α ) pentru

μ Y ( x ) este

y ( x ) ± t ( α / 2 , n − 2 ) ⋅ θ* ⋅

^

1 + n

( x − x)2 , unde ( x i − x)2 ∑

θ* =

∑ ( y i − y i )2 . n−2

^

2.5 : Analiza dispersionala

Reamintim ca in sectiunea 1 . 3 am gasit relatia

∑ ( y i − y )2 =
unde : - Sg = - Se = - Sr =

∑ ( y i − y ) 2 + ∑ ( y i − y i )2

^

^

∑ ( y i − y )2
^

este variatia totala ;

∑ ( y i − y ) 2 este variatia explicata prin regresie ;

∑ ( y i − y i )2 este variatia reziduala sau variatie ne-explicata .

^

Acum vom folosi aceste relatii pentru a testa ipoteza H 0 : b = 0 . Daca aceasta ipoteza este adevarata , atunci se poate demonstra ca mediile variatiilor devin respectiv :

- 38 -

M (S g ) = (n − 1) ⋅ s 2 M (S e ) = s 2 M (S r ) = (n − 2 ) ⋅ s 2
pornind de la aceste relatii , suntem incurajati sa introducem urmatorii estimatori ;

D2g = D 2e D 2r

− dispersia globala n −1 S = e − dispersia exp licata 1 Sr = − dispersia reziduala n−2
2 2 2

Sg

Se stie ca daca ipoteza H0 este verificata , atunci D g , D e , D r sunt toti trei estimatori nedeplasati ai lui s : daca H0 este falsa , atunci numai D r este estimator 2 nedeplasat al lui s . Daca ipoteza H0 este verificata , atunci statisticile
2
2

2

Sg s
2

,

Se Sr si 2 urmeaza cate o 2 s s

repartitie χ , avand respectiv : n – 1 ; 1 si n-2 grade de libertate . Mai mult , daca ipoteza H0 este verificata , aceste statistici sunt independente doua cite doua . ASADAR : Daca ipoteza H0 este verificata , statistica

D2 g 1 ⋅ s2 Fc = = 2 Sr D r 2 (n − 2) ⋅ s
urmeaza o lege Fisher cu ( 1 ; n-2 ) grade de libertate

Sg

- 39 Se poate utiliza statistica Fc pentru a decide acum daca ipoteza H 0 : b = 0 este adevarata sau falsa : astfel , se respinge ipoteza H 0 la pragul de semnificatie α daca avem

Fc > F( α , 1 , n − 2 )
unde F( α , 1 , n − 2 ) este cuantila ( 1 – α) a repartitiei Fisher cu ( 1 ; n-2 ) grade de libertate ,care se citeste in tabele . Calculele se sistematizeaza deobicei intr-un tabel , numit tabel ANOVA ( ANOVA = analysis of variation ) : felul variatiei grade de libertate explicata 1 variatia dispersia
^

Testul Fisher

S e = ∑ ( y i − y )2 Sr = ∑ ( y i − y i )2 S g = Se + Sr
^

D 2e =

Se 1 Sr n−2

D 2e Fc = 2 D r

reziduala n – 2 totala 1+(n–2)= =n-1

D 2r =

XXXXXX

XXXXX

2.6 : Modele cu un singur parametru 2.6.1 : Modele fara variabila explicativa

Pornim de la ipoteza ca modelul de regresie are aspectul

y i = a + ei .
Ipotezele raminand cele generale , avem :

⎧M ( y i ) = a ⎪ . ⎨ 2 ⎪D (y i ) = s 2 ⎩
Fie a 0 - un estimator pentru a : atunci pot fi definite
^

- 40 ^ ^

- valorile estimate : y i = a 0 ; - reziduurile : e i = y i − y i = y i − a 0 . Estimatorul a 0 va fi determinat prin metoda celor mai mici patrate ,adica prin conditia de minimum pentru eroarea globala
^
^ ^

z = f (a 0 ) = ∑ ( y i − a 0 ) 2
Dupa cum stim , aceasta conditie este

dz = 0 ⇔ − 2 ⋅ ∑ ( y i − a0 ) = 0 . d a0
Gasim asadar :

a0 =

^

∑ yi = y .
n

Inlocuind , obtinem :
^ ⎧ 2 2 S r = ∑ ( y i − y i )2 = ∑ ( y i − y )2 = S g ⎪ ⎨ ^ ^ ^ ⎪S 2 = ( y − y ) 2 = ( y − y ) 2 = 0 . ∑ i i i ⎩ e ∑

Estimatorul a = y i este repartizat normal cu :

^

^

⎛^⎞ M ⎜ a ⎟ = M ( y ) = M ( y i ) = a0 ⎜ ⎟ ⎝ ⎠ ^ D2 ( y i ) s 2 2⎛ ⎞ 2 = . - dispersia : D ⎜ a ⎟ = D ( y ) = ⎜ ⎟ n n ⎝ ⎠
- media : Pe de alta parte , media sumei patratelor reziduurilor este :

- 41 ^ ⎡ ⎤ M ⎢∑ ( y i − y i )2 ⎥ = M ⎣ ⎦

[ ∑ ( y − y ) ] = (n − 1) ⋅ s
i 2
2

2

Astfel , obtinem un estimator nedeplasat pentru s din relatiile precedente , anume :

∑ ( y i − y i )2 = 2 s = n −1

^

∑ ( y i − y )2
n −1

.

^⎞ s2 ⎜a⎟ = De aici , obtinem si un estimator nedeplasat pentru D ⎜ ⎟ . ⎝ ⎠ n 2⎛

2.6 : Modele cu un singur parametru 2.6.2 : Modele fara constanta

Un model fara parte constanta are aspectul

y i = b ⋅ x i + ei
Stim ca y i sunt variabile independente cu repartitie normala , deci avem

M ( y i ) = b ⋅ x i + M( ei ) = b ⋅ x i D 2 ( y i ) = D 2 ( b ⋅ x i ) + D 2 (e i ) = s 2
^

.

Folosind un estimator b a lui b , putem defini valorile estimate

y i = b⋅ x i
si reziduurile
^

^

^

e i = y i − y i = y i − b⋅ x i .

^

^

Estimatorul b este dat de metoda celor mai mici patrate si are aspectul :

- 42 -

b =

^

∑ xi ⋅ y i ∑ xi2

Specificul unui model de regresie fara constanta este faptul ca dreapta de regresie estimata nu trece prin punctul de coordonate ( x , y ) si ca relatia

∑ y i = ∑ y i nu mai este

^

adevarata . Asadar , suma rezidurilor nu este nula , si nu mai avem : Sg = Se + Sr . In schimb , dupa cum vom arata , este adevarata relatia :

∑ yi = ∑ yi ⋅ yi
In adevar :

^2

^

⎛ ∑ xi ⋅ y i ⎞ (∑ xi ⋅ y i )2 = 2 2 ∑ y i = ⎜ x2 ⎟ ⋅ ∑ xi = ⎟ ⎜ ∑ xi2 ⎝ ∑ i ⎠ ⎞ ⎛ n ⎜ ∑ xj ⋅ y j ⎟ n ⎟ ∑ x i y i ⋅ ∑ x i y i = ∑ ⎜ j= 1 = ⎟ ⋅ xi ⋅ y i = ⎜ n x i2 i =1 ⎜ ∑ x2 ⎟ ⎜ ∑ j ⎟ ⎠ ⎝ j= 1
^ 2

=
Asadar , avem relatia :

∑ yi ⋅ yi

^

∑ ( yi − yi ) = ∑
2

^

y i2

− ∑ yi .

^

Estimatorul b are distributie normala , cu

^

⎛^⎞ - media : M ⎜ b ⎟ = ⎜ ⎟ ⎝ ⎠

∑ xi ⋅ M( y i ) = b ⋅ ∑ xi2 ∑ xi2 ∑ xi2

=b ;

- 43 2⎛

- dispersia : D

∑ xi2 ⋅ D2 (y i ) = s 2 ⋅ ∑ xi2 = s 2 ⎜b⎟ = ⎜ ⎟ ( ∑ xi2 ) 2 ( ∑ xi2 )2 ∑ xi2 ⎝ ⎠
^⎞

.

Valorile estimate y i sunt deasemeni repartizate normal , cu - media : M ⎜ y i ⎟ = M ⎜ b⋅ x i ⎟ = x i ⋅ M⎜ b ⎟ = x i ⋅ b = M( y i ) ⎜ ⎟ ⎜ ⎟ ⎜ ⎟

^

⎛^ ⎞ ⎝ ⎠

⎛^ ⎝

⎞ ⎠

⎛^⎞ ⎝ ⎠

^ ⎞ 2 2⎛ ^ ⎞ ⎞ x i2 2⎛ - dispersia : D ⎜ y i ⎟ = D ⎜ b⋅ x i ⎟ = x i ⋅ D ⎜ b ⎟ = ⋅ s2 . ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ 2 ⎝ ⎠ ∑ xj ⎠ ⎝ ⎝ ⎠ 2⎛ ^ j

Pentru media sumei patratelor reziduurilor , avem :

⎛ M⎜ ⎜ ⎝

⎛ ( yi − yi ) ⎟ = M ⎜ ∑ ⎟ ⎜ ⎠ ⎝
^ 2⎞


2

y i2
2

− ∑ y i ⎟ = ∑ D2 ( y i ) − ∑ D2 ( y i ) = ⎟ ⎠

^2 ⎞

^

= n⋅s − s

∑ xi2 = ( n − 1 ) ⋅ s 2 ⋅ ∑ xi2
2 ^

Deci un estimator nedeplasat al lui s se obtine punand :

∑ ( y i − y i )2 . * 2 (s ) = n −1
^⎞ ⎜ b ⎟ va fi atunci dat de : Un estimator pentru D ⎜ ⎟ ⎝ ⎠ 2⎛

( s* ) 2 σ (b) = . x i2 ∑
Se demonstreaza ca expresia :

~2 ^

- 44 ^

T=

b− b σ ( b)
~ ^

are o repartitie Student cu ( n-1 ) grade de libertate .

CAPITOLUL 3 : REGRESIA MULTIPLA 3.01 : Hiperplanul de regresie

Se considera cazul unei variabile explicate , Y , si un numar de ( p-1) variabile explicative , anume X1 , X2 , …, Xp-1 . Vom studia cazul existentei unui model liniar stochastic de tipul

Y = b 0 + b1 ⋅ X1 + b 2 ⋅ X 2 + ... + b p − 1 ⋅ Xp − 1 + e
Folosind un esantion de “n” indivizi , obtinem datele care au aspectul :

( x11 , x12 ,..., x1,p − 1 ; y 1 ) ; ( x 21 , x 22 ,..., x 2,p − 1 ; y 2 ) ; ... ; ( xn1 , xn 2 ,..., xn ,p − 1 ; y n ) .
Valabilitatea modelului liniar stochastic mentionat revine la a presupune ca pentru fiecare i = 1, n avem relatia

y i = b 0 + b1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p − 1 ⋅ x i ,p − 1 + e i .
Si la acest model , se considera ca valorile { x ij } au caracter determinist , pe cand { y i } sunt considerate variabile aleatoare .

CAPITOLUL 3 : REGRESIA MULTIPLA 3.02 : Model de regresie cu doua variabile explicative

Vom studia pentru inceput cazul a doua variabile explicative , caz in care modelul devine :

y i = b 0 + b1 ⋅ xi1 + b 2 ⋅ xi 2 + ei

- 45 ^

Urmeaza determinarea de estimatori { b i }i =1, 3 pentru parametrii { b i }i =1, 3 . Valorile estimate ale variabilei explicate Y vor fi atunci

y i = b 0 + b1 ⋅ x i 1 + b 2 ⋅ x i 2
iar reziduurile { ei }i =1, 3 ar urma sa fie date prin

^

^

^

^

ei = y i − y i = y i − (b 0 + b1 ⋅ xi1 + b 2 ⋅ xi 2 ) .
Pentru construirea estimatorilor , se utilizeaza tot metoda celor mai mici patrate , adica se urmareste minimizarea sunei patratelor reziduurilor :

^

^

^

^

f ( b1 , b 2 , b 3 ) = ∑ ( y i − b 0 − b1 ⋅ xi1 − b 2 ⋅ xi 2 )2 = min .
Conditiile necesare de extrem sunt :

⎧ ∂f ⎪ ∂b = − 2 ⋅ ∑ ( y i − b 0 − b1 ⋅ xi1 − b 2 ⋅ xi 2 ) = 0 ⎪ 0 ⎪ ∂f = − 2 ⋅ ∑ x i 1 ⋅ ( y i − b 0 − b1 ⋅ x i 1 − b 2 ⋅ x i 2 ) = 0 ⎨ ∂b1 ⎪ ⎪ ∂f = − 2 ⋅ x ⋅ ( y − b − b ⋅ x − b ⋅ x ) = 0 ∑ i 2 i 0 1 i1 2 i 2 ⎪ ∂b ⎩ 2

Se obtine sistemul ecuatiilor normale :

^ ^ ^ ⎧ n b0 + b1 ⋅ ∑ xi1 + b 2 ⋅ ∑ xi 2 = ∑ y i ⎪ ^ ^ ⎪^ 2 ⎨ b 0 ⋅ ∑ xi1 + b1 ⋅ ∑ xi1 + b 2 ⋅ ∑ xi1 ⋅ xi 2 = ∑ xi1 ⋅ y i ^ ^ ⎪^ 2 ⎪b 0 ⋅ ∑ xi 2 + b1 ⋅ ∑ xi1 ⋅ xi 2 + b 2 ⋅ ∑ xi 2 = ∑ xi 2 ⋅ y i ⎩

- 46 -

Nu vom utiliza acest sistem in continuare : se trece la rezolvarea matriceala in paragraful urmator.

CAPITOLUL 3 : REGRESIA MULTIPLA 3.03 : Cazul matriceal

Pentru a descrie matriceal sistemul ecuatiilor normale , vom introduce matricile : - matricea valorilor variabilelor determinante :

⎛ 1 x11 ⎜ ⎜ 1 x 21 X=⎜ ... ... ⎜ ⎜ 1 x n1 ⎝
- vectorul estimatorilor :

x12 x 22 ... xn 2

... x1,p −1 ⎞ ⎟ ... x 2,p −1 ⎟ ... ... ⎟ ⎟ ... xn ,p −1 ⎟ ⎠

⎛ ^ ⎞ ⎜ b0 ⎟ ^ ⎜ ^ ⎟ b = ⎜ b1 ⎟ ; ⎜ ... ⎟ ⎜^ ⎟ ⎜ bp −1 ⎟ ⎝ ⎠
- vectorul valorilor estimate :

⎛^ ⎞ ⎜ y0 ⎟ ^ ⎜^ ⎟ y = ⎜ y1 ⎟ ; ⎜ ⎟ ... ⎜^ ⎟ ⎜y ⎟ ⎝ n⎠
- vectorul reziduurilor :

- 47 -

⎛ e1 ⎞ ⎜ ⎟ ⎜ e2 ⎟ e =⎜ ⎟ . ... ⎜ ⎟ ⎜e ⎟ ⎝ n⎠
In scriere matriceala , - modelul de regresie devine : y = X ⋅ b + e ; - vectorul valorilor estimate devine : y = X ⋅ b ; - vectorul reziduurilor devine : e = y − y ; Suma patratelor reziduurilor se calculeaza prin expresia matriceala
^ ^ ^

ei2 = e'⋅e =
^

( y − y )'⋅ ( y − y ) = ( y − X ⋅ b )'⋅( y − X ⋅ b ).

^

^

^

^

Pentru scalarul b'⋅ X'⋅y avem

y'⋅y − b'⋅ X'⋅y − y'⋅ X ⋅ b + b'⋅ X'⋅ X ⋅ b ,

^

^

^

^

deci expresia

∑ ei2

devine :

e'⋅e = y'⋅y − b'⋅ X'⋅y − y'⋅X ⋅ b + b'⋅ X'⋅X ⋅ b = = y'⋅y − 2 ⋅ b'⋅X'⋅y + b'⋅X'⋅ X ⋅ b
^ ^ ^ ^

^

^

^

^

Derivand expresia obtinuta in raport cu vectorul b , obtinem conditia necesara de extrem :

− 2 ⋅ X'⋅y + 2 ⋅ X'⋅X ⋅ b = 0

^

Asadar , estimatorul b se obtine din ecuatia matriceala :

^

- 48 -

X'⋅ X ⋅ b = X'⋅y ⇒ b = ( X'⋅ X)−1 ⋅ X'⋅y

^

^

3.04 : Proprietatile metodei celor mai mici patrate

- Proprietatea 1 :

Esta adevarata urmatoarea relatie matriceala :

y'⋅ y = y'⋅y = y'⋅ y .
In adevar :

^ ^

^

^

y'⋅ y = ( X ⋅ b )'⋅ X ⋅ b = b '⋅ X'⋅X ⋅ b = = b '⋅X'⋅ X ⋅ ( X'⋅ X ) −1 ⋅ X'⋅y = = b '⋅X'⋅y = ( X ⋅ b )'⋅y = y'⋅y
Atunci avem :
^ ^ ^ ^

^ ^

^

^

^

^

e'⋅e = ( y − y )'⋅( y − y ) = ( y' − y') ⋅ ( y − y ) = = y'⋅y − y'⋅ y − y'⋅y + y' ⋅ y = = y'⋅y − y' ⋅ y
In final , suma patratelor reziduurilor se poate exprima astfel :
^2 ^ ^ ^ ^ ^ ^

^

^

^

^

e i2

= ∑ ( yi − yi ) = ∑
2

^

y i2

− ∑ yi .

== // ==

- 49 - Proprietatea 2 : din prima ecuatie normala , anume :

n b 0 + b 1 ⋅ ∑ x i1 + b 2 ⋅ ∑ x i 2 + .... = ∑ y i ,
prin impartire cu “ n “ gasim :

^

^

^

b 0 + b1 ⋅ ∑
sau :
^ ^

^

^

x i1 ^ x y + b 2 ⋅ ∑ i 2 + ... = ∑ i , n n n
^

b 0 + b1 ⋅ x1 + b 2 ⋅ x 2 + ... = y ⇒
⇒ b 0 = y − b 1 ⋅ x1 − b 2 ⋅ x 2 − ...
Deci : planul de regresie multipla trece prin punctul mediu , de coordonate
^ ^ ^

A = ( x1 , x 2 ,... , x p −1 , y ) .
== // == - PROPRIETATEA 3 : Este adevarata relatia

∑ y i = ∑ y i ; in adevar :
^ ^

^

∑ y i = ∑ (b 0 + b1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1 ) =
= ∑ b 0 + b 1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1 = n ⋅ b 0 + b 1 ⋅ ∑ x i1 + ... + b p −1 ⋅ ∑ x i ,p −1 = = n ⋅ ( y − b 1 ⋅ x1 − b 2 ⋅ x 2 − .... ) + b 1 ⋅ n ⋅ x1 + b 2 ⋅ x 2 + ... = = n ⋅ y = ∑ yi .
^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^

^

^

^

- 50 -

Ca o consecinta , avem :

∑ e i = ∑ y i − ∑ y i = 0 , deci suma reziduurilor , precum si

^

media reziduurilor , sunt egale cu zero .

== // == - Proprietatea 5 ; Expresia variatiei globale , explicate si reziduale Vom porni de la relatia :
^2

∑ (y i − y ) = ∑ y i − 2 ⋅ y ⋅ ∑ y i + n ⋅ y =
2

^

^

2

= ∑ yi − 2⋅ y ⋅ ∑ yi + n ⋅ y = = ∑ yi − 2⋅ n ⋅ y + n ⋅ y = = ∑ yi − n ⋅ y .
De aici , obtinem :
^2 2 ^2 2 2

^2

2

∑ (y i − y )2 + ∑ ( y i − y i )2 =
^2⎤ ⎡ ^2 2⎤ ⎡ 2 = ⎢∑ y i − n ⋅ y ⎥ + ⎢∑ y i − ∑ y i ⎥ = ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ ⎣ ⎦

^

^

= ∑ y i2 − n ⋅ y = ∑ ( y i − y ) 2
Am obtinut ecuatia care leaga cele trei variatii , anume :

2

∑ ( y i − y ) = ∑ (y i − y )
2

^

2

+

∑ ( y i − y i )2

^

⇔ Sg = Se + Sr .
== // ==

- 51 - Proprietatea 6 : Coeficientul de determinare Definim si acum

R2 =

Se . Sg

Interpretarea acestuia ramine cea din capitolul precedent.

CAPITOLUL 3 : REGRESIA MULTIPLA 3.05 : Ipotezele modelului

Ecuatia hiperplanului de regresie , in scriere matriceala , este :

y= X⋅b+e
unde vectorul aleator e urmeaza o lege normala multidimensionala , avand caracteristicile

M ( e) = 0 ; D 2 ( e ) = s 2 ⋅ E n ,
adica :

• M( e1 ) = M( e 2 ) = ... = M (e n ) = 0
⎛ D 2 (e 1 ) cov( e1 , e 2 ) ⎜ ⎜ cov( e1 , e 2 ) D 2 (e 2 ) •⎜ ... ... ⎜ ⎜ cov( e , e ) cov( e , e ) ⎝ n 1 n 2 ⎛ s2 0 ⎜ ⎜ 0 s2 =⎜ ⎜ ... ... ⎜0 0 ⎝

... cov( e1 , e n ) ⎞ ⎟ ... cov( e 2 , e n ) ⎟ ⎟= ... ... ⎟ 2 ... D (e n ) ⎟ ⎠

... 0 ⎞ ⎟ ... 0 ⎟ ⎟ ... ... ⎟ ... s 2 ⎟ ⎠

Cu alte cuvinte , variabilele aleatoare {e i } - sunt doua cate doua independente - sunt identic repartizate - urmeaza fiecare repartitia N( 0 ; s ) . Ca o consecinta , vectorul aleator y urmeaza si el o repartitie normala multidimensionala ,

- 52 avand caracteristicile : M ( y ) = X ⋅ b ; D ( y ) = s ⋅ E n . Altfel spus , avem :
2 2

M ( y ) = b 0 + b 1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1 .
Estimatorul vectorului b este un estimator nedeplasat ; in adevar , avem :
^

M (b ) = M [ ( X'⋅X) −1 ⋅ X'⋅y ] = ( X'⋅X) −1 ⋅ X'⋅ M( y ) = = ( X'⋅X) −1 ⋅ X'⋅ b = b .
In ce priveste dispersia estimatorului b , avem :
^

D 2 (b ) = D 2 [ ( X'⋅ X) −1 ⋅ X'⋅y ] = = ( X'⋅X) −1 ⋅ X'⋅ ( ( X'⋅ X) −1 ⋅ X' )'⋅ D 2 ( y ) = = ( X'⋅X) −1 ⋅ X'⋅ X ⋅ ( X'⋅X) −1 ⋅ s 2 = = ( X'⋅ X) −1 ⋅ s 2

^

CAPITOLUL 3 : REGRESIA MULTIPLA 3.06 : Estimarea dispersiei erorilor
2

Pentru estimarea dispersiei comune s a erorilor , vom porni de la relatia

∑ (e i − e) 2 = ∑ e i2 = ∑ ( y i − y i ) 2 .
Avem :

^

- 53 ^ ^2⎤ ⎡ ⎛^2 ⎞ ⎡ 2⎤ 2 2 M ⎢∑ ( y i − y i ) ⎥ = M ⎢∑ y i − ∑ y i ⎥ = ∑ M y i − ∑ M ⎜ y i ⎟ = ⎜ ⎟ ⎣ ⎦ ⎢ ⎥ ⎣ ⎦ ⎝ ⎠

( )

⎡ ⎛^ ⎞ ⎛ ^ ⎞⎤ = ∑ D 2 (y i ) + M 2 (y i ) − ∑ ⎢D 2 ⎜ y i ⎟ + M 2 ⎜ y i ⎟⎥ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠⎦ ⎣ ⎝ ⎠
si deci :

[

]

D ( y ) = D ( X ⋅ b ) = D 2 [ X ⋅ ( X'⋅ X) −1 ⋅ X'⋅y ] =
2 2

^

^

= [ X ⋅ ( X'⋅ X) −1 ⋅ X' ] ⋅ [ X ⋅ ( X'⋅ X) −1 ⋅ X' ]'⋅D 2 ( y ) = = [ X ⋅ ( X'⋅X) −1 ⋅ X' ] ⋅ [ X ⋅ ( X'⋅X) −1 ⋅ X' ]'⋅E n ⋅ s 2 = = X ⋅ ( X'⋅X) −1 ⋅ X'⋅ s 2
Asadeci , dispersiile cantitatilor y se afla pe diagonala matricii H = X ⋅ ( X'⋅ X ) i inmultite cu s . Atunci avem :
^ ^
2 ^
−1

⋅ X' ,

M [ ∑ ( y i − y i )2 ] = ∑ D2 (y i ) − ∑ D2 ( y i ) = = n ⋅ s 2 − s 2 ⋅ Tr ( H ) ,
unde Tr(H) este urma matricii H ( = suma elementelor de pe diagonala matricii ). Dar avem : Tr ( H ) = Tr [ X ⋅ ( X'⋅ X ) deci
−1

⋅ X' ]= Tr [ ( X'⋅ X) −1 ⋅ ( X'⋅X) ]

Tr ( H ) = Tr [ E p ] = p .
Atunci : M [

∑ ( y i − y i ) 2 ] = (n − p ) ⋅ s 2 .
2 ^

^

Se poate defini deci un estimator nedeplasat pentru s , prin
2 Sg − Se S * 2 ∑ ( yi − yi ) , (θ ) = = r = n−p n−p n−p

sau :

- 54 ^

θ* =

∑ ( y i − y i )2 . n−p

CAPITOLUL 3 : REGRESIA MULTIPLA 3.07 : Inferente statistice asupra parametrilor modelului

Am vazut ca vectorul b urmeaza o lege normala multidimensionala , cu media

^

M (b ) = b si cu dispersia D2 (b ) = ( X'⋅ X)−1 ⋅ s 2 .
Asadar , estimatorii b j au repartitii normale , cu media b j . Dispersiile estimatorilor b j depind de cantitatea necunoscuta s care se poate estima cu estimatorul θ prezentat in sectiunea precedenta . Avem deci estimarea D (b ) = ( X'⋅ X ) Pentru a testa ipoteza nula H 0 :b j = b j statistica
(0) 2 ^
−1

^

^

^

^

2

*

⋅ (θ* )2 .
(0)

cu alternativa H1 :b j ≠ b j

,se poate folosi

tc =

b j − b(j0 )
σ (b j )
^

^

Daca ipoteza H 0 este adevarata , statistica t c are o repartitie Student cu ( n-p) grade de libertate . Asadar , se respinge H 0 la pragul α daca avem

| t c | > t ( α / 2, n − p ) .
Folosind aceeasi statistica , se pot determina intervalele de incredere pentru b j .

- 55 -

CAPITOLUL 4 : TEORIA CORELATIEI 4.01 : Masurarea corelatiei : proprietati

Ca functie de doua variabile , corelatia are urmatoarele proprietati de baza : - corelatia este pozitiva daca dependenta dintre caracteristici are caracter crescator , adica : cresterea valorii caracteristicii determinante duce la o crestere a mediei caracteristicii determinate ; - corelatia este negativa daca dependenta dintre caracteristici are caracter descrescator adica : cresterea valorii caracteristicii determinante duce la o descrestere a mediei caracteristicii determinate ; - corelatia este nula , daca variabilele sunt independente , sau : modificarea valorii caracteristicii determinante lasa neschimbata media caracteristicii determinate NOTA : am facut aceasta precizare , deoarece este posibil sa avem situatii ca aceasta : modificarea valorii caracteristicii determinante nu modifica media caracteristicii determinate , dar ii modifica ( de exemplu) dispersia ; din punct de vedere practic , intr-un astfel de caz caracteristica determinanta are influenta asupra caracteristicii determinate . - valoarea numerica a corelatiei trebuie sa fie independenta fata de unitatile de masura folosite pentru cele doua variabile ; - corelatia trebuie sa fie o marime simetrica a dependentei , adica corelatia dintre X si Y trebuie sa fie egala cu corelatia dintre Y si X .

4.02 : Coeficientul de corelatie ( recapitulare )

Cea mai utilizata masura a corelatiei este coeficientul de corelatie al lui Pearson , anume :

ρ XY =

Cov ( X , Y ) D ( X) ⋅ D ( Y )
2 2

.

Reamintim ca pentru covarianta avem definitia:

cov ( X , Y ) = M [ ( X − m X ) ⋅ ( Y − m Y ) ] = M( X ⋅ Y ) − M( X) ⋅ M( Y ) .
Principalele proprietati ale covariantei sunt urmatoarele :

- 56 -

⎧ • cov ( X , X) = D 2 ( X ) ⎪ • cov ( X , Y ) = cov ( Y, X ) ⎪ ⎨ ⎪ • cov ( a ⋅ X + b , Y ) = a ⋅ cov( X , Y ) ⎪• cov( X + Y, Z ) = cov( X , Z ) + cov( Y, Z ) ⎩

In plus , avem : X , Y – independente ⇒ cov ( X , Y ) = 0. NOTA : dar afirmatia reciproca nu este adevarata : este posibil sa avem covarianta zero , dar variabilele X , Y sa fie dependente : daca cov ( X , Y ) = 0 , vom spune ca X , Y sunt variabile necorelate ( ceeace in practica inseamna ca se poate considera ca nu se influenteaza ). Folosind proprietatile covariantei , se deduc proprietatile coeficientului de corelatie ρ . Acestea sunt urmatoarele :

• − 1 ≤ ρ XY ≤ 1 ;
• daca avem ρ XY = 1 , variabilele X , Y sunt legate printr-o relatie liniara crescatoare, Y = a + b ⋅ X , unde avem b > 0 ; • daca avem ρ XY = − 1 , variabilele X , Y sunt legate printr-o relatie liniara descrescatoare, Y = a + b ⋅ X , unde avem b < 0 ; •
daca variabilele X , Y sunt independente atunci avem

ρ XY = 0 ,

• coeficientul de corelatie nu se modifica , daca unitatile de masura pentru cele doua variabile se schimba , adica :

ρ ( X , Y ) = ρ ( a ⋅ X + b , p ⋅ Y + q ) ⋅ sgn ( a ⋅ p )
Aici prin “ sgn(x) “ intelegem semnul lui “ x” , adica

⎧ − 1 , pentru x < 0 ⎪ sgn( x ) = ⎨ 0 , pentru x = 0 . ⎪ 1 , pentru x > 0 ⎩
In fine , coeficientul de corelatie are caracter simetric , adica

ρ XY = ρ YX .

Printre dezavantajele lui ρ XY , principalele doua sunt urmatoarele : - variabilele X , Y pot fi puternic dependente neliniar , dar valoarea lui ρ XY

- 57 poate fi mica sau chiar zero : cităm cazul in care

Y = a + bX 2 ⇒ ρ XY = 0 , daca M( X) = 0 .
- dupa cum am mai mentionat : daca ρ XY = 0 , nu neaparat X Y sunt independente ( ele sunt numite variabile necorelate ) . NOTA : pentru cazul special in care X , Y urmeaza repartitii normale , atunci avem :

ρ XY = 0 ⇔ X , Y − independente .

CAPITOLUL 4 : TEORIA CORELATIEI 4.03 : Estimarea coeficientului de corelatie

Fie un sondaj de volum “ n “ asupra variabilelor X , Y , anume ;

{ ( x i , y i ) }i =1,n .
Pentru a estima coeficientul de corelatie ( necunoscut ) al variabilelor , folosim estimatorul

rxy =
sau :

∑ ( x i − x) ⋅ ( y i − y ) ∑ (x i − x) 2 ⋅ ∑ (y i − y ) 2 ∑ xi ⋅ y i − n ⋅ x ⋅ y 2 2 ( ∑ x i2 − n ⋅ x ) ⋅ ( ∑ y i2 − n ⋅ y )
.

rxy =

Si coeficientul rxy are proprietatea : − 1 ≤ rxy ≤ 1 .

- 58 -

4.04 : Legatura intre coeficientul de corelatie si elementele dreptei de regresie
- Legatura dintre coeficientul de corelatie si panta dreptei de regresie : Consideram modelul de regresie y i = a + b ⋅ x i + ei ,cu ipotezele deja prezentate si cu alte ocazii . Stim ca panta b a dreptei de regresie se estimeaza folosind estimatorul nedeplasat

b=

^

∑ ( xi − x) ⋅ ( y i − y ) . ∑ ( x i − x )2

In paragraful anterior am vazut ca avem :

rxy =
asadar , avem :

∑ ( x i − x) ⋅ ( y i − y ) ; ∑ (x i − x) 2 ⋅ ∑ (y i − y ) 2

b=

^

=

2 ∑ ( xi − x) ⋅ ( y i − y ) ⋅ ∑ ( y i − y ) = ∑ ( x i − x )2 ⋅ ∑ ( y i − y )2 ∑ ( x i − x )2 ∑ ( y i − y )2 rxy ⋅ ∑ ( x i − x )2

Folosind abaterile medii patratice de selectie modificate , anume :

σx =

~

~ ∑ ( x i − x ) 2 ; σ y = ∑ ( y i − y )2

n−1

n−1

,

gasim :

b = rxy ⋅

^

σy σx
~

~

- 59 -

- Legatura dintre coeficientul de corelatie ρ si coeficientul de determinare R Reamintim ca pentru coeficientul de determinare avem formula

R
unde :

2

∑ ( y i − y )2 = ∑ ( y i − y )2
^

^

,

y i = a + b⋅ xi = y + b⋅ ( xi − x ) .
atunci ,

^

^

^

R =
Inlocuind , obtinem :

2

∑ [y + b⋅ ( xi − x) − y ]2 ∑ ( y i − y )2

^

=b

^2

∑ ( xi − x) 2 ⋅ ∑ ( y i − y )2

.

σ2 x R = b ⋅ 2 σy
2

^2

deci :
2 R 2 = rxy

In fine , o alta proprietate a coeficientului de corelatie rezulta din urmatoarele considerente :

rxy =

∑ ( xi − x)(y i − y ) = ∑ ( x i − x )2 ⋅ ∑ ( y i − y )2 ∑ (yi − y ) ⋅ (yi − y ) ∑ (y i − y )
^ 2 ^

=

∑ (y i − y )

= r
2

^ yy

sau :

- 60 -

R 2 = r 2^
yy

4.05 : Teste privind coeficientul de corelatie

- Verificarea ipotezei ρ XY = 0 :
Se urmareste testarea perechii de ipoteze alternative

H 0 : ρ XY = 0 H 1 : ρ XY ≠ 0
Cum coeficientul de corelatie este proportional cu panta dreptei de regresie , aceasta revine la a verifica perechea de ipoteze

H 0 :b = 0 H1 :b ≠ 0

.

In ipoteza ca { y i } au o repartitie normala , aceasta ipoteza se poate testa folosind :

- varianta 1 : statistica t c =

∑ ( x i − x)
θ*
^

2

⋅b

^

- varianta 2 : statistica Fc = Reamintim ca avem

∑ ( y i − y )2
( θ* ) 2

∑ ( y i − y i )2 . * 2 (θ ) = n−2
Cum avem :

^

∑ ( y i − y i )2 = ∑ ( y i − y)2 − ∑ ( y i − y)2 ,

^

^

- 61 -

expresia Fc devine :

Fc =

( n − 2) ⋅ ∑ ( y i − y ) 2

^

∑ ( y i − y) − ∑ ( y i − y)
2

^

.
2

Simplificand prin

∑ ( y i − y )2 , se gaseste
Fc = ( n − 2) ⋅ R 2 1−R
2 2 = tc

deci :

tc =

n − 2 ⋅ rxy
2 1 − rxy

.

Asadar , se respinge H 0 la pragul de semnificatie α , daca

| t c | > t ( α / 2 ,n − 2 ) .
== // ==

- Verificarea ipotezei ρ XY = ρ 0 , ρ 0 ≠ 0 :
Se veridical perechea de ipoteze :

H 0 : ρ xy = ρ 0

H 1 : ρ xy ≠ ρ 0
cu ρ 0 ≠ 0 . Fisher a propus o transformare a coeficientului de corelatie , anume :

⎛ 1 + rxy ⎞ ⎟; f ( rxy ) = 1 ⋅ log⎜ ⎜ 1 − rxy ⎟ 2 ⎝ ⎠

- 62 pentru esantioane de volum suficient de mare , variabila aleatoare f ( rxy ) urmeaza o repartitie aproximativ normala , cu caracteristicile aproximate suficient de bine de :

⎧ ⎛ 1 + rxy ⎞ ⎫ 1 ⋅ log⎜ ⎟ ⎪M f ( rxy ) ≈ 2 ⎜ 1 − rxy ⎟ ⎪ ⎪ ⎝ ⎠⎪ ⎨ ⎬ 1 2 ⎪ ⎪ D f ( rxy ) ≈ ⎪ ⎪ n−3 ⎩ ⎭

[

]

[

]

Asadar , pentru verificat ipoteza nula , vom folosi statistica :

⎛ 1 + rxy ⎞ 1 ⋅ log⎜ ⎟ − 1 ⋅ log⎛ 1 + ρ 0 ⎞ ⎜ ⎜ 1− ρ ⎟ ⎟ ⎜ 1 − rxy ⎟ 2 2 0⎠ ⎝ ⎝ ⎠ zc = ⇔ 1 n−3 ⎛ 1 + rxy 1 − ρ 0 ⎞ 1 ⎟ z c = ⋅ n − 3 ⋅ log⎜ ⋅ ⎜ 1 − rxy 1 + ρ 0 ⎟ 2 ⎠ ⎝
Aceasta statistica urmeaza o lege apropiata de legea normala normata , deci se respinge H 0 la pragul de semnificatie α , daca : | z c | > z α / 2 . == // ==

- Interval de incredere pentru ρ xy :
Se va folosi statistica repartizata ( aproximativ ) N( 0 ; 1) din sectiunea precedenta , anume

⎛ 1 + rxy ⎞ 1 ⎟ ψ = ⋅ log ⎜ ⎜ 1 − rxy ⎟ 2 ⎝ ⎠
cu : - media - dispersia

⎛ 1 + ρ0 ⎞ 1 M(ψ ) = ⋅ log⎜ ⎜1−ρ ⎟ ⎟ 2 0⎠ ⎝ 1 D 2 (ψ ) = n−3

Asadar , intervalul de incredere pentru ψ este

- 63 -

z z ⎛ ⎞ ⎜ ψ0 − α / 2 ;ψ0 + α / 2 ⎟ . n−3⎠ n−3 ⎝
In final , sa observam ca din relatia :

1 ey − e−y ⎛1+ x⎞ y = ⋅ log⎜ = th ( y ) , ⎟ se deduce : x = y 2 e + e−y ⎝1− x⎠
deci , din intervalul de incredere pentru ψ se deduce intervalul de incredere pentru ρ , anume :

⎛ ⎛ z z ⎞ ⎛ ⎞⎞ ⎜ th⎜ ψ 0 − α / 2 ⎟ ; th⎜ ψ 0 + α / 2 ⎟ ⎟ . ⎜ n−3⎠ n − 3 ⎠⎟ ⎝ ⎠ ⎝ ⎝
Nota : reamintim ca prin “ th “ se noteaza functia tangenta hiperbolica :

th( x ) =

ex − e−x ex + e−x

.

CAPITOLUL 4 : TEORIA CORELATIEI

4.06 : Matrici de corelatie

In cazul in care dispunem de mai multe variabile aleatoare , de exemplu

X1 , X 2 ,... , X p , pentru caracterizarea legaturilor dintre ele se utilizeaza o serie de matrici ,
dintre care mentionam : - matricea dispersie – covarianta :

⎛ D 2 ( X1 ) cov( X1 , X 2 ) cov( X1 , X 3 ) ⎜ ⎜ cov( X 2 , X1 ) D2 (X 2 ) cov( X 2 , X 3 ) ⎜ Η = ⎜ cov( X 3 , X1 ) cov( X 3 , X 2 ) D2 (X 3 ) ⎜ ..... ..... ..... ⎜ ⎜ cov( X p , X1 ) cov( X p , X 2 ) cov( X p , X 3 ) ⎝
- matricea de corelatie ( matricea corelatiei totale ) :

..... cov( X1 , X p ) ⎞ ⎟ ..... cov( X 2 , X p ) ⎟ ⎟ ..... cov( X 3 , X p ) ⎟ ⎟ ..... ..... ⎟ ..... D2 ( Xp ) ⎟ ⎠

- 64 -

⎛ 1 ⎜ ⎜ ρ x 2 x1 ⎜ P = ⎜ ρ x 3 x1 ⎜ ... ⎜ ⎜ ρ xp x1 ⎝

ρ x1x 2 1 ρ x 3x 2 ... ρ xp x 2

ρ x2x3 1 ... ρ xp x 3

ρ x1x 3

... ρ x1xp ⎞ ⎟ ... ρ x 2 xp ⎟ ... ρ x 3 xp ⎟ ; ⎟ ... ... ⎟ ⎟ ... 1 ⎟ ⎠

- matricea corelatiilor estimate :

⎛ 1 ⎜ ⎜ rx 2x1 ⎜ R = ⎜ rx 3x1 ⎜ ... ⎜ ⎜ rxp x1 ⎝

rx1x 2 1 rx 3x 2 ... rxp x 2

rx1x 3 rx 2x 3 1 ... rxp x 3

... rx1xp ⎞ ⎟ ... rx 2xp ⎟ ... rx 3xp ⎟ ⎟ ... ... ⎟ ⎟ ... 1 ⎟ ⎠

CAPITOLUL 4 : TEORIA CORELATIEI

4.07 : Corelatii partiale

In mod frecvent , se intampla ca intre variabilele X , Y sa apara o legatura puternica , in totala contradictie cu natura celor doua variabile . In multe astfel de situatii , explicatia este data de prezenta unui grup de alte variabile , fiecare dintre variabilele X , Y fiind puternic dependente de acest grup . De exemplu , daca avem un grup de trei caracteristici , ( X , Y , Z ) , si daca

⎧X = a + b ⋅ Z , ⎨ ⎩Y = p + q ⋅ Z
atunci modificarea valorii vatiabilei x atrage dupa sine modificarea lui z , care antreneaza modificarea lui y : asa incat , modificarea lui x conduce aparent la o modificare nemijlocita a lui y . Coeficientul de corelatie corespunzator , notat ρ xy , z , se numeste coeficient de corelatie
partiala intre variabilele X , Y , in cadrul grupului ( X , Y , Z ).

Prin definitie , avem :

- 65 -

rxy , z =

∑ ( x i − x) ⋅ ( y i − y ) ∑ ( x i − x) 2 ⋅
rxy − rxz ⋅ ryz
2 2 1 − rxz ⋅ 1 − ryz ^

^

^

( y i − y)2

^

.

Se arata ca avem :

rxy , z =

CAPITOLUL 4 : TEORIA CORELATIEI

4.08 : Corelatia cu intarzaiere ( autocorelarea )

Consideram o serie de date , { x i } i =1,n , unde valorile i = 1, n au acum semnificatia de “ diverse momente de timp “ sau de “ diverse faze ale unui proces “. De exemplu , am avea :

x i = valoarea beneficiului obtinut in cursul anului numarul “ i “ .
In astfel de situatii , se urmareste sa se stabileasca daca valoarea curenta x i depinde de valorile precedente x i , x i −1 , x i − 2 ,... . In cazul cand o astfel de dependenta este descoperita , se spune ca in cadrul sirului dat de valori se constata o dependenta cu caracter serial , o corelatie cu intarziiere sau o autocorelare . Pentru a stabili existenta unei astfel de corelari , si pentru a-i masura intensitatea , se utilizeaza diversi indicatori , printre care prezentam coeficientul de autocorelare “ d “ , definit mai jos :

d = i=2

∑ ( x i − x i −1 ) 2
4⋅ ∑
n

n

.

i =1

x i2

Pentru acest indicator , este valabila relatia 0 ≤ d ≤ 1 . Este vizibil faptul ca in cazul in care d este apropiat de zero , avem x i ≈ x i −1 , (∀ ) i deci valorile consecutive ale indicatorului difera putin intre ele : atunci se spune ca sirul { x i } i =1,n prezinta o autocorelare pozitiva ; daca insa d este apropiat de 1 , diferentele dintre valorile succesive ale sirului sunt mari , iar { x i } i =1,n prezinta o autocorelare negativa .

- 66 Daca avem d este apropiat de ½ , atunci sirul de date { x i } i =1,n nu depinde prea mult de timpul “ i “ . Indicatorul d masoara dependenta valorii curente x i numai in raport cu valoarea anterioara x i −1 , fiind astfel un indicator al dependentei cu intarziere de ordin 1 : este insa posibil ca valoarea de anul acesta sa depinda de valoarea de acum 3 ani , deci sirul sa manifeste o corelatie cu intarziere de ordin 3 . Pentru a determina existenta unei corelatii cu intarziere de ordin “ k “ , se poate folosi indicatorul
i = k +1

∑ ( x i − x) ⋅ ( x i − k − x)
4 ⋅ ∑ ( x i − x) 2
i =1 n

n

dk =

.

Si aici , d k ≈ 0 are semnificatia : data curenta x i depinde prea putin de x i − k .

CAPITOLUL 4 : TEORIA CORELATIEI 4.09 Coeficientul corelatiei rangurilor al lui Spearman

Se urmareste stabilirea independentei a doua serii de observatii ( variabile aleatoare ) , in cazul in care repartitiile lor nu sunt repartitii normale. Stim deja ca , pentru variabile aleatoare normal repartizate , a fi independente este tot una cu a avea coeficientul de corelatie nul. Dar pentru variabile cu alta repartitie , acest rezultat nu mai este valabil. In astfel de situatii , se folosesc alte masuri ale dependentei : in continuare vom prezenta coeficientul de corelatie a rangurilor al lui Spearman . Pentru a realiza aceasta , sa precizam intai notiunea de rang al unei valori intr-un sir dat . Rangul este locul ocupat de valoarea respectiva , in ordinea marimii : de exemplu , fie sirul X = { 12 ; 7 ; 14 ; 3 ; 23 ; 11 } . Atunci obtinem valoarea , x i rangul valorii , R ( x i ) 12 7 14 3 23 11 3 5 2 6 1 4

Coeficientul de corelatie a rangurilor este egal cu coeficientul de corelatie clasic , dintre sirul de diferente ale rangurilor valorilor in raport cu rangurile medii , adica

rS =

∑ (R i − R ) ⋅ ( S i − S) ∑ ( R i − R ) 2 ⋅ ∑ (S i − S ) 2

- 67 -

unde avem : - seria de date de selectie este { ( x i , y i ) }i =1,n ; - R i = R ( x i ) este rangul valorii x i in sirul { x 1 , x 2 , .. , x n } ; - S i = R ( y i ) este rangul valorii y i in sirul { y 1 , y 2 , .. , y n } ;

1 n 1 n - R = ⋅ ∑ R i , S = ⋅ ∑ S i sunt rangurile medii . n i =1 n i =1
Sa observam intai ca avem :

R=S=

1 + 2 + 3 + ... + n n + 1 . = n 2

∑ ( R i − R)
i =1

n

2

⎛ n + 1⎞ =∑⎜i− ⎟= 2 ⎠ i =1 ⎝
n+1 n (n + 1) 2 = ∑i − 2⋅ ⋅∑i+n⋅ = 2 i =1 4 i =1
n 2

n

n ⋅ (n 2 − 1) = 12 n ⋅ (n 2 − 1) La fel , avem ∑ ( S i − S ) = . 12 i =1
n 2

Inlocuind , gasim expresia lui rS =

∑ (R i − R ) ⋅ ( S i − S) : ∑ ( R i − R ) 2 ⋅ ∑ (S i − S ) 2

n ⋅ (n + 1) 2 12 ⋅ ∑ R i ⋅ S i − ∑ (R i − R ) ⋅ ( S i − S) = 4 rS = 2 2 n ⋅ (n − 1) n ⋅ (n − 1) 12
sau :

rS =

12 ⋅ ∑ R i ⋅ S i n ⋅ (n − 1)
2

− 3⋅

n+1 n−1

- 68 -

O modalitate mai practica de a calcula acest coeficient consta in utilizarea diferentelor

di = R i − Si .

Avem :

∑ d i2 = ∑ ( R i − S i ) 2 = ∑ ( R i − R ) − (S i − S) =
i =1 i =1

n

n

[

]2

= ∑ ( R i − R ) 2 + ∑ ( S i − S ) 2 − 2 ⋅ ∑ ( R i − R ) ⋅ (S i − S ) = n ⋅ (n 2 − 1) n ⋅ (n 2 − 1) = 2⋅ − 2⋅ ⋅ rS 12 12
In final , avem deci :

rS = 1 − 6 ⋅

∑ d i2
n ⋅ ( n 2 − 1)

Proprietatile coeficientului de corelatie a rangurilor : Avem : • − 1 ≤ rS ≤ 1

rS apropiat de -1 ⇒ ordinele de marime ale variabilelor X , Y sunt opuse ( cu cat X ocupa un loc mai bun in sirul { ( x i )}, cu rS apropiat de +1 ⇒ rangurile variabilelor X, Y sunt concordante ( cu cat X ocupa un loc mai bun in sirul { ( x i )}, cu
atat si Y are tendinta sa ocupe un rang mai bun in sirul { ( y i )} ) ; atat Y are tendinta sa ocupe un rang mai mic in sirul { ( y i )} ) ;

rS apropiat de 0 ⇒ rangurile variabilelor X, Y nu sunt legate printr-o
relatie anume .

- 69 -

Mai mult , se stie ca daca X , Y sunt independente , atunci rS urmeaza o lege aproximativ normala , daca esantionul este de volum suficient de mare ( chiar n ≥ 10 este o valoare convenabila ) , cu caracteristicile :

M ( rS ) = 0 ; D 2 ( rS ) =
Deci statistica :

1 . n−1

z c = n − 1 ⋅ rS
urmeaza o lege normala redusa , deci se respinge ipoteza H 0 : X , Y − independente daca avem | z c | > z α / 2 .

CAPITOLUL 5 : UTILIZAREA REZIDUURILOR PENTRU EVALUAREA MODELULUI 5.1 : IPOTEZELE MODELULUI

Fie Y = variabila explicata si X1 , X2 , …, Xp-1 – variabilele explicative : ipoteza liniaritatii modelului consta in realizarea relatiilor

y i = b 0 + ∑ b jx ij + ε i ; i = 1, n
j= 1

p −1

unde sondajul corespunzator celor “p” variabile este notat cu : {y i ; x i1 , x i 2 ,..., x i (p − 1) }i = 1,n .

- 70 Variabilele aleatoare {ε i }i = 1,n reprezinta erori ce nu pot fi observate direct . Ele sunt doua cate doua independente , identic realizate , cu repartitia N( 0; σ ) . Pentru a veridical toate aceste ipoteze , anume : - liniaritatea modelului ; - faptul ca dispersia erorilor este constanta - faptul ca erorile sunt independente - faptul ca erorile sunt repartizate normal , se folosesc reziduurile {e i }i = 1,n , ca realizari ale variabilelor {ε i }i = 1,n . Amintim ca am notat :

ei = y i − y i ,
unde y i sunt valorileestimate ale variabilei explicate Y . == // ==
^

^

5.2 : Analiza Grafica A Reziduurilor
^

5.2.1 : Graficul reziduurilor in raport cu valorile estimate y i .
Se foloseste un sistem de axe , anume : - pe axa orizontala se trece marimea valorii estimate y - pe axa verticala , marimea corespunzatoare a reziduului . Verificarea ipotezelor mentionate revine la aceea ca reziduurile se vor plasa uniform intr-o zona limitata de doua drepte orizontale , ca in figura de mai jos :
^

- 71 -

Majoritatea programelor de calculator care executa regresii liniare reprezinta reziduurile sub forma de bastonase , de o parte si de alta a dreptei de regresie : iata unele situatii posibile : - a: reziduuri cu media apropiata de zero si cu dispersie constanta:

- b : reziduuri cu media apropiata de zero , dar cu dispersie depinzand de valoarea variabilei explicative X ( aici : dispersia creste , atunci cand valoarea lui X creste)

- 72 -

- c: reziduuri pentru care media nu este apropiata de zero ( predomina reziduurile pozitive ) :

- 73 -

ANEXA : TESTE DE NORMALITATE GRAFICUL DENSITATII DE PROBABILITATE A REPARTITIEI NORMALE N( m , s )

Cazul : s = 2

Cazul : s = 1

- 74 -

Cazul s= 0,5

Functia de repartitie : avem P ( a < X < b ) = F(b) – F(a)

- 75 -

Avem : P( X > a ) = 1 – F(a)

Avem : P ( X < b) = F( b)

- 76 -

1. Exemple de determināri de probabilitāţi pe baza funcţiei de repartiţie

Considerām urmātorul tabel al unei posibile funcţii de repartiţie : x 0 1 2 3 4 5 F(x) = P( X < x ) 0 0, 2 0, 35 0,73 0, 94 1 - avem : ⋅ P( X < 2 ) = F(2) = 0,35 ⋅ P( X > 3 ) = 1 - F(3) = 1 - 0,73 = 0,27 ⋅ P ( 2 < X < 4 ) = F(4) - F(2) = 0,94 - 0,35 = 0,59

Aplicaţie pentru cazul repartiţiei normale normate

- funcţia de repartiţie a variabilei normale normate este datā mai jos :
nr.crt 1 2 3 4 5 6 7 8 9 10 11 12 13 14 x -3.250 -3.000 -2.750 -2.500 -2.250 -2.000 -1.750 -1.500 -1.250 -1.000 -0.750 -0.500 -0.250 0.000 F(x) 0.003 0.005 0.006 0.008 0.012 0.023 0.040 0.067 0.106 0.159 0.227 0.309 0.401 0.500 nr.crt 15 16 17 18 19 20 21 22 23 24 25 26 27 28 x 0.250 0.500 0.750 1.000 1.250 1.500 1.750 2.000 2.250 2.500 2.750 3.000 3.250 3.500 F(x) 0.599 0.691 0.773 0.841 0.894 0.933 0.960 0.977 0.988 0.994 0.997 0.999 0.999 1.000

- 77 -

Stim cā , pentru variabila aleatoare normalā de medie ”m" şi abatere medie pātraticā " s " , notatā prescurtat cu N ( m ; s) , avem

⎛b −m⎞ ⎛a −m⎞ P [a < N(m; s ) < b ]= F⎜ ⎟ − F⎜ ⎟ , s ⎠ ⎝ s ⎠ ⎝ unde F este chiar funcţia din tabelul precedent.
(1). Aplicaţie: pentru variabila aleatoare X = N ( 3,5 ; 1,7 ), se cere P ( 1,8 < X < 4,775 ) Avem : N ( m ; s) = N ( 3,5 ; 1,7 ), deci : m = 3,5 şi s = 1,7 . Atunci formula (1) devine :
⎛ 4,775 − 3,5 ⎞ ⎛ 1,8 − 3,5 ⎞ P [ 1,8 < N( 3,5 ; 1,7 ) < 4,775 ] = F ⎜ ⎟−F⎜ ⎟= 1,7 ⎝ ⎠ ⎝ 1,7 ⎠ = F( 0,75) − F ( − 1 ) .

Din tabel citim : - la poziţia 17 : F ( 0,75 ) = 0,773 - la poziţia 10 : F ( - 1 ) = 0,159 , aşadar : P ( 1,8 < X < 4,775 ) = 0,773 - 0,159 = 0,614 .

TEST DE AUTOCONTROL : Folosind tabelul sā se determine :

- 1: P [ N( 5 ; 1,8 ) < 7, 25 ] - 2: P [ N( 7 ; 2,3 ) > 11,6 ]

Raspuns: 0.8944 Raspuns : 0.0228

- 78 -

- 3: P [ 6 , 275 < N ( 9,5 ; 4 , 3 ) < 19, 175 ] Raspuns : 0.7611

TESTE DE NORMALITATE Testul de normalitate Jarque-Bera

Fie un sondaj { x1, x2 , …, xn } : ne propunem sa testam ipoteza conform careia acest sondaj provine de la o repartitie normala . Exista o multitudine de teste care isi propun acelasi scop : in acest material vom utiliza , din cauza simplitatii efectuarii calculelor , testul Jarque – Bera . Acest test are la baza faptul ca variabila normala are caracteristicile “ skewness “ si “ kurtosis “ ( prezentate in continuare ) egale cu zero : deci – in principiu – cu cat un sondaj va avea aceste doua caracteristici mai departate de zero , cu atat repartitia teoretica poate fi considerata mai departata de o repartitie normala . Testul Jarque-Bera permite masurarea departarii unei repartitii in raport cu clasa repartitiilor normale . La baza testului sta utilizarea caracteristicilor ale sondajului prezentate in cele ce urmeaza :

- media de selectie : x =

1 n ⋅ ∑ xi n i =1

- caracteristica numita “skewness “ , data de relatia :

S =

1 n ⋅ ∑ ( x i − x) 3 n i =1
⎡1 n ⎤ 2 ⎢ ⋅ ∑ ( x i − x) ⎥ ⎣n i =1 ⎦
3

- 79 -

- caracteristica numita “kurtosis “ , data de relatia :
1 n ⋅ ∑ ( x i − x) 4 n i =1 ⎡1 n ⎤ 2 ⎢ ⋅ ∑ ( x i − x) ⎥ ⎣n i =1 ⎦
2

K=

Atunci valoarea testului , corespunzatoare sondajului prezentat ,va fi data de :
n ⎛ 2 (K − 3) 2 ⋅⎜S + 6 ⎜ 4 ⎝ ⎞ ⎟ ⎟ ⎠

JB c =

Statistica “ JB” are o repartitie aproximativ Hi patrat cu doua grade de libertate : aproximatia este cu atat mai buna , cu cat volumul “ n “ al sondajului este mai mare . In cele ce urmeaza , vom nota prin H2 repartita Hi patrat cu doua grade de libertate : atunci , probabilitatea ca sondajul sa provina de la o repartitie normala este ( aproximativ) data de : α = P ( H 2 < JB c ) . Prezentam in continuare o tabela a functiei de repartitie a variabilei H2 :

x P(H2 < x ) x P(H2 < x ) x P(H2 < x )

0 0 0.9 0.362 1.8 0.593

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.0488 0.0952 0.1393 0.1813 0.2212 0.2592 0.2953 0.3297 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 0.3935 0.4231 0.4512 0.4780 0.5034 0.5276 0.5507 0.5726 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 0.6133 0.6321 0.6501 0.6671 0.6834 0.6988 0.7135 0.7275

- 80 -

x P(H2 < x ) x P(H2 < x ) x P(H2 < x ) x P(H2 < x ) x P(H2 < x ) x P(H2 < x ) x P(H2 < x ) x P(H2 < x )

2.6 0.727 3.5 0.826 4.4 0.889 5.3 0.929 6.2 0.955 7.1 0.971 8 0.982 8.9 0.988

2.7 0.741 3.6 0.835 4.5 0.895 5.4 0.933 6.3 0.957 7.2 0.973 8.1 0.983 9 0.989

2.8 0.753 3.7 0.843 4.6 0.9 5.5 0.936 6.4 0.959 7.3 0.974 8.2 0.983 9.1 0.989

2.9 0.765 3.8 0.85 4.7 0.905 5.6 0.939 6.5 0.961 7.4 0.975 8.3 0.984 9.2 0.99

3 0.777 3.9 0.858 4.8 0.909 5.7 0.942 6.6 0.963 7.5 0.976 8.4 0.985 9.3 0.99

3.1 0.788 4 0.865 4.9 0.914 5.8 0.945 6.7 0.965 7.6 0.978 8.5 0.986 9.4 0.991

3.2 0.798 4.1 0.871 5 0.918 5.9 0.948 6.8 0.967 7.7 0.979 8.6 0.986 9.5 0.991

3.3 0.808 4.2 0.878 5.1 0.922 6 0.95 6.9 0.968 7.8 0.98 8.7 0.987 9.6 0.992

3.4 0.817 4.3 0.884 5.2 0.926 6.1 0.953 7 0.97 7.9 0.981 8.8 0.988 9.7 0.992

Observare : pentru x ≥ 9,8 vom considera ca avem P ( H 2 < x ) ≈ 1

EXEMPLU : fie datele

xi 1 2 3 4 5 6

ni 12 23 41 33 18 8

- 81 -

Sa vedem cu ce probabilitate se poate considera ca datele provin de la o repartitie normala.

Avem calculele :
xi 1 2 3 4 5 6 total med= ni 12 23 41 33 18 8 135 3.341 S= K= 0.102 0.000 JB= 50.856 xi*ni 12 46 123 132 90 48 451 (xi - mx)^2 65.749 41.344 4.760 14.343 49.557 56.573 232.326 (xi - mx)^3 -153.901 -55.432 -1.622 9.455 82.227 150.443 31.170 (xi - mx)^4 360.242 74.320 0.553 6.234 136.436 400.067 977.852

In final , P ( H 2 < JB ) = P ( H 2 < 50, 856 ) = 1 . Deci : cu o incredere egala practic cu 100% , putem considera ca datele provin de la o repartitie normala . == // ==

- 82 -

TESTUL ANDERSON – DARLING
Majoritatea metodelor cu caracter statistic presupun existenta unei anumite distributii : rezultatele sunt obtinute in mare masura pe baza admiterii valabilitatii acestei repartitii . Deobicei , atunci cand admitem o anumita repartitie , ne asumam un risc major . Daca presupunerea noastra este gresita , rezultatele obtinute pot sa fie total gresite. De exemplu , nivelul de incredere al unui interval de incredere poate fi total diferit de cel obtinut ptintr-un astfel de calcul. O cale de a evita astfel de riscuri este de a cerceta foarte atent care este distributia teoretica corecta . Exista doua categorii principale de abordari in acest sens : in primul rand , trebuie mentionate procedurile empirice , care sunt usor de inteles si de implementat , si se bazeaza pe intuitie si pe cunoasterea proprietatilor graficului distributiei a carei valabilitate dorim sa o testam. Alte proceduri , mai formale , sunt asa-numitele teste de concordanta . Aplicarea acestora este meticuloasa si necesita un mare volum de calcule , dar rezultatele gasite sunt cuantificabile si prezinta mai multa incredere decat testele empirice. Ca exemple se pot mentiona testele Anderson – Darling (A.D) si Kolmogorov – Smirnov (K.S) Testele de concordanta sunt in esenta bazate in principal pe doua elemente : functia de repartitie ( sau : functia de distributie cumulata (CDF) ) si densitatea de probabilitate (pdf) . Testele de tip Hi patrat se bazeaza pe (pdf) , pe cand testele Anderson – Darling si Kolmogorov – Smirnov , pe (CDF) , apartinand deci categoriei de “ teste de distanta “. In plus , testele Anderson – Darling si Kolmogorov – Smirnov sunt valabile si pentru sondaje de volum relativ mic. Pentru aplicarea acestor teste , se urmeaza o serie de etape bine conturate . In primul rand , acceptam valabilitatea unei repartitii anume (de exemplu : normala ). Apoi se estimeaza parametrii distributiei ( de exemple , media si dispersia ) pe baza datelor de sondaj de care dispunem. Ipoteza ca repartitia in cauza ( impreuna cu parametrii estimati) este valabila , va fi numita ipoteza nula si va fi notata cu H0 : negarea distributiei ( sau a parametrilor ) este ipoteza alternativa , notata prin H1 . In final , H0 va fi respinsa unul oarecare dintre elementele componente vine in contradictie cu datele sondajului. Daca ipoteza facuta este corecta , atunci functia de repartitie teoretica ( notata F0 ) va fi suficient de apropiata de functia de repartitie empirica , notata Fn ( vezi fig.)

- 83 -

Testul acesta are un neajuns important : testele de tip distanta presupun cunoasterea parametrilor distributiei in cauza . Ori , acesti parametri sunt rareori cunoscuti in practica. De aceea se utilizeaza proceduri adaptative suplimentare pentru a adapta parametrii pe masura obtinerii de rezultate partiale. Vom prezenta in cele ce urmeaza doua exemple de utilizare a testului Anderson – Darling . Testul Anderson – Darling de concordanta are urmatoarea expresie :

ADc = ∑
i =1

n

1− 2 ⋅ i ⋅ ln F0 [ Z ( i ) ] + ln 1 − F0 [Z ( n +1−i ) ] − n n

{ (

)

(

)}

Aici F0 este functia de repartitie normala de parametri ( μ , σ ) estimati pe baza sondajului ; volumul sondajului este notat prin “ n “ . Datele de sondaj sunt sortate crescator , x1 < x 2 < ... < x n : prin Z(i) intelegem
Z(i ) = xi − μ σ

.

Asadar , am notat :

μ=

1 n 1 n ⋅ ∑ x i ; σ 2 = ⋅ ∑ x i2 − μ 2 . n i =1 n i =1

Ipoteza nula ( ca repartitia corecta este cea normala , reprezentata de catre F0 ) se respinge ,la pragul de semnificatie α = 0, 05 , in cazul in care volumul sondajului este “ n “ daca avem

ADc > CV , unde valoarea critica CV este data de 0,752 CV = 0,75 2,25 1+ + 2 n n

- 84 -

APLICATIE : sa verificam daca se poate admite ca datele de sondaj
3 ; 8 ; 11 ; 6 ; 2 ; 10 ; 4 provin de la o repartitie normala.

Rezolvare : volumul sondajului este n = 7 : se estimeaza apoi parametrii repartitiei . Avem
μ= 1 ⋅ ( 3 + 8 + 11 + 6 + 2 + 10 + 4 ) = 6, 286 7 1 σ 2 = ⋅ ( 3 2 + 8 2 + 112 + 6 2 + 2 2 + 10 2 + 4 2 ) − ( 6, 286 ) 2 = 10, 486 7 ⇒ σ = 10, 486 = 3 , 238

Pentru efectuarea testului , datele se ordoneaza crescator : adica : x1 = 2 ; x2 = 3 ; x3 = 4 ; x4 = 6 ; x5 = 8 ; x6 = 10 ; x7 = 11 . Pentru argumentele repartitiei normale , avem

zi =

x i − 6, 286 . 3, 238

Calculele sunt prezentate in tabelul sintetic de mai jos . i 1 2 3 4 5 6 7 xi 2 3 4 6 8 10 11 x8-i zi 11 10 8 6 4 3 2 -1,324 -1,015 -0,706 -0,088 0,529 1,147 1,456 z8-i 1,456 1,147 0,529 -0,088 -0,706 -1,015 -1,324 F0(zi) 1 – F0(z8-i) 0,093 0,927 0,155 0,874 0,240 0,702 0,465 0,465 0,702 0,240 0,874 1,147 0,927 1,456 ln ( F0(zi) ) ln (1 – F0(z8-i) ) 1 – 2·i ti -2,375 -1,864 -1,427 -0,766 -0,354 -0,135 -0,076 -2,617 -2,071 -1,211 -0,625 -0,274 -0,168 -0,098 -1 -3 -5 -7 -9 -11 -13 4,992 11,807 13,189 9,738 5,654 3,334 2,254

am notat : t i = ( 1 − 2 ⋅ i ) ⋅ (ln( F0 ( z i )) + ln(1 − F0 ( z 8−i ))) .

Atunci :

ADc =

1 7 ⋅ ∑ t i − 7 = 7, 278 − 7 = 0 , 278 7 i =1

- 85 Valoarea critica a testului este
CV = 0, 7523 = 0, 652 . 0,75 2, 25 1+ + 7 49

In final , cum avem

ADc < CV

se poate admite , la pragul α = 0, 05 , ca datele provin de la o repartitie normala .

APLICATIE : pentru a studia sensibilitatea testului Anderson _ Darling , ne propnem urmatorul experiment :
fie datele : x1 = 1 ; x2 = 2 ; x3 = k . Sa vedem pentru ce valori k > 2 se poate admite ca datele de sondaj

{ 1 ; 2 ; k } provin de la o repartitie normala .
Vom utiliza pragul α = 0 ,05 .

Rezolvare : pentru sondaje de volum n = 3 , valoarea critica CV a testului va fi

0.752 = 0.501 ⎛ 1 + 0.75 + 2.25 ⎞ ⎜ ⎟ 9 ⎠ 3 ⎝
In continuare , vom da parametrului k valori diverse si vom lista valoarea testului , AD(k) . Vom gasi :

k AD(k) k AD(k)

2.5 1.028 5.5 0.359

3 0.421 6 0.41

3.5 0.25 6.5 0.457

4 0.228 7 0.499

4.5 0.259 7.5 0.538

5 0.307 8 0.573

Asadar , pentru k < 3 si pentr k > 7 , nu se mai poate admite ca sondajul

- 86 -

{ 1 ; 2 ; k } provin de la o repartitie normala .

CAPITOLUL 6 : CORELAŢIA LINIARĂ MULTIPLĂ SINTEZA 1 : CORELATIA SI REGRESIA LINIARA MULTIPLA

Rezumat : covarianţă , coeficient de corelaţie
Fie datele de sondaj :

xi x1 x2 … xi … xn yi y1 y2 … yi … yn
Caracteristici asociate sondajului :
- mediile de selecţie : m X =
1 n 1 n ⋅ ∑ xi ; m Y = ⋅ ∑ y i n i =1 n i =1

⎧ 2 1 n 2 ⎪σ X = n ⋅ ∑ ( x i − m X ) i =1 ⎪ - dispersiile de selecţie : ⎨ n ⎪σ 2 = 1 ⋅ ( y − m ) 2 Y ⎪ Y n ∑ i i =1 ⎩

- covarianţa : σ XY =

1 n ⋅ ∑ ( xi − m X ) ⋅ ( y i − mY ) n i =1 1 n ⋅ ∑ xi ⋅ y i − m X ⋅ m Y n i =1

- coeficientul de corelaţie : ρ XY =

σ XY σX ⋅ σY

- 87 -

NOTĂ : sunt valabile următoarele proprietăţi :

• − 1 ≤ ρ XY ≤ 1 2 • σ X , σ 2 sunt ≥ 0 Y • ρ XY = ρ YX • σ XY = σ YX SINTEZA 2 : REPARTIŢIA NORMALĂ TRIDIMENSIONALĂ :
⎛ Q( x , y , z ) ⎞ - densitatea de probabilitate : ϕ ( x , y , z ) = k ⋅ EXP ⎜ − ⎟ 2⋅ D ⎠ ⎝

unde am notat :

1 -determinantul : D = ρ YX ρ ZX

ρ XY 1 ρ ZY

ρ XZ ρ YZ 1

- factorul de scală : k = ( 2 ⋅ π ) 3 / 2 ⋅ σ X ⋅ σ Y ⋅ σ Z ⋅ D - nucleul :

[

]

−1

Q ( x, y , z ) =

D XX D D ⋅ ( x − m X ) 2 + YY ⋅ ( y − m Y ) 2 + ZZ ⋅ ( z − m Z ) 2 + 2 2 σX σY σ2 Z D XY D XZ ⋅ ( x − m X ) ⋅ (y − m Y ) + 2 ⋅ ⋅ ( x − m X ) ⋅ (z − m Z ) + σX ⋅ σY σX ⋅ σZ D YZ ⋅ ( y − m Y ) ⋅ (z − m Z ) σY ⋅ σZ

+ 2⋅

+ 2⋅

sau , prescurtat :

Q ( x, y , z ) = ∑

D XX D XY ⋅ ( x − m X )2 + 2 ⋅ ∑ ⋅ ( x − m X ) ⋅ (y − m Y ) 2 σX ⋅ σY σX

Precizare : aici , prin Dαβ înţelegem minorul lui D , obţinut tăind linia “ α “ şi coloana “ β “.

- 88 -

== // ==

SINTEZA 3 :

VARIABILELE ASOCIATE REPARTIŢIEI NORMALE TRIDIMENSIONALE

Variabilele marginale de dimensiune 1
sunt variabilele normale uni-dimensionale :
X = N ( mX , σX ) , Y = N ( mY , σY ) , Z = N ( mZ , σZ )

Ele sunt variabile aleatoare două câte două independente .

Variabilele condiţionate de ordin 2 ( simplu legate ):
vor fi notate respectiv ( X , Y ) / Z , ( X , Z ) / Y şi ( Y , Z ) / X . Aceste variabile au repartiţii normale bidimensionale . Densităţile de probabilitate respective au aspectul : - pentru variabila aleatoare ( X, Y ) / Z :

p XY ,Z ( x, y ) =

⎡ 1 H( x, y ) ⎤ ⋅ EXP ⎢ − 2 ⎥ 2 ⋅ π ⋅ σ X ⋅ σ Y 1 − ρ XY ⎣ 2 ⋅ ( 1 − ρ XY ) ⎦

,

unde :

⎛ x − mX ⎞ ⎛ y − mY ⎞ x − mX y − mY ⎟ +⎜ ⎟ − 2 ⋅ ρ XY ⋅ . ⋅ H( x, y ) = ⎜ ⎜ σ ⎟ ⎜ σ ⎟ σX σY X Y ⎝ ⎠ ⎝ ⎠

2

2

OBS: abaterea medie pătratică a variabilei ( X, Y ) / Z este dată de
2 σ XY ,Z = σ X ⋅ σ Y ⋅ 1 − ρ XY

Variabilele condiţionate de ordin 1 ( dublu legate ):

- 89 -

vor fi notate prin : X / ( Y, Z ) , Y / ( X , Z ) si Z / ( X , Y ) .

Densitatea de probabilitate a lui X / ( Y, Z ) este :

⎡ ⎤ ⎢ ( x − m )2 ⎥ 1 X ⎥ ⋅ EXP ⎢ − p X ,YZ ( x ) = D ⎢ 2 ⋅ σ2 ⋅ D ⎥ σ X ⋅ 2π ⋅ X ⎢ D XX ⎥ D XX ⎣ ⎦

OBS: variabila aleatoare X /(Y,Z) are media egală cu mX , D şi abaterea standard egală cu σ X ⋅ . D XX == // ==

NOTĂ : matricile asociate cu repartiţia normală tridimensională sunt următoarele
- matricea covariantă :

⎛ σ2 ⎜ X V = ⎜ σ YX ⎜ ⎝ σ ZX

σ XY σ σ ZY
2 Y

σ XZ ⎞ ⎟ σ YZ ⎟ ⎟ σ2 ⎠ Z ρ XY 1 ρ ZY ρ XZ ⎞ ⎟ ρ ⎟. 1 ⎟ ⎠

⎛ 1 ⎜ - matricea corelaţiei totale : D = ⎜ ρ YX ⎜ρ ⎝ ZX

== // ==

SINTEZA 4 : CAZUL ECONOMETRIC
Fie datele : { ( x i , y i , z i )} i = 1,n . Pentru aceste date , ecuaţia planului de regresie se caută sub forma

Z – mZ = a·( X – mX) + b· ( Y – mY)

- 90 Coeficienţii a, b ai planului de regresie se determină prin metoda celor mai mici pătrate . Astfel,avem : - eroarea de ajustare corespunzătoare datelor de sondaj
E ( a , b ) = ∑ [ a ⋅ ( x i − m X ) + b ⋅ ( y i − m Y ) − ( z i − m Z )]
i =1 n 2

Din condiţia de minim a erorii de ajustare , găsim sistemul ecuaţiilor normale

⎧a ⋅ ∑ ( x i − m X )2 + b ⋅ ∑ ( x i − m X ) ⋅ (y i − m Y ) = ∑ ( x i − m X ) ⋅ (z i − m Z ) ⎪ ⎨ ⎪a ⋅ ( x − m ) ⋅ ( y − m ) + b ⋅ ( y − m ) 2 = ( y − m ) ⋅ ( z − m ) ∑ i Y ∑ i Y i Z X i Y ⎩ ∑ i
sau :

⎧a ⋅ σ 2 + b ⋅ σ XY = σ XZ X ⎪ . ⎨ ⎪ a ⋅ σ + b ⋅ σ2 = σ XY Y YZ ⎩
Soluţia acestui sistem , sau coeficienţii planului de regresie Z / (X ,Y) este următoarea

a=

^

σ XZ σ YZ σ2 X σ YX

σ XY 2 σY σ XY σ2 Y

;b =

^

σ2 X σ YX σ2 X σ YX

σ XZ σ YZ σ XY σ2 Y

.

În final : ▪ ecuaţia planului celor mai mici pătrate este :

Z − m Z = a⋅ ( X − m X ) + b⋅ ( Y − m Y )
▪ valorile ajustate ale variabilei Z sunt date de :

^

^

z i = m Z + a⋅ ( x i − m X ) + b ⋅ ( y i − m Y ) i = 1 , n
▪ valorile reziduurilor sunt date de :

^

^

^

δi = zi − zi , i = 1,n .

^

- 91 ▪ dispersia reziduală va fi :
2 σ R = σ Z /2XY =

V VZZ

.

▪ dispersia reziduală este utilă la evaluări de genul celor de mai jos :
^ ⎧ P [ | Z − Z | < σ Z / XY ] = 0, 6826 ⎪ ^ ⎪ ⎨ P [ | Z − Z | < 2 ⋅ σ Z / XY ] = 0, 9544 ⎪ ^ ⎪ P [ | Z − Z | < 3 ⋅ σ Z / XY ] = 0, 9972 ⎩ ^

Z−Z evaluări bazate pe faptul că avem : = N ( 0 ;1 ) . σ Z / XY

== / / ==

SINTEZA 5 : COEFICIENŢII DE CORELAŢIE MULTIPLĂ

- Gradul de dependenţă a lui Z în raport cu grupul de variabile ( X ,Y ) poate fi măsurat folosind indicatorul R Z2, XY .
Avem : ▪ 0 ≤ R Z2, XY ≤ 1 ▪ formula de calcul : R Z2, XY = 1 −

σ Z ,2 XY σ2 Z
V σ ⋅ VZZ
2 Z

sau

R Z2, XY = 1 −

sau

R Z2, XY = 1 −

D D ZZ

- 92 -

- Gradul de dependenţă a grupului ( X,Y ) în raport cu variabila Z poate fi măsurat folosind indicatorul ρ XY ,Z .
Avem : ▪ − 1 ≤ ρ XY ,Z ≤ 1 ▪ formula de calcul : ρ XY ,Z =
ρ XY − ρ XZ ⋅ ρ ZY
2 2 1 − ρ XZ ⋅ 1 − ρ YZ

sau

ρ XY ,Z = ( − 1) 1 + 2 − 1⋅

D XY D XX ⋅ D YY VXY VXX ⋅ VYY

sau

ρ XY ,Z = ( − 1) 1 + 2 − 1⋅

== // ==

UN EXEMPLU : pe baza unui sondaj s-au determinat valorile următorilor indicatori : mX = 3;mY = 5;mZ = 2 ⎧ ⎪ σX = 2;σY = 3;σZ = 1 ⎨ ⎪ρ = − 0,5 ; ρ = 0, 7 ; ρ = 0, 2 XZ YZ ⎩ XY
Se cer : - abaterea standard a variabilei simplu legate XY / Z ;
2 Răspuns : σ XY , Z = σ X ⋅ σ Y ⋅ 1 − ρ XY = 2 ⋅ 3 ⋅ 1 − ( −0, 5) 2 = 5 , 2

- abaterea standard ale variabilelor simplu legate X / ( YZ ) şi Y / (ZX) ;

1 − 0, 5 0,7 1 0,2 = 0, 08 , pentru care calculăm minorii Răspuns : avem D = − 0, 5 0 ,7 0,2 1

- 93 -

D XX =
deci :

1 0,2 1 0,7 = 0, 96 ; D YY = = 0, 51 0,2 1 0,7 1

σ X ,YZ = σ X ⋅

0, 08 D 0, 08 D =2⋅ = 0, 577 ; σ Y , ZX = σ Y ⋅ =3⋅ = 1,188 . 0, 51 D YY 0, 96 D XX

- se cere ecuaţia planului CMMP , Z/ XY precum şi dispersia reziduală corespunzătoare :

Rezolvare : avem z – mZ = a· ( x – mX ) + b·( y – mY) σ2 X V = σ YX σ ZX σ XY σ σ ZY
2 Y

σ XZ

4

− 0, 5 ⋅ 2 ⋅ 3 0,7 ⋅ 2 ⋅ 1 9 0,2 ⋅ 3 ⋅ 1 0,2 ⋅ 3 ⋅ 1 = 2, 88 1

σ YZ = − 0, 5 ⋅ 2 ⋅ 3 σ2 0,7 ⋅ 2 ⋅ 1 Z

σ2 VZZ = X σ YX σ XZ σ YZ σ2 X σ XY

4 −3 σ XY = = 27 2 σY − 3 9

σ XY 1,4 − 3 14,4 = = 14, 4 ⇒ a = = 0, 53 2 σY 27 0, 6 9 4 1,4 σ XZ 6,6 = = 6, 6 ⇒ b = = 0, 24 27 σ YZ − 3 0, 6

deci ecuaţia planului CMMP este : z – 2 = 0,53·( x – 3 ) + 0, 24·( y – 5 ) Dispersia reziduală corespunzătoare ajustării prin acest plan va fi :

σ 2 = σ Z2 XY = R /

V 2,88 = = 0, 107 ⇒ σ R = 0,107 = 0, 326 . VZZ 27

- 94 2 - se cere coeficientul de corelaţie multiplă R Z ,XY :

2 Rezolvare : avem R Z , XY = 1 −

V 2,88 = 1− = 0, 893 ⇒ R Z , XY = 0, 893 = 0, 945 2 1 ⋅ 27 σZ

- se cere coeficientul de corelaţie simplu legat ρ XY ,Z

Rezolvare : avem ρ XY ,Z = ( − 1) 2 ⋅

VXY = VXX ⋅ VYY

− 3 0,6 1,4 1 9 0,6 4 1,4 ⋅ 0,6 1 1,4 1

= − 0, 91 .

END

SUMAR :
CAPITOLUL 1 : Studiul regresiei liniare 1.1 : Legatura dintre doua variabile : relatii deterministe si relatii stochastice : pag 1 -5 1.2 : Metoda celor mai mici patrate ( CMMP ) : pag. 6 - 8 1.3 : Variatia explicata ; variatia ne – explicata : pag. 9 - 12 APLICATIE : pag. 13 - 15 CAPITOLUL 2 : regresia liniara simpla 2.1 : Modelul regresiei simple : pag. 16 2.2 Distributia estimatorilor proveniti din metoda CMMP 2.2.1: Media estimatorului b : pag. 17 2.2.2: Media estimatorului a : pag. 18 2.2.3: Dispersia estimatorului b : pag. 19
^ ^ ^

- 95 ^

2.2.4: Dispersia estimatorului a : pag. 20 - 21 2.2.5: Covarianta estimatorilor a , b : pag. 22 APLICATIE : pag. 22 - 24 2.3 : Estimarea dispersiei erorilor :pag. 24 - 26 2.4 : Inferenta statistica asupra parametrilor modelului 2.4.1: Teste privind panta b a dreptei de regresie : pag. 27 - 28 2.4.2 : Interval de incredere pentru b : pag. 29 2.4.3 : Teste privind taietura a in origine : pag. 30 2.4.4 : Un exemplu numeric : pag. 31 - 34 2.4.5 : Interval de incredere pentru a : pag. 34 - 35 2.4.6 : Interval de incredere pentru μ Y ( x ) : pag. 32 - 33 2.5 : Analiza dispersionala : pag. 36 - 38 2.6 : Modele cu un singur parametru
2.6.1 : Modele fara variabila explicativa : pag. 38 - 40 2.6.2 : Modele fara constanta : pag. 40 – 43
^ ^

CAPITOLUL 3 : REGRESIA MULTIPLA
3.01 : Hiperplanul de regresie : pag. 43 3.02 : Model de regresie cu doua variabile explicative : pag. 43 - 45 3.03 : Cazul matriceal : pag. 45 - 47 3.04 : Proprietatile metodei celor mai mici patrate : pag. 47 - 50 3.05 : Ipotezele modelului : pag. 50 – 52 3.06 : Estimarea dispersiei erorilor : pag. 52 – 53 3.07 : Inferente statistice asupra parametrilor modelului : pag. 53 -54

CAPITOLUL 4 : TEORIA CORELATIEI
4.01 : Masurarea corelatiei : proprietati . pag. 54 4.02 : Coeficientul de corelatie ( recapitulare ) : pag. 55 - 56 4.03 : Estimarea coeficientului de corelatie : pag. 56 - 57 4.04 : Legatura intre coeficientul de corelatie si elementele dreptei de regresie . pag. 57 - 59 4.05 : Teste privind coeficientul de corelatie : pag. 59 - 62 4.06 : Matrici de corelatie : pag. 62 - 63 4.07 : Corelatii partiale . pag. 63 - 64 4.08 : Corelatia cu intarzaiere ( autocorelarea ) : pag. 64 - 65 4.09 Coeficientul corelatiei rangurilor al lui Spearman : pag. 65 - 68

- 96 -

CAPITOLUL 5 : UTILIZAREA REZIDUURILOR PENTRU EVALUAREA MODELULUI
5.1 : Ipotezele Modelului : pag. 69 – 71

ANEXA : TESTE DE NORMALITATE : pag. 72 – 85 CAPITOLUL 6 : CORELAŢIA LINIARĂ MULTIPLĂ : pag 86 - 94 SINTEZA 1 : Corelatia Si Regresia Liniara Multipla – pag. 86 – 87 SINTEZA 2 : Repartiţia Normală Tridimensională : - pag. 87 – 88 SINTEZA 3 : Variabilele Asociate Repartiţiei Normale Tridimensionale : pag. 88 - 90 SINTEZA 4: Cazul Econometric : pag. 90 – 92 SINTEZA 5 : Coeficienţii De Corelaţie Multiplă : pag. 92 UN EXEMPLU : pag. 92 -

Sign up to vote on this title
UsefulNot useful