You are on page 1of 132

REPROGRAFIA UNIVERSITĂŢII “TRANSILVANIA” DIN BRAŞOV

CUPRINS NOŢIUNI INTRODUCTIVE...........................................................................5 1. Econometria, ca ştiinţă ................................................................................... 6 2. Etapele construirii modelelor econometrice....................................................6 3. Modele econometrice utilizate în economie ................................................... 7 CAPITOLUL 1..........MODELUL REGRESIEI LINIARE SIMPLE..........9 1. Problema estimării .....................................................................................11 2. Metoda celor mai mici pătrate - ipoteze ....................................................11 3. Metoda celor mai mici pătrate - estimatorii...............................................13 4. Proprietăţile estimatorilor metodei celor mai mici pătrate ........................15 5. Liniaritatea .................................................................................................15 6. Tabela de regresie .....................................................................................16 7. Funcţia de regresie a populaţiei .................................................................19 8. Funcţia de regresie a eşantioanelor............................................................24 9. Exerciţiu - Calculul estimatorilor modelului de regresie simplă ..............30 10. Consecinţe ale ipotezelor: construirea testelor ........................................31 10.1. Exerciţiu - Rolul termenului aleator .................................................. 32 10.2. Testul de semnificaţie al estimatorului.............................................. 35 10.3. Intervalul de încredere al estimatorilor..............................................38 10.4. Tabelul de analiză a varianţei – testul Fisher ....................................38 11. Intervalul de încredere al previziunii cu modelul regresiei simple..........39 11.1. Exerciţiu - Previziuni ale variabilei endogene...................................40 12. Exerciţiu - Compararea coeficienţilor de regresie ...................................43 CAPITOLUL 2 MODELUL REGRESIEI MULTIPLE...................46 1. Modelul liniar general................................................................................47 2. Estimarea coeficienţilor de regresie........................................................... 48 3. Ipotezele şi proprietăţile estimatorilor .......................................................49 4. Analiza varianţei şi calitatea ajustării ........................................................51 5. Exerciţiu – Modelul regresiei liniare multiple...........................................51 5.1. Analiza grafică a evoluţiei în timp a variabilelor considerate.............53 5.2. Analiza grafică a influenţei variabilelor explicative asupra variabilei dependente y ........................................................................................57 5.3. Construirea modelului econometric .................................................... 60 6. Teste statistice şi analiza varianţei............................................................. 67 6.1. Construirea testelor statistice...............................................................67 6.1.1. Compararea unui parametru ai cu o valoare fixată a ..................68 6.2. Execiţiu – Teste asupra coeficienţilor şi varianţei erorilor.................. 69 6.3. Analiza varianţei-testul Fisher de semnificaţie globală a regresiei ... ..73 6.4. Teste pornind de la analiza varianţei modelului liniar ........................75 6.4.1. Introducerea uneia sau mai multor variabile explicative în model...........................................................................................75 6.4.2. Verificarea stabilităţii în timp a modelului – testul CHOW ....... 75 6.5. Exerciţiu – Teste pornind de la analiza varianţei ................................76 7. Previziuni folosind modelul regresiei multiple..........................................80 7.1. Exerciţiu – Previziuni folosind modelul regresiei multiple.................81

1

CAPITOLUL 3

MULTICOLINIARITATEA ŞI SELECŢIA VARIABILELOR EXPLICATIVE........................85 1. Corelaţia parţială, în modelele econometrice ............................................86 1.1. Calculul coeficienţilor de corelaţie parţială .........................................88 1.2. Relaţii între coeficienţii de corelaţie simplă, parţială şi multiplă ........ 1.3. Exerciţiu – Calculul coeficienţilor de corelaţie parţială ......................89 2. Multicolininiaritatea ..................................................................................97 2.1. Consecinţele multicoliniarităţii ...........................................................98 2.2. Detectarea multicoliniarităţii ...............................................................98 2.3. Remedierea multicoliniarităţii ...........................................................100 3. Selecţia variabilelor explicative...............................................................101 3.1. Exerciţiu – Metode de selecţie a variabilelor explicative..................103

CAPITOLUL 4 AUTOCORELAŢIA ERORILOR ......................108 1. Natura şi cauzele autocorelaţiei erorilor ..................................................109 2. Detectarea autocorelaţiei.......................................................................... 116 2.1. Exerciţiu - Testul Durbin -Watson ....................................................118 3. Estimatorii metodei celor mai mici pătrate în prezenţa autocorelaţiei..... 123 4. Proceduri de estimare a lui ρ ...................................................................123 4.1. Estimarea directă a lui ρ pornind de la regresia pe modelul iniţial ...124 4.1.1. Exerciţiu - Estimarea parametrilor umui model în prezenţa autocorelaţiei erorilor ................................................................124 BIBLIOGRAFIE ...........................................................................................131

2

Cunoaşterea obiectului de studiu şi a metodelor de analiză 3.citire/învăţare . Definiţii şi comparaţii ale modelului economic şi econometric 4. Pentru rezolvarea întrebărilor: 1 ora 3 . Pentru cunoaşterea problemei: 4 ore 2. explicaţii ce trebuie reţinute . probleme ce apar.situaţii economice concrete. exemple (sub lupă) Evaluarea Timp de lucru necesar . Econometria. supuse analizei. explicaţii .definiţii. Modele econometrice utilizate în economie Finalitatea Competenţe dobândite 1. Cunoaşterea modului de construire a modelelor econometrice 5. Etapele construirii modelelor econometrice 3.NOŢIUNI INTRODUCTIVE Tema Obiectivele NOŢIUNI INTRODUCTIVE 1.parcurgerea întrebărilor propuse 1. Dobândirea de cunoştinţe despre apariţiei şi dezvoltarea Econometriei.întrebări. Noţiuni privind clasificarea modelor econometrice utilizate în economie Mijloace . ca ştiinţă 2. ca ştiinţă 2.

este un domeniu al psihologiei. matematicii. politicii. economiei şi altor discipline înrudite. precum: Keynes.1. susţinute de apariţia calculatoarelor şi dezvoltarea rapidă în domeniul informaticii. care explică interdependenţa dintre factori. începutul secolului XX. şi anume previziunea economică (în anii ′80 ). În contrast. Econometria. cu scopul de a oferi un conţinut empiric teoriilor economice pentru verificarea veridicităţii lor. informaticii. precum şi dezvoltarea ulterioară a teoriilor economice. la nivelul guvernului. s-a manifestat necesitatea larg recunoscută a previziunii. • Înfiinţarea în 1932. Abordarea cantitativă a previziunii se bazează fie pe analiza seriilor de timp . care şi-au înscris numele în istoria dezvoltării omenirii. Pareto. Jevons. Walras. (secolul al XVII-lea) au elaborat calculul diferenţial. • parcurgerea etapelor în construirea modelelor. se manifesta puţin interes pentru previziune. face posibilă considerarea apariţiei econometriei ca fiind. În anii ′80. presupunând că „lucrurile nu se vor schimba şi istoria se repetă” (previziune fatalistă). a metodelor matematice şi statistice. etc. managementului. 4 • statistica . există de numai câteva decade. Samuelson afirma ca econometria a fost definită ca „aplicarea statisticii matematice la datele economice pentru a furniza suport empiric modelelor construite cu ajutorul economiei matematice şi pentru a obţine estimări numerice” Econometria constă în: • formularea unor ipoteze statistice asupra datelor economice observate. Edgeworth. fie pe metode explicative. Previziunea este mai mult decât o disciplină tehnică sau statistică. Econometria este parte integrantă a unei alte ştiinţe economice. când mediul economic şi social a devenit mai turbulent. şi anume metodele econometrice. care presupune aplicarea metodelor statistice şi matematice la analiza datelor economice. recent apărută. previziunea a devenit un domeniu practic de studiu. operele unor oameni de ştiinţă economişti şi statisticieni. Pearson. În timpul anilor ′60. în SUA a unei Societăţii de Econometrie şi editarea revistei „Econometrica” în 1933.. când condiţiile economice şi politice erau relativ stabile pentru ţările industrializate ale lumii. matematica economie Bazele apariţiei econometriei ca ştiinţă = contribuţiile timpurii ale unor matematicieni: Newton şi Leibnitz. începând să îşi afirme importanţa în planificarea şi luarea deciziei în domeniul afacerilor. • În 1954. sociologiei. Previziune economică a existat din totdeauna. • verificarea validităţii ipotezelor formulate iniţial şi • utilizarea modelelor econometrice identificate pentru realizarea de previziuni ale fenomenelor economice analizate.studiul datelor istorice. în anii ′70. ca ştiinţă Econometria este acea ramură a economiei. ca parte integrantă a tuturor tipurilor de luare a deciziilor de management. şi la începutul anilor ′80. Hayek. Fisher. dar ca disciplină separată de sine stătătoare.

pentru a satisface cerinţele cunoaşterii şi stăpânirii realităţii economice contemporane. validarea modelului şi utilizarea pentru previziune sau în scopul unor analize. dacă sunt stabili coeficienţii? 5 . neesenţiale pentru analiză. numit „disturbanţă” sau „eroare”. etc. dacă modelul este valid pe întreaga perioadă analizată. dezvoltarea unei ramuri economice şi a activităţii de comerţ exterior a ramurii respective. − presupunerea că variabilele observate sunt fără erori. când sunt observate la anumite intervale egale de timp sau pot fi instantanee. Aceste ecuaţii conţin variabilele observate. Validarea modelului ridică probleme referitoare la validitatea relaţiilor. 2.Astfel econometria. pe baza unor ipoteze.). − o specificare a probabilităţii de distribuţie a disturbanţelor (şi erorilor de măsurare). datele pot fi temporale. realizarea investiţiilor şi efectul lor asupra nivelului producţiei. selectarea şi observarea variabilelor. Selectarea variabilelor explicative din model ţine seama de: unităţile de măsură în are sunt exprimate variabilele. estimarea modelului econometric şi testarea cu datele observate (constituie inferenţa modelului). Etapa de specificare a modelului trebuie să ia în considerare şi faptul că unele relaţii între variabile nu sunt întotdeauna sincrone. o formulare matematică a unei teorii economice. • • Un model economic este un set de presupuneri care descriu aproximativ comportametul unei economii sau al unui sector economic. apărută iniţial ca ştiinţă separată. când datele sunt observate în acelaşi timp pentru un grup de indivizi sau unităţi administrativ-teritoriale diferite. derivate dintr-un model economic. sub forma unui termen aleator. ele fiind deseori decalate în timp (de exemplu influenţa venitului asupra consumului. treptat devine parte integrantă din ştiinţa previziunii. care a apărut la îmbinarea interdisciplinară a altor ştiinţe. Un model econometric constă din: − un set de ecuaţii de comportament. formalizarea relaţiilor şi alegerea formei de funcţie – etapa de specificare a modelului. Principalele etape ale unui demers econometric sunt: • • • • • referirea la o teorie economică. considerate esenţiale pentru scopul analizei şi variabilele neobservate. Etapele construirii modelelor econometrice Un model este o reprezentare simplificată a unui proces real. precizia estimatorilor.

şi care constituie feedback-ul pentru pasul 2. fază care lipseşte din Figura 1. 6 . Dar trebuie testat şi dacă modelul a fost corect specificat. argumentându-se că: nu există feedback-ul testării econometrice a teoriilor economice la formularea teoriilor economice (de la pasul 6 la pasul 1). neexistând feedback între paşii 2 şi 5 şi pasul 3.Descrierea schematică a etapelor unei analize econometrice a modelelor economice este reprezentată în Figura 1. Schema etapelor unei analize econometrice în anii ’70 Această descriere a analizei econometrice a fost criticată în anii ’70. Schema etapelor unei analize econometrice în anii ’70 1 4 Informaţii economice iniţiale 2 Modelul econometric sau evaluarea empirică a teoriei economice Estimarea modelului 3 Datele observate Teoria economică sau modelul economic 5 6 7 Testarea ipotezelor modelului economic Utilizarea modelului pentru previziuni sau decizii Figura 1. stabilirea datelor de colectat care vor fi folosite la estimarea şi testarea modelelor econometrice. care depind de presupunerea că specificarea modelului de la pasul 2 este corectă. la pasul 6 testarea ipotezelor se referă numai la ipotezele sugerate de modelul economic original. în cazul în care testele de specificare indică necesitatea unei noi specificări a modelului econometric.

Dezvoltările aduse econometriei în anii ’70 au condus la acceptarea unei alte scheme a etapelor unei analize econometrice. Schema revizuită a etapelor unei analize econometrice Teoria economică Modelul econometric Date Estimare Testarea specificării şi verificarea NU Este adecvat modelul? DA Testarea ipotezelor Utilizarea modelului pentru previziune şi analize. Schema prezentată porneşte de la o singură teorie economică. caz în care econometria ajută la alegerea celei mai pertinente. 7 . Schema revizuită a etapelor unei analize econometrice În schema din Figura 2 se pot distinge relaţiile de feedback: de la rezultatele analizei econometrice la teoria economică. control Figura 2. de la modelul econometric la culegerea datelor. dar adesea există mai multe teorii concurente. de la testarea specificării la modificarea specificării modelului economic. prezentată în Figura 2.

Clasificarea modelelor econometrice oferă o imagine cuprinzătoare asupra importantei construirii şi utilizării modelelor econometrice. C = a + bbV + u C = aV u • • • • • • Rezumat Această secţiune prezintă apariţia Econometriei ca ştiinţă. xt − k ) + ut Numărul de ecuaţii: – Cu o singură ecuaţie. xn ) + u – Modele multifactoriale Forma legăturii: – Modele liniare – Modele neliniare Sfera de cuprindere: – Modele parţiale – Modele globale (agregate) Considerarea timpului.Modele cu lag distribuit: yt = f ( xt . x 2i . model econometric... yt − k ) + ut . xkt ) + ut . Scopul utilizării: – Modele euristice. – Modele decizionale... 2. xkt ... ca factor: – Modele statice: y i = f ( x1i .3. x2 . x2t . xt −1 .... raţionale – în teoria economică. t ) + ut .. 3. – Cu ecuaţii multiple.. Definiţi modelul econometric. Definiţi modelul economic. Care sunt etapele construirii unui model econometric 5.. x ki ) + u i – Modele dinamice: yt = f ( x1t .. Care este relaţia de subordonare dintre Econometrie şi Previziunea economică 4.Introducerea în mod explicit a variabilei timp: yt = f ( x1t .. Termeni importanţi Econometrie... locul ei în rândul altor discipline la a căror intersecţie a apărut. yt − 2 .. yt −1 . operaţionale – în practica economică. Modele econometrice utilizate în economie Clasificarea modelelor econometrice se face după următoarele criterii: Numărul variabilelor factoriale: y = f ( x) + u – Modele unifactoriale y = f ( x1 .. etapele construirii unui model econometric Întrebări recapitulative 1.. Construirea modelelor econometrice pornind de la o teorie economică parcurge niste etape. asigurând feed-back-ul. xt − 2 .. model economic. x2t ..Modele autoregresive: yt = f ( xt . a căror abordare s-a dezvoltat în timp.. importanţa studierii Econometriei şi apartenenţa sa la o altă disciplină Previziunea economică. Previziune economică.. Enumerati câteva criterii de clasificare a modelelor econometrice 8 .

citire/învăţare . Estimarea coeficienţilor modelului de regresie simplă 2. Exerciţiu . Tabelul de analiză a varianţei – testul Fisher 11. Cunoaşterea unui software si a procedurii statistice care are ca rezultat tabela de regresie.2. Pentru cunoaşterea problemei: 4 ore 2.4. exemple (sub lupă) . Metoda celor mai mici pătrate .Compararea coeficienţilor de regresie 1. Problema estimării 2.Calculul estimatorilor modelului de regresie simplă 10.Rolul termenului aleator 10.teme de casă. Funcţia de regresie a populaţiei 8. aplicaţii practice pentru studenţi . conţinutul tabelei de regresie 3.CAPITOLUL 1 Tema Obiectivele MODELUL REGRESIEI SIMPLE 1. Tabela de regresie 7. Exerciţiu .situaţii economice concrete.parcurgerea aplicaţiilor propuse 1. Proprietăţile estimatorilor metodei celor mai mici pătrate 5. explicaţii ce trebuie reţinute .definiţii. explicaţii .1.întrebări. supuse analizei. Realizarea de previziuni cu modelul regresiei simple . Exerciţiu . Liniaritatea 6. Testul de semnificaţie al estimatorilor 10. Diferenţe dintre modelul la nivelul populaţiei şi al eşantionului 4. probleme ce apar. Metoda celor mai mici pătrate – ipoteze 3. Pentru rezolvarea temelor: 12 ore + timpul de documentare Finalitatea Competenţe dobândite Mijloace Evaluarea Timp de lucru necesar 9 . Intervalul de încredere al previziunii cu modelul regresiei simple 11. Exerciţiu . Funcţia de regresie a eşantioanelor 9. Intervalul de încredere al estimatorilor 10.1.estimatorii 4. Consecinţe ale ipotezelor: construirea testelor 10.3.Previziuni ale variabilei endogene 12.

Se poate stabili care din factori au o influenţă semnificativă. variabilă dependentă. factorul de influenţă. 10 . în funcţia Keynesiană a consumului: C = C 0 + cYd . iar Yd reprezintă variabila independentă. endogenă. c = înclinaţia marginală spre consum Yd = venitul disponibil. se mai numesc variabile independente.regresie multiplă: când se consideră variaţia mai multor variabile explicative: y=f(x1. iar fenomenele a căror variaţie influenţează semnificativ variabila y. ….regresie simplă: când se consideră variaţia unui singur factor: y=f(x) şi . x2. Metoda regresiei analizează relaţiile existente între variabila explicată şi variabilele explicative. xk). Analiza de regresie măsoară dependenţa statistică a unei variabile y. exogene. explicativă. de una sau mai multe variabile explicative x. regresorul. cauza. factori sau variabile factoriale. Fenomenul a cărui variaţie se analizează în funcţie de influenţa variaţiei unor alte fenomenecauză. exogenă. independente. Analiza regresiei reprezintă o metodă analitică de măsurare a intensităţii legăturilor dintre fenomenele economico-sociale. De exemplu. se mai numeşte variabilă explicată. există: . endogenă. se pot face previziuni ale valorilor variabilei y pentru anumite valori date ale variabilelor x. pe baza valorilor cunoscute sau fixate ale variabilelor explicative. C este variabila dependentă. fiind instrumentul cel mai utilizat în analiza economică. regresori. explicată. gradul lor de esenţialitate şi cunoscând influenţa variabilelor factoriale asupra variaţiei fenomenului explicat.MODELUL REGRESIEI SIMPLE În funcţie de numărul de factori a căror variaţie se consideră în explicarea variaţiei fenomenului efect. pe baza datelor observate pentru aceste variabile. cu scopul de a estima şi de a previziona valoarea medie a variabilei y. unde C = consumul privat C0 = consumul privat incompresibil. y.

Metoda celor mai mici pătrate . aceleaşi colectivităţi. dar care aparţin aceleaşi esenţe. Estimatorii ecuaţiei de regresie a eşantionului vor furniza rezultate foarte bune. P. conferă o mare variabilitate fenomenului explicat. şi de asigurare a calităţii estimatorilor.M. Fenomenele economico-sociale sunt fenomene stochastice. Modelul este liniar în xi (sau în oricare transformare a lui xi). este metoda celor mai mici pătrate (M. sub acţiunea combinată a influenţei mai multor factori. Aplicarea acestei metode se bazează pe următoarele ipoteze presupuse adevărate: 1. Se obţine astfel ecuaţia de regresie a eşantionului.M. cu grade diferite de esenţialitate. Avantajele oferite de sondajul statistic reprezintă cea mai bună soluţie pentru estimarea parametrilor pe baza datelor observate dintr-un eşantion. La aceleaşi valori ale fenomenelor cauză. atât din punct de vedere material cât şi al timpului. Principiul acestei metode constă în minimizarea sumei pătratelor abaterilor valorilor empirice faţă de cele teoretic estimate.) 2. adică minimizarea sumei pătratelor reziduurilor. se obţin întotdeauna valori diferite ale fenomenului efect analizat.C. în anumite condiţii de probabilitate şi respectând anumite ipoteze pe care aceştia trebuie să le îndeplinească. Fenomenele economico-sociale sunt fenomene de masă supuse acţiunii legilor statistice. diferite ca formă de manifestare. despre parametrii polulaţiei. cea care îndeplineşte criteriile de cost minim de aplicare. 11 .1. atribuită matematicianului german Carl Friederich Gauss. în condiţiile respectării unor ipoteze fundamentale.ipoteze Metoda celor mai mici pătrate. A observa întreaga colectivitate pentru a stabili parametri ecuaţiei de regresie a populaţiei este o modalitate ineficientă. este una din cele mai des utilizate metode de estimare a ecuaţiilor de regresie a sondajelor statistice. care nu pot fi experimentate în laborator. după caz. Există mai multe metode de determinare a estimatorilor parametrilor de regresie: metoda momentelor. Problema estimării parametrilor este obiectivul prioritar al econometriei. Combinarea diferită a factorilor. metoda celor mai mici pătrate şi metoda maximei verosimilităţi. care necesită un efort mare. Problema estimării Metoda regresiei statistice constă în stabilirea funcţiei de regresie care descrie cel mai bine relaţia dintre variabila explicată şi variabila sau variabilele independente. care se manifestă sub formă de tendinţă (medie) într-un număr mare de cazuri individuale. Dintre aceste metode.

Reprezentarea grafică a ipotezei de heteroscedasticitate 5. Această ipoteză spune de fapt că toţi factorii neexplicitaţi de model. Erorile sunt independente de variabila explicativă. Media (operatorul E) reziduurilor este zero: E(εi / xi)=0. 3.teoretic 400 450 500 550 număr angajaţi (persoane) Figura 1. cov(ε i .n. Ajustarea liniară a profitului în funcţie de numărul de angajaţi 230 210 190 profit (mii euro) V (ε i / xi ) = E [ε i − E (ε i )] = E ε i2 = σ 2 2 ( ) 170 150 130 110 90 70 50 0 50 100 150 200 ymed 250 300 350 ymed. corespunzătoare valorilor xi. au aceeaşi varianţă. Homoscedasticitatea sau variaţia (V – dispersia.1.2. Nu există corelaţie între erori şi valorile x. 6. Situaţia opusă se numeşte heteroscedasticitate şi se poate nota: V (ε i / xi ) = σ i2. i=1. ε j ) = E[ε i − E (ε i )][ε j − E (ε j )] = E (ε iε j ) = 0 Pentru anumite valori date xi. varianţă) egală a reziduurilor σ2. cov(ε i . xi ) = E[ε i − E (ε i )][ xi − E ( xi )] = E[ε i ( xi − E ( xi ))] = = E (ε i xi ) − E ( xi ) E (ε i ) = E (ε i xi ) = 0 12 . 4. adică valorile lor pozitive se anulează cu cele negative astfel încât efectul lor mediu asupra lui y este zero. Varianţa reziduurilor pentru fiecare xi (varianţa condiţionată a lui εi) este un număr pozitiv constant şi egal cu σ2 sau altfel spus. abaterile oricăror două valori y de la valoarea lor medie nu prezintă nici o tendinţă. şi dealtfel cuprinşi în εi. Nu există corelaţia (covarianţa) erorilor pentru oricare i ≠ j. nu afectează în mod sistematic valoarea medie a lui y. populaţiile lui y. unde varianţa nu mai este constantă. Valorile lui xi sunt observate fără erori (xi este nealeator).

pe cât posibil. ∑ ei2 . se obţine sistemul de ecuaţii normale. = ∑ ( yi − y 2 i =1 Este evident că suma pătratelor reziduurilor este funcţie de valorile estimatorilor coeficienţilor dreptei de regresie ∑e i =1 n 2 i ˆ0 . care este forma funcţională a modelului (este liniar în parametri. ∑ ei = ∑ ( yi − y i =n n se alege criteriul minimizării pătratelor reziduurilor: i=n ∑e i =1 n 2 i ˆi ) . Derivatele parţiale ale sumei S = ∑ ( yi − y 2 2 i =1 i =1 i =1 n n n ∂S =0 ˆ0 ∂a ˆ0 + a ˆ1 x i − y i ) = 0 − 2∑ (a i =1 n ∂S =0 ˆ1 ∂a ˆ0 + a ˆ1 x i − y i ) x i = 0 − 2∑ (a i =1 n Simplificând cu -2 şi aplicând operatorul Σ. a ˆ1 ) . Problemele sunt: ce variabile ar trebui incluse în model. Reziduurile ei reprezintă diferenţele dintre valorile observate y i şi cele estimate y ˆ i = yi − a ˆ0 − a ˆ1 x i . unde y ˆ i este valoarea estimată a y i (media a eşantionului astfel: y i = a ˆi : condiţională). Cu ajutorul datelor dintr-un eşantion de date i=1. numite şi simultane: 13 .n (pentru serii cronologice) se poate aproxima ecuaţia de regresie a populaţiei prin ecuaţia de regresie ˆ0 + a ˆ 1 x i + ei = y ˆ i + ei .estimatorii Ecuaţia de regresie a populaţiei se poate scrie: y i = a 0 + a1 xi + ε i sau y t = a 0 + a1 xt + ε t . Metoda celor mai mici pătrate . O investigaţie econometrică începe prin specificarea modelului econometric. = f (a ˆ1 se vor obţine valori diferite ale reziduurilor şi deci şi pentru ˆ 0 şi a Alegând valori diferite pentru a ˆ i ) = ∑ ( yi − a ˆ0 − a ˆ1 xi ) se egalează cu 0. 7.n (pentru serii de date instantanee) sau t=1.pentru că E (ε i ) = 0 din ipoteza 3. în variabile sau ambele?) 3. Cum n n ˆi ) = 0 . ei = y i − y Dându-se n perechi de observări ale lui y şi x. Modelul de regresie este corect specificat. pentru orice set de date din eşantioane diferite. se va construi funcţia de regresie a eşantionului astfel încât să minimizeze suma reziduurilor.

14 . 2 i n n i ∑y i =1 n i =1 i n n i ˆ1 = a ∑x ∑x y i =1 i n n i ∑ xi i =1 n i =1 2 i = n∑ xi y i − ∑ xi ∑ y i i =1 i =1 i =1 n n n ∑x ∑x i =1 ⎛ ⎞ n ∑ x − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n 2 i n 2 Dacă în sistemul de ecuaţii normale. deoarece sunt Aceşti estimatori a obţinuţi pe baza acestui principiu şi sunt estimatori punctuali. din a doua ecuaţie.ˆ0 + a ˆ1 ∑ x i = ∑ y i na i =1 i =1 n n ˆ 0 ∑ xi + a ˆ1 ∑ xi2 = ∑ xi y i a i =1 i =1 i =1 n n n Sistemul se poate rezolva prin metoda determinanţilor: ∑ yi i =1 n n ∑x i =1 n i i =1 n i ˆ0 = a ∑x y ∑x i =1 i 2 i n n i ∑x i =1 n i =1 n = ∑ xi2 ∑ yi − ∑ xi ∑ xi yi i =1 i =1 n i =1 n n n n i ∑x ∑x i =1 ⎛ ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n i =1 2 . pentru că furnizează o singură valoare (punct) relevantă pentru parametrul populaţiei. 2 ˆ0 + a ˆ1 x . rezultă a ˆ0 = y − a ˆ1 x . Ştiind că y = a ˆ 0 şi a ˆ1 sunt numiţi estimatori “ai celor mai mici pătrate”. se obţine: ˆ0 + a ˆ1 ∑ ( x i − x ) = ∑ ( y i − y ) na i =1 i =1 n n ˆ 0 ∑ ( xi − x ) + a ˆ1 ∑ ( xi − x ) 2 = ∑ ( xi − x )( y i − y ) a i =1 i =1 i =1 n n n Cum ∑ (x i =1 n i − x ) = 0 şi ∑(y i =1 n i ˆ1 = − y ) = 0 . se obţine a ∑ (x i =1 n n i − x )( y i − y ) i ∑ (x i =1 − x) . variabilele xi şi y i se înlocuiesc cu valorile lor centrate faţă de mediile lor.

au varianţă minimă. exemple de modele liniare sunt: – E(y/xi)=a0 + a1xi. Proprietăţile estimatorilor metodei celor mai mici pătrate Estimatorii metodei celor mai mici pătrate au următoarele proprietăţi: • • • liniari. se poate spune că sunt BLUE (Best Linear Unbiased Estimators). Astfel. E(y/xi) este o funcţie liniară a parametrilor. Pentru regresia liniară este relevant termenul de liniaritate în parametrii. din clasa estimatorilor liniari nedeplasaţi. adică are varianţa minimă.cu un înţeles „natural” înseamnă că media condiţională (în sensul de valoarea medie aşteptată . cum ar fi variabila y în modelul de regresie.4. indiferent dacă există liniaritate în variabilele explicative. de volum n sau valoarea ˆ1 )este egală cu valoarea adevărată a parametrului. aşteptată a estimatorului E (a eficienţi. 15 . in timp ce variabilele x pot sau nu să fie liniare. Teorema lui Gauss-Markov se enunţă astfel: Date fiind ipotezele modelului liniar clasic de regresie. • Termenul de regresie liniară însemnă întotdeauna. Dreapta de regresie a populaţiei reprezintă tendinţa medie şi se scrie: E(y/xi)=a0 + a1xi. liniar în parametrii şi în variabile şi – E(y/xi)=a0 + a1xi2. adică o funcţie liniară a unei variabile aleatoare. 5. estimatorii celor mai mici pătrate. adică toţi sunt la puterea 1. apare termenul de speranţă matematică) a variabilei y este o funcţie liniară a lui xi. Liniaritatea • liniaritatea în variabile . • • Un model neliniar în parametrii este: E ( y / xi ) = a0 + a1 ⋅ xi .în econometrie. • liniaritatea în parametrii este când distribuţia condiţională a variabilei y. Operatorul de speranţă matematică se notează cu litera E. liniaritatea în parametrii necunoscuţi. nedeplasaţi. liniar în parametrii şi neliniar în variabile. media estimatorului din toate eşantioanele posibile. a1 .

astfel încât suma pătratelor abaterilor valorilor empirice (observate) ale variabilei dependente y de la valorile ei teoretice (calculate după funcţia liniară obţinută). cu atât modelul este bine ales. ˆi − y )2 ∑ (y n n R2 = ∑ (y − y) i =1 i i =1 n = 1− ˆ) ∑ (y − y 2 2 ∑ (y − y) i =1 i i =1 n i i .6. în cazul regresiei multiple) independentă x. Acest criteriu al minimizării patratelor abaterilor face ca metoda ce stă la baza obţinerii estimatorilor. 1] şi cu cât e mai apropiată de 1. ∑ ( yi − y i =1 i =1 n n Analiza de regresie se poate obţine automat prin tabela de regresie. Tabela de regresie cuprinde în sumarul său. După efectuarea declaraţiilor blocurilor care conţine valorile variabilei explicate y şi variabila (sau variabilele. unde 2 y este media valorilor empirice yi. r. pe baza datelor de sondaj. Regression Statistics conţine informaţii cu caracter general despre variabilele implicate în analiza de regresie: coeficientul de corelaţie multiplă Multiple R. în %) variaţia variabilei dependente y. pentru a asigura condiţia de reprezentativitate. adică explică într-o proporţie mai mare (deseori. ale graficelor. în Microsoft Excel. Tabela de regresie În realitate. trei părţi: Regression Statistics. ci numai eşantioane extrase din acestea. numit R Square arată validitatea modelului. coeficientul de determinaţie R2.P. nu se pot observa colectivităţi generale. Scopul analizei de regresie este descrierea modelului prin estimarea parametrilor. repectând principii probabilistice.. precum şi a locului pe spreadsheet unde se va obţine tabela şi eventual a unor alte opţiuni privind probabilitatea de garantare a rezultatelor. etc. ale erorilor lor faţă de valorile y observate.C.). să se numească metoda celor mai mici pătrate (M. se confirmă declaraţiile prin OK şi tabela apare instantaneu. Această metodă calculează valorile estimatorilor. pentru intervalele de încredere ale estimatorilor sau obţinerea automată a valorilor teoretice. Valoarea sa este cuprinsă în intervalul [0. care la regresia simplă este coeficientul de corelaţie liniară simplă. tabelul ANOVA şi informaţiile despre estimatorii coeficienţilor modelului liniar. Adjusted R Square care este R2 ajustat cu un anumit număr de grade de libertate. SUMMARY OUTPUT. adică suma pătratelor reziduurilor să fie minimă: min ˆ i )2 = min ∑ ei2 .M. 16 .M.

pentru variaţia datorată factorilor reziduali. gradele de libertate sunt egale cu n-k-1. 2 atribuită factorilor reziduali. Analiza varianţei pentru o regresie simplă este prezentată în Tabelul 1. unde = σ ˆ ε2 este estimatorul pentru dispersia reziduurilor. Residual: Sursa variaţiei x (Regression) ∑ (y i =1 n i ˆ i )2 .se referă la gradele de libertate corespunzătoare fiecărui tip de variaţie: pentru variaţia explicată de regresie. ANOVA în cazul regresiei simple Coloana numită df – degrees freedom . 17 . Regression: ˆ ∑ (y i =1 n i − y) . iar n–k–1 este numărul gradelor de libertate. gradele de libertate sunt egale cu numărul variabilelor explicative. σ iar k este numărul variabilelor explicative. Total: n ∑ (y i =1 i − y ) pe tipuri de influenţă: 2 atribuită şi explicată de factorii de regresie.1. În coloana numită SS . −y Sume modificate (MS) SSE/1 SSR/(n-2) Suma pătratelor (SS) ˆt − y) 2 SSE = ∑ ( y ˆ t ) 2 = ∑ et2 SSR = ∑ ( y t − y SST = ∑ ( y t − y ) 2 t t t t Grade libertate (df) 1 n-2 n-1 Reziduuri (Residual) Total (Total) Tabelul 1. Observations reprezintă n este numărul de observări ale variabilei dependente.se prezintă descompunerea variaţiei totale a variabilei explicate y.- Standard Error este eroarea medie standard a valorilor teoretice ale lui y şi se calculează ca o abatere medie pătratică a valorilor empirice faţă de cele teoretice: ˆε = σ ˆ i )2 ∑ ( yi − y i =1 n n − k −1 = ∑e i =1 n 2 i n − k −1 ˆ ε2 . k. adică n-2. care este egal cu numărul de valori ale variabilei (variabilelor) independente xi. neînregistraţi în model.1. a cărui denumire provine din iniţialele ANalysis Of Variances şi are ca scop prezentarea variaţiei pe factori de influenţă şi calculul testului Fisher pentru evaluarea semnificaţiei globale a regresiei. la regresia simplă este 1.Sum Squares (sumă de pătrate) . Tabelul ANOVA este tabelul de analiză a varianţelor. pentru variaţia totală corespunde un număr de grade de libertate egal cu n-1.

estimatorul termenului constant. n − 2 . care poate fi zero dacă s-a optat pentru Constant is Zero şi . în coloana Coefficients pentru: .. astfel: F* = R2 . unde F * urmează o lege SSR /(n − 2) consideră modelul semnificativ pentru explicarea variabilei dependente. este testul Student empiric. pentru fiecare estimator. i=1. Regresia este global semnificativă cu o probabilitate P=1 . Coloana numită MS . ân la X Variable 1.Gradele de libertate se calculează în funcţie de termenul constant Intercept astfel: dacă Intercept = 0. Acest test se poate scrie în funcţie de coeficientul de determinaţie. La regresia liniară simplă: F * = (t * ) 2 .P-value.. corespunzătoare pragului de semnificaţie α. în ordinea declarării variabilelor explicative. unde t * . Valoarea calculată F se obţine raportând variaţia corectată datorată modelului la cea corectată datorată factorilor reziduali. Testul empiric F de analiză a varianţei este: F * = Fisher cu 1 şi n-2 grade de libertate.estimatorii coeficienţilor variabilelor explicative: â1. .. . a . în plus . variabila x fiind semnificativă pentru variaţia variabilei y. 18 . ˆa ˆ i . â0..α.k. .Standard Error. Dacă varianţa explicată de model este superioară varianţei reziduale. .05 Dacă F * > F10 . df = n-k şi numai dacă Intercept ≠ 0.Intercept . X Variable 2. df = n-k-1. Eroarea standard de estimaţie are caracter de medie a abaterilor valorilor estimate ale coeficientului faţă de parametrul corespondent din populaţie.valorile Student. se respinge ipoteza de egalitate a varianţelor (H0 – ipoteza nulă). începând de la care valoarea estimatorului este semnificativ diferită de zero. În caz contrar se acceptă această ipoteză de egalitate a varianţelor. iar Significance F reprezintă pragul de semnificaţie α de la care regresia începe să devină global semnificativă. A treia parte a tabelei de regresie conţine: ˆ i . σ ˆ i abaterile standard ale estimatorilor a sau în minus valorile estimate ale coeficienţilor faţă de parametri pe care îi estimează. t*.. se (1 − R 2 ) /(n − 2) SSE / 1 . pentru verificarea semnificaţiei acestuia faţă de 0. .valorile estimate ale coeficienţilor modelului liniar.Modified Sums – conţine dispersiile corectate cu gradele de libertate corespunzătoare fiecărui tip de variaţie. arată cu cât variază în medie.

Datele observate sunt prezentate în Tabelul 1.med. la sfârşitul anului. Gruparea societăţilor comerciale după numărul mediu lunar de salariaţi şi după profiturile medii lunare 19 .2 (liniile sunt numerotate.2. Societăţile comerciale sunt grupate în zece clase după numărul mediu de salariaţi şi în fiecare grupă este observat un număr variabil de societăţi. exprimat în mii euro (€). x. iar la cerere se pot solicita şi alte valori ale probabilităţii: 99%. cu o probabilitate de 95%. variabila explicativă. Suma valorilor observate este egală cu suma valorilor teoretice: ˆ ∑ y =∑ y i =1 i i =1 n n i . Funcţia de regresie a populaţiei Pentru a ilustra analiza de regresie a populaţiei. etc. se consideră un caz ipotetic al unei ţări a cărei economie este formată din 120 de societăţi comerciale. ca în Microsoft Excel). 90%.teor 79 8 632 79 92 12 1104 92 129 12 1548 129 179 9 1611 179 191 12 2292 191 Tabelul 1. A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 B C 50 D 100 74 78 81 89 90 94 90 95 96 100 107 110 E F G H I J K 450 145 150 160 170 185 190 200 205 206 500 167 169 170 180 192 195 197 200 202 204 208 208 Grupe după numărul mediu de angajaţi (x) 150 200 250 300 350 400 85 88 90 95 98 104 105 110 110 115 114 117 121 104 13 1352 104 95 97 100 110 112 115 120 120 125 125 127 130 130 132 117 14 1638 117 110 112 115 120 125 128 130 135 140 141 145 147 130 132 134 136 139 141 144 145 145 146 147 152 155 142 13 1846 142 120 122 135 149 153 155 160 160 165 165 170 173 175 154 13 2002 154 140 148 151 156 160 169 170 170 174 175 177 179 180 189 167 14 2338 167 Profitul lunar (y) (mii €) 60 70 75 85 80 83 87 92 pe grupă: profit mediu nr=120 profit total pr. iar coloanele numite cu literele alfabetului. pentru că prin ajustare se realizează o redistribuire a influenţei factorului..limitele intervalului de încredere ale estimatorilor: inferioară Lower 95% şi superioară Upper 95%. despre care se cunosc informaţii referitoare la numărul mediu lunar de salariaţi şi profitul mediu lunar. implicit. 7.

..puncte) şi a 15-a serie. de 79 mii € (B19). adică distribuţia condiţională a lui y pentru o valoare dată a lui x. se află profiturile totale lunare ale grupelor. pentru profiturile medii calculate ale celor 10 grupe diferite după numărul de salariaţi. iar variabila dependentă – profitul lunar (y). Deşi în prima grupă sunt 8 firme. O coloană din tabel reprezintă distribuţia profitului lunar y. de la C19 la K19. K4:K17. la un nivel fixat al numărului de angajaţi. şi să se ia în considerare toate situaţiile grupelor (indiferent de numărul de elemente declarate. Profiturile medii sunt reprezentate cu marcatori diferiţi. Profiturile medii pe grupe de salariaţi se pot obţine şi împărţind profitul total al grupei la numărul de firme considerate în grupa respectivă. se va specifica blocul de dimensiunea maximă. care apoi se copiază pentru restul celulelor de pe aceeaşi linie.. Societăţile comerciale cuprinse în aceeaşi grupă după numărul de angajaţi.K17 (cu acelaşi tip de marcatori . de 500 salariaţi (coloana K). . C4:C17. . La B21 se scrie formula =SUM(B4. 20 . se va considera variabila independentă ca fiind numărul mediu lunar de salariaţi (x).. =AVERAGE(B4. valorile obţinute vor fi identice cu cele din linia 19. sunt 8 firme (celula B20) ale căror profituri medii lunare se situează între 60 mii € şi 92 mii € (blocul de celule B4:B11). D4:D17. Se observă că numărul maxim de firme dintr-o grupă este de 14. În graficul din Figura 1... Mediile se calculează astfel: în celula B19. se scrie funcţia statistică pentru calculul mediei. Corespunzător unui număr mediu de 50 de salariaţi (coloana B). B19. există 12 firme (K20). cu formula =B21/B20.. media se va calcula ţinând seama de numărul efectiv de elemente existente.B17). să se translateze corespunzător coloanele celulelor. s-au reprezentat profiturile firmelor corespunzătoare fiecărei grupe de salariaţi. au un profit variabil.B17). în fiecare bloc de celule). corespunzător numărului maxim de variante de profit în funcţie de numărul de salariaţi.K5. cu o medie a profiturilor lunare de 191 mii € (K19). obţinute prin însumarea profiturilor individuale observate în fiecare grupă de salariaţi.. În linia 21. S-au declarat 14 serii. B6. adică pentru celelalte nouă variante date ale numărului de salariaţi. şi apoi copiată pentru restul grupelor. Similar. pentru ca prin copierea formulei din celula B19 în celelalte celule. de exemplu.2. În celulele B19:K19 se află profiturile medii lunare pentru fiecare grupă de angajaţi.. de tip Scatter XY.2 este liberă). adică mediile blocurilor de celule corespunzătoare fiecărei grupe: B4:B17. B5..Pentru a se analiza vaiaţia profitului în funcţie de numărul mediu de angajaţi. de exemplu în linia 18 (care în Tabelul 1.K6. al căror profit mediu lunar este cuprins între 167 mii € şi 208 mii € (blocul K4:K15). x.K19. B17. x=400.. obţinându-se o medie a profiturilor pentru această grupă de angajaţi. pentru o altă variantă a numărului de angajaţi. cercuri mari.K4.. pentru x=200. astfel: B4.

corespunzătoare fiecărei grupe după numărul de salariaţi. Valorile observate ale profiturilor lunare se abat faţă de valoarea lor medie. după numărul de salariaţi. decât cel înregistrat – numărul de salariaţi. profilul de activitate al firmei. nivelul de sănătate şi experienţa salariaţilor.2. profitul mediu creşte când numărul mediu al salariaţilor creşte. iar media acestor valori y este medie condiţională. reprezintă distribuţia condiţională a profiturilor.2.3 se pot vedea distribuţiile condiţionale ale valorilor y pentru fiecare valoare dată xi. Aceste abateri. numiţi factori reziduali. adică nu au o acţiune sistematică asupra mediei variabilei y. Pe graficul din Figura 1. de formă liniară şi sensul direct al legăturii. semnifică faptul că erorile pozitive se anulează cu cele negative. presupuse a fi distribuite normal. gradul de instruire. Acţiunea factorilor necuprinşi în model este asimilată erorilor ε i . numite erori. trece prin mediile condiţionale teoretice (aşteptate) care corespund mediilor condiţionale calculate. Dreapta de regresie trece prin toate valorile teoretice ale mediilor condiţionale. Se poate spune că pentru fiecare valoare xi există o populaţie a valorilor y. Dreapta sau curba de regresie. ca urmare a ipotezei că mediile condiţionale ale erorilor pentru o valoare dată xi sunt 0: E (ε i / xi ) = 0 . calculată ca medie a grupei din care fac parte. iar ipoteza conform căreia media lor este 0. punctele mediilor profiturilor lunare pe grupe de salariaţi.Corelaţia dintre profit ş i număr de angajaţi 230 210 190 profit (mii euro) 170 150 130 110 90 70 50 0 50 100 150 200 250 300 350 400 450 500 550 număr angajaţi (persoane) Figura 1. se datorează altor factori. 21 . Corelaţia dintre profiturile medii lunare şi numărul mediu lunar de salariaţi În Figura 1. precum şi distribuţiile erorilor în jurul fiecărei medii condiţionale a variabilei y. Graficul arată tendinţa relaţiei dintre cei doi indicatori. ramura economică în care activează. care ar putea fi: eficienţa activităţii de management. după caz.

Regresia nu poate utiliza decât blocuri de tip coloană şi de aceea trebuie să se transpună blocurile linie ale valorilor variabilelor pe verticală.teoretic 400 450 500 550 număr angajaţ i (persoane) Figura 1. aici =CORREL(B2:K2. Pentru a 0 : =INTERCEPT(B19:K19. deschiderea spre pieţele externe. y şi este evident din faptul că s-a efectuat regresia pe valorile medii ale profiturilor lunare. în Excel: =intercept(known_y’s.array2). etc. Modelul de regresie a populaţiei este E ( y / xi ) = 66. Coeficientul de corelaţie se poate obţine şi prin funcţia statistică =correl(array1.3.known_x’s). respectiv N24.B2:K2) şi pentru a1 : =SLOPE(B19:K19. Coeficientul de determinaţie R2=1 indică faptul că modelul liniar explică 100% variaţia profiturilor lunare. Ajustarea liniară a profitului în funcţie de numărul de angajaţi 230 210 190 profit (mii euro) 170 150 130 110 90 70 50 0 50 100 150 200 ymed 250 300 350 ymed. Aceste funcţii se pot tasta.86 + 0. a cărei ecuaţie este E ( y / xi ) = a0 + a1 xi . de exemplu în celulele N23.25 ⋅ xi . Valorile parametrilor a 0 şi a1 se pot determina folosind funcţiile statistice.B19:K19). nivelul naţional şi internaţional la care activează firma.conjunctura pieţei.B2:K2).known_x’s) şi =slope(known_y’s. Aceleaşi rezultate se pot obţine cu ajutorul tabelei de regresie. Se poate proceda în felul următor: 22 . Distribuţiile condiţionale şi dreapta de regresie a populaţiei Valorile teoretice corespunzătoare acestor profituri medii se află pe dreapta de regresie a populaţiei.

Cum acestea din urmă nu se schimbă. se activează operaţia de copiere prin <CTRL/C> sau din meniul Edit / Copy sau apăsând butonul dreapta al mouse-ului pe blocul selectat şi se alege comanda Copy. atunci în celula B22 se scrie formula =$N$23+$N$24*B2. regresia exprimând chiar această tendinţă medie de evoluţie a lui y în funcţie de x.).3. variaţia acesteia. să nu se schimbe coloanele şi linii. rezultate prin editarea lor – şi Transpose. îşi vor schimba adresele din argumentul lor. de exemplu în N2. Modelul liniar determină în totalitate. comanda Paste Special. obţinându-se nişte valori eronate şi de aceea. =AVERAGE(. pentru a transforma în valori rezultatul unor formule – pentru variabila x. sunt fixate prin folosirea simbolului $. şi se obţine graficul din Figura 1.- se selectează blocul B2:K2. care se copiază şi pentru restul celulelor C22:K22. al variabilei x.. funcţiile de calcul ale mediilor din linia 19. se depune blocul transpus în O2:O11. regresia între valorile variabilei x şi valorile medii ale variabilei y furnizează nişte parametri. valorile parametrilor a0 şi a1 se află în celulele N23 şi N24. se poziţionează cursorul în celula blocului destinaţie.2. cea înregistrată. cu menţiunea că la Paste Special se va bifa Values şi Transpose. cea a valorilor teoretice din linia 22. unde se bifează Values. apoi se confirmă prin OK. formulele conţinute în celulele B19:K19 trebuie transformate în valori. acestea fiind deja valori. nu este cazul.2. pentru că se face copierea pe orizontală. Un model bine ales va minimiza aceste abateri. variabila explicativă a variaţiei profiturilor. Prin transpunere. se află pe dreapta de regresie a populaţiei. care utilizaţi în calculul valorilor teoretice corespunzătoare. selectând blocul B19:K19. Pentru transpunerea valorilor medii ale variabilei y se procedează la fel. de exemplu.2. cu opţiunea Values. 100%. sub influenţa alegerii modelului. Acest tip de variaţie a mediilor condiţionale se datorează factorului de grupare. numărul de salariaţi.. astfel încât prin copierea formulei în restul celulelor. Valorile medii ale profiturilor pe grupe. au ca rezultat valori identice cu mediile calculate din valorile observate ale variabilei y. Dacă. în linia 22 din Tabelul 1. din Tabelul 1. Blocul N2:N11 va conţine valorile variabilei x. formula era la fel de corectă dacă se scria =$N23+$N24*B2. a cărei influenţă este 23 .3. Se adaugă încă o serie pe graficul din Figura 1. Celulele N23 şi N24. Pentru că profiturile medii calculate (linia19) se află pe o dreaptă. Valorile teoretice se obţin prin modelul liniar determinat. după cum se poate vedea şi pe graficul din Figura 1. se apasă butonul dreapta al mouse-ului şi se alege Paste Special sau din meniul Edit. Mediile profiturilor calculate pe grupe de salariaţi se pot abate de la valorile teoretice ale acestor medii condiţionale.

3. se pot scrie y i = E ( y / xi ) + ε i = a0 + a1 xi + ε i . şi se exprimă prin totalitatea abaterilor valorilor observate ale profiturilor faţă de nivelul lor mediu calculat (media mediilor grupelor). Se poate exprima funcţia de regresie a populaţiei cunoscând datele dintr-unul sau mai multe eşantioane? Din populaţia de societăţi comerciale. Suma celor două tipuri de variaţie: din interiorul grupelor şi dintre variantele de grupare.considerată în model. Din cele 120 de societăţi s-au extras 10 în primul eşantion şi 10 în al doilea. Se cunosc dreaptele de regresie a eşantionului şi a populaţiei. aflate pe dreapta de regresie a populaţiei. S-au înregistrat valorile numărului mediu lunar de salariaţi. În acest caz mediile profiturilor calculate pe grupe de salariaţi coincid cu valorile lor teoretice. erori şi se notează ε i . erorile se estimează prin reziduuri şi se notează ei . s-au extras două eşantioane aleatoare. există abateri. pentru fiecare din cele 10 firme. care fac să existe abateri între valorile empirice şi cele teoretice. y. Acţiunea factorilor reziduali apare în modelul liniar de regresie a populaţiei sub termenul de disturbanţă sau eroare. descrise de ecuaţia y i = a În Figura 1. Pentru fiecare eşantion se va stabili ecuaţia de regresie a 24 . la nivel de populaţie statistică. iar valorile observate în eşantion sunt Modelul liniar la nivel de eşantion este y ˆ0 + a ˆ 1 x i + ei = y ˆ i + ei . ca reziduu. prezentată anterior. dispunând de un eşantion oarecare extras din populaţia statistică. ei. εi. iar la nivel de eşantion. 8. ˆi = a ˆ0 + a ˆ1 xi . Valorile observate ale profiturilor. reprezintă variaţia totală a profiturilor datorată tuturor factorilor. în modelul liniar. Funcţia de regresie a eşantioanelor La nivelul populaţiei. numite la nivel de colectivitate. Erorile sunt rezultatul influenţei factorilor neînregistraţi în ecuaţia de regresie. prezentate în Tabelul 1. între valorile teoretice ale modelului liniar E ( y / xi ) = a0 + a1 xi şi valorile observate y i . Funcţia de regresie a populaţiei E(y / xi) = a0 + a1xi se poate estima prin funcţia de regresie a ˆi = a ˆ0 + a ˆ1 xi şi atunci y ˆ i reprezintă un estimator pentru E(y / xi). unui eşantion y La nivel de eşantion.4 se prezintă grafic termenul de eroare şi cel de reziduu. x şi profitul mediu lunar.

a1 . a Astfel pentru primul eşantion se determină următoarele rezultate: 1 un coeficient de corelaţie liniară între variabilele x şi y.26 . Pentru primul eşantion. 25 .A31:A40) pentru a în celula A43: =SLOPE(B31:B40. Valorile observate din eşantion. care arată un model valid.D31:D40) pentru a ˆ1 2 . ˆ 01 = 69. pentru fiecare eşantion funcţiile intercept şi slope se pot determina valorile estimate pentru a0 şi respectiv. ˆ 01 şi pentru a ˆ11 .8893.78 + 0. diferă între ele. într-o proporţie de 88.A31:A40). care arată o legătură de intensitate mare şi se obţine cu funcţia =CORREL(B31:B40. în celula A42: =INTERCEPT(B31:B40. pentru că un eşantion nu poate reproduce identic colectivitatea din care a fost extras.78 şi a estimatorii a un coeficient de determinaţie R2=0.4. a populaţiei. Folosind pe rând.A31:A40). în celula D43: =SLOPE(E31:E40.D31:D40). în celula A44.93%. modelul este y ˆ i 1 = 69. Modelul liniar de regresie a eşantionului va fi: y 210 Dreapta de regresie a populaţiei şi a eşantionului 190 170 150 yi 130 εi e i ˆi y 110 90 E(y/xi) 70 0 50 100 150 200 250 300 350 400 450 500 550 yes ytes ytpop Figura 1. care explică variaţia variabilei y. de rxy = 0. ˆ 0 2 şi pentru Pentru al doilea eşantion. ˆ11 = 0.ˆ1 ai parametrilor a0 şi a1 ai ecuaţiei de regresie ˆ 0 şi a eşantionului. în celula D42: =INTERCEPT(E31:E40. Aceasta va conţine estimatorii a ˆi = a ˆ0 + a ˆ1 x i .943 . bine ales. dreapta de regresie a eşantionului şi a populaţiei Pentru fiecare din cele două eşantioane valorile estimate ale parametrilor a0 şi a1 . pentru că unităţile statistice au fost extrase la întâmplare şi faţă de parametri.26 ⋅ xi .

din Tabelul 1.4 este prezentată tabela de regresie obţinută în Excel pentru primul eşantion. F 12924.2305 0. opţiunea Data Analysis.2573 0.7 64.9 Coeff.3.811 0.756 0. Cele două eşantioane extrase din populaţie Aceste rezultate se pot obţine şi folosind procedura Regression din meniul Tools.943 R Square 0. variabila independentă (Input X Range).9430 B C eşantion 1 yi 60 83 107 110 120 125 152 155 135 204 ˆ 01 a rxy1 1 ˆ1 a D ˆi y 83 83 96 96 121 121 147 147 160 198 1 E xi 50 150 200 250 300 350 400 400 450 500 72. În celula C31.02 t Stat 8.9764 F eşantion 2 yi 92 105 120 125 136 153 156 170 170 202 ˆ0 2 a ˆi 2 y 84 107 119 130 142 153 165 165 176 188 ˆ1 2 a rxy2 Tabelul 1. declarându-se variabila dependentă (Input Y Range).6035 0.ˆ i 1 . SUMMARY OUTPUT eşantionul 1 Regression Statistics Multiple R 0.183 Upper 95% 88. A 29 30 31 32 33 34 35 36 37 38 39 40 42 43 44 xi 50 50 100 100 200 200 300 300 350 500 69.4817 8. de exemplu K27. celula care va fi din colţul stânga sus al tabelei de regresie.0185 P-value 2. se află în coloana C. Tabela de regresie pentru eşantionul 1 26 .29E-05 201.784 8.86E-05 4. blocul A31:A40.2573 0.29E-05 Lower 95% 50.331 Tabelul 1. iar la Output Range. Se realizează tabela de regresie pentru primul eşantion. În Tabelul 1.4.0321 MS F Signif.7836 0.74 Residual 8 1608.161 Total 9 14532. formula Valorile teoretice corespunzătoare y =A$42+A$43*A31 se copiază în blocul C32:C40.8893 Adjusted R Square 0. În tabela de regresie se regăsesc estimatorii şi indicatorii calculaţi mai sus.1781 Observations 10 ANOVA df SS Regression 1 12924. Standard Error Intercept 69. blocul B31:B40.8755 Standard Error 14.3.2275 X Variable 1 0.29573 4.

5.6035 6.9475 Square Standard Err 7. la X Values s-a declarat blocul variabilei x. la Input X Range.7883 1.7414 X Variable 1 0.2305 0.583 59.D31:D40) în D44. yt1).6 .6 + 0. valorile teoretice y C31:C40.5416 1. valorile variabilei y pentru primul eşantion (în legendă. într-o proporţie de 95. blocul B22:K22.9764 R Square 0. de exemplu.317 163. Tabela de regresie pentru eşantionul 2 Pe graficul din Figura 1. la Input Y Range se declară E31:E40. ˆ i 1 (în legendă. iar pe axa Oy.32E-06 0.32E-06 Residual 8 473.9534.34%. iar la Y Values.19787 Total 9 10154. D31:D40. y1). 27 .5 s-au reprezentat: dreapta de regresie a populaţiei (în legendă. mai mare decât în cazul primului eşantion.1889 Upper 95% 86. celula U27. Tabela de regresie pentru al doilea eşantion este prezentată în Tabelul 1.9764 .9534 Adjusted R 0. ymed. ˆ i 2 se află în coloana F. Se realizează tabela de regresie pentru al doilea eşantion. Standard Err t Stat P-value Lower 95% Intercept 72.3 şi sunt calculate prin Valorile teoretice corespunzătoare y copierea formulei =D$42+D$43*D31 din celula F31. B31:B40 şi dreapta de regresie a primului eşantion. SUMMARY OUTPUT eşantionul 2 Regression Statistics Multiple R 0.0778 2. iar la Y Values.0113 12. iar la Output Range. de rxy = 0.2720 Tabelul 1.5.04E-06 58. în celula D42 şi a estimatorii: a ˆ i 2 = 72. iar modelul este ˆ 0 2 = 72. din Tabelul 1. F Regression 1 9681.694 Observations 10 ANOVA df SS MS F Signif.9 Coeff.0180 12. în celula D43. teoretic). următoarele rezultate: 2 un coeficient de corelaţie liniară între variabilele x şi y. adică A31:A40. în F32:F40.Pentru al doilea eşantion se determină cu funcţii sau din tabela de regresie. care arată că modelul liniar este bine ales şi explică variaţia variabilei y. care arată o legătură de intensitate mare şi se poate obţine cu funcţia =CORREL(E31:E40. ˆ1 2 = 0. la Y Values.4656 0. declarând la X Values blocul B2:K2. la X Values declarându-se A31:A40.317 9681. y - un coeficient de determinaţie R2=0.23 ⋅ xi .23 .

teoretic). iar la Y Values.5. la X Values s-a declarat blocul variabilei x.230 210 190 170 profit (mii euro) Ajustarea profitului în funcţie de număr de angajaţi-e ş antionul 1 150 130 110 90 70 50 0 50 100 150 200 250 300 350 400 450 500 550 ymed. E31:E40 şi dreapta de regresie a eşantionului al ˆ i 2 (yt2). ymed. Valorile empirice din eşantionul 1 şi ajustarea lor Graficul din Figura 1.6. conţine: dreapta de regresie a populaţiei (în legendă. valorile variabilei y pentru eşantionul al doilea (y2). doilea. adică D31:D40.e ş antionul 2 210 190 170 profit (mii euro) 150 130 110 90 70 50 0 50 100 150 200 250 y2 300 350 yt2 400 450 500 550 ymed.6.teoretic număr angajaţi (persoane) Figura 1. blocul F31:F40. y Ajustarea profitului în funcţie de numărul de angajaţi . Valorile empirice din eşantionul 2 şi ajustarea lor 28 .teoretic y1 yt1 număr angajaţi (persoane) Figura 1.

26 ⋅ xi .78 + 0.86 + 0.643 0.6 + 0.24 ⋅ xi . xi 50 50 50 100 100 150 200 200 200 250 300 300 yi 60 83 92 107 110 105 120 125 120 125 152 155 ˆi3 y 84 84 84 96 96 108 120 120 120 132 144 144 300 350 350 400 400 450 500 500 50 71.64 + 0. y ˆ i 2 = 72. Eşantionul 3 şi ajustarea prin estimatorii săi 29 . teoretic). n=20.teoretic număr angajaţ i (persoane) Figura 1.915 R2 Tabelul 1. Valorile empirice din eşantioane şi ajustările lor Legenda graficului arată aceeaşi marcatori pentru valorile empirice observate ale profiturilor medii lunare şi marcatori diferiţi pentru fiecare din cele trei drepte de regresie. de exemplu.9566 şi un coeficient de determinaţie R2=0. se observă că y ˆ1 sunt apropiaţi de valoarea a1 . Comparând ecuaţiile de regresie ale celor două eşantioane: ˆ i 1 = 69. Ajustarea liniară a profitului în funcţie de numărul de angajaţi 230 210 190 profit (mii euro) 170 150 130 110 90 70 50 0 50 100 150 200 y1 250 y2 300 yt1 350 yt2 400 450 500 550 ymed. cu un reunite într-unul singur.23 ⋅ xi cu ecuaţia de regresie a populaţiei: E ( y / xi ) = 66.Pe graficul din Figura 1.7 s-au reprezentat: dreapta de regresie a populaţiei (în legendă. atunci noul model obţinut este: y coeficient de corelaţie r = 0.9152. estimatorii a Dacă s-ar alege un eşantion de volum mai mare. y1 şi y2).6.6. ymed. din regresia populaţiei. cele două drepte de regresie ale eşantioanelor (yt1 şi yt2).25 ⋅ xi . cele două eşantioane ˆ i 3 = 71. valorile variabilelor y pentru cele două eşantioane (în legendă.956 rxy3 136 135 153 156 170 170 204 202 60 144 156 156 168 168 180 192 192 84 ˆ03 a ˆ1 3 a 0.239 0.7. în Tabelul 1.

decât celelalte două modele. că fiecare din cele trei modele prezentate. Keynes spune: “Legea psihologică fundamentală…este că oamenii sunt dispuşi de regulă şi în medie.Dreapta de regresie obţinută pe baza datelor din eşantionul 3 şi prezentată în Figura 1. valorile teoretice sunt diferite. dar nu tot cu atât cu cât creşte venitul”. 3 3 Ajustarea profitului în funcţie de numărul de angajaţi . pentru că şi valorile estimate ale coeficienţilor a 0 şi a1 sunt diferite.8. .teoretic număr angajaţ i (persoane) Figura 1. datorită valorii mari a coeficientului de determinaţie. pentru estimarea parametrilor ecuaţiei de regresie a populaţiei. Se poate afirma însă.8. se poate presupune că este liniară. este bun. R2. Exerciţiu .e ş antionul 3 230 210 190 profit (mii euro) 170 150 130 110 90 70 50 0 50 100 150 200 250 y 300 350 yt 400 450 500 550 ymed. diferă de celelalte două. aceasta este înclinaţia marginală spre consum.Calculul estimatorilor modelului de regresie simplă Referitor la funcţia dintre consum şi venit. să îşi crească consumul pe măsură ce le creşte venitul. 9. anterior calculate. Valorile empirice din eşantionul 3 şi ajustarea lor Modelul calculat pe baza datelor din eşantionul al doilea are un coeficient de determinaţie mai mare decât celelalte două eşantioane. pentru simplitate. Deşi Keynes nu specifică forma funcţională exactă a relaţiei dintre consum şi venit. care este mai mare ca 0 şi mai mică decât 1. Acesta poate fi o variantă mai bună.

testul Fisher de verificare a semnificaţiei globale a regresiei.45 155 240 146.73 110 160 105. Cheltuieli de Venitul xi ˆi y consum yi 70 80 65. y ˆ1 . dintr-o populaţia ipotetică. dispersia reziduurilor.7. varianţele şi erorile standard ˆ 0 şi a Se cer estimaţiile coeficienţilor a ale estimatorilor.82 Tabelul 1. utilizarea tabelei de regresie din Tools / Data Analysis / Regression.7. ca fiind consecinţe ale ipotezei de normalitate a erorilor.64 150 260 156.45 + 0. exprimate în € şi prezentat în Tabelul 1. Analiza cheltuielilor în funcţie de venituri ˆ0 Valorile teoretice obţinute. 31 . estimat cu o anumită probabilitate.27 140 220 136. va fi considerat un eşantion de 10 familii. ˆ1 . precum şi intervalul lor de încredere.91 115 180 116. coeficientul de corelaţie şi coeficientul de determinaţie. cu modelul: şi a 10. ˆ1 ai parametrilor a 0 şi a1 din ecuaţia de ˆ 0 şi a teste de verificare a semnificaţiei estimatorilor a regresie a populaţiei.18 65 100 75.09 120 200 126.Pentru exemplul numeric.51xi sunt prezentate în Tabelul 1. pentru care se cunosc cheltuielile de consum şi veniturile lunare.55 95 140 95. Se recomandă utilizarea formulelor prezentate mai sus şi apoi pentru verificare.36 90 120 85.7. după estimarea coeficienţilor a ˆ i = 24. covarianţa lor. Consecinţe ale ipotezelor: construirea testelor Pe baza ipotezelor modelului liniar de regresie se pot construi: teste de verificare a semnificaţiei estimatorului varianţei erorilor şi intervalul de încredere al estimatorului varianţei erorilor.

o eroare de specificare.8.8 şi consumul incompresibil (sub care nu se poate asigura un trai normal) este 1. . care sunt susceptibili de a explica pe y. b) Considerând că erorile de observare urmează o lege normală de medie 0 şi varianţă 20000. Evoluţia venitului mediu lunar/locuitor ($) Ştiind că înclinaţia marginală spre consum este 0. 32 . care se datorează faptului că o singură variabilă explicativă nu este suficientă pentru a caracteriza fenomenul de explicat. în perioada 1993-2002. să se genereze un consum aleator. se cere: a) Să se calculeze consumul teoretic în perioada 1993 . măsoară diferenţa între valorile reale observate ale lui y.o eroare de măsurare . Acest termen εt.n .de la un eşantion la altul.8.o eroare de fluctuaţie a eşantionării . . pentru o ţară.Rolul termenului aleator Termenul εt din modelul regresiei simple: y t = a0 + a1 xt + ε t (t=1. Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 Venit 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 Tabelul 1.10. Exerciţiu . observările şi estimatorii sunt uşor diferiţi.1. dacă relaţia specificată ar fi fost riguros exactă. şi valorile care ar fi fost observate. multitudinea de alţi factori. Exerciţiul foloseşte datele din Tabelul 1. care reprezintă venitul mediu lunar/locuitor.000.2002. în ansamblul său. în afara lui x.datele nu reprezintă exact fenomenul.dacă modelul este specificat în serie temporală) sintetizează ansamblul informaţiilor neexplicate de model. Termenul aleator regrupează trei feluri de erori: . exprimat în dolari.

foarte apropiat de 1.. se preferă să se lucreze cu erorile generate aici). De aceea. pentru a genera şi erori negative.9.8 xt . prin copiere în acelaşi bloc de celule. Acesta este un demers invers.. aceste valori să se transforme cu Values. 20000). cu Paste Special. εt →N(0. cu o comandă: =(RAND()*100+RAND()*100)*(-1)^(ROUND(RAND()*10. de exemplu. Generarea variabilei aleatoare se realizează cu un generator de numere aleatoare. care este un număr subunitar pozitiv.0). cu 200. Generarea de numere aleatoare se poate realiza. Tabela de regresie y=f(x). care indică o intensitate puternică între consum şi venit. respectiv. Această formulă poate fi diferită. Aceste diferenţe reprezintă o consecinţă a extragerii unui eşantion de volum mic (zece observări). care arată ca modelul liniar al venitului este foarte bun pentru explicarea variaţiei consumului/locuitor. Rezultatele obţinute de cei care lucrează acest exerciţiu nu pot fi identice cu cele din Tabelul 1.9 (cu excepţia cazului când. iar yt. care să îndeplinească condiţiile pentru medie şi dispersie.56 şi a observate. un coeficient de ˆ 0 = 971. se copiază şi pentru restul anilor. sunt uşor diferite de valorile teoretice: 19 faţă de 0. unde xt este venitul/locuitor. Se vor obţine rezultate diferite ale erorilor la fiecare nouă operaţie pe spreadsheet.9979.). rezultatul generării prin funcţia RAND(. Calculele pentru întrebările a) şi b) sunt prezentate în Tabelul 1.Consumul teoretic se calculează prin formula: y t = 1000 + 0. de exemplu.804 . precum şi un coeficient de determinaţie de 0. iar yt este consumul/locuitor. 33 . pentru a pune în evidenţă rolul erorilor şi distincţia între ecuaţia de regresie a populaţiei şi cea a eşantionului. erorile de observare. Media şi varianţa acestor erori generate. 10056. dealtfel) la valorile teoretice. Formula odată scrisă pentru primul an 1993. furnizează estimaţiile coeficienţilor: a corelaţie de 0. 500 sau 1000). de cea prezentată (se poate înmulţi. consumurile ˆ1 = 0. generate. care conţine înmulţirea cu (-1) ridicat la o putere obţinută ca partea întreagă a unui număr până la 10. reale.99893. unde valorile xt reprezintă veniturile observate. se recomandă ca atunci când s-au generat nişte erori. Valorile observate sunt empirice. Consumul observat se calculează adăugând la consumul teoretic.8+εt. În realitate valorile observate conţin deja erorile. faţă de 20000. obţinut cu modelul de regresie a populaţiei: yt=1000+0. şi nu se pot obţine invers prin adăgarea erorilor (necunoscute.

Corelaţia dintre venitul şi consumul mediu lunar.56 + 0.(date convenţionale) Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 Venitul xt 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 media dispersia ˆ t populaţie y 7400 8200 8600 8600 8840 9800 10600 11400 13000 13800 Erori et -103 143 -145 72 65 131 -91 58 64 -2 19 10056 yt observat 7297 8343 8455 8672 8905 9931 10509 11458 13064 13798 ˆ t regresie y 7405 8210 8612 8612 8853 9818 10622 11427 13035 13839 Tabelul 1. 15000 14000 13000 consumul/locuitor 12000 11000 10000 9000 8000 7000 7000 Corelaţia dintre venitul ş i consumul pe locuitor 9000 y 11000 13000 y teoretic 15000 17000 venitul/locuitor Figura 1.9 este de tip Scatter (X. prin generarea erorilor Graficul din Figura 1.Y) şi prezintă corelaţia dintre venitul/locuitor şi consumul/locuitor.9. Se dreptei de regresie: y ˆ 0 şi a ˆ1 . au valori apropiate de parametri modelului de regresie a populaţiei observă că estimatorii a a0 şi a1 . pe locuitor 34 . Calculele în ordine inversă. după cum erorile au fost pozitive sau negative.804 xt . Consumul observat este sub forma unor puncte aflate de o parte şi de alta a ˆ t = 971.9.

pentru că sunt funcţie de această variabilă aleatoare. Testul de semnificaţie al estimatorilor Ipoteza de normalitate a erorilor ε t → N (0. Mediile şi abaterile standard ale acestor estimatori permit construirea testelor de validitate a modelului. observate pe locuitor în perioada celor 10 ani. între ele. Evoluţia asemănătoare.8 . 35 . pe locuitor în perioada 1993-2002 Graficul din Figura 1.10. Estimatorul varianţei erorilor σ ε2 . valorile adevărate a0 şi a1 . ˆ 0 şi a ˆ1 . În realitate. sunt perfect cunoscute: a 0 = 1000 .Evolutia in timp a consumului si venitului pe locuitor 18000 16000 14000 $/locuitor/an 12000 y 10000 8000 6000 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 anii x yt-regr Figura 1. aceste valori nu se cunosc. În exerciţiul prezentat. de tip Line. a consumului observat şi a venitului care fiind cam de acelaşi ordin de mărime şi aceeaşi unitate de măsură se pot reprezenta împreună pe acelaşi grafic. a celor două variabile: venitul şi consumul. în timp. ci numai consumurile şi veniturile medii.10. fiind o cronogramă. arată existenţa unei legături puternice. 10. care urmează aceeaşi lege de Estimatorii coeficienţilor a probabilitate ca şi εt. adică coloanele: xt şi yt. şi a1 = 0. Estimaţia ∑ (x i ˆ ε2 σ i − x)2 .2. Evoluţia consumului şi venitului mediu lunar. notat: σ 2 ˆa varianţei estimatorului lui a1 este: σ ˆ1 = ∑e i 2 i n−2 . σ ε2 ) permite definirea legii de probabilitate a ˆ ε2 este egal cu: σ ˆ ε2 = estimatorilor. prezintă evoluţia în timp a consumului teoretic calculat cu ecuaţia de regresie a eşantionului. sunt variabilele aleatoare.

la un prag α fixat.coeficientul a1 nu este semnificativ diferit de 0.ipoteza alternativă H0: a1 = 0 H1: a1 ≠ 0 Dacă se respinge ipoteza nulă H0. se cere: a) Înclinaţia marginală spre consum este semnificativ diferită de 0? b) Care este intervalul de încredere.1). 0 (n − 2) 2 ˆ ε2 ˆa σ σ ˆ = n − urmează o lege χ 2 cu n-2 grade de libertate. Sub ipoteza H0. cea din Figura 1. ˆa σ ˆ0 ˆ1 − a1 a urmează o lege Student cu n-2 grade de libertate. variabila explicativă venitul anual/locuitor. atunci înclinaţia marginală spre consum este considerată. Problema se rezolvă pornind de la teoria testelor. adică un risc de a respinge H0. care urmează o lege Student cu n-2 ˆa ˆ ˆ σ σ σ ˆ1 ˆ1 ˆ1 a a ∗ grade de libertate şi t a ˆ1 se numeşte raţie Student. nu va fi considerată ca fiind explicativă pentru consum. la un nivel de semnificaţie de 95%. de 5%.05. ˆ1 este. ( 2 ) 2 2 σε σ aˆ Rezultă că: ˆ 0 − a0 a urmează o lege Student cu n-2 grade de libertate.11: Distribuţia de eşantionaj a estimatorului a 36 . ˆa σ ˆ1 Testul de semnificaţie al estimatorilor şi intervalele de încredere ale acestora apar ca fiind consecinţe ale ipotezei de normalitate a erorilor. Pragul de semnificaţie cel mai des utilizat este α=0. 2 σε σ aˆ 1 σa ˆ urmează o lege normală centrată redusă N(0. ca fiind semnificativ diferită de 0. Utilizând datele din exerciţiul prezentat. relaţia ˆ −0 a ˆ ˆ1 − a1 a a ∗ devine 1 = 1 = ta ˆ1 . în mod neîntemeiat. pentru înclinaţia marginală spre consum? În cazul unui răspuns negativ la prima întrebare . pentru că are un coeficient de ponderare nul. folosind următoarele ipoteze: .ipoteza nulă .Ipoteza de normalitate a erorilor implică: (n − 2) ˆ1 − a1 a şi ˆ 0 − a0 a ˆ ε2 σ urmează o lege χ 2 cu n-2 grade de libertate.

concret: y ˆ t = 971. Coeff.79 0.37 60.56 + 0.556 0. Raţia Student este calculată şi în tabela de regresie.05 este următoarea: dacă t a ˆ1 > t n − 2 se respinge H0.804 xt .10. +∞ ˆ1 Figura 1.54 0. Intercept X Variable 1 971. variabila explicativă contribuie la explicarea variaţiei lui y. abaterea sa: σ ˆ1 = ˆ1 = V ( a Dispersia reziduurilor se poate obţine şi prin ridicarea la puterea a 2-a a valorii Standard Error din tabela de regresie.000216 5.83E-12 Lower 95% 619.H0 cu probabilitatea P=1-α H1 α/2 −∞ − t n − 2 grd .025 ∗ se acceptă H0 (a1 = 0) .95 P-value 0.32 0. se pot obţine: estimaţia ∑e i 2 i n−2 = ∑(y i i ˆi )2 −y . care reprezintă abaterea medie pătratică a valorilor yt faţă de valorile ˆ t .11. Distribuţia de eşantionare a estimatorului a 0.835 Tabelul 1. Coeficientul este semnificativ diferit de 0.lib .804 Standard Error 152. dispersia lor: σ Se pot calcula reziduurile et = yt − y Aplicând ˆ1 ) = V (a formulele.013 t Stat 6. se acceptă H1 (a1 ≠ 0) .025 + tn − 2 grd . 0. α / 2 = 0. care se poate vedea în Tabelul sale teoretice y 1. din tabelele statistice ale funcţiei Student. prin ecuaţia de regresie: Cu modelul y t = a ˆt = a ˆ0 + a ˆ1 xt . se respinge H1. variabila explicativă nu contribuie la explicarea variaţiei lui y. ˆ0 + a ˆ1 xt + et se pot estima valorile teoretice y ˆ t .10.774 Upper 95% 1323. Se compară valoarea calculată a raţiei Student cu cea teoretică. pentru n-2 grade de libertate şi un prag de semnificaţie α/2. y ˆ ε2 = ˆ t .025 ∗ Regula de decizie pentru un prag α=0. Estimatorii regresiei liniare simple şi intervalele lor de încredere 37 . ˆ1 : a n−2 varianţei ˆ1 a . ˆa σ ˆ1 estimatorului ∑ (x i ˆ ε2 σ i − x)2 ∗ ˆa ˆ1 ) şi raţia Student t a . Coeficientul nu este semnificativ Dacă t a ˆ1 < t n − 2 diferit de 0. partea referitoare la coeficienţi.025 H1 α/2 I a1 α / 2 = 0.lib.

11. Valoarea raţiei Student este 6. ∗ ta ˆ1 = ˆ1 a 0. şi este cuprinsă în intervalul de încredere.0132 ⋅ 2.8042 0.95: IC a1 = 0. În acest exerciţiu.306. Pentru un nivel − 2 .367 / 8 F * urmează o lege Fisher cu 1 şi 8 grade de libertate.369 > 2.8 .4. ˆ 0 este de [619. Intervalul de încredere pentru estimatorul a valoarea parametrului a0 este 1000.32 .Dacă se utilizează tabela de regresie nu mai este nevoie de compararea amintită. este foarte mică. unde SCR /( n − 2) 11169. Tabelul de analiză a varianţei – testul Fisher Tabelul de analiză a varianţei din tabela de regresie este prezentat în Tabelul 1. Testul empiric F * de analiză a varianţei este: F* = 41494953.068 . 1323.7 / 1 SCE / 1 = = 3715.0216%.83]. valoarea pragului de semnificaţie α.05 8 = 5. În acest exerciţiu. Şi estimatorul a fapt indicat şi de P-value care este de 0.77. ˆ 0 este semnificativ diferit de 0. ceea ce este coerent cu rezultatul diferenţei semnificative faţă de 0 a coeficientului.306 .0132 σ ˆ1 Se respinge ipoteza nulă.3]. deci probabilitatea P=1-α. Există un risc de 5% ca adevăratul coeficient să se găsească în exteriorul acestui interval. deci este cuprinsă în interval.95 > t 8 = 2. se ştie ca valoarea lui a1 este de 0. valoarea teoretică este F10si. Se constată că acest interval nu cuprinde valoarea 0. unde ˆa ˆa σ σ ˆ1 ˆ1 de semnificaţie 0. 38 . se acceptă ipoteza H1: a1 ≠ 0 . de garantare a rezultatelor este de 100%.804 ± 0. ˆa 0. Pentru α=5%.025 = = 60.8. Intervalul de încredere al estimatorilor α /2 ˆ1 ± σ ˆa Intervalul de încredere al parametrului a1 este: IC a1 = a ˆ1 ⋅ t n − 2 .3. Fie ˆ1 − a1 ˆ1 − a1 a a α /2 = tn urmează o lege Student cu n-2 grade de libertate. 10. 10. pentru ca Excel-ul furnizează la P-value. care aici.306 . estimatorul coeficientului a1 este semnificativ diferit de 0. Intervalul de încredere este [0. 0. aproape 0.

9978 R2 = = = 3715 . se acceptă ipoteza H1. În practică. ˆy ˆε ˆ n +1 = σ Abaterea medie pătratică a erorii de previziune este: σ 1 ( x n +1 − x ) 2 + n +1 .3673 F 3715.83E-12 Tabelul 1. deci coeficientul variabilei explicative. ˆ0 + a ˆ1 xt + et . en +1 = (a 0 + a1 x n +1 + ε n +1 ) − (a Făcând apel la ipotezele modelului E (en +1 ) = 0 şi E (en + h ) = 0 . cunoaşterea unei previziuni este puţin utilă.7 11169.n.….9978) /(10 − 2) 0. 2 (1 − R ) /(n − 2) (1 − 0. varianţa explicată diferă semnificativ de cea a . n 2 ∑ ( xt − x ) t =1 39 .0002686 . dacă nu se ştie gradul de încredere care să i se acorde.11. Se calculează varianţa erorii de previziune care permite determinarea unui interval de încredere pentru previziune. tabelul ANOVA pentru regresia liniară simplă Testul Fisher în funcţie de coeficientul de determinaţie.8 ˆ1 .ANOVA Regression Residual Total df 1 8 9 SS 41494954 89354. regresia este global reziduurilor. ∗ 2 2 La regresia simplă: F ∗ = (t a ˆ1 ) = (60.9978 0.32 . Dacă valoarea variabilei Pentru perioada t=1.95135) = 3715. este semnificativ.2. Intervalul de încredere al previziunii cu modelul regresiei simple După estimarea coeficienţilor modelului de regresie simplă.068 .068 Significance F 5. pentru că semnificaţia globală a ˆ1 . este: F* = 0. fie modelul estimat y t = a ˆ n +1 = a ˆ0 + a ˆ1 xn +1 . previziunea este dată de: y ˆ n +1 şi se poate scrie: Eroarea de previziune este: en +1 = y n +1 − y ˆ0 + a ˆ1 x n +1 ) = (a 0 − a ˆ 0 ) + (a1 − a ˆ1 ) x n +1 + ε n +1 . O previziune nedeplasată se obţine prin aplicarea directă a modelului de regresie estimat. a semnificativă. regresiei se rezumă la verificarea semnificaţiei coeficientului a 11.05 Cum F * > F10 = 5. se poate trece la calculul unei previziuni pentru un orizont de previziune h.94 41584309 MS 41494953. R2. explicative xt este cunoscută la momentul n+1(xn+1).

Previziuni ale variabilei endogene Tabelul 1. εt.În această formulă. se calculează dreapta de tendinţă după modelul specificat astfel: ˆ0 + a ˆ1t + et pentru t=1. Tt = a Pentru a calcula previziunea pentru orizontul h. Rezultă intervalul de încredere IC al variabilei y la n+1: α /2 ˆ n +1 ± t n ˆ ICy n +1 = y −2 ⋅ σ ε 1 ( x n +1 − x ) 2 + +1 n ∑ ( xt − x ) 2 t Caz particular: Când se utilizează modelul regresiei simple pentru o serie cronologică. Totodată se observă că varianţa erorii de previziune este o funcţie inversă a variabilităţii seriei explicative.2.12. Ipoteza de normalitate a erorilor. Intervalul de încredere pentru previziunea prin extrapolarea tendinţei 11. se înlocuieşte valoarea variabilei t cu n+h pentru ˆ0 + a ˆ1 (n + h) + et . Exerciţiu .12 conţine cheltuielile de consum medii lunare/locuitor. 40 .…. iar intervalul de încredere se găseşte pe două braţe de hiperbolă: extrapolare: Tt = a (n + h − t ) 2 . în perioada 1993-2002.1.n. exprimat în $. varianţa erorii de previziune este funcţie de abaterea medie pătratică între variabila exogenă prevăzută şi media aceleiaşi variabile: cu cât acestă valoare prevăzută se abate mai mult de la media sa. ilustrate în graficul din Figura 1. pentru ţara A. cu atât riscul erorii este mai important.12: Figura 1. permite determinarea intervalului cu o încredere P=1-α: Fie raportul t ∗ = ˆε σ ˆ n +1 − y n +1 y 1 + n ( x n +1 − x ) 2 = +1 ˆε σ ˆ0 + a ˆ1 x n +1 − y n +1 a 1 + n ( x n +1 − x ) 2 → t n −2 (care urmează o lege +1 ∑ (x t =1 n t − x) 2 ∑ (x t =1 n t − x) 2 Student cu n-2 grade de libertate). yt şi venitul mediu lunar/locuitor. xt.

n = 10.4 ) = 25730.13 n s-au calculat valorile: SSR (Sum Squares n of Residues) ˆ t ) 2 = ∑ et2 . 2) Care este consecinţa asupra consumului a unei creşteri de 8% a venitului? 3) În 2003 şi 2004 se prevăd venituri de 16800$ şi 17000$ venit/locuitor.5. prezentate în paragraful 1. raţia Student pentru estimatorul a raportând estimatorul la abaterea sa şi se află în coloana t-Stat. modelul consum . SSE (Sum Squares Explained) SSE = ∑ ( y ˆ t − y ) 2 .4) (. la Standard Error.97) (160. 1) Să se calculeze coeficientul de determinaţie şi să se efectueze testul Fisher. Dispersia reziduurilor se utilizează în formulele de calcul ale varianţelor estimatorilor. Se calculează dispersia reziduurilor. apoi abaterea reziduurilor.77 . În n Tabelul 1. Să se determine previziunea consumului pentru cei doi ani. în Tabelul 1.(date convenţionale) Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 media Venitul xt 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 11280 Consumul yt 7410 8267 8664 8645 8921 9766 10645 11425 12963 13714 Tabelul 1. se ˆ1 se calculează regăsesc în partea a treia a tabelei de regresie.7.) = raţia t Student. Se utilizează formulele din paragraful 1. este testul Student empiric al estimatorului a1 .785 xt + et (20.venit estimat este: y t = 1186.45 + 0. calculate cu funcţia =SQRT(). Abaterile estimatorilor. prin care se determină dacă regresia este global semnificativă.13. Venitul şi consumul mediu lunar/locuitor Pentru aceste date. care se regăseşte în prima parte a tabelei de regresie. şi intervalele de încredere cu o probabilitate de 95%. * 2 * 2 ˆ F * = ( ta ˆ 1 ) = ( 160. Soluţie: 1) Pentru a calcula coeficientul de determinaţie se utilizează relaţiile testului Fisher empiric. SST (Sum SSR = ∑ ( y t − y t =1 t =1 n t =1 Squares Total) SST = ∑ ( y t − y ) 2 . unde t . întotdeauna cea explicată raportată la cea 41 . Testul Fisher se poate calcula ca raport între două dispersii corectate cu gradele de libertate.12. t =1 Se verifică relaţia dintre aceste sume: SST = SSR + SSE .

73 39. Se observă că valoarea Fisher calculată după oricare din formule.2 1068.175 319504.8 grd .785 SS 39541188 12293.35 . ˆ0 ) var(a ˆ0 ) abat.45 0.1 223.1 1350006.774 Upper95% 1316.00489 160.00489 MS 39541188 1536.4 0. Std.2 1672. = 5.9998 0.rez.82 39553482 Std.reziduală: F = SSE / 1 .931 0. Se calculează şi F * = 25730.41 56. rezid SUMMARY OUTPUT Regression Statistics Multiple R R Square Adj. De asemenea se mai poate verifica valoarea coeficientului de determinaţie: R 2 = SSE sau SST R2 = 1− SSR = 1 − N 2 . R 2 = r 2 = 0.lib .408 25730.58 2.4 3203923.4 1425.5522E-15 SSE 39541188 SSR+SSE SST 39553482 39553482 ˆ1 ) var(a ˆ1 ) abat. (a Raţiat (a ˆ1 ) Fisher F 25730.9997 39. R Sq.775 P-value 0.775 Signific.1 1952776.000 0.20 3201.39E-05 0. unde valoarea foarte SSR /(n − 2) globale a regresiei liniare.5 377.796 Tabelul 1.8 1536. ANOVA Regression Residual Total Intercept XVariable1 0. SST Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 medii sume Venitul xt 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 16800 17000 11280 până în 2002 10042 până în 2002 64156000 disp. ( a Consum yt 7410 8267 8664 8645 8921 9766 10645 11425 12963 13714 yteoretic 7467 8252 8645 8645 8880 9822 10607 11392 12962 13748 14376 14533 ( xt − x ) 2 10758400 5198400 3168400 3168400 2190400 78400 518400 2958400 13838400 22278400 ˆt )2 ( yt − y 3247. Err Obs.20 10 df 1 8 9 Coeff.969 160.99967 .05 .13.3 1123. 1186. şi anume de 6.6 3156.978 0. 2 (1 − R ) /(n − 2) arată că regresia şi implicit variabila explicativă (singura) este semnificativă.581 0. este aceeaşi şi este egală cu cea furnizată de tabela de regresie.77 > F10 si .83 1823347 8529004 13730819 ( yt − y) 2 6927424 3150625 1898884 1951609 1256641 76176 363609 1912689 8532241 13483584 SSR 12293.F 2.4 1952776. Valorile sumelor se regăsesc în tabelul ANOVA.5 48320.727 t Stat 20.408 abatere. Acelaşi rezultat se obţine şi cu formula: mică a pragului de semnificaţie Significance F arată o probabilitate de 100% de garantare a semnificaţiei F* = R2 . Calculele şi tabela de regresie 2) Creşterea cu 8% a venitului duce la o creştere mai mică a consumului.28%.1 ˆ t − y) 2 (y 6630711. 42 . unde N2 este coeficientul de nedeterminaţie.9997 0.0 0.000 Lower 95% 1055. Error 56.

306 ⋅ 49. Exerciţiu . Previziunea are o şansă de 95%.8 xi + ei . se calculează ca previziuni punctuale.0628 ∆y t = a 3) Cunoscându-se valorile veniturilor. x = 11280 .8) (2.2 . ICy 2004 = y + +1 n ∑ ( xt − x ) 2 n ∑ ( xt − x ) 2 t t ∑ (x t t α /2 − x ) 2 = 64156000 .45 + 0.7 xi + ei . α /2 1 ( x 2003 − x ) 2 1 ( x 2004 − x ) 2 α /2 ˆ 2004 ± t n − 2 ⋅ σ ˆε + + 1 .3) (5.785 × 16800 = 14376 y ˆ 2004 = 1186.5) (·) raţia Student 1) Este semnificativă durata studiilor asupra salariului? 2) Ştiind că salariul mediu al bărbaţilor este 6.8 milioane lei. utilizând modelul estimat: ˆ 2003 = 1186. R2=0.787 x 2003 = 1186. cu o probabilitate de 95%.Compararea coeficienţilor de regresie (Problemă preluată şi adaptată din „Econometrie”. n2=25. σ ε = 39.08 = 0.306 . Paris.2. Pentru 2004: x 2003 = 17000 . Regis Bourbonais. R2=0. Estimaţiile sunt următoarele: Pentru bărbaţi: y i = 112. exprimat în ani de studiu. Ed.45 + 0. i=1. t n − 2 = 2. 1993) Un economist specialist în managementul resurselor umane se interesează de legătura dintre salariu şi durata studiilor.45 + 0. previziunile cheltuielilor de consum în anii 2003 şi 2004. El dispune de un eşantion de 40 de bărbaţi şi 25 de femei.ˆ1 ∆xt . Pentru anul 2003: x 2003 = 16800 .25. IC2003 = [14262 .306 ⋅ 49. i=1.785 ⋅ 0.9 milioane lei şi cel al femeilor este 5.…. 12. IC2004 = [14418 .785 × 17000 = 14533 y Se pot calcula intervalele de încredere. având aceeaşi vârstă şi cărora le înregistrează salariul pe un an (yi) exprimat în milioane lei şi numărul de studii (xi).2) Pentru femei: y i = 87.74 . ∆y t = 0. să se afle în interiorul intervalului. ICy 2003 = 14376 ± 2. 14647].40 ni=40.80 + 1.45 + 0.20 + 0.785∆xt = 0. pentru previziunile celor doi ani: ˆ 2003 ± t n − 2 ⋅ σ ˆε ICy 2003 = y Se cunosc informaţiile: n=10.42 (9. să se stabilească dacă există diferenţă semnificativă între salariul bărbaţilor şi cel al femeilor? 43 .2.22 (12. 14489]. ICy 2004 = 14533 ± 2.….787 x 2004 = 1186. Dunod.2 .

respectiv 0. t 40 . Rezumat: Aceast capitol prezintă modelul regresiei multiple.05 α = 0.05 = 2.pentru femei: t F − 2 = 23 grd. Se respinge ipoteza nulă.28 2 2 0. 44 . decât în cazul bărbaţilor.Soluţie: 1) Se analizează fie raţiile Student. sunt: H 0 : aB = aF . lib.96 * 0.34 + 0. În acest caz se testează diferenţa dintre coeficienţii a două regresii (valorile1. Exemplele oferă explicaţii pentru înţelegerea obiectivelor capitolului.05 α = 0. t ∗ = estimatorul abaterea std.05 . Testul Fisher conduce la aceleaşi rezultate.8. = 2. şi estimatorii se pot obţine abaterile lor tip (abaterile standard): σ B = 0. 2) Problema se rezumă la un test de diferenţă a mediilor variabilelor aleatoare normale ˆ1 ai celor independente şi a varianţelor inegale. fie coeficientul de determinaţie. Există o diferenţă semnificativă între coeficienţii de regresie: durata studiilor la femei are un impact mai mic asupra salariului.346 şi σ F = 0. intervalele lor de încredere. Raţia Student pentru variabila “anii de studiu” este: * 0.pentru bărbaţi: t B = 5.28 . H1 : d = aB − aF ≠ 0 Raportul: ˆB − a ˆ F ) − (a B − a F ) (a urmează o lege Student cu n1 + n2 − 3 grade de libertate. coeficientul de ponderare a anilor de studii este mai mic şi mai puţin semnificativ ca cel pentru bărbaţi. lib. testarea validităţii lor şi a regresiei. = 1.05 = 2.49 > t 62 = 1.96 . H 0 : d = aB − aF = 0 H1 : aB ≠ aF . Ipoteza nulă şi cea alternativă ale unui test bilateral. Se observă că pentru femei. Cunoscând raţiile Student.7).06 Cei doi coeficienţi sunt semnificativi diferiţi de 0.5 > t 23 . ipoteze de lucru.2 > t 38 − 2 =38 grd.7) 0.8 − 0. estimarea coeficienţilor modelului. raportul se scrie: t* = ˆ d = ˆ dˆ σ (1. ˆa σ ˆB −a ˆF 2 2 2 ˆd ˆa ˆa Sub ipoteza nulă H 0 : a B = a F şi cu σ ˆ =σ ˆF + σ ˆ B . t 25 . previziunea cu modelul regresiei simple.

Termeni importanţi: Model de regresie simplă. La ce se referă testul t Student? 7. Stabiliţi diferenţa între modelul de regresie al populaţiei şi modelul de regresie al eşantioanelor 3. estimatori. proprietările estimatorilor. Care sunt proprietăţile estimatoruilor modelului de regresie? 5. parametri. erori. ipotezele modelului de regresie. 6. reziduuri. Cum apreciaţi validitatea unui model? Teme de casă Parcurgeţi exemplele din curs utilizând calculatorul. tabela de regresie Întrebări recapitulative 1. Ce este liniaritatea? 4. 45 . testul F. testul t. ANOVA. Enumeraţi ipotezele modelului de regresie 2. realizaţi graficele şi tabela de regresie. Reprezentaţi tabelul de analiză a varianţei ANOVA si testul F pentru regresia simplă.

Analiza grafică a influenţei variabilelor explicative asupra variabilei dependente y 5.CAPITOLUL 2 Tema Obiectivele MODELUL REGRESIEI SIMPLE 1. aplicaţii practice pentru studenţi .1.parcurgerea aplicaţiilor propuse 1.4.4. explicaţii . Verificarea stabilităţii în timp a modelului – testul CHOW 6. Introducerea uneia sau mai multor variabile explicative în model 6. probleme ce apar.1. Teste statistice şi analiza varianţei 6. Ipotezele şi proprietăţile estimatorilor 4. Exerciţiu – Previziuni folosind modelul regresiei multiple 1. Analiza varianţei şi calitatea ajustării 5.1.definiţii. Compararea unui parametru ai cu o valoare fixată a 6.2. supuse analizei. Exerciţiu – Modelul regresiei liniare multiple 5.2.citire/învăţare . explicaţii ce trebuie reţinute .5. Pentru rezolvarea temelor: 12 ore + timpul de documentare Finalitatea Competenţe dobândite Mijloace Evaluarea Timp de lucru necesar 46 .4.teme de casă. Analiza varianţei – testul Fisher de semnificaţie globală a regresiei 6.1.2. Exerciţiu – Teste pornind de la analiza varianţei 7. Analiza grafică a evoluţiei în timp a variabilelor considerate 5. Teste pornind de la analiza varianţei modelului liniar 6. Estimarea coeficienţilor de regresie 3. Construirea modelului econometric 6.situaţii economice concrete.întrebări.3.1.3. Pentru cunoaşterea problemei: 6 ore 2.1. Modelul liniar general 2. Analiza grafică a corelaţiilor între variabile 4. conţinutul tabelei de regresie multiplă 3. Obţinerea automată a tabelei de regresie multiplă. Previziuni folosind modelul regresiei multiple 7. Realizarea de previziuni cu modelul regresiei multiple . Construirea testelor statistice 6. exemple (sub lupă) . Estimarea coeficienţilor modelului de regresie multiplă 2. Execiţiu – Teste asupra coeficienţilor 6.

. + a k x kt + ε t . Pentru serii temporale. modelul este: y t = a 0 + a1 x1t + a 2 x 2t + ..1)=(n.. x2t = variabila explicativă 2 la timpul t. necunoscută (diferenţa dintre modelul adevărat şi cel specificat).. Regresia multiplă analizează legătura dintre o variabilă explicată y şi mai multe variabile explicative x1.. y t = a 0 + a1 x1t + a 2 x 2t + . x1t = variabila explicativă 1 la timpul t. + a k x k1 + ε 1 y 2 = a 0 + a1 x12 + a 2 x 22 + . xk.. Dimensiunea matricii X este de n linii şi k+1 coloane. de dimensiunile (n. n = numărul de observări... ε t = eroarea de specificare..1) Prima coloană a matricii X.1)+(n..... care depind de o singură variabilă explicativă.k+1)(k+1. compusă numai din valorile 1. .. + a k x k 2 + ε 2 . xkt = variabila explicativă k la timpul t.. 47 .. x2. + a k x kn + ε n sau sub formă matriceală: Y = X ⋅ a + ε .MODELUL REGRESIEI MULTIPLE În realitate sunt rare fenomenele. t = 1.. + a k x kt + ε t ..n.. termenul constant al cărui coeficient este 1. Modelul prezentat se poate scrie sub forma unui sistem cu n ecuaţii: y1 = a 0 + a1 x11 + a 2 x 21 + . . Modelul liniar general Modelul liniar general este o generalizare a regresiei simple.. a k = parametri modelului. 1. a1 ... ..2. unde: yt = variabila de explicat la timpul t. în care apar mai multe variabile explicative. y n = a 0 + a1 x1n + a 2 x 2 n + .. corespunde parametrului a 0 . unde k > 2.. a 0 .

.. x k 1 ⎞ ⎟ . . ⎜εt ⎟ ⎜ ............ ⎟ ⎜ ⎟ ⎜y ⎟ ⎝ n⎠ ⎛1 ⎜ ⎜1 ⎜ ..... ⎜ 2 ⎟ = ∑ x 2 t y t ⎟ ⎜ .... .. x kn ⎟ ⎠ ⎛ a0 ⎞ ⎜ ⎟ ⎜ a1 ⎟ ⎜a ⎟ a = ⎜ 2 ⎟. ⎟ ⎜ .... ⎟ ⎟....... x 2t ... .. x1n x 21 x 22 ............... ⎟ Y =⎜ ⎟..... ⎜ ⎜∑ x kt ⎝ sau altfel: ˆ0 na ∑x ∑x ∑x x 1t 2 1t 2t 1t ∑x ∑x x ∑x 1t 2t 2t .. Modelul estimat poate fi scris astfel: y ˆ0 + a ˆ1 x1t + a ˆ 2 x 2t + . ⎟ ⎜ 2 ⎟ x x kt y t ⎟ ∑ kt ⎠ ⎜ ∑ ⎠ ⎝ ⎜a ⎟ ˆ ⎝ k ⎠ 2 ˆ 0 ∑ x 2t + a ˆ1 ∑ x 2t x1t + a ˆ 2 ∑ x2 a t ˆ 0 ∑ x1t + a ˆ1 ∑ x a ˆ1 ∑ x1t + a 2 1t ˆ 2 ∑ x 2t +a ˆ 2 ∑ x1t x 2t + ...... ........ 2 2t ∑x ∑x x ∑x x kt .... + a ˆ k ∑ x1t x kt = ∑ x1t y t +a ˆ k ∑ x kt + .. ⎟ ⎜ ⎟ ⎜a ⎟ ⎝ k⎠ ⎛ ε1 ⎞ ⎜ ⎟ ⎜ε 2 ⎟ ⎜ .... .. care costă în minimizarea sumei S: min ∑ ε t2 = min ε ′ε = min( Y − Xa )′( Y − Xa ) = i =1 n = min( Y ′Y − Y ′Xa − a ′X ′Y + a ′X ′Xa ) = min( Y ′Y − 2a ′X ′Y + a ′X ′Xa ) = min( S ) Pentru minimizarea sumei S se derivează în raport cu vectorul a şi derivata parţială se egalează cu 0: ∂S ˆ = 0....... + a ˆ k x kt + et ........ ⎟ ⎜ ⎟ ⎜ ⎟ ⎟ . = −2 X ′Y + 2 X ′Xa ∂a ˆ = ( X ′X ) −1 X ′Y ... ⎜ yt ⎟ ⎜ ... x ∑x kt 1t ∑x kt x 2t ⎞ ⎛a ˆ ⎛ y ⎞ ⎟ ⎜ 0⎞ ⎟ ⎜ ∑ t ⎟ ˆ 1t kt ⎟ ⎜ a1 ⎟ ⎜ ∑ x1t y t ⎟ ⎟ ⎜a ⎟ ˆ ⎟ ⎜ 2 t kt ⎟ . a ˆ = X ′Y ... Estimarea coeficienţilor de regresie Modelului scris sub formă matriceală Y = X ⋅ a + ε cu n observări şi k variabile explicative.. 2 ˆ 0 ∑ x kt + a ˆ1 ∑ x kt x1t + a ˆ 2 ∑ x kt x 2t + .... ⎟ ⎜ .. ⎟ ⎟ ........... X =⎜ ⎜1 ⎜ .. ⎜ ..... ⎜ ⎜1 ⎝ x11 x12 .......... ...... ....⎛ y1 ⎞ ⎜ ⎟ ⎜ y2 ⎟ ⎜ ... x kt ⎟ ....... ⎟ ⎜ ⎟ ⎜ε ⎟ ⎝ n⎠ 2..... x k 2 ⎟ ... x2n ................... se aplică metoda celor mai mici pătrate. X ′Xa (1) ˆ = X ′Y se numesc ecuaţii normale....... + a ˆ k ∑ x kt a ˆt = a ˆ0 + a ˆ1 x1t + a ˆ 2 x 2t + ..... iar variabila observată....... ⎟ ε =⎜ ⎟....... + a = ∑ x kt y t ..... ⎟ ⎜ . în funcţie de model: y t = a 48 . + a ˆ k x kt . . + a = ∑ yt ˆ k ∑ x 2t x kt = ∑ x 2t y t + ................ x1t ........... Sistemul de ecuaţii normale scris Ecuaţiile X ′Xa matriceal este de forma: ⎛ n ⎜ ⎜ ∑ x1t ⎜ x ⎜ ∑ 2t ⎜ .................

erorile sunt necorelate (independenţa erorilor).. măsoară prin a 3. iar toate celelalte k-1 variabile rămânând neschimbate. y ) ⎟ ⎟⎜ ⎟ . de cunoscând modelul y exemplu. pentru orice i=1. b) ipoteze structurale 1.. x2. a k . Ipotezele şi proprietăţile estimatorilor Se formulează următoarele ipoteze de natură stochastică şi structurală. x k : a) ipoteze stochastice 1... vectorul a al estimatorilor se poate scrie: ˆ ⎞ ⎛a ⎜ 1 ⎟ ⎛ var( x1 ) ˆ2 ⎟ ⎜ ⎜a ⎜ cov( x 2 . ajustate... + a ˆ k x kt şi noua stare a variabilei explicative. ˆt = a ˆ0 + a ˆ1 x1t + a ˆ 2 x 2t + . 2.n – numită şi ipoteza de homoscedascticitate.. x 2 ..... ⎟⎜ ⎟ ⎟ ⎜ .. modelului populaţiei generale...... ε t ) = 0 . E (ε t ) = 0 . cov( x k . absenţa multicoliniarităţii între variabilele explicative. modificată în ( x 2t + ∆x 2t ). Valorile et sunt reziduurile.k. valorile xit.... cov( x1 . 49 .. ⎜ ⎟ ⎜ ⎜ . . x k ) ⎞⎛ cov( x1 . cov( x 2 .. y ) ⎟ .... x 3 ) var( x 3 ) .. 5. Dacă se consideră valorile centrate (faţă de media lor). y ) ⎟ ⎠ ˆ0 = y − a ˆ1 x1 − a ˆ 2 x 2 − . se obţin pe baza datelor unui eşantion. x k ) ⎟⎜ cov( x 3 . abateri între valorile observate ale variabilei de explicat şi valorile sale teoretice. x 3 ) cov( x 2 . var( x k ) ⎠⎝ cov( x k . erorile sunt independente de variabilele explicative.. . estimate. speranţa matematică a erorilor este nulă.Estimatorii parametrilor a 0 ... − a ˆ k xk ˆ 0 se obţine prin relaţia: a Estimatorul a Efectul variaţiei unei singure variabile explicative asupra variaţiei variabilei explicate y.. ⎟ ⎜ cov( x . aceasta implică faptul că matricea ( X ′X ) este regulată şi există inversa ( X ′X ) −1 . 3. în legătură cu modelul liniar în variabilele explicative. cov( x 3 . x1 ) ⎜a ˆ ⎟ ⎜ 3 ⎟ = ⎜ cov( x 3 . dacă t ≠ t ′ . i=1. E (ε t ε t ′ ) = 0 . cov( x k . x ) k 1 ⎜a ⎟ ⎝ ⎝ ˆk ⎠ cov( x1 . se ˆ 2 ∆x 2t . Se face distinţie între eroarea de specificare ε t şi reziduurile et. x1 .. care reprezintă modificarea în medie a variabilei explicate y.. x 3 ) .. x 2 ) var( x 2 ) cov( x 3 . E (ε t2 ) = σ 2 .k sunt observate fără erori. ⎟ ⎜ .. x k ) ⎟⎜ cov( x 2 . 4.. x 2 ) .. x 2 ) cov( x1 . a1 . y ) ⎞ ⎟⎜ ⎟ ..varianţa erorilor este constantă pentru orice t=1. x1 ) ⎜ . cov( xit .

E (ε n ε n ) ⎟ 0 ⎠ ⎝ 0 0 ⎞ ⎟ .. . a (4) ′ pentru că ( X ′X ) −1 este simetrică şi (( X ′X ) −1 ) = ( X ′X ) −1 .. ˆ − a)(a ˆ − a )′ = ( X ′X ) −1 X ′εε ′X ( X ′X ) −1 . atunci: E (a pentru că prin ipoteză E (ε t ) = 0 .. numărul de observări trebuie să fie mai mare decât numărul variabilelor explicative (când n=k+1. ( X ′X ) / n tinde către o matrice finită nesingulară... perfect determinat). este: Ω a X ) −1 X ′X ( X ′X ) −1 = σ ε2 ( X ′X ) −1 . a ˆ1 .. iar matricea de varianţăDin relaţiile (4) rezultă: (a covarianţă a estimatorilor... ⎟ ⎜ . Atunci matricea de ⎟ . ⎟ . Modelul regresiei multiple se poate scrie în următoarele moduri: Y = Xa + ε ˆ+e Y = Xa ˆ ˆ = Y −Y de unde reziduurile sunt: e = Y − Xa (2) ˆ = Xa ˆ Y ˆ) = a . respectiv covarianţele ˆ − a)(a ˆ − a)′] coeficienţilor de regresie: Ω a ˆ = E[( a Din ecuaţia (3): ˆ − a = ( X ′X ) −1 X ′ε şi (a ˆ − a )′ = ε ′X ( X ′X ) −1 ... Pentru a arăta că estimatorii sunt nedeplasaţi este suficient să se demonstreze că E (a Folosind formula de calcul a estimatorilor (1) şi ecuaţiile unui model liniar multiplu prezentate se obţine: ˆ = ( X ′X ) −1 X ′Y = ( X ′X ) −1 X ′( Xa + ε ) = ( X ′X ) −1 X ′( Xa ) + ( X ′X ) −1 X ′ε a = a + ( X ′X ) −1 X ′ε (3) ˆ ) = a + ( X ′X ) −1 X ′E (ε ) = a . devine: ˆ − a )(a ˆ − a)′] = ( X ′X ) −1 X ′E (εε ′) X ( X ′X ) −1 .. ˆ0 . ⎜ ⎜ E (ε ε ) E (ε ε ) n 1 n 2 ⎝ . . σ ε2 ⎟ ⎠ . 3.. E (ε 2 ε n ) ⎟ ⎜ 0 σ ε2 = .. a ˆ k au proprietăţile ca şi estimatorii regresiei simple: liniari. ˆ = σε (X ′ 50 . atunci sistemul este cu n ecuaţii şi n necunoscute..... 0 ⎟ = σ ε2 I . n > k+1. . Ωa ˆ = E[(a Matricea E (εε ′) este matricea de varianţă-covarianţă a erorilor ε : ⎛ E (ε 1ε 1 ) E (ε 1ε 2 ) ⎜ ⎜ E (ε 2 ε 1 ) E (ε 2ε 2 ) Ω ε = E (εε ′) = ⎜ ..2..... Estimatorii metodei celor mai mici pătrate sunt nedeplasaţi pentru ˆ) = a . pe baza cărora se calculează abaterile lor standard.. nedeplasaţi Estimatorii a şi eficienţi... ⎟ ⎜ ⎜ .. că E ( a Matricea de varianţă-covarianţă a estimatorilor... ... 2 varianţă-covarianţă a estimatorilor. notată cu Ω a ˆ este utilă pentru că va conţine varianţele... E (ε 1ε n ) ⎞ ⎛ σ ε2 0 ⎟ ⎜ .

2 − y) 5. se cunosc date referitoare la: . Analiza varianţei şi calitatea ajustării Ecuaţia fundamentală a analizei varianţei este cea a descompunerii varianţei totale (SST) în suma varianţei explicate de modelul de regresie (SSE) şi varianţa reziduală (SSR). .marfa livrată lunar. neexplicată. . se măsoară în număr de unităţi fizice (pet-uri 2l) încărcate într-un camion. se referă la capacitatea de utilizare eficientă a parcului auto. n − k −1 Se înlocuieşte varianţa erorilor prin estimatorul său şi se obţine o estimaţie a matricii de ˆ ˆ =σ ˆ ε2 ( X ′X ) −1 . necesar livrării produselor.pondere mărfii returnate.valoarea daune/pierderi materiale lunare. 51 . R 2 = ∑(y t =1 t =1 n ∑(y t =1 n t =1 n t ˆt )2 −y − y) 2 t ∑(y = 1− ∑e t =1 t n t ∑(y t =1 n . Ponderea varianţei neexplicate se măsoară cu indicatorul coeficientul de nedeterminaţie N2. . de varianţă minimă. din România. se spune că ˆ este convergent. arătând ponderea varianţei explicate. măsurat ca procent din total marfă livrată lunar (maxim 2%). n n n ∑(y t =1 t ˆ t − y ) 2 + ∑ ( yt − y ˆt )2 − y) 2 = ∑ ( y t =1 t =1 SST = SSE + SSR Calitatea ajustării se apreciază cu indicatorul coeficientul de determinaţie. .ˆ e2 = Dispersia erorilor se poate estima nedeplasat prin dispersia reziduurilor: σ e′e . fiind raportul ˆ ∑(y n t varianţei reziduale în totalul varianţei 2 t variabilei dependente − y)2 = 1− N 2 = 1− − y) 2 y. măsurată în unităţi fizice exprimate în număr de pet-uri de 2l (în cazul livrării în alt ambalaj. R2. neînregistraţi. estimatorul a 4.consumul mediu lunar de combustibil. măsurată în €. Exerciţiu – Modelul regresiei liniare multiple Despre o filială a firmei Coca-Cola. varianţa reziduurilor tinde spre 0. se transformă în echivalent-pet de 2l). exprimat în €. datorată factorilor întâmplători.capacitatea de încărcare auto. varianţă-covarianţă a estimatorilor: Ω a Când numărul observărilor tinde spre +∞. care se calculează ca raport între varianţa explicată de model şi varianţa totală a variabilei dependente y.

911 2.865 1.120 1. Consumul mediu lunar de combustibil .887 1. .097 1.5 145.640 1.877 1.116 106.203 164.7 131.021 2.x1.050 2.786 133.3 137.965 181.x4.025 2.99-dec.114 1.487 1.580 1. Se cere să se construiască un model econometric pentru analiza şi previziunea distribuţiei lunare de băuturi răcoritoare.9 141. Datele colectate sunt prezentate în Tabelul 2.4 144.640 1.fondul mediu net de salarii.939 118.580 1. al personalului din departamentul „Distribuţie” măsurat în €.620 1.635 1.647 2.580 1.4 135.4 131.881 1.1. indicatorul reprezintă retribuţiile personalului de bază.650 1.079 226.952 1.043 2. (nr. Variaţia salariilor este mai mare în perioadele în care consumul este mare.9 144.913 1.7 149 148.011 208.875 159.9 144 140.510 1.958 1.927 1.884 2.069 IPC (%) x6 153. pondere marfa returnată . la firma Coca Cola 52 .580 1. Luna total distrib.8 Nov-99 Dec-99 Ian-00 Feb-00 Mar-00 Apr-00 Mai-00 Iun-00 Iul-00 Aug-00 Sep-00 Oct-00 Nov-01 Dec-01 Ian-01 Feb-01 Mar-01 Apr-01 Mai-01 Iun-01 Iul-01 Aug-01 Sep-01 Oct-01 Tabelul 2. Analiza influenţei factorilor începe prin analiza grafică a evoluţiei variabilelor şi a corelaţiilor dintre fiecare variabilă factorială şi variabila explicată. încarc.012 2. pet) x4 530 550 400 400 420 430 480 500 490 470 450 430 560 580 450 450 470 480 520 550 550 510 490 480 fond salarii (€) x5 1.070 2.965 1.638 1.7 154.925 1. reprezintă variabilele explicative.545 2. şi necesitatea unei distribuţii mai rapide a produselor.630 2.01.2 130. (%) x3 1.600 1.500 1.8 156.523 2.480 1.355 1.510 1. în %.702 207.8 132.464 1.045 170.550 1.057 2.905 1.050 2.884 2.8 155.876 1.245 76.030 2.490 1.945 1.416 78.994 161. (nr.750 225.630 1. capacitatea de încărcare auto .3 140.355 2. faţă de aceeaşi lună din anului anterior.536 1.369 1.999 2.968 consum comb. şi Indicele Preţurilor de Consum (IPC) – x6.366 160.814 213.532 1.208 1. valoarea daunelor lunare . pet) yt 131.9 140 140.884 pierderi materiale (€) x2 124 236 124 147 165 167 172 258 240 225 182 123 178 245 110 117 185 206 217 260 233 206 183 165 retur mf. marfa livrată lunar. conduce la apelarea la colaboratori externi.485 1.x3.124 168.745 240.942 1.525 1. Indicatorii observaţi în perioada nov.9 142.550 capacit. În perioadele de consum redus şi mediu.636 1.844 183.x5.268 2. Variabilele semnificative explică evoluţia şi variaţia mărfii livrate.325 2.398 214.5 137.7 139.444 2. salariile nete medii ale personalului . y.614 243.x2.899 1. (€) x1 1.546 117.316 104.932 2.Indicele Preţurilor de Consum (IPC).530 1..1.

1. Analiza grafică a evoluţiei în timp a variabilelor considerate În graficul din Figura 2. Evoluţia livrărilor de marfă în perioada noiembrie 1999-decembrie 2001 300000 250000 numar pet 2l 200000 150000 100000 50000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 luni Figura 2. august.5. septembrie şi octombrie. Consumul de Coca-Cola pe parcusul unui an. exprimată în unităţi fizice. Valori mai scăzute sunt în linile ianuarie şi octombrie. Evoluţia băuturilor răcoritoate livrate 53 .1 se prezintă evoluţia în timp a livrărilor lunare de marfă. Cei doi ani au evoluţii asemănătoare. Din ianuarie începe un trend crescător până în iunie. fapt explicat prin începutul sărbătorilor de iarnă şi începutul sezonului cald. Se observă o sezonalitate lunară. Pe grafic se identifică anul de afaceri al firmei Coca Cola care începe din noiembrie şi se termină în octombrie.1. are două valori maxime in lunile decembrie şi iunie. conducând la concluzia existenţei unei sezonalităţi lunare. apoi descresător în iulie. deşi datele sunt complete numai pe doi ani. fiind doi ani compleţi şi două luni din anul următor.

00 12.01 04.01 09.00 08.00 01.01 11.01 08.00 05.3 se prezintă evoluţia cronologică a a valorii daunelor lunare – variabila x2.00 02.99 01.01 10. pe un trend anual uşor ascendent.99 12.01 05.01 luna Figura 2.00 03.01 07.00 01.2.01 06.00 07.01 08.00 11.2 se poate vedea evoluţia consumul mediu lunar de combustibil.01 12.01 07.00 05.3.01 luna Figura 2.00 10.01 03. Valoarea consumului de combustibil utilizat pentru distribuţia produselor are o evoluţie asemănătoare cu cantitatea mărfurilor livrate: în lunile ianuarie se înregistrează valorile cele mai mici.01 10.00 04. iar valorile cele mai mari.00 12.01 09.00 09.00 04.01 06. în lunile decembrie.00 03.01 02.00 08.99 01.01 02.00 09.99 12.01 05.00 11. Evoluţia cheltuielilor lunare cu combustibilul În Figura 2.01 03.00 06. Evoluţia lunară a pierderilor şi daunelor 54 12.00 07. urmată de luna octombrie.01 04. variabila x1.00 10.01 .3500 Evoluţia cheltuielilor cu combustibilul 3000 2500 euro € 2000 1500 1000 11. Evoluţia valorii pierderilor lunare 280 260 240 220 euro 200 180 160 140 120 100 11.00 06.00 02. urmate apoi de lunile iunie.01 11. În Figura 2.

00 03.01 08. dar se observă o pondere mai mare a returnărilor în lunile de vară.01 06.99 01.99 12.01 07.00 10.5.00 08.01 05.01 07. înregistrându-se valori mai mari în lunile în care volumul desfacerilor este mai mare (decembrie şi iunie) şi valori mai mici în lunile în care se distribuie mai puţină marfă.65 1. Evoluţia lunară a capacităţii de transport 55 12. în totalul livrărilor În Figura 2.00 06.01 10.Evoluţia lunară a pierderilor este foarte asemănătoare cu evoluţia cantităţii de marfă vândută lunar.00 12.00 10.01 02.00 02. graficul evoluţiei ponderilor lunare a mărfii returnate în total livrări lunare variabila x3. Ponderea mărfii returnate lunar.45 11.01 11.01 11.99 12. pentru că în sezonul cald produsele se deteriorează mai rapid decât în cel rece.50 1. 1.99 01.00 12.00 07.01 05.5 arată evoluţia capacităţii lunare de încărcare auto -variabila x4.00 11.01 09.00 07.00 08. Evoluţia capacităţii lunare de transport 600 550 număr peturi 2l 500 450 400 350 11.01 10.70 Evoluţia lunară a ponderii mărfii returnate 1. arată o evoluţie asemănătoare cu cea a livrărilor fizice de marfă.01 02.01 03.4. (ianuarie şi octombrie).01 12.01 .00 04.4.00 06.00 04.00 11. Valoarea daunelor şi pierderilor este proporţională cu volumul mărfii.01 luna Figura 2.01 08.01 luna Figura 2.01 06.01 04.00 01. Graficul din Figura 2.00 05.00 09.55 1.60 % 1.00 02.01 03.00 05.00 01.01 09.00 09.00 03.01 04.

Evoluţia salariilor medii lunare ale personalului angajat şi colaboratori Ca şi celelalte variabile şi capacitatea lunară de transport are o evoluţie asemănătoare cu cea a volumului mărfii livrate.00 06.01 11.00 03.00 09.01 02.01 08.00 12.Evoluţia cheltuielilor lunare cu salariile 2150 2100 2050 euro 2000 1950 1900 1850 11.00 09.00 10.00 01.01 06.01 07.00 05.00 04.99 01.99 01.01 10.01 11.00 02.00 03.00 07.00 08.00 07.7.01 luna Figura 2.01 luna Figura 2.6.01 07.99 12.00 06. fiind mai mare în lunile decembrie şi iunie.00 11.01 05.01 03.00 08.00 10.01 03.01 04. în lunile noiembrie şi 56 12.00 12.6 se prezintă evoluţia cheltuielilor cu salariile medii lunare ale personalului angajat şi colaboratori externi.01 06.00 04.00 01. vârful din sezonul cald. 160 155 Evoluţia indicilor pre ţurilor de consum % faţă de aceeaşi luna 150 145 140 135 130 125 11.01 04. Variaţiile mai mari în al doilea an de afaceri.01 . Se observă valori mai mari în lunile noiembrie decât în iunie.99 12.01 05.01 09.00 02.01 10.01 09.01 02.00 05.00 11.01 12. Evoluţia IPC faţă de aceeaşi lună a anului anterior În Figura 2.01 08.

Graficul din Figura 2. se explică prin apelarea la serviciile unor colaboratori externi. evidentă Volumul mărfii livrate ş i che ltuie lile cu combustibilul 300000 250000 marfa livrată (nr. pozitivă.8.2.9 arată ca există legătură între variabila dependentă şi valoarea daunelor şi pierderilor.) 200000 150000 100000 50000 1000 1500 2000 2500 3000 3500 x1. x1. pet.8 se poate vedea corelaţia directă. valoare combustibil (euro) Figura 2.decembrie. 5. Analiza grafică a influenţei variabilelor explicative asupra variabilei dependente y Analizând graficul din Figura 2. şi de formă liniară. Evoluţia IPC prezentată în Figura 2. x2 şi anume o corelaţie directă şi de formă liniară. Corelaţia dintre volumul mărfii livrate şi cheltuielile cu combustibilul 57 . dintre variabila dependentă şi cheltuielile cu combustibilil. situate pe un trend crescător al salariilor.7 este descrescătoare şi considerarea acestei variabile se explică prin faptul că rata inflaţiei poate influenţa comportamentul de cumpărare al consumatorilor de băuturi răcoritoare.

Corelaţia dintre marfa livrată ş i valoarea pierderilor ş i daunelor 300000 250000 marfa livrată (nr.55 1.50 1.10. adică pe măsură ce creşte volumul vânzărilor.70 x3.65 1.) 200000 150000 100000 50000 1. creşte şi capacitatea lunară.11. Corelaţie ditre marfa livrată ş i ponderea mărfii returnate 300000 250000 marfa livrată (nr. x2. ca şi în cazul variabilelor x1. indică o legătură de aceeaşi natură directă. pierderi şi daune (euro) Figura 2.60 1. 58 .9.) 200000 150000 100000 50000 100 120 140 160 180 200 220 240 260 280 x2.45 1. Corelaţia dintre marfa livrată şi valoarea daunelor şi pierderilor În Figura 2. corelaţia dintre volumul produselor livrate şi ponderea returului în totalul lunar al livrărilor. Corelaţia dintre volumul mărfii livrate şi ponderea livrărilor returnate lunar Graficul din Figure 2. pet.10. x2 şi x3. Norul de puncte mai dispersat din Figura 2. retur marfă (pondere %) Figura 2. indică o legătură de tip liniar şi directă. pet.10 indică o corelaţie mai slabă decât în cazul variabilelor x1 şi x2.

) 200000 150000 100000 50000 350 400 450 500 550 600 x4. Corelaţia dintre marfa vândută şi capacitatea lunară de încărcare auto 300000 Corelaţie ditre marfa livrată ş i fondul lunar de salarii 250000 marfa livrată (nr. pet) Figura 2.) 200000 150000 100000 50000 1850 1900 1950 2000 2050 2100 2150 x5.12.12. pet. astfel încât norul de puncte dispersat va indica o legătură de intensitate mai slabă. Forma legăturii poate fi considerată liniară. corelaţia dintre marfa lunar livrată şi fondul lunar de salarii pentru personalul propriu şi colaboratori. Corelaţia dintre volumul lunar al mărfii livrate şi fondul lunar de salarii În Figura 2.dar nu pe măsura necesităţilor. Norul de puncte este aproape paralel cu axa Ox. 59 . este de slabă intensitate. capacitate de transport (nr. pet. 300000 Corelaţie ditre marfa livrată ş i capacitatea de transport 250000 marfa livrată (nr. fondul de salarii (euro) Figura 2.11.

Totuşi intensitatea legăturii va fi slabă pentru că norul de puncte este destul de dispersat.conducând fie la concluzia lipsei legăturii dintre fondul de salarii şi volumul mărfii livrate. 5. Modelul: ˆ + e . mai degrabă de sens invers. Forma legăturii poate fi considerată ca fiind liniară. Corelaţia dintre marfa livrată şi indicii preţurilor de consum Graficul din Figura 2.3.13 este singurul care indică o legătură inversă între marfa vândută şi indicii preţurilor de consum. IPC lunar (%) 150 155 160 Figura 2. e şi matricea X. cu vectorii ˆt = a ˆ0 + a ˆ1 x1t + a ˆ 2 x 2t + a ˆ 3 x 3t + a ˆ 4 x 4t + a ˆ 5 x5t + a ˆ 6 x6t se scrie matriceal: Y = X ⋅ a y Y . i=1. în continuare: 60 . însemnând că livrările de băuturi răcoritoare scad atunci când cresc indicii preţurilor de consum. pet.13. Construirea modelului econometric Pentru exemplificarea construirii modelului econometric sub formă matriceală se începe cu modelul de regresie a variabilei y şi toate variabilele x i.) 200000 150000 100000 50000 130 135 140 145 x6. fie la existenţa unei legături de intensitate slabă. Corelaţia dintre marfa livrată ş i indicii pre ţurilor de consum 300000 250000 marfa livrată (nr.6.

⎛1 ⎜ ⎞ ⎛131.750 ⎟ ⎜ ⎜1 ⎟ ⎜ 225.245 ⎜1 ⎜76.316 ⎟ ⎜ ⎟ ⎜ ⎜1 ⎟ ⎜104.875 ⎜1 ⎟ ⎜159.366 ⎜ ⎟ ⎜ ⎜1 ⎟ ⎜160.124 ⎜ ⎟ ⎜ ⎜1 168.745 ⎜1 ⎟ ⎜ ⎜ ⎟ ⎜ 240.814 ⎜1 ⎟ ⎜ ⎜1 ⎟ ⎜ 213.702 ⎜ ⎟ ⎜ 207.965 ⎜1 ⎟ ⎜ ⎜1 ⎟ ⎜181.546 ⎜ ⎟ ⎜117.786 ⎜1 ⎟ y =⎜ ⎟ X = ⎜1 ⎜133.079 ⎜ ⎟ ⎜ ⎜1 ⎟ ⎜ 226.416 ⎜ ⎜78.116 ⎟ ⎜1 ⎟ ⎜ ⎜1 ⎟ ⎜106.994 ⎜ ⎟ ⎜161.203 ⎜1 ⎟ ⎜ ⎜1 ⎟ ⎜164.045 ⎜ ⎟ ⎜170.614 ⎜1 ⎟ ⎜ ⎜ ⎟ ⎜ 243.398 ⎜1 ⎟ ⎜ ⎜1 ⎟ ⎜ 214.011 ⎜ ⎟ ⎜ 208.844 ⎜1 ⎟ ⎜ ⎜1 ⎟ ⎜183.939 ⎜ ⎟ ⎜118.968 ⎜1 ⎠ ⎝ ⎜1 ⎝

1523 2525 1114 1369 1945 1865 1647 2444 2268 2097 1952 1464 1884 2927 1580 1884 2355 2208 1999 2630 2325 2545 2355 1884 1884 2927

124 236 124 147 165 167 172 258 240 225 182 123 178 245 110 117 185 206 217 260 233 206 183 165 178 245

1.510 1.532 1.480 1.500 1.580 1.600 1.630 1.650 1.640 1.635 1.580 1.490 1.510 1.536 1.485 1.487 1.530 1.550 1.620 1.640 1.638 1.636 1.580 1.550 1.510 1.536

530 550 400 400 420 430 480 500 490 470 450 430 560 580 450 450 470 480 520 550 550 510 490 480 560 580

1887 1965 1942 1958 1913 1877 1876 1925 1899 1881 1905 1911 2021 2120 1932 2025 2030 2050 2057 2070 2012 2043 2050 2069 2021 2120

⎛ e1 ⎞ ⎟ ⎜ ⎟ 154.8 ⎟ ⎜ e2 ⎟ ⎟ ⎜e ⎟ 156.8 ⎟ ⎜ 3⎟ 155.7 ⎟ ⎜ . ⎟ ⎟ ⎜ . ⎟ 149 ⎟ ⎜ ⎟ ⎜ . ⎟ 148.9 ⎟ ⎟ ⎜ ⎟ 144 ⎟ ⎜ . ⎟ ⎜ . ⎟ 140.9 ⎟ ⎟ ⎜ ⎟ 144.5 ⎟ ⎜ . ⎟ ⎟ ⎜ . ⎟ 145.4 ⎟ ⎜ ⎟ 144.9 ⎟ ⎜ . ⎟ ⎟ ⎜ . ⎟ 142.9 ⎟ ⎜ ⎟ ⎜ . ⎟ 141.3 ⎟ ⎟ e=⎜ ⎟ 140.7 ⎟ ⎜ . ⎟ ⎜ . ⎟ 139.9 ⎟ ⎜ ⎟ ⎟ 140 ⎟ ⎜ . ⎟ ⎜ . ⎟ 140.3 ⎟ ⎜ ⎟ ⎟ 137.5 ⎟ ⎜ . ⎟ ⎜ . ⎟ ⎟ 137.4 ⎜ ⎟ ⎟ 135.7 ⎟ ⎜ . ⎟ ⎜ ⎟ ⎟ 131.8 ⎟ ⎜ . ⎟ ⎜ e22 ⎟ 132.4 ⎟ ⎜ ⎟ ⎟ 131.2 ⎟ ⎜ e23 ⎟ ⎜ e24 ⎟ 130.8 ⎟ ⎜ ⎟ ⎟ 130.7 ⎟ ⎜ e25 ⎟ ⎟ ⎜e ⎟ 130.3 ⎠ ⎝ 26 ⎠

153.7 ⎞

ˆ al estimatorilor parametrilor are dimensiunile: 7 linii şi o coloană (7, 1): Vectorul a

ˆ ⎞ ⎛a ⎜ 0⎟ ˆ1 ⎟ ⎜a ⎜a ˆ ⎟ ⎜ 2⎟ ˆ = ⎜a ˆ3 ⎟ a ⎜a ˆ ⎟ ⎜ 4⎟ ⎜a ˆ5 ⎟ ⎜ ⎟ ˆ6 ⎠ ⎝a

Dimensiunile masivelor sunt: Y

=

X

ˆ a

+

e

(26, 1) = (26, 7) x (7, 1) + (26, 1) Se formează masivele astfel prezentate şi se parcurg pe rând următorii paşi: 1. matricea transpusă X ′ ,

61

2. matricea produs X ′X , 3. inversa matricii produs ( X ′X ) ,
−1

4. matricea produs dintre ( X ′X ) şi X ′
−1

ˆ , între ( X ′X )−1 X ′ şi vectorul Y. 5. vectorul produs al estimatorilor a

Descrierea operaţiunilor la fiecare pas este prezentată în continuare: 1. Transpusa matricii X, se obţine prin comanda Copy a blocului de celule ce formează matricea X, şi într-o celulă liberă, se alege comanda Paste Special din meniul Edit cu opţiunea Transpose. Matricea X ′ va fi de dimensiunile (7 linii, 26 coloane). 2. Pentru a obţine produsul matricilor X ′X , se ştie că X ′ are dimensiunea (7,26), iar X, (26,7), iar matricea produs va fi de dimensiunea (7,7). Se selectează un bloc de celule libere format din 7 linii şi 7 coloane, apoi cu blocul, unde se va depune rezultatul, astfel selectat, se apelează funcţia

MMULT(array_1, array_2) pentru înmulţirea a două matrici sau vectori şi se declară pe rând: la array_1, matricea X ′ , iar la array_2, matricea X. Ordinea declarării masivelor este foarte
importantă pentru înmulţirea lor. Pentru a obţine rezultatul – matricea produs - se apasă simultan pe trei taste <Ctrl/ Shift/ Enter>, eliberându-se întâi tasta Enter şi apoi celelalte două. 3. Inversa matricii produs se obţine selectând întâi un bloc de celule libere de 7 linii şi 7 coloane, unde se va primi rezultatul operaţiei, apoi se apelează funcţia MINVERSE(array) şi se declară la

array, blocul matricii X ′X de inversat. Se apasă simultan pe cele trei taste <Ctrl/ Shift/ Enter>
şi se obţine instantaneu matricea inversă. 4. Pentru a realiza matricea produs ( X ′X ) X ′ trebuie să se cunoască dimensiunea sa, pentru a
−1

putea selecta înainte de apelul funcţiei MMULT, blocul de celule libere, care va primi rezultatul. Se ştie că matricea ( X ′X )
−1

este de dimensiune (7,7), iar matricea X ′ de (7,26), iar matricea

produs va fi de dimensiunea (7,26). Se selectează un bloc de 7 linii şi 26 de coloane, se apelează funcţia de înmulţire şi se declară la array_1, matricea ( X ′X ) , iar la array_2, matricea X ′ . La
−1

apăsarea tastelor <Ctrl/ Shift/ Enter> se obţine rezultatul dorit. 5. Pentru a obţine vectorul estimatorilor se înmulţesc matricile ( X ′X ) X ′ de dimensiune (7,26) cu
−1

ˆ de dimensiunea (7,1). Se selectează 7 celule vectorul Y de dimensiune (26,1) şi se obţine a

libere pe o coloană şi 7 linii, se apelează funcţia MMULT şi se declară în ordine matricele de înmulţit, se apasă <Ctrl/ Shift/ Enter> şi se obţine vectorul estimatorilor:

62

⎛ - 278825.8 ⎞ ⎟ ⎜ 65.7 ⎟ ⎜ ⎜ 305.9 ⎟ ⎟ ⎜ ˆ = ⎜ 217262.8 ⎟ a ⎜ 103.2 ⎟ ⎟ ⎜ ⎜ - 123.4 ⎟ ⎟ ⎜ 760.8 ⎠ ⎝

Pentru a determina intervalele de încredere ale estimatorilor şi pentru a putea aprecia

ˆ e2 = calitatea lor şi apoi a ajustării, este necesar să se calculeze dispersia reziduurilor σ
ˆ ˆ =σ ˆ ε2 ( X ′X ) −1 . matricea de varianţă-covarianţă a estimatorilor: Ω a

e′e şi n − k −1

Se determină reziduurile ca diferenţă între valorile observate şi valorile teoretice obţinute cu modelul
ˆ t = −278825.8 + 65.7 x1t + 305.9 x 2t + 217262.8 x 3t + 103.2 x 4t − 123.4 x5t + 760.8 x 6t . y

Deoarece modelul este estimat pentru prima dată este de aşteptat să nu fie corespunzător, chiar de la început. Dispersia reziduurilor este prea mare 93960182. Înmulţirea unei constante, dispersia reziduurilor, cu matricea ( X ′X ) −1 se realizează înmulţind constanta cu toate celulele matricii. Se scrie formula pentru elementul matricii de pe poziţia (1,1) şi se blochează cu simbolul ˆ e2 , apoi se copiază formula pentru toate celulele matricii $, coloana şi linia adesei unde se află σ rezultate. Pe diagonala principală se află varianţele estimatorilor, iar abaterile acestora se obţin extrăgând radicalul de ordinul 2. Se obţin urmăroarele abateri ale estimatorilor:
∗ Pentru fiecare estimator se calculează raţia Student t a ˆi =

ˆi a , care se compară cu o valoare ˆa σ ˆi

critică a testului Student pentru un prag de semnificaţie α=5% şi 26-6-1=19 grade de libertate, care
α / 2 = 0.025 este t19 grd .lib . = ± 2.093. Astfel se verifică dacă estimatorii sunt semnificativ diferiţi de 0, ipoteza

alternativă H1. În caz contrar, ipoteza nulă, H0, variabilele semnificative corespunzătoare nu influenţează semnificativ variabila dependentă y, pentru că estimatorii respectivi pot lua şi valoarea 0.

63

cum se interpretează raţiile Student calculate faţă de valorile teoretice ale testului bilateral.674 ⎟ ⎜ 2.796 ⎟ ⎟ ⎜ ⎜ .9712 Adj. H1.14.1. 0.5 ⎟ ⎟ ⎜ ˆa σ = 69723.2. SUMMARY OUTPUT Regression Statistics Multiple R 0.1⎠ ⎝ ⎛ .14. Pentru a verifica aceste calcule se poate utiliza tabela de regresie furnizată de Excel. Declararea variabilelor independente necesită existenţa unui bloc care să cuprindă toate cele şase variabile explicative dispuse pe verticală în coloane adiacente.9855 R Square 0.093 şi se va renunţa la variabilele x 4 şi x 6 . Toţi ceilalţi estimatori sunt semnificativi diferiţi ∗ de 0.4 ⎟ ⎟ ⎜ ⎜ 49 ⎟ ⎟ ⎜ 425. nu sunt semnificativ diferiţi de 0 pentru că Se ajunge la concluzia că estimatorii a ∗ ta ˆ 4 < 2.8 ⎟ ⎜ ⎜ 124.3 ⎞ ⎟ ⎜ 9.⎛ 227794.9622 Std Error 9693. H0 α 2 H1 1-α α 2 H1 .789 ⎠ Se observă pe Figura 2. dispersia erorilor σ σ ˆ e2 = prin formula σ ∑e t =1 n 2 t n − k −1 . Testarea raţiilor Student ale estimatorilor ˆ0 .2. Tabela de regresie este prezentată în Tabelul 2. ipoteza alternativă.457 ⎟ ⎟ ⎜ t ∗ = ⎜ 3.093 0 + t1-α/2 +2.093 .515 ⎟ ⎟ ⎜ ⎝ 1. care ridicată la puterea a 2-a rezultă.8 ⎟ ⎜ ˆ ⎜ 57.3 64 .093 Figura 2. pentru că t a ˆ 4 > 2.224 ⎞ ⎟ ⎜ ⎜ 6. a ˆ 4 şi a ˆ 6 . Informaţia Standard Error din prima parte a tabelei de regresie este abaterea reziduurilor ˆ e2 . fiind o verificare a valorii obţinute ˆ e .t1-α/2 -2. R Sq.116 ⎟ ⎜ 1.

35 + 63.8 425. totuşi trebuie să se ţină seama de semnificaţia estimatorilor.de 2.12% variaţia variabilei dependente y de variabilele explicative. În partea a treia a tabelei de regresie.este de 0.03x5t . ˆ 0 .95%. indică pragul de semnificaţie α. α este de Probabilitatea ca estimatorii să fie semnificativi este de 1-α.29 -1.F 6 6. ale căror estimatori depăşesc această valoare a pragului de semnificaţie. se obţine modelul: ˆ t = 93975.9855 arată o corelaţie puternică între variabilele explicative şi cea explicată. Significance F. Deoarece pragul α este de obicei de 5%.8 69723.38%.501 2.849 6.6741 0. se va 8.110 1.5154 0.207E+11 Coeff.028E+10 1.0057 71329 103.785E+10 93960182 25 6. fiind cea mai evidentă dovadă a faptului că respectivii estimatori pot lua şi valoarea 0. pentru a ˆ 2 .4568 0. După obţinerea tabelei de regresie. Valorile P-value.29 217262.82 3.4 49. ale acestor estimatori schimbă semnul de la „-” al limitei inferioare Lower 95% la „+” la limita superioară Upper 95%. Se poate vedea că pentru a ˆ1 .0884 -17.2359 -755605 65.35 566. de la care începând estimatorii se pot considera semnificativ diferiţi de 0.2.52 Tabelul 2.0210 -226.9712 este apropiată de 1.057%.46 363196 223.71 1650. care reprezentau capacitatea de încărcare auto pentru transportul produselor şi indicii preţurilor de consum. pentru a renunţa la variabilele x 4 şi x6 .este 2.01 760.9 124.31E-13 19 1. pentru a ˆ 5 . Std.6%. Tabela de regresie a modelului econometric iniţial cu şase variabile factoriale Se observă că valoarea coeficientului de determinaţie 0.1160 0.3.42 x 2t + 122802. Intervalele de încredere pentru α=5%.Observations ANOVA Regression Residual Total Intercept X Variable 1 X Variable 2 X Variable 3 X Variable 4 X Variable 5 X Variable 6 26 SS MS F Signific.de 8.931 1. Coeficientul de corelaţie multiplă 0.0895 -129.005E+10 106.3x3t − 170. α este 0%. y 65 .2 57. pentru a ˆ 4 .84%.7896 0. O altă variantă de model va fi cea prin care se elimină variabilele x 4 şi x 6 . arătând că modelul liniar este valid explicând într-o proporţie de 97.043 -2.1% şi pentru a ˆ 6 . fiind foarte mică.436 1.7 9. arată un model foarte bun.12 305. pentru a ˆ 3 . abaterile lor şi raţiile Student identice cu valorile calculate mai sus.7964 0.0238 45. ˆt = a ˆ0 + a ˆ1 x1t + a ˆ 2 x 2t + a ˆ 3 x 3t + a ˆ 5 x5t . Noul model va fi: y Tabelul 2.39 -20. Cu toate că informaţiile despre calitatea ajustării.04 -123. calculaţi faţă de aceeaşi lună a anului anterior.01 df Upp95% 197953 86.2240 0. se regăsesc estimatorii obţinuţi prin calcul matriceal.0000 45.79 x1t + 464.de 23. Valoarea testului Fisher indică o regresie global semnificativă. Error t Stat P-value Low95% -278826 227794.

89 x5t . P-value prea mare.89 x 2t + 159285.03 SS MS F 5. O analiză mai amănunţită a sezonalităţii.741 0.98E+10 1. de 46. = ±2. să se renunţe la ˆ t = 62.24E+09 1. unde k=4.68% şi intervalul de încredere care conţine valoarea 0. Gradele de libertate sunt n-k-1. F 8. nu este totuşi semnificativ diferit de 0. va îndrepta acest neajuns. deşi se micşoreză încă puţin indicatorii calităţii ajustării: R=0. în schimb. R 2 = 0.21E+10 Std Error t Stat P-value 126814 0.440 0.292 0.79 X Variable 2 464.lib . Intercept 93975.07E+08 6.3.9812.3 2. care sunt semnificativ diferiţi de 0.3 x3t − 146. Tabela de regresie pentru modelul cu patru variabile explicative Deşi indicatorii calităţii ajustării au valori puţin mai mici decât în modelul anterior.42 X Variable 3 122802 X Var. iar regresia este global semnificativă. a corelaţiilor dintre variabilele explicative.446 240465 -90.9818 R Square 0. va avea toţi termenul liber.671 Up95% 357699 85. în comparaţie cu valoarea critică α / 2 = 0.080 . R Sq 0. Error 10334 Observations 26 ANOVA df Regression 4 Residual 21 Total 25 Coeff.5E+10 140. valori semnificative pentru toţi ceilalţi estimatori.042 38. Termenului constant. 66 .9639 arată validitatea modelului liniar. coeficientul de determinaţie de 0. a înafara celor înregistraţi. după testul Fisher din tabelul ANOVA.234 0.296 -4.509 239. totuşi nu s-a pierdut mult din calitatea ajustării: coeficientul de corelaţie multiplă este 0. Valorile teoretice corespunzătoare valorilor observate sunt reprezentate în Figura 2.14 x1t + 434.9570 Std.388 Tabelul 2.0E-15 Low 95% -169749 42.000 Signif.9629 .402 5139 -249.9639 Adj. care arată nivelul mediu al variabilei dependente dacă toţi factorii.05 2.000 56579.9818 indică o corelaţie puternică între variabilele explicative şi y.170 0.4668 10.232 6. adică 26-4-1=21. după cum indică raţiile Student.204 4. ˆ 0 .000 108. S-au câştigat. cu o probabilitate de aproape 100%. ar avea o acţiune constantă. iar modelul obţinut: y estimatorii parametrilor variabilelor explicative semnificativi.3 X Variable 1 63. a autocorelaţiei erorilor. după cum indică valoarea prea mică a raţiei Student.025 t 21 grd .15.065 689.SUMMARY OUTPUT Regression Statistics Multiple R 0. 4 (x5) -170. Se poate totuşi în această fază.

. pe baza testului Fisher. dar până nu se parcurg şi etapele unei analize mai amănunţite. Construirea testelor statistice Testele statistice se referă la contribuţia uneia sau mai multor variabile explicative la regresia multiplă.01 10. nu înseamnă că se poate accepta ipoteza că toţi coeficienţii sunt de asemenea nesemnificativi (Tabelul 2. trebuie să respecte ipotezele modelului general de regresie liniară: lipsa autocorelaţiei erorilor.1.01 08.01 07. prin care se acceptă sau se infirmă ipoteza nulă H0: R2=0. a ˆ1 .01 11. 67 12.00 10.99 12.3).01 02. a testul t Student diferă de testarea semnificaţiei globale a regresiei multiple. 6. peturi 200000 150000 100000 11.00 07.. restricţiile asupra estimatorilor coeficienţilor şi testarea validităţii lor.300000 Evoluţia livrărilor de marfă ş i ajustarea lor 250000 nr.00 01.00 09.01 04.01 09. Dacă folosind testul t se găseşte unul sau mai mulţi coeficienţi parţiali de regresie.00 12. F.01 y yt Figura 2.. şi Tabelul 2.01 50000 luni . testarea egalităţii statistice a unui ansamblu de coeficienţi cu un ansamblu de valori fixate. variabilele explicative. 6.00 11.00 02. Teste statistice şi analiza varianţei ˆ0 .00 03.00 06.00 05. cât mai puţin autocorelate între ele.00 04.15..01 03.00 08. nu se poate stabili care este cel mai bun model.01 05.2. ca fiind în mod individual nesemnificativi.99 01. Ajustarea folosind modelul liniar fără constantă Regresia este global semnificativă. a ˆ k folosind Testarea semnificaţiei individuale a coeficienţilor parţiali de regresie.01 06. Modelul final. folosirea testului F pe baza analizei varianţei pentru analiza unor ipoteze asupra regresiei multiple.

cu o valoare ˆa σ ˆi teoretică numită critică.6.89 x 2t + 159285. pentru un prag de semnificaţie α=5% şi n-k-1 grade de libertate. Se observă legătura inversă între livrările fizice şi fondul de salarii. cu aproximativ 62 de peturi. se poate explicative. care apare în model. se acceptă ipoteza alternativă H1. pentru a şti dacă aceasta contribuie în mod real la explicarea variabilei endogene y. poate influenţa creşterea livrărilor. creşterea cu un procent a mărfii returnate. în medie. se acceptă ipoteza nulă H0. nu se putea sesiza. testul de ipoteze este: H0: ai = a H1: ai ≠ a . de 435 de peturi. Compararea unui parametru ai cu o valoare fixată a Contribuţia marginală a fiecărei variabile explicative la formarea variabilei y este valoarea coeficientului fiecăreia dintre ele. în medie. din exemplul anterior: y spune că lunar creşterea cu 1 euro a consumului mediu de combustibil conduce la creşterea livrărilor lunare. adică o probabilitate de 1-α. se respinge ipoteza nulă H0. De exemplu. α /2 ∗ ≤ tn Dacă t a − k −1 . ∗ α /2 Dacă t a > tn − k −1 .12.1. ai nu este semnificativ diferit de valoarea a. creşterea cu 1 euro a valorii daunelor şi pierderilor lunare determină o creştere a livrărilor. ai este i semnificativ diferit de valoarea a. în modelul liniar cu patru variabile ˆ t = 62. care urmează o lege ∗ Student. la i un prag de semnificaţie α.14 x1t + 434. Se compară această raţie Student calculată.89 x5t . şi este de forma: t a = i ˆi − a a . care pe graficul din Figura 2. Un caz particular este când valoarea a=0 şi atunci raportul critic devine raţia Student ∗ = calculată a estimatorului respectiv. Pentru că testul este bilateral se alege valoarea teoretică Student pentru un prag de semnificaţie α/2. ˆa σ ˆi Se verifică semnificaţia faţă de zero a coeficientului. cu 147 de peturi.1. care înseamnă verificarea semnificaţiei variabilei explicative. Pentru a compara un parametru cu o valoare fixată a.3 x3t − 146. 68 . în medie. t a i ˆi a . iar creşterea cu 1 euro a fondului mediu net de salarii ale personalului distribuitor generează o scădere a livrărilor lunare. cu 159285 de peturi. Pe baza datelor din eşantionul extras se calculează raportul critic. la un prag de semnificaţie α. în medie.

Datele referitoare la un agent economic Sunt semnificative variabilele exogene în explicarea variaţiei variabilei endogene? Să se argumenteze şi prin calculul intervalelor de încredere ale estimatorilor coeficienţilor. y.16. x2. exprimate în euro. exprimate în euro.4: t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 y 17 19 15 21 19 24 26 24 26 21 24 26 30 26 x1 3 2 4 7 8 9 9 6 6 9 5 10 13 8 x2 42 40 40 44 39 38 29 30 38 35 29 28 32 26 x3 115 126 148 139 123 150 126 141 122 157 155 166 168 174 yt1 18 17 18 19 23 23 27 24 22 24 23 27 28 26 yt2 18 17 19 20 22 23 26 24 21 24 23 27 28 26 Tabelul 2. Datele sunt prezentate în Tabelul 2. Execiţiu – Teste asupra coeficienţilor Despre o firmă. şi cheltuielile de publicitate pentru promovarea produselor.16.17. x1. cheltuielile de întreţinere a utilajelor. euro 2 4 6 8 10 12 14 x1 (nr. x3. Legătura directă dintre valoarea vânzărilor şi numărul de angajaţi 69 . pe o perioadă de 14 luni. persoane) Figura 2. exprimate în mii euro.4. influenţată de celelalte variabile. Corelaţia dintre valoarea vânzărilor ş i numărul de angajaţi 35 30 25 20 15 10 0 mil. considerate factori. numărul de angajaţi (persoane). Soluţie: În Figurile 2.6. se cunosc datele referitoare la vânzările de marfă. stabilită ca fiind vânzările de marfă. 2.18 sunt prezentate corelaţiile dintre variabila dependentă. şi 2.2.

ale valorii vânzărilor cu numărul de angajaţi şi cheltuielile de publicitate şi de sens invers cu cheltuielile de întreţinere a utilajelor. euro 20 15 10 100 Corelaţia dintre valoarea vânzărilor ş i cheltuielile de publicitate 110 120 130 140 150 160 170 x3 (euro) 180 Figura 2. 70 .17. creşterii costurilor de fabricaţie şi implicit a preţurilor de vânzare a produselor. salariile personalului angajat. Cu cât sunt mai mari aceste cheltuieli de întreţinere. Legătura inversă: valoarea vânzărilor şi cheltuielile cu utilajele 35 30 25 mil. cu atât se reduc vânzările din cauza stagnărilor în producţie pentru repararea utilajelor. reducerii altor cheltuieli. euro 25 20 15 10 25 Corelaţia dintre valoarea vânzărilor ş i cheltuielile de între ţinere a utilajelor 30 35 40 x2 (euro) 45 Figura 2. legăturile de natură directă.18. Legătura directă dintre valoarea vânzărilor şi cheltuielile de publicitate Se observă în cele trei grafice.35 30 mil. etc. cum ar fi cele de aprovizionare cu materii prime şi materiale.

0351 0.687 -2.032 0. 71 .298 X Variable 2 -0.4477 Total 13 226.052 MS 53.19.5971 Observations 14 ANOVA df SS Regression 3 159.467 -0. Modelul este: ˆ t = 35.137 -0. 35 30 mil.994 X Variable 1 0.3814 0.745 t Stat 3.714 F 7. R Square 0. t10 grd .381x 2 − 0.4 şi pe acelaşi grafic care arată evoluţia în timp a valorilor observate.0228 0.730 -0.5.005 P-value 0. F 0.025 valoarea teoretică Student pentru α=5% şi 10 grade de libertate. x2 şi coeficienţi pozitivi pentru celelalte două variabile independente x1 şi x3. În urma analizei de regresie.219 1. se compară cu ˆa σ ˆi α / 2 = 0. calculată după formula t a i ˆi a .156 X Variable 3 -0.802 x1 − 0. se aşteaptă un coeficient negativ pentru variabila explicativă a cheltuielilor de întreţinere a utilajelor. Std Err Intercept 35. Error 2.722 10.0087 0. Tabela de regresie a modelului cu trei variabile explicative Tabela de regresie este prezentată în Tabelul 2.19.72 + 0. y iar valorile teoretice.5. se află în Tabelul 2.lib .4095 Residual 10 67. yt1.078 Tabelul 2.802 0. în Figura 2. = 2.7027 Adj. Evoluţia vânzărilor şi ajustarea lor ∗ = Raţia Student pentru fiecare coeficient de regresie.492 Lower 95% 11.037 0. euro 25 20 15 10 1 2 3 4 5 6 y Evoluţia vânzărilor 7 8 yt1 9 10 yt2 11 12 13 14 luni Figura 2.6135 Std.226 0.249 2.037 x3 .SUMMARY OUTPUT Regression Statistics Multiple R 0.857 Coeff.153 Upper 95% 60.87 Signif.435 -0.228 .8383 R Square 0.136 6.

715 x − 0. − 0. Error 5. ˆ 3 . Pentru noul model cu două variabile explicative. variabila x3 nu contribuie la explicarea variaţiei ta ˆ 3 = 0.8292 R Square 0. se obţine tabela de regresie prezentată în Tabelul 2.143 X Variable 1 0.17).lib . a ˆ i t grd .6243 Upp 95% 42.10 P-value 0.19. rezultă că a variabilei y.715 X Variable 2 -0.467] .0016 Low 95% 16.26 0.538 Observations 14 ANOVA df Regression 2 Residual 11 Total 13 Coeff.13 -0. Numai variabilele x1 şi x2 sunt variabile exogene semnificative. variabila x1 contribuie la explicarea variaţiei ta ˆ1 = 2. ˆ 3 poate lua valoarea 0. • ∗ ˆ 2 ≠ 0 .• ∗ ˆ1 ≠ 0 .137 . F 0.6875 Adj. se schimbă semnul de la „-” la „+”.6307 Std Error 2. .0004 0. şi poate fi retrasă din model. Intercept 29. semnul „-” indică legătura inversă dintre y şi x2 (Figura 2.328 x 2 y se afă în Tabelul 2.976 2.97 70.687 > 2. 1.6.32811 SS 155. Valorile teoretice calculate cu acest model: ˆ t = 29.6. SUMMARY OUTPUT Regression Statistics Multiple R 0.228 .228 . • ∗ ˆ 3 = 0 . Tabela de regresie a modelului cu două variabile explicative 72 . care este mult prea mare.032] .228 .143 + 0.99 6.4 şi în Figura 2. semnul „+” indică legătura directă dintre y şi x1.134561 MS 77.03292 Signif.4384 F 12.25 0. a semnificativ diferit de 0. Intervalul de încredere al coeficientului ai se stabileşte în funcţie de valoarea estimatorului.730 . variabila x2 contribuie la explicarea variaţiei ta ˆ 2 = 2. Intervalele de încredere pentru cei trei estimatori ai coeficienţilor variabilelor explicative sunt: • • • ICa1 : [0. ICa 2 : [− 0. 0.30 -0. 0. . de obicei α=5%: α /2 α /2 ˆi − σ ˆa ˆi + σ ˆa ICa i = [a ˆ i t grd . rezultă că a variabilei y.685 -2.714 < 2. R Sq.0319 Tabelul 2.5 că P-value pentru estimatorul a un prag de semnificaţie de 49%.85 0. indică Se poate vedea în tabela de regresie din Tabelul 2.0212 0.88 226. rezultă că a variabilei y. nu este ICa3 : [− 0.86 Std.079] .44 t Stat 4.435 > 2.153 .03 1. estimaţia abaterii sale şi valoarea teoretică Student pentru un prag de semnificaţie ales.lib .

deci nu conţin valoarea 0. este extras din Tabelul 2. Analiza varianţei – testul Fisher Tabelul de analiză a varianţei. care sunt mai mici decât 5%. valorile Pvalue.Se poate observa că acest model are coeficienţii semnificativ diferiţi de 0. ICa1 : [0. k. Intervalele de încredere sunt: ICa 0 : [16.. care nu schimbă semnul de la limita inferioară la cea superioară. care sunt mai mari decât valoarea teoretică din tabela Student.. datorată: Regresiei (variabilelor explicative) SSE= Reziduurilor (varianţa neexplicată) SSR= Totală (toţi factorii) SST= Sumă de pătrate (Sum Squares) SS Grd.25 . 42.7: Natura variaţiei. termenul constant a0 nu prezintă interes. după eliminarea variabilei nesemnificative x3. x1 şi x2.. ICa 2 : [− 0.301] . după cum indică raţiile Student calculate. În cazul exerciţiului prezentat. deoarece un model în care numai termenul constant este semnificativ.. precum şi intervalele de încredere ale coeficienţilor. ANOVA este de forma celui din Tabelul 2. Testarea H0 este echivalentă cu a testa dacă varianţa SSE este semnificativ diferită de 0.3. 6.83 indică o corelaţie puternică între cele trei variabile y.6.7% indică validitatea modelului liniar. În cazul în care se acceptă H0 înseamnă că nu există nici o relaţie liniară semnificativă între variabila y şi variabilele xi cu i=1. nu are sens economic.624 .032] .) H1: exista cel puţin un coeficient nenul. Tabelul ANOVA la regresia multiplă Testul de semnificaţie globală a regresiei se formulează astfel: există cel puţin o variabilă explicativă semnificativă? Ipotezele sunt: H0: a1 = a2 = .7.8: 73 . Coeficientul de determinaţie de 68. = ak = 0 (toţi coeficienţii sunt nuli. . în Tabelul 2. nici o variabilă explicativă nu îşi aduce contribuţia la explicarea variabilei y.2. 1. tabelul de analiza varianţei pentru modelul cu două variabile explicative..03] . iar coeficientul de corelaţie multiplă de 0.lib df k n-k-1 n-1 (Modified Sums) MS SSE/k SSR/(n-k-1) Testul Fisher F ˆ ∑(y t =1 n n t − y)2 ˆt )2 −y − y)2 F= SSE/ k SSR/(n − k −1) ∑(y t =1 n t ∑(y t =1 t Tabelul 2.129 . − 0.

care pentru un prag de semnificaţie α=5% este Fkα. sub ipoteza H0. se poate exprima: SSE = SST ⋅ R 2 .98663 6.88389 226. modelul este bine construit. SST exprima în funcţie de coeficientul de nedeterminaţie: N 2 = 1 − R 2 = Înlocuind în formula statisticii F*. iar valoarea calculată F*=7. pentru un prag de semnificaţie de pentru că F3α .9733 70. arată intensitatea corelaţiei simultane a variabilelor explicative asupra variabilei dependente y. Coeficientul de determinaţie multiplă: R = R 2 . Tabelul ANOVA pentru modelul cu două variabile explicative Ipoteza de normalitate a erorilor implică. H1.5.001665 Tabelul 2. şi modelul este bine ales. valorile astfel exprimate SSE şi SSR. se simplifică cu SST şi rămâne astfel: F * = R2 / k . că statistica F* urmează o lege Fisher cu k şi n-k-1 grade de libertate.54%. deci regresia este global semnificativă. Calitatea ajustării se determină în funcţie de coeficientul de determinaţie: R 2 = SSE .n=−5k% −1 = 3. F * = SSE / k = 12. este aproape în întregime explicată de SSE. SSR = SST ⋅ (1 − R 2 ) . mult mai mic decât 5%.71.10223 Significance F 0. Dacă SST R 2 → 1 înseamnă că varianţa totală SST.87>3. este global semnificativă =5% = 3. Din relaţia: R 2 = SSE . Şi regresia prezentată în Tabelul 2.8571 MS 77. Valoarea calculată F* corespunde unui prag de semnificaţie de 0.8. F* se poate scrie în funcţie de coeficientul de determinaţie R2.44399 F 12. (1 − R 2 ) /(n − k − 1) Pe lângă testul global de semnificaţie.71 .10 0.10 se compară cu o valoare SSR /(n − k − 1) teoretică Fisher cu 2 şi 11 grade de libertate.Natura variaţiei Regression Residual Total df 2 11 13 SS 155. 74 .98. Cum F * > Fteoretic ⇒ se acceptă ipoteza alternativă. iar SSR se poate SST SSR . Numai când modelul are termen constant. cu trei variabile explicative. se efectuează testele de semnificaţie individuală a coeficienţilor pentru fiecare variabilă explicativă din model.16%.

folosind testul Chow. 6. SSE.1. semnificaţia creşterii volumului eşantionului pentru estimarea modelului. Introducerea uneia sau mai multor variabile explicative în model Adăugarea unor variabile explicative în model îmbunătăţeşte semnificativ calitatea ajustării? Există oare o diferenţă semnificativă între varianţa explicată. Verificarea stabilităţii în timp a modelului – testul CHOW Problema este dacă modelul se poate considera ca fiind stabil pe întreaga perioadă sau este mai bine să se considere două subperioade distincte de estimare? Specificarea modelului este aceeaşi. k’<k.4. de modelul complet şi cea explicată. 75 . dar valorile coeficienţilor pot fi diferite. iar k’ este numărul iniţial de variabile explicative. inclusiv cele adăugate din modelul cel mai cuprinzător. În caz contrar se declară modelul ca fiind instabil şi este mai bine să se estimeze pe subperioade. testarea restricţiilor asupra coeficienţilor. Verificarea stabilităţii coeficienţilor constă în a testa dacă există o diferenţă semnificativă între varianţa neexplicată SSR pe ansamblul perioadei şi suma varianţelor neexplicate pe cele două subperioade SSR1 + SSR2? Dacă răspunsul este negativ.n −k −1 se acceptă H0.4. unde k este numărul de SSR /(n − k − 1) variabile explicative. înseamnă că divizarea pe subperioade nu îmbunătăţeşte calitatea modelului. Teste pornind de la analiza varianţei modelului liniar Pe baza analizei varianţei se disting patru teste des utilizate: verificarea semnificaţiei introducerii uneia sau mai multor variabile explicative în model. . de modelul cu mai puţine variabile independente? Testul de ipoteze este: 1 ⎧ ⎪ H 0 : SSE − SSE = 0 . SSE1. introducerea variabilei sau variabilelor suplimentare a contribuit la o mai bună explicare a varianţei variabilei endogene.F * > Fkα− k ′. verificarea stabilităţii în timp a modelului.6.n − k −1 se acceptă H1.2. nu este nici o diferenţă între cele două modele şi introducerea variabilelor suplimentare nu îmbunătăţeşte calitatea ajustării. 6. ⎨ 1 ⎪ H SSE SSE : − ≠ 0 ⎩ 1 Se calculează: F * = ( SSE − SSE 1) /(k − k 1 ) şi se compară cu Fkα− k 1 .n − k −1 .4. Regula de decizie este: F * < Fkα− k ′. modelul iniţial este stabil pe întreaga perioadă.

5. modelul este instabil.298) (0. n=14.99) (0.802 x1 − 0.7027. F * > Fkα+1. ca fiind stabil pe ansamblul perioadei sau trebuie să se procedeze la estimarea pe subperioade: de la perioada 1 la 7 şi de la 7 la 14? Soluţie: (0.037 x3 explicative: y (10. numărul de observări în prima subperioadă şi n2. referitoare la modelul cu trei variabile ˆ t = 35.156) Să se testeze următoarele ipoteze: a) Adăugarea variabilelor explicative x2 şi x3 ameliorează semnificativ calitatea ajustării faţă de estimarea numai în raport de variabila x1? Dar adăugarea numai a variabilei x2? b) Se poate considera modelul cu trei variabile.72 + 0. este numărul total de observări din modelul iniţial: [ SSR − ( SSR 1 + SSR 2 )] /[(n − k − 1) − (n1 − k − 1) − (n2 − k − 1)] F* = = ( SSR 1 + SSR 2 ) /[(n1 − k − 1) + (n2 − k − 1)] = [ SSR − ( SSR 1 + SSR 2 )] /(k + 1) ( SSR 1 + SSR 2 ) /[n − 2(k + 1)] Regula de decizie: .F * ≤ Fkα+1.052) ( ·) abaterea standard a coeficienţilor.381x 2 − 0. nu este nici o diferenţă între varianţa reziduurilor calculată pe întreaga perioadă şi suma varianţelor reziduurilor calculate pe subperioade.n − 2( k +1) se acceptă H0. Exerciţiu – Teste pornind de la analiza varianţei Reluînd datele din aplicaţia anterioară. numărul de observări în a doua subperioadă. coeficienţii nu sunt constanţi. coeficienţii sunt stabili pe întreaga perioadă.Testul de ipoteze este: 1 2 ⎧ ⎪ H 0 : SSR − ( SSR + SSR ) = 0 ⎨ 1 2 ⎪ ⎩ H 1 : SSR − ( SSR + SSR ) ≠ 0 Se calculează valoarea Fisher. iar suma lor n1 + n 2 = n . există diferenţe semnificative între varianţa reziduurilor pe întreaga perioadă şi suma varianţelor reziduurilor pe subperioade.n − 2( k +1) se acceptă H1. R2=0. 6. a) Introducerea a două variabile explicative suplimentare Se execută următoarele operaţiuni: 76 . considerând n1.

02E-05 10.5186 este mai mic decât în cazul modelului iniţial. pentru că măsoară variaţia datorată tuturor factorilor (înregistraţi şi reziduali).559 2.857 SST este evident aceeaşi.5: SSE=159. cu trei variabile explicative.857 2.659 SSR=109.n −k −1 = F3α = 4.237 1. SUMMARY OUTPUT Regression Statistics Multiple R 0.0036 109.448 SST=226.399 Upper 95% 20. x1.1983 9.6589 12.003674 0. Aceste valori se găsesc în tabela de regresie din Tabelul 2. a celei explicate şi a celei reziduale pentru modelul complet cu trei variabile explicative.10 77 .8571 Standard t Stat P-value Lower Error 95% 15.198 SST=226.247 1.409 SSR= 67.1.625 Tabelul 2.10 −1.0166 Error Observations 14 ANOVA df Regression 1 Residual 12 Total 13 Coeff. Calculul varianţei totale.14 −3−1 = F2 . Tabele de regresie a modelului cu o singură variabilă explicativă 3. Testul statistic asupra ipotezelor: H0: SSE-SSE1=0 H1: SSE-SSE1≠ 0 Valoarea calculată Fisher este: F* = ( SSE − SSE 1) /(k − k 1 ) (159.7202 R Square 0.099855 226.4785 Square Standard 3.409 − 117.92975 0.6589 117. Aceste valori se găsesc în tabela de regresie din Tabelul 2.0118 0.9: SSE=117. F 117. a celei explicate şi a celei reziduale pentru modelul cu o singură variabilă explicativă. indiferent de numărul variabilelor explicative.596 0.147 7.9.659) /(3 − 1) = 3.882 1. Se observă că R2=0.448 /(14 − 3 − 1) SSR /(n − k − 1) = 5% α = 5% Fkα− k 1 . Calculul varianţei totale.09 = 67.281 3.5186 Adjusted R 0. Intercept X Variable 1 SS MS F Signifi.

973 SSR= 70. nu este semnificativă.09 < 4.10. şi anume x2.9. dacă introducerea unei singure variabile suplimentare.10. Pasul 1: se estimează coeficienţii modelului pentru prima subperioadă. rezultă că se acceptă ipoteza nulă H0. x1.n − k −1 = F2α = 4.857 Valoarea calculată Fisher este: F* = ( SSE − SSE 1) /(k − k 1 ) (155.659 SSR=109.84 −1.973 − 117. îmbunătăţeşte calitatea ajustării. x1 şi x2: SSE=155. x1.857 calculul varianţei totale. 78 . Introducerea acestor variabile nu contribuie semnificativ la îmbunătăţirea calităţii ajustării.884 SST=226.11 Cum 5. ca cei prezentaţi mai sus: calculul varianţei totale.Cum 3. şi se acceptă ipoteza alternativă. b) Testul Chow pentru verificarea stabilităţii în timp a modelului Se va testa stabilitatea modelului cu trei variabile explicative.5. Se vor parcurge aceeaşi paşi.946 > 4. şi se poate vedea în tabela de regresie din Tabelul 2. că variabila x3. Este interesant să se analizeze.659) /(2 − 1) = 5. fapt care a condus apoi la excluderea sa din model.198 SST=226.884 /(14 − 2 − 1) SSR /(n − k − 1) = 5% α = 5% Fkα− k 1 . a celei explicate şi a celei reziduale pentru modelul cu două variabile explicative. de la 1 la 7. rezultă că se respinge ipoteza nulă H0. Tabela de regresie obţinută este prezentată în Tabelul 2.5186.6875 mai mare decât în modelul cu o singură variabilă explicativă. SSE=117. deoarece raţia sa Student este mai mică decât valoarea teoretică.84.14 − 2 −1 = F1. R2=0. S-a discutat deja mai sus. a celei explicate şi a celei reziduale pentru modelul cu o singură variabilă explicativă. care în cazul modelului cu două variabile explicative este R2=0. Acest fapt este dovedit şi de valoarea coeficientului de determinaţie. adăugarea variabilelor x2 şi x3 nu este importantă. Introducerea variabilei x2 contribuie semnificativ la îmbunătăţirea calităţii ajustării. Tabela de regresie este în Tabelul 2. conform căreia adăugarea variabilei x2 aduce o modificare semnificativă a varianţei explicate. H1.946 = 70.

7924 0.8571 Coefficients Std.6707 Upper 95% 172.2914 -0.4089 1.9346 0.2397 X Variable 2 -0.10.9073 Total 6 45.6852 1.1528 -1.2356 1. valorile P-value sunt mai mari decât pragul acceptat de 0. deci conţin valoarea 0.Error t Stat P-value Intercept 28.5290 1. R Sq.9525 X Variable 2 -0.7956 0. toate intervalele de încredere ale estimatorilor coeficienţilor schimbă semnul de la – la +.2832 X Variable 3 -0.8322 subperioada 1 R Square 0.5439 Adjusted R Square 0.5132 2.6208 0.4575 0.11. SUMMARY OUTPUT Regression Statistics Multiple R 0.0176 Observations 7 ANOVA df SS MS F Regression 3 61.86 Pasul 2: se estimează coeficienţii modelului pentru a doua subperioadă. 26.1843 0.3201 -2.5224 -1.3333 Upper 95% 79.3020 Tabelul 2.1059 Total 6 88.1175 X Variable 1 1.4189 X Variable 3 -0.7051 0.7375 subperioada 2 R Square 0.7739 0.188 0.1632 -46.6926 Adj.32 SST2=88.1710 -0.05. de la 8 la 14.0494 -0.3955 3.1% faţă de 5%.2282 0. Tabela de regresie pentru prima subperioadă de la 1 la 7 Se observă în Tabelul 2.206 0.4629 0.Error t Stat P-value Lower 95% Intercept 63.44423 Residual 3 20.1436 2.3142 -0. Error 3.10.3851 Std. că nici unul din coeficienţii de regresie nu este semnificativ diferit de 0.9097 -1.0416 0.1240 0. 0.8391 0.SUMMARY OUTPUT Regression Statistics Multiple R 0.8986 1.1923 0.7219 6. cât se acceptă în mod obişnuit.1008 -0.5396 20.3176 9. tabela de regresie se află în Tabelul 2.2610 Lower 95% -22.1704 X Variable 1 0.6282 Observations 7 ANOVA df SS MS F Significance F Regression 3 24.0877 Standard Error 2.1390 34. Varianţele din tabelul ANOVA sunt: SSE1=61.0125 0.4286 Coefficients Std.9091 Significance F 0. Tabela de regresie pentru a doua subperioadă de la 8 la 14 79 .54 SSR1=27. Nici testul Fisher nu indică o regresie global semnificativă.3083 Tabelul 2.2527 Residual 3 27.5471 15.7067 8.3137 -0.2932 0.11.3309 1. Significance F având o valoare mult prea mare.

32 + 20.. sunt: SSE2=24. Previziuni folosind modelul regresiei multiple Procedura de estimare a valorilor viitoare ale variabilei dependente. + a ˆ k x k . 6 Valoarea teoretică Fisher cu care se compară este: Cum 0.606 (27.t + h . Se cunosc valorile viitoare ale variabilelor explicative şi în funcţie de acestea se stabilesc previziunile punctuale. Eroarea de previziune este: et + h = y t + h − y 80 . corespunzător celei de a 2-a subperioade. unde h este orizontul de previziune.04 / 6 =5% α = 5% Fkα+1. cu t=1. intervalele de încredere ale estimatorilor coeficienţilor conţin valoarea 0.Concluzia este asemănătoare cu cea de la prima subperioadă: că nici unul din coeficienţii de regresie nu este semnificativ.72 SST2=45. modelul este: ˆt = a ˆ0 + a ˆ1 x1. este similară cu cea utilizată la regresia simplă. sau i+h.14 − 2 ( 3+1) = F4 . y ˆ t +h . +1. Varianţele din tabelul ANOVA.606 < 4.32 + 20. ( SSR 1 + SSR 2 ) /[n − 2(k + 1)] F* = [67.t + h + . y Previziunea pentru unitatea de timp t+h. testul Fisher nu indică o regresie global semnificativă. 7.71 SSR2=20.53. H0. Pentru perioada de la 1 la n.t . Se poate accepta stabilitatea coeficienţilor pe întreaga perioadă.72) /[14 − 2(3 + 1)] 48. după care. adică nu există diferenţe semnificative între varianţa reziduurilor pe întreaga perioadă şi suma varianţelor reziduale pe cele două subperioade.n − 2( k +1) = F3α = 4.72)] /(3 + 1) (67.t + .n.t + a ˆ 2 x 2...53 .448 − 48.04) / 4 = = 0. dacă datele sunt observate în mod instantaneu este: ˆ t +h = a ˆ0 + a ˆ1 x1.448 − (27.t + h + a ˆ 2 x 2.. cu o anumită probabilitate se estimează intervalele de încredere ale acestor valori viitoare.43 Pasul 3: se calculează valoarea Fisher: F* = [ SSR − ( SSR 1 + SSR 2 )] /(k + 1) . y. rezultă că se acceptă ipoteza nulă. + a ˆ k x k .

σ e2t + h ). se alege modelul cu două variabile explicative. care a fost identificată ca fiind ˆ t = 29.t + h ⎟ = ⎜ x 2 ..6.15=3 şi x1.715 x1.t + h ⎟ ⎟ ⎜ ⎜ . valoarea teoretică Student este: 81 . Se calculează varianţa erorii de previziune. după ce s-a eliminat variabila x3. Tabela de regresie a acestui model y Tabelul 2. Soluţie: Pentru o probabilitate de 95%.16=6. previziunea y prin aplicarea directă a modelului de regresie estimat. Intervalul de încredere pentru un prag de semnificaţie de α.t se găseşte în nesemnificativă. respectiv x2.. ˆ t +h ± t n este: ICy t + h = y − k −1 σ ε [ X t + h ( X X ) 7. se deduce că raportul: Înlocuind varianţa erorilor σ ε2 cu varianţa estimată. se ˆ . prezentat în paragraful 2.2.328 x 2. cea a reziduurilor σ ˆ t +h yt +h − y ˆ ε2 [ X t′+ h ( X ′X ) −1 X t + h + 1] σ urmează o lege Student cu n-k-1 grade de libertate.15=24 şi x2. N(0. Exerciţiu – Previziuni folosind modelul regresiei multiple Pentru exerciţiul anterior. pentru lunile 15 şi 16. ⎟ ⎟ ⎜x ⎝ k .t + h ⎠ X t +h Eroarea de previziune et + h urmează o lege normală de medie 0 şi varianţă σ e2t + h . ˆ ε2 .6. Această varianţă se calculează astfel: σ e2 = σ ε2 [ X t′+ h ( X ′X ) −1 X t + h + 1] t +h Cunoscând vectorul X t + h . unde k este numărul variabilelor explicative din model. Ştiind că valorile variabilelor x1 şi x2 pentru următoarele două luni. care permite determinarea unui interval de încredere pentru previziune. α /2 2 ′ ′ −1 X t + h + 1] .143 + 0.ˆ t + h este nedeplasată şi se obţine Conform ipotezelor modelului liniar general. doreşte obţinerea vectorului valorilor previzionate Y t +h ⎛ 1 ⎞ ⎟ ⎜ ⎜ x1. care conţine valorile viitoare ale variabilelor explicative.16=38. 15 şi 16 sunt: x1.t − 0. să se calculeze previziunea şi intervalul său de încredere de 95%.1.

fără a se considera şi valorile viitoare pentru lunile 15 şi 16. ⎜ .1163 0. Previziunile pentru lunile 15 şi 16 se obţin direct prin înlocuirea în model a valorilor variabilelor explicative. ci numai numărul de observări ale celor două variabile explicative care intră în estimarea modelului: 99 490 ⎞ ⎛ 14 ⎜ ⎟ X ′X = ⎜ 99 815 3361 ⎟ .41 y ˆ16 = 29. σ 15 ˆ σ 2 e16 ⎡ ⎛ 5.426 .1163 0.0025 0.96 .201 ⋅ 2.95] .1163 ⎞⎛ 1 ⎞ ⎤ ⎟⎜ ⎟ ⎥ ⎜ ⎢ = 2.5385 2 ⎢(1 3 24)⎜ .0.0.328 ⋅ 24 = 23. ⎜ .426 .5385 ⎢(1 6 38)⎜ .0. Varianţele reziduurilor sunt: ′ ( X ′X ) −1 X 15 + 1] şi σ ′ ( X ′X ) −1 X 16 + 1] .0025 ⎟⎜ 3 ⎟ + 1⎥ = 11.0110 0. ⎜ .41 ± 2.12 . ICy16 = [15.201 ⋅ 3.1668 0.025 0. σ 16 Valorile punctuale ale variabilei dependente sunt: ˆ15 = 29.738 .0025 0.1668 .1668 0.1163 ⎞ ⎜ ⎟ = ⎜ .0.654 . ICy15 : y σ 0.025 tn = 2.654 .0.1668 . 26.3223 . ⎜ 38 ⎟ ⎝ ⎠ Se calculează ( X ′X ) −1 .1668 0. ⎜ 24 ⎟ ⎝ ⎠ X 16 ⎛1⎞ ⎜ ⎟ = ⎜ 6 ⎟.0.96 ± 2.715 ⋅ 3 − 0.1163 0. ⎜ 490 3361 17600 ⎟ ⎝ ⎠ ( X ′X ) −1 ⎛ 5.0.0028 ⎟ ⎝ ⎠ ˆ e2 σ 15 ⎡ ⎛ 5.025 ˆ16 ± t11 ˆ e16 = 20.0.715 ⋅ 6 − 0.0025 ⎟ .025 ˆ15 ± t11 ˆ e15 = 23. ICy16 : y σ 82 .3223 .3223 .87 . ˆ e2 = σ ˆ ε2 [ X 15 ˆ e2 = σ ˆ ε2 [ X 16 σ 15 16 Cei doi vectori ai variabilelor explicative sunt: X 15 ⎛1⎞ ⎜ ⎟ =⎜ 3 ⎟.0025 ⎟⎜ 6 ⎟ + 1⎥ = 7.328 ⋅ 38 = 20.143 + 0.0. y Intervalele de încredere ale previziunilor sunt: 0.0028 ⎟⎜ 24 ⎟ ⎥ ⎢ ⎠⎝ ⎠ ⎦ ⎝ ⎣ ˆ e = 3.0110 0.6 arată că estimatorii coeficienţilor sunt toţi semnificativi diferiţi de 0.1163 ⎞⎛ 1 ⎞ ⎤ ⎜ ⎟⎜ ⎟ ⎥ ⎢ = 2. ICy15 = [15.201 .0025 0.α /2 0.1668 .143 + 0.043 .0.0.80] . 30.0028 ⎟⎜ 38 ⎟ ⎥ ⎢ ⎝ ⎠⎝ ⎠ ⎦ ⎣ 2 ˆ e = 2.0110 0.0. − k −1 = t14 − 2 −1 = t10 Tabela de regresie din Tabelul 2.

20 sunt prezentate valorile teoretice care ajustează seria iniţială şi previziunile pentru urmăroarele două perioade. până în luna a 14-a. ajustarea şi previziunea lor În Figura 2. euro 25 20 15 10 1 2 3 4 y 5 6 7 yt 8 9 10 11 12 13 14 15 16 lim. respectiv superioare. luni Figura 2.20. Pentru a putea reprezenta limitele inferioară şi superioară se crează două serii de date identice cu cea ajustată şi se completează cu limitele inferioare. 83 . acestea două din urmă suprapunându-se peste valorile ajustate. ale celor două intervale de încredere.sup. Evoluţia valorii vânzărilor. a limitelor inferioare şi a limitelor superioare ale intervalelor de încredere. Se are în vedere reprezentarea cu acelaşi tip de marcator ale celor trei serii: ajustată. ajustarea si previziunea lor 35 30 mil. lim.Evoluţia vânzărilor. precum şi intervalul de încredere care la cuprinde.inf.

Rezumat:

Aceast capitol prezintă modelul regresiei multiple, ipotezele de lucru, estimarea coeficienţilor modelului, intervalele lor de încredere, testarea semnificaţiei estimatorilor modelului, testarea semnificaţiei globale a regresiei, construirea de teste pentru verificarea validităţii modelului şi a stabilităţii sale, previziunea cu modelul regresiei multiple. Exemplele oferă explicaţii pentru înţelegerea obiectivelor capitolului.
Termeni importanţi:

Model de regresie multiplă, estimatorii modelului de regresie multiplă, ipotezele modelului de regresie multiplă, testul F de verificare a semnificaţiei globale a regresiei, ANOVA, testul Chow

Întrebări recapitulative

1. Enumeraţi ipotezele modelului de regresie multiplă 2. Scrieţi modelul de regresie pe baza unei tabelei de regresie multiplă. 3. În ce constă testul Chow? 4. Cum stabiliţi daca estimatorii modelului sunt semnificativ diferiţi de zero? 5. Reprezentaţi tabelul de analiză a varianţei ANOVA si testul F pentru regresia multiplă. 6. Cum se construiesc intervalele de încredere ale estimatorilor? Dar ale valorilor previzionate? 7. Cum apreciaţi validitatea unui model de regresie multiplă?

Teme de casă

Parcurgeţi exemplele din curs utilizând calculatorul; realizaţi graficele şi tabela de regresie. Sa se stabilească matriceal estimatorii modelului de regresie multiplă.

84

CAPITOLUL 3

Tema Obiectivele

MULTICOLINIARITATEA ŞI SELECŢIA VARIABILELOR EXPLICATIVE 1. Corelaţia parţială, în modelele econometrice 1.1. Calculul coeficienţilor de corelaţie parţială 1.2. Exerciţiu – Calculul coeficienţilor de corelaţie parţială 2. Multicoliniaritatea 2.1. Consecinţele multicoliniarităţii 2.2. Detectarea multicoliniarităţii 2.3. Remedierea multicoliniarităţii 3. Selecţia variabilelor explicative 3.1. Exerciţiu – Metode de selecţie a variabilelor explicative 1. Estimarea coeficienţilor de corelaţie parţială 2. Eliminarea din modelul de regresie multiplă a variabilelor explicative multicoliniare 3. Cunoaşterea şi aplicarea metodelor de selecţie a variabilelor explicative - citire/învăţare - întrebări, probleme ce apar, explicaţii - definiţii, explicaţii ce trebuie reţinute - situaţii economice concrete, supuse analizei, exemple (sub lupă) - teme de casă, aplicaţii practice pentru studenţi - parcurgerea aplicaţiilor propuse 1. Pentru cunoaşterea problemei: 3 ore 2. Pentru rezolvarea temelor: 4 ore + timpul de documentare

Finalitatea Competenţe dobândite Mijloace

Evaluarea Timp de lucru necesar

85

MULTICOLINIARITATEA ŞI SELECŢIA VARIABILELOR EXPLICATIVE
În construirea unui model, se caută o combinaţie optimă de variabile explicative, care să maximizeze coeficientul de corelaţie multiplă cu seria variabilei explicate, şi care să fie în acelaşi timp cât mai puţin corelate între ele.

1. Corelaţia parţială, în modelele econometrice
Coeficienţii de corelaţie parţială permit determinarea aportului fiecărei variabile exogene la explicarea variabilei endogene. De exemplu, pentru modelul cu două variabile explicative: yt = a0 + a1x1t + a2x2t + εt , se pot calcula: coeficienţi de corelaţie simplă: ryx1, între y şi x1, ryx2, între y şi x2, rx1x2, între x1 şi x2; ryx1.x2, între y şi x1, când influenţa lui x2 este retrasă (menţinută constantă), ryx2.x1, între y şi x2, când influenţa lui x1 este retrasă (menţinută constantă).

coeficienţi de corelaţie parţială:

Coeficientul de corelaţie parţială măsoară legătura dintre două variabile în timp ce influenţa celei de a treia este menţinută constantă (retrasă). Coeficienţii de corelaţie parţială se interpretează la fel ca şi coeficienţii de corelaţie simplă. Coeficienţii de corelaţie parţială se situează în intervalul [-1, 1]. Valorile apropiate de ⏐1⏐arată o corelaţie parţială mare, iar valorile apropiate de 0, o corelaţie parţială mică. Cu cât un coeficient de corelaţie parţială este mai mare cu atât contribuţia variabilei respective este mai importantă la explicarea globală a modelului. are expresia r2yx1.x2, de exemplu, şi semnifică

Coeficientul de determinaţie parţială variaţiei variabilei x1.

proporţia din variaţia variabilei y neexplicată de variabila x2, care este explicată prin considerarea

86

x2 = ry. 87 .între y şi x2. fără zona influenţei comune a lui x1 şi x2 asupra lui y.1 se prezintă trei situaţii posibile de interacţiune între variabila dependentă y şi cele două variabile explicative considerate în model: variabilele x1 şi x2 sunt independente între ele şi fiecare influenţează variaţia variabilei y. y x1 x2 x1 y x2 x1 y x2 a) Variabilele x1. respectiv dintre y şi x2. În cazul b) variabilele explicative sunt interdependente şi coeficientul de determinaţie este suma suprafeţelor de intersecţie dintre: y şi x1 separat. iar coeficientul de corelaţie 2 2 multiplă este: R yx1x 2 = ryx 1 + ryx 2 .x1 . sau numai una din ele.Explicarea grafică a coeficienţilor de corelaţie poate contribui la mai buna înţelegere a conţinutului lor. Se spune despre variabile că sunt coliniare. zona de influenţă simultană a celor două variabile explicative asupra lui y. Reprezentarea grafică a unor tipuri de relaţii între variabile În cazul a) se pot calcula coeficienţi de corelaţie simplă: ryx1 . cazul a). fără zona influenţei comune a lui x1 şi x2 asupra lui y. ryx2. y şi x2 separat. respectiv a coeficientului de corelaţie multiplă. trebuie să se elimine interinfluenţa dintre variabilele explicative. ambele pot influenţa variabila y. Pentru calculul coeficientului de determinaţie. Coeficienţii de corelaţie parţială sunt: ryx1. în cazul b) variabilele x1 şi x2 sunt interdependente. Pe grafic coeficientul de determinaţie este suma suprafeţelor de intersecţie dintre y şi x1. x2 sunt independente între ele b) Variabilele x1. y. x2 sunt corelate (coliniare) Figura 3. Fie un model cu două variabile explicative: ˆ0 + a ˆ 1 x 1t + a ˆ 2 x 2 t + et .1. din suma coeficienţilor de determinaţie a variabilelor explicative.între y şi x1 şi ryx2 . Coeficientul de determinaţie este în acest caz: R2yx1x2 = r2yx1 + r2yx2. x1 şi x2. yt = a În Figura 3. se poate manifesta fenomenul de multicoliniaritate. care la rândul ei se afă în interdependenţă cu cealaltă variabilă explicativă.x1 = ryx2.

Generalizând noţiunea de corelaţie parţială. Coeficienţii de corelaţie simplă se mai numesc de coeficienţi de corelaţie de ordinul 0. ryx1. Se pot calcula 6 coeficienţi de corelaţie parţială de ordinul 1: ryx1. ryx2. Calculul coeficienţilor de corelaţie parţială Coeficienţii de corelaţie parţială se poate calcula în două moduri: A) . yt = a0 + a1x1t + a2x2t + ε1t. Coeficientul de corelaţie parţială este coeficientul de corelaţie simplă al reziduurilor obţinute. 2.x1x2 . b) calculul reziduurilor e1t = y t − y c) regresia x3 = f(x1. variabilele explicative (k = 3). R2yx2.x3 . Aceştia sunt egali cu coeficienţii de corelaţie simplă ridicaţi la pătrat. Fie y. deoarece nu se poate retrage influenţa tuturor variabilelor explicative. ryx3. r2yx2.pornind de la reziduurile e1 şi e2 rezultate în urma a două regresii: 1. ryx3. Se pot scrie r2yx1. x2) . şi variabilele explicative retrase. deoarece legătura este liniară. x3. Coeficienţii de determinaţie pentru regresiile dintre y şi fiecare variabilă explicativă considerată separat. stabileşte ordinul coeficientului de corelaţie parţială respectiv. ˆ 3t = x3t − (b d) calculul reziduurilor e2t = x3t − x 0 1 1t 2 2t e) calculul coeficientului de corelaţie simplă între e1 şi e2: r2yx3. ryx2. ˆ +b ˆ x +b ˆ x ). 1. în timp ce influenţa uneia sau mai multor variabile este menţinută constantă (retrasă). x3t = b0 + b1x1t + b2x2t + ε2t. regresia dintre variabila de explicat y şi variabilele retrase. parcurgându-se următoarele etape: . unde t=1. 2.x1 . 2. …. când k=3. unde t=1.x1x2=r2e1e2.x1x3 . sunt R2yx1. 88 .x2x3 .1. se poate spune că un coeficient de corelaţie parţială măsoară legătura dintre două variabile. şi 3 coeficienţi de corelaţie parţială de ordinul 2: ryx1. ordinul maxim până la care se pot calcula coeficienţi de corelaţie parţială este k–1. ryx2. x2) . Numărul variabilelor a căror influenţă se retrage. n.exemplu pentru calculul r2yx3. variabila de explicat şi x1. Într-un model cu k variabile explicative. regresia dintre variabila explicativă xi a cărei influenţă se analizează. ˆ t = y t − (a ˆ0 + a ˆ1 x1t + a ˆ 2 x 2t ) .x3 . pentru modelul cu k variabile explicative.x2 .x2 .x1 . este 2. R2yx3. n.x1x2: a) regresia y = f(x1. x2. ryx3. Ultimul ordin până la care se pot calcula coeficienţii de corelaţie parţială. r2yx3 şi arată proporţia cu care contribuie fiecare din variabilele exogene la explicarea varianţei lui y. ….

ale estimatorilor coeficienţilor de regresie ai variabilelor explicative şi coeficienţii de corelaţie parţială de ordinul k-1: r2yxi.x1x2x4.2. Variabila dependentă y şi variabilele explicative Coeficientul de corelaţie parţială de ordinul 1: ryx3. ryx3.5 x1 83.7 105.5 44.8 19.6 40. unde ti reprezintă raţia Student empirică pentru variabila xi a cărei influenţă asupra t i2 + (n − k − 1) lui y.5 53.2 101.2 Tabelul 3.5 25.5 105.5 10.2: 89 .8 18.3 15.2 101.5 131.4 104. ryx3.6 109.5 21.8 112.6 96.4 100.5 118. se analizează.5 97.7 x4 92.6 29.7 88.5 12.5 13.3 16.x1.5 95. prezentată în Tabelul 3.5 162 174. y 9.8 100.1. Exerciţiu – Calculul coeficienţilor de corelaţie parţială Pentru seriile de date din Tabelul 3.4 148.8 x3 92.6 97.x1 se obţine prin parcurgerea următorilor paşi: a) regresia lui y = f(x1).5 94 100.5 93.5 34.(celelalte k-1 variabile) = t i2 . 1.4 112. Într-un model cu k variabile explicative.6 112.x1x2.3 x2 18 21.5 112.8 111.8 51. Această metodă se utilizează numai pentru calculul coeficienţilor de corelaţie parţială de ordinul k-1.B) .pornind de la testul Student.7 11. să se calculeze câte un coeficient de corelaţie parţială pentru fiecare ordin: ryx3.4 49. există următoarea relaţie între raţiile Student calculate.5 185.1.

47 0.223x1t).2.3374 Total 9 613. R Sq. în Tabelul 3. Tabela de regresie y = f(x1) ˆ t şi reziduurile e1t = yt – y ˆ t = yt – (0.3391 Obs.26 Tabelul 3.9939 Adjusted RSquare 0.0540 0.57 586.06 78. d) valorile teoretice x Aceste valori teoretice şi reziduurile sunt prezentate în Tabelul 3.4187 0. 10 ANOVA df SS MS F SignificanceF Regression 1 149.Error t Stat P-value Lower 95% Intercept 0.4: 90 .9931 Standard Error 0.1052 Upper 95% 1. 0.4443 1299.1124x1t).0168 13.1195 Tabelul 3. SUMMARY OUTPUT Regression Statistics Multiple R 0. Tabela de regresie x3=f(x1) ˆ 3 t şi reziduurile e2t= x3t – x ˆ 3 t = x3t – (73.7 3.6193 XVariable1 0.47 0.0000 Significance F 1E-06 Lower 95% Upper 95% 68.3.SUMMARY OUTPUT Regression Statistics Multiple R 0.2561 32.3463 + 0.3119 0.18 0.0000 0.0000 XVariable1 0.267 2.8270 0.9197 0.Error t Stat P-value Intercept 73.4322 -0.9565 Adj.364 Coefficients Std.89 3. 10 ANOVA df SS MS F Regression 1 586.3463 0.5766 175.8269 Obs.1124 0.1150 Total 9 150.9510 Standard Error 1.7572 Residual 8 26.9780 R Square 0.84E-10 Residual 8 0.9969 R Square 0.0031 36.223 0.4443 149.3.267 + 0.27 Coefficients Std.26 0. b) valorile teoretice y c) regresia x3 = f(x1).

iar coeficientul de determinaţie parţială este r2yx3. din regresia e1t = a0 + a1e2t + vt.între y şi x3.ˆ t (x1) y 9. care indică o proporţie foarte mică din varianţa neexplicată de x1 şi explicată de x3.23 0.04296. deja existente. Deoarece coeficientul de regresie a1.81 Tabelul 3.0 18. se află coeficientul lor de corelaţie simplă. în urma căreia R2yx3=0.60 0. punctul e) sau realizând regresia dintre cele două serii de date e1 şi e2.9969≈0.2 13. o valoare destul de mică.4.3 109.0 21. al cărei argument îl constituie cele două serii de reziduuri. Valoarea acestui coeficient se obţine cel mai simplu folosind funcţia CORREL.04296.944. prin formula prezentată anterior la paragraful 3.8 99. Coeficientul de corelaţie parţială al variabilei x3 asupra variabilei dependente y. este negativ.între x1 şi x3. este o corelaţie puternică rx1x3 = 0.7 12.1 17.25 0.2 şi 3.9 93.16 0.5 20.75 0. considerată separat. când se retrage influenţa variabilei x1 indică lipsa corelaţiei dintre y şi x3. e1 = f(e2) sau mai simplu.0 95.3 11. .0. . se pot interpreta corelaţiile.25 -0.3.45 0.între y şi x1.49 -1. este o corelaţie puternică ryx1=0.56 -1.3 112.7 15.9779 ≈ 0.36 0.02 -0. considerată separat. cu semnul coeficientului de regresie.8 10.9716 ≈ 0.x1.972.x1= . rezultă că: re1e2 = .33 ˆ 3 t (x1) x 91. Calculul reziduurilor celor două regresii e) calculul re1e2 = ryx3.30 -0. şi x3.19 -0. în Tabelele 3.5 106. se obţine coeficientul de corelaţie dintre cele două variabile.978.0. 91 .20728 şi ryx3. x1.997.5 e2t 0. Extrăgând radicalul din R Squared = 0.6 102.x1 = 0.47 0. există deasemenea o legătură puternică. iar radicalul din acesta este coeficientul de corelaţie simplă ryx3=0. folosind funcţia CORREL pentru cele două serii de reziduuri.1 114. indicate de Multiple R.92 3.2 e1t -0. care este egal cu cel de corelaţie parţială căutat.20728.38 -0. Pentru a efectua o analiză mai amănunţită a legăturilor dintre y.57 0.7 96.3: .82 -2. indiferent de ordinea lor. care se poate obţine uşor prin efectuarea regresiei y=f(x3).

x 3 > 0 indicând o legătură puternică. chiar cu porţiunea haşurată care reprezintă coeficientul de determinaţie parţială r2yx3. x1 < 0 . Pentru că ryx 3 < ryx1 . r2yx3. ar putea fi.5: Coeficientul de corelaţie multiplă Ryx1x2=0. Suprafaţa dintre y şi x1.2.x3= + 0. ambii coeficienţi sunt de acelaşi semn pozitiv. Coeficientul de corelaţie parţială de ordinul 2: ryx3.20728.04296 arată cât din varianţa lui y este explică x3 din varianţa rămasă neexplicată de x1. când se elimină influenţa lui x3: ryx1. x1 < ryx1. cel din Figura 3. arătând corelaţii de intensitate mare asupra variabilei y. iar ryx 3. variaţia rămasă între y şi x3. arată legătura dintre y şi x3.2: y x3 x1 Figura 3. menţinânduse constantă influenţa lui x1. Corelaţii parţiale ale variabilelor x1 şi x3 asupra variabilei y Pe graficul din Figura 3.Coeficientul de corelaţie parţială ryx3. atnci ryx3. fără a analiza şi legăturile cu celelalte variabile.2 se poate vedea că suprafaţa influenţei dintre y şi x1 este mai mare ca cea dintre y şi x3. indică o intensitate slabă a corelaţiei parţiale.x1x2 se obţine prin parcurgerea etapelor: a) regresia lui y = f(x1. prezentată în Tabelul 3. după ce s-a eliminat influenţa variabilei x1 şi explicată de x3. Graficul acestor corelaţii.x1=-0.x1. arată legătură o puternică între y.x3 este mai mare. x1 şi x2. valoarea foarte mică provine din faptul că x1 şi x3 sunt puternic corelate pozitiv între ele.x1 = 0. dar în acelaşi timp există o puternică legătură între x1 şi x3. Valoarea apropiată de 1 a acestui coeficient. 92 . Urmând procedura de mai sus se poate calcula şi coeficientul de corelaţie parţială dintre y şi x1. după ce s-a eliminat influenţa lui x3. x2). x 3 şi este firesc ca ryx1. indică o influenţă puternică a variabilei x1 asupra variabilei dependente y.9462.997. măsurată prin r2yx1.

1060 0.106x1t + 0. x2) Coeficientul de corelaţie multiplă Rx3x1x2=0.6930 3.5079 0.0411 F 76.7113 4.2915 Residual 7 26.8133 Total 9 613.9940 Adjusted R Square 0.9684 Lower 95% 64. x2).8179 X Variable 2 0.5.0617 MS F 74.9970 R Square 0. F 1. b) valorile y c) regresia x3 = f(x1.0538 -0. x2.7776 Upper 95% 82.Error t Stat Intercept 73.218x1t +0.1639 Tabelul 3.8698 18.9780 R Square 0.1806 0.6: SUMMARY OUTPUT Regression Statistics Multiple R 0.0655 -0.7: 93 .4999 0.1119 0.1281 Upper 95% 2.978.9922 Std Error 0.0221 X Variable 2 0. Tabela de regresie y = f(x1.5009 0. d) valorile x Valorile teoretice şi reziduurile sunt prezentate în Tabelul 3.0137 0.508 + 0.014x2t).2177 0.91 Signif.Error Intercept 0. F 1.72E-08 Lower 95% -1.364 Coefficients Std.2410 -0.9565 Adjusted R Square 0.4551 Residual 7 0.018x2t).0179 0.9653 X Variable 1 0. prezentată în Tabelul 3.2894 P-value 0.9528 Observations 10 ANOVA df SS MS Regression 2 586.1198 1.3346 0.1964 0. arată o legătură puternică între x3 şi x1. ˆ 3 t şi reziduurile e2t = x3t – x ˆ 3 t = x3t – (73.9440 Standard Error 1.72E-05 P-value 0.276 Coefficients Std.3916 3.SUMMARY OUTPUT Regression Statistics Multiple R 0. x2) ˆ t şi reziduurile e1t = yt – y ˆ t = yt – (0.1583 0.1298 t Stat 0.7976 0.5421 0.7806 Signif.583 293.0000 0.3603 Observations 10 ANOVA df SS Regression 2 149.5485 0.9089 Total 9 150.7276 575.39 + 0.0020 0.8051 Tabelul 3. Tabela de regresie x3 = f(x1.7141 X Variable 1 0.6.

6 0.1 0.7651 0.5 0.181 0. x4) 94 .3028 0.1 -0.987.9970 R Square 0.4 0.7 96. Coeficientul de corelaţie parţială de ordinul 3: ryx3.361 Tabelul 3.9887.143 X Variable 3 0.5 e2t 0. iar coeficientul de determinaţie parţială r2yx3.8.3 -0.7.31 0.0980 0.9911 Standard Error 0.1 114. Valorile teoretice şi reziduurile celor două regresii e) calculul re1e2 = ryx3.8 Tabelul 3.997. a) regresia y = f(x1. ryx3. ryx3 = 0. că: rx1x3=0.6 19.0397 0. x2.4 0.8 0.3 11.6 12.5 -1.8: SUMMARY OUTPUT Regression Statistics Multiple R 0.2 17.6 106.1492 Total 9 150. x2 şi x3 sunt puternic corelate între ele şi fiecare din ele separat cu y.8 -2. x4). realizând regresia dintre cele două serii de date e1 şi e2.0355 2.2102.1 -0.x1x2.2 0.7723 -0. e1 = f(e2) sau cu funcţia CORREL.x1x2 = -0.2 0.8952 0.5 -1.7 10.978.2102. dacă se retrag variabilele x1 şi x2.x1x2 = 0.43 X Variable 1 0.x1x2x4 .4 -0.364 Coefficients Standard t Stat P-value Lower 95% Error Intercept -2. Se ştie de la calculul coeficientului de corelaţie parţială de ordinul 1.011 X Variable 2 0.9674.0442.x2) x 91. are o valoare foarte mică. prezentată în Tabelul 3.7 15. x2. Rezultă că: re1e2 = -0.9411 4. ryx2=0.185 0.2879 0.0191 0. ryx1= 0. Tabela de regresie y = f(x1.4 ˆ 3 t (x1. Se poate trage concluzia că variabilele x1.0326 0.8229 333.9 3.ˆ t (x1. Pentru a interpreta rezultatul.61E-07 Residual 6 0.5606 10.3 109.3863 Observations 10 ANOVA df SS MS F SignificanceF Regression 3 149.6 0. se pot calcula: rx1x2=0. rx3x2=0.7831 -0.9 93.0 95.7 102.8 99.1626 -0. prin formula prezentată anterior.9940 Adjusted R Sq.x2) y 9.0 18.1311 0.2520 0.9 21.1 e1t -0.2 13.972.3 112. 0.0663 0.4688 49.8095 -27.281 Upper 95% 22.2 -0. Concluzia este că între y şi x3 nu există corelaţie.

5 -2. 10 ANOVA df SS MS Regression 3 598.1463 2.7034 0. x1.5 0.5776 Obs.1 0.1427 84. Valorile teoretice şi reziduurile celor două regresii e) calculul re1e2 = ryx3.7 -0.7 11.9859 -0.2 105. iar coeficientul de determinaţie parţială este r2yx3.5356 t Stat -0.0 -0. x2.3994 -0. x4.1448 0. ryx3.2 17.164x4t).0495 1. ˆ 3 t şi e2t = x3t – x ˆ 3 t = x3t .3432 199.2 0. x1.x1x2x4 = 0.3 0.9757 Std.1829 2.4477 Residual 6 14.2 111.0165 0.3 94.1 1.2 96.9131 0.3 21.3929. F 3.098x1t+0.14 Signif. b) valorile y c) regresia x3 = f(x1.3929.0 -0. arată legătura puternică între x3. Rezultă că: re1e2 = - 0.7 -0.7 -0.2709 0.8609 0.9 -0.13E-05 Pvalue 0.2 90.5 13. x4).0727 Lower Upper 95% 95% -118.4 0. Error 1.016x1t + 0.x1x2x4.4 18.997.987.9878 R Square 0.0 12.4888 Total 9 613.6 0. ˆ t şi e1t = yt – y ˆ t = yt – (-2.7 -1.9328 2.0 Tabelul 3. arată legătura puternică între y.7 20. realizând regresia dintre cele două serii de date e1 şi e2. e1 = f(e2) sau cu funcţia CORREL aplicată serrilor reziduurilor. Tabela de regresie x3 = f(x1.049x2t + 1.1643 Standard Error 41. SUMMARY OUTPUT Regression Statistics Multiple R 0.x1x2x4 = -0.040x4t).0 0. o 95 .(-16.3708 0.561+ 0.2 101. x2.5 112.4 15.1 0.3379 -0. prezentată în Tabelul 3. x4) Coeficientul de corelaţie multiplă Rx3x1x2x4 = 0.9 10. prin formula prezentată anterior.3 -0.5784 -0.8 0.9.4 99.3 96.6132 0.5071 0.1138 0.578 . x4.6 1.10.276 Coefficients Intercept X Variable 1 X Variable 2 X Variable 3 -16.0. d) valorile x Aceste valori teoretice şi reziduurile sunt prezentate în Tabelul 3. x2.9.4749 Tabelul 3.Coeficientul de corelaţie multiplă Ryx1x2x4 = 0.1738 F 80.019x2t + 0. x2.7123 -0.10: ˆ t (x1x2x4) ˆ 3 t (x1x2x4) e1t e2t x y 9.4 113.1544.

Tabela de regresie y = f(x1.9909 Standard Error 0.15439 = −0.1483 -0.6976 0.1514 150.8186 0. corespunzătoare lui x3.9555 se înlocuieşte în formula: 2 ryx 3.7052 0. x2.0670 0. t3.27E-06 Lower 95% -30.3891 Observations 10 ANOVA df Regression 4 Residual 5 Total 9 Coefficients Intercept -4.3023 Upper 95% 22.9555) 2 = = 0.valoare mică.5075 0. x1x 2 x 4 = 0. Datorită corelaţiei mari dintre variabilele explicative (valorile apropiate de 1 ale coeficienţilor de corelaţie multiplă de mai sus) şi de asemenea dintre y şi x4: ryx4 = 0.7363 0.11.1961 0. Între y şi x3 nu există corelaţie dacă se retrag variabilele x1. coeficientul de corelaţie parţială de ordinul 3 al aceleaşi variabile x3 faţă de y.1884 0.0965 X Variable 2 0.364 Std.3929 .0493 0.11: b) raţia Student a variabilei a cărei influenţă asupra lui y se studiază.607 37.6057 Tabelul 3. SUMMARY OUTPUT Regression Statistics Multiple R 0.571.9950 Adjusted R Square 0. Etapele care se parcurg sunt următoarele: a) regresia completă y = f(x1. Raţiile Student calculate comparate cu valoarea teoretică t5α/2= 2. - 0. F 6. Valoarea sa trebuie să fie aceeaşi cu cea deja obţinută prin procedeul anterior prezentat.0962 X Variable 4 0.1555 X Variable 1 0.3550 -0.0429 0.8590 0.4296 Signif.9555 0.15439 2 t3 + (n − k − 1) (−0.9555) 2 + (10 − 4 − 1) ryx 3.0239 X Variable 3 -0. este mic şi de acelaşi semn negativ. x3. x1 x 2 x 4 = 2 t3 (−0. x2 şi x4.3724 -0.4018 247.3561 0.9882.1517 SS MS F 149.Error t Stat P-value 10. x3. Coeficientul de corelaţie parţială de ordinul 3.3832 0. indică numai variabila x1. x2. ca fiind semnificativ diferită 96 . x4).0358 2. explicată de variabila x3. când se retrage influenţa celorlalte variabile explicative. se poate obţine şi prin modalitatea de calcul pornind de la raţia t Student. pentru 5 grade libertate şi un prag de semnificaţie α = 5%. x4) Semnul acestui coeficient este dat de semnul (negativ) coeficientului de regresie corespunzător variabilei x3. indicând o mică proporţie a variaţiei variabilei y.4006 0.7570 0.1766 0. prezentată în Tabelul 3.0045 -0.1007 -0.9975 R Square 0.1626 0. fiind ultimul ordin posibil de calculat. apropiată de 0.

Astfel încât. Se reţine în model. Legătura dintre ele este perfectă sau deterministă. intercorelaţia lor se măsoară cu coeficientul de corelaţie simplă dintre ele. multicoliniaritatea este un fenomen de eşantionare. se poate întâmpla ca în eşantionul dat pentru a testa 97 . R2=0. chiar dacă legătura sa cu y este directă.variabila x3 apare cu semnul negativ. Multicoliniaritatea Una din ipotezele modelului liniar clasic de regresie este aceea că nu există multicoliniaritate printre variabilele explicative incluse în model. În cazul a două variabile explicative. coeficientul lor de corelaţie simplă este 0. Dacă coeficientul de corelaţie simplă dintre două variabile este egal cu ⏐1⏐. ca variabilă semnificativă. fie pozitiv. şi la fel şi cu celelalte variabile explicative. În esenţă. în acest exemplu este evident că deşi coeficientul de determinaţie este foarte mare. la originea sa însemna existenţa unei relaţii liniare ″perfecte″ sau ″exacte″ dintre unele sau între toate variabilele explicative ale unui model de regresie. Când valoarea coeficientului de corelaţie simplă este apropiată de⏐1⏐. La celelalte se poate renunţa. deoarece chiar dacă în populaţie. În acest caz. deşi relaţia lor nu este deterministă. deşi teoretic se poate considera că variabilele xi au o influenţă separată sau independentă asupra variabilei dependente y. Termenul de multicoliniaritate. Această distincţie nu se face în practică. x2) = 0. Sensul recent al acestui termen este mai larg. ele să fie corelate. folosindu-se în ambele situaţii termenul de multicoliniaritate. În practică seriile de date sunt mai mult sau mai puţin corelate între ele. 2. variabilele xi sunt necorelate liniar. se poate ca într-un eşantion dat. referindu-se şi la o relaţie mai puţin deterministă. variabilele sunt puternic corelate. se spune că sunt ortogonale sau independente dacă au covarianţa nulă: cov(x1. Intercorelaţia în cazul mai multor variabile explicative se măsoară cu ajutorul coeficienţilor de corelaţie parţială sau prin coeficientul de corelaţie multiplă R a unei variabile xi cu toate celelalte variabile x considerate împreună.de 0. fapt confirmat şi de rezultatele obţinute pentru coeficienţii de corelaţie parţială ai lui x3. Din cauza puternicei corelaţii dintre variabilele explicative – fenomen numit multicoliniaritate . apar ca fiind nesemnificative variabilele explicative. Despre două serii x1 şi x2. fie negativ. numai variabila x1. seriile sunt perfect corelate. Ca o consecinţă a multicoliniarităţii. Multicoliniaritatea se referă strict la existenţa mai multor relaţii liniare. iar termenul de coliniaritate se referă la existenţa unei singure relaţii liniare.9949.

Testul F de semnificaţie globală a regresiei va fi în majoritatea cazurilor. în sensul că se consideră multicoliniaritatea ca fiind dăunătoare numai când influenţele tuturor variabilelor explicative asupra lui y nu pot fi separate. Consecinţele multicoliniarităţii Se pot întâlni următoarele consecinţe ale multicoliniarităţii: varianţe şi covarianţe mari ale estimatorilor coeficienţilor de regresie. care este semnificativ. Detectarea multicoliniarităţii Pentru că în esenţă. raţiile t Student nesemnificative. de 0. schimbă semnul de la minus la plus. x4) din exerciţiul prezentat în paragraful 3. 2. intervale mari de încredere ale estimatorilor. indică un coeficient de determinaţie mare. x3. iar testul Fisher arată că regresia este global semnificativă cu o probabilitate de 100% (Significance F). dar puţine raţii t semnificative reprezintă un simptom ″clasic″ de existenţă a multicoliniarităţii. este prea puternic. Există câteva reguli pentru stabilirea existenţei sale: 1. Cu excepţia coeficientului variabilei x1. regresia y = f(x1. astfel că se va respinge ipoteza nulă.1.funcţia de regresie a populaţiei. cu excepţia intervalului ˆ1 . multicoliniaritatea este un fenomen de eşantionare. R2 mare. din cauza abaterilor standard mari.11. Intervalele de încredere ale estimatorilor.1. nu există o metodă unică de detectare şi măsurare a intensităţii sale. 2. conform căreia coeficienţii parţiali de regresie (estimatorii variabilelor explicative) sunt simultan egali cu zero. să fie atât de puternic corelate. din cauza abaterilor standard mari. În Tabelul 3. mai mare decât valoarea F teoretică. Prin valorile lor mici arată că nici unul sau foarte puţini coeficienţi de regresie sunt statistic semnificativ diferiţi de 0. instabilitatea estimatorilor şi a abaterilor lor standard la mici schimbări ale datelor. încât să nu se poată izola influenţa lor individuală asupra lui y. 98 . dezavantajul său constă în faptul că în acelaşi timp. dar raţiile t nesemnificative.995. în caz de multicoliniaritate perfectă matricea X ′X este singulară (determinatul este 0). unele variabile xi.3. conţinând valoarea 0 şi indicând faptul că sunt pentru a nesemnificativi. Deşi acest diagnostic este sensibil. infinită. restul coeficienţilor au raţiile Student mai mici decât valoarea critică pentru un prag de semnificaţie de 5%. estimarea coeficienţilor este imposibilă şi varianţa lor.2. Dar raţiile t infirmă această concluzie. x2. un coeficient mare de determinaţie R2.

Examinarea corelaţiilor parţiale a fost propusă de Farrar şi Glauber. constă în compararea coeficientului de determinaţie R2. Ei susţin că. x3. + a ˆ k xk + e y=a cu pătratul coeficienţilor de corelaţie simplă dintre regresori.xk /( k − 1) . r2xixj. Un coeficient mare de determinaţie sugerează că xi este puternic corelată cu celelalte variabile x.x 2 x 3. Pentru fiecare din aceste regresii auxiliare se calculează 2 R xi . ce trebuie reţinută. Ideea principală.j =1. unde i≠j.. dar nu şi necesară pentru existenţa multicoliniarităţii.. deoarece aceasta poate exista chiar dacă valorile lor sunt comparativ mici. Coeficienţii mari de corelaţie de ordinul 0 reprezintă condiţia suficientă. considerată a fi regresia lui y în funcţie de toate variabilele explicative x. tocmai datorită problemei menţionate pentru coeficienţii de corelaţie simplă dintre regresori. Se poate întâmpla ca atât R2yx1x2x3 cât şi toate corelaţiile parţiale să fie suficient de mari. 3.. Pornind de la această regulă. Fiecare din aceste regresii se consideră ca fiind auxiliară faţă de regresia principală. întro combinaţie liniară exactă sau aproximativă.2.xk ) /(n − k − 1) ∗ variabile regresori din modelul auxiliar.x1x3. Dacă modelul are numai două variabile explicative atunci coeficientul lor de corelaţie simplă este suficient în aprecierea gradului de coliniaritate. Deşi studiul coeficienţilor de corelaţie parţială ar putea fi foarte util. Aflarea variabilei explicative care este corelată cu alte variabile x. aceasta poate sugera că variabilele x1. calculat pe modelul cu k variabile explicative: ˆ0 + a ˆ 1 x1 + a ˆ 2 x 2 + .…. Dacă R2 < r2xixj pentru oricare i≠j.. r2yx2. şi comparativ r2yx1. după formula: Fi = 2 (1 − R xi .k. totuşi nu se poate garanta că va furniza un răspuns sigur în ceea ce priveşte multicoliniaritatea. Acest test nu este un test propriu-zis şi nici nu este concludent în toate cazurile. i.. în regresia dintre y şi x1.2.x 2 x 3.. încât să pună sub semnul întrebării afirmaţia lui Farrar şi Glauber. x2. dacă se găseşte că R2yx1x2x3 este mare. unde k este numărul de statistica F. testul lui Klein. x2 şi x3 sunt puternic intercorelate şi că cel puţin una din variabilele explicative este în plus. se poate realiza prin efectuarea regresiilor pentru fiecare variabilă xi şi restul variabilelor x. n este volumul eşantionului. 4.x1x2 sunt mici. Corelaţiile perechi puternice (perechi de câte două variabile explicative) reprezintă o altă regulă pentru detectarea multicoliniarităţii. este că nu este necesar ca aceşti coeficienţi să fie mari pentru a exista coliniaritate. r2yx3.x2x3. Coeficienţii de corelaţie simplă între doi regresori pot avea valori mari şi atunci multicoliniaritatea devine o problemă serioasă. atunci există o prezumpţie de multicoliniaritate.x2x3…xk este 99 . iar R2xi. Regresiile auxiliare.

coeficientul de determinaţie corespunzător fiecărei regresii. Se compară Fi* cu valoarea critică din tabela Fisher, pentru un prag de semnificaţie α şi (k-1), (n-k-1) grade de libertate. Dacă Fi* > Fαk-1,n-k-1 acesta înseamnă că acea variabilă xi este coliniară cu celelalte variabile

x. Dacă Fi* < Fαk-1,n-k-1 se spune că variabila xi nu este coliniară cu celelalte variabile x, caz
în care respectiva variabilă xi se reţine în model. Această metodă are neajunsurile ei, în sensul că atunci când multicoliniaritatea presupune implicarea a mai puţine variabile, este dificil să se identifice inter-relaţiile separate.

2.3. Remedierea multicoliniarităţii
Există mai multe reguli de remediere a multicoliniarităţii, dar care nu reprezintă metode sigure de înlăturare a ei. Câteva dintre aceste reguli sunt: 1.

creşterea volumului eşantionului – este eficientă numai dacă se adaugă observări

semnificativ diferite de cele care sunt deja considerate în model, în caz contrar, multicoliniaritatea se menţine; 2.

înlăturarea variabilei puternic corelate poate conduce la o specificare incorectă a

modelului. Eroarea de specificare duce la obţinerea de estimatori eronaţi, fiind mai dăunătoare decât acceptarea unei multicoliniarităţi mici; 3.

transformarea variabilelor – în serii de diferenţe de ordinul 1. Modelul de regresie pe

diferenţele de ordinul 1, reduce severitatea multicoliniarităţii, deoarece chiar dacă există corelaţie puternică între două variabile, nu există nici un motiv să se considere că aceasta s-ar menţine şi între diferenţele lor de ordinul 1. Acest procedeu are şi dezavantajele sale: termenul eroare din forma transformată a diferenţelor de ordinul 1, s-ar putea să nu respecte una din ipotezele modelului liniar clasic, şi anume erorile nu sunt serial corelate (corelaţie de ordinul 1). Dacă în seriile iniţiale erorile sunt independente sau necorelate, în seria transformată, acestea vor fi serial corelate în majoritatea cazurilor. Un alt dezavantaj este faptul că se pierde o observare prin diferenţiere, ceea ce este important când volumul eşantionului este mic, şi numărul gradelor de libertate se micşorează cu 1. Mai mult, în seriile de date instantanee, procedura de diferenţiere nu este corespunzătoare, deoarece nu există o ordine logică a datelor observate. 4.

utilizarea altor metode cum sunt: analiza factorială, analiza în componente principale, sunt

deseori folosite pentru a ″rezolva″ problema multicoliniarităţii. Se observă că nu în orice situaţie, când se obţin valori t nesemnificative pentru estimatorii coeficienţilor de regresie, există multicoliniaritate. Lipsa de semnificaţie se poate datora şi altor cauze, cum ar fi: 100

-

metoda folosită pentru culegerea datelor, de exemplu eşantionarea variabilelor regresori peste valorile lor limită, pe care acestea le iau în populaţie; restricţii asupra modelului sau asupra populaţiei şi a metodei de eşantionare folosită; specificarea modelului; supradimensionarea modelului, prin introducerea unui număr de variabile explicative, mai mare decât numărul de observări (în domeniul medical, când numărul de pacienţi este mai mic decât informaţiile despre ei, cuprinse într-un număr mare de variabile). Aplicarea în practică a uneia din modalităţile de remediere, depinde de natura datelor şi de

severitatea multicoliniarităţii. Nu se recomandă utilizarea regresiei afectată de multicoliniaritate, pentru previziune.

3. Selecţia variabilelor explicative
Procedurile statistice de selecţie a variabilelor explicative permit determinarea acelor variabile, care se adaugă sau se retrag dintr-un model. Aceste demersuri exclud raţionamentul economic, permiţând găsirea unor modele, care deseori sunt bune din punct de vedere statistic, dar a căror interpretare economică poate fi nulă sau aberantă. De aceea tehnicile automate de selecţie a variabilelor explicative se utilizează cu prudenţă, completându-se rezultatele cu raţionamentul economic. Identificarea variabilelor explicative cele mai corelate cu variabila explicată şi cel mai puţin corelate între ele, se face conform următoarelor cinci proceduri: 1. 2. 3. 4. 5. - toate regresiile posibile; - eliminarea progresivă; - selecţia progresivă; - regresia pas cu pas; - regresia pe faze.

Toate regresiile posibile. Această metodă constă în efectuarea tuturor regresiilor posibile (2k – 1),
unde k este numărul variabilelor explicative, candidate la intrarea în model. Se reţine acel model care are coeficientul de determinaţie, R2 cel mai mare şi toate variabilele explicative semnificative. Dezavantajul acestei metode, este legat de numărul k, de variabile explicative, care cu cât este mai mare, cu atât duce la realizarea unui număr considerabil de regresii (de exemplu: k=10, număr

regresii posibile = 1023). 1. Eliminarea progresivă (Backward Elimination). Această procedură constă în efectuarea
regresiei cu toate variabilele explicative şi apoi eliminarea pe rând, a acelora a căror raţie Student 101

este mai mică decât valoarea critică. Procedura se utilizează, numai dacă se poate estima efectiv, modelul iniţial, ceea ce nu este mereu posibil. Modelul poate avea un număr mare de variabile explicative, şi atunci, riscul multicoliniarităţii este mare, iar matricea X ′X poate fi singulară.

2.
-

Selecţia progresivă (Forward Regression). Prin această procedură se parcurge un sens
în prima etapă, se selectează în model o variabilă xi, care are coeficientul de corelaţie simplă cu variabila y, cel mai mare. în a doua etapă se calculează coeficienţii de determinaţie parţială r2yxj.xi pentru j ≠ i şi se reţine acea variabilă xj, care are cel mai mare coeficient de corelaţie parţială.

invers celui descris în eliminarea progresivă.

Selecţia variabilelor se opreşte când raţiile t calculate devin mai mici decât valoarea critică citită din tabela Student.

3.

Regresia pas cu pas (Stepwise regression). Această procedură este identică cu cea

precedentă, a selecţiei progresive, doar că înainte de a incorpora o nouă variabilă explicativă se examinează raţia t* a fiecăreia din variabilele explicative selecţionate în prealabil şi se elimină din model cele care au raţiile t* mai mici decât valoarea critică.

4.

Regresia pe faze sau pe stadii (Stagewise Regression). Procedura aceasta permite

minimizarea intercorelaţiilor dintre variabilele explicative, prin studiul reziduurilor. Etapele care se parcurg sunt următoarele: etapa 1: se selecţionează acea variabilă explicativă, xi, care are coeficientul de corelaţie simplă
cu y, cel mai mare;

ˆ t = y t − (a ˆ0 + a ˆ 1 x it ) şi coeficienţii de corelaţie etapa a 2-a: se calculează reziduurile e1t = y t − y

simplă între e1t şi restul variabilelor explicative; se reţine aceea dintre ele, xj, care are acest coeficient cel mai mare, considerând că va explica în continuare, cel mai bine, varianţa reziduurilor; -

ˆ t = y t − (a ˆ0 + a ˆ 1 x it + a ˆ 2 x jt ) şi coeficienţii etapa a 3-a: se calculează un nou reziduu: e2 t = y t − y
de corelaţie simplă între e2t şi restul variabilelor explicative; se reţine aceea dintre ele, xk, care are acest coeficient cel mai mare, ceea ce duce la obţinerea altor reziduuri; procedura se termină când de coeficienţii de corelaţie simplă dintre reziduuri şi variabilele explicative rămase, devin nesemnificativi.

102

y 9.44.5 105.05) yt = 3.8 51.2 101.8 100.6 40. se exemplifică cele cinci proceduri de selecţie a variabilelor explicative. (2k –1)=(24–1)=16-1=15 modelele.148x2t + 0.53) yt = .346 + 0.685x4t + et (.29) yt = 3.6 97.112x1t + et (0.63) (7.83) (36.038x3t + et (0. • Toate regresiile posibile regresiile cu o variabilă explicativă (1) (2) (3) (4) Pentru datele din Tabelul 3.0.5 25.06) (11.4 112.8 111.20) yt = .231x2t + 0.037x4t + et (.5 10.2 Tabelul 3.71) (4.4 49.2 101.5 94 100.311x2t + et (4.5 x1 83.187 + 0.466 + 0.555 + 0.4 104.307) yt = .12.6 112. k=4.5 34.508 + 0.944 R2yx4 = 0.8 19.6.9864 R2yx3x4 = 0.62) R2yx1 = 0.090x3t + 0.994 R2yx2 = 0.4 100.0.5 185.4 148.6 29.130x3t + et (.22.99395 R2yx1x3 = 0.7 88.50) (3.80) (0.7 105.5 112. yt = 0.7 x4 92.90) (.5 93.0.121x1t – 0.219 + 0.49) (0.0.974 R2yx3 = 0.105x1t + 0.64) (18.22) 103 (5) (6) (7) (8) (9) (10) R2yx1x2 = 0.5 95.2.56) yt = .79) (3.8 x3 92.9785 R2yx2x4 = 0.27) regresiile cu două variabile explicative yt = 0.18) (2.5 44.9.45.5 118.106x1t + 0.309x4t + et (.96) (17.579x4t + et (-13.35) (1.318 + 0.12.8 112.165 + 0.850 + 0.6 96.2.34.5 12.88 .34) yt = .3 x2 18 21.018x2t + et (0.8 18.9774 . Eşantionul de observări 1.5 53.12.5 131.5 21.3 15.6 109.5 97.27) (4.5 13.3.481x3t + et (-8. Exerciţiu – Metode de selecţie a variabilelor explicative Pentru datele din Tabelul 3.26) (2.99414 R2yx1x4 = 0.1.74) (-0.3 16.977 • yt = .5 162 174.99396 R2yx2x3 = 0.7 11.

13.05) R2yx1 = 0. 5. 2.86) R2yx1x2x3x4=0. tα/27=2.152x4t+et (-0.50) (-1.019x2t + 0.114x1t + 0.2.112x1t + et (0. Dintre acestea se alege modelul (4) deoarece are coeficientul de determinaţie.28) (0.109x3t + 0.76) (2.95) (0. tα/2n-k-1.998 (-0.25) (2.9942 R2yx1x2x4 = 0.096x1t+0. 14. k=4. Din modelul complet (regresia cu toate variabilele explicative): (15) yt= -4.9948 • yt = -4. 6. Eliminarea progresivă (Backward Elimination). x3 şi x4 ale căror coeficienţi de regresie au raţiile t* mai mici decât valoarea critică.21) (2. 8.40) (2.9876 R2yx1x3x4 = 0. 7.155+0.146x4t + et (.365.447. fiind astfel nesemnificativ diferiţi de 0.152x4t + et (0.306.0. tα/25=2. dar termenul liber are raţia Student nesemnificativă.039x3t + et (4. x1 şi anume modelul: (1) yt = 0.95) (0. Rămân ca fiind satisfăcătoare trei modele: 2.431x4t + et (-2.096x3t+0. 12.28) (-0. Rămâne de estimat modelul cu o variabilă explicativă. în urma aplicării testului individual de semnificaţie.998 Dintre cele 15 modele se elimină acelea care au una sau mai multe raţii t Student calculate.30) yt = -23.018x2t .346 + 0. Dar modelul nu este suficient de bun.039x4t + et (. Modelul (1) are semnificativă variabila x1.76) (0. R2. tα/25=2.04) (0. tα/26=2. mai mici decât valoarea Student critică.9940 R2yx2x3x4 = 0. 15. t. 11.00) (0.571.024x2t – 0. 104 .155 + 0. Variabila x4 este singura care se reţine pentru explicarea variabilei y.105x1t .61) yt = .70) (0. 10. 3 şi 4. deoarece variabila explicativă din model este semnificativă. tα/28=2.024x2t–0. k=2. are şi coeficientul de determinaţie cel mai mare. pentru că termenul liber nu este semnificativ diferit de 0. fiecărui număr de grade de libertate: când k=1.53) (0. În urma acestei operaţii se înlătură modelele: 1.571.70) se elimină variabilele x2.36) (-0. Se alege variabila x1.83) (36.36) (-0. cel mai mare. pentru un prag de semnificaţie α =5% şi corespunzătoare pe rând.43) (4.89) regresia cu cele patru variabile explicative yt= -4.105 + 0.098x1t + 0.0.40) (2.0.096x3t + 0. k=3.151x2t .0.0.096x1t + 0.093x3t + 0.994 Procedura se opreşte aici.63 + 0. Se verifică raţiile Student şi pentru termenul constant.• regresiile cu trei variabile explicative (11) (12) (13) (14) yt = 3.56 + 0.23) (-0.86) (15) R2yx1x2x3x4=0.355 + 0.11) R2yx1x2x3 = 0.

x1 şi x4 (7). În etapa a doua. Deoarece în modelele 5. care are acest coeficient cel mai mare. şi 7 se observă că variabila introdusă este nesemnificativă. câte una a celor rămase. Regresia pas cu pas (Stepwise regression). cel mai mare. care sunt puternic corelate între ele. ryx4=0. sau utilizând funcţia CORREL(array_1. 4.346 + 0. 4 sau direct citind Multiple R în tabelele de regresie corespunzătoare modelelor.112x1t + et R2yx1 = 0. conform aceastei proceduri.112x1t). se alege x1 pentru că are ryx1 cel mai mare. prin adăugarea la model. de fiecare dată. ryx2 =0. extrăgând radicalul din R2yx1. R2yx4 pentru modelele 1. 5. se examinează raţiile Student cu valoarea critică şi se ajunge la situaţia descrisă deja.array_2): ryx1=0. Pentru exemplul prezentat: - în prima etapă se calculează coeficienţii de corelaţie simplă dintre y şi toate variabilele explicative. Regresia pe faze sau pe stadii (Stagewise Regression). În prima etapă. în etapa a doua se estimează modelele cu două variabile explicative. Pentru exerciţiul de mai sus.05) în etapa a 2-a se calculează reziduurile e1t = yt – (0. 3. 6. x1 şi x3 (6). Modelul este: yt = 0.988. x3 şi x4.Din cauza multicoliniarităţii variabilelor explicative. 105 . R2yx3. se pot obţine imediat coeficienţii de corelaţie simplă între y şi variabilele x1. se selectează în model variabila x1.997. care are coeficientul de corelaţie simplă.13. R2yx2.975.346 + 0. x2. se estimează trei modele cu două variabile explicative: x1 şi x2 (5). în Tabelul 3. 2. În exerciţiul prezentat: (1) - în prima etapă se alege variabila x1. Selecţia progresivă (Forward Regression). ryx1. nu se poate alege variabila x4. 3. (privind regresiile cu două variabile explicative) nu este necesar să se mai calculeze coeficienţii de corelaţie parţială.994 (0.83) (36.983. cu variabila y. ryx3=0. Procedura se opreşte şi variabila aleasă rămâne x1. Se calculează coeficienţii de corelaţie parţială şi se reţine variabila.

5 10.3 ˆ yt 9. prin construcţie. Calculul valorilor ajustate în funcţie de x1 şi reziduurile e1t în etapa a 3-a se calculează coeficienţii de corelaţie simplă între reziduurile e1t şi celelalte variabile explicative: re1x2 = 0. Ceilalţi coeficienţi calculaţi. furnizează un rezultat diferit de celelalte proceduri.3 0. re1x3 = -0. fiind foarte mici. Dintre tehnicile prezentate.5 0.7 105.5 131. deoarece în e1 nu mai există informaţie referitoare la x1.7 12. re1x4 = 0. Coeficientul de corelaţie simplă.3 15.1 17.3 16.3 -0.043.5 21. procedura de selecţie se termină.2 13.3 Tabelul 3.7 15.8 18. re1x1 = 0.016.4 0.3 11.2 -0.4 -0.2 0.2 e1t -0.yt 9.2 0.5 118.3 -0.7 11. 106 .0 21.5 185. între x1 şi e1 este nul.8 100.5 20.5 x1 83.4 148.0 18. Variabila explicativă aleasă este x1.5 162 174.8 10.5 13. cea a tuturor regresilor posibile.5 12.8 19.016.13. deci nesemnificativ diferiţi de 0. Alegerea variabilei explicative x1 este indicată de majoritatea procedeelor.7 88.

se identifică variabilele corelate. Aplicarea metodelor de selecţie a variabilelor explicative se poate face combinat.utilizând calculatorul. În această situaţie a nerespectării ipotezei de independenţă a variabilelor explicative. pentru un exemplu din curs. Ce se întâmplă cand un model de regresie multiplă prezintă indicatori foarte buni de validitate. ale cărui consecinţe nu pot fi ignorate în construirea unui model econometric. conform testului Fisher. Care sunt consecinţele multicoliniarităţii? 5. 3. coeficienţi de determinaţie parţială de ordinul i. 107 . metode de selecţie a variabilelor explicative Întrebări recapitulative 1. Care sunt metodele de selecţie a variabilelor explicative? 7.Rezumat: Cand variabilele explicative sunt corelate între ele apare fenomenul de multicoliniaritate. Folosiţi ambele metodele de estimare a coeficienţilor de corelaţie parţială de odinul k-1. pastrându-se numai cele puternic corelate cu variabila dependentă y. este global semnificativ. Scrieţi toţi coeficienţii de corelaţie parţială posibi a se calcula pentru un model cu trei variabile explicative. şi cât mai puţin corelate între ele. dar are majoritatea estimatorilor modelului nesemnificativ diferiţi de zero? Teme de casă Parcurgeţi exemplele din curs. 2. Exemplele oferă explicaţii pentru înţelegerea obiectivelor capitolului. Calculul coeficienţilor de corelaţie simplă dintre variabilele explicative şi a celor de corelaţie parţială oferă informaţii pentru selecţia variabilelor explicative în model. Ce este fenomenul de multicoliniaritate? 4. coeficienţi de corelaţie parţială de ordinul i. care se elimină din model. întrun model cu k variabile explicative. Termeni importanţi: Multicoliniaritate. Explicaţi semnificaţia coeficientului de corelaţie parţială. Care sunt mijloacele de remediere a multicoliniarităţii? 6. pentru a ajunge la cea mai bună soluţie.

definiţii. Natura şi cauzele autocorelaţiei erorilor 2.CAPITOLUL 4 Tema Obiectivele AUTOCORELAŢIA ERORILOR 1. Estimarea unui model în prezenţa autocorelaţiei erorilor . Aplicarea metodei grafice pentru detectarea autocorelaţiei erorilor 3. exemple (sub lupă) .parcurgerea aplicaţiilor propuse 1. Exerciţiu .1.1. explicaţii .1. Estimarea directă a lui ρ pornind de la regresia pe modelul iniţial 4.Estimarea parametrilor umui model în prezenţa autocorelaţiei erorilor 1.citire/învăţare . explicaţii ce trebuie reţinute . Detectarea autocorelaţiei 2. Detectarea autocorelaţiei erorilor de ordinul 1 2.1.situaţii economice concrete. Pentru rezolvarea temelor: 4 ore + timpul de documentare Finalitatea Competenţe dobândite Mijloace Evaluarea Timp de lucru necesar 108 . probleme ce apar. Pentru cunoaşterea problemei: 4 ore 2.întrebări. Estimatorii metodei celor mai mici pătrate în prezenţa autocorelaţiei 4.Testul Durbin –Watson 3. aplicaţii practice pentru studenţi .teme de casă. supuse analizei. Exerciţiu . Proceduri de estimare a lui ρ 4.

producând astfel o ″falsă″ autocorelaţie. În cazul în care această ipoteză nu se respectă este util de cunoscut care este natura autocorelaţiei erorilor. Natura şi cauzele autocorelaţiei erorilor Prin termenul de autocorelaţie se defineşte corelaţia dintre termenii unei serii de observări ordonaţi în timp. sunt prezentate diferite forme de tendinţe. Când autocorelaţia erorilor există atunci: E(εt εt′) ≠ 0. sau ordonaţi în spaţiu dacă seria este instantanee. dacă seria este cronologică. Cauzele care determină autocorelaţia erorilor sunt: 1. În modelul liniar clasic se presupune că nu există o astfel de autocorelaţie între erorile εt.1.1. respectiv descrescătoare. t=1. inerţia ce se manifestă în majoritatea seriilor economice de timp. Datorită ciclurilor economice. sunt urmate de noi creşteri şi contracţiile sunt urmate de noi contracţii. t ≠ t′. E(εt εt′) = 0 . conduce la apariţia unui trend în comportamentul erorilor. ciclul economic presupune succesiunea unor faze de expansiune cu cele de recesiune. ce se pot manifesta în evoluţia erorilor pentru o serie de timp. prezentând situaţia când se respectă ipoteza de lipsă a autocorelaţie a erorilor. eroarea de specificare datorită excluderii unor variabile explicative importante. care sunt consecinţele practice ale acesteia şi cum se remediază această problemă. de obicei. cazul (a) prezintă tendinţă ciclică.tendinţe liniare crescătoare. ducând la manifestarea unei tendinţe sistematice în evoluţia acestora. (b) şi (c) . observările succesive sunt interdependente. În general. 2. Existenţa autocorelaţiei erorilor semnifică faptul că o eroare apărută la momentul t depinde de erorile care apar la momente anterioare de timp. mai mulţi ani.AUTOCORELAŢIA ERORILOR O ipoteză importantă a modelului liniar clasic este aceea a inexistenţei autocorelaţiei erorilor de ordinul 1 (corelaţie serială). t ≠ t′. În Figura 4.n. (d) – tendinţă parabolică. iar (e) nu indică nici un trend sistematic printre erori. 1. În Figura 4. Influenţa variabilei excluse este asimilată erorilor. care definesc inerţia sau persistenţa ciclurilor economice. 109 . Aceste secvenţe repetate de creştere. Simbolic. O expansiune sau o recesiune începută durează.

recolta este influenţată de preţurile practicate cu un an în urmă. Efectul sistematic al acestuia face ca erorile să manifeste autocorelaţie din cauza specificării incorecte a funcţiei analitice. iar pt-1 reprezintă preţurile cu un an în urmă. eroarea de specificare datorată alegerii incorecte a funcţiei analitice a modelului. deoarece deciziile de ofertă durează până se implementeză (de exemplu: perioada de gestaţie. care se reflectă. agricultorii vor produce mai puţin decât în perioada t. Oferta acestor produse reacţionează la preţuri cu un lag (întârziere) de o perioadă. La începutul unui an agricol. perioade de creştere a recoltei). 4. atunci termenul care reprezintă pătratul variabilei explicative va fi cuprins în erori. De exemplu. fenomenul ″pânză de păianjen″. Forme de evoluţie în timp a erorilor 3.1. Dacă în anul t. dacă se alege o funcţie liniară în locul uneia de gradul doi. În această situaţie erorile εt 110 . în special. Astfel funcţia ofertei este: yt = a0 + a1pt-1 + εt . atunci în perioada t+1. în domeniul ofertei de produse agricole.εt et εt et ε t et (a) (b) et (c) εt εt et (d) (e) Figura 4. preţul pt scade faţă de pt-1. unde yt este oferta.

În seriile instantanee nu poate exista o ordine cronologică. Astfel tendinţa de consum poate fi diferită de la o regiune geografică la alta. care au loc din 10 în 10 ani. Aceste medii netezesc fluctuaţiile lunare şi pot conduce la o tendinţă sistematică ce se manifestă în erori. fie descrescătoare pentru o perioadă de timp – prezentată în cazul (a) şi nu manifestă o mişcare constantă sus – jos. 10 ani. interpolarea sau extrapolarea datelor pot constitui o altă sursă de manipulare a datelor. Autocorelaţia erorilor este fie pozitivă. Dacă se neglijează termenul întârziat. numite laguri apar deseori în unele modele în care variabilele dependente observate cu una. sau datele extrapolate înafara unei perioade de timp analizate. pentru că majoritatea lor au. în ambele situaţii sunt prezentate în Figura 4.nu se aşteaptă să fie aleatoare. dar poate apărea şi la seriile de date instantanee. se numesc modele autoregresive. În general. De exemplu. din raţiuni psihologice. de exemplu. în cazul recensămintelor. introducând autocorelaţie. când variabila dependentă cu lag devine variabilă explicativă pentru ea însăşi. Astfel de modele. instituţionale. Problema autocorelaţiei erorilor este cel mai adesea întâlnită la seriile de timp. ei tind să-şi diminueze producţia în anul t+1. Este important de ştiut că în analiza seriilor instantanee. întârzierile. dar în unele cazuri poate fi stabilită o ordine de similaritate. dacă în anul t a fost supraproducţie. ca 111 . seriile cronologice manifestă o autocorelaţie pozitivă. conducând astfel la fenomenul numit ″pânză de păianjen″ (în limba engleză Cobweb phemomenon). fie o evoluţie crescătoare. ordonarea datelor trebuie să aibă o logică. pot manifesta o tendinţă sistematică asociată cu diferenţele regionale. care să dea sens existenţei autocorelaţiei erorilor. ceea ce înseamnă corelaţie în spaţiu mai degrabă decât în timp. 5. care se obţin prin însumarea observărilor pe trei luni şi împărţirea sumei la 3. pentru că. un interes economic. deoarece consumatorii nu-şi schimbă des comportamentul de consum. care nu ar fi existat dacă s-ar fi folosit datele originale. Manifestările în timp ale erorilor. fie negativă. Datele obţinute prin interpolare. Reziduurile obţinute în urma efectuarii unei regresii. impun o manifestare sistematică a unei tendinţe în erori. în interiorul unui interval de timp. două sau mai multe perioade în urmă influenţează variabila dependentă din perioada curentă. Unii autori numesc aceasta autocorelaţie spaţială. tehnologice. etc.2. consumul la momentul t-1 poate influenţa consumul la momentul t. modul de prelucrare a datelor poate produce autocorelaţia erorilor în situaţiile când: în regresiile care folosesc serii de date trimestriale sub formă de medii. erorile care apar vor reflecta sistematic o tendinţă datorită influenţei consumului cu lag asupra consumului curent. 6. deşi este substanţial similară în interiorul unei regiuni date.

Graficul din Figura 4.cea din cazul (b). 112 . când corelaţia între εt şi εt-1 este directă (a).4 se prezintă cele două grafice utile pentru a pune în evidenţă corelaţia • 0 • • • • • • timp εt-1 • • pozitivă a reziduurilor.3 este de tip Line şi arată evoluţia în timp a reziduurilor. şi negativă. când corelaţia între εt şi εt-1 este inversă (b).3 şi 4. εt εt •• • • •• • • • 0 • •• •• • • • • • • 0 • • • • • • • • • timp • εt-1 (a) εt εt • • •• • •• • • • • •• • • • (b) Figura 4.2. Autocorelaţia este pozitivă. Autocorelaţia erorilor: pozitivă (a) şi negativă (b) În Figurile 4.

arătând o intensitate puternică a cestei autocorelaţii.4. respectiv reziduurile.4. care în exemplul prezentat este de 0. la timpul t şi t-1. Autocorelaţia pozitivă a erorilor. Corelaţia serială a erorilor 300 250 200 150 100 et 50 0 -100 -50 0 -100 -150 -200 e t-1 100 200 300 -200 Figura 4. este de tip Scatter şi arată corelaţia de ordinul 1 dintre erorile. de ordinul 1 113 .300 250 200 150 100 Evolutia erorilor erorile 50 0 -50 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 -100 -150 -200 timpul Figura 4.3.888. Evoluţia erorilor în cazul corelaţiei pozitive Graficul din Figura 4.

2 0.2 -0.0 Figura 4.6 -0.8 0.8 -1.0 0.Figura 4. indicând lipsa autocorelaţiei de ordinul 1.0 e t-1 0.5.0 Corelaţia invers ă a erorilor 5 6 7 8 9 10 11 12 13 14 15 timpul Figura 4.0 1 2 3 4 et -0.5 0. 1. Evoluţia în timp a erorilor.8. apropiată de 0.6.0 -0. Intensitatea corelaţiei de ordinul 1.5 1.4 -0. în cazul corelaţiei negative Corelaţia invers ă a erorilor 1. o valoare mică.0 0. Corelaţia serială a erorilor În cazul în care nu există autocorelaţia erorilor. respectiv 4. pentru corelaţia negativă.5 -1. prezentată în graficul din Figura 4.6 prezintă aceleaşi tipuri de grafice. 114 . vor fi asemănătoare celor din Figura 4.10.0 et -1. este de -0.0 0.856.6.5 -0.7. Coeficientul de corelaţie de ordinul 1 (cu funcţia CORREL) este 0. graficele evoluţiei în timp a reziduurilor şi cel al autocorelaţiei de ordinul 1.5 şi Figura 4.4 0.6 0.

la autocorelaţia negativă.5. Deosebirea între absenţa autocorelaţiei erorilor faţă de corelaţia lor pozitivă.7. care arată lipsa autocorelaţiei de ordinul 1. Lipsa autocorelaţiei reziduurilor 115 . Evoluţia în timp a reziduurilor. constă în lipsa oricărei tendinţe în evoluţia erorilor.7. în Figura 4.3. comparativ cu alternarea strictă a reziduurilor pozitive cu cele negative. în cazul lipsei autocorelaţiei Analiza autocorelaţiei reziduurilor de ordinul 1 80 60 40 20 0 -60 -40 -20 -20 0 -40 -60 -80 et-1 20 40 60 80 et -80 Figura 4. 80 60 40 20 0 -20 1 -40 -60 -80 4 Evoluţia reziduurilor 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 Figura 4.Graficul din Figura 4. prezintă succesiuni de reziduuri pozitive şi negative.8. în Figura 4.

adică de lag maxim 1. 116 . retardate cu o unitate de timp şi de ordinul 1. orientat. fiind exact invers orientat în cazul autocorelaţiei negative. adică de forma: ε t = ρε t −1 + ν t . Metodele de detectare a autocorelaţiei erorilor sunt: a) . n Pentru a testa ipoteza nulă se calculează statistica DW: DW = ∑ (e t =2 t − e t −1 ) 2 t 2 ∑e t =1 n . se manifestă o autocorelaţie negativă. Testul de ipoteze este următorul: H0: ρ = 0 H1: ρ ≠ 0 . dacă reziduurile alternează (pozitive cu negative).nu există autocorelaţia erorilor.6.Testul Durbin-Watson (DW) Acest test permite detectarea autocorelaţiei erorilor de ordinul 1. în Figura 4. constituie una din modalităţile de detectare a prezenţei autocorelaţiei erorilor. 2. deoarece se interpretează ca fiind regresia erorilor faţă de ele însăşi. fie negative pe mai multe perioade. atunci se manifestă o autocorelaţie pozitivă. Detectarea autocorelaţiei Detectarea autocorelaţiei erorilor se face analizând reziduurile. În cazul lipsei autocorelaţiei reziduurilor.σ2v) . ⏐ρ⏐< 1. acestea fiind cunoscute. Denumirea de model autoregresiv este corespunzătoare. în Figura 4. b) . schimbându-şi semnul.8. Utilizarea celor două grafice: forma de evoluţie a reziduurilor şi corelograma reziduurilor. „norul de puncte” este dispersat şi paralel cu axa Ox. unde et sunt reziduurile rezultate în urma estimării modelului. Această relaţie este cunoscută sub denumirea de schema Markov de ordinul 1 sau schema autoregresivă de ordinul 1 .AR(1). . deoarece consideră valoarea imediat trecută. cu νt → N(0. de-a lungul bisectoarei unghiului drept.există autocorelaţia erorilor (ρ poate fi ρ > 0 sau ρ < 0).4 prezintă „norul de puncte” în cazul autocorelaţiei pozitive.examinarea vizuală a reziduurilor – metoda grafică dacă reziduurile sunt fie pozitive.Graficul din Figura 4.

k. cuprinse între 0 şi 2. +1]: autocorelaţie de lag 1.d2 I 4 . DW = 0 şi există autocorelaţie pozitivă a erorilor. când ρ ˆ = +1. când ρ ˆ = .d1 I 4 I lipsă autocorelaţie ˆ =0 ρ autocorelaţie negativă ˆ <0 ρ 117 . la un prag de semnificaţie de 5%. Ca orice coeficient de corelaţie ρ - ˆ = 0. ρ ˆe +v : regresie al variabilei explicative din regresia et = ρ t −1 t DW = 2 ∑ (et − et −1 ) ∑ (et − 2et et −1 + et2−1 ) ∑ et − 2∑ et et −1 + ∑ et2−1 n n n n n t =2 ∑e t =1 n = t =2 2 t ∑e t =1 n = t =2 2 t =2 n t =2 t ∑e t =1 ≈ 2 t n n ⎛ n ⎞ ⎡ ⎤ 2⎜ ∑ et − ∑ et et −1 ⎟ ⎢ ∑ et et −1 ⎥ ⎠ ≈ 2 ⎢1 − t = 2 ⎥ ≈ 2(1 − ρ ˆ) ≈ ⎝ t =2 n t =2 n 2 ⎥ 2 ⎢ et et ⎥ ∑ ∑ ⎢ t =1 t =1 ⎣ ⎦ ˆ = Coeficientul ρ ∑e e t =2 n t t −1 ∑e t =1 n se mai numeşte coeficient de autocorelaţie de ordinul 1 sau coeficient de 2 t ˆ ia valori în intervalul [-1. Lectura ascestei tabele permite determinarea a două valori d1 şi d2. în funcţie de volumul eşantionului şi numărul variabilelor explicative.1. DW = 2 şi atunci nu există autocorelaţia erorilor. care împart spaţiul cuprins între 0 şi 4 astfel: 0 I ? autocorelaţie pozitivă ˆ >0 ρ d1 I d2 I ? 2 I 4 . când ρ Durbin şi Watson au tabelat valorile critice ale testului DW. această statistică variază între 0 şi 4. DW = 4 şi există autocorelaţie negativă a erorilor.ˆ este estimatorul coeficientului de Prin construcţia sa.

Evoluţia variabilelor Pentru a depista o eventuală autocorelaţie a erorilor: a) să se estimeze parametrii modelului. numărul de observări să fie mai mare decât 15. Pentru a utiliza această statistică este necesară îndeplinirea simultană a următoarelor condiţii: modelul să aibă termen constant (liber). 118 .1. 2.Testul Durbin -Watson Pentru modelul cu trei variabile explicative: y t = a 0 + a 1 x 1t + a 2 x 2 t + a 3 x 3 t + ε t .1. pe o perioadă de 20 de ani. c) să se calculeze statistica DW şi să se efectueze testul de autocorelaţie a erorilor. în Tabelul 4.1. se manifestă o îndoială (nedeterminare) asupra existenţei sau lipsei de autocorelaţie. Exerciţiu . acestea trebuie să fie ordonate după variabila de explicat. Anii 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 y 90 101 100 101 102 104 106 111 100 92 x1 102 104 105 104 105 105 105 105 103 103 x2 102 102 102 114 111 109 113 112 104 84 x3 112 113 113 107 110 108 111 106 106 107 Anii 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 y 78 80 88 94 106 108 99 107 114 130 x1 101 100 100 99 102 103 103 107 108 111 x2 72 74 84 105 108 114 95 92 96 110 x3 102 101 105 97 101 104 105 107 112 114 Tabelul 4. pentru seriile de date observate în mod instantaneu. b) să se efectueze analiza grafică a reziduurilor.Când d1 < DW < d2 sau 4 – d2 < DW < 4 – d1. se dispune de datele anuale ale variabilelor. variabila de explicat să nu figureze printre variabilele explicative (nu în modele autoregresive).

comparând raţiile Student ale estimatorilor coeficienţilor de regresie se observă că toţi sunt semnificativ diferiţi de 0.454 5.04 + 3.723 X Variable 2 0.2.1233 58.131 4.54 -0.13E-06 0.9015 Standard Error 3.12.39 x 2 − 0.72375 2646.010505 Signif. Analizând rezultatele din tabela de regresie se ajunge la următorul model: y t = −241. cu raţiile Student: (-7.24 -1. este 2.21E-09 Lower 95% -308.84 -7. după cum indică testul Fisher.a) Pentru estimarea modelului se obţine tabela de regresie.89) SUMMARY OUTPUT Multiple R 0.9170 Adjusted R Square 0.54 4.Error t Stat P-value 31.95788 219. Tabela de regresie a modelului cu trei variabile explicative Valoarea teoretică Student pentru un prag de semnificaţie α=5% şi 16 grade de libertate.9576 R Square 0.69 0.95 Std. x2 şi x3.58 13. Coeficientul de corelaţie muliplă de 0.37 809.072 5. F 7. iar coeficientul de detreminaţie de 0.49E-07 0.570 1.72 x 1 + 0.78 x 3 + et .957 arată o intensitate puternică a dependenţei variabilei y de variabilele explicative x1.783 Regression Statistics SS MS F 2427.21 Tabelul 4.917 arată că modelul liniar este bine ales.271 -2.2.13) (5.35 Upper 95% -173.9: 119 .897 0.57) (8.31E-05 0. Graficul evoluţiei variabilei y şi a valorilor ajustate yt prin regresia liniară este prezentat în Figura 4.54 2. prezentată în Tabelul 4.458 8.45) (-2.039 X Variable 1 3.7045 Observations 20 ANOVA df Regression 3 Residual 16 Total 19 Coefficients Intercept -241.391 X Variable 3 -0.75 0. Modelul este global semnificativ.

140 130 valorile observate si ajustate 120 110 100 90 80 70 60 1 2 3 Evolutia variabilei y si ajustarea ei 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 y yt timpul Figura 4.10. 8 6 4 2 erori 0 Evoluţia reziduurilor -2 -4 -6 -8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 timpul Figura 4. Evoluţia reziduurilor 120 . Evoluţia variabilei y şi a valorilor teoretice corespunzătoare b) Analiza grafică a reziduurilor utilizează graficul evoluţiei erorilor din Figura 4.11.10 şi cel al autocorelaţiei reziduurilor din Figura 4.9.

pătratele acestor diferenţe şi suma lor. 121 . pentru a fi similare cu datele observate. reziduurile et. Autocorelaţia reziduurilor c) Datele exerciţiului şi modelul specificat îndeplinesc condiţiile pentru aplicarea testului DW. ˆ t .10. a cărei existenţă este mai evidentă în Figura 4. Autocorelaţia reziduurilor 8 6 4 2 et 0 -8 -6 -4 -2 -2 -4 -6 -8 0 2 4 6 8 e t-1 Figura 4. care constituie numărătorul. rotunjite la întreg.10. deşi graficul din Figura 4. şi calculul valorilor et2 şi suma lor. calculate ca diferenţă între valorile observate yt şi cele teoretice y În Tabelul 4. reziduurile se succed ciclic. conducând la presupunerea existenţei unei autocorelaţii pozitive.În Figura 4.11 sugerează o uşoară intensitate a autocorelaţiei pozitive.3 sunt calculate: • • • • • diferenţele a două erori consecutive et . valorile teoretice (ajustate) y ˆt .et-1.11. care reprezintă numitorul.

et-1)2 4.52 -5.64 1.78 -4.72 -4. dar neeficienţi.38 1.68.94 1. deci o prezumpţie de existenţă a autocorelaţiei erorilor.78 4.18 0.27 27. se citesc în tabela lui Durbin-Watson.93 2.16 7.11 0.Pentru n=20 şi k=3.67 0.39 218.94 -5.61 -5.12 1.16 2.73 6.39 15.63 0.42 0. se situează în zona de incertitudine (?): d1 < DW < d2.01 0. valorile d1=0.63 7.1978.15 5.50 3.676≈1.76 2.78 11.1978 e t2 0.48 7.28 52.88 3.44 1. Calculul statisticii DW Valoarea calculată DW=1.3.81 22.09 0.80 1.79 -1. Se impune utilizarea unei proceduri adecvate de estimare.85 262. 0 I ? autocorelaţie pozitivă 1 1.998≈1.05 et .65 -2.79 2.et-1 (et .34 -4.18 0.21 37.92 -1.76 2. d2 =1.92 DW= 18.37 4.22 2.10 6.46 -1.19 I I 1.10. privind graficul din Figura 4. mai aproape de limita inferioară şi se poate mai degrabă accepta o autocorelaţie pozitivă a reziduurilor.32 I ? 3 I 4 I autocorelaţie negativă lipsă autocorelaţie Această concluzie întăreşte pe cea formulată la punctul b). care sugera o intensitate slabă a autocorelaţiei pozitive.26 9.72 -0.96 0. 122 .34 -0.37 33.15 22.22 -4.78 16.49 1.61 35.14 0. nu mai sunt de varianţă minimă.79 1.13 4.26 -1.81 0.68 0.31 21.80 Tabelul 4.62 17.68 I 2 I 2.86 17. Estimatorii găsiţi sunt nedeplasaţi.14 -3.29 0.47 -0.09 1.25 26.27 5.63 1.27 -5.37 17.24 31. ˆt y 91 98 101 107 107 108 107 111 100 91 83 81 82 93 102 106 97 110 111 126 et -0.

3.εt-1)≠0. şi Ω ε = E(ε ⋅ ε ′) ≠ σ ε2 ⋅ I .. Substituind succesiv erorile în acest model. ε t = ρε t −1 + ν t .σ2v) . Proceduri de estimare a lui ρ Aceste proceduri sunt valide numai dacă se consideră că între erori există o relaţie exprimată sub forma modelului autoregresiv de ordinul 1. cum Ω ε = E(ε ⋅ ε ′) ≠ σ ε2 ⋅ I . face ca aceste formule să fie inutilizabile şi să se impună necesitatea utilizării unor proceduri operaţionale de estimare. se obţine: ε t = ρ(ρε t −2 + ν t −1 ) + ν t = ρ 2 ε t −2 + (ρε t −1 + ν t ) ε t = ν t + ρν t −1 + ρ 2 ν t −2 + ρ 3 ν t −3 + . ⏐ρ⏐< 1. cu νt → N(0. 123 .. această matrice este Ω a ˆ = σ ε ( X ′X ) . nu sunt 0. 2 În cazul respectării ipotezei de independenţă a erorilor. deoarece Cov(εt. Estimatorii metodei celor mai mici pătrate în prezenţa autocorelaţiei În cazul autocorelaţiei erorilor. unde I este matricea unitate. Estimatorii obţinuţi cu metoda celor mai mici pătrate sunt nedeplasaţi. Metoda pentru obţinerea unor estimatori liniari nedeplasaţi şi de varianţă minimă se numeşte metoda generalizată a celor mai mici pătrate. 4. elementele de o parte şi de alta a diagonalei matricei varianţă-covarianţă a erorilor. dar nu mai sunt de varianţă minimă. nu se cunoaşte Ω ε . Estimatorii obţinuţi prin această metodă se numesc ˆ = X ′Ω ε −1 X estimatorii lui Aitken: a ( ) (X ′Ω −1 −1 ε Y ) Faptul că în practică. ˆ − a )(a ˆ − a )′ Matricea de varianţă-covarianţă a estimatorilor este: Ω a ˆ = E (a { } −1 ˆ − a ) = ( X ′X )−1 X ′ε (a −1 . de unde (a −1 −1 Ωa X ) X ′E (εε ′)X ( X ′X ) = ( X ′X ) ˆ = (X ′ ( X ′Ω ε X )( X ′X )−1 . ˆ − a )′ = ε ′X ( X ′X )−1 . dar în situaţia autocorelării. (a ˆ − a )(a ˆ − a )′ = ( X ′X )−1 X ′εε ′X ( X ′X )−1 . adică se cunoaşte structura autocorelaţiei. aceasta devine Ω a ˆ = X ′Ω ε X ( −1 ) −1 .

Exerciţiu .Estimarea parametrilor umui model în prezenţa autocorelaţiei erorilor 124 . Parametrii estimaţi sunt a0 şi a1*. x t ∗ = x t − ρ ˆ x t −1 . a ˆ).1. E(νt . ˆ0 = a ˆ 0 ∗ /(1 − ρ de unde: a 4. unde y t ∗ = y t − ρ ˆ 0∗ = a ˆ 0 (1 − ρ transformat: y t = a ˆ ) . ˆ ) . deoarece |ρ| < 1.Acest proces tinde către 0. 4. ˆ0 + a ˆ 1 x t −1 + et −1 Se înmulţeşte cu ρ y t −1 = a ˆ y t −1 = ρ ˆa ˆa ˆ et −1 Se scade ecuaţia (3) din forma (1) şi se obţine (4): ˆ0 + ρ ˆ 1 x t −1 + ρ ρ ˆ y t −1 = a ˆ)+a ˆ x t −1 ) + et − ρ ˆ et −1 .1. iar νt îndeplineşte condiţiile modelului liniar clasic de regresie: E(νt)=0 . (1) (2) (3) (4) ˆ0 + a ˆ 1 x t + et Dacă este adevărată pentru unitatea de timp t. unde vt îndeplineşte ipotezele pentru a putea ˆ 0 (1 − ρ ˆ 1 (xt − ρ Atunci: y t − ρ utiliza metoda celor mai mici pătrate în estimarea coeficienţilor de regresie pentru modelul ∗ ˆ y t −1 . unde t≠t′. prin regresia directă a lui et în funcţie de et-1: ρ ∑e e t =2 n t t −1 2 t ∑e t =1 n - ˆ = 1 − DW . atunci. E(νt2)=σ2v. ˆ 0∗ + a ˆ 1 ∗ x t ∗ + v t . de unde ρ fie.1. Estimarea directă a lui ρ pornind de la regresia pe modelul iniţial Etapa 1: se estimează ρ în două moduri: - ˆ = fie. ˆ 0 (1 − ρ ˆ 1 (xt − ρ yt − ρ ˆ y t −1 = a ˆ)+a ˆ x t −1 ) + v t . dar et − ρ ˆ et −1 = v t . pornind de la statistica Durbin-Watson: DW = 2(1-ρ 2 Etapa a 2-a: se transformă variabilele şi se efectuaează regresia pe cvasi-diferenţe.νt′ )=0. pentru t-1: yt = a ˆ şi se obţine ecuaţia (3).

396. Transformarea variabilelor Regresia obţinută pe valorile transformate (sunt numai 19 observări transformate.8658 1.7625 0.8881 Tabelul 4. prin regresia directă a lui et în funcţie de et-1. Intercept X Variable 1 0. din Tabelul 4. În etapa a 2-a se fac transformările variabilelor: y.1308 0.4: Coeff. Utilizând prima modalitate de obţinere a lui ρ conduce la următoarele rezultate.4780 -0. x3. în Tabelul 4.3961 Standard Error 0.1.1076 t Stat Lower 95% -1.4. x2. să se corecteze efectul autocorelaţiei. Tabela de regresie et=f(et-1) ˆ = 0.1715 0. în Tabelul 4.5: ρ y* 65 60 61 62 64 65 69 56 52 x1 * 64 64 62 64 63 63 63 61 62 x2 * 62 62 74 66 65 70 67 60 43 x3 * 69 68 62 68 64 68 62 64 65 42 49 56 59 69 66 56 68 72 85 60 60 60 59 63 63 62 66 66 68 39 45 55 72 66 71 50 54 60 72 60 61 65 55 63 64 64 65 70 70 Tabelul 4.Pentru datele din Tabelul 4. considerând că există prezumţia de autocorelaţie pozitivă a erorilor.0959 Upper 95% 1.6986 0. x1. se pierde primul termen pentru fiecare variabilă) oferă următoarele informaţii. ˆ .2332 Pvalue 0.7396 0.6: 125 .5.

38E-08 Lower 95% -187.276 45.7.1972 Observations 19 ANOVA df SS MS F Regression 2 1407.4321 Tabelul 4.42x2 . R Sq.815 0.222 Total 18 1570.49 0.464 1570.595 Tabelul 4.8 şi Figura 4.SUMMARY OUTPUT Regression Statistics Multiple R 0.9446 Upper 95% -97.5888 0. eliminând variabila x3 şi se obţine tabela de regresie din Tabelul 4.33 4.0.3646 7.4199 -0.2972 0.079 5.256. a2* = 0. Valorile teoretice yt1 sunt calculate în Tabelul 4.83/(1 .571 5.43985 Signif.34 1.269 Upper 95% -95.3961) = -241.8 şi în Figura 4.31 21.12. Tabela de regresie a variabilelor transformate ˆ ) = 145.4084 0. F 9.042 0.72 0.8801 Std. F 1.7744 -6.549 10.16. în Tabelul 4. Tabela de regresie a variabilelor transformate.000007 X Variable 1 2.7935 0.835 Residual 16 163.0. valorile teoretice yt2.9431 0.48 .5323 0.00009 0.8829 Standard Error 3.7.1610 0.239 703. ˆ t = -241.6.3788 0.2348 Observations 19 ANOVA df Regression 3 Residual 15 Total 18 Coeff.Error t Stat P-value Intercept -141. a3* = -0.48 + 3.038 156. Se repetă regresia pe variabilele transformate.2563 SS MS F 1413.76 -6.788 Standard t Stat P-value Error 22. 0. Modelul determinat este: y Se observă că variabila x3 devine nesemnificativă.588 0.828 471.ρ Ceilalţi estimatori sunt: a1* = 3.000001 X Variable 2 0.61 0.7E-08 Lower 95% -194.788 Coeff.25x3.0770 5.150 3.00001 0. Error 3.9465 R Square 0.432 0.9487 R Square 0.620 68.00006 0. Intercept X Variable 1 X Variable 2 X Variable 3 -145. Se calculează termenul constant: a0 = a0* / (1 .323 -0.8959 Adjusted R Square 0.84 3.420. după eliminarea variabilei x3 126 . Std.470 2.16x1 + 0.9001 Adj.960 10.2509 -0.000039 Signif.12: SUMMARY OUTPUT Regression Statistics Multiple R 0.

Se observă că regresia este global semnificativă şi cele două variabile explicative sunt individual semnificative.396) = -233. Modelul este: y Anii 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 y 90 101 100 101 102 104 106 111 100 92 78 80 88 94 106 108 99 107 114 130 yt 91 98 101 107 107 108 107 111 100 91 83 81 82 93 102 106 97 110 111 126 yt1 95 101 104 108 109 109 109 110 101 92 82 80 83 91 100 105 97 108 112 126 yt2 97 103 106 108 109 109 110 110 101 92 81 79 84 90 100 105 97 107 111 126 Tabelul 4.12. Termenul constant: a0 = a0* / (1.815x1 + 0. a2* = 0.432.8.12. ˆ t = -233. Valorile observate şi ajustate prin regresiile efectuate Graficul valorilor ajustate cu cele două modele determinate după transformarea variabilelor este prezentat în Figura 4. 140 130 valorile observate si ajustate 120 110 100 90 80 70 60 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Evolutia variabilei y si ajustarea ei y yt1 yt2 timpul Figura 4.815.99 + 2.ρ Ceilalţi estimatori sunt: a1* = 2.432x2.99.31 / (1-0. Evoluţia variabilei y şi a valorilor teoretice corespunzătoare 127 . ˆ ) = -141.

9000 Adj.0001 5.154 X Variable 2 0. Deşi iniţial. modelul cu cele trei variabile explicative.77 0. cel stabilit pe baza variabilelor transformate. părea a fi foarte bun. 0. având toate variabilele independente semnificative şi indicatorii calităţii ajustării foarte buni.4 F SignificanceF 44.1978/2) = 0.5 4.0001 -0. R Sq.4011.437 ˆ Tabelul 4. al doilea model.079 0.52 0. SUMMARY OUTPUT Regression Statistics Multiple R 0.4011 ρ . Error 3. De aceea valorile estimatorilor după această regresie pe variabilele transformate sunt apropiate de cele obţinute prin regresia reziduurilor. Error 22.93 156.8E-08 t Stat P-value -6.9.59 0.937 128 .8 1. Se va reţine ca fiind cel mai bun.00001 5. Tabela de regresie este prezentată mai jos şi de asemenea calculul şi stabilirea ˆ obţinută pornind de la testul Durbin-Watson este foarte estimatorilor modelului.5895 0.Pe graficul din Figura 4. Regresia pe variabilele transformate cu noua valoarea ρ SS 1405.420 X Variable 3 -0.57 0.67 X Variable 1 3. este cea pornind de la testul Durbin-Watson: A doua posibilitate de estimare pentru ρ ˆ = (1 . se observă că cele două modele pe variabilele transformate sunt foarte apropiate.9487 R Square 0.etapa 1: .99 9. ai cărui estimatori sunt nedeplasaţi şi eficienţi în acelaşi timp. eliminarea variabilei x3 a avut un impact nesemnificativ asupra modificării modelului. totuşi analiza autocorelaţiei erorilor a condus la identificarea şi apoi eliminarea unei variabile nesemnificative şi obţinerea unui alt model.31 0.94 0.322 MS 468.249 Upper 95% -96. ˆ .12.6 10.252 -0. pe variabilele transformate.16 Std. ρ ˆ = 0.etapa a 2-a: Se realizează transformările variabilelor şi se execută o nouă regresie pe variabilele astfel transformate.37 0.8800 Std.2273 Observations 19 ANOVA df Regression 3 Residual 15 Total 18 Coefficients Intercept -144. se află în Tabela de regresie pe noile variabile transformate folosind noua valoare ρ Tabelul 4.23 1562.1. ˆ . cu două variabile explicative x1 şi x2.4506 Lower 95% -192. Valoarea lui ρ apropiată de cea obţinută prin regresia directă a lui et în funcţie de et-1.9.40 0.

Se calculează termenul constant: a0 = a0* / (1.000 Lower 95% -186. y se observă că diferenţele sunt foarte mici.077 5.000 0.99 + 2. Se reface regresia folosind numai variabilele explicative semnificative.25.ˆ ) = -241.9466 R Square 0. Noul model este: y Comparând acest model cu cel obţinut prin metoda regresiei reziduurilor: ˆ t = -233.ρ Estimatorii coeficienţilor de regresie sunt: a1* = 2.595 Tabelul 4. constant.432x2. Valorile teoretice obţinute cu acest din urmă model.496 0.432. Tabela de regresie a modelului cu doua variabile explicative Se observă în Tabelul 4.684 699.817 X Variable 2 0.Error t Stat 21.817. ˆ t = -241. că variabilele independente sunt semnificative.15. ˆ t = -234.8830 Square Standard 3.000 0. rezultatele sunt aproape Indiferent de procedeul ales pentru estimarea directă a valorii ρ identice. la fel şi termenul ˆ ) = -234.817x1 + 0.365 7.297 X Variable 1 2.432x2.155 1562.915 Significance F 1. sunt identice cu valorile yt2. diferenţele mici dintre valorile ajustate sunt la nivelul zecimalelor. pentru că sunt rotunjite la numere întregi. fiind aproape identici.10.269 Upper 95% -94.624 F 68.044 0. 129 . ˆ .251. fiind la fel de bune.10. estimatorii variabilelor explicative.842 162. şi se obţine tabela de regresie din Tabelul 4.537. Modelul determinat este: y Şi în acest caz. a3* = -0.42. variabila x3 devine nesemnificativă.25 + 2. care devine: a0 = a0* / (1 .42x2 .815x1 + 0.432 SS MS 1399.598 -6.ρ Estimatorii coeficienţilor de regresie sunt: a1* = 3.727 0.166 Std.482 10. a2* = 0.1867 Error Observations 19 ANOVA df Regression 2 Residual 16 Total 18 Coefficients Intercept -140.15x1 + 0.25x3.10.8960 Adjusted R 0. a2* = 0.0.51 3.082 2.37E-08 P-value 0.54 + 3. SUMMARY OUTPUT Regression Statistics Multiple R 0.590 0.

intervalul său si interpretarea testului. coeficient de autocorelaţie de ordinul 1. proceduri iterative de estimare a modelului Întrebări recapitulative 1. Explicaţi semnificaţia nerespectării ipotezei de independenţă a erorilor. se identifică natura autocorelaţiei şi se detectează cu ajutorul testului Durbin-Watson. Care sunt mijloacele de remediere a autocorelaţiei erorilor? 6. ale cărui prezenţă conduce la instabilitatea modelului econometric. 3. testul Durbin-Watson. Termeni importanţi Autocorelaţia erorilor. în cazul autocorelaţiei de ordinul 1. Care sunt metodele de detectare a autocorelaţiei erorilor ? 4. Scrieţi testul Durbin-Watson. Exemplele oferă explicaţii pentru înţelegerea obiectivelor capitolului. utilizând calculatorul. Care sunt consecinţele autocorelaţiei erorilor? 5. În această situaţie a nerespectării ipotezei de independenţă a reziduurilor. Se aplică o procedură iterativă pentru estimarea modelului în prezenţa autocorelaţiei erorilor. 130 . Care sunt metodele grafice de detectare a autocorelaţiei erorilor? Teme de casă • • Parcurgeţi exemplele din curs. 2.Rezumat Cand reziduurile sunt corelate între ele apare fenomenul de autocorelaţia erorilor. Aplicaţi metoda grafică pentru detectarea autocorelaţiei reziduurilor pentru un exemplu numeric din curs. corelaţia serială a reziduurilor.

Makridakis S. 2002. pag. Universitatea Ovidius din Constanta. Duguleană L. „Sondajul statistic . Economica.N. Universitatea OVIDIUS din Constanta.. Faculty of Business. I. “Basic Econometrics”. 1993.. Duguleană L. Paris. Duguleană L. Braşov.. 1998. Braşov. 1993 3. Universitaria Craiova. 56 – 63 6. “Monetarismul”. 32-42. Infomarket. Ed. „Studiul regiunilor din Romania folosind analiza cluster”. 1996. Editura Economică. Braşov.. Duguleană L. Taşnadi Alexandru. Alma Mater... „Previziune economică. Ed. 1998 8. 1995 4. Melard Guy "Methodes de prevision a court term". Ed. pag. Bucuresti. Duguleană C. “The Accuracy of Extrapolation (Time series) Methods: Results of a Forecasting Competition”. 1986 2. Claudiu Doltu. Duguleană C. Universităţii. Braşov. Cluj-Napoca. 1990 17.. vol. „Previziuni ale consumului agregat pe termen lung”. Reprografie. 2004. 2003. Brasov. vol. I. pag.. Infomarket. 2004. pag.. “Modelisation macroeconomique”.. 2004 5. Duguleană L. Bourbonnais Regis "Économétrie".probleme intampinate in cercetarile de marketing industrial”. Gujarati Damodar. “Reformă şi redresare economică”. 42-48 14. 2002 11. Quattro Pro”.111-153 15. 2002 131 . 1996 18. Ed. 239-244 13.. Ed. Journal of Forecasting. NewYork. Ed. Duguleană C. INSE. I... Ed. Ed.BIBLIOGRAFIE 1. Constantinescu N.. McGraw-Hill Book Company. October 17-18. Paris. Duguleană L. ”Correlation between Average Productivity of Work and Average Wages”. Duguleană L. University of Brussels. 1988 16. 1982. Duguleană C. Dunod. „Statistică”. Universitaria Craiova. pag. „Introducere in economia aplicata”. 15-16 octombrie 2004 . Bucureşti. 2004. 1995 9. Revista de Statistica nr. 2001.. Editura Economică.econometrie”. Infomarket.1. International Conference Small and Medium Enterprises in European Economies. Artus Patric. 1999 10. „Statistică economică şi socială”. Duguleană C. 2004. 190-196 7. Oprei A. Pierre Malgrange. vol. 1997. Duguleană C. Ed. "Anuarul Statistic al României". „Economie aplicată . vol. Ed. pag. „Consideratii privind inegalitatea distributiei veniturilor în tarile dezvoltate ale lumii”. Comisia Nationala pentru Statistica 12.. Belgium. BabesBolyai University Cluj-Napoca. Universitaria Craiova. Michel Deleau. 4/1997. 15-16 oct.