You are on page 1of 10

REGRESIA MULTIPLĂ.

MODELARE, INTERPRETARE ŞI
TESTARE

Conf. univ. dr. Elisabeta R. ROŞCA


UNIVERSITATEA „ŞTEFAN CEL MARE” SUCEAVA

Summary

The paper Multiple Regression. Model, Interpreting and Testing defines the two
methods of analysis which are: the regression method and the correlation analysis and goes into
details with the multiple regression method. So if in the case of simple regression are taken in
study two variables X and Y, where X is the independent variable and Y is the depended variable,
the multiple regression supposes the extension of the model equation about the adding a new
term for every new independent variable. In this way the basic problem becomes the problem of
the estimation of the regression coefficient. When the number of the independent variable is
great (k) the estimation of these coefficients supposes the using of the computer and for this
estimation can be used, for example, the SAS system. The information offers by this statistic
computing system can be: the establishing of the regression equation, the measure of regression,
the measure of standard error estimated for the multiple regression, the multiple coefficient of
determination.
Considering that the analysis is making on the base of sample data, the next step after
the regression coefficients is the statistic inference about the calculus of the total population
parameters. The inference can be made by estimation the regression coefficients for sample
taken into study one individual slope and making the inference on the one slope of the
regression plane for the entire population or taken into study the inference about the regression
as a whole.
In the multiple regression analysis in some cases appears the problem of determination
of the dependence degree between the analysed independent variables, a phenomenon which is
named in statistics multicollinearity. The analysis of the multiple regression gives into emphasis
the fact that, if in the simple regression, every variable has a high significant degree, in the
multiple regression the variable are significant in the whole but not in the individuals.
Being given a variable which has a variation that must be explained we can use more
regression equations each of them being named model and the modes in which the variables are
includes in models are named the modeling techniques. If the situation in which are taken into
study using the regression method the quantitative variables is more times met, a special case of
analysis is the analysis of qualitative variables.
An important problem in the multiple regression is the testing of the signification of the
regression equation coefficients, the principal technique used in this case being the variance
analysis. In this stage one of the most important aspects of regression analysis is the residuals
analysis. If the regression analysis included all the important influence factors, the residuals
must have a random character or, with other words, if the residuals have not a random trend this
means a systematic action which must taken into study. The principal types of tests used in the
analysis of variance the t test applied for each of independent variable and F test. Actually, the t
test is applied for k times and the F test combines, in fact, these k tests in one. The necessity of
using the F test in additional is determined by two grounds which are: on the one hand, if many
tests are satisfied, a certain percentage of true null hypotheses will be rejected, existing the
possibility to arrive at false conclusions and, on the other hand, in the collinearity (or
multicollinearity) situations the standard deviation of the coefficients can be overestimated
while the F test is not affected by collinearity.
Metoda regresiei multiple este înrudită cu analiza multifactorială ANOVA, în
care o variabilă dependentă (rezultativă, predictibilă) este analizată în funcţie de mai
multe variabile independente (factoriale, predictori) [5, p. 462].
Un exemplu simplu arată cum se poate folosi mai multă informaţie disponibilă
pentru a estima dependenţa dintre variabile. Un agent imobiliar doreşte să analizeze
legătura dintre numărul imobilelor vândute într-o lună şi cheltuielile efectuate lunar
pentru publicitate. O astfel de analiză se poate face folosind regresia simplă. Dacă însă
modelul de regresie este îmbunătăţit prin includerea unei noi variabile, anume numărul
de agenţi de vânzări angajaţi în fiecare lună, ambele variabile (cheltuielile lunare de
publicitate şi numărul agenţilor de vânzări) influenţează numărul imobilelor vândute
după o ecuaţie de regresie multiplă. Uneori influenţa a numai două variabile nu este
suficientă pentru a determina o ecuaţie de regresie sigură şi atunci, dacă sunt folosite
mai multe variabile se poate estima ecuaţia multiplă care descrie relaţia dintre variabile
cu mai mare acurateţe.
Principalul avantaj al regresiei multiple este acela că permite creşterea gradului
de siguranţă în alegerea ecuaţiei de regresie, prin folosirea unei cantităţi mai mari de
informaţie disponibilă.
Regresia multiplă şi analiza corelaţiei se pot realiza în trei etape şi anume [4, p.
568]:
 descrierea ecuaţiei de regresie multiplă;
 analiza erorii standard de regresie multiplă estimate;
 utilizarea analizei corelaţiei multiple pentru a determina cât de bine
descrie ecuaţia de regresie datele observate.
Regresia multiplă permite analiza fiecărei variabile independente şi testarea
contribuţiei semnificative a variabilei la descrierea datelor. Ea poate fi studiată pentru
ecuaţii de regresie liniare sau neliniare, iar utilizând tehnicile variabilelor „dummy” pot
fi incluşi în analiză factori calitativi. Variabilele „dummy” şi curbele de ajustare
obţinute prin transformarea matematică a variabilelor sunt doar două dintre tehnicile de
modelare ce pot fi utilizate în regresia multiplă.

1. Modele şi premise în aplicarea regresiei multiple

Se presupune că există k variabile predictori potenţial corelate cu o variabilă


predictibilă y. Modelul de dependenţă este dat de următoarea ecuaţie [3, p. 654]:
y   0  1 x1   2 x 2  ...   k x k   (1)
unde:
y (uneori Y) reprezintă variabila predictibilă;
x1, x2, x3,...,xk (uneori Xi, i=1, 2,..,k.) reprezintă variabilele predictori;
 0 ,  1 ,...,  k reprezintă coeficienţi de regresie;
 reprezintă eroarea.
Fiecare din variabilele predictori poate fi o funcţie de alte variabile, după cum
urmează:
x 2  x12
x3  x1  x 2
x5  log x 4 
Eroarea variabilă se menţine în modelul de regresie întrucât, chiar dacă se
adaugă noi variabile predictori, diferenţa dintre valorile din model şi valorile reale ale
lui y rămâne în continuare. Uneori se poate recurge şi la o reprezentare grafică pentru a
vizualiza suprafaţa de regresie, dar aceasta prezintă inconvenientul că nu se poate
realiza când k>2, întrucât curba care rezultă nu poate fi desenată.
În aplicarea metodei regresiei sunt valabile o serie de prezumţii şi anume:
 eroarea  este normal distribuită;
 media valorii erorii variabile este 0, deci E     0 ;
 varianţa erorii variabile este Var      2 , care este o valoare fixă, dar
necunoscută;
 valorile erorii variabile sunt independente între ele.
În rezolvarea modelului descris de ecuaţia (1) prima problemă este aceea a
determinării coeficienţilor  0 ,  1 ,...,  k . Întrucât aceştia sunt parametrii populaţiei,
estimarea valorilor lor se face folosind un sondaj aleator şi metoda celor mai mici
pătrate. Astfel, estimarea coeficienţilor presupune minimizarea sumei pătratelor
abaterilor valorilor variabilei rezultative de la valorile ajustate, după relaţia:
SSE   Yi  Yˆi 
2
(2)
În regresia multiplă, calculul coeficienţilor nu se poate face decât folosind
calculatorul, cele mai recomandate programe fiind SAS şi SPSS (Statistical Package for
the Social Sciences).
Interpretarea coeficienţilor de regresie multiplă este următoarea:
 0 măsoară influenţa factorilor neincluşi în model, consideraţi cu acţiune constantă;
 1 ,  2 ,...,  k măsoară influenţa variabilelor x1 , x 2 ,..., x k , astfel:  1 măsoară
influenţa variabilei x1,  2 măsoară influenţa variabilei x2 etc. Dacă valorile
coeficienţilor de regresie multiplă sunt pozitive, atunci legătura dintre variabila
independentă corespunzătoare coeficientului şi variabila dependentă y este directă, iar
dacă sunt negative atunci această legătură este inversă [1, p. 170].
În ceea ce priveşte testarea coeficienţilor de regresie multiplă, aceasta
presupune ca fiecare variabilă predictor xi să fie testată dacă se află în relaţie liniară cu
variabila predictibilă y.
Astfel, se testează:
H 0 : i  0
H A : i  0
ˆ   i
pentru i  1,2,..., k , iar testul statistic este de forma t  , fiind un test Student,
s ˆ
i

pentru n  k  1 grade de libertate. Prin efectuarea acestui test se urmăreşte să aflăm


dacă este statistic evident faptul că o variabilă independentă este corelată liniar cu
variabila dependentă y, în timp ce pentru o altă variabilă nu apare această evidenţă
statistică. Ca urmare, se acceptă ipoteza H0 în situaţia în care nu este statistic evident
faptul că variabila independentă este corelată liniar cu variabila dependentă Y, în
modelul considerat.
Alături de testul Student, pentru testarea semnificaţiei coeficienţilor de regresie
multiplă poate fi folosită şi deviaţia standard a fiecărui coeficient.

2. Utilizarea calculatorului în regresia multiplă

În situaţia în care metoda regresiei multiple se aplică pentru sondaje de volum


redus sau pentru un număr mic de variabile independente, efectuarea calculelor nu
ridică încă probleme majore. Pe măsură ce creşte volumul sondajelor şi numărul de
variabile din model, calculele devin din ce în ce mai laborioase şi necesită utilizarea
calculatorului. Managerii se confruntă în numeroase cazuri cu probleme complexe, a
căror rezolvare necesită sondaje de volum mare şi utilizarea unor variabile predictori
adiţionale.
Se presupune că sunt luate în considerare k variabile, notate: X1, X2,...,Xk. Ecuaţia
de regresie folosită pentru estimare este de forma:
Yˆ  a  b1 X 1  b2 X 2  ...  bk X k (3)
Problema de rezolvat ce apare este ceea a determinării coeficienţiilor de regresie
şi pentru aceasta poate fi folosită procedura de regresie multiplă în sistemul SAS. Prin
această procedură pot fi determinaţi coeficienţii de regresie şi câteva statistici asociate
ecuaţiei de regresie şi anume: eroarea standard şi coeficientul de determinaţie multiplă.
1. Ecuaţia de regresie. Procedura de regresie multipă în sistemul SAS
permite determinarea coeficienţilor: a, b1, b2,..., bk, care vor fi interpretaţi astfel: a
măsoară influenţa factorilor neincluşi în model, consideraţi cu acţiune constantă, iar b1,
b2,..., bk măsoară influenţa şi sensul acesteia pentru variabilelor independente X1, X2,...,
Xk. Coeficienţii de regresie b1, b2,..., bk vor arăta cu ce valoare în plus sau în minus se
modifică variabila rezultativă Y ca urmare a modificării cu o unitate a fiecărei variabile
independente Xi, i=1, 2,..., k [2, p. 322].
2. Eroarea standard de estimare pentru regresia multiplă. În regresia
multiplă acurateţea estimaţiei este cu atât mai mare cu cât dispersia este mai mare. Ca
măsură a despersiei se foloseşte eroarea standard de estimare, calculată cu relaţia:
 Y  Yˆ 
2

s  (4)
n  k 1
unde:
Y reprezintă valorile de sondaj ale variabilei predictibile;
Yˆ reprezintă valorile estimate corespunzătoare ale ecuaţiei de regresie;
n reprezintă numărul de unităţi din sondaj;
k reprezintă numărul de variabile predictori.
Numitorul acestei ecuaţii arată că în regresia multiplă cu k variabile predictori,
eroarea standard are n-k-1 grade de libertate. Aceasta deoarece numărul gradelor de
libertate este redus cu k+1 constante (a, b1, b2,..., bk), care au fost estimate prin model.
Datorită modelului de calcul al erorii standard, aceasta mai este numită şi eroarea
rădăcinii pătrate medii.
Folosind eroarea standard de estimare şi distribuţia t, corespunzătoare numărului
de grade de libertate n-k-1, se poate aproxima intervalul de încredere pentru valorile Yˆ .
Practica a demonstrat că nu întotdeauna, adăugând variabile adiţionale la modelul de
regresie multiplă se obţine o reducere a erorii standard de estimare.
3. Coeficientul de determinaţie multiplă. Pentru a măsura intensitatea
corelaţiei dintre variabile se foloseşte coeficientul de determinaţie multiplă ( R 2 ), care
sintetizează o parte din variaţia totală a variabilei dependente Y, explicată prin ecuaţia
de estimare. Rădăcina pătrată a coeficientului de determinaţie multiplă ( R ) este numită
coeficient de corelaţie multiplă şi reprezintă proporţia din variaţia totală a lui Y
explicată prin planul de regresie.
Coeficientul de determinaţie multiplă se calculează cu relaţia:
 Y  Y    Y  Yˆ 
2 2

R2  (5)
 Y  Y 
2

Se poate calcula şi un coeficient de determinaţie ajustat pentru numărul


gradelor de libertate, care ia în considerare mărimea eşantionului şi numărul de
variabile independente. Raţiunea pentru care se urmăreşte obţinerea acestei statistici
este aceea că, dacă numărul de variabile (k) este mare în raport cu dimensiunea
eşantionului (n), valoarea coeficientului de determinaţie multiplă (R2) este neralistă.
Acest inconvenient este eliminat prin calcularea coeficientului de determinaţie ajustat,
folosind relaţia:
 Y  Yˆ  /  n  k  1
2
i i
R 2
 (6)
 Y  Y  /  n  1
ajustat 2

2
Dacă n este mult mai mare decât k, R 2 şi Rajustat vor fi similare. Dar dacă SSE
2
este diferit de zero şi k este suficient de mare comparativ cu n, R 2 şi Rajustat vor avea
valori diferite şi, în acest caz interpretarea valorilor lor este dificilă, contradictorie [3, p.
665].
Dacă eroarea standard de estimare şi coeficientul de determinaţie sunt folosite
pentru estimarea modelelor de regresie multiplă, analiza varianţei poate fi folosită atât
pentru estimare cât şi pentru testarea utilităţii modelului.
Pentru a explica utilizarea tehnicii analizei varianţei în acest scop se porneşte de
la faptul că variabilitatea variabilei dependente (notată SSy) poate fi descompusă în:
variabilitate explicată (notată SSR) şi variabilitate neexplicată (notată SSE), astfel încât
este valabilă relaţia:
SS y  SSR  SSE 1 (7)
Dacă SSR este mare comparativ cu SSE, coeficientul de determinaţie ( R ) este 2

mare şi indică un model bun. Pe de altă parte, dacă SSE este mare, cea mai mare parte a
variaţiei caracteristicii predictibile Y a rămas neexplicată, ceea ce arată că nu a fost ales
cel mai adecvat model şi, în consecinţă, utilitatea lui este scăzută.
Ipotezele ce trebuie testate sunt.
H 0 : 1   2  ...   k  0
H A : cel puţin un  i nu este egal cu 0.
Dacă ipoteza nulă este adevărată, nici una dintre variabilele predictori X1, X2,...,Xk
nu este corelată liniar cu variabila predictibilă Y şi modelul are o utilitate scăzută, în
timp ce dacă cel puţin un  i este diferit de zero, modelul are o oarecare utilitate. Dacă
din calcule rezultă că SSR este suficient de mare faţă de SSE pentru a conduce la
concluzia că cel puţin un  i este diferit de zero se calculează raportul mediei
pătratelor, care este testul F. În Tabelul 1 sunt prezentaţi indicatorii analizei varianţei
pentru testarea utilităţii modelului de regresie multiplă.
O valoare mare a lui F arată că cea mai mare parte a variaţiei lui Y este explicată
prin ecuaţia de regresie şi că modelul este bun. O valoare mică a lui F arată că cea mai
mare parte a lui Y a rămas neexplicată. Aria de respingere permite să se stabilească dacă
F este suficient de mare pentru a justifica respingerea ipotezei Ho. Aria de respingere a
ipotezei H0 este dată de relaţia:
F>Fα, k, n-k-1
Se poate concluziona deci că testul t aplicat coeficienţilor individuali permite să
se determine dacă  i  0 (pentru i=1, 2,..., k), ceea ce ne arată dacă există sau nu o
legătură liniară între variabilele Xi şi Y. Testul t se aplică fiecărei variabile predictor şi în
consecinţă se va aplica de k ori.

Tabelul 1. Analiza varianţei


Sursa variaţiei Nr. gradelor de Suma pătratelor Media pătratelor Testul F
libertate

SS y   Yi  Y  şi SSR   Yˆ 


2
1
i  Yi .
Regresie K SSR SSR MSR
MSR  F
k MSE
Rezidual n-k-1 SSE SSE
MSE 
n  k 1
Total n-1 SSy
Sursa: Keller, G., Warrack, B., Bartel, H., Statistics for Management and Economics. A Systematic
Approach, Wadsworth Publishing Company, Belmont, California, 1988, p. 667

Testul F din analiza varianţei combină aceste k teste în unul singur, adică sunt
testaţi în acelaşi timp toţi coeficienţii  i pentru a stabili dacă cel puţin unul dintre ei nu
este egal cu zero. Se pune totuşi problema de ce este necesar testul F dacă acesta este o
combinaţie de teste t, iar explicaţia este aceea că în unele situaţii testul F este mai sigur.
În primul rând, când este aplicat un număr mare de teste, un anumit procent al
ipotezelor nule va fi respins. De exemplu, pentru k=100 şi 100 teste t efectuate, cu
α=0,05, chiar dacă toţi coeficienţii  i sunt zero, o medie de cinci ipoteze vor fi
respinse. Este, de asemenea, sigur că cel puţin o ipoteză validă nulă va fi respinsă şi în
aceste condiţii se va concluziona eronat că modelul este util. Pe de altă parte, testul F se
aplică o singură dată, iar din moment ce probabilitatea ca eroarea de tip I să se producă
la o singură încercare este egală cu zero, concluzia eronată că modelul este util este mai
puţin probabilă în cazul testului F decât în cazul multiplelor teste t. În al doilea rând,
datorită coliniarităţii (sau multicoliniarităţii) deviaţia standard a coeficienţilor de
regresie multiplă poate fi supraestimată, testele t luând valori mai mici decât în realitate.
Astfel, se poate concluziona că unii coeficienţi  i sunt egali cu zero, în timp ce în
realitate sunt diferiţi de zero. Problema coliniarităţii nu afectează testul F.
În Tabelul 2 este prezentată legătura dintre testul F, R 2 şi s .

Tabelul 2. Evaluarea modelelor de regresie multiplă


SSE s R2 F Evaluarea
modelului
0 0 1 ∞ perfect
mică Mică aproape de 1 mare bun
mare Mare aproape de 0 mică slab
SSy SS y 0 0 nu există
* corelatie liniară
n  k 1
*Când n este mare şi k este mic, această expresie este aproximativ egală cu deviaţia standard a lui y.
Sursa: Sursa: Keller, G., Warrack, B., Bartel, H., Statistics for Management and Economics. A Systematic
Approach, Wadsworth Publishing Company, Belmont, California, 1988, p. 672

În acest tabel SSE este suma pătratelor abaterilor valorilor variabilei predictibile
de la valorile ajustate, s reprezintă eroarea standard de estimare, R 2 este coeficientul
de determinaţie multiplă şi F este statistica Fisher. Testarea modelelor de regresie
multiplă cu aceste tehnici este facilitată de procedurile sistemelor SAS, SPSS etc.

3. Inferenţa asupra parametrilor populaţiei

Aplicarea metodei regresiei multiple are drept scop stabilirea modelului de


regresie în eşantion şi estimarea ecuaţiei de regresie multiplă în populaţia totală. Astfel,
se considera ecuaţia (3) ca fiind ecuaţia de estimare a regresiei multiple pentru o
populaţie a cărei ecuaţie de regresie multiplă este:
Y  A  B1 X 1  B2 X 2  ...  Bk X k (8)
Într-o reprezentare grafică, unele puncte se vor situa deasupra planului de
regresie, iar altele sub planul de regresie, astfel încât, în loc să satisfacă ecuaţia (8), ele
vor satisface ecuaţia de forma:
Y  A  B1 X 1  B2 X 2  ...  Bk X k   (9)
unde  este o perturbare aleatoare cu media zero, eroarea standard a perturbanţelor
individuale  e şi eroarea standard de estimare s (este un estimator a lui   ). Atâta
timp cât în planul de regresie al sondajului ecuaţia (3) estimează planul de regresie
necunoscut al populaţiei prin ecuaţia (8), înseamnă că ea poate fi folosită pentru
inferenţă asupra planului de regresie al populaţiei.
Inferenţa asupra unei pante individuale  i
Planul de regresie se obţine dintr-un sondaj şi nu din întreaga populaţie. Este
posibil ca ecuaţia de regresie (8) să fie aceeaşi cu ecuaţia estimată din datele de sondaj
(3) şi în această situaţie pot fi folosite valorile bi, una din pantele calculate pentru un
sondaj, pentru testarea ipotezelor asupra valorilor Bi, una din pantele planului de
regresie pentru întreaga populaţie. Dacă valorile ecuaţiei de estimare bi sunt cunoscute,
fiind calculate din datele de sondaj, problema care se pune este aceea de a găsi valori
pentru Bi care să se compare cu bi şi care să răspundă la întrebarea „Depinde cu adevărat
Y de Xi ?” sau altfel spus: „Este Xi o variabilă predictor semnificativă pentru Y ?” Din
cele prezentate până acum se poate considera că Y depinde de Xi dacă Bi  0 şi nu
depinde de Xi dacă Bi  0 .
Pentru testare, formularea ipotezelor este următoarea:
H 0 : Bi  0  ipoteza nulă: Xi nu este o variabilă predictor semnificativă;
H 1 : Bi  0  ipoteza alternativă: Xi este o variabilă predictor semnificativă.
Utilizând o procedură de calcul dintr-un sistem de calcul statistic (de exemplu,
SAS) se stabileşte valoarea „t pentru H0: parametrul=0” şi se obţin limitele zonei de
acceptare şi anume:
 
limita superioară zonei de acceptare  Bi  t sbi
limita inferioară zonei de acceptare Bi  ts  .
bi

Se notează cu S limita superioară şi cu I limita inferioară, se consideră că Bi=0 şi


atunci se obţine:
     
S  Bi  t sbi  0  t sbi  t sbi
I  B  t  s   0  t  s   t  s 
i bi bi bi

şi se acceptă H0 dacă:
   
 t sbi  bi  t sbi ,
ceea ce este echivalent cu acceptarea ipotezei H0 dacă:
b
t  i  t .
sbi
Valoarea t din această ultimă expresie este numită valoare „critică” şi se notează
bi
cu tc. Raportul este numit valoare t „observată” sau „calculată” şi se notează cu t0.
s bi
A testa dacă variabila Xi este o variabilă predictor semnificativă înseamnă a verifica
dacă:
 tc  t0  tc
unde:
tc reprezintă valoarea corespunzătoare a lui t, cu n-k-1 grade de libertate pentru nivelul
de semnificaţie al testului;
b
t o  i reprezintă valoarea observată (calculată) a lui t.
sbi
Dacă t0 ia valori între -tc şi tc se acceptă ipoteza H0 şi se trage concluzia că Xi nu
este o variabilă predictor semnificativă. Altfel, se respinge ipoteza H0 şi se trage
concluzia că Xi este o variabilă predictor semnificativă.
Inferenţa asupra regresiei în ansamblu
În orice problemă de regresie multiplă se pune întrebarea dacă valoarea lui R 2
indică în mod real faptul că variabilele predictori explică variaţia lui Y sau aceasta se
produce numai întâmplător sau, cu alte cuvinte, dacă regresia în ansamblu este
semnificativă. Deci trebuie formulată o problemă de testare care să evidenţieze că toate
variabilele Xi luate împreună sunt semnificative pentru explicarea variabilităţii
caracteristicii Y.
Formularea testului este următoarea:
H 0 : B1  B2 ...  Bk  0  ipoteza nulă: Y nu depinde de variabilele Xi.
H 1 : cel puţin un Bi  0  ipoteza alternativă: Y depinde de cel puţin o variabilă
Xi.
Se consideră variaţia totală a caracteristicii Y, dată de expresia:
SST   Y  Y  , ca fiind compusă din variaţia explicată prin regresie,
2

SSR   Yˆ  Y  şi
2
partea din variaţia totală neexplicată prin regresie,
 Y  Yˆ  .
2
SSE 
Pentru acestea este valabilă relaţia:
SST  SSR  SSE (10)
Fiecare din aceste sume are asociat un anumit număr de grade de libertate şi
anume: SST are n-1 grade de libertate (n observaţii, dar s-a pierdut un grad de libertate
deoarece media sondajului este fixă), SSR are k grade de libertate (are k variabile
independente care explică variaţia caracteristicii Y) şi SSE are n-k-1 grade de libertate
(cele n observaţii sunt folosite pentru a estima k+1 constante). Dacă ipoteza nulă este
adevărată, raportul Fisher se calculează cu relaţia:
SSR / k
F (11)
SSE /  n  k  1
şi este o distribuţie F cu k grade de libertate la numărător şi n-k-1 grade de libertate la
numitor. Dacă ipoteza nulă este falsă, atunci raportul Fisher tinde să fie mai mare decât
în cazul în care ipoteza nulă este adevărată. Dacă raportul Fisher este atât de mare se
respinge ipoteza H0 şi se trage concluzia că regresia pe ansamblu este semnificativă.
4. Multicoliniaritatea în regresia multiplă

În analiza regresiei multiple, coeficienţii de regresie pierd din semnificaţie dacă


gradul de corelare dintre variabilele predictori creşte. Dacă între variabilele predictori
există un nivel ridicat de corelaţie apare problema multicoliniarităţii. Prezenţa
multicoliniarităţii în analiza corelaţiei dintre o variabilă predictibilă şi două sau mai
multe variabile predictori poate fi identificată prin efectuarea testelor statistice. Astfel,
în regresia multiplă variabilele predictori, luate în ansamblu, pot fi semnificative, iar
luate individual nesemnificative. Această aparentă contradicţie derivă din faptul că
variabilele sunt corelate între ele, efectul fiind acela că ele explică împreună aceeaşi
parte din variaţia caracteristicii predictibile. Astfel, nu putem separa contribuţia
individuală a variabilelor predictori, întrucât ele sunt puternic corelate şi ca rezultat
coeficienţii lor de regresie multiplă vor avea erori standard ridicate şi valori t calculate
relativ mici şi un interval larg de probabilitate prob  t . Regresia multiplă poate fi
calculată şi analizată chiar şi în prezenţa multicoliniarităţii [4, p. 592].

5. Tehnici de modelare în regresia multiplă

Fiind dată o variabilă predictibilă şi un ansamblu de variabile potenţial


predictori, în regresia multiplă pot fi elaborate mai multe ecuaţii de regresie, în funcţie
de variabilele luate în studiu şi de modul de includere în model. Tehnicile de modelare
sunt moduri variate în care variabilele predictori pot fi incluse în model şi verifică cât de
adecvat este modelul de regresie multiplă ales.
Datele calitative şi variabilele dummy
În unele situaţii analiza regresiei trebuie aplicată variabilelor calitative. O astfel
de problemă ar fi, de exemplu, analiza dependenţei salariilor dintr-o firmă, de sexul
salariaţilor, cu alte cuvinte, se pune problema să se verifice dacă există discriminare
după sex în acordarea salariilor. În acest caz se calculează salariul mediu pentru cele
două populaţii: masculină şi feminină şi se aplică următorul test statistic:
H 0 : 1   2  ipoteza nulă: nu există discriminare salarială după sex;
H 1 : 1   2  ipoteza altenativă: femeile sunt discriminate salarial.
Pe lângă efectuarea testului, o problemă importantă este analiza reziduurilor,
exprimate prin diferenţele de forma: Y  Yˆ . Dacă regresia include toţi factorii
explicativi importanţi, reziduurile trebuie să fie aleatoare. Altfel spus, dacă reziduurile
nu arată tendinţe aleatoare, aceasta înseamnă că există o componentă nealeatoare ce
trebuie luată în considerare.
Se pune întrebarea cum se ajunge totuşi la includerea variabilelor calitative într-
un model de regresie multiplă ? Pentru aceasta este folosit un instrument statistic numit
variabilă dummy (sau indicator variabil). În exemplul considerat, variabila dummy ia
valoarea 0 pentru salariaţii de sex masculin şi valoarea 1 pentru salariaţii de sex feminin
şi se foloseşte o estimare a ecuaţiei de regresie de forma:
Yˆ  a  b1 X 1  b2 X 2 (12)
Pe baza relaţiei (12) se scriu estimările ecuaţiei de regresie pentru stabilirea
salariului unui salariat de sex masculin şi respectiv feminin cu o vechime în muncă de
X1 luni şi anume:
Masculin: Yˆ  a  b1 X 1  b2  0   a  b1 X 1
Feminin: Yˆ  a  b1 X 1  b2 1  a  b1 X 1  b2
Pentru salariaţii bărbaţi şi femei cu aceeaşi vechime în muncă se presupune că
există o diferenţă de salariu egală cu b2, care este estimarea parametrului B2 din
populaţia totală, a cărei ecuaţie de regresie este:
Y  A  B1 X 1  B2 X 2 (13)
Dacă există discriminare împotriva femeilor, atunci nivelul lor de salarizare
trebuie să fie mai mic decât al bărbaţilor sau B2 trebuie să fie negativ.
Formularea problemei de testare este următoarea:
H 0 : B2  0  ipoteza nulă: nu există discriminare salarială pe bază de sex;
H 1 : B2  0  ipoteza alternativă: există discriminare împotriva femeilor.
Se efectuează testul t pentru n-k-1 grade de libertate şi se stabilesc limitele zonei
de acceptare. Dacă coeficientul b2 se situează în afara regiunii de acceptare se respinge
ipoteza nulă şi se trage concluzia că există discriminare împotriva femeilor. Analiza
reziduurilor trebuie să arate dacă există sau nu o tendinţă nealeatoare în manifestarea
acestora. Valorile date variabilei dummy (0 pentru masculin şi 1 pentru feminin, în
exemplul considerat) sunt arbitrare şi afectează numai semnul, nu şi valoarea numerică
a coeficientului variabilei dummy.
În exemplul considerat, variabila dummy a luat numai două valori, fiind folosită
în analiza unei singure variabile calitative, dar tehnica variabilei dummy poate fi
aplicată şi în probleme cu mai multe variabile calitative.
O altă tehnică folosită în regresia multiplă este aceea a transformării variabilelor
şi ajustării curbelor. Prin transformarea variabilelor se poate trece de la un model iniţial
liniar la un model curbiliniu care explică un procent mai mare din variaţia caracteristicii.
Aplicarea sau nu a tehnicii transformării variabilelor este o decizie luată în funcţie de
analiza reziduurilor pentru modelului liniar, care poate sugera dacă modelul curbiliniu
este mai potrivit. Un exemplu de transformare matematică a variabilelor este ridicarea la
pătrat a unei variabile, astfel încât modelul liniar devine un model de regresie de gradul
doi. Există multe alte modalităţi de transformare a variabilelor în variabile noi şi
programele de calcul statistic oferă astfel de facilităţi. Astfel, de exemplu, programul
SAS oferă posibilitatea de a transforma una sau mai multe variabile prin: sumă,
diferenţă, produs, raport, ridicare la putere, logaritmare, aplicarea funcţiilor
exponenţiale, funcţiilor trigonometrice şi multe altele [4, p. 598].
Există multe alte probleme cu care se confruntă aplicarea regresiei multiple în
analiza statistică, cele prezentate făcând posibilă înţelegerea principiilor de bază ale
metodei, a unor probleme care pot să apară în aplicarea regresiei multiple, a facilităţilor
oferite de programele de calcul statistic elaborate pentru regresia multiplă.

BIBLIOGRAFIE

1. Baron, T., Biji, E. M., Tövissi, L., şi alţii, Statistică teoretică şi economică, Editura
Didactică şi Pedagogică R. A., Bucureşti, 1996

2. Biji, E., M., Lilea, E., Roşca, R. E., Vătui, M., Statistică aplicată în economie, Editura
UNIVERSAL DALSI Bucureşti, 2000

3. Keller, G., Warrack, B., Bartel, H., Statistics for Management and Economics. A
Systematic Approach, Wadsworth Publishing Company, Belmont, California, 1988

4. Levin, I. R., Statistics for Management, Fourth Edition, Prentice-Hall, Inc., Englewood
Cliffs, New Jersey, 1987

5. Loftus, R., G., Loftus, F. E., Essence of Statistics, Second Edition, Alfred A. Knopf,
New York, 1988

You might also like