Professional Documents
Culture Documents
MODELARE, INTERPRETARE ŞI
TESTARE
Summary
The paper Multiple Regression. Model, Interpreting and Testing defines the two
methods of analysis which are: the regression method and the correlation analysis and goes into
details with the multiple regression method. So if in the case of simple regression are taken in
study two variables X and Y, where X is the independent variable and Y is the depended variable,
the multiple regression supposes the extension of the model equation about the adding a new
term for every new independent variable. In this way the basic problem becomes the problem of
the estimation of the regression coefficient. When the number of the independent variable is
great (k) the estimation of these coefficients supposes the using of the computer and for this
estimation can be used, for example, the SAS system. The information offers by this statistic
computing system can be: the establishing of the regression equation, the measure of regression,
the measure of standard error estimated for the multiple regression, the multiple coefficient of
determination.
Considering that the analysis is making on the base of sample data, the next step after
the regression coefficients is the statistic inference about the calculus of the total population
parameters. The inference can be made by estimation the regression coefficients for sample
taken into study one individual slope and making the inference on the one slope of the
regression plane for the entire population or taken into study the inference about the regression
as a whole.
In the multiple regression analysis in some cases appears the problem of determination
of the dependence degree between the analysed independent variables, a phenomenon which is
named in statistics multicollinearity. The analysis of the multiple regression gives into emphasis
the fact that, if in the simple regression, every variable has a high significant degree, in the
multiple regression the variable are significant in the whole but not in the individuals.
Being given a variable which has a variation that must be explained we can use more
regression equations each of them being named model and the modes in which the variables are
includes in models are named the modeling techniques. If the situation in which are taken into
study using the regression method the quantitative variables is more times met, a special case of
analysis is the analysis of qualitative variables.
An important problem in the multiple regression is the testing of the signification of the
regression equation coefficients, the principal technique used in this case being the variance
analysis. In this stage one of the most important aspects of regression analysis is the residuals
analysis. If the regression analysis included all the important influence factors, the residuals
must have a random character or, with other words, if the residuals have not a random trend this
means a systematic action which must taken into study. The principal types of tests used in the
analysis of variance the t test applied for each of independent variable and F test. Actually, the t
test is applied for k times and the F test combines, in fact, these k tests in one. The necessity of
using the F test in additional is determined by two grounds which are: on the one hand, if many
tests are satisfied, a certain percentage of true null hypotheses will be rejected, existing the
possibility to arrive at false conclusions and, on the other hand, in the collinearity (or
multicollinearity) situations the standard deviation of the coefficients can be overestimated
while the F test is not affected by collinearity.
Metoda regresiei multiple este înrudită cu analiza multifactorială ANOVA, în
care o variabilă dependentă (rezultativă, predictibilă) este analizată în funcţie de mai
multe variabile independente (factoriale, predictori) [5, p. 462].
Un exemplu simplu arată cum se poate folosi mai multă informaţie disponibilă
pentru a estima dependenţa dintre variabile. Un agent imobiliar doreşte să analizeze
legătura dintre numărul imobilelor vândute într-o lună şi cheltuielile efectuate lunar
pentru publicitate. O astfel de analiză se poate face folosind regresia simplă. Dacă însă
modelul de regresie este îmbunătăţit prin includerea unei noi variabile, anume numărul
de agenţi de vânzări angajaţi în fiecare lună, ambele variabile (cheltuielile lunare de
publicitate şi numărul agenţilor de vânzări) influenţează numărul imobilelor vândute
după o ecuaţie de regresie multiplă. Uneori influenţa a numai două variabile nu este
suficientă pentru a determina o ecuaţie de regresie sigură şi atunci, dacă sunt folosite
mai multe variabile se poate estima ecuaţia multiplă care descrie relaţia dintre variabile
cu mai mare acurateţe.
Principalul avantaj al regresiei multiple este acela că permite creşterea gradului
de siguranţă în alegerea ecuaţiei de regresie, prin folosirea unei cantităţi mai mari de
informaţie disponibilă.
Regresia multiplă şi analiza corelaţiei se pot realiza în trei etape şi anume [4, p.
568]:
descrierea ecuaţiei de regresie multiplă;
analiza erorii standard de regresie multiplă estimate;
utilizarea analizei corelaţiei multiple pentru a determina cât de bine
descrie ecuaţia de regresie datele observate.
Regresia multiplă permite analiza fiecărei variabile independente şi testarea
contribuţiei semnificative a variabilei la descrierea datelor. Ea poate fi studiată pentru
ecuaţii de regresie liniare sau neliniare, iar utilizând tehnicile variabilelor „dummy” pot
fi incluşi în analiză factori calitativi. Variabilele „dummy” şi curbele de ajustare
obţinute prin transformarea matematică a variabilelor sunt doar două dintre tehnicile de
modelare ce pot fi utilizate în regresia multiplă.
s (4)
n k 1
unde:
Y reprezintă valorile de sondaj ale variabilei predictibile;
Yˆ reprezintă valorile estimate corespunzătoare ale ecuaţiei de regresie;
n reprezintă numărul de unităţi din sondaj;
k reprezintă numărul de variabile predictori.
Numitorul acestei ecuaţii arată că în regresia multiplă cu k variabile predictori,
eroarea standard are n-k-1 grade de libertate. Aceasta deoarece numărul gradelor de
libertate este redus cu k+1 constante (a, b1, b2,..., bk), care au fost estimate prin model.
Datorită modelului de calcul al erorii standard, aceasta mai este numită şi eroarea
rădăcinii pătrate medii.
Folosind eroarea standard de estimare şi distribuţia t, corespunzătoare numărului
de grade de libertate n-k-1, se poate aproxima intervalul de încredere pentru valorile Yˆ .
Practica a demonstrat că nu întotdeauna, adăugând variabile adiţionale la modelul de
regresie multiplă se obţine o reducere a erorii standard de estimare.
3. Coeficientul de determinaţie multiplă. Pentru a măsura intensitatea
corelaţiei dintre variabile se foloseşte coeficientul de determinaţie multiplă ( R 2 ), care
sintetizează o parte din variaţia totală a variabilei dependente Y, explicată prin ecuaţia
de estimare. Rădăcina pătrată a coeficientului de determinaţie multiplă ( R ) este numită
coeficient de corelaţie multiplă şi reprezintă proporţia din variaţia totală a lui Y
explicată prin planul de regresie.
Coeficientul de determinaţie multiplă se calculează cu relaţia:
Y Y Y Yˆ
2 2
R2 (5)
Y Y
2
2
Dacă n este mult mai mare decât k, R 2 şi Rajustat vor fi similare. Dar dacă SSE
2
este diferit de zero şi k este suficient de mare comparativ cu n, R 2 şi Rajustat vor avea
valori diferite şi, în acest caz interpretarea valorilor lor este dificilă, contradictorie [3, p.
665].
Dacă eroarea standard de estimare şi coeficientul de determinaţie sunt folosite
pentru estimarea modelelor de regresie multiplă, analiza varianţei poate fi folosită atât
pentru estimare cât şi pentru testarea utilităţii modelului.
Pentru a explica utilizarea tehnicii analizei varianţei în acest scop se porneşte de
la faptul că variabilitatea variabilei dependente (notată SSy) poate fi descompusă în:
variabilitate explicată (notată SSR) şi variabilitate neexplicată (notată SSE), astfel încât
este valabilă relaţia:
SS y SSR SSE 1 (7)
Dacă SSR este mare comparativ cu SSE, coeficientul de determinaţie ( R ) este 2
mare şi indică un model bun. Pe de altă parte, dacă SSE este mare, cea mai mare parte a
variaţiei caracteristicii predictibile Y a rămas neexplicată, ceea ce arată că nu a fost ales
cel mai adecvat model şi, în consecinţă, utilitatea lui este scăzută.
Ipotezele ce trebuie testate sunt.
H 0 : 1 2 ... k 0
H A : cel puţin un i nu este egal cu 0.
Dacă ipoteza nulă este adevărată, nici una dintre variabilele predictori X1, X2,...,Xk
nu este corelată liniar cu variabila predictibilă Y şi modelul are o utilitate scăzută, în
timp ce dacă cel puţin un i este diferit de zero, modelul are o oarecare utilitate. Dacă
din calcule rezultă că SSR este suficient de mare faţă de SSE pentru a conduce la
concluzia că cel puţin un i este diferit de zero se calculează raportul mediei
pătratelor, care este testul F. În Tabelul 1 sunt prezentaţi indicatorii analizei varianţei
pentru testarea utilităţii modelului de regresie multiplă.
O valoare mare a lui F arată că cea mai mare parte a variaţiei lui Y este explicată
prin ecuaţia de regresie şi că modelul este bun. O valoare mică a lui F arată că cea mai
mare parte a lui Y a rămas neexplicată. Aria de respingere permite să se stabilească dacă
F este suficient de mare pentru a justifica respingerea ipotezei Ho. Aria de respingere a
ipotezei H0 este dată de relaţia:
F>Fα, k, n-k-1
Se poate concluziona deci că testul t aplicat coeficienţilor individuali permite să
se determine dacă i 0 (pentru i=1, 2,..., k), ceea ce ne arată dacă există sau nu o
legătură liniară între variabilele Xi şi Y. Testul t se aplică fiecărei variabile predictor şi în
consecinţă se va aplica de k ori.
Testul F din analiza varianţei combină aceste k teste în unul singur, adică sunt
testaţi în acelaşi timp toţi coeficienţii i pentru a stabili dacă cel puţin unul dintre ei nu
este egal cu zero. Se pune totuşi problema de ce este necesar testul F dacă acesta este o
combinaţie de teste t, iar explicaţia este aceea că în unele situaţii testul F este mai sigur.
În primul rând, când este aplicat un număr mare de teste, un anumit procent al
ipotezelor nule va fi respins. De exemplu, pentru k=100 şi 100 teste t efectuate, cu
α=0,05, chiar dacă toţi coeficienţii i sunt zero, o medie de cinci ipoteze vor fi
respinse. Este, de asemenea, sigur că cel puţin o ipoteză validă nulă va fi respinsă şi în
aceste condiţii se va concluziona eronat că modelul este util. Pe de altă parte, testul F se
aplică o singură dată, iar din moment ce probabilitatea ca eroarea de tip I să se producă
la o singură încercare este egală cu zero, concluzia eronată că modelul este util este mai
puţin probabilă în cazul testului F decât în cazul multiplelor teste t. În al doilea rând,
datorită coliniarităţii (sau multicoliniarităţii) deviaţia standard a coeficienţilor de
regresie multiplă poate fi supraestimată, testele t luând valori mai mici decât în realitate.
Astfel, se poate concluziona că unii coeficienţi i sunt egali cu zero, în timp ce în
realitate sunt diferiţi de zero. Problema coliniarităţii nu afectează testul F.
În Tabelul 2 este prezentată legătura dintre testul F, R 2 şi s .
În acest tabel SSE este suma pătratelor abaterilor valorilor variabilei predictibile
de la valorile ajustate, s reprezintă eroarea standard de estimare, R 2 este coeficientul
de determinaţie multiplă şi F este statistica Fisher. Testarea modelelor de regresie
multiplă cu aceste tehnici este facilitată de procedurile sistemelor SAS, SPSS etc.
şi se acceptă H0 dacă:
t sbi bi t sbi ,
ceea ce este echivalent cu acceptarea ipotezei H0 dacă:
b
t i t .
sbi
Valoarea t din această ultimă expresie este numită valoare „critică” şi se notează
bi
cu tc. Raportul este numit valoare t „observată” sau „calculată” şi se notează cu t0.
s bi
A testa dacă variabila Xi este o variabilă predictor semnificativă înseamnă a verifica
dacă:
tc t0 tc
unde:
tc reprezintă valoarea corespunzătoare a lui t, cu n-k-1 grade de libertate pentru nivelul
de semnificaţie al testului;
b
t o i reprezintă valoarea observată (calculată) a lui t.
sbi
Dacă t0 ia valori între -tc şi tc se acceptă ipoteza H0 şi se trage concluzia că Xi nu
este o variabilă predictor semnificativă. Altfel, se respinge ipoteza H0 şi se trage
concluzia că Xi este o variabilă predictor semnificativă.
Inferenţa asupra regresiei în ansamblu
În orice problemă de regresie multiplă se pune întrebarea dacă valoarea lui R 2
indică în mod real faptul că variabilele predictori explică variaţia lui Y sau aceasta se
produce numai întâmplător sau, cu alte cuvinte, dacă regresia în ansamblu este
semnificativă. Deci trebuie formulată o problemă de testare care să evidenţieze că toate
variabilele Xi luate împreună sunt semnificative pentru explicarea variabilităţii
caracteristicii Y.
Formularea testului este următoarea:
H 0 : B1 B2 ... Bk 0 ipoteza nulă: Y nu depinde de variabilele Xi.
H 1 : cel puţin un Bi 0 ipoteza alternativă: Y depinde de cel puţin o variabilă
Xi.
Se consideră variaţia totală a caracteristicii Y, dată de expresia:
SST Y Y , ca fiind compusă din variaţia explicată prin regresie,
2
SSR Yˆ Y şi
2
partea din variaţia totală neexplicată prin regresie,
Y Yˆ .
2
SSE
Pentru acestea este valabilă relaţia:
SST SSR SSE (10)
Fiecare din aceste sume are asociat un anumit număr de grade de libertate şi
anume: SST are n-1 grade de libertate (n observaţii, dar s-a pierdut un grad de libertate
deoarece media sondajului este fixă), SSR are k grade de libertate (are k variabile
independente care explică variaţia caracteristicii Y) şi SSE are n-k-1 grade de libertate
(cele n observaţii sunt folosite pentru a estima k+1 constante). Dacă ipoteza nulă este
adevărată, raportul Fisher se calculează cu relaţia:
SSR / k
F (11)
SSE / n k 1
şi este o distribuţie F cu k grade de libertate la numărător şi n-k-1 grade de libertate la
numitor. Dacă ipoteza nulă este falsă, atunci raportul Fisher tinde să fie mai mare decât
în cazul în care ipoteza nulă este adevărată. Dacă raportul Fisher este atât de mare se
respinge ipoteza H0 şi se trage concluzia că regresia pe ansamblu este semnificativă.
4. Multicoliniaritatea în regresia multiplă
BIBLIOGRAFIE
1. Baron, T., Biji, E. M., Tövissi, L., şi alţii, Statistică teoretică şi economică, Editura
Didactică şi Pedagogică R. A., Bucureşti, 1996
2. Biji, E., M., Lilea, E., Roşca, R. E., Vătui, M., Statistică aplicată în economie, Editura
UNIVERSAL DALSI Bucureşti, 2000
3. Keller, G., Warrack, B., Bartel, H., Statistics for Management and Economics. A
Systematic Approach, Wadsworth Publishing Company, Belmont, California, 1988
4. Levin, I. R., Statistics for Management, Fourth Edition, Prentice-Hall, Inc., Englewood
Cliffs, New Jersey, 1987
5. Loftus, R., G., Loftus, F. E., Essence of Statistics, Second Edition, Alfred A. Knopf,
New York, 1988