Capitolul II

Modele de regresie. Modelul de regresie liniară simplă
Modelele de regresie fac parte din categoria modelelor
stochastice (statistice), în care toţi factorii explicativi ai unui
fenomen, care nu îşi găsesc locul în model direct în model, apar
cumulaţi sub forma unei variabile aleatoare numită eroare.
O variabilă Y (parametrul de ieşire) care cuantifică
fenomenul sudiat poate fi explicată prin regresia pe unul sau mai
mulţi factori explicativi (parametrii de intrare). Toţi factorii
explicativi care nu sunt suficient de relevanţi pentru Y, intră în
model sub forma cumulativă a erorii.
În cazul când factorii explicativi relevanţi se rezumă la un
singur factor X, aveam de-a face cu modelul de regresie simplă, de
forma,
( ) , ε + · X f Y

unde
ε
reprezintă eroarea din model iar f este funcţia care descrie
legătura dintre variabile, numită şi funcţie de regresie.
Dacă avem doi sau mai mulţi factori explicativi (predictivi),
p
X X X ,..., ,
2 1
, atunci regresia se numeşte multiplă şi modelul
corespunzător va fi
( ) ε + ·
p
X X X f Y ,..., ,
2 1 .
Problema regresiei pleacă de la existenţa unui set de date
privind două sau mai multe variabile aleatoare, scopul modelării
fiind descrierea relaţieidintre ele, adică determinarea funcţiei f , în
vederea prognozării valorilor variabilei dependente în raport cu
valorile variabilelor explicative. Această problemă se pune doar
atunci când între variabile există o legătură reală, bazată pe natura
fenomenelor care stau la baza lor. Altfel, este posibil ca formal,
datele numerice să pară corelate (spre exemplu, cresc pe aceeaşi
perioadă de timp), fără ca fenomenele pe care le cuantifică să fie
corelate. Într-un astfel de caz, studiul regresiei ar fi lipsit de sens.
În cazul în care, funcţia de regresie este parametrică, adică
este de forma,
( )
s p
a a a X X X f ,..., , , ,..., ,
2 1 2 1 , atunci determinarea
funcţiei revine la determinarea parametrilor, s
a a a ,..., ,
2 1 . Condiţia
naturală care apare este ca abaterile valorilor rezultate din model
faţă de valorile empirice, rezultate prin observare, să fie minime.
Cel mai cunoscut criteriu care permite satisfacerea unei astfel de
condiţii este criteriul celor mai mici pătrate, care constă în
minimizarea sumei pătratelor acelor abateri. Astfel, parametrii
optimi vor fi aceia pentru care, modelul satisface condiţia,
date de numarul - min,
1
2
n
n
i
i
·

·
ε
,
condiţie ce revine la
( ) ( ) . min ,..., , , ,..., , ) ,..., , (
1
2
2 1 2 1
1
2
2 1 ∑ ∑
· ·
· − · ·
n
i
s pi i i i
n
i
i s
a a a x x x f y a a a F ε
Mai departe, problema de minim revine la condiţiile:
n i
a
a a a F
i
s
, 1 , 0
) ,..., , (
2 1
· ·


.
Cele mai simple modele de regresie sunt cele liniare, adică
cele în care f depinde liniar de variabilele predictive. O mare parte
dintre dependenţele reale sunt de tip liniar sau pot fi reduse la
modelul liniar motiv pentru care studierea unui asfel de model
ocupă un loc important în modelarea matematică. Vom considera
în cele ce urmează, cazul unui model de regresie liniară simplă.
Model de regresie liniară simplă
Modelul de regresie liniară simplă este de forma
ε + + · bX a Y
,
unde a şi b se numesc parametrii dreptei de regresie, X se numeşte
predictor sau variabilă explicativă, Y, răspuns sau efect iar
ε
,
eroare.
Problema regresiei liniare simple:
Se consideră un set bidimensional de date
n i y x
i i
, 1 , , ·
, reprezentând
valori observate ale celor două variabile, X şi Y. În vederea
prognozării valorilor lui Y corespunzătoare unor valori noi ale lui
X (altele decât cele n observate), se pune problema determinării
parametrilor de regresie a şi b, în aşa fel, încât dintre toate dreptele
posibile, dreapta de ecuaţie,
( ) bx a x f y + · · ˆ
,
să descrie cel mai bine legătura dintre variabile şi faţă de care
punctele de coordonate
n i y x
i i
, 1 , , ·
, să se apropie cel mai mult.
Odată stabilite valorile lui a şi b (deci funcţia de regresie, f),
dându-se valori noi pentru X se găsesc din ecuaţia de regresie,
valorile corespunzătoare ale lui Y, adică se prognozează Y în
funcţie de X.
Două exemple de motivaţie a modelului de regresie liniară, din
domeniul medicinei
Problema 1. Corelaţia dintre greutatea şi înălţimea unei
persoane
În mod natural, se presupune că există o strânsă legătură între
înălţimea şi greutatea unei persoane. Se pune problema
determinării unui model regresiv care să permită calcularea
greutăţii normale a unei persoane, în raport cu înălţimea sa.

Problema 2. Corelaţia dintre viteza de reducere circumferenţială
a ventriculului stâng şi nivelul glucozei în sânge
Pentru un lot format din 24 de bolnavi de diabet de tip I, s-a
măsurat, pe de o parte, dinamica nivelului glucozei în sânge-
GS(mmol/l) şi pe de altă parte, viteza medie de reducere a
circumferinţei ventriculului stâng-VcV(%/sec), în scopul
predicţiei variabilei răspuns VcV, în funcţie de nivelul GS, mai
precis în scopul predicţiei problemelor cardiovasculatorii în
funcţie de evoluţia glicemiei. Ţinând seama de dificultatea de a
analiza direct problema contracţiei ventriculului stâng faţă de
stabilirea nivelului glucozei în sânge, în sensul că nu putem găsi o
formulă matematică directă de legătură, se impune studiul unui
model regresiv.
Se va vedea în cele din urmă, că modelul liniar se pretează
foarte bine la prima problemă, în timp ce pentru problema 2, este
necesar şi studiul altor modele.
Tehnici de regresie liniară simplă
1. Identificarea modelului
Se justifică alegerea unui model liniar prin :
-calculul coeficientului de corelaţie liniară pe baza datelor,
n i y x
i i
, 1 , , ·
:
[ ] 1 , 1
) , cov(
− ∈

·
y x
y x
r
σ σ
Pentru ca modelul liniar să fie potrivit datelor, coeficientul de
corelaţie liniară trebuie sa aibă o valoare absolută cât mai
apropiată de 1.
-reprezentarea punctelor de coordonate
n i y x
i i
, 1 , , ·
, într-un sistem
ortogonal de axe-alura liniei poligonale obţinute prin unirea cu
segmente a punctelor, trebuie să fie cât mai apropiată de cea a unei
drepte.
2. Estimarea parametrilor modelului prin metoda celor mai
mici pătrate-ajustarea modelului
Forma modelului este
ε + + · bX a Y
,
iar pentru
n i y x
i i
, 1 , , ·
, devine,
n i bx a y
i i i
, 1 , · + + · ε
.
Se pune problema estimării parametrilor a şi b, astfel încât
dreapta determinată de aceştia să minimizeze suma pătratelor
reziduurilor, i
ε
, (abaterile valorilor reale i
y
, faţă de valorile
rezultate din model, i i
bx a y + · ˆ
)-criteriul celor mai mici pătrate.
Prin urmare, din condiţia
min
1
2
·

·
n
i
i
ε
, rezultă estimatorii de
cele mai mici pătrate ai parametrilor de regresie (valorile reale
pentru a şi b, nu pot fi determinate exact deoarece, dispunem doar
de eşantionul de observaţii,
n i y x
i i
, 1 , , ·
),
( )
.
ˆ
ˆ
, cov
ˆ
2
b x y a
y x
b
x
⋅ − ·
·
σ
Pe lângă aceste estimări punctuale este necesar să cunoaştem şi
inferenţele asupra acestor parametrii, mai precis intervalele de
încredere corespunzătoare. Un cadru bun pentru astfel de estimări
presupune câteva condiţii asupra modelului, numite şi ipotezele
Gauss-Markov.
3. Ipoteze fundamentale-Gauss-Markov-modelul clasic cu
erori normale, independente şi identic distribuite, de
medie zero
-normalitatea erorilor :
n 1, i , · ∀ ∈N
i
ε
;
-independenţa erorilor :
( ) j i n j i
j i
≠ · ∀ · , , 1 , , 0 , cov ε ε
;
-erori identic distribuite (model homoscedastic) :
( ) ( ) n i V M
i i
, 1 , , 0
2
· ∀ · · σ ε ε
.
Altfel spus, reziduurile trebuie să aibă
comportamentul «zgomotului gaussian alb».Toate aceste ipoteze
pot fi verificate printr-o serie de teste statistice, care presupun
validarea modelului. Orice abatere de la aceste ipoteze duce la alte
tipuri de modele liniare, decât cel clasic. O metodă de verificare
este şi cea prin care se proiectează reziduurile şi se analizează
dacă graficul este cel al unui zgomot alb-oscilaţii în jurul lui 0.
4. Intervale de încredere de tip
α − 1
, pentru coeficienţii de
regresie
α
α α
− ·

,
_

¸
¸
+ < < −
− − − −
1
ˆ ˆ
2
1 , 2
2
1 , 2 n
b
n
b
t s b b t s b P
,
α
α α
− ·

,
_

¸
¸
+ < < −
− − − −
1 ˆ ˆ
2
1 , 2
2
1 , 2 n
a
n
a
t s a a t s a P
,
unde
2
1 , 2
α
− − n
t
este cuantila de ordin
2
1
α

, pentru o variabilă de tip
Student cu n-2 grade de libertate, iar
( )

·

·
n
i
i
b
x x
s
s
1
2
2
2
,
( )


·
·

·
n
i
i
n
i
i
a
x x
x
n
s
s
1
2
1
2
2
2
,
( )
∑ ∑
· ·
− −

·

·
n
i
i i
n
i
i
x b a y
n
e
n
s
1
2
1
2 2
ˆ
ˆ
2
1
2
1
.
5. Previziune şi intervale de încredere pentru previziune
Odată stabilit modelul se poate utiliza pentru previziune.
Astfel, pentru o valoare nouă, neobservată a lui X, egală cu 0
x
,
previziunea valorii corespunzătoare a lui Y, va fi
0 0
ˆ
ˆ ˆ x b a y ⋅ + ·
.
Se poate determina următorul interval de încredere pentru
previziune :
α
α α
− ·

,
_

¸
¸
+ < < −
− − − −
1 ˆ ˆ
2
1 , 2
0
2
1 , 2
0
n n
t s y y t s y P
,
unde
( )
( )
1
1
1
1
]
1

¸



+ +
·

·
n
i
i
x x
x x
n
s
s
1
2
2
0
2
2
0
1
1
.
Pe acelaşi grafic se pot reprezenta dreapta de regresie şi
curbele ce corespund capetelor intervalului de încredere pentru o
valoare previzionată.
Analiza cantitativă a regresiei prin statisticile adiţionale este
prezentată, pe un cadru mai general, pe orice model de regresie
simplă, în capitolul IV.