REGRESIA LINIARA UNIFACTORIALA

Probleme rezolvate
1. În tabelul următor avem date referitoare la 15 agenţi de asigurări angajaţi ai unei
companii de asigurări de viaţă şi anume: timpul mediu, în minute, petrecut de un agent cu
un potenţial client şi numărul de poliţe încheiate într-o săptămână. Dacă X reprezintă
timpul mediu, iar Y reprezintă numărul de poliţe, avem datele sistematizate astfel:
X Y
25
23
30
25
20
33
18
21
22
30
26
26
27
29
20
10
11
14
12
8
18
9
10
10
15
11
15
12
14
11
Se cere:
a) să se estimeze parametrii modelului liniar de regresie;
b) să se testeze semnificaţia parametrilor modelului pentru un prag de semnificaţie
α = 5%;
c) să se determine erorile reziduale;
d) să se testeze validitatea modelului de regresie pentru un nivel de semnificaţie α
= 5%;
e) măsuraţi intensitatea legăturii dintre cele două variabile folosind un indicator
adecvat şi testaţi semnificaţia acestuia pentru un nivel de încredere de 0,5%;
f) efectuaţi o previzionare punctuală şi pe interval de încredere a numărului de
poliţe încheiate de un agent care petrece în medie 24 de minute cu un potenţial
client.
Rezolvare:
Pentru a determina forma modelului de regresie se va construi corelograma:
6
8
10
12
14
16
16 18 20 22 24 26 28 30 32 34
OY
timpul mediu
OX
numar polite
1 cm OY = 5 poliţe
1 cm OX = 2 minute
a)
i 1 0
i
x a a yˆ + ·
Parametrii a şi b se determină cu ajutorul metodei celor mai mici pătrate:
( ) ( ) ⇔ − − ⇔ −
∑ ∑
min x a a y min yˆ y
i
2
i 1 0 i
i
2
i i
¹
¹
¹
¹
¹
'
¹
· +
· +
∑ ∑ ∑
∑ ∑
· · ·
· ·
n
1 i
i i
n
1 i
2
i
1
n
1 i
i 0
n
1 i
i
n
1 i
i 1 0
y x x a x a
y x a na
15 n ·
Pentru a rezolva sistemul vom folosi următorul tabel în care sunt prezentate valorile
intermediare:
i
x
i
y
2
i
x
i i
y x
2
i
y
( )
2
i
y y − ( )
2
i
x x −
25
23
30
25
20
33
18
21
22
30
26
26
27
29
20
10
11
14
12
8
18
9
10
10
15
11
15
12
14
11
625
529
900
625
400
1089
324
441
484
900
676
676
729
841
400
250
253
420
300
160
594
162
210
220
450
286
390
324
406
220
100
121
196
144
64
324
81
100
100
225
121
225
144
196
121
4
1
4
0
16
36
9
4
4
9
1
9
0
4
1
0
4
25
0
25
64
49
16
9
25
1
1
4
16
25
375
x
i
·

180
y
i
·

9639
x
2
i
·

4645
y x
i i
·

2262
y
2
i
·

102 264
¹
'
¹
· ⋅ + ⋅
· ⋅ +
4645 9639 a 375 a
180 375 a a 15
1 0
1 0

¹
'
¹
·
− ·
5492 , 0 a
73 , 1 a
1
0
Deci:
i
i
x 5492 , 0 73 , 1 yˆ ⋅ + − ·
b) Testarea semnificaţiei parametrilor modelului:
Ecuaţia de regresie la nivelul colectivităţii generale este:
i
i 1 0
i
u x y + α + α ·
iar la nivelul eşantionului este:
i
i 1 0
i
u x a a y + + ·
Testarea semnificaţiei parametrului α
1
:
1) se stabileşte ipoteza nulă:
H
0
: α
1
= 0
2) se stabileşte ipoteza alternativă:
H
1
: α
1
≠ 0, adică α
1
este semnificativ diferit de zero, adică α
1
este
semnificativ statistic.
3) se calculează testul statistic:
deoarece n = 15 < 30 avem eşantion de volum redus şi pentru testare vom utiliza
testul t:
8 , 6
08 , 0
5492 , 0
s
a
s
0 a
s
a
t
1 1 1
a
1
a
1
a
1 1
· · ·

·
α −
·
( )
0064 , 0
264
7199 , 1
x x
s
s
i
2
i
2
u 2
a
i
· ·

·

( )
7199 , 1
2 15
35 , 22
1 k n
yˆ y
s
i
2
i i
2
u
·

·
− −

·

k – reprezintă numărul variabilelor factoriale (în cazul modelului unifactorial k
= 1).
25
15
375
15
x
x
15
1 i
i
· · ·

·
Pentru un prag de semnificaţie de 5% valoarea tabelată a testului este:
t
0,05/2; 13
= t
0,025; 13
= 1,35
Testarea semnificaţiei parametrului α
0
:
1) se stabileşte ipoteza nulă: H
0
: α
0
= 0;
2) se stabileşte ipoteza alternativă: H
1
: α
0
≠ 0;
3) se calculează testul statistic:
84 , 0
096 , 2
73 , 1
s
a
s
0 a
s
a
t
0 0 0
a
0
a
0
a
1 0
− ·

· ·

·
α −
·
( )
186 , 4
264
25
15
1
71 , 1
x x
x
n
1
s s
i
2
i
2
2
u
2
a
0
·
1
]
1

¸

+ ·
1
1
1
1
]
1

¸


+ ·

35 , 1 t 84 , 0 t
2 n ; 2 / calc
− · − > − ·
− α ⇒se acceptă ipoteza nulă, adică parametrul
a
0
nu este semnificativ statistic.
c) Erorile reziduale sunt
i i i
yˆ y u − ·
şi sunt prezentate în tabelul de mai jos:
ui -14,99 -27,57 -0,91 18,38 16,58 7,37 5,03
-20,62 9,90 27,22 -19,95 -17,48 -5,09 5,42 16,70
d) Testarea validităţii modelului de regresie:
1) se stabileşte ipoteza nulă: H
0
: împrăştierea valorilor
t

datorate factorului nu
diferă semnificativ de împrăştierea aceloraşi valori datorate întâmplării, deci modelul nu
este valid.
2) se stabileşte ipoteza alternativă: H
1
: modelul este valid;
3) se calculează testul F:
3 , 46
71 , 1
64 , 79
s
s
F
2
u
2
x
· · ·
( )
64 , 79
1
64 , 79
k
y yˆ
s
i
2
i
2
x
· ·

·

( )
71 , 1
2 15
35 , 22
1 k n
yˆ y
s
i
2
i i
2
u
·

·
− −

·

12
15
180
15
y
y
15
1 i
i
· · ·

·
67 , 4 F F F
13 , 1 ; 05 , 0 1 k n ; calc
· · ·
− − α
Deoarece F
calc
> F
tab
⇒ modelul este valid.
e) Intensitatea legăturii dintre cele două variabile se face cu coeficientul de
corelaţie liniară:
( ) [ ] ( ) [ ]
[ ][ ]
0 1 88 , 0
180 2262 15 375 9639 15
180 375 4645 15
y y n x x n
y x y x n
r
2 2
2
i
2
i
2
i
2
i
i i i i
> → ·
− ⋅ − ⋅
⋅ − ⋅
·
·
− −
⋅ −
·
∑ ∑ ∑ ∑
∑ ∑ ∑
Rezultă că între cele două variabile există o legătură directă foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie:
- se stabileşte ipoteza nulă: H
0
: ρ nu este semnificativ statistic;
- se stabileşte ipoteza alternativă: H
1
: ρ este semnificativ statistic;
- se calculează testul t:
75 , 6
88 , 0 1
13 88 , 0
r 1
2 n r
s
r
t
2 2
r
·


·


· ·
16 , 2 t t t
13 ; 05 , 0 1 k n ; calc
· · >
− − α ⇒
Coeficientul de corelaţie este semnificativ statistic.
Măsurarea intensităţii legăturii cu raportul de corelaţie R:
( )
( )
88 , 0
y y
y yˆ
R
n
1 i
2
i
n
1 i
2
i
·


·


·
·
Deoarece R = r = 0,88, apreciem că există o legătură liniară, puternică şi directă
între cele două variabile.
Testarea raportului de corelaţie se face cu testul F:
09 , 46
1
13
78 , 0 1
78 , 0
k
1 k n
R 1
R
F
2
2
· ⋅

·
− −


·
Cum:
67 , 4 F F
13 ; 1 ; 05 , 0 calc
· >

R este semnificativ statistic.
f)
12 ~ 45 , 11 24 5492 , 0 73 , 1 yˆ
1 n
· ⋅ + − ·
+
poliţe (aceasta este estimarea punctuală).
Pentru estimarea pe interval de încredere vom avea:
1 n 1 n
yˆ 1 k n ; 2 / 1 n 1 n yˆ 1 k n ; 2 / 1 n
s t yˆ y s t yˆ
+ +
⋅ + ≤ ≤ ⋅ −
− − α + + − − α +
35 , 1 t 12 y 35 , 1 t 12
13 ; 025 , 0 1 n 13 ; 025 , 0
⋅ + ≤ ≤ ⋅ −
+
( )
( )
82 , 1
264
) 25 24 (
15
1
1 71 , 1
x x
x x
n
1
1 s s
2
i
2
i
2
1 n 2
u
2

1 n
·
1
1
]
1

¸


+ + ·
1
1
1
1
]
1

¸



+ + ·

+
+

35 , 1 s
1 n

·
+
8225 , 13 y 1775 , 10
1 n
≤ ≤
+
Intervalul de încredere pentru numărul de poliţe încheiate este:
14 y 10
1 n
≤ ≤
+
Rezolvarea problemei cu ajutorul programului informatic EXCEL :
Se selectează din meniul principal opţiunea Tools, apoi Data Analysis, apoi
Regression şi se deschide următoarea fereastră:
şi se obţin următoarele rezultate:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R
Square
0.763923
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.640152 46.302727 0.000013
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.000000
Coefficient
s
Standard
Error
t Stat P-value Lower
95%
Upper
95%
Intercept -1.731061 2.046120 -0.846021 0.412843 -6.151434 2.689313
X Variable 1 0.549242 0.080716 6.804611 0.000013 0.374866 0.723619
RESIDUAL OUTPUT
Observation Predicted
Y
Residuals
1.000000 12.000000 -2.000000
2.000000 10.901515 0.098485
3.000000 14.746212 -0.746212
4.000000 12.000000 0.000000
5.000000 9.253788 -1.253788
6.000000 16.393939 1.606061
7.000000 8.155303 0.844697
8.000000 9.803030 0.196970
9.000000 10.352273 -0.352273
10.000000 14.746212 0.253788
11.000000 12.549242 -1.549242
12.000000 12.549242 2.450758
13.000000 13.098485 -1.098485
14.000000 14.196970 -0.196970
15.000000 9.253788 1.746212
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
Regression Statistics
Multiple R
Raportul de corelatie (R)
0.883621
( )
( )
( )
( )




·
·
·
·


− ·


·
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
n
1 i
2
i
y y
yˆ y
1
y y
y yˆ
x , Ry
R Square
Coeficientul (gradul ) de
determinaţie
0.780786
( )
( )


·
·


·


− ·


·
n
1 i
2
i
n
1 i
2
i
2
y
2
e
2
y
2
x / y
2
y y
y yˆ
1 R
Adjusted R Square
Valoarea ajustată a
coeficientului de
determinaţie
0.763923
1 n /
1 k n /
1 R
2
y
2
u
2
− ∆
− − ∆
− ·
Standard Error
Abaterea medie pătratică a
erorilor în eşantion
1.311483
( )
2 n
yˆ y
2 n
s
n
1 i
2
i i
2
u
u


·


·

·
Observations
Numărul observaţiilor (n)
15
Tabel 2.
ANOVA
Sursa
variaţiei
df
(grade de
libertate)
SS (varianţa)
(suma pătratelor)
MS =SS/df
(media pătratelor)
(dispersia
corectată)
F Significance F
Regression
(variaţia
datorată
regresiei)
1 (k)
SSR=
( )

·
− · ∆
n
1 i
2
i
2
x
y yˆ
=
79.640152
k
s
2
x 2
x

·
=
79.640152
Testul
F=46.302727
F=
2
x
s /
2
u
s
0.000013<
0.05
(resping H0 –
model valid)
Residual
(variaţia
reziduală)
13 (n-k-1)
SSE= ( )

·
− · ∆
n
1 i
2
i i
2
u
yˆ y
= 22.359848
1 k n
s
2
u 2
u
− −

·
=
1.719988
Total
(variaţia
totală)
14 (n-1)
SST= ( )

·
− · ∆
n
1 i
2
i
2
y
y y
= 102.000000
SST=SSR + SSE

1 n
s
2
y
2
y


·

Tabel 3

Coefficients
(Coeficienţi)
Standard
Error
(Abaterea
medie
patratică)
t Stat P-value Lower 95% Upper 95%
Limita inf.
a
intervalului
de încredere
Limita sup. a
intervalului
de încredere
Intercept
(termenul
liber)
a0= -1.731061
0
a
s

=2.046120
0
a
t
= -0.846021
0.412843
> 0,05
-6.151434 2.689313
Timpul
mediu
a1 = 0.549242
1
a
s

=0.080716
1 a
t
= 6.804611
0.000013
< 0,05
0.374866 0.723619
Tabel 4.
RESIDUAL OUTPUT
Observation
Predicted
i

Numărul de poliţe
Residuals
i i
y y ˆ −
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT :
 R= 0.883621 arată că între numărul de poliţe încheiate şi timpul mediu petrecut
cu un potenţial client există o legătură puternică.
 R
2
=0.780786 arată că 78% din variaţia numărului de poliţe încheiate este
explicată de timpul mediu petrecut de un agent cu un potenţial client.
 Abaterea medie patratica a erorilor
u
s
= 1.311483. În cazul în care acest
indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA :
În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât
F=46.302727, iar Significance F (pragul de semnificatie) este 0.000013 (valoare mai
mica de 0.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru
analiza dependenţei dintre cele două variabile.
Interpretarea rezultatelor din tabelul 4:
 Intercept este termenul liber, deci coeficientul a
0
este -1.731061. Termenul liber
este punctul în care variabila explicativă (factorială) este 0. Deci numărul de
poliţe încheiate, dacă timpul petrecut este 0. Deoarece
0
a
t
= -0.846021iar pragul
de semnificaţie P-value este 0.412843>0,05 înseamnă că acest coeficient este
nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere
(-6.151434
≤ ≤
α0 2.689313) pentru acest parametru este negativă, iar limita
superioară este pozitivă arată că parametrul din colectivitatea generală este
aproximativ zero.
 Coeficientul a
1
este 0.549242, ceea ce însemnă că la creşterea timpului petrecut cu
un minut, numărul de poliţe încheiate va creşte cu 0,549242. Deoarece
1 a
t
=
6.804611 iar pragul de semnificaţie P-value este 0.000013<0,05 înseamnă că
acest coeficient este semnificativ. Intervalul de încredere pentru acest parametru
este 0.374866 ≤ ≤
1
α 0.723619.
2. În tabelul următor avem informaţii privind veniturile obţinute de 20 de
gospodării selectate aleator şi taxele plătite de către aceste gospodării:
Venitul
(mii euro)
x
Taxele
(euro)
y
Venitul
(mii euro)
x
Taxele
(euro)
y
17,5
37,5
47,5
25,0
55,5
35,0
15,5
12,0
32,0
42,3
35,0
60,5
88,5
70,5
125,0
63,0
30,0
30,0
65,0
80,0
28,0
22,5
25,0
29,5
65,0
51,0
39,3
33,0
45,0
75,0
75,0
70,0
60,0
65,0
150,0
100,0
75,0
40,0
75,0
200,0
Se cere:
a) să se specifice modelul econometric ce descrie legătura dintre cele două
variabile;
b) să se estimeze parametrii modelului;
c) să se verifice ipotezele metodei celor mai mici pătrate;
d) să se verifice semnificaţia parametrilor modelului de regresie pentru α = 0,1;
e) să se testeze validitatea modelului de regresie;
f) să se testeze intensitatea legăturii dintre cele două variabile şi să se testeze
semnificaţia indicatorilor utilizaţi;
g) să se estimeze punctual şi pe interval de încredere nivelul taxelor care trebuie
plătite dacă venitul este de 40 mii euro pentru o probabilitate de 95%.
Rezolvare:
a) Se va reprezenta grafic legătura dintre nivelul taxelor şi venit pentru cele 20 de
gospodării prin corelogramă sau diagrama norului de puncte:
0
20
40
60
80
100
120
140
160
180
200
220
0 10 20 30 40 50 60 70 80
OY
xi
OX
yi
1 cm OX = 10 mii euro ; 1 cm OY = 20 euro
Din grafic se poate observa că distribuţia punctelor (x
i
, y
i
) poate fi aproximată cu o
dreaptă, deci modelul econometric care descrie legătura dintre cele două variabile este un
model liniar:
u x y
1 0
+ α + α ·
α0, α1 – parametrii modelului;
α
1
> 0 (panta dreptei) deoarece legătura dintre cele două variabile este directă.
b) Pentru estimarea parametrilor modelului de regresie utilizăm metoda celor mai
mici pătrate:
20 , 1 i u x a a y
i 1 0
i
· + + ·
i 1 0
i
x a a yˆ + ·
( ) ( ) ⇔ − − ⇔ −
∑ ∑
min x a a y min yˆ y
i
2
i 1 0 i
i
2
i i
¹
'
¹
· ⋅ + ⋅
· +
68864 53 , 31991 a 1 , 733 a
5 , 1557 a 1 , 733 a 20
1 0
1 0

¹
'
¹
·
− ·
2997 , 2 a
4201 , 6 a
1
0
Deci, modelul este:
i
i
x 2997 , 2 4201 , 6 yˆ + − ·
2997 , 2
53 , 31991 1 , 733
1 , 733 20
68864 1 , 733
5 , 1557 20
x x
x n
y x x
y n
a
2
i
i
i
i i i
i
1
· · ·
∑ ∑

∑ ∑

4201 , 6 x a y a
1 0
− · ⋅ − ·
c) Ipotezele metodei celor mai mici pătrate:
c
1
) Variabilele observate nu sunt afectate de erori de măsură.
Această ipoteză se poate verifica cu ajutorul următoarelor relaţii:
x i x
s 3 x x s 3 x + < < −
y i y
s 3 y y s 3 y + < < −
unde:
( )
99 , 15
20
74 , 5119
n
x x
s
n
1 i
2
i
x
· ·

·

·
( )
07 , 40
20
44 , 32116
n
y y
s
n
1 i
2
i
y
· ·

·

·
655 , 36
20
1 , 733
20
x
n
x
x
20
1 i
i
n
1 i
i
· · · ·
∑ ∑
· ·
875 , 77
20
5 , 1557
20
y
y
20
1 i
i
· · ·

·
99 , 15 3 655 , 36 x 99 , 15 3 655 , 36
i
⋅ + < < ⋅ −
625 , 84 x 315 , 11
i
< < −
(adevărat)
07 , 40 3 875 , 77 y 07 , 40 3 875 , 77
i
⋅ + < < ⋅ −
085 , 201 y 335 , 42
i
< < −
(adevărat)
Ipoteza poate fi acceptată fără nici un dubiu.
c
2
) Variabila aleatoare (reziduală) u este medie nulă şi dispersia variabilei reziduale
este constantă şi independentă de variabila factorială (ipoteza de homoscedasticitate).
Ipoteza de homoscedasticitate poate fi verificată cu metoda grafică (corelograma).
Se reprezintă grafic pe axa OX valorile variabilei factoriale x, iar pe axa OY se
reprezintă valorile variabilei reziduale u.
Va trebui să calculăm valorile variabilei reziduale:
i i i
yˆ y u − ·
Rezultatele sunt prezentate în tabelul de mai jos:
i

i
u
33,82
79,82
102,82
51,07
121,21
74,07
29,23
21,18
67,17
90,86
57,97
45,32
51,07
61,42
143,06
110,86
83,96
69,47
97,07
166,06
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80
OY
xi
OX
ui
Deoarece graficul punctelor prezintă o evoluţie oscilantă putem accepta ipoteza că
variabila factorială şi cea reziduală sunt independente.
c
3
) Valorile variabilei reziduale nu sunt autocorelate, adică sunt independente între
ele:
Verificarea acestei ipoteze se poate face prin:
- metoda grafică (corelograma);
- testul Durbin-Warson.
Prin metoda grafică se construieşte corelograma trecându-se pe axa OX valorile
variabilei rezultative y
i
, iar pe axa OY valorile variabilei reziduale:
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80 100 120 140 160 180
OY
yi
OX
ui
Distribuţia erorilor este oscilantă, adică nu avem alternativă sistematică sub formă
de dinţi de fierăstrău, deci putem accepta ipoteza că erorile sunt independente, adică nu
sunt autocorelate.
Testarea ipotezei cu ajutorul testului Durbin-Watson:
- se stabileşte ipoteza nulă:
H
0
: variabila reziduală nu este autocorelată.
- se stabileşte ipoteza alternativă:
H
1
: variabila reziduală este autocorelată.
- se calculează testul Durbin-Watson:
( )
48 , 1
26 , 5040
87 , 7508
u
u u
d
n
1 i
2
i
n
1 i
2
1 i i
calc
· ·

·


·
·

Pentru a efectua calculul lui d vom prezenta rezultatele intermediare în următorul
tabel:
i
u
1 i
u

( )
2
1 i i
u u


2
i
u
1,18
-19,32
-
1,18
-
420,19
1,38
373,21
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
25,04
1138,90
244,71
220,80
140,30
64,86
120,79
75,47
777,77
58,47
248,14
28,63
11,29
317,00
3,62
420,66
54,81
3137,41
204,94
377,43
14,34
122,53
0,60
77,86
4,71
117,88
289,97
608,95
79,70
12,81
48,16
118,04
80,25
868,48
486,93
1152,10
7508,87 5040,26
- se compară d
calc
cu cele două valori d
1
şi d
2
din tabelul testului Durbin-Watson
pentru pragul de semnificaţie α = 0,05 pentru numărul variabilelor exogene k = 1 şi
pentru n = 20:
d1 = 1,20 d2 = 1,41
2 calc 2
d 4 d d − < <
59 , 2 48 , 1 41 , 1 < <
⇒erorile sunt independente.
Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat şi
coeficientul de autocorelaţie de ordinul I:
14 , 0
26 , 5040
41 , 709
u
u u
r
n
1 i
2
i
n
1 i
1 i i
1
· ·

·


·
·

Deoarece r
1
este apropiat de 0 putem aprecia că valorile variabilei reziduale nu sunt
autocorelate, adică sunt independente.
c
4
) Valorile variabilei reziduale sunt normal distribuite:
Pentru a testa această ipoteză se foloseşte metoda grafică (corelograma). Pe axa OX
se reprezintă valorile ajustate
i

, iar pe axa OY se reprezintă valorile variabilei reziduale:
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80 100 120 140 160 180
OY
OX
ui
Se observă că valorile reziduale u
i
se înscriu în banda construită, deci putem
accepta ipoteza de normalitate a erorilor pentru un prag de semnificaţie de α = 0,05.
d) Testarea semnificaţiei parametrilor modelului
Testarea semnificaţiei parametrului α
0
:
- se stabileşte ipoteza nulă:
H
0
: α
0
= 0
- se stabileşte ipoteza alternativă:
H
1
: α
0
≠ 0
- se calculează testul t:
15 , 0
82 , 41
4201 , 6
s
a
t
0
a
0
− ·

· ·
( )
68 , 1449
75 , 5119
53 , 31991
01 , 280
x x
x
s s
i
2
i
i
2
i
2
u
2
a
0
· ⋅ ·

⋅ ·


( )
01 , 280
18
26 , 5040
2 n
yˆ y
s
i
2
i i
2
u
· ·


·

- se compară t
calc
cu t
α/2; n-2
= t
0,05; 15
= 2,101
Deoarece 18 ; 05 , 0 calc
t t <
⇒este foarte probabil ca estimatorul a
0
să provină dintr-o
colectivitate cu α
0
= 0 deci α
0
nu este diferit semnificativ de zero.
Testarea semnificaţiei parametrului α
1
:
- se stabileşte ipoteza nulă: H
0
: α
1
= 0
- se stabileşte ipoteza alternativă: H
1
: α
1
≠ 0
- se calculează testul t:
99 , 9
23 , 0
2997 , 2
s
a
t
1
a
1
· · ·
+ t
0,05; 18⋅ su
- t
0,05; 18⋅ su
i

( )
05 , 0
75 , 5119
01 , 280
x x
s
s
20
1 i
2
i
2
u 2
a
1
· ·

·

·
- se compară t
calc
cu t
α/2; n-2
= t
0,05; 18
= 2,101
Deoarece 18 ; 05 , 0 calc
t t >
⇒apreciem că parametrul α
1
este semnificativ statistic.
Intervalul de încredere pentru parametrul α
1
este:
1 1
a 2 n ; 2 / 1 1 a 2 n ; 2 / 1
s t a s t a ⋅ + ≤ α ≤ ⋅ −
− α − α
23 , 0 101 , 2 2997 , 2 23 , 0 101 , 2 2997 , 2
1
⋅ + ≤ α ≤ ⋅ −
78293 , 2 81647 , 1
1
≤ α ≤
e) Testarea validităţii modelului de regresie:
- se stabileşte ipoteza nulă: H
0
: modelul nu este valid.
- se stabileşte ipoteza alternativă: H
1
: modelul este valid;
- se calculează testul F:
69 , 96
01 , 280
18 , 27076
s
s
F
2
u
2
x
· · ·
( )
18 , 27076
1
18 , 27076
k
y yˆ
s
20
1 i
2
i
2
x
· ·

·

·
- se compară F
calc
cu F
α; k; n-k-1
= F
0,1; 1; 18
= 8,28
18 ; 1 ; 1 , 0 calc
F 69 , 96 F > ·
⇒se respinge ipoteza nulă şi se acceptă alternativa,
deci modelul este valid.

f) Intensitatea legăturii dintre cele două variabile se apreciază cu ajutorul:
- coeficientului de corelaţie;
- raportului de corelaţie.
Coeficientul de corelaţie:
918 , 0
y y n x x n
y x y x n
r
2
i
i
i
2
i
2
i
i
i
2
i
i
i
i
i
i
i i
x / y
·
1
1
]
1

¸

,
_

¸
¸

1
1
]
1

¸

,
_

¸
¸

⋅ −
·
∑ ∑ ∑ ∑
∑ ∑ ∑
Deoarece r
y/x
= 0,918 →1, apreciem că între cele două variabile există o legătură
liniară, directă, foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie pentru colectivitatea generală:
- se stabileşte ipoteza nulă: H
0
: ρ = 0 (ρ nu este semnificativ statistic);
- se stabileşte ipoteza alternativă: H
1
: ρ ≠ 0 (ρ este semnificativ statistic);
ρ - coeficientul de corelaţie la nivelul colectivităţii generale
- se calculează testul t:
82 , 9
918 , 0 1
18 918 , 0
r 1
2 n r
t
2 2
calc
·


·


·
- se compară
calc
t
cu
878 , 2 t t
18 ; 1 , 0 2 n ;
· ·
− α
Deoarece 18 ; 1 , 0 calc
t t >
⇒ respingem ipoteza nulă şi acceptăm alternativa, deci
coeficientul de corelaţie este semnificativ statistic.
Raportul de corelaţie R:
( )
( )
918 , 0
44 , 32116
26 , 5040
1
y y
yˆ y
1 R
1 i
2
i
1 i
2
i i
· − ·


− ·


·
·
Deoarece R = r
y/x
, apreciem că între cele două variabile există, într-adevăr,
o legătură liniară.
Testarea semnificaţiei raportului de corelaţie:
- se stabileşte ipoteza nulă: H
0
: R nu este semnificativ statistic;
- se stabileşte ipoteza alternativă: H
1
: R este semnificativ statistic;
- se calculează testul F:
5 , 94
918 , 0 1
918 , 0
1
18
R 1
R
k
1 k n
F
2
2
2
2
calc
·

⋅ ·


− −
·
- se compară
calc
F
cu
28 , 8 F F
18 ; 1 ; 1 , 0 1 k n ; k ;
· ·
− − α
Deoarece 18 ; 1 ; 1 , 0 calc
F F >
⇒se respinge ipoteza nulă şi se acceptă alternativa, deci
raportul de corelaţie este semnificativ statistic.
g)
5679 , 85 40 2997 , 2 4201 , 6 yˆ
1 n
· ⋅ + − ·
+
euro (estimarea punctuală)
Pentru estimarea pe interval de încredere vom avea:
1 n 1 n
yˆ 1 k n ; 2 / 1 n 1 n yˆ 1 k n ; 2 / 1 n
s t yˆ y s t yˆ
+ +
⋅ + ≤ ≤ ⋅ −
− − α + + − − α +
16 , 17 t 5679 , 85 y 16 , 17 t 5679 , 85
552 , 2 18 ; 025 , 0 1 n 552 , 2 18 ; 025 , 0
⋅ + ≤ ≤ ⋅ −
· + ·
( )
( )
59 , 294
75 , 5119
) 655 , 36 40 (
20
1
1 01 , 280
x x
x x
n
1
1 s s
2
n
1 i
2
i
2
1 n 2
u
2

1 n
·
1
1
]
1

¸


+ + ·
1
1
1
1
1
]
1

¸



+ + ·

·
+
+

Deci, intervalul de încredere pentru taxele plătite pentru un venit de 40 mii euro la
nivelul populaţiei este:
) euro ( 36 , 129 y ) euro ( 77 , 41
1 n
≤ ≤
+
Rezolvarea problemei cu ajutorul programului informatic EXCEL:
Se selectează din meniul principal opţiunea Tools, apoi Data Analysis, apoi
Regression şi se va deschide următoarea fereastră:
şi se obţin următoarele rezultate
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.9181845
88
R Square
0.8430629
37
Adjusted R
Square
0.8343442
12
Standard
Error
16.733631
08
Observations 20
ANOVA

df SS MS F
Significanc
e F
Regression 127076.17814
27076.1
8 96.69566
1.15588E-
08
Residual 185040.259363
280.014
4
Total 19 32116.4375

Coefficient
s
Standard
Error t Stat P-value
Lower
95%
Upper
95%
Intercept -9.353374888 -0.6864 0.501209 - 13.23058
6.4201424
8
26.070869
14
X Variable 1
(Venitul)
2.2996901
510.233865325
9.83339
5 1.16E-08
1.8083569
55 2.791023
RESIDUAL OUTPUT
Observation
Predicted
Y Residuals
1
33.824435
16 1.17556484
2
79.818238
18
-
19.31823818
3
102.81513
97
-
14.31513969
4
51.072111
2919.42788871
5
121.21266
093.787339107
6
74.069012
8 -11.0690128
7
29.225054
860.774945141
8
21.176139
338.823860669
9
67.169942
35
-
2.169942348
10
90.856750
9 -10.8567509
11
57.971181
7417.02881826
12
45.322885
9124.67711409
13
51.072111
298.927888708
14
61.420716
973.579283029
15
143.05971
736.940282674
16
110.86405
52
-
10.86405521
17
83.957680
45
-
8.957680449
18
69.469632
5 -29.4696325
19
97.065914
31
-
22.06591431
20
166.05661
8833.94338117
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
Regression Statistics
Multiple R
Raportul de corelaţie
(R)
0.91818458
8
( )
( )
( )
( )




·
·
·
·


− ·


·
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
n
1 i
2
i
y y
yˆ y
1
y y
y yˆ
x , Ry
R Square
Coeficientul (gradul ) de
determinaţie
0.84306293
7
( )
( )


·
·


·


− ·


·
n
1 i
2
i
n
1 i
2
i
2
y
2
e
2
y
2
x / y
2
y y
y yˆ
1 R
Adjusted R Square
Valoarea ajustată a
coeficientului de
determinaţie
0.83434421
2
1 n /
1 k n /
1 R
2
y
2
u
2
− ∆
− − ∆
− ·
Standard Error
Abaterea medie
pătratică a erorilor în
eşantion
16.7336310
8
( )
2 n
yˆ y
2 n
s
n
1 i
2
i i
2
u
u


·


·

·
Observations
Numărul observaţiilor
(n)
20
Tabel 2.
ANOVA
Sursa
variaţiei
df
(grade de
libertate)
SS (varianţa)
(suma pătratelor)
MS =SS/df
(media pătratelor)
(dispersia
corectată)
F
Significance
F
Regression
(variaţia
datorată
regresiei)
1 (k)
SSR= ( ) ∑ − · ∆
·
n
i
i x
y y
1
2
2
ˆ
=
27076.17814
k
s
x
x
2
2

· =
27076.18
Testul
F=96.69566
F=
2
x
s /
2
u
s
1.15588E-
08< 0.05
(resping H0
– model
valid)
Residual
(variaţia
reziduală)
18 (n-k-1)
SSE= ( ) ∑ − · ∆
·
n
i
i i u
y y
1
2 2
ˆ =
5040.259363
1
2
2
− −

·
k n
s
u
u
=
280.0144
Total
(variaţia
totală)
19 (n-1)
SST= ( ) ∑ − · ∆
·
n
1 i
2
i
2
y
y y =
32116.4375
SST=SSR + SSE
1
2
2


·
n
s
y
y

Tabel 3.
Coefficients
(Coeficienţi)
Standard Error
(Abaterea medie
patratică)
t Stat P-value Lower 95% Upper 95%
Limita inf. a
intervalului de
încredere
Limita sup.
a
intervalului
de încredere
Intercept
(termenul
liber)
a0=
-6.42014248
0
a
s
=
9.353374888
0
a
t
=
-0.6864
0.501209>0,05 -26.07086914 13.23058
Venitul
a1 =
2.299690151
1
a
s
=
0.233865325
1 a
t
=
9.833395
1.16E-08<0,05 1.808356955 2.791023
Tabel 4.
RESIDUAL OUTPUT
Observation
Predicted
i

taxe plătite
Residuals
i i
y y ˆ −
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT :
 R= 0.918184588 arată că între impozitele plătite şi venitul anual, există o legătură
puternică.
 R
2
=0.843062937 arată că 84% din variaţia impozitelor este explicată de venit
 Abaterea medie patratica a erorilor
u
s
= 16.73363108. În cazul în care acest
indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA :
În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât
F=96.69566, iar Significance F (pragul de semnificaţie) este 1.15588E-08 (valoare mai
mica de 0.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru
analiza dependenţei dintre cele două variabile.
Interpretarea rezultatelor din tabelul 4:
 Intercept este termenul liber, deci coeficientul a
0
este -6.42014248. Termenul
liber este punctul în care variabila explicativă (factorială) este 0. Deci impozitele
care ar trebui plătite, dacă nu s-ar obţine nici un venit. Deoarece
0
a
t
= -0.6864 iar
pragul de semnificaţie P-value este 0.501209>0,05 înseamnă că acest coeficient
este nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere
(-26.07086914
≤ ≤
α0 13.23058) pentru acest parametru este negativă, iar limita
superioară este pozitivă arată că parametrul din colectivitatea generală este
aproximativ zero.
Coeficientul a
1
este 2.299690151, ceea ce însemnă că la creşterea venitului cu o mie euro,
taxele vor creşte cu 2,299690151 euro. Deoarece
1 a
t
= 9.833395 iar pragul de semnificaţie
P-value este 1.16E-08<0,05 înseamnă că acest coeficient este semnificativ. Intervalul de
încredere pentru acest parametru este 1.808356955 ≤ ≤
1
α 2.791023

Sign up to vote on this title
UsefulNot useful