1.

În tabelul următor avem date referitoare la 15 agenţi de asigurări angajaţi ai unei
companii de asigurări de viaţă şi anume: timpul mediu, în minute, petrecut de un agent cu
un potenţial client şi numărul de poliţe încheiate într-o săptămână. Dacă X reprezintă
timpul mediu, iar Y reprezintă numărul de poliţe, avem datele sistematizate astfel:
X Y
25
23
30
25
20
33
18
21
22
30
26
26
27
29
20
10
11
14
12
8
18
9
10
10
15
11
15
12
14
11
Se cere:
a) să se estimeze parametrii modelului liniar de regresie;
b) să se testeze semnificaţia parametrilor modelului pentru un prag de semnificaţie
α = 5%;
c) să se determine erorile reziduale;
d) să se testeze validitatea modelului de regresie pentru un nivel de semnificaţie α
= 5%;
e) măsuraţi intensitatea legăturii dintre cele două variabile folosind un indicator
adecvat şi testaţi semnificaţia acestuia pentru un nivel de încredere de 0,5%;
f) efectuaţi o previzionare punctuală şi pe interval de încredere a numărului de
poliţe încheiate de un agent care petrece în medie 24 de minute cu un potenţial
client.
Rezolvare:
Pentru a determina forma modelului de regresie se va construi corelograma:
6
8
10
12
14
16
16 18 20 22 24 26 28 30 32 34
OY
timpul mediu
OX
numar polite
1 cm OY = 5 poliţe
1 cm OX = 2 minute
a)
i 1 0
i
x a a yˆ + ·
Parametrii a şi b se determină cu ajutorul metodei celor mai mici pătrate:
( ) ( ) ⇔ − − ⇔ −
∑ ∑
min x a a y min yˆ y
i
2
i 1 0 i
i
2
i i
¹
¹
¹
¹
¹
'
¹
· +
· +
∑ ∑ ∑
∑ ∑
· · ·
· ·
n
1 i
i i
n
1 i
2
i
1
n
1 i
i 0
n
1 i
i
n
1 i
i 1 0
y x x a x a
y x a na
15 n ·
Pentru a rezolva sistemul vom folosi următorul tabel în care sunt prezentate valorile
intermediare:
i
x
i
y
2
i
x
i i
y x
2
i
y
( )
2
i
y y − ( )
2
i
x x −
25
23
30
25
20
33
18
21
22
30
26
26
27
29
20
10
11
14
12
8
18
9
10
10
15
11
15
12
14
11
625
529
900
625
400
1089
324
441
484
900
676
676
729
841
400
250
253
420
300
160
594
162
210
220
450
286
390
324
406
220
100
121
196
144
64
324
81
100
100
225
121
225
144
196
121
4
1
4
0
16
36
9
4
4
9
1
9
0
4
1
0
4
25
0
25
64
49
16
9
25
1
1
4
16
25
375
x
i
·

180
y
i
·

9639
x
2
i
·

4645
y x
i i
·

2262
y
2
i
·

102 264
¹
'
¹
· ⋅ + ⋅
· ⋅ +
4645 9639 a 375 a
180 375 a a 15
1 0
1 0

¹
'
¹
·
− ·
5492 , 0 a
73 , 1 a
1
0
Deci:
i
i
x 5492 , 0 73 , 1 yˆ ⋅ + − ·
b) Testarea semnificaţiei parametrilor modelului:
Ecuaţia de regresie la nivelul colectivităţii generale este:
i
i 1 0
i
u x y + α + α ·
iar la nivelul eşantionului este:
i
i 1 0
i
u x a a y + + ·
Testarea semnificaţiei parametrului α
1
:
1) se stabileşte ipoteza nulă:
H
0
: α
1
= 0
2) se stabileşte ipoteza alternativă:
H
1
: α
1
≠ 0, adică α
1
este semnificativ diferit de zero, adică α
1
este
semnificativ statistic.
3) se calculează testul statistic:
deoarece n = 15 < 30 avem eşantion de volum redus şi pentru testare vom utiliza
testul t:
8 , 6
08 , 0
5492 , 0
s
a
s
0 a
s
a
t
1 1 1
a
1
a
1
a
1 1
· · ·

·
α −
·
( )
0064 , 0
264
7199 , 1
x x
s
s
i
2
i
2
u 2
a
i
· ·

·

( )
7199 , 1
2 15
35 , 22
1 k n
yˆ y
s
i
2
i i
2
u
·

·
− −

·

k – reprezintă numărul variabilelor factoriale (în cazul modelului unifactorial k
= 1).
25
15
375
15
x
x
15
1 i
i
· · ·

·
Pentru un prag de semnificaţie de 5% valoarea tabelată a testului este:
t
0,05/2; 13
= t
0,025; 13
= 1,35
Testarea semnificaţiei parametrului α
0
:
1) se stabileşte ipoteza nulă: H
0
: α
0
= 0;
2) se stabileşte ipoteza alternativă: H
1
: α
0
≠ 0;
3) se calculează testul statistic:
84 , 0
096 , 2
73 , 1
s
a
s
0 a
s
a
t
0 0 0
a
0
a
0
a
1 0
− ·

· ·

·
α −
·
( )
186 , 4
264
25
15
1
71 , 1
x x
x
n
1
s s
i
2
i
2
2
u
2
a
0
·
1
]
1

¸

+ ·
1
1
1
1
]
1

¸


+ ·

35 , 1 t 84 , 0 t
2 n ; 2 / calc
− · − > − ·
− α ⇒ se acceptă ipoteza nulă, adică
parametrul a
0
nu este semnificativ statistic.
c) Erorile reziduale sunt
i i i
yˆ y u − ·
şi sunt prezentate în tabelul de mai jos:
ui -14,99 -27,57 -0,91 18,38 16,58 7,37 5,03
-20,62 9,90 27,22 -19,95 -17,48 -5,09 5,42 16,70
d) Testarea validităţii modelului de regresie:
1) se stabileşte ipoteza nulă: H
0
: împrăştierea valorilor
t

datorate factorului nu
diferă semnificativ de împrăştierea aceloraşi valori datorate întâmplării, deci modelul nu
este valid.
2) se stabileşte ipoteza alternativă: H
1
: modelul este valid;
3) se calculează testul F:
3 , 46
71 , 1
64 , 79
s
s
F
2
u
2
x
· · ·
( )
64 , 79
1
64 , 79
k
y yˆ
s
i
2
i
2
x
· ·

·

( )
71 , 1
2 15
35 , 22
1 k n
yˆ y
s
i
2
i i
2
u
·

·
− −

·

12
15
180
15
y
y
15
1 i
i
· · ·

·
67 , 4 F F F
13 , 1 ; 05 , 0 1 k n ; calc
· · ·
− − α
Deoarece F
calc
> F
tab
⇒ modelul este valid.
e) Intensitatea legăturii dintre cele două variabile se face cu coeficientul de
corelaţie liniară:
( ) [ ] ( ) [ ]
[ ][ ]
0 1 88 , 0
180 2262 15 375 9639 15
180 375 4645 15
y y n x x n
y x y x n
r
2 2
2
i
2
i
2
i
2
i
i i i i
> → ·
− ⋅ − ⋅
⋅ − ⋅
·
·
− −
⋅ −
·
∑ ∑ ∑ ∑
∑ ∑ ∑
Rezultă că între cele două variabile există o legătură directă foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie:
- se stabileşte ipoteza nulă: H
0
: ρ nu este semnificativ statistic;
- se stabileşte ipoteza alternativă: H
1
: ρ este semnificativ statistic;
- se calculează testul t:
75 , 6
88 , 0 1
13 88 , 0
r 1
2 n r
s
r
t
2 2
r
·


·


· ·
16 , 2 t t t
13 ; 05 , 0 1 k n ; calc
· · >
− − α ⇒
Coeficientul de corelaţie este semnificativ statistic.
Măsurarea intensităţii legăturii cu raportul de corelaţie R:
( )
( )
88 , 0
y y
y yˆ
R
n
1 i
2
i
n
1 i
2
i
·


·


·
·
Deoarece R = r = 0,88, apreciem că există o legătură liniară, puternică şi directă
între cele două variabile.
Testarea raportului de corelaţie se face cu testul F:
09 , 46
1
13
78 , 0 1
78 , 0
k
1 k n
R 1
R
F
2
2
· ⋅

·
− −


·
Cum:
67 , 4 F F
13 ; 1 ; 05 , 0 calc
· >

R este semnificativ statistic.
f)
12 ~ 45 , 11 24 5492 , 0 73 , 1 yˆ
1 n
· ⋅ + − ·
+
poliţe (aceasta este estimarea
punctuală).
Pentru estimarea pe interval de încredere vom avea:
1 n 1 n
yˆ 1 k n ; 2 / 1 n 1 n yˆ 1 k n ; 2 / 1 n
s t yˆ y s t yˆ
+ +
⋅ + ≤ ≤ ⋅ −
− − α + + − − α +
35 , 1 t 12 y 35 , 1 t 12
13 ; 025 , 0 1 n 13 ; 025 , 0
⋅ + ≤ ≤ ⋅ −
+
( )
( )
82 , 1
264
) 25 24 (
15
1
1 71 , 1
x x
x x
n
1
1 s s
2
i
2
i
2
1 n 2
u
2

1 n
·
1
1
]
1

¸


+ + ·
1
1
1
1
]
1

¸



+ + ·

+
+

35 , 1 s
1 n

·
+
8225 , 13 y 1775 , 10
1 n
≤ ≤
+
Intervalul de încredere pentru numărul de poliţe încheiate este:
14 y 10
1 n
≤ ≤
+
Rezolvarea problemei cu ajutorul programului informatic EXCEL:
Se selectează din meniul principal opţiunea Tools, apoi Data Analysis, apoi
Regression şi se deschide următoarea fereastră:
şi se obţin următoarele rezultate:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R
Square
0.763923
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.64015
2
46.30272
7
0.000013
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.00000
0
Coefficient
s
Standard
Error
t Stat P-value Lower
95%
Upper
95%
Intercept -1.731061 2.046120-0.846021 0.412843-6.151434 2.68931
3
X Variable 1 0.549242 0.080716 6.804611 0.000013 0.374866 0.72361
9
RESIDUAL OUTPUT
Observation Predicted
Y
Residuals
1.000000 12.000000 -2.000000
2.000000 10.901515 0.098485
3.000000 14.746212 -0.746212
4.000000 12.000000 0.000000
5.000000 9.253788 -1.253788
6.000000 16.393939 1.606061
7.000000 8.155303 0.844697
8.000000 9.803030 0.196970
9.000000 10.352273 -0.352273
10.000000 14.746212 0.253788
11.000000 12.549242 -1.549242
12.000000 12.549242 2.450758
13.000000 13.098485 -1.098485
14.000000 14.196970 -0.196970
15.000000 9.253788 1.746212
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
Regression Statistics
Multiple R
Raportul de corelatie (R)
0.883621
( )
( )
( )
( )




·
·
·
·


− ·


·
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
n
1 i
2
i
y y
yˆ y
1
y y
y yˆ
x , Ry
R Square
Coeficientul (gradul ) de
determinaţie
0.780786
( )
( )


·
·


·


− ·


·
n
1 i
2
i
n
1 i
2
i
2
y
2
e
2
y
2
x / y
2
y y
y yˆ
1 R
Adjusted R Square
Valoarea ajustată a
coeficientului de
determinaţie
0.763923
1 n /
1 k n /
1 R
2
y
2
u
2
− ∆
− − ∆
− ·
Standard Error
Abaterea medie pătratică a
erorilor în eşantion
1.311483
( )
2 n
yˆ y
2 n
s
n
1 i
2
i i
2
u
u


·


·

·
Observations
Numărul observaţiilor (n)
15
Tabel 2.
ANOVA
Sursa
variaţiei
df
(grade de
libertate)
SS (varianţa)
(suma pătratelor)
MS =SS/df
(media pătratelor)
(dispersia
corectată)
F Significance F
Regression
(variaţia
datorată
regresiei)
1 (k)
SSR=
( )

·
− · ∆
n
1 i
2
i
2
x
y yˆ
=
79.640152
k
s
2
x 2
x

·
=
79.640152
Testul
F=46.302727
F=
2
x
s /
2
u
s
0.000013<
0.05
(resping H0 –
model valid)
Residual
(variaţia
reziduală)
13 (n-k-1)
SSE=
( )

·
− · ∆
n
1 i
2
i i
2
u
yˆ y =
22.359848
1 k n
s
2
u 2
u
− −

·
=
1.719988
Total
(variaţia
totală)
14 (n-1)
SST=
( )

·
− · ∆
n
1 i
2
i
2
y
y y =
102.000000
SST=SSR + SSE

1 n
s
2
y
2
y


·

Tabel 3

Coefficients
(Coeficienţi)
Standard
Error
(Abaterea
medie
patratică)
t Stat P-value Lower 95% Upper 95%
Limita inf.
a
intervalului
de încredere
Limita sup. a
intervalului
de încredere
Intercept
(termenul
liber)
a0= -1.731061
0
a
s

=2.046120
0
a
t
=
-0.846021
0.412843
> 0,05
-6.151434 2.689313
Timpul
mediu
a1 = 0.549242
1
a
s

=0.080716
1 a
t
= 6.804611
0.000013
< 0,05
0.374866 0.723619
Tabel 4.
RESIDUAL OUTPUT
Observation
Predicted
i

Numărul de poliţe
Residuals
i i
y y ˆ −
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT :
 R= 0.883621 arată că între numărul de poliţe încheiate şi timpul mediu petrecut
cu un potenţial client există o legătură puternică.
 R
2
=0.780786 arată că 78% din variaţia numărului de poliţe încheiate este
explicată de timpul mediu petrecut de un agent cu un potenţial client.
 Abaterea medie patratica a erorilor u
s
= 1.311483. În cazul în care acest
indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA :
În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât
F=46.302727, iar Significance F (pragul de semnificatie) este 0.000013 (valoare mai
mica de 0.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru
analiza dependenţei dintre cele două variabile.
Interpretarea rezultatelor din tabelul 4:
 Intercept este termenul liber, deci coeficientul a
0
este -1.731061. Termenul liber
este punctul în care variabila explicativă (factorială) este 0. Deci numărul de
poliţe încheiate, dacă timpul petrecut este 0. Deoarece
0
a
t
= -0.846021iar pragul
de semnificaţie P-value este 0.412843>0,05 înseamnă că acest coeficient este
nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere
(-6.151434 ≤ ≤
α
0
2.689313) pentru acest parametru este negativă, iar limita
superioară este pozitivă arată că parametrul din colectivitatea generală este
aproximativ zero.
 Coeficientul a
1
este 0.549242, ceea ce însemnă că la creşterea timpului petrecut cu
un minut, numărul de poliţe încheiate va creşte cu 0,549242. Deoarece
1 a
t
=
6.804611 iar pragul de semnificaţie P-value este 0.000013<0,05 înseamnă că
acest coeficient este semnificativ. Intervalul de încredere pentru acest parametru
este 0.374866
≤ ≤
1
α
0.723619.
2. În tabelul următor avem informaţii privind veniturile obţinute de 20 de
gospodării selectate aleator şi taxele plătite de către aceste gospodării:
Venitul
(mii euro)
x
Taxele
(euro)
y
Venitul
(mii euro)
x
Taxele
(euro)
y
17,5
37,5
47,5
25,0
55,5
35,0
15,5
12,0
32,0
42,3
35,0
60,5
88,5
70,5
125,0
63,0
30,0
30,0
65,0
80,0
28,0
22,5
25,0
29,5
65,0
51,0
39,3
33,0
45,0
75,0
75,0
70,0
60,0
65,0
150,0
100,0
75,0
40,0
75,0
200,0
Se cere:
a) să se specifice modelul econometric ce descrie legătura dintre cele două
variabile;
b) să se estimeze parametrii modelului;
c) să se verifice ipotezele metodei celor mai mici pătrate;
d) să se verifice semnificaţia parametrilor modelului de regresie pentru α = 0,1;
e) să se testeze validitatea modelului de regresie;
f) să se testeze intensitatea legăturii dintre cele două variabile şi să se testeze
semnificaţia indicatorilor utilizaţi;
g) să se estimeze punctual şi pe interval de încredere nivelul taxelor care trebuie
plătite dacă venitul este de 40 mii euro pentru o probabilitate de 95%.
Rezolvare:
a) Se va reprezenta grafic legătura dintre nivelul taxelor şi venit pentru cele 20 de
gospodării prin corelogramă sau diagrama norului de puncte:
0
20
40
60
80
100
120
140
160
180
200
220
0 10 20 30 40 50 60 70 80
OY
xi
OX
yi
1 cm OX = 10 mii euro ; 1 cm OY = 20 euro
Din grafic se poate observa că distribuţia punctelor (x
i
, y
i
) poate fi aproximată cu o
dreaptă, deci modelul econometric care descrie legătura dintre cele două variabile este un
model liniar:
u x y
1 0
+ α + α ·
α 0, α 1 – parametrii modelului;
α
1
> 0 (panta dreptei) deoarece legătura dintre cele două variabile este directă.
b) Pentru estimarea parametrilor modelului de regresie utilizăm metoda celor mai
mici pătrate:
20 , 1 i u x a a y
i 1 0
i
· + + ·
i 1 0
i
x a a yˆ + ·
( ) ( ) ⇔ − − ⇔ −
∑ ∑
min x a a y min yˆ y
i
2
i 1 0 i
i
2
i i
¹
'
¹
· ⋅ + ⋅
· +
68864 53 , 31991 a 1 , 733 a
5 , 1557 a 1 , 733 a 20
1 0
1 0

¹
'
¹
·
− ·
2997 , 2 a
4201 , 6 a
1
0
Deci, modelul este:
i
i
x 2997 , 2 4201 , 6 yˆ + − ·
2997 , 2
53 , 31991 1 , 733
1 , 733 20
68864 1 , 733
5 , 1557 20
x x
x n
y x x
y n
a
2
i
i
i
i i i
i
1
· · ·
∑ ∑

∑ ∑

4201 , 6 x a y a
1 0
− · ⋅ − ·
c) Ipotezele metodei celor mai mici pătrate:
c
1
) Variabilele observate nu sunt afectate de erori de măsură.
Această ipoteză se poate verifica cu ajutorul următoarelor relaţii:
x i x
s 3 x x s 3 x + < < −
y i y
s 3 y y s 3 y + < < −
unde:
( )
99 , 15
20
74 , 5119
n
x x
s
n
1 i
2
i
x
· ·

·

·
( )
07 , 40
20
44 , 32116
n
y y
s
n
1 i
2
i
y
· ·

·

·
655 , 36
20
1 , 733
20
x
n
x
x
20
1 i
i
n
1 i
i
· · · ·
∑ ∑
· ·
875 , 77
20
5 , 1557
20
y
y
20
1 i
i
· · ·

·
99 , 15 3 655 , 36 x 99 , 15 3 655 , 36
i
⋅ + < < ⋅ −
625 , 84 x 315 , 11
i
< < −
(adevărat)
07 , 40 3 875 , 77 y 07 , 40 3 875 , 77
i
⋅ + < < ⋅ −
085 , 201 y 335 , 42
i
< < −
(adevărat)
Ipoteza poate fi acceptată fără nici un dubiu.
c
2
) Variabila aleatoare (reziduală) u este medie nulă şi dispersia variabilei reziduale
este constantă şi independentă de variabila factorială (ipoteza de homoscedasticitate).
Ipoteza de homoscedasticitate poate fi verificată cu metoda grafică (corelograma).
Se reprezintă grafic pe axa OX valorile variabilei factoriale x, iar pe axa OY se
reprezintă valorile variabilei reziduale u.
Va trebui să calculăm valorile variabilei reziduale:
i i i
yˆ y u − ·
Rezultatele sunt prezentate în tabelul de mai jos:
i

i
u
33,82
79,82
102,82
51,07
121,21
74,07
29,23
21,18
67,17
90,86
57,97
45,32
51,07
61,42
143,06
110,86
83,96
69,47
97,07
166,06
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80
OY
xi
OX
ui
Deoarece graficul punctelor prezintă o evoluţie oscilantă putem accepta ipoteza că
variabila factorială şi cea reziduală sunt independente.
c
3
) Valorile variabilei reziduale nu sunt autocorelate, adică sunt independente între
ele:
Verificarea acestei ipoteze se poate face prin:
- metoda grafică (corelograma);
- testul Durbin-Warson.
Prin metoda grafică se construieşte corelograma trecându-se pe axa OX valorile
variabilei rezultative y
i
, iar pe axa OY valorile variabilei reziduale:
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80 100 120 140 160 180
OY
yi
OX
ui
Distribuţia erorilor este oscilantă, adică nu avem alternativă sistematică sub formă
de dinţi de fierăstrău, deci putem accepta ipoteza că erorile sunt independente, adică nu
sunt autocorelate.
Testarea ipotezei cu ajutorul testului Durbin-Watson:
- se stabileşte ipoteza nulă:
H
0
: variabila reziduală nu este autocorelată.
- se stabileşte ipoteza alternativă:
H
1
: variabila reziduală este autocorelată.
- se calculează testul Durbin-Watson:
( )
48 , 1
26 , 5040
87 , 7508
u
u u
d
n
1 i
2
i
n
1 i
2
1 i i
calc
· ·

·


·
·

Pentru a efectua calculul lui d vom prezenta rezultatele intermediare în următorul
tabel:
i
u
1 i
u

( )
2
1 i i
u u


2
i
u
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
-
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
-
420,19
25,04
1138,90
244,71
220,80
140,30
64,86
120,79
75,47
777,77
58,47
248,14
28,63
11,29
317,00
3,62
420,66
54,81
3137,41
1,38
373,21
204,94
377,43
14,34
122,53
0,60
77,86
4,71
117,88
289,97
608,95
79,70
12,81
48,16
118,04
80,25
868,48
486,93
1152,10
7508,87 5040,26
- se compară d
calc
cu cele două valori d
1
şi d
2
din tabelul testului Durbin-Watson
pentru pragul de semnificaţie α = 0,05 pentru numărul variabilelor exogene k = 1 şi
pentru n = 20:
d1 = 1,20 d2 = 1,41
2 calc 2
d 4 d d − < <
59 , 2 48 , 1 41 , 1 < <
⇒erorile sunt independente.
Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat şi
coeficientul de autocorelaţie de ordinul I:
14 , 0
26 , 5040
41 , 709
u
u u
r
n
1 i
2
i
n
1 i
1 i i
1
· ·

·


·
·

Deoarece r
1
este apropiat de 0 putem aprecia că valorile variabilei reziduale nu sunt
autocorelate, adică sunt independente.
c
4
) Valorile variabilei reziduale sunt normal distribuite:
Pentru a testa această ipoteză se foloseşte metoda grafică (corelograma). Pe axa OX
se reprezintă valorile ajustate
i

, iar pe axa OY se reprezintă valorile variabilei
reziduale:
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80 100 120 140 160 180
OY
OX
ui
Se observă că valorile reziduale u
i
se înscriu în banda construită, deci putem
accepta ipoteza de normalitate a erorilor pentru un prag de semnificaţie de α = 0,05.
d) Testarea semnificaţiei parametrilor modelului
Testarea semnificaţiei parametrului α
0
:
- se stabileşte ipoteza nulă:
H
0
: α
0
= 0
- se stabileşte ipoteza alternativă:
H
1
: α
0
≠ 0
- se calculează testul t:
15 , 0
82 , 41
4201 , 6
s
a
t
0
a
0
− ·

· ·
( )
68 , 1449
75 , 5119
53 , 31991
01 , 280
x x
x
s s
i
2
i
i
2
i
2
u
2
a
0
· ⋅ ·

⋅ ·


( )
01 , 280
18
26 , 5040
2 n
yˆ y
s
i
2
i i
2
u
· ·


·

- se compară t
calc
cu t
α /2; n-2
= t
0,05; 15
= 2,101
Deoarece 18 ; 05 , 0 calc
t t <
⇒este foarte probabil ca estimatorul a
0
să provină dintr-o
colectivitate cu α
0
= 0 deci α
0
nu este diferit semnificativ de zero.
Testarea semnificaţiei parametrului α
1
:
- se stabileşte ipoteza nulă: H
0
: α
1
= 0
+ t
0,05; 18⋅ su
- t
0,05; 18⋅ su
i

- se stabileşte ipoteza alternativă: H
1
: α
1
≠ 0
- se calculează testul t:
99 , 9
23 , 0
2997 , 2
s
a
t
1
a
1
· · ·
( )
05 , 0
75 , 5119
01 , 280
x x
s
s
20
1 i
2
i
2
u 2
a
1
· ·

·

·
- se compară t
calc
cu t
α /2; n-2
= t
0,05; 18
= 2,101
Deoarece 18 ; 05 , 0 calc
t t >
⇒apreciem că parametrul α
1
este semnificativ statistic.
Intervalul de încredere pentru parametrul α
1
este:
1 1
a 2 n ; 2 / 1 1 a 2 n ; 2 / 1
s t a s t a ⋅ + ≤ α ≤ ⋅ −
− α − α
23 , 0 101 , 2 2997 , 2 23 , 0 101 , 2 2997 , 2
1
⋅ + ≤ α ≤ ⋅ −
78293 , 2 81647 , 1
1
≤ α ≤
e) Testarea validităţii modelului de regresie:
- se stabileşte ipoteza nulă: H
0
: modelul nu este valid.
- se stabileşte ipoteza alternativă: H
1
: modelul este valid;
- se calculează testul F:
69 , 96
01 , 280
18 , 27076
s
s
F
2
u
2
x
· · ·
( )
18 , 27076
1
18 , 27076
k
y yˆ
s
20
1 i
2
i
2
x
· ·

·

·
- se compară F
calc
cu F
α ; k; n-k-1
= F
0,1; 1; 18
= 8,28
18 ; 1 ; 1 , 0 calc
F 69 , 96 F > ·
⇒se respinge ipoteza nulă şi se acceptă alternativa,
deci modelul este valid.

f) Intensitatea legăturii dintre cele două variabile se apreciază cu ajutorul:
- coeficientului de corelaţie;
- raportului de corelaţie.
Coeficientul de corelaţie:
918 , 0
y y n x x n
y x y x n
r
2
i
i
i
2
i
2
i
i
i
2
i
i
i
i
i
i
i i
x / y
·
1
1
]
1

¸

,
_

¸
¸

1
1
]
1

¸

,
_

¸
¸

⋅ −
·
∑ ∑ ∑ ∑
∑ ∑ ∑
Deoarece r
y/x
= 0,918 →1, apreciem că între cele două variabile există o legătură
liniară, directă, foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie pentru colectivitatea generală:
- se stabileşte ipoteza nulă: H
0
: ρ = 0 (ρ nu este semnificativ statistic);
- se stabileşte ipoteza alternativă: H
1
: ρ ≠ 0 (ρ este semnificativ statistic);
ρ - coeficientul de corelaţie la nivelul colectivităţii generale
- se calculează testul t:
82 , 9
918 , 0 1
18 918 , 0
r 1
2 n r
t
2 2
calc
·


·


·
- se compară
calc
t
cu
878 , 2 t t
18 ; 1 , 0 2 n ;
· ·
− α
Deoarece 18 ; 1 , 0 calc
t t >
⇒ respingem ipoteza nulă şi acceptăm alternativa, deci
coeficientul de corelaţie este semnificativ statistic.
Raportul de corelaţie R:
( )
( )
918 , 0
44 , 32116
26 , 5040
1
y y
yˆ y
1 R
1 i
2
i
1 i
2
i i
· − ·


− ·


·
·
Deoarece R = r
y/x
, apreciem că între cele două variabile există, într-adevăr,
o legătură liniară.
Testarea semnificaţiei raportului de corelaţie:
- se stabileşte ipoteza nulă: H
0
: R nu este semnificativ statistic;
- se stabileşte ipoteza alternativă: H
1
: R este semnificativ statistic;
- se calculează testul F:
5 , 94
918 , 0 1
918 , 0
1
18
R 1
R
k
1 k n
F
2
2
2
2
calc
·

⋅ ·


− −
·
- se compară
calc
F
cu
28 , 8 F F
18 ; 1 ; 1 , 0 1 k n ; k ;
· ·
− − α
Deoarece 18 ; 1 ; 1 , 0 calc
F F >
⇒se respinge ipoteza nulă şi se acceptă alternativa,
deci raportul de corelaţie este semnificativ statistic.
g)
5679 , 85 40 2997 , 2 4201 , 6 yˆ
1 n
· ⋅ + − ·
+
euro (estimarea punctuală)
Pentru estimarea pe interval de încredere vom avea:
1 n 1 n
yˆ 1 k n ; 2 / 1 n 1 n yˆ 1 k n ; 2 / 1 n
s t yˆ y s t yˆ
+ +
⋅ + ≤ ≤ ⋅ −
− − α + + − − α +
16 , 17 t 5679 , 85 y 16 , 17 t 5679 , 85
552 , 2 18 ; 025 , 0 1 n 552 , 2 18 ; 025 , 0
⋅ + ≤ ≤ ⋅ −
· + ·
( )
( )
59 , 294
75 , 5119
) 655 , 36 40 (
20
1
1 01 , 280
x x
x x
n
1
1 s s
2
n
1 i
2
i
2
1 n 2
u
2

1 n
·
1
1
]
1

¸


+ + ·
1
1
1
1
1
]
1

¸



+ + ·

·
+
+

Deci, intervalul de încredere pentru taxele plătite pentru un venit de 40 mii euro la
nivelul populaţiei este:
) euro ( 36 , 129 y ) euro ( 77 , 41
1 n
≤ ≤
+
Rezolvarea problemei cu ajutorul programului informati c EXCEL :
Se selectează din meniul principal opţiunea Tools, apoi Data Analysis, apoi
Regression şi se va deschide următoarea fereastră:
şi se obţin următoarele rezultate
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.9181845
88
R Square
0.8430629
37
Adjusted R
Square
0.8343442
12
Standard
Error
16.733631
08
Observations 20
ANOVA

df SS MS F
Significanc
e F
Regression 127076.17814
27076.1
8 96.69566
1.15588E-
08
Residual 185040.259363
280.014
4
Total 19 32116.4375

Coefficient
s
Standard
Error t Stat P-value
Lower
95%
Upper
95%
Intercept -9.353374888 -0.6864 0.501209 - 13.23058
6.4201424
8
26.070869
14
X Variable 1
(Venitul)
2.2996901
510.233865325
9.83339
5 1.16E-08
1.8083569
55 2.791023
RESIDUAL OUTPUT
Observation
Predicted
Y Residuals
1
33.824435
16 1.17556484
2
79.818238
18
-
19.31823818
3
102.81513
97
-
14.31513969
4
51.072111
2919.42788871
5
121.21266
093.787339107
6
74.069012
8 -11.0690128
7
29.225054
860.774945141
8
21.176139
338.823860669
9
67.169942
35
-
2.169942348
10
90.856750
9 -10.8567509
11
57.971181
7417.02881826
12
45.322885
9124.67711409
13
51.072111
298.927888708
14
61.420716
973.579283029
15
143.05971
736.940282674
16
110.86405
52
-
10.86405521
17
83.957680
45
-
8.957680449
18
69.469632
5 -29.4696325
19
97.065914
31
-
22.06591431
20
166.05661
8833.94338117
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
Regression Statistics
Multiple R
Raportul de corelaţie
(R)
0.91818458
8
( )
( )
( )
( )




·
·
·
·


− ·


·
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
n
1 i
2
i
y y
yˆ y
1
y y
y yˆ
x , Ry
R Square
Coeficientul (gradul ) de
determinaţie
0.84306293
7
( )
( )


·
·


·


− ·


·
n
1 i
2
i
n
1 i
2
i
2
y
2
e
2
y
2
x / y
2
y y
y yˆ
1 R
Adjusted R Square
Valoarea ajustată a
coeficientului de
determinaţie
0.83434421
2
1 n /
1 k n /
1 R
2
y
2
u
2
− ∆
− − ∆
− ·
Standard Error
Abaterea medie
pătratică a erorilor în
eşantion
16.7336310
8
( )
2 n
yˆ y
2 n
s
n
1 i
2
i i
2
u
u


·


·

·
Observations
Numărul observaţiilor
(n)
20
Tabel 2.
ANOVA
Sursa
variaţiei
df
(grade de
libertate)
SS (varianţa)
(suma pătratelor)
MS =SS/df
(media pătratelor)
(dispersia
corectată)
F
Significance
F
Regression
(variaţia
datorată
regresiei)
1 (k)
SSR= ( ) ∑ − · ∆
·
n
i
i x
y y
1
2
2
ˆ =
27076.17814
k
s
x
x
2
2

·
=
27076.18
Testul
F=96.69566
F=
2
x
s /
2
u
s
1.15588E-
08< 0.05
(resping H0
– model
valid)
Residual
(variaţia
reziduală)
18 (n-k-1)
SSE= ( ) ∑ − · ∆
·
n
i
i i u
y y
1
2 2
ˆ
= 5040.259363
1
2
2
− −

·
k n
s
u
u
=
280.0144
Total
(variaţia
totală)
19 (n-1)
SST= ( ) ∑ − · ∆
·
n
1 i
2
i
2
y
y y =
32116.4375
SST=SSR + SSE
1
2
2


·
n
s
y
y

Tabel 3.
Coefficients
(Coeficienţi)
Standard Error
(Abaterea medie
patratică)
t Stat P-value Lower 95% Upper 95%
Limita inf. a
intervalului de
încredere
Limita sup.
a
intervalului
de încredere
Intercept
(termenul
liber)
a0=
-6.42014248
0
a
s
=
9.353374888
0
a
t
=
-0.6864
0.501209>0,05 -26.07086914 13.23058
Venitul
a1 =
2.299690151
1
a
s
=
0.233865325
1 a
t
=
9.833395
1.16E-08<0,05 1.808356955 2.791023
Tabel 4.
RESIDUAL OUTPUT
Observation
Predicted
i

taxe plătite
Residuals
i i
y y ˆ −
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT :
 R= 0.918184588 arată că între impozitele plătite şi venitul anual, există o legătură
puternică.
 R
2
=0.843062937 arată că 84% din variaţia impozitelor este explicată de venit
 Abaterea medie patratica a erorilor u
s
= 16.73363108. În cazul în care acest
indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA :
În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât
F=96.69566, iar Significance F (pragul de semnificaţie) este 1.15588E-08 (valoare mai
mica de 0.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru
analiza dependenţei dintre cele două variabile.
Interpretarea rezultatelor din tabelul 4:
 Intercept este termenul liber, deci coeficientul a
0
este -6.42014248. Termenul
liber este punctul în care variabila explicativă (factorială) este 0. Deci impozitele
care ar trebui plătite, dacă nu s-ar obţine nici un venit. Deoarece
0
a
t
= -0.6864 iar
pragul de semnificaţie P-value este 0.501209>0,05 înseamnă că acest coeficient
este nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere
(-26.07086914 ≤ ≤
α
0
13.23058) pentru acest parametru este negativă, iar limita
superioară este pozitivă arată că parametrul din colectivitatea generală este
aproximativ zero.
Coeficientul a
1
este 2.299690151, ceea ce însemnă că la creşterea venitului cu o mie euro,
taxele vor creşte cu 2,299690151 euro. Deoarece
1 a
t
= 9.833395 iar pragul de
semnificaţie P-value este 1.16E-08<0,05 înseamnă că acest coeficient este semnificativ.
Intervalul de încredere pentru acest parametru este 1.808356955
≤ ≤
1
α
2.791023

OY

16 14 12 10 8 6

num ar polite

OX 16 18 20 22 24 26 28 30 32 34 tim pul m ediu

1 cm OY = 5 poliţe 1 cm OX = 2 minute
ˆ y i =a 0 + a 1 x i a) Parametrii a şi b se determină cu ajutorul metodei celor mai mici pătrate:

∑ ( yi
i

ˆ − y i ) 2 min

∑( yi
i

− a 0 − a 1 x i ) 2 min

n n   na 0 + a 1 ∑ x i = ∑ y i  i =1 i =1 n =15  n n n 2 a ∑ x + a ∑ x = ∑ x y 1 i i i  0 i =1 i i =1 i =1  Pentru a rezolva sistemul vom folosi următorul tabel în care sunt prezentate valorile intermediare:

xi

yi

2 xi

x i yi

2 yi

(y i − y )2 (x i − x ) 2
4 1 4 0 16 36 9 4 4 9 1 9 0 4 1 102 0 4 25 0 25 64 49 16 9 25 1 1 4 16 25 264

∑x i
375

25 23 30 25 20 33 18 21 22 30 26 26 27 29 20

=

∑y i
180

10 11 14 12 8 18 9 10 10 15 11 15 12 14 11

625 529 900 625 400 1089 324 441 484 900 676 676 729 841 400
=
x2 ∑i = 93 69

∑x i y i
4645

250 253 420 300 160 594 162 210 220 450 286 390 324 406 220

100 121 196 144 64 324 81 100 100 225 121 225 144 196 121
= ∑ 2 = yi
26 22

13 = t0. 13 = 1.0064 264 s2 = i u ∑( yi ˆ − yi ) 2 = k – reprezintă numărul variabilelor factoriale (în cazul modelului unifactorial k = 1).7 +0. 3) se calculează testul statistic: a − α1 a 0 − 0 a 0 − 1.84 s a0 s a0 s a 0 2.5492 Deci: ˆ y i =− . 2) se stabileşte ipoteza alternativă: H1: α 0 ≠ 0.05/2.73 t= 0 = = = = −0.5 9 ⋅ x i 1 3 42 b) Testarea semnificaţiei parametrilor modelului: Ecuaţia de regresie la nivelul colectivităţii generale este: y i = α0 + α x i + u i 1 iar la nivelul eşantionului este: y i =a 0 + a 1 x i + u i Testarea semnificaţiei parametrului α 1: 1) se stabileşte ipoteza nulă: H0 : α 1 = 0 2) se stabileşte ipoteza alternativă: H1 : α 1 ≠ 0.35 Testarea semnificaţiei parametrului α 0: 1) se stabileşte ipoteza nulă: H0: α 0 = 0.35 = 1.8 s a1 s a1 s a1 0.025. 3) se calculează testul statistic: deoarece n = 15 < 30 avem eşantion de volum redus şi pentru testare vom utiliza testul t: a − α1 a 1 − 0 a 1 0.08 2 sa = i ∑(x i i s2 u −x ) 2 = 1.7199 15 − 2 ∑xi 15 Pentru un prag de semnificaţie de 5% valoarea tabelată a testului este: t0. 375 x = i =1 = = 25 15 15 n − k −1 22.7199 = 0.15a 0 + a 1 ⋅ 375 = 180  a 0 ⋅ 375 + a 1 ⋅ 9639 = 4645 a 0 = −1. adică α 1 este semnificativ diferit de zero.5492 t= 1 = = = = 6. adică α 1 este semnificativ statistic.096 .73 ⇒  a 1 = 0.

57 27.09 7.58 -5.03 16.48 16.05 .95 18.90 -27.37 5. [15 ⋅ 9639 − 375 ][15 ⋅ 2262 − 180 ] 2 15 ⋅ 4645 − 375 ⋅ 180 = 0.62 -14.7  1 + =4. deci modelul nu este valid. 3) se calculează testul F: s2 79 .99 9.84 > −t α/ 2.n −k − = F0.1.91 -19.35 ⇒ se acceptă ipoteza nulă.2 sa 0 =s 2 u   2 1  x 1 2  5  +  =1.71 su s2 = i x ˆ ∑( y i −y )2 s2 = i u 15 ∑( yi k = ˆ − yi ) 2 79 . e) Intensitatea legăturii dintre cele două variabile se face cu coeficientul de corelaţie liniară: r= = [ n∑ x i yi − ∑ x i ⋅ ∑ yi − (∑ xi ) 2 2 n∑ x i ][ 2 n∑ yi − ( ∑ yi ) 2 2 ] = Rezultă că între cele două variabile există o legătură directă foarte puternică.42 5.71 15 − 2 y= i =1 ∑yi 15 = Fcalc = Fα.35 = 1.64 F= x = = 46 .70 d) Testarea validităţii modelului de regresie: ˆ 1) se stabileşte ipoteza nulă: H0: împrăştierea valorilor y t datorate factorului nu diferă semnificativ de împrăştierea aceloraşi valori datorate întâmplării. 2) se stabileşte ipoteza alternativă: H1: modelul este valid. adică parametrul a0 nu este semnificativ statistic.88 → 1 > 0 .3 2 1.13 = 4.n −2 = −1.1 6 8 2  n 1 24  6   5 x i −x ∑   i   ( ) t calc = −0. ˆ c) Erorile reziduale sunt u i = y i − y i şi sunt prezentate în tabelul de mai jos: ui -20.38 -17.64 1 n − k −1 = 22.22 -0.67 1 180 = 12 15 Deoarece Fcalc > Ftab ⇒ modelul este valid.64 = 79 .

73 + 0.88.88 Deoarece R = r = 0. f) ˆ y n +1 = −1.75 2 sr 1 −r 1 − 0.5492 ⋅ 24 = 11. Testarea raportului de corelaţie se face cu testul F: F= R2 1−R 2 ⋅ n − k −1 0. .35   2   x n+ −x  1 1 ( 24 − 25 ) 2 1  + +  =1.se stabileşte ipoteza alternativă: H1: ρ este semnificativ statistic.025 .05 .Testarea semnificaţiei coeficientului de corelaţie: .88 ⋅ 13 = = = 6.78 1 Cum: Fcalc > F0. 13 = 4.45 ~ 12 poliţe (aceasta este estimarea punctuală).82   ⇒ n+ 1 = . 13 = 2. Măsurarea intensităţii legăturii cu raportul de corelaţie R: ˆ ∑ ( y i − y) n 2 t calc > t α.n −k −1 = t 0. .8225 Intervalul de încredere pentru numărul de poliţe încheiate este: .se stabileşte ipoteza nulă: H0: ρ nu este semnificativ statistic. 1. Pentru estimarea pe interval de încredere vom avea: ˆ ˆ y n +1 − t α / 2.n − k −1 ⋅ s y n +1 ˆ ˆ 12 − t 0.71  + 1 1 + 2  n 15 264    ∑ x i −x   i   s2 ˆ 1 yn + sy ˆ =s 2 u ( ( ) )   =1.05 .1775 ≤ y n +1 ≤13.se calculează testul t: t= r r n −2 0.16 R = i =1 n i =1 ∑ ( y i − y) 2 = 0.78 13 = ⋅ = 46 .67 ⇒ R este semnificativ statistic.88 2 ⇒ Coeficientul de corelaţie este semnificativ statistic.13 ⋅1. puternică şi directă între cele două variabile.025 .09 k 1 − 0.13 ⋅1.n − k −1 ⋅ s y n +1 ≤ y n +1 ≤ y n +1 + t α / 2.3 1 5 10 . apreciem că există o legătură liniară.35 ≤ y n +1 ≤12 + t 0.

000013 2 7 13. apoi Data Analysis. apoi Regression şi se deschide următoarea fereastră: şi se obţin următoarele rezultate: SUMMARY OUTPUT Regression Statistics Multiple R 0.000000 102.763923 Square Standard Error 1.780786 Adjusted R 0.000000 ANOVA Regression Residual Total df SS MS F Significance F 1.883621 R Square 0.000000 22.30272 0.64015 46.10 ≤ y n +1 ≤ 14 Rezolvarea problemei cu ajutorul programului informatic EXCEL: Se selectează din meniul principal opţiunea Tools.00000 .311483 Observations 15.719988 14.640152 79.000000 79.359848 1.

804611 0.000000 3.000000 4.098485 14.196970 1.196970 -0.000000 10.196970 9.080716 6.549242 12.393939 8.046120-0.000000 7.000000 9.549242 13.098485 -0.098485 -0.000000 13.000000 10.000000 12.0 Coefficient Standard t Stat P-value Lower Upper s Error 95% 95% -1.000000 15.746212 12.746212 0. x = i=1 n i =1 ˆ ∑ ( yi − y) 2 n ∑ ( yi − y) 2 ∆2 e 2 ∆y = 1 − i=1 n ˆ ∑ ( yi − yi ) 2 n i =1 ∑ ( yi − y) 2 2 R Square Coeficientul (gradul ) de determinaţie 0.780786 R2 = ∆2 / x y ∆2 y = 1− = i=1 n i =1 ˆ ∑ ( yi − y) n ∑ ( yi − y) 2 .253788 -1.549242 0.151434 2.883621 Ry.844697 0.374866 0.352273 14.000000 -1.000000 Predicted Y 12.72361 9 Intercept X Variable 1 RESIDUAL OUTPUT Observation 1.000000 8.846021 0.000000 14.253788 1.549242 2.253788 16.606061 0.412843-6.155303 9.450758 -1.253788 Residuals -2.000000 6.352273 0.901515 14.000000 5.000000 2.000000 11.746212 12.000013 0.803030 10.000000 9.746212 Explicitarea datelor din tabelele de mai sus: SUMMARY OUTPUT Regression Statistics Multiple R Raportul de corelatie (R) 0.000000 0.731061 2.68931 3 0.

Adjusted R Square Valoarea ajustată a coeficientului de determinaţie Standard Error Abaterea medie pătratică a erorilor în eşantion Observations Numărul observaţiilor (n) 0.723619 s a1 =0.05 -6.05 (resping H0 – model valid) s2 u = 1. a Limita sup.549242 s a0 =2.000013 Tabel 4. ANOVA Sursa variaţiei df (grade de libertate) SS (varianţa) (suma pătratelor) SSR= Regression (variaţia datorată regresiei) n MS =SS/df (media pătratelor) (dispersia corectată) F Significance F 1 (k) Residual (variaţia reziduală) Total (variaţia totală) i =1 79.080716 t a1 = 6.374866 2.046120 = -0. RESIDUAL OUTPUT .05 < 0.000000 SST=SSR + SSE ˆ ∆2 = ∑ y i − y x ( )2 = s2 = x ∆2 = x k Testul F=46.640152 0.151434 0.311483 su = ∆2 u n−2 = i=1 ˆ ∑ ( yi − yi ) 2 n−2 n 15 Tabel 2.719988 ∆2 u = n − k −1 ( ) s2 = y ∆2 y n −1 Tabel 3 Coefficients (Coeficienţi) Standard Error (Abaterea medie patratică) t Stat P-value Lower 95% Upper 95% Limita inf.846021 t a0 0. a intervalului intervalului de încredere de încredere Intercept (termenul liber) Timpul mediu a0= -1.000013< 0.640152 SSE= n 2 ˆ 2 13 (n-k-1) ∆ u = ∑ ( y i − y i ) = i =1 22.359848 SST= n 2 ∆2 = ∑ y i − y = y 14 (n-1) i =1 102.763923 R 2 =1− ∆2 / n − k − 1 u ∆2 / n − 1 y 1.804611 0.302727 F= s x / s u 2 2 79.412843 > 0.689313 0.731061 a1 = 0.

9763 382. Deci numărul de t poliţe încheiate.0917 Residuals ˆ yi − yi -14.4262 16.8525 311. Coeficientul a1 este 0.0355 -20. Termenul liber este punctul în care variabila explicativă (factorială) este 0.9067 27. numărul de poliţe încheiate va creşte cu 0. Interpretarea rezultatelor din tabelul 4:  Intercept este termenul liber.780786 arată că 78% din variaţia numărului de poliţe încheiate este explicată de timpul mediu petrecut de un agent cu un potenţial client.7043 Interpretare rezultate din tabelul SUMMARY OUTPUT:  R= 0.4878 -5. dacă timpul petrecut este 0. deci coeficientul a0 este -1.9235 287.05 înseamnă că acest coeficient este nesemnificativ.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre cele două variabile.000013 (valoare mai mica de 0. În cazul în care acest indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.5722 -0.2938 338.7504 367. iar limita  superioară este pozitivă arată că parametrul din colectivitatea generală este aproximativ zero.6299 9.804611 iar pragul de semnificaţie P-value este 0. iar Significance F (pragul de semnificatie) este 0.2528 346.8281 310.2188 369.0954 5.9986 -27.2542 376.846021iar pragul de semnificaţie P-value este 0.  R2 =0.1748 332.311483.5889 7.000013<0.3073 336.3728 5.731061.9568 -17. Întrucât F=46.  Abaterea medie patratica a erorilor s u = 1.8659 310.549242. Deoarece a0 = -0.412843>0.3895 16.9108 18.883621 arată că între numărul de poliţe încheiate şi timpul mediu petrecut cu un potenţial client există o legătură puternică.05 înseamnă că .302727. Deoarece t a1 = 6. De altfel faptul că limita inferioară a intervalului de încredere (-6.151434 ≤ α 0 ≤ 2.6962 325. ceea ce însemnă că la creşterea timpului petrecut cu un minut.2277 -19.Observation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ˆ Predicted y i Numărul de poliţe 338. Interpretare rezultate din tabelul ANOVA: În acest tabel este calculat testul F pentru validarea modelului de regresie.689313) pentru acest parametru este negativă.549242.5796 371.

0 Se cere: a) să se specifice modelul econometric ce descrie legătura dintre cele două variabile. e) să se testeze validitatea modelului de regresie. Rezolvare: a) Se va reprezenta grafic legătura dintre nivelul taxelor şi venit pentru cele 20 de gospodării prin corelogramă sau diagrama norului de puncte: OY 220 200 180 160 140 120 100 80 60 40 20 0 0 yi OX 10 20 30 40 50 60 70 xi 80 1 cm OX = 10 mii euro .0 51.0 150.5 70.0 45. Intervalul de încredere pentru acest parametru este 0.5 25.723619. d) să se verifice semnificaţia parametrilor modelului de regresie pentru α = 0.5 12.0 15.0 Venitul (mii euro) x 28.0 22.5 35.0 55. f) să se testeze intensitatea legăturii dintre cele două variabile şi să se testeze semnificaţia indicatorilor utilizaţi.374866 ≤ α1 ≤ 0.0 70.0 60.0 200.0 65.5 125.0 80.0 32.0 63.5 65.0 75.3 33. g) să se estimeze punctual şi pe interval de încredere nivelul taxelor care trebuie plătite dacă venitul este de 40 mii euro pentru o probabilitate de 95%.0 75.0 60. În tabelul următor avem informaţii privind veniturile obţinute de 20 de gospodării selectate aleator şi taxele plătite de către aceste gospodării: Venitul (mii euro) x 17.0 39.5 37.1.0 Taxele (euro) y 75.0 100.0 29.5 88. 2.5 47.5 25. b) să se estimeze parametrii modelului.0 65. c) să se verifice ipotezele metodei celor mai mici pătrate.acest coeficient este semnificativ.0 42.0 30.0 30. 1 cm OY = 20 euro .0 75.3 Taxele (euro) y 35.0 40.

2 9 x i 6 21 97 n a1 = ∑xi n ∑xi ∑ yi ∑ x i yi ∑xi ∑ x i2 = 20 1557 .5 a 0 = −6.655 20 s y = i =1 ∑ ( y i − y) n = i =1 20 = 20 = x = i =1 n 20 ∑x i ∑yi n ∑x i = y = i =1 20 1557 . ∑( ) ⇔ ∑( yi i − a 0 − a 1 x i ) 2 min ⇔ 20a 0 + 733.74 = 15.875 20 .Din grafic se poate observa că distribuţia punctelor (xi.2997 a 0 ⋅ 733.5 = 77 .1a 1 = 1557. Această ipoteză se poate verifica cu ajutorul următoarelor relaţii: x − 3s x < x i < x + 3s x y − 3s y < y i < y + 3s y unde: s x = i =1 n ∑ (x i n −x )2 2 n = 5119 .4201 ⇔   a 1 = 2.1 = 36 .44 = 40.1 31991 .20 ˆ y i =a 0 + a 1 x i ˆ y i − y i 2 min i α 0.1 733. yi) poate fi aproximată cu o dreaptă.99 20 32116 . b) Pentru estimarea parametrilor modelului de regresie utilizăm metoda celor mai mici pătrate: y i =a 0 +a1 x i + u i =1.1 + a 1 ⋅ 31991.2997 a 0 = y − a 1 ⋅ x = −6.53 = 2.1 68864 20 733.5 733.4201 c) Ipotezele metodei celor mai mici pătrate: c1) Variabilele observate nu sunt afectate de erori de măsură. α 1 – parametrii modelului. modelul este: ˆ y i =− . 4 0 +2.53 = 68864 Deci.07 20 733 . deci modelul econometric care descrie legătura dintre cele două variabile este un model liniar: y =α +α x + u 0 1 α 1 > 0 (panta dreptei) deoarece legătura dintre cele două variabile este directă.

68 8.86 57.655 − 3 ⋅ 15 .875 + 3 ⋅ 40 .99 < x i < 36 .07 0.335 < y i < 201 .07 < y i < 77 .315 < x i < 84 .06 110.07 61.82 102.32 -14. Se reprezintă grafic pe axa OX valorile variabilei factoriale x.82 51.23 21.43 3.625 (adevărat) 77 .99 −11.07 − 42 .36 .07 166.47 -22.97 45.32 19.06 ui 1.82 79.47 97.58 6. iar pe axa OY se reprezintă valorile variabilei reziduale u.77 8. ˆ Va trebui să calculăm valorile variabilei reziduale: u i = y i − y i Rezultatele sunt prezentate în tabelul de mai jos: ˆ yi 33.18 -19.79 -11.655 + 3 ⋅ 15.42 143.17 -10.07 121.875 − 3 ⋅ 40 .21 74. c2) Variabila aleatoare (reziduală) u este medie nulă şi dispersia variabilei reziduale este constantă şi independentă de variabila factorială (ipoteza de homoscedasticitate).03 24.17 90.18 67.86 17.86 83.085 (adevărat) Ipoteza poate fi acceptată fără nici un dubiu. Ipoteza de homoscedasticitate poate fi verificată cu metoda grafică (corelograma).86 -8.07 29.93 3.94 .07 33.94 -10.82 -2.96 -29.32 51.96 69.

se stabileşte ipoteza nulă: H0: variabila reziduală nu este autocorelată. Testarea ipotezei cu ajutorul testului Durbin-Watson: .testul Durbin-Warson. deci putem accepta ipoteza că erorile sunt independente. adică nu avem alternativă sistematică sub formă de dinţi de fierăstrău. c3) Valorile variabilei reziduale nu sunt autocorelate.se stabileşte ipoteza alternativă: .metoda grafică (corelograma). . . iar pe axa OY valorile variabilei reziduale: OY 35 30 25 20 15 10 5 0 -5 0 -10 -15 -20 -25 -30 ui OX 20 40 60 80 100 120 140 160 180 yi Distribuţia erorilor este oscilantă. adică nu sunt autocorelate. adică sunt independente între ele: Verificarea acestei ipoteze se poate face prin: . Prin metoda grafică se construieşte corelograma trecându-se pe axa OX valorile variabilei rezultative yi.OY 35 30 25 20 15 10 5 0 -5 0 -10 -15 -20 -25 -30 ui OX 20 40 60 80 xi Deoarece graficul punctelor prezintă o evoluţie oscilantă putem accepta ipoteza că variabila factorială şi cea reziduală sunt independente.

43 3.32 19.41 <1.68 8.47 -22.81 48.32 19.25 868.18 -19.96 -29.10 5040.90 244.79 -11.17 -10.77 58.34 122.04 80.63 11.48 < 2.71 220.07 0.58 6.95 79.se compară dcalc cu cele două valori d1 şi d2 din tabelul testului Durbin-Watson pentru pragul de semnificaţie α = 0.41 = 0.17 -10.47 777.86 -8.82 -2.97 608.94 1.87 2 ui 1.26 .se calculează testul Durbin-Watson: d calc = i =1 ∑(ui n n − u i −1 ) 2 = Pentru a efectua calculul lui d vom prezenta rezultatele intermediare în următorul tabel: ui u i− 1 i =1 ∑ u i2 7508 .21 204.05 pentru numărul variabilelor exogene k = 1 şi pentru n = 20: d1 = 1.32 -14.07 0.94 -10.70 12.43 3.20 d2 = 1.86 17.87 = 1.18 -19.71 117. .93 1152.93 3.68 8.66 54.79 -11.03 24.07 1.81 3137.03 24.26 ( u i − u i−1 ) 2 420.29 317. Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat şi coeficientul de autocorelaţie de ordinul I: r1 = i =1 1.62 420.14 5040 .04 1138.82 -2.77 8.96 -29.77 8.94 -10.53 0.47 248.00 3.19 25.38 373.79 75.43 14.86 17.59 ∑ u i ⋅ u i −1 i =1 n ∑ u i2 n = 709 .80 140.86 120.41 d 2 < d calc < 4 − d 2 ⇒ erorile sunt independente.60 77.48 5040 .48 486.86 4.26 .58 6.32 -14.47 -22.88 289.94 377.14 28.93 3.30 64.07 33.H1: variabila reziduală este autocorelată.41 7508.86 -8.16 118.

se stabileşte ipoteza alternativă: H1: α 0 ≠ 0 . 18⋅ su OX 20 40 60 80 100 120 140 160 ˆ yi 180 .Deoarece r1 este apropiat de 0 putem aprecia că valorile variabilei reziduale nu sunt autocorelate. n-2 = t0.05. c4) Valorile variabilei reziduale sunt normal distribuite: Pentru a testa această ipoteză se foloseşte metoda grafică (corelograma).53 =1449 .01 ⋅ 31991 .05 .101 Deoarece t calc < t 0.t0.05.05. Pe axa OX ˆ se reprezintă valorile ajustate y i .se calculează testul t: a − 6.se stabileşte ipoteza nulă: H0: α 1 = 0 .01 18 . adică sunt independente. deci putem accepta ipoteza de normalitate a erorilor pentru un prag de semnificaţie de α = 0.se stabileşte ipoteza nulă: H0: α 0 = 0 . Testarea semnificaţiei parametrului α 1: .15 s a0 41.4201 t= 0 = = −0.68 5119 .18 ⇒ este foarte probabil ca estimatorul a0 să provină dintr-o colectivitate cu α 0 = 0 deci α 0 nu este diferit semnificativ de zero.75 s2 = i u ∑( yi ˆ − yi ) 2 = n −2 5040 . 18⋅ su Se observă că valorile reziduale ui se înscriu în banda construită. 15 = 2.82 2 sa 0 =s 2 u ⋅ ∑x i2 ∑(x i i i −x ) 2 = 280 .26 = 280 .05.se compară tcalc cu tα /2. iar pe axa OY se reprezintă valorile variabilei reziduale: OY 35 30 25 20 15 10 5 0 -5 0 -10 -15 -20 -25 -30 ui + t0. d) Testarea semnificaţiei parametrilor modelului Testarea semnificaţiei parametrului α 0: .

raportului de corelaţie.se calculează testul t: a 2.se stabileşte ipoteza nulă: H0: ρ = 0 (ρ nu este semnificativ statistic). n-2 = t0.23 1.1.81647 ≤ α1 ≤ 2.se calculează testul t: .1.101 ⋅ 0.se compară Fcalc cu Fα .23 2 sa = 1 i =1 ∑( x i 20 s2 u −x )2 = 280 .101 Deoarece t calc > t 0.se stabileşte ipoteza alternativă: H1: α 1 ≠ 0 .69 > F0..75 .coeficientul de corelaţie la nivelul colectivităţii generale . foarte puternică. Testarea semnificaţiei coeficientului de corelaţie pentru colectivitatea generală: . f) Intensitatea legăturii dintre cele două variabile se apreciază cu ajutorul: . ρ .78293 e) Testarea validităţii modelului de regresie: .n − 2 ⋅ s a1 ≤ α 1 ≤ a 1 + t α / 2.05.101 ⋅ 0.05 5119 .2997 t= 1 = = 9. .23 ≤ α1 ≤ 2.99 s a1 0. n-k-1 = F0.01 su s 2 = i =1 x ˆ ∑(yi 20 −y )2 = k 27076 .18 = 27076 . 18 = 2. apreciem că între cele două variabile există o legătură liniară.18 ⇒ se respinge ipoteza nulă şi se acceptă alternativa. .05.18 ⇒ apreciem că parametrul α 1 este semnificativ statistic. k.se compară tcalc cu tα /2.2997 − 2.coeficientului de corelaţie.918 Deoarece ry/x = 0.18 1 .18 F= x = = 96 . .se stabileşte ipoteza alternativă: H1: ρ ≠ 0 (ρ este semnificativ statistic).918 → 1.n − 2 ⋅ s a1 2.se stabileşte ipoteza nulă: H0: modelul nu este valid.69 2 280 . directă. deci modelul este valid.se calculează testul F: s2 27076 .se stabileşte ipoteza alternativă: H1: modelul este valid. Coeficientul de corelaţie: n ∑x i y i − ∑x i ⋅ ∑y i ry / x = i i i 2       n ∑x 2 −  ∑x i  n ∑y 2 −  ∑y i   i        i i  i   i  i    2  = 0. .1. 1. 18 = 8.2997 + 2.01 = 0. Intervalul de încredere pentru parametrul α 1 este: a 1 − t α / 2.28 Fcalc =96 .

44 Deoarece R = ry/x.se compară t calc cu t α.18 =2.18 =8.75 2       ∑ xi −x    i= 1   s2 ˆ y ( n+ 1 ( ) ) Deci.28 Fcalc > F0.918 2 ⋅ = ⋅ = 94 .918 ⋅ 18 1 − 0. g) ˆ y n +1 = −6.1.1.59 u n n 20 5119 . 18 ⇒ respingem ipoteza nulă şi acceptăm alternativa.025 .se calculează testul F: n − k −1 R2 18 0.5679 − t 0.918 2 = 9. . apreciem că între cele două variabile există. Raportul de corelaţie R: R = 1 − i =1 ∑ ( yi i =1 ˆ − yi ) 2 −y ∑ (yi )2 = 1− 5040 . apoi Data Analysis.1.18 =2.16 ≤ y n +1 ≤ 85 .n − k −1 ⋅ s y n +1 ˆ ˆ 85 .n −k − = F0.n −2 = t 0.1. apoi Regression şi se va deschide următoarea fereastră: . .26 = 0.552 ⋅17 .5679 + t 0.4201 + 2.01  + 1 +  = 294 . deci raportul de corelaţie este semnificativ statistic.se stabileşte ipoteza nulă: H0: R nu este semnificativ statistic.5679 euro (estimarea punctuală) Pentru estimarea pe interval de încredere vom avea: ˆ ˆ y n +1 − t α / 2.918 32116 .k .655 ) 2  1 1 =s 2  + + n + 1 = 280 . 18 = 2.se compară Fcalc cu Fα.16    2   x 1 −x  ( 40 − 36 .5 k 1 1 − 0.552 ⋅17 .918 2 1−R2 1 . intervalul de încredere pentru taxele plătite pentru un venit de 40 mii euro la nivelul populaţiei este: 41. 1. şi se acceptă alternativa.1.82 .t calc = r n −2 1 −r 2 = 0.878 Deoarece t calc > t 0. Testarea semnificaţiei raportului de corelaţie: . 18 ⇒ se respinge ipoteza nulă Deoarece Fcalc = într-adevăr.2997 ⋅ 40 = 85 .36 (euro ) Rezolvarea problemei cu ajutorul programului informatic EXCEL: Se selectează din meniul principal opţiunea Tools. deci coeficientul de corelaţie este semnificativ statistic.025 .se stabileşte ipoteza alternativă: H1: R este semnificativ statistic.77 (euro ) ≤ y n +1 ≤129 .n − k −1 ⋅ s y n +1 ≤ y n +1 ≤ y n +1 + t α / 2. o legătură liniară.

733631 Error 08 Observations 20 ANOVA df Regression Residual Total Significanc eF 27076.69566 08 280.23058 Intercept Coefficient Standard s Error t Stat P-value -9.4375 SS MS F Lower 95% Upper 95% .15588E127076.259363 4 19 32116.8343442 Square 12 Standard 16.13.353374888 -0.501209 .014 185040.9181845 Multiple R 88 0.8430629 R Square 37 Adjusted R 0.1 1.6864 0.17814 8 96.şi se obţin următoarele rezultate SUMMARY OUTPUT Regression Statistics 0.

8083569 (Venitul) 510.774945141 21.31513969 51.21266 093.8567509 57.823860669 67.072111 298.233865325 5 1.05971 736.957680449 69.225054 860.169942348 90.957680 45 8.4696325 .86405 52 10.971181 7417.4201424 26.6.2996901 9.169942 35 2.0690128 29.81513 97 14.83339 1.17556484 79.579283029 143.818238 18 19.31823818 102.927888708 61.322885 9124.856750 9 -10.02881826 45.42788871 121.469632 5 -29.940282674 110.787339107 74.824435 16 1.072111 2919.67711409 51.86405521 83.16E-08 55 2.069012 8 -11.420716 973.176139 338.791023 RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Predicted Y Residuals 33.070869 8 14 X Variable 1 2.

84306293 Coeficientul (gradul ) de 7 determinaţie Adjusted R Square Valoarea ajustată a coeficientului de determinaţie Standard Error Abaterea medie pătratică a erorilor în eşantion Observations Numărul observaţiilor (n) Tabel 2.69566 F= s x / s u 2 2 27076. x = 8 i =1 n i =1 n n ˆ ∑ ( yi − y) 2 ∑ ( yi − y) 2 =1− ∆2 e 2 ∆y = 1 − i=1 n ˆ ∑ ( yi − yi ) 2 i =1 n ∑ ( yi − y) 2 2 R Square 0.19 20 97.0144 ∆2u n − k −1 .065914 31 22.7336310 8 20 R 2 =1− ∆2 / n − k − 1 u ∆2 / n − 1 y n su = ∆2 u n−2 = i=1 ˆ ∑ ( yi − yi ) 2 n−2 MS =SS/df (media pătratelor) (dispersia corectată) F Significance F 1.259363 = 280.94338117 Explicitarea datelor din tabelele de mai sus: SUMMARY OUTPUT Regression Statistics Multiple R Raportul de corelaţie (R) 0.06591431 166.83434421 2 16.17814 SSE= ∆ 2 u 27076.91818458 Ry.05 (resping H0 – model valid) 1 (k) ˆ = ∑ yi − y i =1 n n ( ) 2 = ∆2 s = x k 2 x = Testul F=96.05661 8833.18 2 2 su = 18 (n-k-1) ˆ = ∑ ( yi − yi ) i =1 = 5040.15588E08< 0. ANOVA Sursa variaţiei Regression (variaţia datorată regresiei) Residual (variaţia reziduală) df (grade de libertate) SS (varianţa) (suma pătratelor) SSR= ∆ 2 x R2 = ∆2 / x y ∆2 y = i=1 n i =1 ˆ ∑ ( y i − y) ∑ ( y i − y) 2 0.

15588E-08 (valoare mai .4375 SST=SSR + SSE = ∑ yi − y n ( ) 2 = s = 2 y ∆2y n −1 Tabel 3.4878 -5.9986 -27.42014248 a1 = 2. Standard Error Coefficients (Abaterea medie (Coeficienţi) patratică) t Stat P-value Lower 95% Upper 95% Limita sup.5796 2 371.5722 -0.3073 11 336.69566.16E-08<0.9067 27.9108 18.9568 -17.0355 -20.918184588 arată că între impozitele plătite şi venitul anual.833395 s a1 t Tabel 4.9235 8 287.73363108.808356955 13.2542 3 376.2938 13 338.07086914 1. există o legătură puternică.2528 15 346.353374888 s a0 = -0.0917 Residuals ˆ yi − yi -14.05 -26.9763 10 382. RESIDUAL OUTPUT ˆ Predicted y i Observation taxe plătite 1 338.7504 14 367.23058 2.501209>0.3895 16.233865325 9.791023 a1 = = 1.7043 Interpretare rezultate din tabelul SUMMARY OUTPUT:  R= 0.5889 7. Întrucât F=96.  R2=0.6299 9. În cazul în care acest indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.3728 5. iar Significance F (pragul de semnificaţie) este 1.4262 16.8525 5 311.0954 5. Interpretare rezultate din tabelul ANOVA: În acest tabel este calculat testul F pentru validarea modelului de regresie.6864 t a0 0.05 0.6962 7 325. a a intervalului de intervalului încredere de încredere Intercept (termenul liber) Venitul a0= -6.8281 6 310.Total (variaţia totală) 19 (n-1) 2 SST= ∆ y i =1 32116. Limita inf.2188 12 369.1748 4 332.8659 9 310.299690151 = 9.2277 -19.843062937 arată că 84% din variaţia impozitelor este explicată de venit  Abaterea medie patratica a erorilor s u = 16.

42014248. Termenul liber este punctul în care variabila explicativă (factorială) este 0. Deoarece a = -0.791023 . Deci impozitele t care ar trebui plătite.6864 iar pragul de semnificaţie P-value este 0.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre cele două variabile.05 înseamnă că acest coeficient este nesemnificativ. Interpretarea rezultatelor din tabelul 4: Intercept este termenul liber.05 înseamnă că acest coeficient este semnificativ. taxele vor creşte cu 2.299690151.23058) pentru acest parametru este negativă.mica de 0.501209>0.07086914 ≤ α 0 ≤ 13. ceea ce însemnă că la creşterea venitului cu o mie euro. Coeficientul a1 este 2. deci coeficientul a0 este -6. dacă nu s-ar obţine nici un venit. Intervalul de încredere pentru acest parametru este 1.299690151 euro. De altfel faptul că limita inferioară a intervalului de încredere 0  (-26. Deoarece t a1 = 9.808356955 ≤ α1 ≤ 2.16E-08<0. iar limita superioară este pozitivă arată că parametrul din colectivitatea generală este aproximativ zero.833395 iar pragul de semnificaţie P-value este 1.

Sign up to vote on this title
UsefulNot useful