Professional Documents
Culture Documents
Pentru un magazin de mobilă s-au cules date privind numărul de spoturi publicitare difuzate şi
numărul vizitatorilor (mii pers.) timp de 14 zile.:
Ziua Nr. spoturi publicitare Nr. vizitatori (mii pers.)
1 7 42
2 5 32
3 1 10
4 8 40
5 10 61
6 2 8
7 6 35
8 7 34
9 9 45
10 3 11
11 12 64
12 8 37
13 4 30
14 11 55
Se cere:
a) reprezentaţi grafic datele; Comentaţi graficul.
b) pe baza datelor de la nivelul eşantionului, determinaţi ecuaţia de regresie care modelează legătura
dintre cele două variabile şi calculaţi numărul zilnic previzionat de vizitatori;
c) verificaţi dacă modelul de regresie identificat este valid statistic;
d) testaţi semnificaţia statistică a parametrilor modelului, determinând şi intervalele de încredere
pentru aceştia;
e) măsuraţi intensitatea legăturii dintre cele două variabile cu ajutorul coeficientului şi a raportului de
corelaţie; testaţi semnificaţia indicatorilor utilizaţi;
f) în ce măsură variaţia numărului de vizitatori este determinată de numărul spoturilor publicitare, pe
baza modelului de regresie determinat?
g) previzionaţi numărul vizitatorilor aşteptaţi într-o zi, în ipoteza că se vor difuza 15 spoturi în acea zi.
h) previzionaţi numărul mediu zilnic de vizitatori, în ipoteza că se vor difuza 8 spoturi publicitare în
medie pe zi.
Rezolvare:
a) Notăm cu X variabila factorială, independentă „nr.spoturi publicitare” şi cu Y variabila
dependentă „nr.vizitatori”.
Pentru a identifica existenţa, forma şi sensul legăturii dintre variabilele analizate construim
corelograma (figura 4.10).
1
70
60
50
nr.vizitatori
40
30
20
10
0
0 2 4 6 8 10 12 14
nr.spoturi
Se observă că legătura dintre variabile este directă şi liniară (întrucât dreapta de regresie are
pantă pozitivă), iar ecuaţia de regresie va avea forma:
ŷi a bxi
na b xi yi
2
a xi b xi xi yi
n=14 (numărul observaţiilor)
Tabelul 4.5
xi yi xi
2
xiyi y i
2
yˆ i 2,2858 yi ŷi 2 yˆ i y 2 x i x 2
5,0753 xi
7 42 49 294 1764 37,81 17,53 3,29 0,13
5 32 25 160 1024 27,66 18,82 69,52 2,70
1 10 1 10 100 7,36 6,96 820,19 31,84
8 40 64 320 1600 42,89 8,34 47,44 1,84
10 61 100 610 3721 53,04 63,39 290,31 11,27
2 8 4 16 64 12,44 19,68 555,25 21,56
6 35 36 210 1225 32,74 5,12 10,64 0,41
7 34 49 238 1156 37,81 14,54 3,29 0,13
9 45 81 405 2025 47,96 8,78 143,12 5,56
3 11 9 33 121 17,51 42,40 341,82 13,27
12 64 144 768 4096 63,19 0,66 739,24 28,70
8 37 64 296 1369 42,89 34,67 47,44 1,84
4 30 16 120 900 22,59 54,96 179,91 6,98
11 55 121 605 3025 58,11 9,69 489,01 18,98
xi yi xi2 xi yi yi2 504 305,53 3740,47 145,21
=93 =504 =763 =4085 =22190
2
14 a 93b 504
93a 763b 4085
504 763 93 4085 4647
a a 2 ,2858
14 763 93 2 2033
14 4085 93 504 10318
b b 5 ,0753
14 763 93 2 2033
3
H0 : = 0 (b = = 0),
H1 : 0.
se 5,046
sb 0,4187
Unde n
145,21
(x
i 1
i x) 2
Iar 2 y i yˆ i
2
305,53
se
e i 1
5,046
n2 n2 12
Se obţine tcalc 12,1206
Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este t /2;13 = 2,179 . Deoarece t calc
>t/2;13 vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o populaţie cu =0
( adică este semnificativ diferit de zero), deci parametrul este semnificativ statistic.
Intervalul de încredere pentru parametrul , coeficientul de regresie din colectivitatea generală,
este:
b t / 2 ,n 2 s b b t / 2 ,n 2 s b , adică 4,1629 5,9876
2) pentru parametrul a
Ipotezele testate sunt:
H0 : = 0,
H1 : 0
Statistica t este:
a a a 0
t calc .
sa sa
n
x 2
i
763
Unde s a s e i 1
5,046 3,0912
n
14 145,21
n ( xi x ) 2
i 1
4
Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este t /2;13 = 2,179 . Deoarece t calc
<t/2;13 vom concluziona că este foarte probabil ca estimatorul a să provină dintr-o populaţie cu =0
( adică nu este semnificativ diferit de zero).
Intervalul de încredere pentru parametrul este dat de:
a t / 2 ,n 2 s a a t / 2 ,n2 sa , adică -4,4495 9,0210.
Un argument suplimentar pentru concluzia că parametrul este nesemnificativ statistic este acela că
intervalul de încredere include şi valoarea zero.
e) Pentru a măsura intensitatea legăturii dintre cele două variabile se va calcula mai întâi
coeficientul de corelaţie liniară:
r
xi yi xi yi
n
b
n
i
x 2
2
i i i
x n y 2
y 2
n yi2
yi 2
10318 10318
0 ,9615
2033 14 22190 504 2
10731
Acest indicator ne arată o legătură directă şi foarte puternică (r este pozitiv şi apropiat de
valoarea unitară).
Pentru testarea semnificaţiei coeficientului de corelaţie liniară simplă, se procedează astfel:
Ipotezele testate sunt:
H0 : = 0 ( nu este semnificativ statistic)
H1: 0 ( este semnificativ statistic).
Statistica t este:
r r n2 0,9615 12
t calc 12,12 .
sr 1 r 2
1 0,9615 2
libertate este 2,179 rezultă că tcalc > t ;n 2 , deci coeficientul de corelaţie este semnificativ statistic
Un alt indicator utilizat atât în cazul legăturilor liniare, cât şi al celor neliniare este raportul de
corelaţie R:
y yˆ
2
i i 305,53
R Ry / x 1 1 0,9615
y y
2
4046
i
y
yi 504 36 mii pers.
n 14
Ry/x = ry/x = 0,9615, deci există o legătură liniară, puternică şi directă între cele două variabile.
Testarea semnificaţiei raportului de corelaţie se face cu testul F:
n k 1 R2
F 146,9
k 1 R2
5
Valoarea teoretică pentru un prag de semnificaţie = 0,05 şi 1, respectiv 12 grade de
explicată de variabila X.
g) Dacă numărul spoturilor publicitare difuzate va fi de 15, atunci numărul previzionat al
vizitatorilor pe baza acestei ecuaţii de regresie este:
ŷ / x 15 2 ,2858 5 ,0753 15 78 mii pers. (estimare punctuală)
1 1 ( x n 1 x) 25,461 1 1 (15 6,64)
2 2
s 2
yˆ n 1, i s
2
yˆ n 1 y n 1, i s2
39,534 .
e n n 14 145,21
i 1
( x i x) 2
1 ( x n 1 x) 2
yˆ n 1,i t / 2,n 2 s e 1
n n , adică (64,71; 92,11) mii persoane.
i( x x
i 1
) 2
h) Suntem în cazul determinării intervalului de încredere pentru media de răspuns, când x n+1
ˆ n 1 este:
iar estimatorul dispersiei pentru y
1 ( x x) 2 25,461 1 (8 6,64)
2
s 2yˆ n 1 s e2 n n 1 14 2,14
n
xi x
2
145,21
i 1
Intervalul de încredere pentru media de răspuns este:
yˆ n 1 t / 2,n 2 s e
1
x x
n n 1
2
n , adică (39,71; 46,08) mii persoane
xi x
2
i 1
6
Se poate utiliza, însă, pentru rezolvarea problemei şi un pachet informatic specializat, în cazul
nostru – EXCEL. În urma selectării, din meniul principal, a opţiunilor <Tools>+<Data
Analysis>+<Regression>, s-au obţinut următoarele rezultate:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,961501303
R Square 0,924484756
Adjusted R
Square 0,918191819
Standard Error 5,045911528
Observations 14
ANOVA
df SS MS F Significance F
Regression 1 3740,465 3740,465 146,908 0,0000000433
Residual 12 305,535 25,461
Total 13 4046,000
Lower Upper
Coefficients Standard Error t Stat P-value 95% 95%
Intercept 2,2858 3,0912 0,7394 0,4738580696 -4,4495 9,0210
Nr. spoturi 5,0753 0,4187 12,1206 0,0000000433 4,1629 5,9876