CAPITOLUL 3

CAPITOLUL 3 ANALIZA ŞI DESCRIEREA NUMERICĂ A SERIILOR STATISTICE UNIVARIATE
Consideraţii preliminare
Cel mai adesea, urmărim să caracterizăm prin indicatori statistici — măsuri cantitative — datele statistice pe care le avem la dispoziţie. Scopul capitolului următor este să prezinte indicatorii statistici, primari şi derivaţi, simpli şi sintetici, ce se folosesc în mod frecvent pentru caracterizarea statistică a seriilor statistice. Vom putea, astfel, să analizăm tendinţa centrală, dar şi variabilitatea datelor, forma distribuţiilor şi concentrarea datelor. Să notăm şi faptul că, datorită particularităţilor lor, indicatorii statistici ai seriilor cronologice vor fi trataţi într-un capitol distinct.

Termeni cheie
abatere individuală abatere intercuartilică abatere medie liniară abatere medie pătratică abatere semiintercuartilică amplitudine aplatizare. asimetrie boltire coeficient de determinaţie coeficient de variaţie cuantile cuartile decile diagramă Box- Plot dispersie indicator indicatori de poziţie indicatori derivaţi indicatori primari mărime medie mărimi relative mediană medie aritmetică medie armonică medie geometrică medie pătratică mod percentile regula de adunare a dispersiilor variabilitate

STATISTICĂ ECONOMICĂ

Noţiuni teoretice
3.1. INTRODUCERE În acest capitol, vom continua să examinăm modalităţile prin care putem să rezumăm seturile de date statistice, în aşa fel încât trăsăturile lor esenţiale să poată fi puse în evidenţă. În capitolele precedente, am învăţat cum să grupăm datele brute într-o formă mai uşor de interpretat şi cum să construim diferite reprezentări grafice ale datelor sistematizate. Având la dispoziţie un set de date numerice, am început analiza statistică prin determinarea valorii maxime şi valorii minime, apoi am determinat o distribuţie de frecvenţe, histograma şi poligonul frecvenţelor. Aceste instrumente au permis identificarea formei aproximative a distribuţiei şi au indicat în jurul cărei valori sunt mai concentrate nivelurile individuale ale variabilei. Deşi o distribuţie de frecvenţe este, cu siguranţă, utilă în conturarea unei idei de ansamblu privind distribuţia datelor între cele două valori extreme, vom dori, în continuare, să rezumăm mai mult datele, calculând câţiva indicatori statistici descriptivi. Indicatorii numerici descriptivi oferă valori precise şi determinate în mod obiectiv, valori care pot fi uşor folosite, interpretate şi comparate una cu alta. Pe scurt, aceştia permit o analiză mai atentă a datelor, faţă de impresia generală pe care o oferă prezentarea datelor sub formă de serii, tabele şi grafice. 3.2. INDICATORI STATISTICI PRIMARI ŞI DERIVAŢI

DEFINIŢIE: Indicatorul statistic — în sens larg — reprezentă expresia numerică a unor fenomene şi procese social-economice, definite în timp, spaţiu şi structură organizatorică. Indicatorii statistici pot fi primari şi derivaţi. Indicatorii primari se obţin, de regulă, în etapa de sistematizare a datelor statistice, prin centralizarea şi agregarea acestora.

CAPITOLUL 3

Indicatorii derivaţi se obţin prin prelucrarea mărimilor absolute ale indicatorilor primari. Cele trei proprietăţi majore ale seriilor de date numerice, pe care le putem analiza folosind indicatorii statistici sunt cele privitoare la tendinţa centrală, la variabilitatea şi la forma distribuţiilor. 3.3. INDICATORI AI TENDINŢEI CENTRALE O clasificare a indicatorilor tendinţei centrale se poate face, în funcţie de modul de determinare a lor, în: — indicatori (mărimi) medii de calcul: media aritmetică, armonică, pătratică, geometrică etc.; — indicatori medii de poziţie: modul, mediana. Indicatorii fundamentali ai tendinţei centrale sunt: media aritmetică, modul şi mediana, dar în anumite cazuri speciale putem apela şi la alte tipuri de medii. 3.3.1. Media aritmetică Media aritmetică (x ) reprezintă valoarea care înlocuind toţi termenii unei serii nu modifică nivelul lor totalizator şi se calculează ca suma valorilor raportată la numărul lor. (3.1) n EXEMPLUL 3.1: Vechimea în muncă a fost înregistrată pentru cinci salariaţi ai unei firme şi anume: 7, 5, 6,7 şi 8 ani. Vechimea medie este: 7 + 5 + 6 + 7 + 8 33 x= = = 6,6 ani 5 5 Observăm din fig. 3.1. cum media aritmetică pune în balanţă toate valorile individuale:
5 6 7 X =6,6 ani 8

x=

i =1

¦ xi

n

Fig. 3.1. Balansarea valorilor individuale prin calculul mediei

STATISTICĂ ECONOMICĂ

De asemenea, dacă vom considera vechimea în muncă, vom observa cum media valorile extreme. Astfel, dacă presupunem că muncă a 10 salariaţi sunt: 5, 4, 5, 5, 6, 6, 4 şi este:
x= 5 + 4 + ... + 4 + 20 = 6,6 ani 10

următoarele date privind aritmetică este afectată de datele pentru vechimea în 20, atunci vechimea medie

0

5
X =6,6 ani

10

15

20

Fig. 3.2. Balansarea valorilor individuale prin calculul mediei

În cazul în care datele au fost sistematizate într-o serie de distribuţie de frecvenţe, în care valorile / centrele intervalelor de variaţie x i , i = 1, r apar cu frecvenţele ni media aritmetică (numită şi medie aritmetică ponderată) este:

(

)

x=

i =1 r

¦ xini
i =1

r

(3.2)

¦ ni

EXEMPLUL 3.2: Presupunem că pentru 200 de persoane s-au sistematizat datele culese cu privire la timpul zilnic petrecut în faţa televizorului, rezultând (Tabelul 3.1):
Timp (min.) Până la 30 30-60 60-90 90-120 120 şi peste Total Număr de persoane (frecvenţe) ni 47 51 76 24 2 200 xi 15 45 75 105 135 – Tabelul 3.1 xi • ni 705 2295 5700 2520 270 11490

CAPITOLUL 3

x=

i =1 r

¦ xini
i =1

r

=

¦ ni

11490 = 57,45 minute 200

Asupra mediei aritmetice sunt de făcut câteva observaţii şi de subliniat câteva proprietăţi: a) Pentru un şir de valori constante, media este egală cu constanta; b) Media are întotdeauna valoarea cuprinsă între valoarea minimă din serie (xmin) şi valoarea maximă (xmax); c) Suma abaterilor valorilor individuale (xi) de la media lor ( x ) este întotdeauna egală cu zero (adică distanţele faţă de centru se balansează, se compensează perfect); d) Dacă valorile individuale ale unei variabile sunt mărite sau micşorate cu constanta „a“, atunci media se modifică şi ea, în acelaşi sens, cu aceeaşi constantă „a“; e) Dacă valorile individuale ale unei variabile sunt modificate de h ori, media se modifică şi ea de h ori; Din aceste două proprietăţi, d) şi e), rezultă formula de calcul simplificat al mediei aritmetice, pentru valori reduse cu constanta „a“ şi de h x −a · § , i = 1, n ¸ : ori ¨ x ’i = i h © ¹ n n x −a ’ ¦ xi ¦ i x = i =1 ⋅ h + a = i =1 h ⋅ h + a (3.3) n n iar pentru o serie de distribuţie de frecvenţe: r x −a r ’ ni ¦ xini ¦ i x = i =1 ⋅ h + a = i =1 h ⋅h +a (3.4)
i =1

¦ ni

r

i =1

¦ ni

r

EXEMPLUL 3.3: Pe baza datelor din Tabelul 3.1 putem alege a=75, h=30 şi atunci:

STATISTICĂ ECONOMICĂ Tabelul 3.2 Timp (min.) < 30 30-60 60-90 90-120 120 şi peste Total Frecvenţe ni 47 51 76 24 2 200
r ’

xi 15 45 60 105 135 –

x i’ =

xi – a h

x i’ ⋅ n i

-2 -1 0 1 2 –

- 94 - 51 0 24 4 -117

x=

i =1 r

¦ xini
i =1

⋅h +a =

¦ ni

− 117 ⋅ 30 + 75 = 57,45 minute 200

f) Într-o serie de distribuţie de frecvenţe, dacă frecvenţele sunt modificate de „c“ ori, media rămâne neschimbată.

Dacă „c“ reprezintă volumul total al colectivităţii § n = ¦ n i · , ¨ ¸
r

©

i =1

¹

frecvenţele
deci:

ni c

sunt chiar frecvenţele relative n * = i
¦ xi ⋅ ni
r *

ni , i = 1, r şi rezultă, n

1 sau, dacă frecvenţele relative au fost exprimate în procente: x=
i =1

x=

i =1

(3.5)

¦ xi ⋅ ni 100

r

*%

(3.6)

g) Dacă o serie statistică este alcătuită din mai multe serii componente, pentru care s-au calculat medii parţiale x j , j = 1, m , atunci media întregii serii poate fi calculată ca o medie aritmetică ponderată din mediile parţiale:

( )

x=

¦ x jn j
j=1 m

m

(3.7)

¦nj
j=1

CAPITOLUL 3

unde nj reprezintă volumul seriei componente j (j = 1, m )
EXEMPLUL 3.4: Într-o colectivitate de 60 de persoane, din care 24 de sex feminin şi 36 de sex masculin, s-a determinat vârsta medie a persoanelor de sex feminin x F = 38,1 ani şi vârsta medie a persoanelor de sex masculin
x M = 42,2 ani. Vârsta medie în întreaga colectivitate este:
x= x F n F + x M n M 24 ⋅ 38,1 + 36 ⋅ 42,2 = = 40,56 ani nF + nM 60

h) Pentru două caracteristici statistice X şi Y, pentru care s-au calculat mediile x şi, respectiv, y , media sumei valorilor individuale (xi + yi) este întotdeauna egală cu suma mediilor: x+y=x+y (3.8) i) Pentru două caracteristici statistice X şi Y, pentru care s-au calculat x şi y , media produsului (xi • yi) este egală cu produsul mediilor, doar dacă cele două variabile sunt independente:
xy = x ⋅ y

(3.9)

3.3.2. Media unei variabile de tip alternativ

În cazul în care variabila studiată este de tip alternativ (dihotomic), atunci celor două variante de răspuns (afirmativ şi negativ) li se vor acorda, convenţional, valorile numerice 1 şi, respectiv, 0. Pentru calculul mediei aritmetice, datele le putem sistematiza astfel (Tabelul 3.3):
Tabelul 3.3 Varianta de răspuns Afirmativ Negativ Total xi 1 0 – Frecvenţe ni m n-m n Frecvenţe relative n * i

m =f n n−m = 1− f n
1

STATISTICĂ ECONOMICĂ

x=

i =1

¦ xini n

2

=

1 ⋅ m + 0(n − m ) m = =f n n

(3.10)

3.3.3. Indicatori de poziţie

Indicatorii medii de poziţie sunt: modul şi mediana. Mediana face parte din indicatorii (mai generali) de poziţie, numiţi cuantile, alături de cuartile, decile etc.
3.3.3.1 Valoarea modală Modul (M0) reprezintă valoarea cel mai des întâlnită într-o serie statistică sau cea care are cea mai mare frecvenţă de apariţie. În cazul seriilor de distribuţie de frecvenţe pe intervale de variaţie, determinarea modului presupune mai întâi, identificarea intervalului cu frecvenţă maximă (int M0). Apoi, modul se poate determina conform relaţiei:

§ d1 · M 0 = x inf M 0 + ¨ ¸ ¨ d + d ¸h M 0 2 ¹ © 1 unde: xinfMo reprezintă limita inferioară a intervalului modal; h M0 reprezintă mărimea intervalului modal;
d1

(3.11)

reprezintă diferenţa dintre frecvenţa intervalului modal şi a celui reprezintă diferenţa dintre frecvenţa intervalului modal şi a celui

precedent;
d2

următor.
EXEMPLUL 3.5: Pentru datele din tabelul 3.1. valoarea modală este: (76 − 51) M 0 = 60 + ⋅ 30 = 69,74 minute (76 − 51) + (76 − 24)

O distribuţie cu un singur mod se numeşte unimodală (fig. 3.3a), o distribuţie este bimodală dacă are două valori dominante (moduri) (fig. 3.3b) şi multimodală dacă are mai mult de două moduri (fig. 3.3c).

CAPITOLUL 3
y
y

y

Frecvenþe

Frecvenþe

Frecvenþe

o

M0 a)

x o

M01 b)

M02

x o

M01

M02 c)

M03

x

Fig. 3.3 - Distribuţie de frecvenţe: a) unimodală; b) bimodală; c) multimodală

3.3.3.2 Mediana Mediana (Me) este un indicator mediu de poziţie care face parte din categoria cuantilelor. Ea reprezintă valoarea/varianta din mijlocul unei serii de date, serie în care observaţiile au fost ordonate crescător (sau descrescător). Dacă datele au fost sistematizate într-o serie de distribuţie de frecvenţe pe variante, pentru determinarea medianei vom calcula, mai întâi, frecvenţele cumulate (Fci). Prima frecvenţă cumulată mai mare decât (n+1)/2, adică mai mare decât locul medianei, ne indică varianta mediană. EXEMPLUL 3.6: Pentru 80 de familii dintr-un bloc (n=80), s-au sistematizat datele privind numărul membrilor de familie, rezultând distribuţia de frecvenţe (Tabelul 3.4):
Numărul membrilor de familie 1 2 3 4 5 Total Număr de familii ni 12 23 30 8 7 80 Tabelul 3.4 Frecvenţe cumulate Fci 12 35 65 73 80 –

Varianta „3 membrii de familie“ reprezintă varianta mediană, situată în mijlocul distribuţiei; Pentru o serie de repartiţie de frecvenţe pe intervale de variaţie (date de tip continuu), mediana se va încadra în intervalul median, primul

STATISTICĂ ECONOMICĂ

interval cu frecvenţa cumulată mai mare decât locul (rangul, poziţia) medianei. 1§ r · ¨ ¦ n i + 1¸ − FC( Me−1) 2 © i=1 ¹ n Me

Me = x inf Me + h Me unde:

(3.12)

x inf Me reprezintă limita inferioară a intervalului median;

reprezintă mărimea intervalului median; 1§ r · n +1 reprezintă locul medianei în serie; ¨ ¦ n i + 1¸ = 2 © i =1 2 ¹ FC(Me - 1) reprezintă frecvenţa cumulată a intervalului anterior celui median; nMe reprezintă frecvenţa absolută a intervalului median.
h Me

EXEMPLUL

3.7:

Pe

baza

datelor

din

Tabelul

3.1,

100,5 − 98 Me = 60 + 30 ≈ 61 76

minute

3.3.3.3. Relaţia dintre mod, mediană şi medie
Me

Pentru o distribuţie simetrică, media, mediana şi modul coincid (Fig. 3.3a). Dacă distribuţia este cu tendinţă de normalitate dar pozitiv înclinată, spre valori mari (cu coada mai lungă a distribuţiei spre valorile mari) atunci x > Me > M 0 (Fig. 3.4b); dacă distribuţia este moderat oblică şi negativ încheiată, spre valorile mici (cu coada mai lungă a distribuţiei spre valorile mici, atunci x < Me < M 0 (Fig. 3.4c). În general, pentru repartiţii moderat asimetrice, există o relaţie empirică între cele trei valori şi anume:

M 0 − x ≈ 3 Me − x

(

)

(3.13)

CAPITOLUL 3

y

y

y

o

x=Me=Mo

x

o

Mo Me x

x

o

x Me Mo

x

Fig. 3.4 - a) distribuţie simetrică; b) distribuţie cu asimetrie pozitivă; c) distribuţie cu asimetrie negativă

3.3.3.4. Cuantilele Cuantilele, categorie de indicatori de poziţie din care face parte şi mediana, pot fi uşor înţelese intuitiv prin extinderea noţiunii de mediană şi reprezintă valori ce împart seria în părţi egale.
y

de ordin în patru

25% din în număr 25% 25% 25% 25% (fig. x Q1 Q2=Me Q3 o cuartila Fig. 3.5 - Cuartilele într-o serie de repartiţie egală mediana, cuartila superioară. Similar se pot determina cuantile de ordin superior, ca de pildă decilele (care sunt D1, ...., D9 şi delimitează câte 10% din observaţii, D5 = Me) ori percentile (delimitează câte 1% din observaţii).
3.3.4. Alte tipuri de medii 3.3.4.1. Media armonică Media armonică x h este o medie de calcul cu aplicaţii speciale, care se determină, pentru o serie de date cantitative, ca valoarea inversă a

Astfel, cuartilele (cuantile patru) împart seria părţi egale, ele delimitând câte observaţii. Ele sunt de trei: Q1, Q2, Q3 3.5); Q1 se numeşte inferioară, Q2 este întotdeauna cu Q3 se numeşte

Frecvenþe relative

( )

STATISTICĂ ECONOMICĂ

mediei aritmetice, calculată din inversele valorilor seriei. Aşadar media armonică simplă este: n xh = n (3.14) 1 ¦ i =1 x i Pentru o serie de distribuţie de frecvenţe, media armonică ponderată este: xh =
i =1

¦ ni

r

1 ¦ ni i =1 x i 1 xh = r 1 * ¦ ni i =1 x i 100 xh = r 1 *% ¦ ni i =1 x i
r

(3.15)

(3.16)

(3.17)

EXEMPLUL 3.8: Un conducător auto cumpără ulei de motor, la preţul de 90.000 lei/litru, în valoare totală de 450.000 lei dintr-un magazin, iar din alt magazin, la preţul de 120.000 lei/litru, în valoare totală de 480.000 lei. Care a fost preţul mediu pe litru, pe care l-a plătit?
p= 450000 + 480000 ¦ vi ¦ vi = = = 103333,3 1 1 1 ¦ qi ¦ v ⋅ 450000 + ⋅ 480000 i pi 90000 120000

lei/litru

3.3.4.2. Media pătratică Media pătratică x p este tot o medie de calcul cu aplicaţii speciale şi reprezintă valoarea care, înlocuind termenii seriei, nu modifică suma pătratelor lor. Aşadar:
xp =
i =1

¦ xi n

n

2

(3.18)

CAPITOLUL 3

Pentru o serie de distribuţie de frecvenţe, media pătratică ponderată este:
¦ xi ni
i =1 r 2

xp =

i =1 r

(3.19)

¦ ni

xp =

i =1

¦ xi ni 1

r

2 *

(3.20)

xp =

i =1

¦ xi ni 100

r

2 *%

(3.21)

3.3.4.3. Media geometrică Media geometrică x g se calculează ca rădăcina de ordinul n din produsul celor n valori ale unei serii de date. Ea este deci, acea valoare care înlocuind termenii seriei nu modifică produsul lor:

( )

xg = n ∏ xi
i =1

n

(3.22)

Pentru o serie de distribuţie de frecvenţe, media geometrică se calculează ca:
x g = i =1 ∏ x in i
i =1

¦ ni

r

r

(3.23)

Între mediile de calcul prezentate există relaţia: xh ≤ xg ≤ x ≤ xp

(3.24)

STATISTICĂ ECONOMICĂ

3.4. INDICATORI AI VARIABILITĂŢII

În analiza unei serii statistice de date cantitative ne interesează, pe lângă indicatorii tendinţei centrale şi indicatorii variabilităţii, ai împrăştierii valorilor. Astfel, două serii statistice pot diferi prin tendinţa centrală (Fig 3.6a), prin împrăştierea datelor (Fig. 3.6b) sau prin amândouă (Fig. 3.6c).
y y y

o

a)

x

o

b)

x

o

Fig. 3.6 - a) Distribuţii cu tendinţă centrală diferită; b) Distribuţii cu variabilitate diferită; c) Distribuţii cu tendinţă centrală şi variabilitate diferite

c)

x

3.4.1. Indicatori simpli ai variabilităţii

Aceşti indicatori măsoară împrăştierea valorilor individuale ale seriei, una faţă de alta, ori faţă de o valoare tipică.
3.4.1.1. Amplitudinea variaţiei Amplitudinea variaţiei (Ax) se calculează ca valoarea maximă minus valoarea minimă a variabilei: (3.25) Ax = xmax — xmin

În expresie relativă amplitudinea se calculează ca: A% = x x max − x min x 100 (3.26)

3.4.1.2. Abaterea intercuartilică şi semiintercuartilică

Un alt indicator simplu al variaţiei este abaterea intercuartilică: A Q = Q 3 − Q1 (3.27)

CAPITOLUL 3

Indicatorul are unitatea de măsură a variabilei studiate şi uneori se foloseşte şi valoarea sa înjumătăţită, indicator cunoscut ca abaterea semiintercuartilică:
A ’Q = Q 3 − Q1 2

(3.28)

3.4.1.3. Abaterea individuală

Un alt indicator simplu al variaţiei este abaterea individuală:
di = xi − x

(3.29)

care ne arată împrăştierea fiecărei valori de la nivelul mediu.
Abaterea individuală se poate calcula şi în expresie relativă:

d i% =

xi − x x

(3.30)

De asemenea, prezintă interes abaterea maximă pozitivă: d + = x max − x max şi abaterea maximă negativă: d − = x min − x max
3.4.2. Indicatori sintetici ai variabilităţii 3.4.2.1. Abaterea medie liniară O primă soluţie la care putem apela pentru a surprinde, printr-o singură măsură, întreaga împrăştiere din serie este să calculăm media abaterilor individuale. Dar, pentru că aceste abateri se compensează

(3.31)

(3.32)

STATISTICĂ ECONOMICĂ

reciproc, trebuie să le considerăm în valoare absolută. Obţinem, astfel, abaterea medie liniară d x calculată pentru o serie simplă:
dx =
i =1

¦ xi − x
n

n

( )

(3.33)

iar în cazul unei serii de distribuţie de frecvenţe:
dx =
i =1

¦ xi − x ni
i =1 r

r

¦ ni

r

(3.34)

dx =

i =1

¦ x i − x n *% i
100

(3.35)

Abaterea medie liniară se exprimă în unitatea de măsură a caracteristicii şi ne arată cu cât se abat, în medie, valorile individuale de la media lor.
EXEMPLUL 3.9: Pe baza datelor din Exemplul 3.2, obţinem:
Tabelul 3.5 Timp (min.) până la 30 30-60 60-90 90-120 120 şi peste Total Nr. de persoane (ni) 47 51 76 24 2 200

xi
15 45 75 105 135 –

xi − x ni

1995,15 634,95 1333,8 1141,2 155,1 5260,2

x = 57,45 minute
dx
i =1

¦ xi − x ni
i =1

r

¦ ni

r

=

5260,2 = 26,30 200

min

3.4.2.2. Dispersia Dispersia s 2 se calculează ca media aritmetică a pătratelor x abaterilor individuale ale valorilor de la tendinţa centrală (uzual de la medie). Pentru o serie simplă, formula dispersiei este:

( )

CAPITOLUL 3

s2 = x

i =1

∑ (x i − x )
n

2

n

(3.36)
2

iar pentru o serie de distribuţie de frecvenţe:
s2 = x
i =1

¦ (x i − x ) n i
r i =1 r

¦ ni
2

r

(3.37)

sau, pe baza frecvenţelor relative:
s2 = x
i=1

∑ (x i − x ) n *% i
100

(3.38)

EXEMPLUL 3.10. Pe baza datelor din exemplul nr. 3.2, obţinem
Timp (min.) până la 30 30-60 60-90 90-120 120 şi peste Total
r

Nr. de persoane (ni) 47 51 76 24 2 200
s2 = x
i =1

xi 15 45 75 105 135 –

(x i − x )2 ni
84694,12 7905,13 23408,19 54264,06 12028,00 182299,50

Tabelul 3.6

¦ (x i − x ) n i
2 i =1

¦ ni

r

=

182299,5 = 911,4975 200

Se cuvine să facem şi asupra dispersiei câteva observaţii şi să remarcăm câteva din proprietăţile sale: a) Pentru un şir de valori constante, dispersia este nulă; b) Dispersia calculată faţă de medie s 2 este mai mică decât orice x altă dispersie calculată faţă de o valoare “a”, cu pătratul distanţei dintre medie şi constanta a: 2 2 s 2 = s a − (x − a ) (3.39) x c) Dacă valorile variabilei statistice studiate sunt modificate (micşorate sau mărite) cu constanta „a“, dispersia seriei rămâne neschimbată;

( )

STATISTICĂ ECONOMICĂ

d) Dacă valorile variabilei statistice studiate se modifică de h ori, dispersia se modifică (în acelaşi sens) de h2 ori Rezultă şi în calculul dispersiei că, dacă vom combina proprietăţile 2 şi 4, vom obţine formula de calcul simplificat al dispersiei, pentru o serie simplă:
§ x −a · ¦¨ i ¸ © h ¹ 2 h − x−a s 2 = i=1 x n
n 2

(

)2

(3.40)

şi pentru o serie de distribuţie de frecvenţe:
s2 = x
§ xi − a · ¸ ni i =1© h ¹

¦¨

r

2

i =1

¦ ni
2

r

h2 − x − a

(

)2
)2

(3.41)

§ x i − a · *% ¸ ni © h ¹ s 2 = i=1 h2 − x − a x 100

¦¨

r

(

(3.42)

EXEMPLUL 3.11: Pe baza datelor prelucrate în exemplul 3.3, obţi-

nem:
Tabelul 3.7 Timp (min) <30 30-60 60-90 90-120 120 şi peste Total Frecvenţe ni 47 51 76 24 2 200
§ xi − a · ¸ ni i =1© h ¹

x −a x’ = i i h

(x )

’ 2 i

§x −a· =¨ i ¸ © h ¹

2

x’ ⋅ n i i

2

-2 -1 0 1 2 –

4 1 0 1 4 –

188 51 0 24 8 271

s2 = x

¦¨

r

2

i =1

¦ ni

r

h2 − x − a

(

271 )2 = 200 ⋅ 30 2 − (57,45 − 75)2 = 911,4975

e) Dispersia se poate calcula şi pe baza relaţiei:

CAPITOLUL 3

s2 = x

∑ x i2 i =1
n

n

−x =

2

∑ x i2 i =1
n

n

 n  ∑ xi  −  i=1 n   

      

2

(3.43)

iar pentru o serie de distribuţie de frecvenţe:
s 2 = i=1 x

¦ x i2 n i
i =1 r

r

¦ ni

r

2 − x = i=1

¦ x i2 n i
i =1 r

r

¦ ni

r

§ r ¨ ¦ xini ¨ − ¨ i=1 r ¨ ¦ ni ¨ © i=1 §
r

· ¸ ¸ ¸ ¸ ¸ ¹

2

(3.44)
2

s 2 = i=1 x

¦ x i2 n *% i
100

2 − x = i=1

¦ x i2 n *% ¨ ¦ x i n *% ¸ i i
100

· ¸ ¸ ¸ ¸ ¹

¨ − ¨ i=1 100 ¨ ¨ ©

(3.45)

f) Dacă o serie este compusă din m serii componente (grupuri), fiecare serie componentă fiind de volum nj, j = 1, m , atunci se pot calcula mediile seriilor componente, x j , j = 1, m şi dispersiile seriilor componente:
s2 = x
j

i =1

¦ (x i − x j )
nj

2

nj

, j = 1, m

(3.46)

Dispersia generală a colectivităţii poate să fie scrisă în funcţie de dispersiile seriilor componente (grupurilor):
s2 = x

¦ s2 j n j x
j=1 m

m

¦ (x j − x ) n j
m 2 j=1

+

¦n j
j=1

¦nj
j=1

m

(3.47)

Expresia:

¦ s2 j n j x
j=1 m

m

se numeşte media dispersiilor parţiale

¦nj
j=1

(grupurilor, seriilor componente) şi se notează cu s 2 . x

STATISTICĂ ECONOMICĂ

sx =

2

¦s2j n j x
j=1 m

m

(3.48)

¦nj
j=1 2

Expresia:

¦ (x j − x ) n j
m j=1

¦nj
j=1

m

sintetizează împrăştierea valorilor de la

media generală, doar ca urmare a acţiunii factorului după care s-au alcătuit grupurile, seriile componente. Această expresie se numeşte dispersia dintre grupe d 2 : x

( )

d2 = x

¦ (x j − x ) n j
m 2 j=1

¦n j
j=1

m

(3.49)

Regula de adunare a dispersiilor este, deci:
s2 = sx + d2 x x
2

(3.50)

Putem spune că d 2 explică măsura în care factorul de grupare x determină variaţia variabilei studiate şi să calculăm coeficientul de determinaţie:
R2 = d2 x s2 x

( )

(3.51)

sau, în expresie procentuală, gradul de determinaţie:
2 R% =

d2 x s2 x

100

(3.52)

Evident, măsura în care alţi factori (din interiorul grupelor) determină variaţia variabilei, este dată de coeficientul de nedeterminaţie:
K2 = sx s2 x
2

= 1− R2

(3.53)

CAPITOLUL 3

sau gradul de nedeterminaţie:
2 K% =

sx s2 x

2

2 100 = 100 − R %

(3.54)

EXEMPLUL 3.12: O firmă ce comercializează produse cosmetice a realizat într-o lună de vară, prin cele 30 de magazine de desfacere situate pe litoral, o vânzare medie de 400 milioane lei pe magazin, cu o dispersie a vânzărilor de 2500; iar prin cele 20 de magazine din zona montană, o vânzare medie de 200 milioane lei, cu o dispersie de 1600. Pentru a afla gradul în care zona de amplasare a magazinelor determină variaţia vânzărilor, vom calcula: x L ⋅ n L + x M ⋅ n M 30 ⋅ 400 + 20 ⋅ 200 16000 x= = = = 320 mil lei nL + nM 50 50
sx = d2 = x
2

s 2 n L + s 2 n M 2500 ⋅ 30 + 1600 ⋅ 20 107000 xL xM = = = 2140 nL + nM 50 50 nL + nM 50

(x L − x )2 n L + (x M − x )2 n M = (400 − 320)2 30 + (200 − 320)2 20 =
480000 = 9600 50
2

=

s 2 = s x + d 2 = 2140 + 9600 = 11740 x x

Aşadar
2 R% =

d2 x s2 x

100 =

9600 100 = 81,77% 11740

3.4.2.3. Dispersia unei variabile de tip alternativ

Pentru o variabilă de tip alternativ, sistematizată ca în tabelul 3.3, dispersia este:
2 s f = f (1 − f )

(3.55)

3.4.2.4. Abaterea medie pătratică

În studiul variabilităţii datelor se foloseşte rădăcina pătrată a dispersiei, indicator numit abaterea medie pătratică:

STATISTICĂ ECONOMICĂ

sx = s2 = x
r

i =1

¦ (x i − x )
n

2

n
2

(3.56)

pentru o serie simplă, iar pentru o serie de distribuţie de frecvenţe:
sx =
i =1

¦ (x i − x ) n i
i =1 r

¦ ni
2

r

(3.57)

sx =

i =1

¦ (x i − x ) n *% i
100

(3.58)

Abaterea medie pătratică (numită şi abatere tip, abatere standard, deviaţie standard sau ecart tip) este calculată ca o medie pătratică din abaterile termenilor seriei de la media lor. O regulă empirică ne spune că, pentru serii de distribuţie de frecvenţe cu tendinţă de normalitate (simetrice sau moderat asimetrice), abaterea medie liniară reprezintă aproximativ patru cincimi din abaterea medie pătratică:
dx ≈ 4 sx 5

(3.59)

iar abaterea semiintercuartilică aproximativ două treimi din abaterea standard:
A′ ≈ Q 2 sx 3

(3.60)

EXEMPLUL 3.13 Pe baza datelor din Exemplul 3.2, obţinem:
s x = s 2 = 911,4975 = 30,19 x d x 26,30 = ≈ 0,87 sx 30,19

minute

3.4.2.5. Coeficientul de variaţie

Pentru asigurarea comparabilităţii împrăştierii datelor se foloseşte expresia relativă a variabilităţii, coeficientul de variaţie:

CAPITOLUL 3
s v = x 100 x

(3.61)

Cu cât valoarea coeficientului de variaţie este mai mică, cu atât acest lucru semnifică o omogenitate crescută a datelor.
EXEMPLUL 3.14. Pentru seriile de date: A: 10; 11; 12; 13; 14; 15; 16 B: 60; 61; 62; 63; 64; 65; 66
vA = vB = sxA xA sx B xB 100 = 100 = 2 100 = 15,4% 13 2 100 = 3,2% 63

Evident, variabilitatea relativă este mai scăzută în seria B.
3.4.2.6. Interpretarea abaterii medii pătratice

O regulă empirică, care se aplică distribuţiei normale simetrice sau moderat asimetrice, ne spune că: — aproximativ 68%din valori se situează în intervalul x ± σ x ;
— aproximativ 95% din valori se situează în intervalul x ± 2σ x ; — aproximativ 99,8% din valori se situează în intervalul x ± 3σ x . (fig. 3.7)

y

≈13,5%

≈34%

≈34%

≈2,5% o ≈2,5% x-σ x x+σ x+2σ x+3σ x-3σ x-2σ Amplitudine

≈13,5%

x

Figura 3.7 - Relaţia dintre amplitudine şi abaterea medie pătratică

STATISTICĂ ECONOMICĂ

3.5. INDICATORI AI FORMEI DISTRIBUŢIEI

Forma unei distribuţii de frecvenţe se analizează, comparativ cu distribuţia ideală, normală, prin: indicatori asimetrici (oblicităţii) şi indicatori ai boltirii (excesului).
3.5.1. Indicatori ai asimetriei (oblicităţii) Asimetria, în valoare absolută, se poate măsura cu indicatorii:
AS = x − M 0

(3.62)

sau

A S1 = 3 x − Me

(

)

(3.63)

indicatori care au unitatea de măsură a variabilei studiate şi care sunt pozitivi sau negativi, în funcţie de tipul de asimetrie (coada mai lungă a distribuţiei spre valorile mari sau spre valorile mici).
Coeficientul de asimetrie (Pearson) este:
C as = x − M0 sx

(3.64)

coeficient care ia valori pozitive în cazul curbelor alungite spre dreapta (asimetrie pozitivă) şi valori negative în cazul curbelor alungite spre stânga (asimetrie negativă). Coeficientul de asimetrie poate să fie scris şi pe baza relaţiei dintre medie şi mediană:
C as1 = 3 x − Me sx

(

)

(3.65)

EXEMPLUL 3.15. Pentru datele din Tabelul 3.2, prelucrate, obţinem:
C as = x − M 0 57,45 − 69,74 = = −0,407 sx 30,19

şi

CAPITOLUL 3
C as1 = 3 x − Me 57,45 − 61 = = −0,118 sx 30,19

(

)

ceea ce semnifică o asimetrie negativă moderată (coada mai lungă a distribuţiei înspre valorile mici). Analiza oblicităţii (asimetriei) se poate face şi pe baza momentelor centrate de ordin 3: m 3 = i =1 sau, utilizând frecvenţe: m 3 = i =1
r

¦ (x i − x )
n

3

n
3

(3.66)

¦ (x i − x ) n i
i =1

¦ ni
2 m3

r

= i =1

¦ (x i − x ) n *% i
r 3

100

(3.67)

Coeficientul de asimetrie (Fisher) este:
γ1 = m3 s3 x = m3 2

(3.68)

Coeficientul γ 1 va avea valoare mai mare decât zero în cazul asimetriei pozitive, valoare mai mică decât zero în cazul asimetriei negative şi va fi egal cu zero în cazul seriei perfect simetrice.
3.5.2. Indicatorii de poziţie şi forma distribuţiei

O măsură alternativă asimetriei poate să fie dată şi de: ASQ=Q3+Q1-2Me (3.69)

dar, pentru a o exprima în coeficienţi adimensionali, o vom raporta la indicatorul de împrăştiere abaterea intercuartilică AQ (3.60) şi obţinem coeficientul de asimetrie (Yule şi Kendall): C asq =

(Q 3 − Me) − (Me − Q1 ) Q 3 + Q1 − 2Me = (Q 3 − Me) + (Me − Q1 ) Q 3 − Q1

(3.70)

STATISTICĂ ECONOMICĂ

Pe baza indicatorilor de poziţie se poate alcătui un rezumat al celor cinci indicatori, care oferă informaţii privind tendinţa centrală, dar şi forma distribuţiei studiate. Aceste cinci valori sunt: — valoarea, minimă xmin (denumită, uneori, percentila 0); — cuartila inferioară Q1 (delimitează cele mai mici 25% din valori); — mediana Me (delimitează50% din valori); — cuartila superioară Q3 (delimitează cele mai mari 25% din valori); — valoarea maximă xmax (denumită, uneori, a 100-a percentilă). Cele cinci valori se reprezintă grafic prin intermediul diagramei Box-Plot (fig. 3.8). Pe grafic pot fi marcate şi media şi modul.

X m in
25%

Q1
25%

Me
25%

Q3
25%

X m ax

Fig. 3.8 - Diagrama Box-Plot

3.6. MĂRIMI RELATIVE DEFINIŢIE: Mărimile relative reprezintă rezultatul comparării sub formă de raport a doi indicatori statistici: un indicator comparat (raportat) şi un indicator de bază de comparaţie (bază de raportare).

Forma generală a unei mărimi relative este:
x k 10 y unde: z reprezintă indicatorul relativ; x reprezintă indicatorul comparat; y reprezintă indicatorul bază de comparaţie; z=

(3.71)

CAPITOLUL 3

k reprezintă un număr întreg ce poate fi egal cu: k=0 şi atunci exprimarea se face în coeficienţi; k=2 şi atunci exprimarea se face în procente (%); k=3, k=4, k=5 ,exprimarea se face în promile (0/00), respectiv prodecimile (0/000) şi procentimile (0/0000).
3.6.1. Mărimi relative de structură Mărimile relative de structură se calculează sub forma unui raport între parte şi întreg, prezentând astfel structura colectivităţilor statistice sistematizate atât după variabile cantitative cât şi după variabile calitative. Mărimile relative de structură pot fi: greutăţi specifice (ponderi) şi frecvenţe relative. Greutatea specifică (ponderea) este:
g ix = xi
i =1

¦ xi

n

(3.72)

g ix % =

xi
i =1

¦ xi

n

100

(3.73)

şi ne arată ponderea nivelului caracteristicii dintr-o unitate în nivelul total al caracteristicii din colectivitatea statistică. Dacă datele au fost sistematizate pe grupe/clase, atunci greutatea specifică este:

g ix =

i =1 j=1 ni

¦ ¦ x ij ¦ x ij
100 (3.75)

j=1 r ni

¦ x ij
(3.74)

ni

g ix % =

i =1 j=1

¦ ¦ x ij

j=1 r ni

STATISTICĂ ECONOMICĂ

EXEMPLUL 3.16: Pentru trei filiale ale unei firme s-au cules şi sistematizat date privind producţia zilnică realizată de muncitori (Tabelul 3.8)
Judeţul/Filiala
0

Număr de muncitori
1

Tabelul 3.8 Producţia individuală (buc.)
2

Alba/A Bacău/B Constanţa/C

4 3 6

120;130;120;90 80;120;100; 140;70;90;100;110;120 Tabelul 3.9 Structura colectivităţii de muncitori (%)
3

Filiala
0

Producţia pe filială (buc.)
1

Structura producţiei pe filiale (%)
2

A B C Total

460 300 630 1390

33,09 21,58 45,33 100,00

30,77 23,08 46,15 100,00

Tot mărimi relative sunt şi frecvenţele relative.
3.6.2. Mărimi relative de coordonare Mărimile relative de coordonare se calculează ca un raport între două niveluri ale aceluiaşi indicator statistic, niveluri situate pe aceeaşi treaptă de agregare: unitate, grupă, colectivitate statistică. x (3.76) k ix j = i xj

Rezultatul ne arată de câte ori este mai mare (dacă rezultatul este supraunitar), sau mai mic (dacă rezultatul este subunitar) nivelul variabilei în unitatea (grupa, colectivitatea) i faţă de nivelul variabilei în unitatea (grupa, colectivitatea) j. Exprimarea rezultatului mărimii relative de coordonare (numită şi raport de coordonare) se poate face şi în procente . Reprezentarea grafică a mărimilor relative de coordonare se face prin intermediul diagramei prin benzi, coloane ori suprafeţe.

CAPITOLUL 3

Pe baza datelor din Tabelul 3.8, col. 1 şi din Tabelul 3.9, col.1,obtinem (vezi Tabelul 3.10):
Filiala
0

Tabelul 3.10 Raport de coordonare Pentru numărul de muncitori Pentru producţie
1 2

A B C

1,33 1,00 2,00

1,53 1,00 2,10

3.6.3. Mărimi relative de intensitate Mărimile relative de intensitate au forma generală: x z= y

(3.77)

La nivelul întregului (alcătuit din unităţi, grupe etc.):
Z=
i =1 n i =1

¦x ¦y

n

=

i =1 n

¦ z⋅y
i =1

n

=

¦y

i =1

¦ z ⋅gi

n

y

(3.78)

Reprezentarea grafică a mărimilor relative de intensitate se face cu ajutorul diagramelor prin coloane, prin benzi ori prin suprafeţe. Pe baza datelor din Tabelul 3.8, col.1 şi Tabelul 3.9, col.1, putem calcula producţia obţinută de un muncitor (bucăţi pe muncitor) (Tabelul 3.11):
Filiala
0

Tabelul 3.11 Productivitatea muncii (buc./muncitor)
1

A B C Total

115 100 105 106,92

STATISTICĂ ECONOMICĂ

3.6.4. Mărimi relative de dinamică Mărimile relative de dinamică sunt folosite pentru analiza evoluţiei în timp a fenomenelor social-economice. x x i 1 0i = 1i (3.79) x 0i x x i 1 0 = 1i 100 (3.80) x 0i De remarcat că, la nivel totalizator (de întreg), calculăm indicii întruna din variantele: - ca medie aritmetică a indicilor individuali:
Σ I1 x = 0 i =1 n

¦ x1i

n

i =1

¦ x 0i

x x = ¦ i1 0i g 0i = i=1

n

i =1

x ¦ i1 0i x 0i

n

i =1 n

¦ x 0i

n

(3.81)

- ca medie armonică a indicilor individuali:
Σ I1 x = 0

¦ x i =1 i1 0i

n

1 1

=
x g1i

¦ x i =1 i1 0i

n

i =1

¦ x1i
1
x x1i

(3.82)

Evident, pentru o exprimare procentuală, rezultatele se înmulţesc cu 100. Reprezentarea grafică a mărimilor relative de dinamică se poate face prin diagrama prin coloane, benzi, ori suprafeţe.
3.6.5. Mărimi relative ale planului (prevederilor) Mărimile relative ale planului sunt: — mărimea relativă (indicele) sarcinii programate:
x i p 0i =

x pi x 0i

(3.83)

CAPITOLUL 3
x i p %i = 0

x pi x 0i

100

(3.84)

— mărimea relativă (indicele) realizării prevederilor (programului):
x i 1 pi =

x 1i x pi x 1i 100 x pi

(3.85)

x i1 % = pi

(3.86)

Se observa ca:
x x i p %i ⋅ i 1 % = 0 pi

x pi x 1i x 1i x ⋅ = = i 1 0i x 0i x pi x 0i

(3.87)

Reprezentarea grafică a mărimilor relative ale prevederilor se face cu ajutorul diagramei prin coloane, benzi ori suprafeţe.

STATISTICĂ ECONOMICĂ

Întrebări recapitulative 1. Ce este indicatorul statistic? 2. Care sunt funcţiile indicatorilor statistici? 3. Ce sunt indicatorii statistici? Cum se obţin ei? 4. Ce sunt indicatorii tendinţei centrale? 5. Care sunt principalele tipuri de indicatori ai tendinţei centrale? 6. Media aritmetică: definiţie, proprietăţi, observaţii, utilizări. 7. Care sunt indicatorii de poziţie? 8. Modul: definiţie, calcul, utilizări, proprietăţi. 9. Mediana: definiţie, calcul, utilizări, proprietăţi 10. Cum se determină mediana pentru o serie de distribuţie pe variante? Dar pe intervale de variaţie? 11. Analiza comparativă a celor trei indicatori ai tendinţei centrale. 12. Ce sunt cuantilele? 13. Care este semnificaţia cuantilelor de ordin 4? 14. Media armonică: definiţie, calcul, utilizări, proprietăţi. 15. Media pătratică: definiţie, calcul, utilizări, proprietăţi. 16. Media geometrică: definiţie, calcul, utilizări, proprietăţi. 17. Ce se înţelege prin variabilitatea datelor statistice? 18. Necesitatea măsurării variabilităţii. 19. Ce este amplitudinea datelor? Calcul şi interpretare. 20. Care sunt indicatorii simpli ai variabilităţii? 21. Ce reprezintă abaterea medie liniară? 22. Dispersia: determinare, observaţii, proprietăţi. 23. Cum se determină media şi dispersia unei variabile alternative? 24. Cum se determină abaterea medie pătratică? Semnificaţie, utilizări. 25. Coeficientul de variaţie: calcul, utilizări. 26. Cum se compune dispersia pentru o serie structurată în serii componente? 27. Cum se interpretează abaterea medie pătreatică folosind regula empirică? 28. Ce reprezintă oblicitatea unei repartiţii? 29. Cum se analizează asimetria (oblicitatea) unei repartiţii? 30. Cum se analizează boltirea/aplatizarea unei repartiţii? 31. Cum se poate studia forma distribuţiei folosind indicatorii de poziţie? 32. Cum se construieşte şi interpretează diagrama Box-Plot? 33. Cum se obţin indicatorii statistici derivaţi? 34. Ce sunt mărimile relative?

CAPITOLUL 3

35. Mărimile relative de structură: definiţie, utilizare, reprezentare grafică, exemple. 36. Mărimile relative de coordonare: definiţie, utilizare, reprezentare grafică, exemple. 37. Mărimile relative de intensitate: definiţie, utilizare, reprezentare grafică, exemple. 38. Mărimile relative de dinamică: definiţie, utilizare, reprezentare grafică, exemple. 39. Mărimile relative ale planului: definiţie, utilizare, reprezentare grafică, exemple. 40. Care sunt cele trei proprietăţi pe care urmărim să le analizăm şi să le descriem în analiza unui set de date numerice?

Sign up to vote on this title
UsefulNot useful