You are on page 1of 79

Statistică – curs universitar ID

Capitolul 1

INTRODUCERE ÎN STATISTICĂ
CONŢINUT:

1. Apariţia şi dezvoltarea statisticii


2. Obiect şi metodă
3. Concepte de bază folosite în statistică

REZUMAT: În prima parte a cursului sunt trecute in revista


principalele momente ale istoriei îndelungate a acestei importante
ştiinţe, fiind prezentate succint rădăcinile istorice ale statisticii
moderne. Partea a doua a cursului, esenţială pentru tot ce va urma ,
defineşte obiectul şi metoda de studiu ale Statisticii. În partea a treia
sunt descrise conceptele de bază utilizate în Statistică : colectivitatea,
unitatea statistică, variabila, indicatorul statistic.

1. APARIŢIA ŞI DEZVOLTAREA STATISTICII


Statistica este o ştiinţă, având un obiect propriu de studiu şi o
metodologie bine dezvoltată, în multe privinţe dedicată, dar având şi
puncte comune cu ale altor ştiinţe. Ea studiază aspectele cantitativ -
numerice ale fenomenelor şi proceselor naturale , tehnologice şi mai
ales sociale ,cu un accent deosebit pe partea economică, statistica
economică având un rol bine determinat în cadrul statisticilor sociale.
Cunoaşterea şi transformarea istorică a societăţii omeneşti a
constituit şi constituie obiectul primordial de preocupare al tuturor
ştiinţelor.
De-a lungul evoluţiei istorice a ştiinţelor asistăm la un proces de
diferenţiere a acestora, pe de o parte prin cristalizarea unor noi ramuri
în cadrul ştiinţelor clasice cu metodologie în permanentă evoluţie, pe
de altă parte la apariţia şi dezvoltarea unor ştiinţe noi, acest proces de
diferenţiere fiind continuu şi practic infinit ,dacă procesul evoluţiei
umane are această caracteristică.
Alături de medicină şi matematică ,statistica este una dintre cele
mai vechi ştiinţe ,cercetătorii neputând aprecia decât la scara unor
aproximări grosolane care ar putea fi epoca istorică căreia omenirea îi
datorează apariţia statisticii ca ştiinţă distinctă.
În cadrul evoluţiei ei ,statistica şi-a cristalizat treptat un rol
aparte ,studiind fenomenele într-o viziune sistematică la nivelul micro,
mezzo şi macrosistemic.
Rădăcinile istorice ale statisticii moderne sunt următoarele:
a) statistica practică;
b) statistica descriptivă;

Statistica modernă.
c) aritmetica politică; Rădăcinile istorice ale
d) calculul probabilităţilor. statisticii moderne.
Aritmetica politică şi calculul probabilităţilor alcătuiesc baza Baza conceptuală a
statisticii.
conceptuală a statisticii aducând contribuţii decisive în analiza şi
modul de interpretare statistică a fenomenelor naturale şi socio-
economice.

3
Statistică – curs universitar ID

a) Statistica practică: se pierd practic în timp primele izvoare


ale statisticii, existând diverse forme de statistică cu o vechime de
peste 4 milenii. Scopurile statisticii practice erau în primul rând fiscale
dar şi cele demografice şi administrative. Astfel ,în Egiptul antic se
practica inventarierea aurului şi a pământului din doi în doi ani
inventariere prezentă în principal între anii 2650-2190 pe cursul
Nilului inferior.
În China antică în mileniul 4 şi 3 î. Hr. se făcea recensământul
populaţiei. Acelaşi recensământ al populaţiei s-a practicat şi la romani
în timpul Republicii ,în jurul anului 550 î.e.n. Practic recensământul
populaţiei şi al diferitelor forme ale avuţiei constituiau primele forme
de statistică organizată.
b) Statistica descriptivă este cea mai veche rădăcină teoretică a
statisticii. Ea a apărut în universităţi şi s-a ocupat în principal de
descrierea situaţiei geografice, demografice, economice şi politice ale
unui stat.
Reprezentanţii de seamă ai şcolii statisticii descriptive sunt:
Francisco Sansovino (1521-1586), Giovanni Bottero (1540-1617),
Herman Conring (1606-1681), acesta scriind primul curs de statistică,
Gottfried Achenwall (1719-1772), considerat părintele statisticii,
deoarece a dat numele acestei ştiinţe pornind de la cuvântul „status"
(care în latina înseamnă "stare".)
Statistica descriptivă a determinat apariţia statisticilor naţionale
în cadrul oficializat. Prima ţară în care apare statistica naţională este
Suedia (1796); urmeazţ Norvegia (1797) , apoi Franţa (1800).
c) Aritmetica politică îi are ca principal reprezentant pe
matematicianul şi statisticianul William Petty (1623-1687) , care în
1690 publică o carte intitulată chiar “Aritmetica politică”. Deşi
coexistente în timp, aritmetica politică diferă total de statistica
descriptivă ,tinzând spre exactitate şi cunoaştere socială, obiectivul ei
principal constituindu-l cunoaşterea regularităţilor în evoluţia
fenomenelor şi proceselor naturale şi socio-economice.
Întemeietorul şcolii aritmeticii politice este considerat John
Ground (1620-1674) ,care a căutat regularităţi în mortalitatea şi
natalitatea din Londra ,în jurul anului 1600.
Între 1796-1874 în Franţa trăieşte Louis Quetelet, considerat de
mulţi cercetători fondatorul statisticii moderne pentru că e primul care
materializează utilizarea metodelor cantitativ numerice şi analiza
statistică. Caracteristic pentru statistica din mijlocul secolului al 18-lea
şi începutul secolului al 19-lea este folosirea metodei matematice şi a
) calcului probabilităţilor în aşa numita statistică inductivă, ai cărei
promotori sunt: Fischer, Youle, Pearson, Cebâşev, Markov. Aceasta
Statistica inductivă.
este etapa care cristalizează statistica în forma ei ştiinţifică şi în care
creşte foarte mult aria de cuprindere şi aplicabilitate a acesteia.

2. OBIECTUL SI METODA STATISTICII

În toate fazele evoluţiei sale, statistica studiază fenomene de


masă sau de tip colectiv. Ea este în principal interesată de natura
rapoartelor de cauzalitate, complexitatea demersului statistic existând
datorită faptului că ,în general, un efect este produsul mai multor
cauze, iar acestea se întrepătrund şi se intercondiţionează

4
Statistică – curs universitar ID

reciproc, făcând dificilă discernerea cantitativă a relaţiei cauză-efect


,care este în ultimă instanţă drumul oricărei ştiinţe. Fenomenele de
masă aparţin unor forme superioare de organizare a materiei.
Ele apar în general ca o mulţime de forme individuale diferite,
care în aparenţă nu au nici un fel de legături între ele. Pentru a
descoperii legea de apariţie, nu sunt suficiente numai metode
experimentale, ca în cazul fenomenelor de tip determinist. Procesul
descoperirii legii de apariţie este un proces dificil ,cu multe influenţe
în determinări ,astfel încât legea de apariţie în cazul fenomenelor de
masă se verifică pe ansamblu şi nu în fiecare caz particular.

Principala proprietate a fenomenelor de masă este


variabilitatea în timp şi spaţiu, precum şi posibilitatea apariţiei într-o
multitudine de forme organizatorice.

Legea apariţiei se bazează în cazul acestor fenomene pe aşa-


numita lege a numerelor mari, care presupune că pentru
descoperirea legăturii dintre cauză şi efect trebuie studiată o
mulţime relativ mare de evenimente distincte ale aceluiaşi
fenomen sau proces, fie el natural, fie social sau economic.
Particularităţile statisticii sunt următoarele:
a) statistica studiază fenomenele de masă din punctul de vedre
al variabilităţii lor în timp şi spaţiu şi sub raport organizatoric;
b) caracterizează latura cantitativ-numerică a fenomenelor şi
nu ierarhizează atributele calitative ale acestora.

Prin definiţie, obiectul de studiu al statisticii este constituit


din aspectele cantitative ale determinărilor calitative ale

Definiţia obiectului de
fenomenelor de masă, fenomene care sunt expuse acţiunii legilor studiu al statisticii.
statistice, care se manifestă în condiţii concrete, variabile în timp,
spaţiu şi în raport cu formele de organizare socio-economică.

Principalele ramuri de statisticii sunt :


¾ statistica economică;
¾ statistica teoretică;
¾ statistica matematică;
¾ statistica indicilor sociali;
¾ statistica serviciilor;
¾ statistica mediului înconjurător;
¾ statistici teritoriale.

Prin metodologie statistică se înţelege totalitatea operaţiilor,


tehnicilor şi procedeelor de calcul şi interpretare statistică. Pe baza
acestei metodologii statistica devine un instrument eficient şi
indispensabil tuturor ştiinţelor empirice. La limită , toate legile şi
legităţile ştiinţelor empirice sunt legi statistice ,pentru că se bazează pe
un număr suficient de mare de observaţii independente ale realităţii
pentru a fi descoperite.

Statistica se perfecţionează continuu, într-un proces complet


dialectic. Într-o concepţie modernă ea trebuie privită ca o ştiinţă de

5
Statistică – curs universitar ID

graniţă care asigură cercetării ştiinţifice un caracter interdisciplinar,


într-un proces de cvasireciprocitate cu multe alte ştiinţe.

3. CONCEPTE DE BAZĂ FOLOSITE ÎN


STATISTICĂ

Principalele concepte folosite în statistică sunt următoarele:


) 1. colectivitatea statistică;
2. unitatea statistică;
Principalele concepte
folosite în statistică. 3. variabila (caracteristica) statistică;
4. indicatorul statistic.

1. Colectivitatea statistică, numită şi populaţie statistică,


reprezintă masa totală sau globală a evenimentelor distincte din cadrul
unui fenomen sau proces natural sau socio-economic ,supus cercetării
statistice.
Colectivitatea este de doua feluri :
- colectivitate totală;
- colectivitate parţială.
Colectivitatea totală reprezintă situaţia în care toate apariţiile
fenomenelor şi proceselor cu aceeaşi caracteristică studiată sunt
supuse cercetării .
Colectivitatea parţială reprezintă situaţia în care doar o parte
din manifestările individuale vor intra sub incidenţa cercetării
statistice.
Ambele colectivităţi pot fi statice sau dinamice ,în funcţie de
variabilitatea lor în timp.
2. Prin unitate statistică se înţelege entitatea componentă a
unei colectivităţi, purtătoare a unei însuşiri care o face interesantă
studiului statistic.
Unitatea statistică poate fi:
- simplă (unitatea student in colectivitatea grupă);
-complexă (unitatea grupă în universitate).
3. Variabila statistică, numită şi caracteristică statistică,
reprezintă atributul sau însuşirea pe care o are unitatea statistică şi
care este supusă cercetării statistice, fiind de mai multe tipuri:
- variabile de timp (an, lună, zi, etc.);
- variabile de spaţiu (unităţile administrativ-teritoriale);
- variabile atributive.
Variabilele atributive sunt de 2 tipuri
- alternative;
- nealternative.
Variabilele alternative sunt cele care au doar două posibilităţi
de reprezentare (da-nu, 0-1, alb-negru), ele grupându-se la rândul lor
în variabile :
- numerice;
- nenumerice (alfanumerice).
Variabilele nealternative acoperă întreaga gamă de trăsături şi
caracteristici calitative ale fenomenelor care pot fi studiate cantitativ.

Şi ele la rândul lor se clasifică în variabile numerice şi


nenumerice. Variabilele nealternative numerice sunt de două tipuri :
6
Statistică – curs universitar ID

- continue;
- discontinue (discrete).

4. Indicatorii statistici reprezintă măsura numerică a


variabilelor statistice.
Indicatorii statistici sunt de două tipuri :
- indicatori primari;
- indicatori derivaţi.
Indicatorii primari sunt extraşi direct din realitatea sub toate
formele ei de organizare.
Indicatorii derivaţi sunt obţinuţi prin transformarea logico-
matematică a indicatorilor primari , ei găsindu-se sub următoarele
forme:
- indicatori absoluţi;
- indicatori relativi;
- mediile statistice;
- indicii statistici;
- ecuaţiile de estimare.

7
Statistică – curs universitar ID

8
Statistică – curs universitar ID

Capitolul 2

CENTRALIZAREA ŞI GRUPAREA DATELOR


STATISTICE

OBSERVAREA ŞI PRELUCRAREA ÎN STATISTICĂ

CONŢINUT:
1. Locul şi rolul observării în cadrul cercetării statistice;
2. Structura şi funcţionarea sistemului informaţional
statistic;
3. Metode de observare statistică;
4. Proiectarea unei observări statistice;
5. Eroarea în statistică;
6. Generalităţi privind prelucrarea statistică;
7. Planul prelucrării statistice;
8. Tehnici de prelucrare.

Rezumat: In prima parte a acestui capitol este definită


cercetarea statistică şi sunt fixate locul şi rolul observării ca etapă de
început a cercetării. În continuare se prezintă, fără detalii inutile,
structura şi funcţionarea sistemului informaţional statistic în cadrul
sistemului informaţional economic general. Sunt apoi trecute în
revistă principalele metode de observare statistică , precum şi etapele
proiectării unei observări; întru-cât în etapa observării se strecoară
cele mai multe erori, este definită eroarea în statistică şi este
prezentată cazuistica erorilor statistice.
Partea a doua a capitolului este rezervată prelucrării statistice.
După definirea prelucrării sunt prezentate etapele unei prelucrări, apoi
sunt detaliate principalele tehnici de prelucrare utilizate în practica
statistică.

1. Locul şi rolul observării în cadrul


cercetării statistice

Economia de piaţă înseamnă o realitate economică în care


dominante printre variabile sunt riscul şi incertitudinea . Procesele
economice care îngemănează şi concură la ceea ce în mod generic
numim piaţă sunt extrem de complexe, permiţând vehicularea unui
volum imens de informaţii , în cadrul unor subprocese de reglare , a
căror bună funcţionare depinde de cunoaşterea veridică a realităţii.
Nevoia de informaţii în special în domeniul economic este în
continuă creştere de unde derivă nevoia organizării şi structurării
acestor informaţii.
Se apreciază în general că volumul de cunoştinţe al omenirii se
dublează la fiecare 4-5 ani, procesul în economie având un ritm mult
mai alert, cunoştinţele economice dublându-se la fiecare interval de 2
ani aproximativ. În consecinţă economia poate fii văzută ca o sumă de
fluxuri permanente de informaţie care pleacă de la furnizori, sunt
prelucrate de unităţi şi instituţii mai mult sau mai puţin specializate,
ajungând apoi la beneficiarii acestor informaţii care le analizează, le
9
Statistică – curs universitar ID

interpretează şi emană decizii. Datele şi informaţiile necesare


cunoaşterii procesului de dezvoltare a economiei şi a societăţii în
general se elaborează în cadrul sistemului informaţional statistic.
) Acest sistem informaţional cuprinde 2 elemente de bază:
1. Subsistemul informărilor statistice periodice
Sistemul informaţional
static. (cunoscut odinioară ca subsistem al dărilor de seamă statistice);
2. Subsistemul cercetărilor statistice special organizate.
Prin definiţie cercetarea statistică înseamnă totalitatea
 acţiunilor depuse în cadrul unor organizaţii şi organisme
specializate create în acest scop, desfăşurate prin operaţii corelate,
Definiţia cercetării temeinic organizate şi riguros programate.
statistice.
În literatura de specialitate, cercetarea statistică mai este
întâlnită şi sub numele de investigaţie statistică sau demers statistic.
Într-o altă formulare cercetarea statistică reprezintă totalitatea
operaţiunilor de culegere şi observare, sistematizare şi prelucrare,
stocare şi regăsire, analiză şi interpretare a informaţiilor necesare
pentru cunoaşterea şi conducerea proceselor social economice.
Începutul oricărei cercetări statistice este constituit de faza
culegerii, adunării efective a datelor necesare. Aceste date se regăsesc
în principal în evidenţele financiar-contabile ale instituţiilor
patrimoniale de stat sau private ale instituţiilor publice (de stat şi
particulare).
Pe lângă aceste surse de date, fiecare gospodărie a populaţiei
poate fii privită ca o mică întreprindere, ca un mic agent economic,
furnizor de date şi informaţii statistice. Prin observarea statistică se
înţelege după o metodologie unitară pentru toate unităţile populaţiei
cercetate a valorilor şi variantelor caracteristicilor incluse în
programul cercetării.
Observarea statistică se desfăşoară prin metode specifice
diferite ca formă şi conţinut, şi anume :
a) înregistrarea directă a descrierilor prin date a
fenomenelor socio-economice;
b) înregistrarea indirectă pe bază de chestionare în general
completate benevol;
c) înregistrarea directă pe bază de documente.
Prin identificarea şi separarea etapei observării statistice,
cercetarea statistică în ansamblul ei se conturează ca un demers
ştiinţific separabil în 3 etape succesive şi anume:
A) observarea sau înregistrarea datelor;
B) prelucrarea şi obţinerea indicatorilor statistici şi a celor
derivaţi;
C) analiza şi interpretarea rezultatelor cercetării.
Aceste etape se desfăşoară separat în timp şi loc şi se
condiţionează din punct de vedere al volumului şi locului.
Principiul care urmăreşte toate etapele este principiul
autenticităţii datelor necesar a fi respectat încă din faza de observare.
În multe ţări civilizate, transmiterea cu bună ştiinţă sau din
neglijenţă a unor date statistice eronate către foruri îndreptăţite prin
lege a le prelua, se pedepseşte aspru prin normativele legale în
vigoare.

10
Statistică – curs universitar ID

2. Structura şi funcţionarea sistemului


informaţional statistic
Culegerea şi prelucrarea datelor constituie acte
permanente de conducere sau în slujba conducerii. Din această
caracteristică importantă a lor derivă necesitatea procurării şi
preparării informaţiilor pe baze organizatorice sănătoase. Această
cerinţă este satisfăcută prin intermediul sistemului informatic statistic,
conceput şi organizat ca subsistem al sistemului de conducere al
organizaţiilor şi organismelor economico-sociale.
Sistemul informaţional al oricărei unităţi are o structură extrem
de complexă, în care se integrează mai multe subsisteme.
Unul dintre aceste subsisteme, cu rol primordial în procesul
conducerii este Subsistemul Informaţiilor Economice (SIE). Acesta
include la rândul său componenta financiar-contabilă, compartimentul
de programare a producţiei şi urmărire a ei, compartimentul de
personal, componenta comercială şi de marketing.
Un alt subsistem este Subsistemul Informaţional Statistic
care are următoarele caracteristici : 
a) utilizează metode şi procedee de observare şi prelucrare a Caracteristicile
datelor de masă precum şi de modelare şi analiză Subsistemului
Informaţional Statistic.
statistică a acestora;
b) se desfăşoară în principal pentru urmărirea proceselor
economice , fapt din care derivă importanţa statisticii
economice în cadrul ramurilor statisticii ;
c) participă la efectuarea cercetărilor statistice special
organizate.
Suportul material al Sistemului Informaţional Statistic este
astăzi reprezentat de tehnica de calcul care introduce o serie de
facilităţi, atât în sensul creşterii vitezei de calcul şi transmitere a
informaţiei, cât şi în sensul unei creşteri substanţiale a posibilităţilor
de înmagazinare şi stocare a datelor.
Avantajele suportului material informatizat sunt cu mult
potenţate de oferirea unor programe inteligente, specializate atât în
calcul statistic cât şi în analiza şi interpretarea datelor statistice.
Din punct de vedere instituţional, activitatea statistică naţională
în România este acoperită prin existenţa unui organism central ,
Agenţia Naţională de Statistică (ANS). La nivel judeţean există aşa
numitele Direcţii Judeţene pentru Statistică (DJS), organisme
centralizate în teritoriu, cu rol primordial în culegerea datelor statistice
necesare subsistemului informărilor periodice, dar şi în organizarea
unor cercetări speciale pe cont propriu sau participarea la cercetările
organizate de instituţia centrală.
Datele şi informaţiile statistice sunt organizate în baze de date
şi bănci de date.
Datele de intrare în aceste bănci şi baze de date constituie
indicatori primari. Indicatorii primari agregaţi , în general prin
operaţiuni de însumare, precum şi indicatorii derivaţi , se obţin din
indicatori elementari prin interogarea bazei de date respective.

11
Statistică – curs universitar ID

3. Metode de observare statistică


Observarea statistică îmbracă forme variate, potrivit naturii
fenomenelor studiate, scopului urmărit, modului de organizare a
activităţii economico-sociale şi posibilităţilor practice de cuprindere
şi înregistrare. Ele sunt următoarele:
a) recensământul: cea mai veche metodă de observare
statistică. El a început să se aplice cu referire la populaţie,
extinzându-se treptat şi în domeniul economic.
Recensământul reprezintă practic o fotografiere a unui
fenomen la un moment dat, numit moment critic. Este o
observare totală care se desfăşoară cu o anumită
periodicitate, care este în România de 10 ani la populaţie
şi de 5 ani în domeniul economic. Recensământul se
desfăşoară după o metodologie proprie, relativ vastă care
trebuie să asigure comparabilitatea datelor şi să corespundă
standardelor interne şi internaţionale în domeniu.
Asigurarea recensământului se face printr-o lege specială
care stabileşte programul, metodologia şi fondurile. Pentru
reuşita recensământului foarte importantă este alegerea
momentului critic, alegere care trebuie făcută astfel încât în
acel moment populaţia statistică să aibă maximul de
stabilitate. În general, momentul critic diferă în timp de
perioada de înregistrare.
b) sistemul informărilor statistice periodice (sistemul
rapoartelor statistice): asigură în principal datele necesare
mersului economiei în sectorul public. Informările se fac
pe documente oficiale, înscrise pe formulare tipizate , cu
forma şi conţinutul stabilite prin lege. Indicatorii cuprinşi
în aceste formulare sunt definiţi în termen şi conţinut prin
nomenclatoare speciale de indicatori. Această observare
este totală , pe bază de documente, iar în cadrul ei , falsul
se pedepseşte.
c) sondajul statistic: este utilizat din diferite motive.
Observarea totală trebuie înlocuită cu o observare parţială
efectuată pe o subcolectivitate numită eşantion. Aceasta
trebuie să îndeplinească o aşa numită condiţie de
reprezentativitate, care cere ca în cadrul eşantionului să se
întâlnească aceleaşi proprietăţi, structuri, trăsături esenţiale
şi valori tipice ca şi în cadrul populaţiei totale. În cadrul
metodei sunt des întâlnite aşa numitele erori de sondaj sau
de reprezentativitate , induse de modalităţile de formare a
eşantionului . Sondajul este o metodă selectivă, utilizată în
studiul bugetelor de familie, înregistrarea preţurilor de pe
piaţa liberă, controlul statistic al calităţii mărfurilor , etc.
d) ancheta statistică: este metoda prin care sunt culese
informaţiile de la populaţie, prin utilizarea unor chestionare
trimise direct sau prin poştă. Răspunsul la aceste
chestionare este benevol, iar metoda se utilizează pentru
obţinerea unor informaţii orientative cu caracter
preliminar.

12
Statistică – curs universitar ID

e) observarea părţii principale sau a masivului principal


de date: reprezintă o metodă de observare special
organizată , parţială , aplicată pentru obţinerea operativă a
informaţiilor despre o populaţie structurată pe grupe, cu o
importanţă diferită. În cadrul metodei se înregistrează
datele numai pentru grupele cu cea mai mare pondere.
f) monografia: metodă prin care se studiază în mod
aprofundat o unitate economică, socială, teritorială, în
cadrul căreia au apărut elemente noi în modul de
organizare al producţiei şi al muncii, în derularea
activităţii. Monografia are un caracter mult mai larg,
cuprinzând şi elemente de prelucrare şi analiză.
Metodele de observare prezentate pot fi utilizate fie împreună ,
fie separat, în funcţie de volumul informaţiei necesare.

4. Proiectarea unei observări statistice


Observarea presupune efectuarea unor cheltuieli consistente ,
motiv pentru care se pune serios problema desfăşurării ei eficiente.
Punctul de plecare în proiectarea unei observări este stabilirea
obiectivelor acesteia, care derivă din scopul cercetării:
a) delimitarea populaţiei studiate: etapă importantă
deoarece costurile sunt proporţionale cu valoarea acestora.
b) definirea unităţii de observare, ca unitate simplă sau
complexă ;
c) stabilirea programului observării, sub forma însuşirii
caracteristicilor pentru care vor fi înregistrate date.
Formularele pe care se face înscrierea sunt de două tipuri:
♦ de tip fişă ;
♦ de tip listă.
Fişa este un formular individual care se completează pentru
o singură unitate, atunci când programul de observare este mai bogat.
Lista este un formular colectiv în care se înregistrează
răspunsurile pentru mai multe unităţi concentrate parţial.
Înregistrările din fişe şi din liste dispun de norme
metodologice şi tehnici de completare individuale.
d) timpul observării : se stabileşte prin diferenţierea timpului
la care se referă datele , numit şi moment critic, de
perioada în care se desfăşoară observarea propriu-zisă.
e) delimitarea spaţială a locului observării ;
f) stabilirea măsurilor organizatorice care se impun pentru
buna desfăşurare a observaţiei.

13
Statistică – curs universitar ID

5. Eroarea în statistică
Ca în toate domeniile, eroarea este prezentă şi în statistică. Din
acest motiv controlul calităţii datelor statistice trebuie realizat pe
parcursul cercetării statistice.
Notând cu x0 o valoare reală şi cu x o valoare statistică
determinată, valoarea

e = x – x0

) se numeşte eroare absolută.


Eroarea absolută.
Eroarea relativă. Valoarea:

e = x / x0

se numeşte eroare relativă.

Eroarea relativă poate fi exprimată şi în procente.


În statistică se operează cu noţiunea de eroare absolută
limită; modulul erorii absolute trebuie să nu depăşească eroarea
absolută limită:

IeI <= ε

6. Generalităţi privind prelucrarea datelor


statistice

Prelucrarea statistică este etapa cercetării în care se


trece de la datele individuale, obţinute în etapa observării la indicatorii
care caracterizează colectivitatea în întregul ei sub formă de indicatori
totalizatori, absoluţi sau indicatori derivaţi.
De regulă aceşti indicatori sunt calculaţi ca valori sintetice
obţinute prin aplicarea unor abstractizări şi comparări succesive prin
care se elimină ceea ce este întâmplător şi neesenţial în apariţia şi
dezvoltarea fenomenelor studiate.
Prin prelucrare se obţine sistemul de indicatori statistici ca parte
integrantă a sistemului informaţional naţional necesar pentru
fundamentarea deciziilor la toate nivelurile de conducere. Conţinutul
prelucrării unei observaţii se rezumă la următoarele elemente:
a) centralizarea materialului observării
b) gruparea unităţilor colectivităţii după anumite criterii
şi reguli
c) obţinerea sistemului de indicatori care caracterizează
fiecare grup şi întreaga colectivitate.
d) prezentarea rezultatelor prelucrării sub formă de serii,
tabele şi grafice.

14
Statistică – curs universitar ID

7. Planul prelucrării statistice


Planul sau programul prelucrării întregului material al unei
observări statistice cuprinde următoarele: programul propriu-zis al
prelucrării; metodele şi procedeele de calcul statistic care vor fi
aplicate pentru calculul sistemului de indicatori; formele de prezentare
ale rezultatelor prelucrării; aspectele organizatorice ale acesteia.
a) programul prelucrării: constă în enumerarea
caracteristicilor primare şi derivate care se folosesc pentru
calcularea indicilor totalizatori şi derivaţi.
b) metodele şi procedeele de calcul: se aleg pentru fiecare
prelucrare în parte în funcţie de scopul cercetării, de natura
specifică a fenomenelor şi de specificul şi de volumul
informaţiilor disponibile. Scopul principal al aplicării
metodelor de prelucrare statistică îl constituie redarea
într-o imagine cât mai sintetică şi cât mai obiectivă a
fenomenelor studiate corespunzând într-un sens mai larg
noţiunii de modelare statistică.
c) formele de prezentare ale rezultatelor statistice sunt:
seriile, tabelele statistice şi graficele.

Seriile statistice-sunt liste paralele, în prima listă fiind


înregistrată valoarea
caracteristicii, iar în celelalte ori alte valori caracteristice derivate ori
numărul de operaţii corespunzătoare fiecărei valori în parte, numit
generic frecvenţă.
(
- Serii statistice
Tabelele statistice-cuprind mai multe caracteristici ale - Tabele statistice
aceleiaşi unităţi, fiecărei - Grafice statistice
caracteristici putându-I fi ataşată eventual şi o informaţie referitoare la
numărul de operaţii.
Graficele statistice-sunt de diverse tipuri, cele mai frecvente
făcând legătura între
valorile caracteristicii şi frecvenţa de apariţie.

Există grafice reprezentate prin bare verticale care au în


general frecvenţa pe ordonată şi caracteristica pe abscisă. Altele au
bare orizontale iar frecvenţă este pe abscisă.
Reprezentarea grafică a dependenţei dintre caracteristică şi
frecvenţă se numeşte histogramă. Dacă unim mijloacele segmentelor
din barele orizontale sau verticale se obţine poligonul frecvenţelor.
Atunci când una din variante este timpul, graficul se numeşte
historiogramă sau cronogramă. Cronograma este utilizată în general
pentru prezentarea seriilor cronologice.
d) problemele organizatorice ale prelucrării: se referă la
locul şi timpul, unde şi când se face prelucrarea, la
transmiterea rezultatelor şi la resursele angrenate.

15
Statistică – curs universitar ID

8. Tehnici de prelucrare

Prelucrarea statistică uzează de tehnici specializate, motiv pentru


care se desfăşoară în instituţii specializate. Dezvoltarea rapidă a
tehnicii de calcul a pus la dispoziţia statisticii un instrumentar adecvat,
atât în ceea ce priveşte resursele tehnicii şi tehnologice (fizice) cât şi
programele şi rutinele specializate în calculul şi analiza statistică.
Prelucrarea statistică poate fi manuală (tot mai rară) sau
automatizată. Procedural, la baza prelucrării stă prelucrarea manuală
bazată pe 2 procedee. Procedeul fişelor şi cel al tabelării.
Procedeul fişelor-presupune întocmirea unei fişe pentru fiecare
unitate de observare în care sunt trecute de obicei codificat toate
caracteristicile din programul observări. În cadrul acestui procedeu se
pot face grupări simple sau combinate. Procedeul se aplică atunci când
numărul unităţilor observate este mai mic. El prezintă avantajul
) oricărui număr de variante şi dezavantajul imposibilităţii eliminării
erorilor.
Procedeul fişelor şi al
tabelării. Procedeul tabelării manuale-se foloseşte când volumul
colectivităţii observate este mare şi nu există posibilitatea de
prelucrare automatizată. Prin acest procedeu se obţin grupări simple.
În fapt se produce un tabel, în capul coloanelor vin trecute
caracteristicile iar pe rânduri vin trecute succesiv unităţile de
observare şi informaţiile despre caracteristici. Procedeul prezintă
avantajul depistării facile a erorilor şi dezavantajul necesităţii refacerii
tabelării în condiţiile în care se schimbă structura grupelor sau apar /
dispar anumite caracteristici de grupare.

8.1. Centralizarea datelor statistice


Prin centralizare se înţelege strângerea la locul de prelucrare a
tuturor informaţiilor, eventual depuse în prealabil pe formulare ,alături
de operaţia de obţinere a indicatorilor totalizatori. Centralizarea

) statistică a datelor este de două tipuri: simplă şi pe grupe.


Centralizarea simplă presupune numai obţinerea
Centralizarea simplă şi indicatorilor totalizatori la nivelul întregului ansamblu de unităţi care
centralizarea pe grupe. au fost supuse observării. Această centralizare presupune stabilirea
volumului unităţilor simple şi complexe care formează colectivitatea
şi valoarea totalizată a caracteristicilor care au fost incluse în
programul observării şi care sunt exprimate în unităţi de măsură direct
însumabile. În cazul în care nu există posibilitatea efectuării sumei
directe se recurge la o serie de coeficienţi de echivalenţă care
transformă valorile înregistrate pentru unele unităţi în alte valori,
transformarea bazându-se pe alegerea unei unităţi etalon care are
frecvenţa cea mai mare de apariţie sau e definitorie pentru
colectivitatea supusă cercetării.
Centralizarea simplă se foloseşte pentru obţinerea unor
informaţii generale , cu mult înainte de a se finaliza întreaga operaţie
de prelucrare.
Centralizarea pe grupe presupune aplicarea metodei grupării,
în urma căreia se obţin indicatori totalizatori parţiali , pe fiecare grupă,

16
Statistică – curs universitar ID

iar pe baza lor se obţin apoi indicatori totalizatori generali pe întreaga


colectivitate.
Centralizarea pe grupe include şi centralizarea simplă şi
presupune o abordare distinctă şi detaliată.

8.2. Metoda grupării-metodă de bază în


prelucrarea datelor statistice
Gruparea reprezintă prima sistematizare a datelor şi constă în
împărţirea unităţilor în grupe omogene în funcţie de variaţia uneia sau
mai multor caracteristici.
Caracteristica în funcţie de care se face separarea unităţilor se
mai numeşte şi factor de grupare. Petru a realiza o grupare în sens
statistic este necesară alegerea acelor caracteristici esenţiale care au
caracter stabil, determină în mod hotărâtor fenomenul care se studiază,
şi dau posibilităţi obţinerii unei grupe omogene în funcţie de variaţia
lor.
Din punct de vedere statistic, prin grupă omogenă se înţelege
clasa de unităţi în interiorul căreia variaţia caracteristicii este

Definiţia grupei
minimă. Această variaţie din interiorul grupei este interpretată omogene din punct
statistic drept rezultat al factorilor întâmplători , care se compensează de vedere statistic.
reciproc la nivelul întregului ansamblu.
Problemele care trebuie rezolvate în cadrul operaţiei de
grupare sunt următoarele:
1. alegerea şi folosirea caracteristicilor de grupare;
2. stabilirea numărului de grupe în care urmează să se împartă
unităţile colectivităţii;
3. alegerea mărimii intervalului de grupare;
4. precizarea scopului pentru care se face întreaga operaţiune.

8.2.1 Alegerea şi folosirea caracteristicilor de grupare

Caracteristicile de grupare se împart in două categorii:


a) caracteristici esenţiale, definitorii pentru toate unităţile
colectivităţii;
b) caracteristici secundare , cu rol de control.
Acest grad de esenţialitate este relativ , caracteristica putând să
şi-l schimbe în funcţie se scopul grupării. Alegerea caracteristicilor de
grupare trebuie să se facă astfel încât ele să corespundă scopului
analizei statistice şi totodată să împartă unităţile caracteristicii în
grupe omogene.

8.2.2 Stabilirea numărului de grupe

Numărul grupelor în care urmează a fii împărţită


colectivitatea e în strânsă dependenţă cu modul în care se face
gruparea, respectiv de tipul grupei care a fost ales.
Grupările statistice se împart după mai multe criterii, astfel:
a) după numărul caracteristicilor folosite: grupări simple
şi grupări combinate.
(
Grupările statistice.

17
Statistică – curs universitar ID

Grupările simple sunt acelea în care gruparea unităţilor se


face în funcţie de variaţia unei singure caracteristici , cu care varianta
de grupare se află în interdependenţă.
Grupările combinate sunt acele grupări în care se folosesc
mai multe caracteristici pentru formarea grupelor. Operaţiunea în acest
caz se desfăşoară recursiv, în primul pas alegându-se o primă
caracteristică de grupare şi repartizându-se unităţile colectivităţii după
valorile ei, iar în paşii următori fiecare grupă sau subgrupă fiind
împărţită în alte subgrupe , în funcţie de variaţia altor caracteristici.
Spre exemplu , populaţia poate fi împărţită pe grupe de vârstă ,aceasta
fiind prima caracteristică, iar pentru fiecare grupă poate fi împărţită în
funcţie se sex, acesta reprezentând a doua caracteristică de grupare.
Pentru a nu fărâmiţa foarte mult colectivitatea şi pentru a păstra un
echilibru între sintetic şi analitic ,se recomandă să nu se depăşească 3
max. 4 caracteristici de grupare.
b) după conţinutul caracteristicii de grupare există :
b1) grupări cronologice, în funcţie de variabila timp;
b2) grupări teritoriale, în funcţie de variabila spaţiu;
b3) grupări după o caracteristică atributivă.
Grupările cronologice şi cele teritoriale sunt determinate de
condiţiile obiective de timp şi de loc în care se produc fenomenele şi
procesele economico-sociale.
Pentru o grupare cronologică este nevoie ca variaţia în timp să
constituie o caracteristică determinantă pentru toate unităţile supuse
observării.
Dacă variaţia teritorială este semnificativă pentru formarea
fenomenelor şi proceselor sociale, atunci utilizarea ei conduce la o
grupare spaţială sau tipologică.
Grupările după o caracteristică atributivă se întâlnesc cel mai
frecvent în cercetarea statistică fie ca grupări simple, fie ca grupări
combinate ,ajutând la caracterizarea independentă sau interdependentă
a fenomenelor.
Caracteristicile atributive sunt de 2 tipuri: exprimate prin
cuvinte, respectiv exprimate numeric.
Caracteristicile atributive exprimate prin cuvinte se
întâlnesc în statistica social-economică sub denumirea de clasificări,
cuprinse în nomenclatoare. Grupările făcute după asemenea
caracteristici sunt cele mai omogene, în interiorul grupelor neexistând
variaţii de nici un fel.
Pentru definirea caracteristicilor atributive exprimate
numeric este necesară definirea în prealabil a unor noţiuni utilizate în
calculul şi analiza statistică.
Varianta este nivelul sau valoarea prin care se manifestă o
caracteristică statistică înregistrată într-o anumită observare.
Variabila reprezintă caracteristica statistică valabilă pentru
toate unităţile observate , care prezintă proprietatea de a-şi modifica
nivelul de la o unitate la alta.
Variaţia este proprietatea caracteristicii se a-şi modifica
nivelul de dezvoltare într-un interval de valori ,în condiţii date de timp
şi spaţiu , în funcţie de gradul de influenţă al factorilor determinanţi.
Amplitudinea variaţiei reprezintă câmpul de împrăştiere a
variantelor într-o înregistrare statistică fiind notată cu "A":

18
Statistică – curs universitar ID

A = x max – x min.
Frecvenţa sau ponderea reprezintă numărul de unităţi la care
se întâlneşte acelaşi nivel de dezvoltare sau aceeaşi formă de
manifestare. Această mărime poate fi exprimată fie prin valori
absolute (în care o anumită valoare se înregistrează de un anumit
număr de ori) , fie prin mărimi relative de structură (în care o anumită
valoare se înregistrează în x% din cazuri).

După modul de variaţie, pentru caracteristica exprimată


numeric, în practica statistică se întâlnesc 3 tipuri de grupări:
1. grupări pe variante, în care numărul unităţilor poate să fie
oricât de mare, dar caracteristica are un număr restrâns de valori (
particulare după care pot fi grupate aceste unităţi; Cele trei tipuri de
2. grupările pe intervale egale de variaţie folosite în situaţia grupări:
în care gradul de variaţie al caracteristicii permite alegerea unei
mărimi egale a intervalelor, astfel încât numărul grupelor să nu
modifice forma ei de variaţie.
3. grupări pe intervale neegale, care se folosesc fie pentru
cazul unui grad mare de variaţie, fie pentru grupările tipologice, în
care diferenţierea pe tipuri calitative cere intervale inegale.

19
Statistică – curs universitar ID

20
Statistică – curs universitar ID

Capitolul 3

CLASIFICAREA ŞI GRUPAREA
STATISTICĂ

CONŢINUT:
1. Generalităţi;
2. Clasificarea statistică;
3. Modalităţi practice de obţinere a grupării
statistice.

Rezumat: În prima parte a cursului sunt prezentate


clasificarea şi gruparea statistică, tehnici de bază în prelucrarea datelor
statistice, a căror utilizare contribuie decisiv la sistematizarea datelor
şi, pe această cale, la simplificarea tuturor procedurilor ulterioare.
Întregul demers se bazează pe conceptul de omogenitate, a cărui
corectă înţelegere poate contribui la desluşirea importanţei ambelor
proceduri. Partea a doua şi a treia a cursului prezintă laturile practice
ale clasificării şi grupării, modelele grupării simple şi combinate,
stabilirea lungimii intervalului de grupare, etc.

1. GENERALITĂŢI

Clasificarea şi gruparea sunt instrumente de bază al prelucrării


şi analizei datelor privind economia şi societatea. Prin intermediul lor
se asigură sistematizarea pe grupe sau clase omogene din punct de
vedere statistic a colectivităţilor statistice , oricât ar fi ele de
numeroase.
Prin omogenitate se înţelege asemănarea cât mai mare,
respectiv variaţia cât mai mică a elementelor în cadrul grupelor sau
claselor.
Prin definiţie, gruparea şi clasificarea statistică reprezintă 
procedee de sistematizare a colectivităţilor statistice în părţi Definiţia grupării şi
statistice omogene , în funcţie de variaţia unei caracteristici sau a clasificării statisticii.
mai multora.
Clasificarea şi gruparea statistică îndeplinesc următoarele
funcţii:
a) sistematizarea datelor individuale prin restrângerea numărului de
valori ale caracteristicii de grupare; (
Funcţiile clasificării şi
b) structurarea colectivităţii în părţi omogene; grupării statistice.
c) prezentarea şi descrierea structurii colectivităţii;
d) relevarea tipurilor socio-economice , acolo unde există;
e) caracterizarea legăturii dintre caracteristicile statistice.
Atât gruparea cât şi clasificarea se declanşează prin analiza
teoretică a populaţiei studiate. În urma acestei analize se stabileşte
sistemul de caracteristici care interesează în speţa respectivă, apoi se
trece la efectuarea iterativă, prin tatonări, a grupării propriu-zise.
Dacă numărul posibilităţilor de grupare e mic, gruparea se face
pe variante. Dacă numărul acestora este mai mare se stabilesc
intervale de grupare numite şi grupe de variante.

21
Statistică – curs universitar ID

Gruparea se încheie cu încadrarea unităţilor în grupe şi cu


centralizarea valorilor tuturor caracteristicilor cu care este descrisă
populaţia în ansamblul ei.

2. CLASIFICAREA STATISTICĂ

În viaţa de zi cu zii oamenii fac tot felul de comparări şi


interpretări , care nu sunt altceva decât clasificări naive. Acest lucru
se produce în principal datorită faptului că gândirea umană în cea mai
mare parte a ei nu este o gândire matematică, algoritmică, ci e o
înşiruire de conjuncţii şi disjuncţii, afirmaţii şi negaţii. nonalgoritmice;
se spune că gândirea este inferenţială.
Aceste clasificări naive au fost înlocuite în procesul
cristalizării statisticii ca ştiinţă prin clasificări obiective, naturale
bazate pe date despre structura internă a lucrurilor. Pe lângă acestea,
sub aspect operaţional mai sunt admise şi clasificări subiective,
artificiale.

Prin definiţie, clasificarea statistică este operaţia de


 sistematizare a unui ansamblu de elemente, pe baza atributelor
comune, în clase, distincte urmată eventual de clasificarea acestor
Definiţia clasificării
statistice. clase în subclase, procesul putând continua până la o limită
determinată de necesitatea ca fiecare clasă să ocupe un loc precis
şi stabil, iar elementele încadrate în ea să fie cât mai omogene.

Clasificarea trebuie să îndeplinească câteva cerinţe formale şi


anume:
a) completitudinea, care impune ca fiecare element să
aparţină unei clase;
b) unicitatea , care impune ca fiecare element să aparţină
unei singue clase;
c) omogenitatea, care cere ca elementele asemănătoare să
aparţină aceleiaşi clase iar elementele diferite să aparţină
claselor diferite.
În practica statistică sunt utilizate sisteme standardizate de
clasificare, care constituie componente de bază ale sistemului
informaţional economic şi instrumente indispensabile ale prelucrării
statistice. Ansamblul acestor standarde alcătuiesc sistemul unitar de
clasificări şi nomenclatoare social-economice, care funcţionează la
nivelul macro-economic.

3. MODALITĂŢI PRACTICE
DE OBŢINERE A GRUPĂRII STATISTICE
Intervin în prelucrarea datelor de masă culese într-o observare
special organizată. În asemenea cazuri, de obicei, nu există grupări cu
caracter permanent şi fiecare grupare se elaborează ca un element de
sine stătător.
Practic gruparea statistică presupune împărţirea colectivităţii în
funcţie de o caracteristică numerică , împărţire necesară în cazul unui
număr mare sau foarte mare de valori distincte ale caracteristicii de
22
Statistică – curs universitar ID

grupare întâlnite la nivelul respectivei colectivităţi. În prealabil


colectivitatea trebuie supusă unei serioase analize teoretice care
trebuie să răspundă cel puţin la următoarele întrebări:
Ce fel de grupe există în colectivitate?
În câte grupe se face împărţirea colectivităţii?
După care caracteristică să se facă gruparea?
Un procedeu des utilizat de grupare este gruparea mecanică,
în care se aplică în mod mecanic intervale de grupare egale. În
stabilirea acestor intervale se porneşte de la amplitudinea variaţiei a,
cărei valoare dă “lărgimea de bandă” care trebuie împărţită în grupe.
Această lărgime sau diapazon se împarte în intervale egale cu
respectarea următoarelor condiţii:
a. limitele de interval trebuie să se exprime pe cât posibil în
valori rotunde;
b. trebuie să se obţină suficient de multe intervale de grupare
pentru a se obţine informaţii suficient de analitice;
c. intervalele trebuie să permită la nevoie regruparea datelor
prin contopirea a două sau mai multe intervale, fără a fi nevoie de
reluarea operaţiei de grupare sau de spargerea în două a unor
intervale;
d. în fiecare interval trebuie să se regăsească, pe cât posibil,
un număr suficient de mare de valori individuale, care să permită
interpretarea statistică

În urma grupării se obţine seria de repartiţie a frecvenţelor


pe intervale de valori, serie care se numeşte de variaţie dacă
repartiţia este făcută după o caracteristică numerică.

Intervale de grupare Nr. Unităţi


inf
xi < xi < xi
sup Fi

X1 inf – x1 sup F1
X2 inf – x2 sup F2
Xi inf – xi sup Fi
Xn inf – xn sup Fn
Total n

∑ fi
i =1

În prima coloană sunt trecute intervalele de grupare între o


limită inferioară şi una superioară, iar în coloana a doua sunt trecute
frecvenţele, de cele mai multe ori în formă absolută.
Indicarea corectă a limitelor de interval se poate face în
două moduri:
a) limita superioară a intervalului se repetă ca limita
inferioară a intervalului următor, caz în care trebuie precizat cu
claritate care dintre cele 2 limite incluse în interval;
b) limita superioară se diferenţiază de limita inferioară a
intervalului următor cu o unitate sau cu o fracţie de unitate, în
funcţie de mărimea caracteristicii de grupare.
Lungimea intervalului de grupare, notată cu hi, se stabileşte
astfel:

23
Statistică – curs universitar ID
sup inf
- în primul caz: hi = xi − xi
inf sup
- în al doilea caz: hi = xi +1 − xi +1
În statistica economico-socială este posibil ca limita inferioară
a primului interval, notată cu x1inf, sau limita superioară a ultimului
interval (xn sup) să fie omise. Se spune că respectivele intervale sunt
deschise, fiind necesară închiderea lor pe baza ipotezei egalităţii
intervalelor vecine.
În calculele ulterioare, intervalul de grupare este reprezentat
prin centrul sau mijlocul intervalului, stabilit astfel:
Caz I: prin media aritmetică simplă a limitelor de interval;
Caz II: prin adunarea la limita inferioară a jumătăţii
intervalului respectiv.
Reprezentarea grafică a seriilor de repartiţie se face prin
histogramă sau poligonul frecvenţelor, situaţie în care pe axa
absciselor se reprezintă caracteristica, iar pe axa ordonatelor se va
reprezenta frecvenţa acesteia.
Reprezentarea grafică a seriilor e foarte importantă şi
sugestivă, fiind deseori utilizată în vederea creşterii expresivităţii şi
puterii de înţelegere a fenomenelor social-economic. În multe situaţii,
gruparea pe intervale egale este neconcludentă.
În procesul de elaborare a grupării apar intervale neegale de
grupare. Acestea nu rezultă prin aplicarea unor reguli mecanice şi se
fundamentează pe argumentele analizei calitative de conţinut a
materialului statistic.
Dacă scopul grupării este evidenţierea tipurilor calitative, vor
fi utilizate intervale neegale. În acest caz, gruparea se numeşte
tipologică. În statistica socio-economică apar adesea şi grupări după o
caracteristică teritorială. Aceste grupări sunt în general grupări
mecanice. Tot prin acest procedeu se fac şi grupările după o
caracteristică temporală.

 Prin definiţie gruparea realizată simultan după două sau


mai multe caracteristici se numeşte grupare combinată.
Definiţia grupării Această metodă de grupare este cea mai evoluată şi se poate
combinate. efectua după un graf arborescent, în care grupele obţinute în urma
împărţirii după o primă caracteristică se împart la rândul lor în
subgrupe după o a doua caracteristică, ş.a. Această grupare este
avantajoasă deoarece se poate introduce relativ uşor în completare o
coloană pentru valorile agregate ale caracteristicii, în vederea
caracterizării grupelor şi a subgrupelor şi a deducerii indicatorilor
derivaţi.
De menţionat că adâncimea grupării după mai multe
caracteristici prezintă un pericol deoarece îngreunează mult
posibilitatea perceperii şi cuprinderii informaţiilor în tabel.

24
Statistică – curs universitar ID

Modelul grupării combinate se reprezintă astfel:

PRIMA A DOUA FRECVENŢELE CORESP.


CARACTERITICĂ CARACTERISTICĂ COMBINAŢIEI DE
DE GRUPARE xi DE GRUPARE yj VALORI xi – yj
X1 Y11 F11
Y12 F12
. .
y1j f1j
. .
y1m f1m
Total grupa 1 n
n1 = ∑ f 1 j
j =1
X1 Y21 F21
Y22 F22
. .
y2j f2j
. .
y2m f2m
TOTAL n
GRUPA 2 n2 = ∑ f 2 j
j =1
……….. ………. ……
Xi Yi1 Fi1
Yi2 Fi2
. .
yij fij
. .
yim fim
TOTAL n
GRUPA i ni = ∑ f ij
j =1
Xk Yk1 Fk1
Yk2 Fk2
. .
ykj fkj
. .
ykm fkm
TOTAL n
GRUPA k n k = ∑ f kj
j =1
TOTAL k k n
GENERAL n = ∑ ni = ∑∑
i =1 i =1 j =1

25
Statistică – curs universitar ID

26
Statistică – curs universitar ID

Capitolul 4

INDICATORI STATISTICI

CONŢINUT:
1. Necesitatea folosirii indicatorilor statistici
2. Indicatorii statistici primari şi derivaţi
3. Mărimile relative ca indicatori statistici
4. Mărimile medii

Rezumat: Capitolul debutează prin definirea importantei


categorii statistice care este indicatorul şi cu prezentarea ulterioară a
funcţiilor acestuia. În partea a doua sunt detaliate categoriile
indicatorilor primari şi derivaţi, apoi, în partea a treia sunt detaliate
caracteristicile mărimilor relative ca indicatori derivaţi, insistându-se
pe importanţa utilizării procentelor, promilelor, prodecimilelor, etc .
După trecerea în revistă a tipurilor de mărimi relative sunt prezentate
mărimile medii, indicatori de maximă importanţă pentru întreaga
cercetare statistică, a căror cunoaştere este vitală pentru oricine
doreşte să-şi însuşească esenţa statisticii teoretice şi utilizarea ei în
practică...

1. Necesitatea folosirii indicatorilor statistici

Obiectul de studiu la statisticii îl constituie fenomenele şi


procesele de masă, a căror proprietate principală este variabilitatea
formelor individuale de manifestare în timp, spaţiu şi sub raport
organizatoric.
Pornind de la această variabilitate rezultă că pentru
caracterizarea unei colectivităţi nu se poate folosi o singură expresie
numerică , cu aceeaşi dimensiune ca şi colectivitatea, fiind necesare
mai multe expresii de acest tip. De aici rezultă nevoia statisticii de a
elabora metodologii şi tehnici de obţinere a acestor determinări
cantitativ-numerice, denumite generic indicatori statistici
.
Prin definiţie indicatorul statistic este expresia numerică a
unor fenomene, procese, activităţi sau categorii economice şi 
sociale, definite in timp , spaţiu şi structură organizatorică şi care Definiţia indicatorului
se regăsesc cu o anumită periodicitate în statisticile oficiale, statistic.
naţionale si internaţionale.

Funcţiile indicatorilor statistici sunt următoarele:


a) funcţia de măsurare;
b) funcţia de comparare;
c) funcţia de analiză şi sinteză;
d) funcţia de estimare;
e) Funcţia de verificare a ipotezelor şi de
testare a parametrilor utilizaţi.

27
Statistică – curs universitar ID

2. Indicatorii statistici primari şi derivaţi

După etapa în care apar în procesul de cercetare statistică


indicatorii statistici sunt de două categorii:
- indicatori primari;
- indicatori derivaţi.
a) Indicatorii primari se obţin in cadrul prelucrării primare a
datelor statistice, ca urmare a proceselor de centralizare a datelor unei
observări statistice. Aceşti indicatori au conţinut concret şi formă
concretă de exprimare. In practică se pot întâlni mai multe cazuri:
a.1) Indicatorii primari obţinuţi din agregarea unor valori
individuale, cu acelaşi conţinut calculat la treptele inferioare din punct
de vedere ierarhic (spre exemplu, costurile totale, calculate ca suma
costurilor pe secţii).
a.2) Indicatorii primari obţinuţi prin observare, atunci când se
face un studiu monografic al unei unităţi statistice (exemplu: într-o
întreprindere, indicatorii valorici ai producţiei sunt şi indicatori
absoluţi primari, şi indicatori înregistraţi direct la nivelul unităţii
b) Indicatorii derivaţi se obţin in faza de prelucrare statistică
a mărimilor absolute, prin aplicarea variatelor metode şi procedee de
calcul statistic: comparaţiile, generalizările, abstractizările. Aceşti
indicatori au menirea de a pune în lumină şi de a face posibilă analiza
aspectelor calitative ale fenomenelor si proceselor cercetate.
Indicatorii derivaţi se obţin în urma aplicării unui model de calcul
statistic de comparare sau estimare.
Compararea a 2 sau mai mulţi indicatori se poate face fie sub formă de
diferenţă, fie sub formă de raport.
Comparaţia pe bază de diferenţă este restrictivă, în sensul că
trebuie să îndeplinească condiţii de comparabilitate atât din punct de
vedere al conţinutului, cât şi al unităţii de măsură. Spre exemplu, in
cazul sporului producţiei vândute ΔQV, diferenţa
n n
ΔQV = ∑ qi1 ⋅ pi1 − ∑ qi1 ⋅ pi 0 (unde: i = contorul produselor;
i =1 i =1
n n

∑ qi1 ⋅ pi1 = producţia vândută la momentul t; ∑q


i =1
i1 ⋅ pi 0 = producţia
i =1
vândută la momentul de referinţă):
Se observă că indicatorii compară 2 valori şi nu producţia
fizică cu cea valorică, iar rezultatul comparaţiei este tot o valoare,
exprimată în unităţi monetare.
Comparaţia pe bază de raport se poate face atât pentru
indicatorii cu acelaşi conţinut, cât şi pentru indicatorii cu conţinut
diferit, dar independenţi din punct de vedere economico-social.
Exemplu: raportarea producţiei la numărul salariaţilor este posibilă şi
va rezulta un indicator numit productivitate a muncii. Apar astfel in
statistica mărimile relative şi indicii.
Indicatorii derivaţi au un caracter abstract, chiar daca uneori
cum este cazul mediilor, sunt exprimaţi in unităţi specifice de măsură.

28
Statistică – curs universitar ID

3. Mărimile relative ca indicatori derivaţi

Mărimile relative se exprimă în general sub formă de rapoarte.

Mărimea relativă sau indicatorul relativ este rezultatul


comparării sub formă de raport a 2 indicatori statistici şi se exprimă (
printr-un singur număr, arătând, în general, proporţia indicatorului Mărimea relativă
raportat faţă de indicatorul bază de raportare. indicatorul relativ

Mărimile relative sunt folosite în toate domeniile în care se


utilizează metodele şi tehnicile de calcul şi analiză statistică.
Forma de exprimare a mărimilor relative se stabileşte în report
cu gradul de variaţie a fenomenelor, scopul urmărit, precum şi
particularităţile specifice ale fenomenelor cercetate.
Rezultatul raportării poate fi un număr întreg, sau o fracţie.
Deseori, pentru a mări expresivitatea rezultatului, acesta se înmulţeşte
cu 100, 1000, 10000 sau 100000, obţinându-se astfel: procentele,
promilele, prodecimilele şi procentimile.
Forma cea mai simplă de exprimare este sub formă de unităţi
sau coeficienţi. In aceasta situaţie, rezultatul raportului arată câte
unităţi din indicatorul raportat revin la o singura unitate a indicatorului
baza de raportare.
Forma cea mai obişnuită şi sugestivă, utilizată pentru
exprimarea mărimilor relative este aceea a procentelor, care arată
câte unităţi din indicatorul raportat revin la 100 de unităţi ale
indicatorului bază de raportare. Aceasta este forma de exprimare a
majorităţii mărimilor relative.
Promilele se utilizează atunci când indicatorul comparat este
mult prea mic faţă de indicatorul bază de raportare. Exemplu:
indicatorul eficienţei utilizării fondurilor fixe se calculează ca
producţie obţinută la 1000 lei fonduri fixe.
Prodecimilele şi procentimilele se utilizează în principal în
demografie şi statistica medicală.
Mărimile relative se împart in:
a) mărimi relative de structură;
b) mărimi relative de coordonare;
c) mărimi relative ale dinamicii;
d) mărimi relative ale programării (planificării);
e) mărimi relative de intensitate

a) Mărimile relative de structură sunt acele mărimi în care


calculul este impus de necesitatea cunoaşterii aprofundate a
compoziţiei colectivităţilor care au fost separate în grupe şi subgrupe,
după variaţia uneia sau a mai multor caracteristici.
Acestea pot fi:
- ponderi, numite şi greutăţi specifice;
- frecvenţe relative.

29
Statistică – curs universitar ID

Ponderile sunt regăsite în seriile statistice atributive, în seriile


teritoriale sau pentru variabilele statistice, construite pe baza unor
x
componente. Ele se calculează procentual astfel: y i = n i 100

i =1
x
i
În această exprimare, la numitor se găseşte întregul, xi este
partea i din întreg, iar yi este ponderea procentuală a părţi în întreg.
Mărimile relative de structură au proprietatea că suma lor,
calculată faţă de aceeaşi bază, este egală cu 1, in cazul exprimării sub
forma de coeficienţi, sau cu 100, in cazul exprimării procentuale.
b) Mărimile relative de coordonare caracterizează raportul
numeric în care se găsesc 2 indicatori de acelaşi fel, aparţinând unor
grupe ale aceleiaşi colectivităţi statistice sau unor colectivităţi
statistice de acelaşi fel, dar situate in spaţii diferite.
Exemplu: raportul dintre populaţia din mediul urban şi populaţia din
mediul rural este o mărime relativă de coordonare. Mărimile relative
de coordonare admit proprietatea reversibilităţii:
x 1 1
K A/ B = A = =
xB K A / B xB
xA
c) Mărimile relative ale dinamicii se utilizează pentru
caracterizarea fenomenelor in timp şi se obţin ca raport intre nivelul
fenomenului intr-o anumită perioadă şi nivelul aceluiaşi fenomen sau
proces în perioada anterioară.
x nivelul perioadei curente
K1/ 0 = 1 =
x 0 nivelul perioadei de baza
Cea mai des întâlnită esre situaţia prezentată în următorul cap
de tabel:
Perioada Perioada curentă
de bază x programat x realizat
x0
x0 Xpr X1
Mărimile reale ale dinamicii pot fii mărimi ale sarcinii de plan
(Isp) şi mărimi ale dinamicii de realizare a planului (Ir):
x pl xi
I sp = 100 Ir =
x0 x0 100
d) Mărimile relative de intensitate sunt considerate
 caracteristici derivate şi se obţin prin raportarea a 2 indicatori absoluţi,
Definiţia mărimii de natură diferită, care se află intr-o relaţie de interdependenţă din
relative de intensitate punct de vedere al logicii social-economice.
Q productivitate
Spre exemplu: productivitatea muncii: W = =
N numar salariati
In aceasta relaţie N este şi frecvenţa pe baza căreia se face
calculul nivelului mediu al productivităţii muncii, la nivelul ramurii,
constituita din agenţi economici cu acelaşi obiect de activitate
principală.
In cazul mărimilor relative de intensitate, intre factorii raportaţi
yi
trebuie să existe obligatoriu o relaţie de interdependenţă: xi =
zi

30
Statistică – curs universitar ID

De aici rezultă că y 0 = xi ⋅ z i deci se va putea obţine o relaţie


de descompunere pe factori de influenţă pentru mărimea rezultativă yi
considerată ca factor dependent. Astfel indicele mărimii yi se va
descompune într-o componentă yi pe seama lui xi şi yi pe seama lui zi.
I yi / xi
I yi Δyi = Δyi / xi ± Δyi / zi
I yi / zi
De asemenea variaţia absolută totală va fi suma algebrică a
variaţiei cauzate de modificarea primului factor ,xi, notată cu Δyi / xi
şi a variaţiei datorată modificării celui de-al doilea factor Δyi / zi .

4. Mărimile medii
Un loc important în categoria indicatorilor derivaţi şi în
categoria indicatorilor sintetici îl ocupă mărimile medii, utilizate pe
scara larga, atât in activitatea de planificare şi conducere, cât si în
cercetările statistice diverse.

Mărimile medii constituie instrumente principale de


cunoaştere a fenomenelor de masă şi au un grad mare de
aplicabilităţi în activitatea practică. Ele redau ceea ce este tipic,

Definiţia mărimii medii
comun şi general în evoluţia fenomenelor şi proceselor social-
economice. Pentru a asigura un conţinut cât mai real, cât mai
semnificativ, pentru mediile calculate, este nevoie ca valorile
individuale din care se obţin să fie cât mai apropiate între ele.

Totodată, trebuie să se ţină seama de gradul de omogenitate al


colectivităţii supuse cercetării. In cazul în care aceasta colectivitate
este eterogenă, se vor calcula mai întâi medii parţiale, iar media pe
ansamblu va apărea ca o sinteza a mediilor parţiale.

Prin definiţie, media valorilor individuale ale unei variabile


sau caracteristici statistice este expresia sintetizării intr-un singur
nivel reprezentativ a tot ceea ce este esenţial, tipic şi obiectiv in
apariţia, manifestarea si dezvoltarea variabilei.

De reţinut că media măsoară influenta cauzelor esenţiale,


făcând abstracţie de cele întâmplătoare.
În statistică, media poate fi interpretată drept nivelul la care ar
fi ajuns caracteristica înregistrată dacă in toate cazurile, toţi factorii
esenţiali şi neesenţiali ar fi acţionat constant, deci s-ar fi obţinut o
valoare identică. De aceea media mai este numită şi "speranţa
matematică" către care tind toate valorile unei serii.
Cele mai des utilizate medii sunt:
a) media aritmetică;
b) media armonică;
c) media pătratică;
d) media geometrică;
e) media cronologică.
Toate mediile pot fi calculate ca medii simple şi medii
ponderate.

31
Statistică – curs universitar ID

Tabelul următor redă formulele de calcul ale principalelor


medii:
a) Media aritmetică : b) Media armonică

a1) Media aritmetică simplă b1) Media armonică simplă


n n
xh =
∑ xi n
1
x= i =1
n
∑x
i =1 i
a2) Media aritmetică ponderată b2) Media armonică ponderată
n n


i =1
xi ⋅ f i ∑f i
x= i =1
n xh = n

∑ i =1
fi ∑x
1
i
⋅ fi
i =1
c) Media pătratică d) Media geometrică

c1) media pătratică simplă d1) Media geometrică simplă


n n

i =1
xi2
xg = n ∏x i
xp = i =1
n
c2) media pătratică ponderată d2) Media geometrică
n ponderată
∑ x i2 ⋅ f i n

∑ fi n

∏x
i =1
x p = n xg = i =1
i
fi


i =1
fi i =1

Între medii există o relaţie de ordine: x h < x g < x < x p


Dacă toate valorile caracteristicii pentru care se calculează
media sunt egale, cele 4 medii sunt egale.

APLICAŢIE 1
Calculul mediilor în statistică
Media este valoarea care conţine tot ceea ce este esenţial şi
stabil într-o mulţime de valori individuale care caracterizează un
fenomen sau un proces statistic.
Media mai este numită speranţa matematică a datelor şi
reprezintă valoarea cu care s-ar putea înlocui toţi termenii unei serii de
distribuţie dacă aceşti termeni nu ar fii supuşi unor factori complecşi
de influenţă, care diferenţiază valorile individuale ale seriilor după
diferite atribute.
Cele mai utilizate medii în statistică sunt: media aritmetică,
media armonică, media pătratică, media geometrică. Toate pot fii
calculate ca medii simple sau medii ponderate.
Mediile simple se calculează în cazul seriilor simple, în care
fiecare valoare particulară apare o singură dată sau de un număr
limitat de ori, în aşa fel încât să poată fi introdusă separat în calcul.
Mediile ponderate se calculează în cazul seriilor de repartiţie
de frecvenţe, în care valorile individuale sunt grupate pe intervale,
32
Statistică – curs universitar ID

fiecărui interval findu-i asociată o valoare care indică numărul


unităţilor statistice care apar şi aparţin intervalului respectiv, aceste
valori numindu-se frecvenţe absolute.
Media aritmetică se calculează după următoarele modele:
a) media aritmetică simplă
(
n

∑x
i =1
i
x1 , x 2 K xi K x n
x= = Media aritmetică se
n n calculează astfel
xi se not valoarea individuala i a caracteristicii x
b) media aritmetică ponderată se calculează după formula
n

∑x
i =1
i fi
x1 f 1 + x 2 f 2 + + xifi + + xnfn
x= =
n
f 1 + f 2 + + fi + + fn
∑f
i =1
i

În acest model:- fi reprezintă frecvenţa absolută a intervalului i, cu alte


cuvinte numărul de elemente ale colectivităţii studiate care aparţin
intervalului i;
- n este numărul intervalelor de grupare în care a fost
împărţită colectivitatea statistică.
Calculul mediei aritmetice simple nu comportă nici un fel de
dificultăţi; în vederea calculării mediei ponderate se dau următoarele
date ale unei colectivităţi statistice ,împărţită pe vârste, solicitându-se
media de vârstă a întregii colectivităţi.
Nr. Grupa x i Frecvenţa xi f I xi – a (xi-a)fi fi f 1 1
crt de absolută (a=25) , xi i fi
vârstă k k xi xi
k =4
1 20-30 25 44 1100 0 0 11 275 0,04 1,76
2 30-40 35 104 3640 10 1040 26 910 0,028 2,912
3 40-50 45 168 7560 20 3360 42 1890 0,022 3,696
4 50-60 55 160 8800 30 4800 40 2200 0,018 2,88
5 60-70 65 64 4160 40 2560 16 1040 0,015 0,96
6 70-80 75 32 2400 50 1600 8 600 0,013 0,416
Total 572 27660 13360 143 6915 12,624

∑x
i =1
i fi
27660
x= = = 48,35
572
∑f i

OBS: media aritmetică ponderată se plasează de obicei în vecinătatea


intervalului/intervalelor care au frecvenţele absolute cele mai mari.
Media aritmetică ponderată are următoarele proprietăţi de bază:
a) dacă adunăm sau scădem o anumită valoare la toţi termenii seriei
(o constantă notată cu a) atunci media obţinută cu noii termeni va
fii mai mare sau mai mică cu acea constantă:

x' =
∑ ( xi ± a) f i = x ± a x' =
13360
= 23,25 = 48,35 − 25
∑ fi 572
b) dacă înmulţim sau împărţim frecvenţele absolute ale unei serii de
repartiţie cu aceeaşi constantă k, media recalculată a seriei pe baza
noilor frecvenţe rămâne nemodificată.

33
Statistică – curs universitar ID

fi
∑x i
k = 6915 = 48,35
x' ' =
f 143
∑ ki
Cele două proprietăţi ale mediei aritmetice ponderate sunt utilizate
pentru aplicarea unei a formule de calcul prescurtat mediei,scăzând
eventual o anumită valoare sau termenul cel mai mic al seriei din toţi
termenii seriei şi adăugându-l la media finală obţinută şi simplificând
de obicei frecvenţele absolute cu cel mai mare divizor comun al
acestora.

Media armonică.
Se aplică în general în seriile de distribuţie care au repartiţie
hiperbolică a termenilor.

a) media armonică simplă: f I Xi


1 n
xh = n = n
1 1
∑i =1 x i
∑i =1 x i

fI

b) media armonică ponderată:


n

1
∑f
i =1
i
x hp = n = n
1 1

i =1 x i
fi ∑x
i =1
fi
i
n

∑f
i =1
i

572
x hp = = 4,31 x hp ≤ x
12,624
Observaţie: media armonică este mai mică sau cel mult egală cu media
aritmetică a aceleiaşi serii de repartiţie.

34
Statistică – curs universitar ID

APLICAŢIA 2
Despre un eşantion de unităţi comerciale selectat întâmplător şi
nerepetat şi care reprezintă 10% din numărul total al unităţilor se
cunosc următoarele:

GRUPE DE UNITĂŢI Nr. Unităţi Vânzări total


COMERCIALE DUPĂ (f i) (mii lei)
VALOAREA VÂNZĂRILOR
REALIZATE (mii lei)
Sub 31 18 500
31-33 24 750
Æ 33-35 Å 25 1000
35-37 13 450
37-39 8 300
39-41 7 280
Peste 41 5 220
TOTAL 100 3500

Se cere:
1. Să se calculeze indicatorii statistici care caracterizează
distribuţia unităţilor comerciale după valoarea vânzărilor..
2. Să se arate dacă eşantionul este omogen din punct de
vedere al vânzărilor realizate.
3. Caracterizaţi şi măsuraţi asimetria eşantionului după
valoarea vânzărilor realizate.
4. Calculaţi mărimile posibile pe baza datelor de mai sus şi
efectuaţi reprezentarea lor grafică.
REZOLVARE:
Distribuţia unităţilor menţionate formează o serie de repartiţie
unidimensională , cu frecvenţe absolute, cu intervale egale, principalii
indicatori care caracterizează această serie fiind indicatorii tendinţei
centrale.
Indicatorii tendinţei centrale sunt: mărimile medii, indicatorul mediu
de poziţie, indicatorul variaţiei, indicatorul de asimetrie şi exces.
În distribuţia prezentată se observă că valoarea inferioară a primului
interval şi limita superioară a ultimului interval nu au fost precizate.
Este necesară precizarea acestor valori, deoarece în calculele
ulterioare va intra şi centrul de interval drept valoare a caracteristicii
atributive. Operaţiunea de precizare a celor 2 limite nu reprezintă
închiderea limitelor. Ea se efectuează astfel: dacă seria de distribuţie
este cu intervale egale atunci limitele primului şi ultimului interval se
precizează egalizând cele două intervale cu toate celelalte.
Dacă intervalele nu sunt egale şi se cunoaşte legea de repartiţie
a unităţilor statistice, atunci mărimea intervalelor va fi luată cu
aproximaţie în conformitate cu această lege.
Dacă nu se cunoaşte legea de repartiţie, atunci primul interval
va fi luat egal cu al doilea, iar ultimul cu penultimul.
O problemă importantă în calcului statistic este legată de
numărul de zecimale cu care se lucrează deoarece calculele pot fi
distorsionate în urma rotunjirilor.
Se recomandă lucrul cu cât mai multe zecimale pentru exactitate,
numărul minim al acestora fiind 3.

35
Statistică – curs universitar ID

Calculul mediilor
Media aritmetică
xi xi f i xi2 f i 1 f i lg x i
fi
xi
30 540 16200 0,6 26,588
32 768 24576 0,75 36,124
34 850 28900 0,735 38,287
36 468 16848 0,361 20,232
38 304 11552 0,210 12,638
40 280 11200 0,175 11,214
42 210 8920 0,119 8,186
3420 118096 2,95 153,1996
2. media pătratică

xp =
∑x 2
i
;
∑x f 2
i i
= 34,365
n ∑f i

3. media armonică
n

∑f
i =1
i
100
xh = n
= = 33,898
1 2,95
∑x f
i =1
i

4. media geometrică
n
n
∑ fi n

∏ xi ; ∏x
fi
xg = n x g = i =1 i
i =1 i =1

log aritmare
⎛ 1 ⎞
x g = anti lg⎜
⎜∑ f ∑ f i lg x i ⎟

⎝ i ⎠
regula în cadrul mediilor este: x h < x g < x < x p
Pe lângă medii, indicatorii de poziţie centrală sunt completaţi
de mediană şi modul.
Mediana este valoarea seriei care o împarte pe aceasta în 2
părţi egale. Altfel spus, numărul termenilor seriei care au o valoarea
mai mică decât mediana este egal cu numărul termenilor seriei care
are o valoare mai mare.
Locul medianei:
n

∑f
i =1
i +1
U Me = = 50.5 (33 − 35)
2
36
Statistică – curs universitar ID

valoarea medianei:
1⎡ n ⎤ me −1
∑ i ⎥⎦ − ∑
2 ⎢⎣ i =1
f + 1
i =1
fi
Me = x 0 + h
f me
h – lungimea intervalului medianei
f me –index, frecvenţa medianei
me −1

∑f
i =1
i - suma frecvenţelor anterioare intervalului medianei

Me = 33,68 Î 50 de unităţi comerciale vor avea o valoare a


vânzărilor mai mică decât 33,68 mii lei.

Modul
Reprezintă valoarea seriei a cărei frecvenţe de apariţie este cea
mai mare.
Modulul se va plasa în intervalul cu frecvenţa cea mai mare
din cadrul seriei.
Formula de calcul:
Δ1 25 + 24
Mo = x0 + = 33 + = 33,07
Δ1 + Δ2 (25 + 24) + 25 − 13
Δ1 = f mo + f mo−1 ( frecventa int ervaluluiprecedentceluimodal )

Δ2 = f mo + f mo+1 (intervalulsuccesorceluimodal )

37
Statistică – curs universitar ID

38
Statistică – curs universitar ID

Capitolul V

ANALIZA SERIILOR DE REPARTIŢIE


DE FRECVENŢĂ

Conţinut:
1. Probleme generale ale seriilor de repartiţie de
frecvenţă
2. Indicatori de frecvenţe
3. Indicatori ai tendinţei centrale
4. Indicatori ai variaţiei
5. Indicatorii variaţiei într-o colectivitate împărţită
pe grupe. Regula adunării dispersiilor.

Rezumat: Capitolul debutează prin prezentarea principalelor


proprietăţi ale seriilor de repartiţie: omogenitatea, variabilitatea,
independenţa variantelor, tendinţa de repartiţie, făcând ulterior şi o
grupare a indicatorilor. sunt prezentaţi apoi indicatorii de frecvenţe,
precum şi indicatorii tendinţei centrale. O deosebită importanţă în
studiul seriilor o au indicatorii variaţiei, grupaţi in indicatori simpli şi
indicatori sintetici. O atenţie deosebită le este acordată acestora din
urmă, insistându-se asupra abaterii medii liniare, abaterii medii
pătratice, dispersiei şi coeficientului de variaţie. În final , în vederea
înţelegerii profunde a variaţiei în cadrul seriilor este prezentată regula
adunării dispersiilor.

1.Probleme generale ale seriilor de repartiţie


de frecvenţe

Sistematizarea datelor observării sub formă de serii de


repartiţie de frecvenţă se face pentru fiecare variabilă atributivă, fie
cantitativă, fie calitativă.
Principalele proprietăţi ale seriilor de repartiţie sunt:
- omogenitatea;
- variabilitatea;
– independenţa;
- tendinţa de concentrare a frecventelor ataşate valorilor
înregistrate.
Omogenitatea reprezintă faptul că seriile au acelaşi conţinut,
fiind rezultatul combinării aceloraşi factori determinanţi.
Variabilitatea derivă din faptul că fenomenele de tip statistic
sunt determinate nu numai de acţiunile unor factori esenţiali, ci şi de
combinarea acestora cu o serie de factori neesenţiali.
Independenţa variantelor seriei de distribuţie se bazează pe
faptul că variantele au fost înregistrate pentru unităţi de observare
existente, independente una faţă de alta, chiar dacă aparţin aceleiaşi
colectivităţi statistice.
Tendinţa de concentrare a frecvenţelor ataşate valorilor
înregistrate ale unei serii statistice este rezultatul combinării tuturor
unităţilor observate; în cazul în care factorii de influenţă au o
intensitate relativ constantă in cadrul fiecărei unităţi înregistrate, seria
39
Statistică – curs universitar ID

va prezenta o tendinţă de repartiţie uniformă a frecvenţelor, indicând


un proces de diversificare relativ constantă a variantelor înregistrării.
) Indicatorii seriilor statistice se grupează în:
- indicatori de frecvenţă;
Indicatorii seriilor
statistice se grupează - indicatori ai tendinţei centrale;
în 5 indicatori -indicatori ai mediilor de structură;
-indicatori de variaţie;
- indicatori ai formei de repartiţie.

2. Indicatori de frecvenţă
O serie de frecvenţe arată astfel:

Intervale Frecventele Frecventele Frecventele Frecventele


de absolute relative absolute relative
grupare cumulate cumulate
Grupa 1 f1 f1r f1 f1rc = f i r
Grupa 2
f2 f 2r f 2c = f1 + f 2 f 2rc = f1r + f 2r

Grupa I fi f ir n
Grupa n
fn f nr f nc = ∑f
i=1
i =n f nrc = 1

∑f*
n
= 1(100)
TOTAL ∑f
i =1
i =F i =1
i

Pentru a analiza structura seriei este necesar să se calculeze


frecvenţele relative după formula:
fi fi
f *i = n
=
F
∑fi =1
i

O altă modalitate de a caracteriza structura unei serii constă în


calcularea frecvenţelor cumulate. Cumularea poate fi făcută fie pentru
frecventele absolute cât şi pentru frecvenţele relative.

Cumularea frecvenţelor, respectiv a greutăţilor specifice ajută


pentru a evidenţia care este numărul de unităţi sau ponderea lor până
la valoarea absolută sau relativă totalizatoare.

3. Indicatori ai tendinţei centrale

Principalul indicator a tendinţei centrale este media


aritmetică. P e lângă ea, pentru caracterizarea unei serii de repartiţie
este necesar să se calculeze valoarea mediană şi valoarea modală.

40
Statistică – curs universitar ID
n

∑xi =1
i
x=
Media simplă: n
n

∑x ⋅ f
i =1
i i
x= n

∑f i
Media ponderată: i =1

În primul caz, n repryintă numărul termenilor seriei ; în cazul


al doilea n repreyintă numarul intervalelor de grupare.
Pentru cazul în care seriile sunt împărţite pe intervale de
variaţie, valorile x luate în calcul sunt date de centrele de intervale,
calculate ca medii aritmetice simple intre limitele de interval.
Media se exprimă în aceleaşi unităţi de măsură ca şi valoarea
variabilei statistice din care s-a calculat.
In analiza seriilor se pot utiliza şi celelalte tipuri de medii: media
armonică, pătratică, geometrică.
Mediana este valoarea seriei care o împarte pe aceasta în 2
părţi egale. Pentru seriile simple, dacă numărul termenilor seriei e 
impar, atunci mediana este dată de termenul de mijloc al seriei. Definiţia medianei
Dacă numărul termenilor seriei este par, mediana se va calcula
ca medie aritmetică simplă a celor 2 termeni din mijloc ai seriei.
Practic mediana se va plasa în intervalul care include acea
valoare în frecvenţe cumulate (frecvenţa cumulată a intervalului
anterior este mai mică iar frecvenţa cumulată a intervalului respectiv e
mai mare sau egală cu valoarea dată de locul medianei).
n

∑f
i =1
i +1
U Me = = 50.5 (33 − 35)
Locul medianei: 2
1⎡ n ⎤ me −1

2 ⎢⎣ i =1
f i + 1⎥ − ∑ fi
⎦ i =1
Me = x 0 + h
Valoarea medianei: f me
h – lungimea intervalului medianei;
f me –index, frecvenţa intervalului medianei;
me −1

∑f i
i =1 - suma frecvenţelor anterioare intervalului medianei.
Modul reprezintă valoarea seriei cu probabilitatea cea mai
mare de apariţie
Modulul se va plasa în intervalul cu frecvenţa cea mai mare
din cadrul seriei.
Formula de calcul:

41
Statistică – curs universitar ID

Δ
Mo = x 0 + h
Δ1 + Δ 2
Δ 1 = f mo + f mo −1 ( frecventa int ervalului precedent celui mod al )

Δ 2 = f mo + f mo +1 (int ervalul succesor celui mod al )


h repreyintă amplitudinea intervalului modal;
x0 repreyintă limita inferioară a intervalului modal.

4. Indicatori ai variaţiei

Media nu este o valoare reprezentativă decât pentru cazul în


care ea este calculată din mărimi omogene, cu un grad de variaţie cât
mai redus. Pentru a verifica gradul de omogenitate al caracteristicilor
pentru care se determină media, este necesar să se calculeze indicatori
de variaţie, de asimetrie şi de exces
Aceşti indicatori permit separarea modului de acţiune a
factorilor esenţiali de acţiunea factorilor întâmplători, ajungând la
identificarea felului în care acţionează factorii esenţiali de la o grupă
la alta.
Indicatorii variaţiei sunt de 2 tipuri: simpli şi sintetici.

41. Indicatori simpli ai variaţiei


Sunt utilizaţi pentru a caracteriza gradul de împrăştiere a
 unităţilor purtătoare a caracteristicii studiate. Se pot exprima în
Utilizarea indicatorilor mărimi absolute, dar şi mărimi relative sau procente.
simpli ai variaţiei Indicatorii simplii sunt:
a) Amplitudinea absolută a variaţiei (A) se calculează ca
diferenţă intre nivelul maxim şi nivelul minim al caracteristicii.
A = x max − x min
Se exprimă în aceiaşi unitate de măsură ca şi variabila.
b) Amplitudinea relativă a variaţiei (A%) se calculează după
A
A% = ⋅ 100
formula: x Se exprimă in procente.
c) Abaterile individuale absolute (d) se calculează ca diferenţa
intre fiecare variantă înregistrată şi media aritmetică a variantelor
d i = xi − x
Se exprima în aceiaşi unitate de măsură.
d) Abaterile individuale relative (d%) se calculează astfel:
di xi − x
d% = ⋅ 100 = ⋅ 100
x x
In analiza variaţiei, interesează în mod special abaterile
maxime intr-un sens sau altul.
( −)
Abaterea maximă negativă dmax(-) d max = x min − x

( −) x min − x
d max %= ⋅ 100
Abaterea maximă negativă relativă:: x
(+)
d max = xmax − x
Abaterea maximă pozitivă dmax(+) :
(+) x max − x
d max %= ⋅ 100
Abaterea maxima negativă relativă : x

42
Statistică – curs universitar ID

4.2 Indicatori sintetici ai variaţiei


Se utilizează pentru a sintetiza într-o singură expresie
numerică întreaga variaţie a unei caracteristici, scop în care statistica
recurge tot la valoarea medie, calculată din abaterile individuale ale
variantelor de la media lor.
Se utilizează 4 indicatori sintetici:
1. Abaterea medie lineară;
2. Abaterea medie pătratică;
3. Dispersia;
4. Coeficientul de variaţie.
1. Abaterea medie lineară de notează cu d şi se calculează ca
o medie aritmetică simplă sau ponderată din abaterile termenilor seriei
de la media lor în valoare absolută.
n

∑x
i =1
i −x
d=
1.1. Pentru o serie simplă : n
n


i =1
xi − x ⋅ fi
d = n

∑ fi
1.2.Pentru o serie cu frecvenţe absolute: i =1

1.3.Pentruo serie de frecvenţe relative exprimate în


n

∑x
i =1
i − x ⋅ f ir %
d=
procente: 100
2. Abaterea medie pătratică, numită şi abatere medie tip sau
abaterea standard; se notează cu σ (sigma) şi se calculează ca o medie
pătratică din abaterile tuturor variantelor seriei de la media lor
aritmetică.
n

∑ (x
i =1
i − x) 2
σ=
2.1. Pentru o serie simplă n
n

∑ (x
i =1
i − x) 2 ⋅ f i
σ= n

∑f i
2.2. Pentru o serie de frecvenţe absolute: i =1

2.3. Pentru o serie de frecvenţe relative exprimate în procente:


n n

∑ (x i
2 r
− x) ⋅ f i (%) ∑ (x
i =1
i − x) 2 ⋅ f i r (%)
i =1
σ= =
100 10
De menţionat că abaterea medie pătratică va fi întotdeauna mai
mare decât abaterea medie lineară.
Prin ridicarea la pătrat a abaterilor liniare, abaterea medie
pătratică scoate în evidenţă tocmai valorile cele mai mari ale acestora.
Din acest motiv, abaterea medie pătratică va fi totdeauna mai mare
decât abaterea medie liniară.
3. Dispersia este un indicator sintetic al variaţiei extrem de 
important deoarece cumulează gradul de împrăştiere al valorilor seriei Definiţia dispersiei
faţă de media lor. Ea este legată de abaterea medie pătratică fiind
43
Statistică – curs universitar ID

practic pătratul acesteia, în consecinţă, calculul abaterii medii pătratice


presupune în primul rând calculul dispersiei.
3.1. Pentru seriile simple, formula de calcul este:
n

∑ ( x − x) i
2

σ2 = i =1
n
3.2. Pentru seriile de repartiţie cu frecvenţe absolute:
n

∑ ( xi − x ) 2 ⋅ fi
σ 2
= i =1
n

∑ i =1
fi

3.3. Pentru seriile de repartiţie de frecvenţe relative exprimate


n

∑ (x
i =1
i − x) 2 ⋅ f i r %
σ2 =
in procente: 100

4. Coeficientul de variaţie se notează cu V şi se calculează ca


raport intre abaterea medie pătratică şi nivelul mediu al seriei. De
σ
V = ⋅ 100
obicei se exprimă procentual: x Poate lua valori pozitive
sau negative, începând cu 0.
Se apreciază că o serie este omogenă dacă valoarea acestui
coeficient în valoare absolută nu depăşeşte 30%. În caz contrar se
apreciază că media nu mai este reprezentativă, deci seria este
eterogenă, singura modalitate de creştere a omogenităţii fiind
refacerea împărţirii pe grupe. Dacă nu avem la dispoziţie decât
abaterea medie liniară, coeficientul de variaţie poate fi calculat şi pe
d
Vd` = ⋅ 100
baza ei: x
Coeficientul astfel calculat va fii mai mic decât cel calculat pe
baza abaterii medii pătratice.

5. Indicatorii variaţiei intr-o colectivitate împărţită


pe grupe. Regula adunării dispersiilor

Cu cât fenomenele sunt mai complexe, cu atât gradul de


variaţie al caracteristicilor care le definesc prezintă o amplitudine mai
mare a variaţiei.
Din acest motiv, unităţile la care s-a făcut observaţia trebuie
împărţite în grupe, în funcţie de variaţia factorilor determinanţi. In
cazul în care s-a aplicat în prealabil metoda grupării, se pot calcula
atât medii pe fiecare grupă în parte, cât şi o medie a colectivităţii
totale, luând în calcul toate valorile individuale ale seriei.
In mod corespunzător se vor calcula indicatorii de variaţie
pentru fiecare grupă în parte şi indicatorii variaţiei pentru întreaga
colectivitate.
Indicatorii de variaţie pentru întreaga colectivitate se pot
calcula în 2 moduri:

44
Statistică – curs universitar ID

a) făcând abstracţie de faptul că ea este compusă din mai


multe grupe;
b) luând în calcul variaţia din interiorul grupelor şi cea între
grupe.
Intre indicatorii de variaţie, calculaţi la nivelul fiecărei grupe şi
indicatorii întregii colectivităţi există anumite relaţii bazate pe aşa-
numita regulă a adunării dispersiilor.

Valoarea Numărul unităţilor pe variantele Total unităţi pe grupe Medii Dispersii


caracteristici caracteristicii m de de
de grupare y1 y2 yi ym ∑n ij = ni grupă grupă
(xi) i =1 yi σ i2
n11 y1 ο12
n12
x1 n21 n1i n1m n1
n22 y2 ο 22
x2 n 2i n2 m n2
ni1
xi
ni 2
nii nim nj yj ο 2j

nk1
nk 2 yk ο k2
xk nki nkm nk

i = n⋅ j n ⋅1 n ⋅ 2
n⋅m
n = ∑ n k = ∑ ∑ nij
n⋅i y ⇒
j =1 i j

2 2
⇒σ y = σ y / x + α y / x

Dacă se studiază variaţia caracteristicii y in funcţie de variaţia


factorilor de grupare x, atunci se pot calcula medii şi dispersii
condiţionate pentru fiecare grupă, prin care se va pune în evidenţă
interdependenţa dintre cele 2 caracteristici.
Dacă x este factorul de grupare, frecvenţele pe fiecare grupă se obţin
prin însumarea frecvenţelor din interiorul grupelor adică:
m

∑n
i
ij = ni . Pentru o astfel de situaţie, se obţine o medie generală y ,

care sintetizează atât variaţia tuturor valorilor individuale ale


colectivităţii totale, cât şi valorile mediilor de grupă, numite şi medii
condiţionate de factorul de grupare yi. Pentru caracteristica y se pot
calcula 3 feluri de indicatori, care să caracterizeze:
a) variaţia valorii yi in jurul mediei lor de grupă ( yi − y i )
b) variaţia valorilor mediilor de grupă in jurul mediei
colectivităţii totale ( y i − y)
c) variaţia valorilor individuale yi in jurul mediei colectivităţii
totale ( yi − y )
La nivelul fiecărei unităţi observate, variaţia totală ( yi − y ) , se
poate descompune in variaţia faţă de media de grupă şi variaţia
mediilor de grupare faţă de media colectivităţii totale.
yi − y = ( yi − y i ) + ( y i − y )

45
Statistică – curs universitar ID

Variaţia valorilor individuale din fiecare grupă în jurul


mediilor va măsura gradul de influenţă a factorilor variabili, prezenţi
in interiorul grupei.
Pe de altă parte, variaţia mediilor de grupă faţă de media
colectivităţii totale este interpretată ca rezultat al factorului de grupare,
deoarece în acest caz factorii variabili din interiorul grupei s-au păstrat
la un nivel constant.
) Dispersia totală calculată pe baza abaterilor valorilor
individuale faţă de media colectivităţii totale este
Dispersiile se m
calculează
∑ (y
j =1
j − y) ⋅ n j
2
următoarea: σ y = m .
∑n
j =1
j

Cu cât această valoare σ y2 este mai mare, cu atât colectivitatea


e mai eterogenă
Dispersia de grupă sau parţială σ i2 se calculează pe baza
abaterilor tuturor variantelor dintr-o grupă faţă de media lor, ponderate
m

∑ (yj =1
i − y i ) ⋅ n ij
2
cu frecventele de grupă: σ i = m . Vor exista k astfel
∑n
j =1
ij

de dispersii de grupă, deci se poate calcula o medie a acestor dispersii


2
notată cu ϑ i
Această dispersie permite măsurarea influentei factorilor
variabili prezenţi în interiorul fiecărei grupă,( se mai numeşte şi
dispersia din interiorul grupei) şi cu cât este mai mare, cu atât grupa
este mai eterogenă.
Dispersia dintre grupe se calculează pe baza abaterilor
mediilor de grupă de la media colectivităţii totale măsurând gradul de
influentă a factorilor de grupare asupra variabilei studiate.
k

∑(y i − y ) 2 ni
α y2 / x = i =1
k

∑n i =1
i

Între cele 32 dispersii funcţionează regula adunării


dispersiilor: σ y = σ i + α y / x
2 2

Dispersia totală = cu media dispersiilor din interiorul


grupelor + dispersia dintre grupe.

46
Statistică – curs universitar ID

APLICAŢIA 3

GRUPE DE UNITĂŢI Nr. Unităţi Vânzări total


COMERCIALE DUPĂ (f i) (mil lei)
VALOAREA
VÂNZĂRILOR
REALIZATE (mii lei)
Sub 31 18 500
31-33 24 750
Æ 33-35 Å 25 1000
35-37 13 450
37-39 8 300
39-41 7 280
Peste 41 5 220
TOTAL 100 3500
Xh = 33,89
Xg = 34,04
X = 34,20
Xp = 34,47
Pe baza algoritmului de calcul al medianei pot fii calculate şi
cuartilele, decilele şi centilele.
Centilele sunt acele valori care împart seria în 4 părţi egale. Există 3
cuartile, a doua fiind evident egală cu mediana.
Locul primei cuartile va fii:
( cu −1)
1
(∑ f i + 1) − ∑ f i
U CU 1 =
∑f I +1
formula de calcul = x 0 + h
4 i =1

4 f cu1

- decilele vor împărţi seria în 10 părţi egale<


- centilele vor împărţi seria în 100 părţi egale.
Există 9 decile, a cincea fiind egală cu mediana şi 99 de
centile, a 50-a fiind egală cu mediana.

Indicatorii variaţiei
Pe lângă indicatorii tendinţei centrale, o importanţă deosebită
pentru caracterizarea seriilor o au indicatorii variaţiei.
Aceştia se împart în 2 categorii: indicatori simplii ai variaţiei
şi indicatori sintetici.
Indicatorii simplii sunt: amplitudinea A = x max – x min
(diferenţa dintre valoarea maximă şi valoarea minimă a seriei), şi
abaterile individuale liniare ale valorilor seriei de la medial lor.
Indicatorii sintetici sunt:
- abaterea medie liniară – calculată ca media aritmetică simplă sau
ponderată între valorile absolute ale abaterilor liniare ale valorilor
seriei de la media acesteia.

47
Statistică – curs universitar ID

∑x
i =1
i −x
Pentru o serie simplă: d = ; pentru o serie de distribuţie cu
n
n

∑x
i =1
i − x fi
frecvenţe absolute: d = n
..
∑f
i =1
i

- dispersia – al doilea indicator sintetic al variaţiei, foarte important


deoarece calculează şi estimează gradul de împrăştiere a valorilor
seriei faţă de media lor.
Pentru o serie simplă, dispersia se calculează astfel:
n

∑ (x i − x) 2
ϑ2 = i =1

n
Scrieţi dispersia pentru o serie de repartiţie cu frecvenţe absolute!

) - abaterea medie pătratică, numită şi abatere standard, notată cu ϑ


se calculează scoţând rădăcina pătrată din media aritmetică simplă sau
abaterea medie ponderată a pătratelor abaterilor liniare ale valorilor seriei de la media
pătratică se
lor. Cu alte cuvinte, abaterea medie pătratică este radicalul
calculează astfel
dispersiei:
n n

∑ (x i − x) 2 ∑ (x i − x) 2 f i
ϑ = i =1
; ϑ= i =1
n
--
n
∑f
i =1
i

- coeficientul de variaţie, al patrulea indicator al variaţiei seriei, a fost


introdus din necesitatea de a introduce nişte limite între indicatorii
variaţiei ,pentru a putea aprecia omogenitatea seriei.
Coeficientul de variaţie se calculează în 2 moduri:
d
V = daca se cunoaste doar abaterea medie liniara
x
ϑ
sau : V = daca se cunoaste abaterea s tan dard
x

Coeficientul de variaţie ia valori între 0 şi 100%


Dacă acest coeficient este sub 10% seria este foarte omogenă
Dacă este sub 35% se apreciază că seria e omogenă.

Exemplu:
X ( x i − x) ( x i − x) f i ( x i − x) 2 f i
30 4,2 75,6 317,5
32 2,2 52,8 116,16
34 0,2 5 1
36 1,8 23,4 42,12
38 3,8 30,4 115,52
40 5,8 40,6 235,48
42 7,8 39 304,2
Σ = 266,8 Σ = 1132
48
Statistică – curs universitar ID

266,8
d= = 2.668
100
1132
ϑ2 = = 11,32
100
ϑ = 11,32 = 3,36
d
V= 100 = 7,8%
x
ϑ
V= 100 = 9,82%
x
Prin ambele metode coeficientul de variaţie este sub 10% deci,
seria poate fii apreciată ca o serie foarte omogenă.

APLICAŢIA 4
Considerăm 400 de salariaţi care formează un eşantion de 10%
selectat întâmplător şi nerepetat din numărul total al salariaţilor unei
firme. Se cunosc următoarele date referitoare la vechimea în muncă şi
timpul nelucrat:

GRUPE TIPICE SUBGRUPE DUPĂ TIMPUL


DUPĂ VECHIME NELUCRAT (minute) TOTAL
(ANI) sub 45 45-55 peste 55
Sub 10 - 25% 75% 100%
10-20 15% 50% 35% 100%
Peste 20 90% 10% - 100%

Ştiind că eşantionul este structurat astfel: grupa sub 10 ani are


o pondere de 25%, grupa între 10 şi 20 ani are o pondere de 40%,
grupa peste 20 ani are o pondere de 35%, se cere:
1. Timpul mediu nelucrat pe grupe de vechime şi timpul mediu
nelucrat al eşantionului, precizându-se dacă sunt valori reprezentative
2. Felurile dispersiilor şi verificarea regulii de adunare a
dispersiilor.
3 Să se verifice semnificaţia factorului principal de grupare
(vechimea) pentru variaţia timpului nelucrat, prin calcularea
coeficientului de determinaţie şi criteriul F de analiză dispersională.

Pentru a verifica dacă mediile sunt reprezentative, verificăm


dacă grupările sunt omogene, verificare care se produce prin calculul
coeficientului de variaţie şi verificarea încadrării lui sub 35%.

SUBGRUPE
GRUPE TOTAL
35-45 45-55 55-65
0-10 0 25 75 100
10-20 24 80 56 160
20-30 126 14 0 140
Total 150 119 131 400

49
Statistică – curs universitar ID

⎛ x1 x2 xi xp ⎞
distributi a X ⎜⎜ ⎟ pe grupe;
⎝ f1 f2 fi f p ⎟⎠
⎛y y2 yi yn ⎞
distributi a Y ⎜⎜ 1 ⎟ pe subgrupe
⎝ f1 f2 fi f n ⎟⎠
Pentru fiecare subgrupă trebuie să calculăm: x, y,℘2 ,℘,℘i , Vi

Subgrupa I
Yi Frecvenţe
40 0
50 25
60 75

(50 x 25) + 60 x75)


yi = = 57,5 min ute
100
(7,5) 2 25 + 2,5 2 7,5
℘ =
2
= 18,75
100
℘ = 18,75 = 4,330 Vi = 7,5%

Subgrupa II
Yi Frecvenţe
40 24
50 80
60 56

960 + 4000 + 3360


y2 = = 52 ℘2 = 46
160
6,78
℘ = 6,78 V2 = 100 = 13,04
52

Subgrupa III
Yi Frecvenţe
40 126
50 14
60 0
5740
y3 = = 41 ℘2 = 9 ℘ = 3
140
Colectivitatea generală
Yi frecvenţe
40 150
50 119
60 131
y = 49,525 ℘ = 70,02 ℘ = 8,36
2
Vi = 7,31

50
Statistică – curs universitar ID

Indicatori yi ℘2 ℘ Vi
Grupa
0-10 57,5 18,75 4,33 7,5
10-20 52 46 6,78 13,04
20-30 41 9 3 7,31
Colectiv. 49,52 70,02 8,36 16,88
Totală

Având în vedere că, atât pentru toate grupele, cât şi pentru


colectivitatea generală, coeficientul de variaţie este de sub 30%, toate
omogenă grupă d.p.d.v. al timpului nefolosit este ultima cu mediile
calculate sunt reprezentative, grupele fiind omogene. Cea mai
omogenă grupă va fi aceea cu coeficientul de variaţie cel mai mic.

2
Regula adunării dispersiilor: ℘T2 = ℘i + δ 2
Dispersia colectivităţi totale este egală cu suma dintre media
dispersiilor de grupă şi dispersia dintre grupe.
℘T2 = 70,02 .
Media dispersiilor de grupă se calculează ca o medie
ponderată, ponderând dispersiile fiecărei grupe cu frecvenţele de
apariţie.
℘i2 f
18,75 100
46,0 160
9 140

18.75 x100 + 46,0 x160 + 9 x140


℘i2 = = 26,23
400
Dispersia dintre grupe δ 2 se va calcula pe baza abaterilor
mediilor fiecărei grupe de la media generală.
n

∑(y i − y) 2 f i
(57,5 − 49,52) 2 x100 + (52 − 49,5) 2 x160 + (41 − 49,52) 2 x140
δ2 = i =1
n
= = 43,78
400
∑f
i =1
i

Regula adunării dispersiilor se verifică, eventualele infime

51
Statistică – curs universitar ID

diferenţe provenind din calculul cu un număr insuficient de


zecimale….!

În final, un sfat : aprecierea omogenităţii unei serii este vitală


pentru orice economist care doreşte să-şi argumenteze cunoştinţele !

52
Statistică – curs universitar ID

Capitolul VI

SONDAJUL STATISTIC ŞI
UTILIZAREA LUI ÎN ECONOMIE
Conţinut:
1. Generalităţi
2. Noţiuni şi importanţă
3. Procedee şi modalităţi de alcătuire a
eşantioanelor
4. Estimarea mediei şi dispersiei populaţiei
folosind sondajul statistic
5. Precizia estimaţiei, probabilitatea de
încredere, intervalul de încredere

Rezumat: Unul dintre capitolele esenţiale ale statisticii,


menit să uşureze consistent munca cercetătorului, este sondajul. În
cadrul lui, o bună cunoaştere şi înţelegere presupune stăpânirea
riguroasă a noţiunilor teoretice, alături de înţelegerea conceptelor de
reprezentativitate şi estimaţie. În vederea efectuării în bune condiţii a
unui sondaj este importantă alegerea procedurii corecte de alcătuire a
eşantionului şi dimensionarea corectă a acestuia. În vederea calculului
şi estimării căt mai aproape de adevăr a mediei şi dispersiei
colectivităţii generale este pus la dispoziţie aparatul statistico-
matematic adecvat.

1. Generalităţi

Necesarul de informaţie în continuă creştere, coroborat cu


faptul că sursele economice (în principal cele financiare) sunt de
regulă limitate, determină creşterea gradului de utilizare a metodei
sondajului statistic ca formă a observării parţiale.
Sondajul statistic este uneori singura formă de obţinere a
informaţiei şi este cu atât mai avantajoasă cu cât presupune un consum
redus de resurse, oferind posibilitatea de a obţine informaţii referitoare
la întreaga colectivitate, prin observarea şi cercetarea unei părţi a
acesteia.
Partea cercetată este numită subpopulaţie sau eşantion, fiind
întâlnită în literatura de specialitate sub numele de sondaj sau selecţie.
In practica cel mai des se foloseşte sintagma "colectivitate de
selecţie" pentru eşantion.
Toate ipotezele, afirmaţiile, clasele stabilite pe baza unui
sondaj nu pot fi considerate de tip determinist, ele având caracterul
unor ipoteze, afirmaţii de tip statistic, efectuate in condiţiile unei
anumite probabilităţi, deci cu un anumit nivel de încredere.

53
Statistică – curs universitar ID

2. Noţiuni si importantă

Culegerea datelor se face prin observaţii totale şi parţiale. Dacă


observaţia parţială se face în scopul înlocuirii unei observări totale,
atunci statistica foloseşte metoda selectivă, care presupune obţinerea
unor eşantioane reprezentative, extrase după criterii strict elaborate, şi
care se supun observării în conformitate cu o serie de reguli
prestabilite.
Reprezentativitatea este proprietatea conform căreia, intr-un
număr mai mic de unităţi, care formează împreună un eşantion, se
regăsesc aceleaşi trasaturi esenţiale ca si în întreaga populaţie supusa
cercetării statistice.
Se consideră suficient de reprezentativ, sondajul care conduce
la erori de cel mult ± 5 % între colectivitatea de selecţie şi
colectivitatea generală.
La aplicarea metodei sondajului statistic, se utilizează o serie
de noţiuni-perechi ale colectivităţii de selecţie şi colectivităţii generale
după cum urmează:
Colectivitatea Volum Caracteristica nealternativă Caracteristica alternativă
Medie Dispersie Medie Dispersie
n

n ∑ (x i − x) 2 m sW2 = W ⋅ (1 − W )
V=
Colectivitatea
n
∑ j =1
xi s =
2 i =1

n n
de selecţie x= n m S 2 = f (1 − f )
n
∑ (x − x) 2 f =
i
n
s2 = i =1

n −1
N N

Colectivitatea ∑x i ∑ (x i − x0 ) M σ P2 = P ⋅ (1 − P)
generală
N
x0 =
j =1
σ =
2 i =1 P=
N N N

De reţinut că, în orice condiţii volumul colectivităţii totale


este o constantă, deci parametrii colectivităţii totale (media, dispersia)
pot lua fiecare cate o singură valoare distinctă. In acelaşi timp, dintr-o
populaţie totală de N unităţi pot fi extrase mai multe eşantioane de
acelaşi volum sau de volum diferit. Rezultă de aici că media şi
dispersia colectivităţii de sondaj se transformă în variabile aleatoare,
cu valori şi frecvenţe diferite de apariţie.
Dintr-un volum de N unităţi pot fii extrase C Nn eşantioane. Numărul
n
total al eşantioanelor este 2 .
De aici rezultă că media şi dispersia colectivităţii de sondaj se
transformă în variabile aleatoare cu valori diferite şi cu frecvenţe
diferite.
Pentru fiecare indicator calculat la nivel de colectivitate
generală sau eşantion, există diferenţe in plus sau in minus. Aceste
diferenţe se numesc erori de selecţie şi sunt: de sondaj sau de
 reprezentativitate.
Erorile de sondaj sunt erori de care îşi au sursa in încălcarea
Definiţie erori de
sondaj principiului fundamental al sondajului şi anume caracterul aleator al
prelucrărilor. Ele se concretizează in deplasări ale valorilor
54
Statistică – curs universitar ID

parametrilor stabiliţi pentru colectivitatea de selecţie, comparativ cu


parametrii existenţi pentru populaţia originară.
Datorită proprietăţilor mediei, la calculul erorii de sondaj se
ia in discuţie ca principal măsurător al erorii, diferenţa dintre media
de selecţie şi media generală.
Eroarea de reprezentativitate reprezintă diferenţa dintre
media generală a populaţiei şi media eşantionului, aceasta din urmă
fiind calculată pe baza sondajului.
Această eroare este expresia in unităţi concrete de măsură,
considerându-se că media x a colectivităţii de selecţie este
reprezentativa pentru media generală (m) a colectivităţii generale,
dacă este reflectată relaţia:
x−m x−m
− 5% ≤ ≤ 5% sau d x (%) = ≤ 5%
m m
Diferenţa x − m se numeşte eroare de eşantionare sau eroare de
reprezentativitate si este de 2 tipuri:
b1) eroare de reprezentativitate sistematică, provenind de la (
nerespectarea principiilor fundamentale ale efectuării sondajului: eroarea de eşantionare
este de 2 tipuri
“alegerea la întâmplare a unităţilor eşantionului”.
b2) eroare de reprezentativitate întâmplătoare, care nu poate
fi evitată şi care ţine de natura eşantionării ca cercetare parţială.
Practica demonstrează că indiferent de precauţiile luate, nu
este posibilă reproducerea până la identitate a structurii populaţiei
totale şi de aici rezultă că eroarea de reprezentativitate poate fi
calculată dacă media generală este cunoscută dintr-o cercetare
anterioara, comparându-se media eşantionului înregistrat, calculată în
cursul cercetării, cu această medie generală recunoscută.
In acest caz se spune ca a fost calculata eroarea efeectivă de
sondaj şi dacă ea se încadrează in marja de ± 5% este verificat şi
gradul de reprezentativitate.
Nu în toate cazurile există o medie precalculată a colectivităţii
generale. Din acest motiv se utilizează mai multe sondaje de probă,
verificându-se stabilitatea mediei şi a dispersiei acestor sondaje prin
metode cunoscute de la seriile de distribuţie.
Avantajul selecţiei statistice constă în faptul că permite
calcularea mărimii erorii şi stabilirea prealabilă a mărimii acesteia, cu
condiţia ca la formarea eşantionului să se folosească o schema
probabilistică sau un procedeu derivat dintr-o schemă probabilistă.
In acest caz, se pot interpreta si calcula erorile de selecţie, cu
ajutorul proprietăţilor diferitelor funcţii de probabilitate.

3. Procedee şi modalităţi de alcătuire a


eşantioanelor

Metoda sondajului oferă tehnici variate de prelucrare,


diferenţiate şi adaptate diferitelor tipuri de populaţie, astfel încât să se
asigure caracterul aleator al selecţiei unităţilor şi reprezentativitatea
eşantionului.
După modul de prelucrare sau extragere, există următoarele
tipuri de sondaje:

55
Statistică – curs universitar ID

a) sondaj simplu aleator


- repetat
- nerepetat
b) sondaj tipic (stratificat):
c) sondaj de serie
d) sondaj in mai multe trepte
e) sondaj secvenţial utilizat la controlul calităţii
f) sondaj subiectiv (organizat sau dirijat)
g) sondaj sistematic sau mecanic
In practică, în marea majoritate a cazurilor, eşantioanele se
extrag din populaţii finite. Aceste eşantioane se tratează prin analogie
cu extragerea sondajelor din populaţii infinite.
In funcţie de revenirea sau nerevenirea fiecărei unităţi in baza
de extragere, sondajele sunt repetate, daca unitatea extrasă revine în
baza in vederea unei noi extrageri, şi nerepetate în caz contrar.

Sondajul repetat este sondajul în care fiecare unitate extrasă


) din populaţia generală este introdusă din nou în aceasta, în vederea
unei noi extrageri. În acest caz, variabilele sunt independente între ele
definiţie sondajul
repetat
şi fiecare unitate poate fi extrasă de mai multe ori.
În sondajul simplu repetat varianta de sondaj da naştere unei
repartiţii teoretice după modelul Bernoulli.
Dintr-o colectivitate care conţine N unităţi se pot extrage mai
multe eşantioane de volum n, care pot să fie diferite ca structură una
de cealaltă ,deci succesiunea probelor de sondaj este infinită. Numărul
de variante de eşantionare este totuşi finit şi este egal cu: C Nn .

Prin sondaj nerepetat se înţelege un sondaj analog cu modelul


) bilei extrase din urna, fără ca ea să mai fie pusă înapoi.
In acest caz, variantele sunt dependente intre ele, şi fiecare
definiţie sondajul
nerepetat unitate poate apărea o singură dată în şirul succesiv al probelor. Este
practic un sondaj efectuat dintr-o populaţie finită , cu fracţia de
sondaj depinzând de volumul eşantionului.
Atât în cazul bilei revenite, cât şi in cel al bilei nerevenite se
obţin mai multe eşantioane de acelaşi volum. Efectuând toate
eşantioanele posibile cu acelaşi volum, mediile de selecţie pot fi
considerate ca valori diferite ale unei variabile statistice aleatoare, care
pot estima media generală cu o abatere mai mare sau mai mică.
Rezultă de aici că există sondaje mai eficiente sau mai puţin eficiente.

Prin definiţie, un sondaj A de volum n, in baza căruia se


estimează media m a unei populaţii pentru variabila x prin
estimaţia x A este mai eficace decât sondajul B, de acelaşi volum n,
în baza căruia se estimează aceeaşi medie m a caracteristici x,
dacă există relaţiile:
M (x A ) = m
M (x B ) = m
D( x A ) < D( x B )

56
Statistică – curs universitar ID

Acest lucru se explică pe baza inegalităţii lui Cebîşev, care


1 ⎛ 1 ⎞
exprimă cu o probabilitate mai mare decât 1 − 2
⎜ p > 1− 2 ⎟
k ⎝ k ⎠
următoarele:
- in cazul sondajului A media teoretică m se găseşte cuprinsă
în intervalul [x A − kD( x A ), x A + kD( x A ];
- in cazul sondajului B [x B − kD( x B ), x B + kD( x B ]..

Concluzie:
Cu aceeaşi probabilitate, se găseşte pentru media teoretică un
interval mai mic de acoperire în cazul sondajului A decât în cazul
sondajului B, motiv pentru care spunem că sondajul A este mai
eficient şi îl preferăm sondajului B.

Întreaga metodologie de calcul si interpretare statistica a


rezultatelor unei cercetări selective, se bazează pe sondajul simplu,
aleator, care corespunde cel mai bine schemei Bernoulli şi are ca
model teoretic repartiţiile binomială şi hipergeometrică.
Alcătuirea eşantioanelor poate fi făcută prin mai multe
procedee: (
Procedee pentru
a) procedeul bilei revenite şi nerevenite Æ procedeu în care alcătuirea eşantioanelor
elementele populaţiei generale se notează de la 1 la N, şi fiecare nr. se
notează pe un cartonaş. Toate cartonaşele se introduc într-o anumită
urnă (urna lui Bernoulli) şi se amestecă bine. Extragerile se fac la
întâmplare.
Elementul extras se consideră component al eşantionului. Dacă
elementele nu se mai introduc in urna lui Bernoulli, sondajul aleator
este nerepetat. In caz contrar, sondajul este repetat.
La sondajul repetat, după fiecare reintroducere, cartonaşele din
urna lui Bernoulli sunt din nou amestecate.

b) procedeul tabelului numerelor aleatoare Æ reprezintă o


variantă de selecţie probabilistă, care porneşte de la conceptul de nr.
aleator şi care are sens prin asociere cu anumite experimente şi
anumite consemnări, privind frecvenţa de apariţie a unui fenomen sau
a unei anumite caracteristici intr-un proces.
Utilizarea tabelelor cu numere aleatoare constă în preluarea din
cadrul populaţiei a unităţilor ale căror numere de ordine prestabilite
printr-o numărătoare prealabilă au fost citite după o anumită ordine
din tabel. Citirea se face de sus în jos şi de la stânga la dreapta.
Există algoritmi care generează numere aleatoare. Pentru ca
selecţia să fie riguros întâmplătoare, punctul de pornire in acest tabel
se alege tot întâmplător.
Daca nu există corespondenţi intre numărul citit din tabel şi
numărul elementului, se trece mai departe la alt număr aleator.

c) procedeul mecanic de formare a eşantionului Æ solicită


ca elementele colectivităţii generale supuse cercetării sa fie prelevate
după un interval determinat, denumit frecvent " pas de numărare",
care se aplică bazei de sondaj.

57
Statistică – curs universitar ID

Spre exemplu, dacă volumul eşantionului ar fi de 1/10 din cel


al colectivităţii generale, preluarea elementelor în eşantion se face din
10 în 10, pornindu-se dintr-un punct al colectivităţii ales întâmplător.

4. Estimarea mediei şi dispersiei populaţiei


generale folosind sondajul statistic

4.1. Sondajul aleator simplu repetat


Analiza formulelor de estimare pentru medie şi dispersie duce
la concluzia că sondajul aleator simplu repetat este cel mai apropiat ca
estimare pentru medie şi dispersie, fiind de asemenea cel mai
acoperitor din punctul de vedere al bazei teoretice şi pentru celelalte
procedee. În acest caz media de selecţie este o variabilă care urmează
o anumită lege de probabilitate. Se demonstrează că funcţia de
probabilitate depinde de volumul eşantionului. Acest principiu stă la
baza calculului erorii probabile de reprezentativitate.

) Prin estimaţie se înţelege operaţia de extindere, in limitele


specificate de incertitudinea exprimată în termeni probabilistici, a
Definiţia estimaţiei rezultatelor obţinute în sondaj asupra întregii populaţii.

Estimaţiile reprezintă evaluări aproximative ale adevăratelor


valori ale parametrilor estimaţi, deoarece sunt afectate de erori.
Eroarea estimaţiei afectează precizia ei. Rezultă de aici că
estimarea parametrului general se face printr-un interval de estimare
numit şi interval de încredere.
Acest interval va avea 2 limite: limita inferioară θ , limita
superioară θ .
Pentru parametrul real este îndeplinită următoarea relaţie de
probabilitate:
P (θ < 0 < θ ) = 1 − α
In acest caz ,1-α este nivelul de încredere, iar α se mai
numeşte prag de semnificaţie.
Jumătatea intervalului de încredere se numeşte eroare limită
(θ − θ )
admisă şi se notează cu: Δ =
2
Folosind independenta valorilor variabilelor din eşantion,
notate cu x1,x2....xn, se arată că media de sondaj va fii :
n
x1 + x 2 + ..... + x n 1
x=
n
= ⋅
n ∑x
i =1
i

Dispersia mediei de sondaj:


σ 2
D( x) =
n

Abaterea medie pătratica a mediei de sondaj:


σ s
σ ( x) = ≈
n n

58
Statistică – curs universitar ID

4.2. Sondajul aleator simplu nerepetat

În caracterizarea şi calculul parametrilor acestui tip de sondaj


se consideră că X este o caracteristică de tip cantitativ. Problema
principală a sondajului este estimarea mediei m a colectivităţii
generale pe baza mediei x a colectivităţii de selecţie, precum şi a unor
parametrii rezultaţi în urma aplicării metodei selecţiei statistice.
Este evident că numai din punct de vedere pur teoretic sau
absolut întâmplător este posibil ca m să fie egal cu x. În general,
media colectivităţii de selecţie sau a eşantionului se apropie mai mult
sau mai puţin de media colectivităţii generale, deci va aparţine unei
varietăţi a acesteia. Cu cât această varietate este mai restrânsă, cu atât
estimarea este mai constantă iar selecţia mai reuşită.
Dacă N este volumul colectivităţii generale atunci
probabilitatea producerii fenomenului xi = 1/N, iar X2 = x2 în
condiţiile în care deja X1 = x1 = 1/N
1
P ( X 2 = x 2 / X 1 = x1) =
N −1
Cu alte cuvinte, dacă în momentul iniţial probabilitatea
extragerii unui anumit element din cadrul eşantionului este egală cu
1/volumul colectivităţii, după ce această extragere s-a produs
probabilitatea extragerii unui alt element creşte deoarece volumul
colectivităţii s-a diminuat cu o unitate şi numitorul fiind mai mic,
expresia e mai mare. Acest lucru e valabil pentru sondajul aleator
simplu nerepetat.
Media de selecţie va fii o variabilă aleatoare a cărei dispersie
este dată de relaţia:
℘2 N − n S 2 N − n
℘ = D( x) =
2
⋅ ≈ ⋅
x
n N −1 n N −1
unde: ℘2 este dispersia colectivităţii generale
De asemenea abaterea medie pătratică a mediei de selecţie
℘ N −n S N −n S n
℘x = ≈ ≈ 1−
n N −1 n N −1 n N
Dacă raportul dintre colectivitatea de selecţie şi cea generală
N −n
(n/N) < 0,2, adesea în calcule factorul nu se mai ia în
N −1
consideraţie.
De aici rezultă un paradox care arată că erorile sondajelor care
cuprind o parte neînsemnată din colectivitatea generală depind numai
de numărul absolut al variaţiilor colectivităţii de selecţie şi de
mărimea abaterii medii pătratice a colectivităţii generale.
De altfel, precizia estimaţiei mediei m a colectivităţii generale
prin media x a colectivităţii de selecţie depinde foarte puţin de
volumul N al colectivităţii generale; această precizie depinde mult mai
mult de valoarea absolută a volumului n a eşantionului.
Când volumul eşantionului (n) creşte, precizia creşte de
aproximativ n ori, după cum în aproximativ acelaşi raport se
micşorează abaterea mediei pătratică a mediei de selecţie. Această
dependenţă a abaterii medie pătraticea mediei de selecţie de volumul

59
Statistică – curs universitar ID

colectivităţii de selecţie dă posibilitatea utilizării în practică a unor


sondaje nu foarte mari ca volum, deoarece creşterea cu puţin a
volumului colectivităţii de selecţie nu influenţează cu aproape nimic
precizia.
Concluzie: dacă volumul N al colectivităţii generale este
foarte mare, şi volumul n al colectivităţii de selecţie este foarte mic,
N −n
atunci expresia: →1
N −1
De aici rezultă că în astfel de situaţii în care n este foarte mic,
rezultatele sondajului repetat şi a celui nerepetat diferă foarte puţin.
N −n
De reţinut şi faptul că în totdeauna < 1 , motiv pentru
N −1
care eroarea sondajului nerepetat va fii totdeauna mai mică decât
eroarea sondajului repetat sau cu revenire.
Acest lucru se explică prin faptul că revenirea aceloraşi unităţi
în sondaj înrăutăţeşte reprezentativitatea, apariţia repetată în urna lui
În general eroarea de Bernoulii a aceleiaşi unităţi ducând la o pierdere substanţială de
reprezentativitate a
informaţii.
extragerii fără revenire
este mai mică decât cea Adăugând acestor avantaje şi faptul că extracţia nerepetată se
a extracţiei cu revenire. realizează mai uşor din punct de vedere organizatoric rezultă evantaiul
complet al argumentelor care determină ca în practică sondajul
nerepetat să fie mai utilizat decât cel repetat.
În ultima instanţă se remarcă faptul că precizia sondajului,
eroarea medie a acestei precizii depinde nu de proporţia de sondaj
n/N, ci de volumul n al sondajului, ℘2 fiind o constantă.

4.3. Estimarea dispersiei


Întreaga procedură utilizată pentru estimarea mediei m
presupunea că dispersia℘2 a colectivităţii generale era aprioric
cunoscută.
Dacă nu este cunoscută această dispersie, în locul ei se
utilizează estimatorul numit dispersia de sondaj:
1 n
S = ∑ ( xi − x) 2 ; unde xi − x reprezintă
2
abaterile
n i =1
individuale ale valorilor colectivităţii de sondaj xi faţă de media lor x .
Pentru un sondaj repetat, dispersia S 2 este un estimator
deplasat al dispersiei ℘2 a colectivităţii generale.
Aplicând regulile de calcul ale dispersiei şi introducând m al
colectivităţii generale de obţine:
1 n
S = ∑ ( xi − m) 2 − ( x − m) 2 ceea ce arată că S2 este un
n i =1
estimator deplasat, utilizarea lui comportând anumite riscuri
referitoare la eroarea de reprezentativitate.
Un estimator nedeplasat, mai exact se obţine în cazul
sondajelor de volum redus cu formula:
n 1 n
Sˆ 2 =
n −1
S2 = ∑
n − 1 i =1
( x i − x) 2

60
Statistică – curs universitar ID

Dacă volumul colectivităţii de selecţie este mic, sub o zecime,


sau chiar mai mic, atunci acest estimator pentru dispersia colectivităţii
generale este mult mai realist, mai aproape de valoarea reală a
acesteia.
Concluzie: În cazul sondajului nerepetat, dispersia medie de sondaj
℘2x poate fii estimată din următoarele mărimi:

S2 Sˆ
a) ℘ =2
x
; b) ℘x = , iar abaterea media pătratică este:
2

n n
S Sˆ
a ) ℘x = ; b ) ℘x =
n n

5. Precizia estimaţiei, probabilitatea de încredere,


intervalul de încredere.

5.1 Estimarea mediei


Siguranţa estimării mediei m prin intermediul mediei de
selecţie este probabilitatea cu care este îndeplinită
inegalitatea: x − m < ∂ . În general această probabilitate este cunoscută
dinainte. Cu cât probabilitatea este mai mare cu atât x este mai
apropiat de m.
Acest fapt se scrie astfel:
P ( x − m < ∂ ) = 1 − α echivalent cu P ( x − ∂ < m < x + ∂ ) = 1 − α

Intervalul ( x − ∂, x + ∂ ), care acoperă parametrul mediu m cu


o probabilitate dată P se numeşte interval de încredere pentru media
m.
În vederea stabilirii acestui interval se precizează că variabila de
x−m
sondaj z = are o repartiţie normală.
℘x

Fie următoarele 2 cazuri:


a) dacă eşantionul este extras dintr-o populaţie cu o distribuţie
normală cu media m şi dispersia ℘2
b) dacă eşantionul este extras dintr-o populaţie oarecare dar
volumul n a eşantionului este suficient de mare, iar
dispersia ℘2 a colectivităţii generale dacă este
necunoscută, este estimată cu dispersia de sondaj.

În aceste condiţii
P ( x − m < ∂ ) = P ( −∂ < x − m < ∂ ) =
⎛ ∂ x−m ∂ ⎞⎟
P⎜ − < < ) = 1−α
⎜ ℘ ℘ ℘ ⎟
⎝ x x x ⎠

61
Statistică – curs universitar ID

Ţinând seama de normalitatea variabilei de selecţie, rezultă,


conform legii de distribuţie normală că:
⎛ ∂ x − m ∂ ⎞⎟ ∂
P⎜ − < < = 2φ = 1−α;
⎜ ℘ ℘ ℘ ⎟ ℘
⎝ x x x ⎠ x


no tan d = zα ⇒ ∂ = zα ⋅℘x
℘x
zα - valoarea tabelară a distribuţiei normale care satisface ecuaţia:
2φ ( zα ) = 1 − α
De aici rezultă că intervalul de încredere pentru medie este
următorul: x − zα ⋅℘x < m < x + zα ⋅℘x
De asemenea lungimea intervalului de încredere corespunzător
volumului n al eşantionului şi probabilităţii P va fii dat de relaţia:
x + zα ⋅℘x − x + zα ⋅℘x = 2 zα ⋅℘x = 2∂

5.2. Determinarea volumului n al eşantionului


Pentru o eşantionare de volum mare se porneşte de la relaţia:

∂ = zα , de unde, prin transformări rezultă în final
n
zα 2 ⋅℘2
n= .
∂2
În cazul sondajului nerepetat, pentru determinarea volumului n
al eşantionului se porneşte de la relaţia:
℘ N −n
∂ 2 = zα 2 ⋅ dar n( N − 1)∂ 2 = z 2α℘N − n℘zα 2
n N −1
Nzα 2℘2
de unde scoatem n =
N − 1∂ 2 + zα 2℘2
În baza acestei relaţii, cunoscând volumul colectivităţii
generale, dispersia acestei colectivităţi, intervalul de încredere pe care
trebuie să-l respectăm (zα), se poate determina volumul eşantionului,
volum necesar pentru ca selecţia să ducă la valori reprezentative.
Pentru ca media să fie cuprinsă în intervalul de încredere,
volumul eşantionului trebuie să fie cel puţin egal cu cel stabilit prin
aceste relaţii.
Pentru dimensionarea raţională a volumului n al eşantionului
sunt necesare următoarele informaţii cunoscute aprioric: eroarea
limită admisibilă ∂ , probabilitatea de încredere 1 − α , sau siguranţa
notată cu P, dispersia colectivităţii generale ℘2 , volumul N al
colectivităţii generale.
Cunoscând 1 − α din tabelul distribuţiei normale în baza
relaţiei 2φ ( zα ) = 1 − α , se scoate variabila z α din tabel, pentru a fii
apoi introdusă în formula de calcul a colectivităţii de selecţie.
Aceste informaţii por fi asigurate fie din cercetări anterioare,
fie din cercetări special organizate.

62
Statistică – curs universitar ID

Pentru caracteristicile numerice măsurabile se presupune stabilirea


mărimii:

℘ 2
=
(xl min −x ) + (x
2
max −x )
2

max
2
Pentru caracteristicile binare ℘ = f (1 − f ) = 0,5(1 − 0,5) = 0.25
2
max

unde f este frecvenţa relativă a caracteristicii binare căreia i s-ar


atribui codul X1=1

5.3 Estimarea preciziei în cazul caracteristicii


binare (alternative)

Dacă în sondajul (x1, x2, ..xn)un nr. de k unităţi posedă o


anumită caracteristică şi dacă n – k nu o posedă, şi mai mult x1, x2, xk
sunt egale cu 1, şi xk+1xk+2-xn =0, proporţia din eşantion a elementelor
care posedă caracteristica X este egală cu:
1 n 1 k k
x = ∑ x i = [1 ⋅ k + 0(n − k )] = ⇒ x =
n i =1 n n n
Cu alte cuvinte media este egală cu frecvenţa relativă a
caracteristicii cercetare în eşantion notată cu f sau fn.
Teorema lui Bernoulli P( f − P < ξ ) → 1 stabileşte că f este
n →∞
un estimator consistent pentru probabilitatea P.
Intervalul de încredere pentru probabilitatea P, în cazul
sondajului repetat este:
P(1 − P ) P(1 − P )
f − zα < P < f + zα
n n
În cazul sondajului nerepetat, cel mai des utilizat, volumul n al
colectivităţii de selecţie se stabileşte prin relaţia:
P(1 − P ) N −n
∂ = zα ⋅ = zα ⋅℘f
n N −1
zα2 P (1 − P )N
⇒n=
(N − 1)∂ 2 + zα2 ⋅ P(1 − P )
Cu această formulă se calculează volumul colectivităţii de
selecţie pentru caracteristica alternativă în cazul unui sondaj aleator
nerepetat.

APLICAŢIA 5

Determinarea intervalului de încredere şi a volumului


colectivităţii de sondaj în selecţia statistică

Sunt 2 dintre cele mai importante şi frecvent întâlnite


probleme din sfera selecţiei aplicate, rezolvarea lor presupunând
vehicularea unui număr mare de informaţii care acoperă practic cea
mai mare parte a problematicii specifice selecţiei statistice.
63
Statistică – curs universitar ID

Intervalul de încredere este intervalul în care se cuprinde cu o


anumită probabilitate, media colectivităţii generale, dar dacă acest
interval este calculat numai pe baza datelor obţinute din eşantionul
selectat.
În vederea determinării acestui interval sunt necesare însă şi o
serie de date ale colectivităţii generale, cunoscute eventual dintr-o
observaţie anterioară.
Intervalul de încredere este de
forma: m ∈ [ x − ℘x ⋅ zα ; x + ℘x ⋅ zα ]
Aici, m – este media colectivităţii generale, x - este media
colectivităţii eşantionului de selecţie ,℘x abaterea medie pătratică,
zα argumentul funcţiei de distribuţie Gauss-Laplace pentru o
probabilitate dată.
- de obicei avem: α = 1% sau 1,5%
1 - α = p (probabilitatea cu care apreciem că ceea ce
facem e adevărat)
1 - α = p = φ( zα )
Funcţia Gauss-Laplace este tabelată, şi între probabilitatea p
care este valoarea funcţiei, şi argumentul zα , există o corespondenţă
biunivocă. Cunoscând una, o scoatem pe cealaltă.
În vederea determinării intervalului de încredere trebuie
cunoscute dintr-o selecţie anterioară următoarele date:
- volumul colectivităţii generale N;
- eventual dispersia acestei colectivităţi;
Determinarea acestui interval depinde de tipul colectivităţii de
selecţie utilizat , deoarece abaterea pătratică ℘x se ajustează diferit
de la o metodă la alta.
Exemplu: Pentru a stabili un nou sistem de normare a muncii
într-o întreprindere cu 550 muncitori de aceeaşi meserie s-a efectuat
un sondaj cu volumul n=75 muncitori , înregistrându-se pentru fiecare
numărul pieselor realizate.
Se cere să se stabilească limitele de încredere pentru nivelul
mediu al îndemânării muncitorilor.
Rezolvare: determinarea intervalului de încredere presupune
parcurgerea următoarelor etape:

1. Determinarea metodei de eşantionare utilizată – sondajul


aleatoriu nerepetat
2. Determinarea volumului colectivităţii generale, N=550
75

∑x
i =1
i
3. Determinarea mediei colectivităţii de selecţie x = = 17,449
75
4. Determinarea dispersiei colectivităţii de selecţie
n
1
Sˆ 2 = ∑ ( xi − x) 2 = 0,6197
n − 1 i =1

64
Statistică – curs universitar ID

5. Determinarea abaterii mediei pătratice a mediei de sondaj; în


acest scop se utilizează formula de calcul specifică selecţiei
Sˆ N − n 0,6197 550 − 75
℘x = = = 0,08455
N N −1 550 550 − 1
6. Determinarea argumentului zα al funcţiei Gauss-Laplace.
Presupunând că probabilitatea pentru care se face calculul este de
99%, din tabele scoatem zα
P=99% = φ( zα ) = 2,58.
7.Calcularea intervalului de încredere:
m ∈ [ x − ℘x ⋅ zα ; x + ℘x ⋅ zα ] Æ m ∈ [15,418; 19,479]

Determinarea volumului colectivităţii de selecţie

Importanţa problemei derivă din faptul că un volum de selecţie


mai mare nu influenţează în proporţie semnificativă exactitatea
rezultatelor, dar influenţează în mod direct cheltuielile ocazionate de
cercetarea statistică.
Este practic principala problemă care trebuie rezolvată atunci
când s-a luat decizia de a efectua o selecţie statistică.
În vederea determinării volumului n al eşantionului este
necesară cunoaşterea unor date din eventuale cercetări anterioare care
să se refere la colectivitatea generală şi anume: volumul colectivităţii
generale, abaterea medie pătratică a caracteristicii studiate, nivelul
de încredere sau probabilitatea de decizie, eroarea probabilă în
vederea calculării erorii limite maximă admisă.
Exemplu: În vederea determinării timpului mediu de
funcţionare a unor lămpi cu incandescenţă se efectuează o cercetare
prin sondaj, cunoscându-se următoarele date:

Cercetare prin sondaj
- Volumul colectivităţii generale este 7500 lămpi;
- Abaterea medie pătratică a duratei de funcţionare este de 150 ore;
- Probabilitatea de decizie este de 99%.;
- Eroarea probabilă pentru un timp mediu de funcţionare de 1000 de
ore este de ± 5%.
Determinarea volumului n al eşantionului se face în următoarele etape:
1. stabilirea tipului de sondaj – aleatoriu nerepetat – pentru că
reintroducerea lămpilor în volumul colectivităţii generale
diminuează rezultatul.
2. volumul lotului complet N=7500 lămpi
3. abaterea medie pătratică a timpului de funcţionare ℘ = 150 ore
4. probabilitatea φ( zα )=99% Æ zα =2,58
5. calculăm eroarea limită admisă ∂ ca 5% Æ 5 x 100/100=50 ore
6. se aplică formula de calcul pentru volumul eşantionului pentru
N ⋅℘2 zα2
selecţia nerepetată: 2
= 59,44 ⇒ n = 60 lampi Æ
( N − 1)∂ 2 + ℘2 zα
este suficientă extragerea şi testarea a 60 lămpi pentru ca
datele să fie valabile pentru întregul volum de 7500 lămpi.
Altfel spus, cu o probabilitate de 99%, timpul mediu de ardere
al lotului de 7500 lămpi este identic sau foarte apropiat de
timpul mediu de ardere a eşantionului de 60 de becuri.

65
Statistică – curs universitar ID

În vederea creşterii exigenţelor calitative, societatea


comercială producătoare îşi propune o mai mare exactitate a calculelor
schimbând probabilitatea de decizie la 99,9%. Să se determine noul
volum al eşantionului în baza noii probabilităţi.
N ⋅℘2 zα2
zα = 3,40 Æ 2
= 102,63 ⇒ n = 103 lampi
( N − 1)∂ 2 + ℘2 zα
În general eşantionarea se face nerepetată, repetată (cel mai
frecvent), stratificată.

66
Statistică – curs universitar ID

Capitolul VII

METODE DE ANALIZĂ STATISTICĂ A


LEGĂTURILOR DINTRE VARIABILELE
ECONOMICE
CONŢINUT:
1. Conceptul de legătură statistică. Tipuri de legături;
2. Metode elementare de caracterizare a legăturilor dintre
variabile;
3. Metoda regresiei;
4. Indicatori statistici ai corelaţiei;
5.Verificarea semnificaţiei ecuaţiei de regresie şi a
coeficienţilor de corelaţie.

Rezumat: Aprecierea existenţei legăturilor dintre variabilele


economice, dar mai ales măsurarea intensităţii acestor legături rămân
două dintre principalele obiective ale statisticii practice. Din acest
motiv, înţelegerea conceptului de legătură statistică, prezentat pe larg
în debutul acestui capitol, precum şi a diversităţii legăturilor statistice
posibile , sunt esenţiale pentru întregul demers viitor. După o scurtă
trecere în revistă a metodelor elementare, mai mult intuitive, de
caracterizare a legăturilor dintre variabile, este prezentată metoda
regresiei, pe exemplul concret al regresiei de tip liniar, dar cu scurte
introspecţii şi în alte tipuri de regresie. În final, sunt reliefaţi
indicatorii statistici ai corelaţiei (raportul şi coeficientul de corelaţie),
insistându-se şi pe metodele neparametrice şi parametrice de verificare
a semnificaţiei ecuaţiei de regresie, coeficienţilor de corelaţie şi
intensităţii legăturilor dintre variabile în general.

1. Conceptul de legătură statistică. Tipuri de


legături.
Variabilele economice reprezintă rezultatul unei multitudini de
factori, unii principali, alţii secundari, sau într-o altă accepţiune, unii (
esenţiali, alţii neesenţiali. Definiţie variabile
Una dintre preocupările majore ale statisticii este evidenţierea economice
şi măsurarea influenţei acestor factori asupra variabilelor, demers care
comportă o serie de dificultăţi legate în primul rând de complexitatea
relaţiilor, precum şi de faptul că relaţiile de cauzalitate nu sunt
deterministe şi se manifestă în general tot sub formă de tendinţă. În
plus, se manifestă, cu predilecţie între factorii calitativi, o serie
întreagă de interdependenţe care nu pot fii măsurate cu exactitate,
ducând la acceptarea măsurilor inexacte ca măsuri variabile pentru
legăturile dintre variabile.
Legăturile de tip statistic sunt diferite de cele tehnice, a căror
manifestare este în general matematică, algoritmică şi parametrică.
De asemenea, există diferenţe majore între legăturile de tip
statistic şi cele de tip funcţional. În cazul legăturilor funcţionale există
o relaţie de tipul :
yi=f(xi) ,

67
Statistică – curs universitar ID

care stabileşte o corespondenţă între argumentul xi şi valoarea yi a


funcţiei, corespondenţă care poate fi formalizată. Această formă de
legătură nu e proprie fenomenelor social-economice, legăturile dintre
acestea fiind legături statistice sau stohastice. În cadrul acestui gen de
legături:
x – este o caracteristică factorială (factor);
y – este caracteristica rezultativă,
astfel încât x îl influenţează pe y, (x Æ y), sau cu alte cuvinte variaţia
caracteristicii rezultative depinde într-o anumită măsură de variaţia
caracteristicii factoriale Δy ⇐ Δx
.
Legăturile statistice pot fii clasificate după mai multe criterii:
a) după numărul caracteristicilor factoriale: legături simple x Æ y
şi multiple: x1, x2, ….xn Æ y;
b) după felul de exprimare a variabilelor: legături între variabile
numerice şi legături înte variabile exprimate prin cuvinte;
c) după direcţia legăturilor:
• legături directe – la care creşterea, respectiv descreşterea
caracteristicii factoriale determină creşterea, respectiv descreşterea
caracteristicii rezultative;
• legături inverse – creşterea/descreşterea caracteristicii factoriale
determină descreşterea/creşterea caracteristicii rezultative;

d) după expresia analitică : legături liniare – exprimate printr-o
funcţie de gradul I şi legături neliniare – exprimate printr-o
funcţie hiperbolică, ş.a;
e) după timpul în care se produce legătura:
• legături concomitente sau sincrone – în care variaţia caracteristicii
rezultative se produce concomitent cu cea a caracteristicii
funcţionale;
• legături asincrone sau cu decalaj – în care variaţia caracteristicii
rezultative se produce la un anumit interval de timp faţă de variaţia
factorului .

2. Metode elementare de caracterizarea a


legăturilor dintre variabile

Există 4 metode elementare care arată cu un anumit grad de


certitudine că între unele variabile există legături de tip statistic şi
anume:
A. metoda seriilor paralele sau interdependente;
B. metoda grupărilor;
C. metoda tabelului de corelaţie;
D. metoda grafică.

A. Metoda seriilor paralele


Presupune scrierea în paralel a seriilor care reprezintă
caracteristica presupus factorială şi caracteristica presupus rezultativă.
În funcţie de evoluţia valorilor celor 2 serii, se poate deduce cu
un anumit grad de certitudine dacă între cele 2 variante există o
legătură şi ce fel de legătură ar putea exista.

68
Statistică – curs universitar ID

B. Metoda grupărilor
Deja studiată, este o metodă calitativă surprinzând esenţa
fenomenelor.
În gruparea statistică se poate vedea caracterul legăturilor,
direcţia lor, deoarece grupele sunt ordonate automat şi se poate estima
chiar intensitatea legăturii.
C. Tabelul de corelaţie
Este un tabel cu dublă intrare, sinonim cu o formă specială a
grupării combinate în care separarea pe grupe a unităţilor se face după
variaţia ambelor caracteristici (factorială şi rezultativă).
Valoarea caracteristicilor factoriale se trece în capul coloanelor
în ordine descrescătoare, iar valoarea caracteristicilor rezultative se
trece în capul liniilor în aceeaşi ordine.
La intersecţia dintre linii şi coloane se trec frecvenţele absolute
de apariţie.
În funcţie de modul în care se grupează aceste frecvenţe, se
poate trage o concluzie referitoare la direcţia legăturii şi forma ei.

x xn xn-1 ……………… x2 ,
x1
ym fmn fm,n-1 0
ym-1 fm-1,n-1 D1
.
.
.
. D2
y2 0 f22
y1 f11

Astfel dacă frecvenţele se grupează în jurul primei diagonale


D1, legătura este inversă; iar dacă se grupează în jurul diagonalei D2,
legătura este directă.
D. Graficul de corelaţie (numit şi corelogramă sau graficul
norilor de puncte).
Este un grafic obişnuit format dintr-un sistem de axe
rectangulare, caracteristica factorială fiind trecută pe axa absciselor şi
rezultativă pe axa ordonatelor.
Fiecare corespondenţă între x şi y se numeşte unitate şi se
reprezintă printr-un punct.

y
**
**
**
*

69
Statistică – curs universitar ID

Dacă punctele se distribuie aproximativ în jurul primei


diagonale, atunci legătura este directă, iar dacă se distribuie în jurul
celei de-a doua, legătura estre inversă.
Distribuirea aproximativ uniformă în tot cadranul arată fie
absenţa legăturii, fie neconsistenţa datelor.
Corelograma este cea mai apropiată de adevăr dintre toate
metodele elementare de caracterizare a legăturilor dintre variabile.

3. Metoda regresiei

Este o metodă statistică de cercetare a legăturilor dintre


variabile cu ajutorul unor funcţii numite funcţii de regresie.
Este de fapt o generalizare a analizei dispersionale.
Fie y variabila dependentă şi x1, x2,... xi,... xn variabile
independente.
Metoda regresiei consideră că y este o funcţie de variabile
independente y=f(x1, x2, .. xi ,.. ,xn)
În funcţie de forma şi gradul funcţiei, precum şi de numărul
variabilelor, ecuaţia de regresie poate să definească o curbă, o
suprafaţă, sau chiar un poliedru.
Modelul de dependenţă statistică în cazul metodei regresiei
înlocuieşte modelul teoretic cunoscut: y=f(x1,x2,xi,xn)+ξ în care ξ -
reprezintă o eroare aleatoare sau mai exact o variabilă reziduală cu
dispersia constantă şi cu media nulă.
În funcţie de numărul factorilor x1, x2,..., xn care influenţează
caracteristica rezultativă, există:
- regresie unifactorială sau simplă;
- regresie multifactorială sau multiplă.

a) modele de regresie uniifactoriale

Metodele unifactoriale descriu legătura dintre două variabile x


şi y, ceilalţi factori considerându-se cu acţiune constantă. Ecuaţia
teoretică a acestei regresii este:
y=f(x)+ξ.
Modelele de regresie unifactorială sunt:
a1) modelul liniar:

y α+βx
θ
α
x

În acest model: y=α+βx; α, β- coeficienţii unei funcţii de gr I,


tgθ=β

70
Statistică – curs universitar ID

Acest model teoretic se estimează printr-o ecuaţie medie de


tendinţă: y=a+bx+ξ, apare sub forma y x = a + bx + ξ .
În acest caz, a şi b sunt coeficienţi care se calculează cu
ajutorul metodei anulării determinanţilor sau cu ajutorul metodei
anulării derivatelor de ordinul I, formulele care rezultă în urma
calcului fiind relativ simple. Acest model este specific tipului de
legătură dintre 2 caracteristici care se modifică în progresie
aritmetică.
Cunoscând coeficienţii a şi b ai ecuaţiei de regresie se poate
determina oricând valoarea lui y în funcţie de valoarea variabilei
independente x: y = a + b x .
Coeficientul a reprezintă ordonata la origine, semnificând
valoarea lui y când x =0. Poate lua atât valori pozitive cât şi negative.
Coeficientul b se mai numeşte şi coeficient de regresie şi arată
măsura în care se modifică valoarea caracteristicii dependente y în
cazul în care caracteristica independentă se modifică cu o unitate.
După semnul coeficientului de regresie există 2 tipuri de
legătură şi anume:
- corelaţie directă – când coeficientul de regresie are valoare
pozitivă( b>0);
- corelaţie inversă – când coeficientul b are valoare negativă
(b<0)..
Dacă b=,0, x şi y sunt variabile independente. Se mai spune
din matematică despre coeficientul de regresie că indică panta liniei
drepte rezultată prin ecuaţia de regresie.
Cu ajutorul coeficienţilor a şi b se calculează valoarea ecuaţiei
de regresie, mulţimea acestor valori numindu-se şi mulţimea
valorilor teoretice ale caracteristicii y în funcţie de x, iar operaţia
de înlocuire a termenilor reali y cu valorile ecuaţiei de regresie se
numeşte ajustare.
Când legăturile dintre fenomenele şi procesele economice şi
sociale se fac prin intermediul unui număr mare de date, intervin
frecvenţele absolute, ceea ce impune, în vederea calculării
parametrilor economici de regresie, folosirea tabelului de corelaţie,
tabel din care se scot şi se introduc în sistemul de ecuaţii frecvenţele
după valorile x ( fx), frecvenţele după valorile y ( fy) şi frecvenţele
corespunzătoare perechilor x şi y (fxy).
Acest caz ,considerat general, duce la următorul sistem de
⎧ a ∑ f xy + b ∑ xf x = ∑ yf y
ecuaţii ⎪⎨
⎪⎩ a ∑ xf x + b ∑ x f x = ∑ yf x f y
2

În baza acestui model general urmează să se calculeze


coeficienţii a şi b.
De notat că pentru determinarea unei ecuaţii de regresie care să
permită ajustarea pertinentă, se recomandă utilizarea a cel puţin 15
observări,pentru care să se folosească datele în vederea calculării
parametrilor a şi b.

71
Statistică – curs universitar ID

a2) modelul exponenţial

Se bazează pe ecuaţia y = αβ x , corespunzătoare modelului


teoretic Y = ab x + ξ .
Modelul exponenţial se transformă într-un model cvasiliniar prin
operaţia de logaritmare : lg y = lg a + x lg b
Notând cu y’=lgy, a’=lga şi b’=lgb Æ y’=a’+b’x de unde s-a ajuns la
modelul liniar (aceasta fiind ecuaţia unei drepte)
Sistemul de ecuaţii normale după care se calculează a’ şi b’ este
acelaşi din modelul liniar, iar după determinarea parametrilor a’ şi b’
se ajunge la parametrii iniţiali a şi b prin operaţia de antilogaritmare.
Există o serie de curbe care nu se pot transforma nici cu largi
aproximaţii într-o dreaptă , aşa cum s-a procedat în cazul modelului
exponenţial. Apar astfel parabole şi hiperbole care se modelează diferit.

a3) modelul teoretic al parabolei de gradul II.

y=α+βx+δx2 ;
Y=a+bx+cx2

Parametrii a, b, şi c se calculează folosind tot metoda celor mai


mici pătrate, anulând derivatele de ordin 1 şi 2, minimizând în esenţă
funcţia: ∑ ( y i − a − bx i − cxi ) 2 .
2

Sistemul obţinut este următorul:


⎧ na + b ∑ x i + c ∑ x i2 = ∑ y i
⎪⎪
⎨ a ∑ x i + b ∑ x i + c ∑ x i = ∑ x i y i ; a , b şi c se scot rezolvând
2 3


⎪⎩ a ∑ x i + b ∑ x i + c ∑ x i = ∑ x i y i
2 3 4 2

sistemul.

a4) în cazul în care legăturile dintre fenomenele economice


sunt de forma unei hiperbole (dacă dependenţa dintre cele două
variabile este inversă), ecuaţia de regresie se exprimă după formula:
1
y = α + β , corespunzător funcţiei de estimaţie teoretică:
x
1
Y = a +b +ξ
x
Sistemul de ecuaţii normale în cazul hiperbolei este:
⎧ 1
⎪ na + b ∑ x = ∑ y i
⎪ i ; a şi b se obţin prin rezolvarea

⎪a∑ 1 1 1
+ b∑ 2 = ∑ yi
⎪⎩ xi x xi
sistemului.

a5) modelul logaritmic, dat de expresia y=α+βlog x care se


estimează după modelul teoretic
Y=a+blogx+ξ reţinându-se următoarele cazuri:
- când a şi b sunt ambele pozitive, curba este crescătoare;
72
Statistică – curs universitar ID

- când a>0 şi b<0, curba este descrescătoare.


Folosind metoda celor mai mici pătrate şi rezolvând sistemul de ecuaţii
⎧⎪na + b∑ log x i = ∑ y i
normale: ⎨
⎪⎩a ∑ log x i + b∑ (log x i ) = ∑ y i log x i
2

vor rezulta coeficienţii a şi b.


În toate sistemele de ecuaţii prezentate, n este numărul
observărilor pe care se bazează cercetarea statistică, iar sumele sunt
sumele corespunzătoare datelor din aceste observări, cu menţiunea că e
bine ca acest număr să fie minim 15.

b) regresia multifactorială

Conţine modele în care legăturile dintre variabile sunt foarte


complexe, caracterizându-se prin influenţarea variabilei rezultative de
către un număr mare de variabile independente, în acest caz obţinându-
se ecuaţii de regresie multiplă:
y=f(x1,x2,xi,xn)+ξ unde x1,...,xn – sunt caracteristicile
factoriale, iar ξ - variabila reziduală
În cazul regresiilor multiple se utilizează deseori modelul liniar, a
cărui expresie se dă cu relaţia: y = a 0 + a1 x1 + a 2 x 2 + ... + a p x p În
acest model a0 este coeficientul care exprimă influenţa factorilor
neincluşi în model iar ai, i=1,n se numesc coeficienţi de regresie
multiplă şi arată influenţa caracteristicii factoriale asupra
caracteristicii rezultative.
Şi în acest caz parametrii a0, a1, ap, se calculează pe baza
metodei celor mai mici pătrate.
Sistemul la care se ajunge după minimizarea funcţiei va fii un sistem cu
p+1 ecuaţii şi p+1 necunoscute de forma:
⎧ a 0 n + a 1 ∑ x1 + a 2 ∑ x 2 + ... + a p ∑ x p = ∑ y

⎪ a 0 ∑ x1 + a 1 ∑ x1 + a 2 ∑ x1 x 2 + ... + a p ∑ x1 x p = ∑ x1 y
2


⎪ a 0 ∑ x 2 + a 1 ∑ x1 x 2 + a 2 ∑ x 2 ....
2


⎩ a 0 ∑ x p + a 1 ∑ x1 x p + a 2 ∑ x 2 x p + ... + a p ∑ x p = ∑ x p y
2

Legătura multifactorială liniară se poate reprezenta grafic sub


forma unui plan. Fiecare din aceste ecuaţii dă o dreaptă. Intersecţia
acestor drepte va furniza o suprafaţă, soluţia fiind pe marginea
acestuia.
Se utilizează în practică şi un model multifactorial exponenţial
x x x
de forma: y = a 0 a 1 1 a 2 2 ... a p p , care, prin logaritmare se
transformă într-un model liniar care se rezolvă conform procedeului
anterior.

4. Indicatori statistici ai corelaţiei


Pentru calculul indicatorilor statistici ai corelaţiei se folosesc
metodele parametrice, pentru a măsura intensitatea legăturilor de tip
statistic dintre 2 sau mai multe variabile care urmează o lege de
repartiţie de tip normal sau asimptotic normal. Cea mai utilizată
73
Statistică – curs universitar ID

metodă este metoda corelaţiei. Pentru explicarea acestei metode se


porneşte de la legătura dintre două variabile corelate (x şi y) ,
reprezentate în graficul de corelaţie în jurul mediilor lor x si y .
Se obţine astfel diagrama de
Y
corelaţie alcătuită din 4 sectoare
) IV
(-,+)
I
(+,+)
(cadrane), în fiecare din aceste
Diagrama de cadrane, abaterile valorilor
corelaţie este y III II individuale faţă de media lor
alcătuită din 4 (-,-) (+,-) dxi = xi − x si dyi = yi − y având
sectoare
semnificaţii diferite după cum
urmează:
-în cadranul I, dxi şi dyi sunt pozitive;
-în cadranul II dxi pozitivă, dyi negativă;
-în cadranul III; (-,-):
-în cadranul IV (-,+).
Măsurarea intensităţii legăturii se face cu ajutorul următorilor
indicatori: covarianţa, coeficientul de corelaţie, raportul de
corelaţie.
a) covarianţa se notează: cov sau cov(x,y),; se obţine ca o medie
aritmetică a produselor abaterilor variabilelor faţă de media lor:
1 n
cov( x, y ) = ∑ ( x i − x)( y i − y )
n i =1
Semnul indicatorului arată direcţia legăturii, respectiv + pentru
legătura directă şi – pentru cea inversă. Covarianţa poate fii nulă, caz
în care cele două variabile sunt independente.
În cazul unei legături funcţionale liniare valoarea absolută
maximă a covarianţei variabilelor x şi y este: în general însă valoarea
absolută a covarianţei nu are limită superioară.
b) coeficienţii de corelaţie liniară simplă
Se notează cu rxy sau r şi măsoară intensitatea de tip liniar
dintre două variabile x şi y, calculându-se ca o medie aritmetică a
produsului abaterilor normale normate a celor două variabile.
Abaterile normale normate ale variabilelor x şi y notate cu zx şi
zy sunt date de relaţiile:
xi − x yi − y
zx = ; zy =
℘x ℘y
În consecinţă modelul de calcul al coeficienţilor de corelaţie
n

∑ (x i − x)( y i − y )
este următorul: rxy =
i =1

n℘x℘y
unde ℘x℘y sunt abaterile medii pătratice ale variabilelor x şi y.
Faţă de covarianţă, relaţia dintre coeficient şi aceasta este:
cov( x, y )
rxy =
℘x℘y
Altfel spus, covarianţa abaterilor normate, zx şi zy se
transformă în coeficientul de corelaţie liniară simplă. În vederea
calculării facile a coeficientului de corelaţie, în practică se utilizează
74
Statistică – curs universitar ID

următoarea
relaţie:
n n n
n ∑ xi yi − ∑ xi ∑ yi
r xy = i =1 i =1 i =1

⎡ n 2 ⎛ n ⎞ ⎤⎡ n ⎞ ⎤
2 2
⎛ n
⎢n ∑ xi − ⎜ ∑ xi ⎟ ⎥ ⎢n ∑ yi −⎜ ∑ yi ⎟ ⎥
2

⎢⎣ i = 1 ⎝ i =1 ⎠ ⎥⎦ ⎢⎣ i = 1 ⎝ i =1 ⎠ ⎥⎦
Când intervin seriile de distribuţie cu frecvenţe absolute
această relaţie devine:
⎛ ⎞⎛ ⎞
n ∑ ∑ f xy x i y i − ⎜⎜ ∑ x i f xi ⎟⎟⎜⎜ ∑ y i f yi ⎟⎟
x y ⎝ x ⎠⎝ y ⎠
rxy =
⎡ ⎞ ⎤⎡ ⎞ ⎤
2 2
⎛ ⎛
⎢ n ∑ x i f xi − ⎜⎜ ∑ x i f xi ⎟⎟ ⎥ ⎢ n ∑ y i2 f yi
2
−⎜⎜ ∑ y i f yi ⎟⎟ ⎥
⎢⎣ x ⎝ x ⎠ ⎥⎦ ⎢⎣ y ⎝ y ⎠ ⎥⎦

Coeficientul de corelaţie liniară simplă se mai poate calcula şi cu


℘x
relaţia:
rxy = b unde: b – este coeficient de regresie liniară
℘y
simplă.
Coeficientul de corelaţie liniară simplă satisface inegalităţile: -
1 ≤ rxy ≤ 1 cu următoarea tipologie valorică:
- dacă rxy se apropie de –1, între variabile există o corelaţie liniară,
simplă, inversă şi puternică;
- dacă rxy se apropie de 1, variabilele sunt direct şi puternic
corelate;
- dacă valoarea coeficientului este 1, în valoare absolută, între
variabile există o dependenţă funcţională.
În practică, pe o scală de la [0,1], luând coeficientul în
valoarea absolută, de utilizează următoarele subintervale:
0 ≤ rxy ≤ 0,2 – situaţie în care nu există o legătură între variabile;
o,2 < rxy < 0,5 – între variabile există o legătură slabă;
0,5 < rxy < 0,75 – legătura dintre variabile e de intensitate medie;
0,75 < rxy < 0,95 – legătură puternică între cele două variabile;
0,95 < rxy < 1 – legătura dintre variabile este deterministă,
funcţională.

NOTĂ: în literatura de specialitate poate fii notat şi ryx Æ rxy= ryx


Indiferent de notaţie, x se consideră caracteristica factorială, iar y
caracteristica rezultativă.
c) raportul de corelaţie notat cu η (eta), mai e numit şi
coeficient de corelaţie Pearson. Acest coeficient măsoară intensitatea
legăturilor liniare şi curbilinii dintre două variabile statistice.
În literatura de specialitate se notează cu R.

η= 1−
∑(y −Y ) i xi
2

sau η = 1−
∑ (Yxi − y) 2
∑ ( y − y) i
2
∑(y i − y) 2

75
Statistică – curs universitar ID

Calculul acestui indicator se bazează pe descompunerea


dispersiei totale a variabilei dependente notate cu ℘y , în dispersia
2

valorilor empirice faţă de valorile teoretice notată cu ℘y /Y şi dispersia


2

valorilor teoretice faţă de medie ℘y /Y Æ


2

℘ =℘ 2 2
+℘ 2

∑ ( y − y) 2

=
∑(y −Y) 2

+
∑ (Y − y) 2

y y /Y y /Y
n n n
- din această relaţie rezultă valoarea calculată a coeficienţilor, care
se poate nota astfel:

℘2y / Y ℘Y2 / y
η = 1− sau η = 1 − . În acest caz dispersiile au
℘2y ℘2y
următoarele semnificaţii:
- ℘2y - este dispersia totală şi măsoară acţiunea factorilor, luaţi în
totalitatea lor, care au influenţat variabila rezultativă.
- ℘2y / Y - măsoară variaţia valorilor y sub influenţa celorlalţi
factori, a căror acţiune este considerată constantă. Se mai numeşte
şi dispersie reziduală.
- ℘2y / Y = ℘Y2 / y Æ măsoară numai influenţa variabilei independente
(factoriale, x) asupra variabilei rezultative y.
Raportul de corelaţie poate lua valori între 0 şi 1. Cu cât
valoarea acestui raport este mai apropiată de 1 corelaţia este mai
puternică, iar cu cât raportul este mai aproape de 0, corelaţia este mai
slabă (se pierde).
d) raportul de corelaţie multiplă.
Măsoară intensitatea legăturii dintre o caracteristică rezultativă
y şi 2 sau mai multe caracteristici factoriale notate cu x1, x2, .... xi
,....i = 1,p.
Se notează cu

R x1, x 2, xp = 1−
∑ ( y1 − Y x1, x 2 ,.. xp )2
, unde Yx1, x 2... xp este
∑ y − y) i
2

valoarea ajustată a caracteristicii teoretice după funcţia de ajustare


găsită anterior.
Dacă se foloseşte ecuaţia de regresie multiplă şi variaţia
factorială, se obţine următoarea relaţie:
(∑ y i ) 2
(a 0 ∑ y i + a1 ∑ y i xi + ........ + a p ∑ yi x p ) −
R= n
(∑ y i ) 2 ;
∑y 2
i −
n
acest raport de corelaţie multiplă are totdeauna valori pozitive şi este

76
Statistică – curs universitar ID

mai mare decât oricare coeficient de corelaţie simplă:


R ≥ ry , xi , i = 1, p
Pătratul coeficientului de corelaţie multiplă este cunoscut
sub numele de coeficient de determinaţie multiplă; se notează cu
R2 şi exprimă ponderea cu care influenţează caracteristica
factorială asupra caracteristicii rezultative.
Ponderea pe care o au ceilalţi factori asupra caracteristicii
rezultative se obţine ca diferenţă între unitate (1) şi R2, obţinându-se în
felul acesta coeficientul de nedeterminaţie multiplă , notat cu N2=1-
R2
Pe lângă coeficienţii de corelaţie simplă şi multiplă, care
caracterizează intensitatea corelaţiei liniare între 2 sau mai multe
caracteristici se pot calcula şi coeficienţii de corelaţie parţială. Aceşti
coeficienţi caracterizează intensitatea legăturilor dintre 2 caracteristici
în condiţiile în care variabila rezultativă este influenţată de mai mulţi
factori, dar influenţa celorlalţi factori este considerată constantă.
Coeficienţii de corelaţie parţială se calculează pe baza
coeficienţilor de corelaţie liniară simplă. Astfel coeficienţii de
corelaţie parţială dintre caracteristicile y şi x1, y = f(x1,x2) în
condiţiile eliminării influenţei lui x2 se notează cu:
ryx1 − ryx 2 rx1x 2
ry , x1x 2 =
. Reciproc, coeficienţii de
(1 − ryx2 2 )(1 − rx21 y 2 )
corelaţie între y şi x2 în condiţiile eliminării influenţei lui x1 se
ryx 2 − ryx1rx 2 x1
calculează:
ry , x 2 x1 =
(1 − ryx2 1 )(1 − rx22 y1 )

5. Verificarea semnificaţiei ecuaţiei de regresie şi a


coeficienţilor de corelaţie.
În calculul şi analiza statistică e necesar să se verifice dacă
ecuaţia de regresie şi coeficientul de corelaţie obţinuţi sunt real
semnificativi sau, dimpotrivă, valorile lor se datorează erorilor
întâmplătoare de selecţie.
Pentru a verifica ipoteza conform căreia parametrul a din
cadrul ecuaţiei de regresie liniară, diferă semnificativ de 0, se

utilizează criteriul t =
a
n în care s =
∑ (y − Y )2
şi semnifică
s n−2
abaterea medie pătratică a valorilor înregistrate ale caracteristicii y
faţă de lina de regresie Y, n fiind numărul perechilor x,y înregistrate.
Valoarea t astfel calculată se compară cu valoarea tabelară tqf
(corespunzătoare nivelului de semnificaţie q şi numărului f de grade
de liberate (f = (n-2)).

Dacă valoarea calculată este < decât valoarea tabelară, se


consideră ipoteza a=0 justă, în caz contrar t.calc. > t tabelat, se

77
Statistică – curs universitar ID

consideră că diferă semnificativ de 0 deci ecuaţia de regresie e bine


aleasă.
Intervalul de încredere pentru parametrul teoretic a se defineşte cu
s s
relaţia: a − t qf < α < a + t qf ; cu alte cuvinte
n n
parametrul teoretic trebuie să se cuprindă în intervalul
s s
α ∈ [ a − t qf ; a + t qf ] , în caz contrar ecuaţia de regresie
n n
fiind invalidată.

Acelaşi criteriu t se aplică şi pentru verificarea ipotezei că b –


coeficient de regresie liniară simplă – diferă semnificativ de 0:
b
t calc =
s
∑ ( x i − x) 2 .

Intervalul de încredere pentru coeficientul de regresie teoretic β este


⎡ ⎤
s s
β ∈ ⎢b − t qf ; b + t qf ⎥

⎣ ∑ ( xi − x) 2
∑ ( xi − x) 2 ⎥⎦
În funcţie de valorile caracteristicii y se calculează limitele de
încredere pentru linia de regresie teoretică Y
astfel:
⎛ 1 ( xi − x) 2 1 ( xi − x) 2 ⎞

Y ∈ ⎜ y − t qf s + ; y + t qf s + ⎟
⎟⎟
⎜ ∑ ∑
2 2
n ( xi − x ) n ( xi − x )
⎝ ⎠

Verificarea semnificaţiei coeficientului de regresie se poate


face şi cu ajutorul analizei dispersionale. În acest scop suma pătratelor
abaterilor valorilor caracteristicii y faţă de medie se notează
∑ ( yi − y) care se descompune în sume de pătrate de abateri.
∑ ( yi − y) =∑ (Y − y) + ∑ ( y − Y ) 2
.
Cu ajutorul acestor sume de pătrate se calculează următoarele dispersii
corectate:

℘ =S 2 2
=
∑ ( y − y) 2

- dispersie care are n-1 grade de libertate;


y
n −1

℘ 2
= S1
2
=
∑ (Y − y) 2

,cu f grade de libertate;


Y/y
f

℘ 2
= S2
2
=
∑ (y −Y) 2

cu n-f-1 grade de libertate.


y /Y
n − f −1
În aceste relaţii n, este numărul valorilor observate ale
caracteristicii y iar f este numărul coeficienţilor ecuaţiei de regresie
liniară.

78
Statistică – curs universitar ID

Pentru verificarea semnificaţiei coeficienţilor corelaţiei simple


şi parţiale se foloseşte tot testul t:
r
t calc = n − 2 în care n reprezintă volumul
1− r 2

eşantionului.
Valoarea calculată cu această relaţie se compară cu valoarea
tabelară corespunzătoare nivelului de semnificaţie q şi numărului de
grade de liberate f1=p şi f2=n-p-1 t tabelat = tqf1,f2
Dacă t calculat > ca t tabelat, se consideră că variabilele xi;
i= 1,p au o influenţă semnificativă asupra caracteristicii rezultative y,
iar în caz contrar influenţa lor e nulă.
(q= nivelul de semnificaţie = 1 – p).

Aplicaţia 6 :

Din bugetul de familie se cunosc următoarele date pentru 15


familii:
Nr. Venitri lunare ce Cheltuieli Xi2 xiyi
crt. revin în medie pe lunare pe
persoană(x) persoană (y)
– mii lei - - mii lei -
1 72 32
2 99 38
3 85 40
4 118 55
5 192 62
6 109 41
7 134 54
8 125 59
9 115 60
10 161 63
11 175 65
12 182 70
13 190 71
14 136 55
15 148 56
TOT. 2041 822 297855 117504

Să se caracterizeze şi să se măsoare legătura dintre venituri şi


cheltuieli folosind:
a) graficul de corelaţie;
b) metoda regresiei;
c) metoda raportului de corelaţie;
d) metoda coeficientului de corelaţie.

a) graficul de corelaţie
- se utilizează pentru a estima existenţa şi forma legăturii dintre o
variabilă factorială cauzală x şi o variabilă dependentă sau
rezultativă y.

79
Statistică – curs universitar ID

- cheltuielile depind de venituri;

80
70
60
50
40
30
20
10
0
0 50 100 150 200 250

Se poate observa amplasarea punctelor în formă de elipsă. Apare


ipoteza dependenţei liniare.
Yxi = a + bxi, b – coef. de regresie liniară simplă. Pentru a descoperi
legea după care x îl determină pe y trebuie determinaţi a şi b. Aceşti
coeficienţi se determină prin metoda celor mai mici pătrate şi vor fi
soluţiile sistemului de 2 ecuaţii cu 2 necunoscute: vom calcula xi2şi
yixi:
⎧⎪ na + b ∑ x i = ∑ y i ⎧15a + 2041b = 822
⎨ Æ ⎨
⎪⎩ a ∑ x i + b ∑ x i = ∑ x i y i ⎩2041a + 297855b = 117504
2

a = 16,58, b = 0,28
folosim metoda lui Cramer: Æ Y = 16,58 + 0,28bxi
Ex. Să se estimeze cheltuielile totale efectuate de 3 familii care au
următoarele venituri:

Nr. Venituri
crt.
1. 200 Y1=16,58+0,58 . 200
2. 215 Y2=16,58+0,58 . 215
3. 230 Y3=16,58+0,58 . 230

Raportul de corelaţie se utilizează indiferent de forma


dependenţei dintre cele 2 variabile în timp ce coeficientul de corelaţie
se calculează doar pentru corelaţia liniară simplă.

Rxy = 1−
∑ ( yi − Y )x
2

= 0,89
∑ ( yi − y) 2

Yx = 16,585 + 0,28.xi; y = 54,8


Fiind vorba de o corelaţie liniară, se poate calcula coeficientul
de corelaţie liniară simplă reprezentând media aritmetică simplă a
abaterilor normale normate ale, variabilelor de la media lor.

rxy =
∑ ( xi − x)( yi − y)
Pentru a evita calcularea unor
n℘x℘y
indicatori intermediari, abateri medii pătratice şi cele două medii ale
variabilelor, în practică se utilizează:

80
Statistică – curs universitar ID

n∑ xiyi − ∑ xi ⋅ ∑ yi
rxy =
⎡ ⎞ ⎤⎡ ⎞ ⎤
2 2
⎛ ⎛
⎢n∑ x i − ⎜ ∑ xi ⎟ ⎥ ⎢n∑ y i − ⎜ ∑ yi ⎟ ⎥
2 2

⎢⎣ ⎜ ⎟ ⎥⎢ ⎜ ⎟ ⎥
⎝ ⎠ ⎦⎣ ⎝ ⎠ ⎦
n = 15
O altă modalitate de calcul a coeficientului de corelaţie dacă
sunt cunoscute abaterile medii pătratice şi coeficientul de corelaţie
℘x
liniară simplă. rxy = b rxy = 0,89
℘y
În cazul corelaţiei liniară simplă, raportul de corelaţie este egal
cu coeficientul de corelaţie, fiind cuprins între 0,75 şi 0,95.
Coeficientul de corelaţie arată o legătură puternică de tip liniar şi
direct între venituri şi cheltuieli. De altfel reprezentativitatea acestui
coeficient poate fii demonstrată aplicând testul “t” bazat pe funcţia de
distribuţie Student.
Această funcţie este tabelată pentru un anumit nivel de
semnificaţie ∝ şi un număr egal cu n-2 grade de libertate. În funcţie de
∝ şi n-2 se găseşte argumentul t al funcţiei Student din tabel. Această
rxy
valoare se compară cu un t calculat = n−2.
1 − rxy2
Dacă t calculat este mai mare decât t tabelat, valoarea
coeficientului de corelaţie este reprezentativă pentru analiza
legăturii dintre cele 2 variante.
t calculat = 7,037
t tabelat = 0,05 ( 13 grade de libertate).
Rezultă că valoarea coeficientului de corelaţie este
reprezentativă.

81

You might also like