Statistic A

STATISTICĂ
Scurt istoric
Într-o primă concepţie, statistica echivala cu descrierea statului, expunerea situaţiei geografice,
economice şi politice. Acest gen de statistică a fost cultivat mai întâi de italieni. Încă din sec. XIII -
XIV în Republica Veneţia se elaborau diferite rapoarte care conţineau informaţii privitoare la
partenerii săi comerciali şi au fost utilizate în politica comercială oficială.
Curentul "descrierea statului" a atins apogeul în sec. XVII- XVII când, în Germania, s-a
constituit o adevărată şcoală cunoscută sub denumirea de şcoala descriptivă germană.
Descrierea statului a devenit disciplină de predare acadamică, încadrată într-un sistem
construit după norme teoretice şi practice, care s-au elaborat şi dezvoltat în univerăităţile germane.
Noua disciplină (Staatskunde), a primit numele de statistică (Statistik).
Pe vremea constituirii statisticii ca disciplină descriptivă a statului, se năştea în Anglia, în
afara universităţilor, o statistică cunoscută sub numele de aritmetica politică, a cărui scop era:
analiza datelor de observaţie prin procedee matematice, desprinderea regularităţilor în fenomenul
social şi chiar formularea de previziuni. Studiile demografice lăsau să se întrevadă că previziunea
fenomenelor colective ar putea avea o însemnătate practică; dealtfel tabelele de mortalitate,
întocmite în sec. XVIII au constituit punctul de plecare al înfloritoarei industrii de asigurări.
Folosirea metodei statistice, recurgerea la instrumentul matematic şi căutarea legităţilor marcau un
substanţial progres, prefigurînd statistica modernă.
Este dificil să se dea o definiţie satisfăcătoare statisticii. În limbaj uzual termenul este
folosit pentru a desemna o colecţie de numere referitoare la un anumit domeniu (demografie,
precipitaţii, debite). În sens tehnic (mai precis matematic) statistica este un instrument al
matematicii utilizat pentru prelucrarea şi interpretarea informaţiilor numerice.
Scopul statisticii
Statistica poate fi clasificată în două mari categorii:
- statistica descriptivă
- statistica analitică.
Statistica descriptivă se ocupă de prezentarea, clasificarea şi sintetizarea datelor de
observaţie. Aceasta concentrează informaţia existentă în datele respective cu ajutorul anumitor
indicatori statistici care, în fond, sunt nişte numere ce exprimă caracteristici sau tendinţe ale
fenomenului studiat.
Statistica analitică foloseşte metode matematice (teoria probabilităţilor) pentru extragerea şi
prelucrea informaţiei statistice; în multe cazuri aceste metode pun în evidenţă legităţi statistice.
Depăşirea stadiului descriptiv, al simplei metode cantitative, a însemnat, istoric vorbind,
deplasarea gândirii statistice spre interpretarea analitică a fenomenului şi obţinerea de concluzii
inductive, pe baza observaţiilor empirice. Această schimbare de conţinut a făcut ca statistica să se
întrepătrundă în mod constant cu matematica, în căutarea de metode corespunzătoare obiectivelor
sale.
Transpusă într-un limbaj matematic statistica s-a construit într-o teorie numită teoria
corelaţiei statistice, ale cărei aplicaţii au permis identificarea unor noi legi de dependenţă, specific
statistice şi adaptate la formele complexe şi variate pe care le oferă natura în diferitele sale
manifestări.
1
În cercetările moderne se porneşte de la ipoteze statistice asupra fenomenului sau procesului
observat, consecinţele lor logic deduse se compară apoi cu datele disponibile şi dacă sunt în
concordanţă, ipotezele sunt justificate, cel puţin până la noi observaţii mai riguroase.
Unul din obiectivele esenţiale ale statisticii se consideră tocmai măsurarea incertitudinii
concluziilor inductive. De la un timp însă, gîndirea statistică tinde să se preocupe mai puţin de
măsurarea incertitudinii şi mai mult de determinarea riscului de eroare şi a pierderilor implicate de
orice decizie întemeiată pe o informaţie care, prin natura sa, nu poate fi exhaustivă.
Aplicarea calculelor statistice la datele empirice, oferite de observarea fenomenului, permite
desprinderea de legităţi statistice.
Fenomenele sunt în interconexiune unele cu altele, în sensul că se generează şi se
influenţează reciproc. Acest fapt conduce la noţiunea de cauzalitate care exprimă interacţiunea
dintre cauză şi efect astfel încât întotdeauna cauza să preceadă efectul. Desfăşurarea fenomenelor
constă astfel într-un şir neîntrerupt de momente, într-o succesiune cauză-efect, efectul fiind la
rîndul lui cauză pentru un alt efect ş.a.m.d. Astfel se formează un lanţ cauzal. Orice întrerupere a
lanţului cauzal înseamnă de fapt existenţa unui efect care să nu aibă cauză. Nici un fenomen nu se
abate de la acest principiu care poartă numele de principiul cauzalităţii. Cunoaşterea desfăşurării
evenimentelor este asigurată de cunoaşterea legilor care guvernează fenomenul şi a ansamblului de
condiţii în care se desfăşoară acesta. Deci legea este un element primordial în cunoaşterea
fenomenelor deoarece exprimă raporturile esenţiale, necesare, generale, relativ stabile şi repetabile
ale fenomenelor şi ale desfăşurării lor. Putem deosebi două mari categorii de legi:
- legi fizice, care se aplică fenomenelor şi proceselor individuale luate în parte (ex. legea
atracţiei universale, legile I, II, III ale dinamicii etc.) şi
- legi statistice, care se aplică numai fenomenelor de masă, ansamblurilor de obiecte (ex.
legea gazelor perfecte, legea dezintegrării radioactive, etc.) şi care exprimă anumite caracteristici
ale ansamblului considerat.
Legile fizice permit cunoaşterea perfectă a desfăşurării viitoare a fenomenelor pe baza
cunoaşterii la momentul iniţial a unor mărimi. Astfel, în mecanică, legea a II-a a lui Newton
permite cunoaşterea perfectă a mişcării unui obiect atunci când se cunosc la momentul iniţial
poziţia (trei coordonate) şi viteza sau impulsul (trei proiecţii) obiectului.
Legile statistice permit cunoaşterea desfăşurării viitoare a fenomenelor doar în termeni
probabilistici (probabilităţi, valori medii, erori statistice etc.). Acest lucru indică de la început că
informaţia pe care o dă o lege statistică este mai săracă decât cea dată de legea dinamică. Cu toate
acestea, legea statistică permite cunoaşterea desfăşurării viitoare a fenomenelor şi poate fi tot atât
de deterministă ca şi cea dinamică.
Particularitatea esenţială a legilor statistice izvorâtă din faptul că ele acţionează în
fenomenele de masă, unde întregul este determinat de unitatea părţilor componente, o constituie
exprimarea comportării ansamblului de unităţi omogene şi nu a fiecărei unităţi în parte. În mod
corespunzător, legea statistică se realizează ca o tendinţă predominantă, ca o necesitate care îşi
croieşte drum printr-un număr foarte mare de contingenţe şi care se manifestă în aceste contingenţe
ca media unui număr mare de abateri întîmplătoare. De aici şi principiul verificat deseori în
practică: legea statistică poate fi evidenţiată dacă şi numai dacă este considerat şi supus observării
un număr mare sau suficient de mare de unităţi elementare ale ansamblului considerat.
2
Noţoiuni elementare
Investigarea statistică presupune, prin definiţie, considerarea fenomenelor în multiplicitatea şi
variabilitatea lor. Un ansamblu de fenomene formează un fenomen de masă, sau, ceea ce numim
populaţie statistică, în măsura în care elementele componente (indivizi) sunt de aceaşi natură, adică
au toate o proprietate comună şi se deosebesc unele de altele în raport cu aspectele sau valorile
caracteristice luate în studiu. Populaţia cu care lucrează statistica trebuie să fie global omogenă - să
includă doar elementele similare, aparţinînd de aceeaşi "categorie" şi intern structurată -
elementele ei să poată fi ordonate potrivit unui sistem de clasificare.
Aşa cum rezultă din cele de mai sus, o însuşire specifică statisticii este aceea că statistica nu
se ocupă cu un element (individ) luat ca atare, ci cu colectivităţi, cu grupuri de elemente ce posedă
o anumită trăsătură comună. Această trăsătură se numeşte caracteristică. Denumirea de
"populaţie" s-a păstrat din timpurile în care statistica se ocupa cu precădere de populaţii în sensul
propriu al cuvîntului. O populaţie poate fi împăţită în subpopulaţii sau populaţii parţiale, care sunt :
clase, grupe şi eşantioane.
O clasă este un subansamblu de elemente ale unei populaţii care conţin o variabliă
determinată de aceeaşi măsură.
Un grup este un subansamblu de elemente ale unei populaţii care se distinge printr-o
manieră de tratare comună.
Un eşantion este un subansamblu de elemente ale unei populaţii ales întâmplare. Se
apelează la acest gen de populaţie parţială atunci când populaţia în studiu este prea mare pentrua fi
tratată în ansamblul ei. Studiul asupra eşantionului va fi atribuit întregii populaţii.
Indivizii unei populaţii statistice sunt cercetaţi pentru una sau mai multe caracteristici.
Caracteristicile întâlnite se clasifică în caracteristici cantitative şi calitative. Caracteristicile
cantitative sunt cele care se măsoară numeric (înălţime, greutate, lungimea unui râu etc.) şi se mai
numesc variabile statistice. Caracteristicile calitative nu se măsoară numeric (culoare, sexul unei
persoane etc.). Ele nu reprezintă o măsură a unei entităţi. Dacă se convine să se reprezinte unele din
ele prin numere ataşate la categoriile ce le determină, nu este vorba decât de o "codificare"
procedeul nejustificând operaţiile aritmetice. Aceste caracteristici se mai numesc atribute.
La rândul lor, caracteristicile cantitative pot fi discrete sau continue. Variabilele discrete
sunt cele care pot lua un număr finit (sau cel mult numărabil) de valori distincte (întregi,
fracţionare), cum ar fi numărul membrilor unei familii, nr. de staţii hidrologice etc. Variabilele
continue sunt cele care pot lua orice valoare dintr-un anumit interval (înălţimea unui individ,
nivelul unui râu etc.). Totuşi, în practică nu se întâlneşte o informaţie privind adâncimea unui râu
de forma: 1m, 3 cm, 17 microni. Acest lucru nu se va întîmpla fie că precizia aparatelor cu care
efectuăm măsurătorile este limitată, fie că o precizie exagerată nu este întotdeauna folositoare
pentru ceea ce urmărim în investigaţie. Astfel, măsurătorile sau datele de observaţie se grupează în
cadrul unei anumite unităţi şi deci din punct de vedere practic se lucrează cu forma discretă chiar
dacă variabilele sunt de tip continuu. Distincţia între caracterul cantitativ şi cel calitativ, precum şi
între variabilele discrete şi variabilele continue este fundamentală deoarece ele recurg la tehnici de
analiză foarte diferite.
Aici trebuie să lămurim un lucru care dă deseori naştere la confuzii: mulţi sunt înclinaţi să
creadă că variabilele discrete trebuie să ia numai valori întregi şi că numerele fracţionare sunt tipice
pentru variabilele continue; cu alte cuvinte diferenţa dintre continuu şi discret se confundă cu
diferenţa dintre măsurătorile cu numere întregi şi cele fracţionare. Să luăm exemplul următor: o
variabilă ia valorile: 1,041; 1,065; 1,077. Aceasta este o variabilă discretă deoarece trecerea de la o
valoare la alta se face fără vreo altă valoare intermediară.
3
Cercetarea statistică a unei colectivităţi poate fi:
- exhaustivă (totală), când fiecare individ este analizat, de exemplu în cazul
recensămintelor;
- parţială (selectivă), când sunt examinaţi numai anumiţi indivizi, aleşi aleator. Ea este cea
mai frecvent folosită, în majoritatea cazurilor fiind şi singura posibilă.
Partea examinată din colectivitate se numeşte selecţie sau eşantion. Numărul indivizilor
examinaţi se numeşte volumul selecţiei.
Analiza seriilor statistice

Evaluarea anumitor indicatori (parametri) statistici implică stabilirea caracteristicilor
(proprietăţilor) principale ale seriilor statistice. Acestea sunt: variabilitatea, omogenitatea,
independenţa şi concentrarea/împrăştierea (dispersia) către/faţa de un una sau mai multe valori ale
seriei.
Variabilitatea termenilor unei serii statistice este determinată de faptul că fenomenul pe care îl
reprezintă nu este univoc determinat, ci apare ca un rezultat al acţiunii combinate a mai multor
cauze (permanente sau întâmplătoare). Cu cât acţiunea cauzelor întâmplătoare este mai mare, cu
atât variabilitatea este mai mare şi gradul de omogenitate mai mic.
Omogenitatea presupune o variaţie minimă între termeni. Dacă în urma analizei se constată că o
serie nu prezintă omogenitate, înseamnă că în acest caz colectivitatea este formată din mai multe
tipuri calitative şi seria trebuie descompusă în subserii componente.
Independenţa termenilor unei serii provine din faptul că fiecare valoare individuală reprezintă un
element distinct şi obiectiv al unei populaţii statistice. Termenii ce aparţin aceleiaşi colectivităţi se
supun aceloraşi legi care se manifestă sub formă de tendinţă.
Concentrarea/împrăştierea (dispersia) către/faţă de un una sau mai multe valori ale seriei apare
ca rezultat al intensităţii unui efect produs de cauze esenţiale şi întâmplătoare. Acest lucru
determină fercvenţele diferite de apariţie a diferitelor valori din serie. Dacă intensitatea factorilor
este uniformă, frecvenţele de apariţie sunt apropiate. În caz contrar, frecvenţele de apariţie se
concentrează fie la un singur capăt al seriei, fie către o valoare centrală.
Repartiţii de frecvenţe
Există diferenţe între analiza seriilor dinamice şi problemele legate de gruparea şi analizarea
materialelor pentru care factorul timp nu are importanţă. La cercetarea seriilor dinamice problema
de bază o reprezintă analiza variabilei timp.
Metodele de analiză folosite în aceste două cazuri se deosebesc sensibil. În cele ce urmează
ne vom ocupa de problemele grupării şi analizei prealabile a datelor numerice pentru care ordinea
de aşezare în timp nu contează.
Datele statistice în stare brută reprezintă o masă dezordonată de materiale. Prima problemă
este aceea de a face o asemenea grupare a datelor cu ajutorul căreia să se poată aprecia valoarea lor
în legătură cu problema propusă, să se poată înlesni comparaţia cu alte date de acelaşi gen şi să se
poată obţine posibilitatea unei analize ulterioare. Înainte ca materialul statistic să fie supus analizei
ulterioare şi generalizărilor care vor permite să se facă anumite deducţii, el trebuie să capete o
4
anumită formă şi o structură clară. Cu alte cuvinte în cadrul analizei datelor statistice trebuie să se
ia în considerare atât valorile individuale cât şi frecvenţele de apariţie ale acestora.
În urma observării caracteristicii cantitative X în n probe se obţin următoarele date primare:
x1, x2,..., xn (1)
În cazul în care volumul selecţiei este mic aceste date sunt uşor de manipulat şi nu este nevoie de o
grupare a lor. Dacă însă avem o selecţie de volum mare este greu de lucrat cu aceste date. În plus
tabelele de date primare nu sugerează nimic referitor la referitor la repartiţia variabilei X. De aceea
este nevoie de o grupare (centralizare) a datelor.
Gruparea datelor se face în funcţie de tipul caracteristicii X. Astfel, dacă X este o variabilă
discretă ce poate lua valorile distincte v1, v2 ,..., vn , atunci în locul datelor iniţiale se va reţine
repartiţia empirică:
 v1.v2. v.m .
  (2)
 n1.n2. n.m .
Unde ni, (i=1, m) reprezintă frecvenţa apariţiei (numărul de apariţii) valorii vi, iar n reprezintă
numărul valorilor din şirul iniţial (1) şi se numeşte frecvenţă absolută a valorii v. Valoare m
reprezintă numărul de clase.
Raportul fj =nj/n dintre frecvenţa absolută şi numărul total de probe se numeşte frecvenţă
relativă. Se observă că
f1 + f2 +…+ fm =1 întrucât n1 +n2 + ... +nm = n.
Frecvenţele relative, numite şi impropriu probabilităţi de apariţie, stau la baza calculării densităţii
de repartiţie a fercvenţelor şi a indicatorilor care exprimă gradul de concentrare. De asemenea
permit compararea a două repartiţii construite pe aceeaşi variabilă, care diferă numai prin numărul
unităţilor pe grupe.
Dacă X este o variabilă continuă care poate lua valori într-un interval [a,b] atunci acest
interval este împărţit în m subintervale [aj, aj+1], j=1, m , cu a1 = a şi am+1 = b. pentru fiecare din
aceste subintervale se determină numărul n al valorilor din şirul (1) care se află în acest interval
numit frecvenţă absolută a subintervalului.
Subintervalele [aj, aj+1] se pot lua arbitrar. De cele mai multe ori extremităţile se iau
echidistante, deci subintervalele au lungimi egale. Însă numărul m al subintervalelor nu se alege la
întîmplare. Este important ca prin gruparea datelor să nu se piardă caracterul global al repartiţiei
(dacă m este prea mic se poate denatura repartiţia reală a variabilei X). Astfel, după unii autori
numărul subintervalelor, m, trebuie alese în conformitate cu formula lui Sturges :
5
m=[1 + 3,322logn]
Mărimea intervalului va fi dată de formula:
xmax − xmin
i=
m
N m
11-30 3-4
31-100 4-6
101-500 6-9
501-3000 9-13
3001-∞ 13-20
Tabelul 1.
Reprezentarea grafică a repartiţiilor statistice

Există mai multe tipuri de reprezentări grafice a datelor statistice. Dintre acestea prezentăm
histograma, poligonul frecvenţelor şi graficul frecvenţelor cumulate.
Histograma este o figură într-un sistem de coordonate rectangualre care reprezintă
distribuţia empirică prin dreptunghiuri. Bazele acestor dreptunghiuri, construite pe axa absciselor,
reprezintă subintervalele folosite în centralizarea datelor. Înălţimea hj a dreptunghiului cu baza (aj,
aj+1) este proporţională cu raportul dintre frecvenţa relativă a intervalului şi lungimea sa:
fj
hj = C
a j +1 − a j
constanta C fiind un factor de scară. În cazul când subintervalele grupării au lungimi egale,
înălţimea hj va fi proporţională cu frecvenţa relativă, deci hj =C*fj .
Poligonul frecvenţelor este o diagramă în care pe axa absciselor se iau mijloacele vj ale intervalelor
(aj, aj+1) folosite în grupare, iar pe axa ordonatelor valorile hj definite în construirea histogramei.
Linia frîntă care uneşte punctele de coordonate (vj, hj) se numeşte poligonul frecvenţelor. El se
poate obţine din histogramă unind mijloacele laturilor superioare ale drptunghiurilor. În fig 1
poligonul frecvenţelor este trasat printr-o linie punctată.
Mărimile c1, c2, ..., cm definite prin:
6
j
c j = ∑ fi
i =1
se numesc frecvenţe cumulate.
Linia frântă obţinută prin unirea punctelor de coordonate (aj+1, cj ] se numeşte graficul frecvenţelor
cumulate.
Modalitǎţi de clasificare a datelor

Modul de stabilire a claselor – determinarea pragurilor minime şi maxime ale fiecǎrei clase -
determinǎ modul în care sunt atribuite valorile fiecǎrei clase şi deci felul în care va arǎta distribuţia.
Prin schimbarea claselor se crează diagrame cu aspect diferit. În general se urmăreşte ca valori
similare să fie în aceeaşi clasă.
Există doi factori cheie în clasificarea datelor : schema de clasificare utilizatǎ şi numǎrul de
clase ce se doreşte a fi creat. Dacǎ datele sunt bine cunoscute se poate predetermina manual
numǎrul de clase. În caz contrar se utilizează schemele clasice. Cele mai frecvente scheme de
clasificare sunt: natural breaks, quantile, intervale egale şi deviaţia standard. Acestea sunt descrise
în cele ce urmează.
Scheme standard de clasificare
Natural breaks (Jenks)
Datele se clasificǎ pe baza grupǎrii naturale a valorilor. Se identificǎ punctele de rupturǎ cǎutând
acele modele de grupare implicite ale datelor. Valorile sunt împǎrţite în clase acolo unde graniţele
sunt marcate prin salturi mari de la o valoare la alta.
7
Quantile
Fiecare clasǎ conţine un numǎr egal de valori. O astfel de clasificare este foarte potrivitǎ în cazul
datelor liniare. Din cauzǎ cǎ datele sunt grupate dupǎ numǎr în fiecare clasǎ, diagrama rezultatǎ
poate fi înşelǎtoare. Datele similare pot fi plasate în clase diferite, sau valori foarte diferite pot fi
grupate împreunǎ. Aceastǎ distorsiune poate fi evitatǎ mǎrind numǎrul de clase.
8
Intervale egale
Aceastǎ schemǎ de clasificare divide şirul de valori atribut în subşiruri egale. Spre exemplu în cazul
unui şir de valori de la 1 la 300 şi a trei clase, fiecare clasǎ reprezintǎ un şir de 100 ( 1-100, 101-
200, 201-300). Aceastǎ metodǎ accentueazǎ cantitatea de valori atribut relativ la celelalte valori,
spre exemplu pentru arǎta cǎ un magazin este parte a unui lanţ de magazine care a realizat o treime
din vânzǎri. Cel mai bine se utilizeazǎ pentru şiruri de date dintr-un anumit domeniu cum ar fi
tempertura şi procentele.
9
Standard deviation
Aceastǎ schemǎ de clasificare arată cu cât variază o valoare de la medie. Se calculeazǎ media şi
apoi se genereazǎ clasele adǎugând sau scǎzând din ea deviaţia standard.
10
Caracterizarea repartiţiilor de frecvenţă
Datele (care se referă la diferite domenii ale cunoaşterii) odată aranjate într-o repartiţie de
frecvenţe, scot în evidenţă trăsăturile commune ale tuturor curbelor de repartiţie şi care se supun
unor legi generale. Acest lucru ne permite ca experienţa câştigată într-un anumit domeniu al
cunoaşterii să poată fi extinsă şi în alt domeniu.
La toate curbele însă trebuie să observăm variabilitatea mărimilor care se obţin ca rezultat al
unor măsurători. Cu toate că există variabilitate, se observă o tendinţă a datelor de a se grupa în
centrul curbei (tendinţa centrală). Dacă se măsoară mărimea abaterii de la punctul de concentrare
maximă a frecvenţelor, se constată că sunt mai frecvente abaterile mici decât cele mari, că abaterile
în ambele părţi faţă de punctul de concentrare maximă se echilibrează aproape complet şi că
abaterile foarte mari sunt foarte rare. Deoarece frecvenţa variază, vom alege acea mărime care se
întâlneşte cel mai des. Ea va fi măsura tendinţei centrale a repartiţiei. Această mărime, ca şi altele
asemănătoare se numesc indicatori (sau parametrii) de poziţie, deoarece arată poziţia elementelor
principale ale repartiţiei pe axa absciselor.
Caracterul reprezentativ al oricărui indicator de poziţie depinde de cât de strîns i se alătură
celelalte valori, sau cu alte cuvinte, de gradul de concentrare a datelor în jurul tendinţei centrale.
Indicatorii tendinţei centrale

Atenuarea datelor, care accidental sunt prea mari sau prea mici dintr-o populaţie statistică se face
prin calcularea unor medii, în felul acesta făcându-se o compensare a valorilor individuale. Acest
calcul ne arată o anumită tendinţă a fenomenului studiat, media statistică fiind o valoare ce
sintetizează într-o singură expresie numerică toate valorile din seria măsurători sau observaţii.
Termenii seriei diferă de medie deoarece au fost influenţaţi de diferiţi factori.
Media aritmetică
Media aritmetică simplă exprimă un nivel mediu, anihilând abaterile individuale, netipice. Ea este
cuprinsă între valoraea cea mai mare şi cea mai mică.
Definiţia 1. Dacă în urma unei selecţii apar valorile distincte x1, x2,..., xn, atunci media aritmetică
este dată de formula:
x1 + x2 + ... + xn 1 n
x= = ∑ xi
n n i =1
În cazul datelor centralizate (în care avem repartiţia de frecvenţă (2)):
n1v1 + n2 v2 + ... + nn vn 1 n
x= = ∑ ni vi
n n i =1
care se mai numeşte medie aritmetică ponderată. Numărul care arată de câte ori se repetă fiecare
valoare (nj) este "ponderea" valorii respective.
Observaţia 1. Media aritmetică are dezavantajul că este sensibilă la valori extreme, iar dacă
termenii sunt prea "împrăştiaţi", tinde să devină o valoare nereprezentativă. Media aritmetică este o
valoare lipsită de conţinut dacă elementele sunt deosebite din punct de vedere calitativ, caz în care
este mai util să se facă medii parţiale pentru fiecare tip de colectivitate.
11
Observaţia 2. Dacă avem mai multe medii, fiecare referindu-se la o anumită categorie,
fiecare medie va fi ponderată în funcţie de importanţa categoriei sale.
Media geometrică
Media geometrică este mai puţin sensibilă la valorile extreme decât celelalte medii, deci se
întrebuinţează când dorim să atenuăm divergenţele mari dintr-o serie de determinări cu frecvenţe
egale, fiind după o expresie "cea mai exactă medie". Se utilizează când valorile au o evoluţie (de
creştere sau scădere) permanentă, neîntreruptă, sau o raţie din ce în ce mai mare, termenii fiind
legaţi între ei printr-o relaţie de produs. De asemenea se mai întrebuinţează când vrem să dăm o
importanţă mai mare termenilor mai mici, în valoare absolută, sau când diferenţele între termeni
sunt foarte mari. Are dezavantajul că nu se poate întrebuinţa când avem valori nule sau negative.
Definiţia 2. Dacă x1, x2,..., xn sunt n valori, media geometrică se defineşte prin
M g = n x1 x2 ... xn
Calculul se face mai uşor cu ajutorul logaritmilor:
1 n
lg M g = ∑ lg xi
n i =1
Datorită faptului că se calculează mai uşor cu ajutorul logarimilor, se mai numeşte "medie
logaritmică". Ea se utilizează şi la calcularea ritmului (de creştere sau descreştere) numindu-se
astfel şi "medie de ritm". În rezumat, se întrebuinţează când:
- seria are o mare dinamicitate;
- termenii au variaţii mari;
- distribuţia are un caracter pronunţat de asimetrie.
Observaţia 3. Media geometrică se foloseşte atunci când prezintă importanţă variaţiile

relative. De asemenea media geometrică poate fi folositoare pentru calculul unor rapoarte.
Media pătratica se întrebuinţează când valorile prezintă creşteri din ce în ce mai mari. Ea
constituie modelul matematic pentru abaterea medie pătratică. Media este sensibilă la valori
extreme, din care cauză este întotdeauna mai mare decât celelalte medii. Are avantajul că se poate
aplica şi în cazul valorilor nule sau negative (care prin ridicare la pătrat devin pozitive). Se
întrebuinzează când dăm importanţă valorilor mari.
Definiţia 3. Media pătratică este definită prin formula:
1 n 2
x patr , s = ∑ xi
n i =1
sau în cazul datelor centralizate (media ponerată):
1 n
x patr , p = ∑
n i =1
ni vi2
12
Definiţia 4. Media armonică este valoarea inversă a mediei aritmetice ale valorilor inverse datelor
de observaţie:
n
Mh = n
1
∑x
i =1 i
Exprimă caracterul sintetic al unor valori ce se află în raport invers. Se utilizează când
frecvenţele sunt egale. Pentru o repartiţie de frecvenţă, media armonică se foloseşte rar. Se
utilizează cu predilecţie în economie.
Media glisantă numită şi "medie mobilă", se utilizează în cazul în care şirul valorilor prezintă
fluctuaţii mari, bruşte şi e greu de apreciat tendinţa (trendul). Se presupune că media glisantă
corespunde mijlocului intervalului sintetic. Calculul se face mediind 3 sau 5 valori alăturate.
Definiţia 5. Media glisantă pentru 3, respectiv 5 valori alăturate sunt date de formulele
xi −1 + xi + xi +1
xglis , 3 =
3
xi −2 + xi −1 + xi + xi +1 + xi + 2
xglis ,5 =
5
Definiţia 6. Mediana este elementul dintr-un şir de date statistice care ar împărţi intervalul în două
grupe egale ca număr, după ce acestea au fost ordonate după mărimea lor. Dacă seria are 2n+1
elemente, atunci mediana este elementul n+1, iar dacă are 2n elemente mediana este media
aritmetică a celor doi termini din mijloc.
INDICATORII VARIATIEI
O medie este reprezentativă numai atunci când se calculează din valori omogene între ele. Cu cât
fenomenele sunt mai complexe (dependente de mai multi factori), cu atât variaţia este mai mare şi
utilizarea mărimilor medii devine insuficientă. De aceea este important de cunoscut cât de ‘departe’
sunt valorile sumei statistice faţă de medie. Comparaţia se face cu media seriei, considerată ca fiind
valoarea cea mai reprezentativă pentru populaţia statistică.
Analiza statistică a unei repartiţii poate fi aprofundată prin calculul indicatorilor de variaţie.
Acesti indicatori trebuie să servească la :
- verificarea reprezentativităţii mediei ca valoare tipică a unei populaţii statisatice;
- verificarea gradului de omogenitate a seriei;
- caracterizarea statistică a formei şi gradului de variaţie a unui indicator;
- cunoasterea gradului de influenţă a factorilor după care s-a facut gruparea unităţilor
observate.
13
Indicatorii simpli ai variaţiei.
Indicatorii simpli ai variaţiei servesc la caracterizarea gradului de împraştiere a mărimilor seriei
statistice. Se pot exprima atât în mărimi absolute cât şi în mărimi relative.
Din aceasta grupa fac parte :
- amplitudinea variaţiei (absolută şi relativă);
- abaterile individuale (absolute şi relative).
Amplitudinea absolută se calculeaza ca diferenţa dintre valoarea maximă şi valoarea minimă al

caracteristicii :
Aa = xmax – xmin
Amplitudinea relativa se exprima de regulă în procente şi se calculează ca un raport între
amplitudinea absolută şi media aritmetică :
A
Ar= a ⋅100
x
Abaterile individuale absolute (di) se calculează ca diferenţa între fiecare valoare şi media
aritmetică :
di = xi - x , i = 1,...,n
Abaterile individuale relative (dr) se calculează ca raportul dintre abaterile individuale absolute şi
media aritmetică (se exprima în procente) :
di
dr = ⋅100 , i = 1,...,n
x
Gradul de variaţie al unei caracteristici depinde de toate abaterile variantelor înregistrate şi
de frecventa lor de apariţie şi prin urmare indicatorii simpli ai variaţiei nu pot exprima întreaga
variaţie a unei populaţii statistice. De aceea a fost necesară introducerea indicatorilor sintetici ai
variaţiei.
Indicatorii sintetici ai variaţiei.

Indicatorii sintetici ai variaţiei, la fel ca şi indicatorii tendintei centrale trebuie să se bazeze pe toate
observaţiile, sa fie usor de calculat, uşor de înteles şi să fie cât mai puţin afectaţi de fluctuaţiile de
selecţie.
Indicatorii sintetici ai variaţiei sunt :
- abaterea medie liniară ;
- abaterea medie patratică;
- dispersia;
- coeficientul de variaţie.
Abaterea medie liniară se calculează ca o medie aritmetică simplă sau ponderată, luate în valoare
absolută :
Pentru o serie simplă
14
n
∑| x − x |
i
d= i =1
n
Abaterea medie liniară prezintă dezavantajul că nu ţine seama de faptul că abaterile mai
mari în valoare absolută influentează în mai mare masură gradul de variaţie a unei caracteristici, în
comparaţie cu abaterile mici. În plus, nu este indicat să se renunţe în mod arbitrar la semnul
valorilor din care se calculează o valoare medie. Din aceste considerente se foloseşte ca principal
indicator sintetic al variaţiei abaterea medie patratică.
Abaterea medie patratică sau abaterea standard (σ) se calculează ca o medie patratică din
abaterile tuturor elementelor seriei de la media lor aritmetică:
∑( x ) 2
−x
σ= i
n
Acest indicator este mai concludent decât abaterea medie liniară. Prin ridicarea la pătrat se
dă o importanţă mai mare abaterilor mari în valoare absolută, acestea influenţând într-o măsura mai
mare gradul de variatie al variabilelor analizate.
În literatura de specialitate se apreciază ca pentru o serie de distribuţie normală abaterea
medie liniară este egală cu 4/5 din valoarea abaterii medii pătratice.
Abaterea medie pătratică este un indicator de bază, care se foloseşte la analiza variaţiei, la
estimarea erorilor de selecţie în calculul de corelaţie.
La fel ca abaterea medie liniară, abaterea medie pătratică se exprimă în unitatea de masură a
variabilei a carei variaţie o caracterizează. Prin urmare cei doi indicatori nu se pot folosi pentru
compararea gradului de variaţie şi în aceasta situaţie se recurge la un alt indicator de variaţie :
coeficientul de variaţie.
Coeficientul de variatie (v) se calculeaza ca un raport între abaterea medie pătratică şi media
aritmetică. De obicei se exprimă sub formă de procente :
σ
v= ⋅100
x
Semnificaţie. Cu cât valoarea lui v este mai aproape de zero cu atât variaţia este mai slabă,
colectivitatea este mai omogenă, media având un grad ridicat de reprezentativitate. Cu cât valoarea
lui v este mai mare cu atât variaţia este mai intensă, colectivitatea este mai eterogenă, iar media are
un nivel de semnificaţie scăzut.
Se apreciază că la un coeficient de peste 35-40%, media nu mai este reprezentativă şi datele
trebuie separate în serii de componente, pe grupe, în funcţie de variaţia unei alte caracteristici de
grupare.
Se poate afirma că acest indicator poate fi folosit ca un test în aplicarea metodei grupării.
Dacă media aritmetică este aproape de zero, coeficientul de variaţie nu are semnificaţie.
Dispersia ( σ 2 ) este media pătratelor abaterilor de la media aritmetică :

σ2 =
1
n
∑ ( 2
xi − x . )
15
Măsura dispersiei se referă la « împrăştierea » valorilor dintr-un set de date. Media nu are
semnificaţie dacă se aplică pe un set de date foarte dispersate. De exemplu dacă luăm valoarea
medie a oraşelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000 datorită
Bucureştiului care are 2.000.000. Însă rezultatul nu are nici o semnificaţie (nici un oraş nu area
această valoare).
Măsurile dispersiei, exprimate sub forma unităţilor de măsură ale fenomenului cercetat, nu
sunt întotdeauna utile atunci când se compară dispersiile a două sau mai multe serii. Compararea
dispersiilor a două sau mai multe serii dă rezultate în următoarele 2 situaţii:
a) şirurile care se compară pot fi exprimate în aceleaşi unităţi, iar mediile pot fi aceleaşi sau
au dimensiuni aproape egale.
b) şirurile care se compară pot fi exprimate în aceleaşi unităţi, însă mediile diferă.
Dacă seriile se exprimă în unităţi diferite, dispersiile nu pot fi comparate direct. De aceea de multe
ori se foloseşte abaterea medie pătratică în loc de dispersie.
În unele lucrări această mărime se numeşte varianţă (din l. engl. variance). Varianţa este o măsură
importantă în special când se studiază variaţia a două sau mai multe eşantioane. O tehnică statistică
foarte puternică este cunoscută sub numele de analiza de varianţă şi utilizează dispersia pentru a
decide dacă un număr de eşantioane diferă semnificativ unul de altul.
Skewness şi kurtosis
Skewness
Abaterea medie pătratică şi dispersia sunt indicatori care dau o măsură a împrăştierii valorilor într-o
distribuţie de frecvenţă. Într-un anume sens ele oferă o măsură a « lăţimii » distribuţiei. Aceasta
însă nu oferă nici o informaţie privind caracteristicile formei distribuţiei de frecvenţă. Figura de
mai jos înfăţişează 6 distribuţii utilizând histograma. Aceasta reprezintă un set de date care au
acelaşi număr de valori. Pe orizontală avem o unitate de măsură exprimată în abateri medii patratice
(σ ), iar pe verticală avem media aritmetică. După cum se observă, se poate face o comparaţie
directă.
Aparent cele şase distribuţii de frecvenţă sunt foarte diferite. Cele din partea dreaptă (b,d, şi f) sunt
similare dintr-un singur punct de vedere, anume ele sunt asimetrice, “vârful” este plasat în stânga
sau dreapta mediei. Spunem că avem o distribuţie distorsionată sau asimetrică (skewed). Cele din
stânga (a,c,e) au un grad mic de distorsiune (asimetrie). În toate cazurile vârful este în apropierea
mediei. Toate acestea sunt distribuite simetric.
Pe de altă parte cele două distribuţii de pe fiecare rând pot fi considerate similare, în sensul că au un
anumit grad de “ascuţire” sau kurtosis. Cele din primul rând sunt foarte ascuţite; ele au aceleaşi
grad de kurtosis. Cele din al doilea rând au “ascuţimea” mai moderată, iar cele din al treilea rând
sunt relative plate.
Distorsiunea măsoară, deci, volumul de valori din distribuţia concentrată de o parte şi de alta a
mediei. Dacă acest volum de valori este mai mic decât media, spunem că distribuţia este pozitiv
distorsionată (b). Daca există mai multe valori mai mari decât media, spunem că distribuţia este
negativ distorsionată (d).
16
O distribuţie perfect simetrică nu are distorsiune (skewness=0).
Există mai multe metode de măsurare a distorsiunii. Cea mai uzitată este formula:
S=∑
(x − x) 3
nσ 3
unde la numărător avem deviaţia cubică a valorilor faţă de medie, iar σ este abaterea medie
pătratică.
Avem următoarele situaţii:

-dacă S <0 avem distorsiune negativă;
-dacă S >0 avem distorsiune pozitivă.
Skewness este un concept cu aplicaţii importante în geografie deoarece foarte multe variabile în
geografie au o distribuţie accentuat distorsionată. Cu alte cuvinte distribuţia de frecvenţă seamănă
foarte mult cu cele înfăţişate în b,d sau f.
În al doilea rând alţi indicatori cum ar fi media sau dispersia pot conduce la interpretări greşite dacă
se folosesc izolat.
17
Kurtosis
Kurtosis dă o măsura a extinderii înspre valorile care sunt concentrate într-o parte a distribuţiei de
frecvenţă. Dacă o clasă într-o distribuţie de frecvenţă conţine o foarte mare parte din valorile din
distribuţie, atunci distribuţia prezintă un mare grad de kurtosis, iar forma este mai ascuţită.
Într-o distribuţie cu un grad mic de kurtosis (distribuţie plată) fiecare clasă conţine o proporţie
similară din toate valorile.
Formula folosită pentru k este :
K=∑
(x − x) 4
nσ 4
Pentru distribuţia normală avem K=3, pentru o distribuţie ascuţita K>3, iar pentru o distribuţie plată
K<3.
Din păcate acest indicator nu este folosit în studii geografice asa cum ar fi de dorit.
Ca şi distorsiunea K oferă informaţii preţioase asupra distribuţiei unui set de date suplimentare
celor date de medie şi dispersie.
Trebuie remarcat faptul ca multe variabile statistice întâlnite în geografie au o distorsiune mare dar
şi un K mare (>3). Când se aplică acestor variabile media aritmetica şi dispersia, acestea pot
conduce la informaţii eronate. Mai mult în aceste condiţii datele nu prezintă o distribuţie normală
astfel că nu pot fi aplicate testele parametrice.
18

Statistic A

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statistic A

Uploaded by

Copyright:

Available Formats

STATISTICĂ

Analiza seriilor statistice

x1, x2,..., xn (1)

Mărimea intervalului va fi dată de formula:

Reprezentarea grafică a repartiţiilor statistice

se numesc frecvenţe cumulate.

Modalitǎţi de clasificare a datelor

Scheme standard de clasificare

Natural breaks (Jenks)

Indicatorii tendinţei centrale

În cazul datelor centralizate (în care avem repartiţia de frecvenţă (2)):

Calculul se face mai uşor cu ajutorul logaritmilor:

Observaţia 3. Media geometrică se foloseşte atunci când prezintă importanţă variaţiile

sau în cazul datelor centralizate (media ponerată):

Amplitudinea absolută se calculeaza ca diferenţa dintre valoarea maximă şi valoarea minimă al

Indicatorii sintetici ai variaţiei.

Dispersia ( σ 2 ) este media pătratelor abaterilor de la media aritmetică :

Avem următoarele situaţii:

You might also like