STATISTICĂ

Scurt istoric
Într-o primă concepţie, statistica echivala cu descrierea statului, expunerea situaţiei geografice, economice şi politice. Acest gen de statistică a fost cultivat mai întâi de italieni. Încă din sec. XIII XIV în Republica Veneţia se elaborau diferite rapoarte care conţineau informaţii privitoare la partenerii săi comerciali şi au fost utilizate în politica comercială oficială. Curentul "descrierea statului" a atins apogeul în sec. XVII- XVII când, în Germania, s-a constituit o adevărată şcoală cunoscută sub denumirea de şcoala descriptivă germană. Descrierea statului a devenit disciplină de predare acadamică, încadrată într-un sistem construit după norme teoretice şi practice, care s-au elaborat şi dezvoltat în univerăităţile germane. Noua disciplină (Staatskunde), a primit numele de statistică (Statistik). Pe vremea constituirii statisticii ca disciplină descriptivă a statului, se năştea în Anglia, în afara universităţilor, o statistică cunoscută sub numele de aritmetica politică, a cărui scop era: analiza datelor de observaţie prin procedee matematice, desprinderea regularităţilor în fenomenul social şi chiar formularea de previziuni. Studiile demografice lăsau să se întrevadă că previziunea fenomenelor colective ar putea avea o însemnătate practică; dealtfel tabelele de mortalitate, întocmite în sec. XVIII au constituit punctul de plecare al înfloritoarei industrii de asigurări. Folosirea metodei statistice, recurgerea la instrumentul matematic şi căutarea legităţilor marcau un substanţial progres, prefigurînd statistica modernă. Este dificil să se dea o definiţie satisfăcătoare statisticii. În limbaj uzual termenul este folosit pentru a desemna o colecţie de numere referitoare la un anumit domeniu (demografie, precipitaţii, debite). În sens tehnic (mai precis matematic) statistica este un instrument al matematicii utilizat pentru prelucrarea şi interpretarea informaţiilor numerice.

Scopul statisticii
Statistica poate fi clasificată în două mari categorii: - statistica descriptivă - statistica analitică. Statistica descriptivă se ocupă de prezentarea, clasificarea şi sintetizarea datelor de observaţie. Aceasta concentrează informaţia existentă în datele respective cu ajutorul anumitor indicatori statistici care, în fond, sunt nişte numere ce exprimă caracteristici sau tendinţe ale fenomenului studiat. Statistica analitică foloseşte metode matematice (teoria probabilităţilor) pentru extragerea şi prelucrea informaţiei statistice; în multe cazuri aceste metode pun în evidenţă legităţi statistice. Depăşirea stadiului descriptiv, al simplei metode cantitative, a însemnat, istoric vorbind, deplasarea gândirii statistice spre interpretarea analitică a fenomenului şi obţinerea de concluzii inductive, pe baza observaţiilor empirice. Această schimbare de conţinut a făcut ca statistica să se întrepătrundă în mod constant cu matematica, în căutarea de metode corespunzătoare obiectivelor sale. Transpusă într-un limbaj matematic statistica s-a construit într-o teorie numită teoria corelaţiei statistice, ale cărei aplicaţii au permis identificarea unor noi legi de dependenţă, specific statistice şi adaptate la formele complexe şi variate pe care le oferă natura în diferitele sale manifestări.
1

valori medii. permite desprinderea de legităţi statistice. efectul fiind la rîndul lui cauză pentru un alt efect ş. Legile fizice permit cunoaşterea perfectă a desfăşurării viitoare a fenomenelor pe baza cunoaşterii la momentul iniţial a unor mărimi. legea dezintegrării radioactive. nu poate fi exhaustivă. gîndirea statistică tinde să se preocupe mai puţin de măsurarea incertitudinii şi mai mult de determinarea riscului de eroare şi a pierderilor implicate de orice decizie întemeiată pe o informaţie care. 2 . Deci legea este un element primordial în cunoaşterea fenomenelor deoarece exprimă raporturile esenţiale. prin natura sa. II. cel puţin până la noi observaţii mai riguroase. În mod corespunzător. ansamblurilor de obiecte (ex. Cu toate acestea. legea a II-a a lui Newton permite cunoaşterea perfectă a mişcării unui obiect atunci când se cunosc la momentul iniţial poziţia (trei coordonate) şi viteza sau impulsul (trei proiecţii) obiectului. care se aplică numai fenomenelor de masă. în mecanică.a. Fenomenele sunt în interconexiune unele cu altele. necesare.) şi . Unul din obiectivele esenţiale ale statisticii se consideră tocmai măsurarea incertitudinii concluziilor inductive. Cunoaşterea desfăşurării evenimentelor este asigurată de cunoaşterea legilor care guvernează fenomenul şi a ansamblului de condiţii în care se desfăşoară acesta. Nici un fenomen nu se abate de la acest principiu care poartă numele de principiul cauzalităţii.) şi care exprimă anumite caracteristici ale ansamblului considerat. consecinţele lor logic deduse se compară apoi cu datele disponibile şi dacă sunt în concordanţă. ca o necesitate care îşi croieşte drum printr-un număr foarte mare de contingenţe şi care se manifestă în aceste contingenţe ca media unui număr mare de abateri întîmplătoare. unde întregul este determinat de unitatea părţilor componente. De aici şi principiul verificat deseori în practică: legea statistică poate fi evidenţiată dacă şi numai dacă este considerat şi supus observării un număr mare sau suficient de mare de unităţi elementare ale ansamblului considerat. legea gazelor perfecte. legile I. Putem deosebi două mari categorii de legi: . III ale dinamicii etc. erori statistice etc. Desfăşurarea fenomenelor constă astfel într-un şir neîntrerupt de momente. oferite de observarea fenomenului. în sensul că se generează şi se influenţează reciproc. care se aplică fenomenelor şi proceselor individuale luate în parte (ex. generale. Acest fapt conduce la noţiunea de cauzalitate care exprimă interacţiunea dintre cauză şi efect astfel încât întotdeauna cauza să preceadă efectul.m.legi fizice. Legile statistice permit cunoaşterea desfăşurării viitoare a fenomenelor doar în termeni probabilistici (probabilităţi. legea statistică permite cunoaşterea desfăşurării viitoare a fenomenelor şi poate fi tot atât de deterministă ca şi cea dinamică. Astfel. Orice întrerupere a lanţului cauzal înseamnă de fapt existenţa unui efect care să nu aibă cauză. relativ stabile şi repetabile ale fenomenelor şi ale desfăşurării lor. legea atracţiei universale. Astfel se formează un lanţ cauzal.).legi statistice. o constituie exprimarea comportării ansamblului de unităţi omogene şi nu a fiecărei unităţi în parte.d. etc. Aplicarea calculelor statistice la datele empirice. legea statistică se realizează ca o tendinţă predominantă. De la un timp însă. într-o succesiune cauză-efect. Acest lucru indică de la început că informaţia pe care o dă o lege statistică este mai săracă decât cea dată de legea dinamică. ipotezele sunt justificate. Particularitatea esenţială a legilor statistice izvorâtă din faptul că ele acţionează în fenomenele de masă.În cercetările moderne se porneşte de la ipoteze statistice asupra fenomenului sau procesului observat.

3 . cu alte cuvinte diferenţa dintre continuu şi discret se confundă cu diferenţa dintre măsurătorile cu numere întregi şi cele fracţionare. de staţii hidrologice etc.). ci cu colectivităţi.077. în măsura în care elementele componente (indivizi) sunt de aceaşi natură. prin definiţie. 1. Un ansamblu de fenomene formează un fenomen de masă.Noţoiuni elementare Investigarea statistică presupune. Aşa cum rezultă din cele de mai sus. cu grupuri de elemente ce posedă o anumită trăsătură comună. sexul unei persoane etc. Indivizii unei populaţii statistice sunt cercetaţi pentru una sau mai multe caracteristici. nivelul unui râu etc. cum ar fi numărul membrilor unei familii.să includă doar elementele similare. Variabilele discrete sunt cele care pot lua un număr finit (sau cel mult numărabil) de valori distincte (întregi. grupe şi eşantioane. considerarea fenomenelor în multiplicitatea şi variabilitatea lor. Această trăsătură se numeşte caracteristică. Populaţia cu care lucrează statistica trebuie să fie global omogenă . 3 cm. caracteristicile cantitative pot fi discrete sau continue. Acest lucru nu se va întîmpla fie că precizia aparatelor cu care efectuăm măsurătorile este limitată. Aceasta este o variabilă discretă deoarece trecerea de la o valoare la alta se face fără vreo altă valoare intermediară. Aici trebuie să lămurim un lucru care dă deseori naştere la confuzii: mulţi sunt înclinaţi să creadă că variabilele discrete trebuie să ia numai valori întregi şi că numerele fracţionare sunt tipice pentru variabilele continue. 17 microni. Studiul asupra eşantionului va fi atribuit întregii populaţii. Aceste caracteristici se mai numesc atribute. Variabilele continue sunt cele care pot lua orice valoare dintr-un anumit interval (înălţimea unui individ. o însuşire specifică statisticii este aceea că statistica nu se ocupă cu un element (individ) luat ca atare. fie că o precizie exagerată nu este întotdeauna folositoare pentru ceea ce urmărim în investigaţie. ceea ce numim populaţie statistică. Dacă se convine să se reprezinte unele din ele prin numere ataşate la categoriile ce le determină. adică au toate o proprietate comună şi se deosebesc unele de altele în raport cu aspectele sau valorile caracteristice luate în studiu. Distincţia între caracterul cantitativ şi cel calitativ. Caracteristicile cantitative sunt cele care se măsoară numeric (înălţime. precum şi între variabilele discrete şi variabilele continue este fundamentală deoarece ele recurg la tehnici de analiză foarte diferite. 1. greutate. Denumirea de "populaţie" s-a păstrat din timpurile în care statistica se ocupa cu precădere de populaţii în sensul propriu al cuvîntului. Caracteristicile calitative nu se măsoară numeric (culoare. Un eşantion este un subansamblu de elemente ale unei populaţii ales întâmplare. nu este vorba decât de o "codificare" procedeul nejustificând operaţiile aritmetice. Un grup este un subansamblu de elemente ale unei populaţii care se distinge printr-o manieră de tratare comună. O clasă este un subansamblu de elemente ale unei populaţii care conţin o variabliă determinată de aceeaşi măsură. sau. lungimea unui râu etc. nr. Totuşi. Ele nu reprezintă o măsură a unei entităţi. fracţionare).). Astfel. aparţinînd de aceeaşi "categorie" şi intern structurată elementele ei să poată fi ordonate potrivit unui sistem de clasificare. măsurătorile sau datele de observaţie se grupează în cadrul unei anumite unităţi şi deci din punct de vedere practic se lucrează cu forma discretă chiar dacă variabilele sunt de tip continuu. Să luăm exemplul următor: o variabilă ia valorile: 1.) şi se mai numesc variabile statistice. în practică nu se întâlneşte o informaţie privind adâncimea unui râu de forma: 1m.065. Caracteristicile întâlnite se clasifică în caracteristici cantitative şi calitative. O populaţie poate fi împăţită în subpopulaţii sau populaţii parţiale.041. La rândul lor. Se apelează la acest gen de populaţie parţială atunci când populaţia în studiu este prea mare pentrua fi tratată în ansamblul ei. care sunt : clase.

Termenii ce aparţin aceleiaşi colectivităţi se supun aceloraşi legi care se manifestă sub formă de tendinţă. Independenţa termenilor unei serii provine din faptul că fiecare valoare individuală reprezintă un element distinct şi obiectiv al unei populaţii statistice. Repartiţii de frecvenţe Există diferenţe între analiza seriilor dinamice şi problemele legate de gruparea şi analizarea materialelor pentru care factorul timp nu are importanţă. aleşi aleator. Analiza seriilor statistice Evaluarea anumitor indicatori (parametri) statistici implică stabilirea caracteristicilor (proprietăţilor) principale ale seriilor statistice. de exemplu în cazul recensămintelor. independenţa şi concentrarea/împrăştierea (dispersia) către/faţa de un una sau mai multe valori ale seriei. Datele statistice în stare brută reprezintă o masă dezordonată de materiale. cu atât variabilitatea este mai mare şi gradul de omogenitate mai mic. fie către o valoare centrală. . el trebuie să capete o 4 . când sunt examinaţi numai anumiţi indivizi. în majoritatea cazurilor fiind şi singura posibilă. Cu cât acţiunea cauzelor întâmplătoare este mai mare. Concentrarea/împrăştierea (dispersia) către/faţă de un una sau mai multe valori ale seriei apare ca rezultat al intensităţii unui efect produs de cauze esenţiale şi întâmplătoare.parţială (selectivă). frecvenţele de apariţie se concentrează fie la un singur capăt al seriei. frecvenţele de apariţie sunt apropiate.exhaustivă (totală). Metodele de analiză folosite în aceste două cazuri se deosebesc sensibil. Dacă intensitatea factorilor este uniformă. să se poată înlesni comparaţia cu alte date de acelaşi gen şi să se poată obţine posibilitatea unei analize ulterioare. ci apare ca un rezultat al acţiunii combinate a mai multor cauze (permanente sau întâmplătoare). Variabilitatea termenilor unei serii statistice este determinată de faptul că fenomenul pe care îl reprezintă nu este univoc determinat. când fiecare individ este analizat. înseamnă că în acest caz colectivitatea este formată din mai multe tipuri calitative şi seria trebuie descompusă în subserii componente. Partea examinată din colectivitate se numeşte selecţie sau eşantion. Numărul indivizilor examinaţi se numeşte volumul selecţiei. Înainte ca materialul statistic să fie supus analizei ulterioare şi generalizărilor care vor permite să se facă anumite deducţii. La cercetarea seriilor dinamice problema de bază o reprezintă analiza variabilei timp. Omogenitatea presupune o variaţie minimă între termeni.Cercetarea statistică a unei colectivităţi poate fi: . Acest lucru determină fercvenţele diferite de apariţie a diferitelor valori din serie. Acestea sunt: variabilitatea. În cele ce urmează ne vom ocupa de problemele grupării şi analizei prealabile a datelor numerice pentru care ordinea de aşezare în timp nu contează. omogenitatea. Ea este cea mai frecvent folosită. Prima problemă este aceea de a face o asemenea grupare a datelor cu ajutorul căreia să se poată aprecia valoarea lor în legătură cu problema propusă. În caz contrar. Dacă în urma analizei se constată că o serie nu prezintă omogenitate.

. Se observă că f1 + f2 +…+ fm =1 întrucât n1 +n2 + ..n    1 2 m (2) Unde ni. aj+1]. Astfel.. v2 . vn . De aceea este nevoie de o grupare (centralizare) a datelor. +nm = n. x2. Astfel. În urma observării caracteristicii cantitative X în n probe se obţin următoarele date primare: x1. Este important ca prin gruparea datelor să nu se piardă caracterul global al repartiţiei (dacă m este prea mic se poate denatura repartiţia reală a variabilei X). stau la baza calculării densităţii de repartiţie a fercvenţelor şi a indicatorilor care exprimă gradul de concentrare.. dacă X este o variabilă discretă ce poate lua valorile distincte v1. Gruparea datelor se face în funcţie de tipul caracteristicii X. atunci în locul datelor iniţiale se va reţine repartiţia empirică:  v1. cu a1 = a şi am+1 = b.. Frecvenţele relative.. Cu alte cuvinte în cadrul analizei datelor statistice trebuie să se ia în considerare atât valorile individuale cât şi frecvenţele de apariţie ale acestora. Dacă X este o variabilă continuă care poate lua valori într-un interval [a. iar n reprezintă numărul valorilor din şirul iniţial (1) şi se numeşte frecvenţă absolută a valorii v.vm    n .n ... m) reprezintă frecvenţa apariţiei (numărul de apariţii) valorii vi. Însă numărul m al subintervalelor nu se alege la întîmplare. De asemenea permit compararea a două repartiţii construite pe aceeaşi variabilă. Valoare m reprezintă numărul de clase.v2 ..322logn] Mărimea intervalului va fi dată de formula: i= xmax − xmin m 5 . trebuie alese în conformitate cu formula lui Sturges : m=[1 + 3..anumită formă şi o structură clară. după unii autori numărul subintervalelor. Raportul fj =nj/n dintre frecvenţa absolută şi numărul total de probe se numeşte frecvenţă relativă.b] atunci acest interval este împărţit în m subintervale [aj. m . care diferă numai prin numărul unităţilor pe grupe.. (i=1. aj+1] se pot lua arbitrar. j=1. De cele mai multe ori extremităţile se iau echidistante. numite şi impropriu probabilităţi de apariţie.. În plus tabelele de date primare nu sugerează nimic referitor la referitor la repartiţia variabilei X.. Subintervalele [aj.. pentru fiecare din aceste subintervale se determină numărul n al valorilor din şirul (1) care se află în acest interval numit frecvenţă absolută a subintervalului. xn (1) În cazul în care volumul selecţiei este mic aceste date sunt uşor de manipulat şi nu este nevoie de o grupare a lor. m. deci subintervalele au lungimi egale. Dacă însă avem o selecţie de volum mare este greu de lucrat cu aceste date.

Înălţimea hj a dreptunghiului cu baza (aj. cj ] se numeşte graficul frecvenţelor cumulate. iar pe axa ordonatelor valorile hj definite în construirea histogramei. În fig 1 poligonul frecvenţelor este trasat printr-o linie punctată. Dintre acestea prezentăm histograma. înălţimea hj va fi proporţională cu frecvenţa relativă. Linia frântă obţinută prin unirea punctelor de coordonate (aj+1. Histograma este o figură într-un sistem de coordonate rectangualre care reprezintă distribuţia empirică prin dreptunghiuri. reprezintă subintervalele folosite în centralizarea datelor. deci hj =C*fj . Mărimile c1. În cazul când subintervalele grupării au lungimi egale. hj) se numeşte poligonul frecvenţelor. cm definite prin: c j = ∑ fi i =1 j se numesc frecvenţe cumulate. c2. poligonul frecvenţelor şi graficul frecvenţelor cumulate.. Linia frîntă care uneşte punctele de coordonate (vj. aj+1) este proporţională cu raportul dintre frecvenţa relativă a intervalului şi lungimea sa: hj = C fj a j +1 − a j constanta C fiind un factor de scară.N 11-30 31-100 101-500 501-3000 3001-∞ m 3-4 4-6 6-9 9-13 13-20 Tabelul 1. El se poate obţine din histogramă unind mijloacele laturilor superioare ale drptunghiurilor. Bazele acestor dreptunghiuri. aj+1) folosite în grupare. construite pe axa absciselor.. . 6 .. Reprezentarea grafică a repartiţiilor statistice Există mai multe tipuri de reprezentări grafice a datelor statistice. Poligonul frecvenţelor este o diagramă în care pe axa absciselor se iau mijloacele vj ale intervalelor (aj.

Scheme standard de clasificare Natural breaks (Jenks) Datele se clasificǎ pe baza grupǎrii naturale a valorilor.Modalitǎţi de clasificare a datelor Modul de stabilire a claselor – determinarea pragurilor minime şi maxime ale fiecǎrei clase determinǎ modul în care sunt atribuite valorile fiecǎrei clase şi deci felul în care va arǎta distribuţia. În general se urmăreşte ca valori similare să fie în aceeaşi clasă. În caz contrar se utilizează schemele clasice. Se identificǎ punctele de rupturǎ cǎutând acele modele de grupare implicite ale datelor. Valorile sunt împǎrţite în clase acolo unde graniţele sunt marcate prin salturi mari de la o valoare la alta. intervale egale şi deviaţia standard. Cele mai frecvente scheme de clasificare sunt: natural breaks. Prin schimbarea claselor se crează diagrame cu aspect diferit. 7 . Există doi factori cheie în clasificarea datelor : schema de clasificare utilizatǎ şi numǎrul de clase ce se doreşte a fi creat. quantile. Acestea sunt descrise în cele ce urmează. Dacǎ datele sunt bine cunoscute se poate predetermina manual numǎrul de clase.

diagrama rezultatǎ poate fi înşelǎtoare. Din cauzǎ cǎ datele sunt grupate dupǎ numǎr în fiecare clasǎ. fiecare clasǎ reprezintǎ un şir de 100 ( 1-100. 201-300). 101200. sau valori foarte diferite pot fi grupate împreunǎ. spre exemplu pentru arǎta cǎ un magazin este parte a unui lanţ de magazine care a realizat o treime din vânzǎri. Spre exemplu în cazul unui şir de valori de la 1 la 300 şi a trei clase. Intervale egale Aceastǎ schemǎ de clasificare divide şirul de valori atribut în subşiruri egale. Cel mai bine se utilizeazǎ pentru şiruri de date dintr-un anumit domeniu cum ar fi tempertura şi procentele.Quantile Fiecare clasǎ conţine un numǎr egal de valori. Datele similare pot fi plasate în clase diferite. Aceastǎ distorsiune poate fi evitatǎ mǎrind numǎrul de clase. Aceastǎ metodǎ accentueazǎ cantitatea de valori atribut relativ la celelalte valori. 8 . O astfel de clasificare este foarte potrivitǎ în cazul datelor liniare.

Standard deviation Aceastǎ schemǎ de clasificare arată cu cât variază o valoare de la medie. 9 . Se calculeazǎ media şi apoi se genereazǎ clasele adǎugând sau scǎzând din ea deviaţia standard.

că abaterile în ambele părţi faţă de punctul de concentrare maximă se echilibrează aproape complet şi că abaterile foarte mari sunt foarte rare.. La toate curbele însă trebuie să observăm variabilitatea mărimilor care se obţin ca rezultat al unor măsurători. de gradul de concentrare a datelor în jurul tendinţei centrale. x2. vom alege acea mărime care se întâlneşte cel mai des. Ea este cuprinsă între valoraea cea mai mare şi cea mai mică.Caracterizarea repartiţiilor de frecvenţă Datele (care se referă la diferite domenii ale cunoaşterii) odată aranjate într-o repartiţie de frecvenţe.. în felul acesta făcându-se o compensare a valorilor individuale. Numărul care arată de câte ori se repetă fiecare valoare (nj) este "ponderea" valorii respective. Deoarece frecvenţa variază. Observaţia 1. tinde să devină o valoare nereprezentativă. sau cu alte cuvinte. Media aritmetică este o valoare lipsită de conţinut dacă elementele sunt deosebite din punct de vedere calitativ. Acest lucru ne permite ca experienţa câştigată într-un anumit domeniu al cunoaşterii să poată fi extinsă şi în alt domeniu. Ea va fi măsura tendinţei centrale a repartiţiei. atunci media aritmetică este dată de formula: x= x1 + x2 + . Indicatorii tendinţei centrale Atenuarea datelor. caz în care este mai util să se facă medii parţiale pentru fiecare tip de colectivitate. scot în evidenţă trăsăturile commune ale tuturor curbelor de repartiţie şi care se supun unor legi generale. deoarece arată poziţia elementelor principale ale repartiţiei pe axa absciselor. iar dacă termenii sunt prea "împrăştiaţi".. Acest calcul ne arată o anumită tendinţă a fenomenului studiat. Media aritmetică are dezavantajul că este sensibilă la valori extreme. xn. ca şi altele asemănătoare se numesc indicatori (sau parametrii) de poziţie. + xn 1 n = ∑ xi n n i =1 În cazul datelor centralizate (în care avem repartiţia de frecvenţă (2)): x= n1v1 + n2 v2 + ... netipice. Cu toate că există variabilitate. Dacă se măsoară mărimea abaterii de la punctul de concentrare maximă a frecvenţelor. se observă o tendinţă a datelor de a se grupa în centrul curbei (tendinţa centrală). media statistică fiind o valoare ce sintetizează într-o singură expresie numerică toate valorile din seria măsurători sau observaţii. Definiţia 1. se constată că sunt mai frecvente abaterile mici decât cele mari. Această mărime. Dacă în urma unei selecţii apar valorile distincte x1. care accidental sunt prea mari sau prea mici dintr-o populaţie statistică se face prin calcularea unor medii.. Termenii seriei diferă de medie deoarece au fost influenţaţi de diferiţi factori. Media aritmetică Media aritmetică simplă exprimă un nivel mediu. 10 . anihilând abaterile individuale... + nn vn 1 n = ∑ ni vi n n i =1 care se mai numeşte medie aritmetică ponderată. Caracterul reprezentativ al oricărui indicator de poziţie depinde de cât de strîns i se alătură celelalte valori.

în valoare absolută. fiecare medie va fi ponderată în funcţie de importanţa categoriei sale. media geometrică se defineşte prin M g = n x1 x2 . Definiţia 3.. Media este sensibilă la valori extreme.termenii au variaţii mari. din care cauză este întotdeauna mai mare decât celelalte medii. termenii fiind legaţi între ei printr-o relaţie de produs.Observaţia 2. p = 1 n ∑ ni vi2 n i =1 11 . Are avantajul că se poate aplica şi în cazul valorilor nule sau negative (care prin ridicare la pătrat devin pozitive). Media geometrică se foloseşte atunci când prezintă importanţă variaţiile relative.. Se utilizează când valorile au o evoluţie (de creştere sau scădere) permanentă. Media pătratică este definită prin formula: x patr . . neîntreruptă.xn Calculul se face mai uşor cu ajutorul logaritmilor: lg M g = 1 n ∑ lg xi n i =1 Datorită faptului că se calculează mai uşor cu ajutorul logarimilor. Are dezavantajul că nu se poate întrebuinţa când avem valori nule sau negative. Se întrebuinzează când dăm importanţă valorilor mari. Ea se utilizează şi la calcularea ritmului (de creştere sau descreştere) numindu-se astfel şi "medie de ritm".. Dacă x1. Ea constituie modelul matematic pentru abaterea medie pătratică. Dacă avem mai multe medii.distribuţia are un caracter pronunţat de asimetrie.seria are o mare dinamicitate. Definiţia 2. deci se întrebuinţează când dorim să atenuăm divergenţele mari dintr-o serie de determinări cu frecvenţe egale. . Observaţia 3.. fiind după o expresie "cea mai exactă medie". sau când diferenţele între termeni sunt foarte mari. Media geometrică Media geometrică este mai puţin sensibilă la valorile extreme decât celelalte medii. x2.s = 1 n 2 ∑ xi n i =1 sau în cazul datelor centralizate (media ponerată): x patr . se întrebuinţează când: . xn sunt n valori. Media pătratica se întrebuinţează când valorile prezintă creşteri din ce în ce mai mari.. se mai numeşte "medie logaritmică".. De asemenea media geometrică poate fi folositoare pentru calculul unor rapoarte. În rezumat. De asemenea se mai întrebuinţează când vrem să dăm o importanţă mai mare termenilor mai mici. fiecare referindu-se la o anumită categorie. sau o raţie din ce în ce mai mare.

Se presupune că media glisantă corespunde mijlocului intervalului sintetic.Definiţia 4. considerată ca fiind valoarea cea mai reprezentativă pentru populaţia statistică. cu atât variaţia este mai mare şi utilizarea mărimilor medii devine insuficientă. INDICATORII VARIATIEI O medie este reprezentativă numai atunci când se calculează din valori omogene între ele. bruşte şi e greu de apreciat tendinţa (trendul). Mediana este elementul dintr-un şir de date statistice care ar împărţi intervalul în două grupe egale ca număr. se utilizează în cazul în care şirul valorilor prezintă fluctuaţii mari. respectiv 5 valori alăturate sunt date de formulele xglis . după ce acestea au fost ordonate după mărimea lor. Definiţia 5.verificarea gradului de omogenitate a seriei. Media glisantă pentru 3.5 = Definiţia 6.verificarea reprezentativităţii mediei ca valoare tipică a unei populaţii statisatice. atunci mediana este elementul n+1. Media glisantă numită şi "medie mobilă". . Calculul se face mediind 3 sau 5 valori alăturate.cunoasterea gradului de influenţă a factorilor după care s-a facut gruparea unităţilor observate. Pentru o repartiţie de frecvenţă. Dacă seria are 2n+1 elemente. Cu cât fenomenele sunt mai complexe (dependente de mai multi factori). Se utilizează cu predilecţie în economie. . . Comparaţia se face cu media seriei. Analiza statistică a unei repartiţii poate fi aprofundată prin calculul indicatorilor de variaţie.3 = xi −1 + xi + xi +1 3 xi − 2 + xi −1 + xi + xi +1 + xi + 2 5 xglis . Media armonică este valoarea inversă a mediei aritmetice ale valorilor inverse datelor de observaţie: Mh = n ∑x i =1 n 1 i Exprimă caracterul sintetic al unor valori ce se află în raport invers. Se utilizează când frecvenţele sunt egale. 12 . De aceea este important de cunoscut cât de ‘departe’ sunt valorile sumei statistice faţă de medie. Acesti indicatori trebuie să servească la : . iar dacă are 2n elemente mediana este media aritmetică a celor doi termini din mijloc. media armonică se foloseşte rar.caracterizarea statistică a formei şi gradului de variaţie a unui indicator.

.amplitudinea variaţiei (absolută şi relativă). . .. i = 1.coeficientul de variaţie. Indicatorii sintetici ai variaţiei. i = 1...abaterea medie patratică. sa fie usor de calculat. Din aceasta grupa fac parte : ... Se pot exprima atât în mărimi absolute cât şi în mărimi relative.x .abaterea medie liniară .Indicatorii simpli ai variaţiei. luate în valoare absolută : Pentru o serie simplă 13 .dispersia.. Indicatorii simpli ai variaţiei servesc la caracterizarea gradului de împraştiere a mărimilor seriei statistice. Indicatorii sintetici ai variaţiei sunt : . .n Abaterile individuale relative (dr) se calculează ca raportul dintre abaterile individuale absolute şi media aritmetică (se exprima în procente) : d dr = i ⋅ 100 . . uşor de înteles şi să fie cât mai puţin afectaţi de fluctuaţiile de selecţie. Amplitudinea absolută se calculeaza ca diferenţa dintre valoarea maximă şi valoarea minimă al caracteristicii : Aa = xmax – xmin Amplitudinea relativa se exprima de regulă în procente şi se calculează ca un raport între amplitudinea absolută şi media aritmetică : A Ar= a ⋅ 100 x Abaterile individuale absolute (di) se calculează ca diferenţa între fiecare valoare şi media aritmetică : di = xi . De aceea a fost necesară introducerea indicatorilor sintetici ai variaţiei. la fel ca şi indicatorii tendintei centrale trebuie să se bazeze pe toate observaţiile.n x Gradul de variaţie al unei caracteristici depinde de toate abaterile variantelor înregistrate şi de frecventa lor de apariţie şi prin urmare indicatorii simpli ai variaţiei nu pot exprima întreaga variaţie a unei populaţii statistice. Abaterea medie liniară se calculează ca o medie aritmetică simplă sau ponderată.. Indicatorii sintetici ai variaţiei.abaterile individuale (absolute şi relative).

iar media are un nivel de semnificaţie scăzut. Cu cât valoarea lui v este mai aproape de zero cu atât variaţia este mai slabă. abaterea medie pătratică se exprimă în unitatea de masură a variabilei a carei variaţie o caracterizează. Din aceste considerente se foloseşte ca principal indicator sintetic al variaţiei abaterea medie patratică. Prin urmare cei doi indicatori nu se pot folosi pentru compararea gradului de variaţie şi în aceasta situaţie se recurge la un alt indicator de variaţie : coeficientul de variaţie. media având un grad ridicat de reprezentativitate. Abaterea medie patratică sau abaterea standard (σ) se calculează ca o medie patratică din abaterile tuturor elementelor seriei de la media lor aritmetică: n Acest indicator este mai concludent decât abaterea medie liniară. care se foloseşte la analiza variaţiei. nu este indicat să se renunţe în mod arbitrar la semnul valorilor din care se calculează o valoare medie. coeficientul de variaţie nu are semnificaţie. acestea influenţând într-o măsura mai mare gradul de variatie al variabilelor analizate. colectivitatea este mai eterogenă.d = ∑| x − x | i =1 i n n Abaterea medie liniară prezintă dezavantajul că nu ţine seama de faptul că abaterile mai mari în valoare absolută influentează în mai mare masură gradul de variaţie a unei caracteristici. la estimarea erorilor de selecţie în calculul de corelaţie. pe grupe. Coeficientul de variatie (v) se calculeaza ca un raport între abaterea medie pătratică şi media aritmetică. În plus. Dacă media aritmetică este aproape de zero. Se apreciază că la un coeficient de peste 35-40%. în funcţie de variaţia unei alte caracteristici de grupare. La fel ca abaterea medie liniară. în comparaţie cu abaterile mici. De obicei se exprimă sub formă de procente : σ v = ⋅ 100 x Semnificaţie. Se poate afirma că acest indicator poate fi folosit ca un test în aplicarea metodei grupării. Abaterea medie pătratică este un indicator de bază. media nu mai este reprezentativă şi datele trebuie separate în serii de componente. Prin ridicarea la pătrat se dă o importanţă mai mare abaterilor mari în valoare absolută. Cu cât valoarea lui v este mai mare cu atât variaţia este mai intensă. În literatura de specialitate se apreciază ca pentru o serie de distribuţie normală abaterea medie liniară este egală cu 4/5 din valoarea abaterii medii pătratice. colectivitatea este mai omogenă. Dispersia ( σ 2 ) este media pătratelor abaterilor de la media aritmetică : σ= ∑(x i −x ) 2 14 .

După cum se observă. ele au aceleaşi grad de kurtosis.000 datorită Bucureştiului care are 2. Cele din stânga (a. în sensul că au un anumit grad de “ascuţire” sau kurtosis.c. şi f) sunt similare dintr-un singur punct de vedere. nu sunt întotdeauna utile atunci când se compară dispersiile a două sau mai multe serii. Măsurile dispersiei. O tehnică statistică foarte puternică este cunoscută sub numele de analiza de varianţă şi utilizează dispersia pentru a decide dacă un număr de eşantioane diferă semnificativ unul de altul. Cele din partea dreaptă (b. engl. iar pe verticală avem media aritmetică. “vârful” este plasat în stânga sau dreapta mediei. În unele lucrări această mărime se numeşte varianţă (din l. n ( ) Măsura dispersiei se referă la « împrăştierea » valorilor dintr-un set de date. volumul de valori din distribuţia concentrată de o parte şi de alta a mediei.000 locuitori) va da o valoare de peste 400. iar mediile pot fi aceleaşi sau au dimensiuni aproape egale. Skewness şi kurtosis Skewness Abaterea medie pătratică şi dispersia sunt indicatori care dau o măsură a împrăştierii valorilor într-o distribuţie de frecvenţă. Pe orizontală avem o unitate de măsură exprimată în abateri medii patratice (σ). Compararea dispersiilor a două sau mai multe serii dă rezultate în următoarele 2 situaţii: a) şirurile care se compară pot fi exprimate în aceleaşi unităţi. De aceea de multe ori se foloseşte abaterea medie pătratică în loc de dispersie. spunem că distribuţia este pozitiv distorsionată (b). anume ele sunt asimetrice.σ2 = 2 1 ∑ xi − x . exprimate sub forma unităţilor de măsură ale fenomenului cercetat. Spunem că avem o distribuţie distorsionată sau asimetrică (skewed). Distorsiunea măsoară. Aparent cele şase distribuţii de frecvenţă sunt foarte diferite. Cele din primul rând sunt foarte ascuţite. Aceasta însă nu oferă nici o informaţie privind caracteristicile formei distribuţiei de frecvenţă. Aceasta reprezintă un set de date care au acelaşi număr de valori. iar cele din al treilea rând sunt relative plate. Toate acestea sunt distribuite simetric. b) şirurile care se compară pot fi exprimate în aceleaşi unităţi. 15 .000. Varianţa este o măsură importantă în special când se studiază variaţia a două sau mai multe eşantioane. Cele din al doilea rând au “ascuţimea” mai moderată. Dacă seriile se exprimă în unităţi diferite. De exemplu dacă luăm valoarea medie a oraşelor mari (peste 200.e) au un grad mic de distorsiune (asimetrie). spunem că distribuţia este negativ distorsionată (d). Daca există mai multe valori mai mari decât media. Dacă acest volum de valori este mai mic decât media. În toate cazurile vârful este în apropierea mediei.d. Media nu are semnificaţie dacă se aplică pe un set de date foarte dispersate. dispersiile nu pot fi comparate direct. Figura de mai jos înfăţişează 6 distribuţii utilizând histograma. se poate face o comparaţie directă. variance). Într-un anume sens ele oferă o măsură a « lăţimii » distribuţiei. deci.000. Însă rezultatul nu are nici o semnificaţie (nici un oraş nu area această valoare). însă mediile diferă. Pe de altă parte cele două distribuţii de pe fiecare rând pot fi considerate similare.

Există mai multe metode de măsurare a distorsiunii. Cea mai uzitată este formula: (x − x) S=∑ nσ 3 3 unde la numărător avem deviaţia cubică a valorilor faţă de medie. -dacă S >0 avem distorsiune pozitivă.O distribuţie perfect simetrică nu are distorsiune (skewness=0). 16 . Cu alte cuvinte distribuţia de frecvenţă seamănă foarte mult cu cele înfăţişate în b. Skewness este un concept cu aplicaţii importante în geografie deoarece foarte multe variabile în geografie au o distribuţie accentuat distorsionată. iar σ este abaterea medie pătratică.d sau f. Avem următoarele situaţii: -dacă S <0 avem distorsiune negativă.

Din păcate acest indicator nu este folosit în studii geografice asa cum ar fi de dorit. Mai mult în aceste condiţii datele nu prezintă o distribuţie normală astfel că nu pot fi aplicate testele parametrice. iar pentru o distribuţie plată K<3. Trebuie remarcat faptul ca multe variabile statistice întâlnite în geografie au o distorsiune mare dar şi un K mare (>3). Dacă o clasă într-o distribuţie de frecvenţă conţine o foarte mare parte din valorile din distribuţie. Într-o distribuţie cu un grad mic de kurtosis (distribuţie plată) fiecare clasă conţine o proporţie similară din toate valorile. Când se aplică acestor variabile media aritmetica şi dispersia. pentru o distribuţie ascuţita K>3. iar forma este mai ascuţită. atunci distribuţia prezintă un mare grad de kurtosis.În al doilea rând alţi indicatori cum ar fi media sau dispersia pot conduce la interpretări greşite dacă se folosesc izolat. 17 . acestea pot conduce la informaţii eronate. Ca şi distorsiunea K oferă informaţii preţioase asupra distribuţiei unui set de date suplimentare celor date de medie şi dispersie. Kurtosis Kurtosis dă o măsura a extinderii înspre valorile care sunt concentrate într-o parte a distribuţiei de frecvenţă. Formula folosită pentru k este : (x − x) K=∑ nσ 4 4 Pentru distribuţia normală avem K=3.

Sign up to vote on this title
UsefulNot useful