You are on page 1of 5

Statistic˘ a descriptiv˘ a

Statistica descriptiv˘ a are rolul de a descrie tr˘ as˘ aturile principale ale unui e¸ santion provenit dintr-o populat ¸ie statistic˘ a¸ si const˘ aˆ ın determinarea unor m˘ asuri simple ¸ si analize grafice ale datelor din e¸ santion. Analiza univariat˘ a reprezint˘ a studiul unei singure tr˘ as˘ aturi (variabile) a e¸ santionului ¸ si const˘ a din: 1. Reprezentarea grafic˘ a distribut ¸iei datelor. ˆ In cazul ˆ ın care dimensiunea e¸ santionului este mare se recurge la distribut ¸ia frecvent ¸elor: datele sunt grupate ˆ ın categorii (de exemplu intervale de ˆ ın˘ alt ¸ime, vˆ arst˘ a, greutate etc) ¸ si fiec˘ arui interval i se asociaz˘ a num˘ arul de indivizi (din e¸ santion) a c˘ aror valoare cade ˆ ın intervalul respectiv. (Frecvent ¸ele se pot ˆ ınlocui cu procente). Reprezentarea grafic˘ a obt ¸inut˘ a se nume¸ ste histogram˘ a . (O metod˘ a rapid˘ a de reprezentare pentru valori ˆ ıntregi este stem-and-leaf plot). 2. Analiza tendint ¸ei centrale , care este o aproximare a ”centrului” distribut ¸iei e¸ santionului. ˆ (In cele ce urmeaz˘ a presupunem c˘ a datele din e¸ santion sunt ordonate x1 x2 . . . xn , de¸ si nu toate statisticile de mai jos necesit˘ a ordonarea lor). Cele mai importante m˘ asuri ale tendint ¸ei centrale sunt: - Media - uzual media aritmetic˘ a a datelor din e¸ santion; de exemplu pentru datele de mai jos 3, 6, 4, 3, 6, 7, 8, 5 media este M = 42 3+6+4+3+6+7+8+5 = = 5.25 8 8
n

xk M=
k =1

n

ˆ In MS Excel sau OO Spreadsheet media se calculeaz˘ a cu funct ¸ia: AVERAGE(e¸ santion) - Mediana : se ordoneaz˘ a cresc˘ ator datele din e¸ santion ¸ si, dac˘ a dimensiunea e¸ santionului este impar˘ a mediana este chiar valoarea din mijloc, iar dac˘ a dimensiunea este par˘ a, mediana este media celor dou˘ a valori din mijloc. Pentru e¸ santionul 3, 6, 4, 3, 6, 7, 8, 5 dup˘ a ordonare: 3, 3, 4, 5, 6, 6, 7, 8, g˘ asim c˘ a mediana este M e = Pentru e¸ santionul 3, 6, 4, 5, 2, 6, 9, 7, 8, 5, 4 dup˘ a ordonare: 2, 3, 4, 4, 5, 5, 6, 6, 7, 8, 9, mediana este M e = 5.    xk+1 , dac˘ a n = 2k + 1 11 5+6 = = 5.5. 2 2

Me =

ˆ In MS Excel sau OO Spreadsheet mediana se calculeaz˘ a cu funct ¸ia: MEDIAN(e¸ santion)

  xk + xk+1 , dac˘ a n = 2k 2

.distribut ¸ia este uni-modal˘ a. Pentru e¸ santionul 2. Pentru e¸ santionul 3. 5.avem o distribut ¸ie bi-modal˘ a. Range = max xk − min xk 1 k n 1 k n . . 4. 5. 5. 4. 3. distribut ¸ia se va numi multi-modal˘ a. ˆ In MS Excel sau OO Spreadsheet m` odul se calculeaz˘ a cu funct ¸ia: MODE(e¸ santion) 3. 6. 7. 8. 7. 3.domeniul datelor (range ) este diferent ¸a dintre valoarea maxim˘ a¸ si valoarea minim˘ a a datelor. 6 valorile 3 ¸ si 6 apar de cele mai multe ori . Pentru e¸ santionul 2. 6. 6. 3. 6. 8.deviat ¸ia standard a e¸ santionului (s ) ¸ si eroarea standard a mediei e¸ santionului (se ): n k =1 (xk − M )2 n−1 s= s se = √ n ˆ In MS Excel sau OO Spreadsheet deviat ¸ia standard se calculeaz˘ a cu funct ¸ia: STDEV(e¸ santion) . ˆ Impr˘ a¸ stierea (dispersia ) reune¸ ste un grup de valori care m˘ asoar˘ aˆ ımpr˘ a¸ stierea datelor ˆ ın jurul tendint ¸ei centrale. 4 lungimea intervalului este 8 − 2 = 6. ˆ In cazul ˆ ın care exist˘ a mai multe valori cu frecvent ¸˘ a maxim˘ a. 3. 6. 6. 8. 6.M` odul este valoarea care are cea mai mare frecvent ¸˘ aˆ ın e¸ santion.dispersia e¸ santionului (s2 ): n k =1 s2 = (xk − M )2 n−1 ˆ In MS Excel sau OO Spreadsheet dispersia se calculeaz˘ a cu funct ¸ia: VAR(e¸ santion) . 6. 7. 4 m` odul este 6 (care apare de un num˘ ar maxim de ori) . 4.

QUARTILE(e¸ santion. de calcul a medie ¸ si deviat ¸iei standard).5 110 frecvent ¸˘ a * centrul (fi · mi ) 942.5 92.5 62. QUARTILE(e¸ santion.100 100 .5 62.5 281 Deviat ¸ia standard: interval 25 .5 77.100 100 .5 7310 21777.40 40 .115 frecvent ¸a (fi ) 29 35 28 72 49 68 281 p centrul intervalului (mi ) 32.85 85 .55 55 -70 70 . Media: interval 25 . 3) = Q3 .5 1750 5580 4532. QUARTILE(e¸ santion.5 110 frecvent ¸a * abaterea p˘ atratic˘ a 2 fi ∗ (mi − M ) 58725 31500 6300 0 11025 61200 168750 .5 77.5 = 77. 2) = M e. 4) = max.5 M= i=1 f i · mi p = fi i=1 21777.115 frecvent ¸˘ a (fi ) 29 35 28 72 49 68 281 centrul intervalului (mi ) 32.5 92. IQR = Q3 − Q1 ˆ In MS Excel sau OO Spreadsheet cvartila Qi se calculeaz˘ a cu funct ¸ia: QUARTILE(e¸ santion.55 55 -70 70 .5 15662. 1) = Q1 .85 85 . QUARTILE(e¸ santion.40 40 . a treia quartila Q3 este mediana segmentului de e¸ santion cuprins ˆ ıntre median˘ a¸ si cea mai mare valoare din e¸ santion (xn ).5 47..quartilele ¸ si intervalul interquartilic (IQR): prima quartil˘ a Q1 este mediana segmentului de e¸ santion cuprins ˆ ıntre cea mai mic˘ a valoare din e¸ santion (x1 ) ¸ si median˘ a. 0) = min.5 47. *** Pentru date grupate media ¸ si deviat ¸ia standard se pot calcula ˆ ın mod diferit (dac˘ a dimensiunea e¸ santionului este foarte mare formulele de mai jos sunt mai facile decˆ at cele standard. i) Funct ¸ia aceasta poate calcula 5 valori: QUARTILE(e¸ santion.

50 281 Valorile aberante (outliers) sunt acele date dintr-un e¸ santion care au frecvent ¸˘ a redus˘ a¸ si sunt fie mult prea mici.Cu ajutorul deviat ¸iei standard a e¸ santionului: sunt considerate valori aberante acele valori 1 care sunt ˆ ın afara intervalului (M − 2s. . Valorile aberante se datoreaz˘ a fie unor gre¸ seli de m˘ asur˘ a. ˆ In MS Excel sau OO Spreadsheet asimetria se calculeaz˘ a cu funct ¸ia: SKEW(e¸ santion) ˆ In˘ alt ¸area/turtirea (kurtosis) distribut ¸iei e¸ santionului. M + k · s). atunci cˆ and distribut ¸ia este simetric˘ a (ar trebuie ca media sa coincid˘ a cu mediana). Q3 + 1. fie unor cauze naturale ¸ si pot afecta semnificativ valoarea mediei.distribut ¸ie leptokurtica (kurtosis pozitiv): distribut ¸ia are un maxim accentuat ˆ ın apropierea mediei. fie mult prea mari fat ¸˘ a de valoarea medie calculat˘ a.(Regula 1. . La acest nivel ˆ ındep˘ artarea lor se poate face prin dou˘ a metode: . 2 1ˆ . iar cele dou˘ a cozi au panta mic˘ a4 (sunt alungite).asimetrie pozitiv˘ a: distribut ¸ia are o coad˘ a mai lung˘ a la dreapta ¸ si masa distribut ¸iei se concentreaz˘ a la stˆ anga. Asimetria (skewness) distribut ¸iei e¸ santionului.53 ∼ = 25. iar cele dou˘ a cozi au pant˘ a pronunt ¸at˘ a3 (mare). 3 Fat tails.5 · IQR).5 · IQR. M + 2s). . .asimetrie este nul˘ a.distribut ¸ie platikurtica (kurtosis negativ): distribut ¸ia are un maxim a c˘ arui valoare este redus˘ a. . . .p s= i=1 fi ∗ (mi − M )2 p = fi i=1 168750 √ = 600. ˆ In MS Excel sau OO Spreadsheet ˆ ın˘ alt ¸area se calculeaz˘ a cu funct ¸ia: KURT(e¸ santion) In general intervalul este de forma (M − k · s. 4 Skinny tails.distribut ¸ie mezokurtica (kurtosis nul): distribut ¸ia are o turtire medie ¸ si urmeaza ˆ ındeaproape forma distribut ¸iei normale (Gauss).5 · IQR) Cu ajutorul quartilelor: sunt considerate aberante acele valori din e¸ santion care se g˘ asesc ˆ ın afara intervalului2 (Q1 − 1. iar masa distribut ¸iei se concentreaz˘ a c˘ atre dreapta. Q3 + k · IQR).asimetrie negativ˘ a: distribut ¸ia are o coad˘ a (tail) mai lung˘ a la stˆ anga. k ∈ R. Intervalul este ˆ ın general de forma (Q1 − k · IQR. k putˆ and fi chiar ¸ si mai mic decˆ at 2.

6 1. . Tipuri de reprezent˘ ari grafice: 1.4 0.ordinal (mai bun/la fel/mai r˘ au. ˆ ın˘ alt ¸ime. 2. dar f˘ ar˘ a distant ¸e ˆ ıntre coloane6 ).0 1.se determin˘ a num˘ arul de intervale ¸ si lungimea lor (ˆ ın cazul ˆ ın care lungimea lor ln n ).2 1. pro/neutru/contra. a) Atribut cantitativ care poate fi: . Bar chart (Pareto): pentru atribute discrete (calitative sau cantitative) . clasific˘ ari (asiatic/european/amerindian) etc. cifra de la stˆ anga punctului zecimal reprezint˘ a ”stem”-ul. 2.6 0. Pentru datele de mai jos care pot fi un atribut continuu sau discret (cantitativ oricum) 0. .5 1.1 1. se poate recurge la urm˘ atoarea formul˘ a: L = 1 + ln2 . 3 etc. a) Atribut discret: ˆ ıntr-un interval ˆ ın care pot fi observate m˘ asuratorile acestea pot lua ˆ ıntotdeauna un num˘ ar finit de valori (cunoscute). Acest atribut (care se presupune c˘ a este variabil) poate fi clasificat ˆ ın cel put ¸in dou˘ a moduri: 1. Exemplu. u¸ sor.5. Stem and leaf plot: pentru atribute cantitative (de obicei discrete) ˆ ın num˘ ar relativ mic (cel mult 30?). 3.3 3. Histograme: (ˆ ın general) pentru atribute continue . Exemplu: num˘ ar de accidente pe autostrad˘ a.1 0. obi¸ snuit.9 2.se traseaz˘ a histograma (Excel: Bar sau Column.nominal (angajat/¸ somer. comun˘ a nu este evident˘ a.9 0.discret (num˘ ar de erori. grade de dificultate).continuu (vitez˘ a. Exemplu: greutate.1 2. num˘ ar de copii pe familie etc).2 0.8 2. b) Atribut continuu: ˆ ın intervalul ˆ ın care pot fi observate m˘ asur˘ atorile acestea pot lua practic orice valoare real˘ a. c˘ as˘ atorit/nec˘ as˘ atorit). . dificil etc).se construie¸ ste o tabel˘ a a frecvent ¸elor num˘ arˆ and observat ¸iile care cad ˆ ın aceea¸ si categorie. iar cea de la dreapta punctului zecimal este frunza (”leaf”): 0 1 2 3 6 6 0 4 2 5 4 5 9 1 5 9 2 6 8 3 1 6 5 1 2.5 2.se traseaz˘ a un Bar Chart (Excel: Bar sau Column). greutate etc). volum.4 1.*** Atributul membrilor unui e¸ santion este o proprietate sau o cantitate m˘ asurat˘ a (observat˘ a). Aceasta sugereaz˘ a c˘ a datele sunt continue. b) Atribut calitativ (sau categoric)5 : . grade de dificultate (foarte u¸ sor.5 1. . european/neeuropean. 5 6 Atributele calitative sunt discrete deoarece categoriilor li se poate asocia o valoare numeric˘ a: 1.se determin˘ a tabela frecvent ¸elor (Excel: frequency()). . vitez˘ a etc.6 2.6 3.