You are on page 1of 13

Statistică şi Prelucrarea Datelor Laborator 1

Statistică descriptivă
Statistica descriptivă este ramura statisticii care se ocupă cu prezentarea, organizarea şi inter-
pretarea unor colecţii de date. Descrierea acestor informaţii se poate face grafic (prin liste,
grafice liniare, de distribuţie, etc.), sau prin indicatori statistici (medie, mediană, abatere, etc.)
Analiza statistică a unui fenomen începe cu statistica formală (culegerea datelor despre
fenomenul respectiv şi înregistrarea datelor). Datele sunt apoi analizate şi intepretate cu ajutorul
statisticii matematice.
Definiţia 1. Prin populaţie statistică se înţelege orice mulţime care formează obiectul unei
analize statistice. Elementele unei populaţii statistice se numesc unităţi statistice sau indivizi.
Prin caracteristică a unei populaţii statistice înţelegem o trăsătură comună unităţilor
acelei populaţii. Caracteristicile pot fi calitative sau cantitative. Caracteristicile cantitative pot
fi măsurate folosind numere reale.
Reprezentările grafice se realizează pentru studierea schimbărilor sau pentru compararea
variabilelor statistice şi au avantajul de a furniza informaţii vizuale mai uşor de analizat şi
interpretat decât datele brute.

Exemple:
Repartit, ia indivizilor dintr-un cartier al Sibiului, după nat, ionalitate:

Naţionalitate română germană maghiară rromă


Număr 700 50 100 150

clear;
nr=[700,50,100,150];
nat={'romana','germana','maghiara','rroma'};
bar(nr);
set(gca, 'XTick', 1:4, 'XTickLabel', nat);

700

600

500

400

300

200

100

0
romana germana maghiara rroma

1
Statistică şi Prelucrarea Datelor Laborator 1

Diagrama circulară arată descompunerea unui întreg în părţile sale componente. Ele se
exprimă ca procente din total şi sunt reprezentate prin segmente de cerc, unghiurile la centru
având măsuri egale cu procentul corespunzător din 3600 .

pie(nr);legend(nat);

15% romana
germana
maghiara
rroma

10%

5%

70%

Reprezentarea cu batoane foloseşte batoane orizontale sau verticale, ale căror lungimi sunt chiar
valorile variabilei statistice. Batoanele verticale se folosesc de obicei pentru caracteristici care
variază în timp.
Durata medie a viet, ii în Romania în perioada 2000-2012:

Anul Durata
2000 70.53
2001 71.19
2002 71.18
2003 71.01
2004 71.32
2005 71.76
2006 72.22
2007 72.61
2008 73.03
2009 73.33
2010 73.47
2011 73.77
2012 74.26

2
Statistică şi Prelucrarea Datelor Laborator 1

durata=[70.53,71.19,71.18,71.01,71.32,71.76,72.22,72.61,73.03,73.33,73.47,...
73.77,74.26];
an=2000:2012;
bar(an,durata);
set(gca,'YLim',[68 75]);

75

74

73

72

71

70

69

68
00

01

02

03

04

05

06

07

08

09

10

11

12
20

20

20

20

20

20

20

20

20

20

20

20

20

Reprezentarea cu batoane orizontale prezintă variante adaptate, de exemplu reprezentarea pe


componente, fără realizarea unei comparat, ii cu întregul.

Anul U rban Rural


1960 32.1% 67.9%
1970 36.9% 63.1%
1980 45.8% 54.2%
1990 54.3% 45.7%
2000 54.6% 45.4%
2010 53.9% 46.1%

an=1960:10:2010;
urb=[32.1;36.9;45.8;54.3;54.6;53.9];
rur=100-urb;
barh(an,[urb,rur]);
legend('urban','rural');
title('Structura Populatiei');

3
Statistică şi Prelucrarea Datelor Laborator 1

Structura Populatiei

urban
2010
rural

2000

1990

1980

1970

1960

0 10 20 30 40 50 60 70

Graficul liniar pe port, iuni este format din segmente de dreaptă ce se obt, in prin unirea
perechilor de valori corespunzătoare ale unei perechi de variabile diferite.

Anul T otal
imigrant, i
2003 3267
2004 2987
2005 3704
2006 7714
2007 9575
2008 10030

an=2003:2008;
imig=[3267,2987,3704,7714,9575,10030];
plot(an,imig,'o-');grid
set(gca,'Xtick',an);
title('Total imigranti');

4
Statistică şi Prelucrarea Datelor Laborator 1

Total imigranti
11000

10000

9000

8000

7000

6000

5000

4000

3000

2000
2003 2004 2005 2006 2007 2008

Exemplu. Considerăm un număr de 40 de angajaţi al căror salariu exprimat în mii de lei este
dat în tabelul următor:
0.831 0.904 0.896 0.961 0.981
0.956 1.705 1.591 1.156 1.221
1.587 0.991 1.981 1.459 1.861
0.82 1.141 1.452 1.344 1.42
1.805 1.052 1.731 1.75 0.976
1.091 1.201 1.895 0.972 1.071
1.605 0.989 1.858 1.081 1.492
1.594 1.354 1.946 1.671 1.057

O descriere a seriei statistice obţinute se realizează prin construirea unui tabel al frecvenţelor,
în care observaţiile sunt clasificate în funcţie de numărul unităţilor statistice care se află între
anumite limite.

5
Statistică şi Prelucrarea Datelor Laborator 1

Limitele Mijlocul Frecvenţa Frecvenţa Frecvenţa Frecvenţa


clasei clasei absolută relativă(%) cumulată cumulată
absolută relativă(%)
[0.8,0.95) 0.875 4 10 4 10
[0.95,1.1) 1.025 12 30 16 40
[1.1,1.25) 1.175 5 12.5 21 52.5
[1.25,1.4) 1.325 2 5 23 57.5
[1.4,1.55) 1.475 5 12.5 28 70
[1.55,1.7) 1.625 5 12.5 33 82.5
[1.7,1.85) 1.775 4 10 37 92.5
[1.85,2) 1.925 3 7.5 40 100
Media aritmetică a limitelor unei clase se numeşte mijlocul sau valoarea centrală a clasei.
Diferenţa dintre cea mai mare şi cea mai mică margine se numeşte domeniu sau amplitudine.
Frecvenţa absolută este dată de numărul unităţilor statistice aflate între limitele unei clase.
Frecvenţa relativă este raportul dintre frecvenţa absolută şi numărul total al unităţilor statis-
tice.
Frecvenţa cumulată absolută a unei clase este suma frecvenţelor până la clasa respectivă.
Frecvenţa cumulată relativă este raportul dintre frecvenţa cumulată absolută şi numărul
total al unităţilor statistice.
Histograma este o reprezentare cu batoane fără spaţiu între acestea, având pe axa orizontală
marginile claselor şi frecvenţele pe cea verticală.
clear;load sal.mat
sal=reshape(sal,[40,1]);\%sort(sal)

Histograma

h=histogram(sal,8)

6
Statistică şi Prelucrarea Datelor Laborator 1

h =
Histogram with properties:

Data: [40x1 double]


Values: [4 12 5 2 5 5 4 3]
NumBins: 8
BinEdges: [0.8000 0.9500 1.1000 1.2500 1.4000 1.5500 1.7000 1.8500 2]
BinWidth: 0.1500
BinLimits: [0.8000 2]
Normalization: 'count'
FaceColor: 'auto'
EdgeColor: [0 0 0]

Frecvent, e absolute

fa=h.Values

fa = 1x8
4 12 5 2 5 5 4 3

Frecvent, e relative

fr=fa*100/40

fr = 1x8
10.0000 30.0000 12.5000 5.0000 12.5000 12.5000 10.0000 7.5000

Frecvent, e cumulate absolute

fca=cumsum(fa)

fca = 1x8
4 16 21 23 28 33 37 40

Frecvent, e cumulate relative

7
Statistică şi Prelucrarea Datelor Laborator 1

fcr=cumsum(fr)

fcr = 1x8
10.0000 40.0000 52.5000 57.5000 70.0000 82.5000 92.5000 100.0000

Poligonul frecvent, elor

e=h.BinEdges;n=h.NumBins;m=(e(1:n)+e(2:n+1))/2

m = 1x8
0.8750 1.0250 1.1750 1.3250 1.4750 1.6250 1.7750 1.9250

plot(m,fr,'d-')
xlim([0.8,2]);ylim([0,40]);%axis square;
xticks(m);yticks(5:5:35);grid on

35

30

25

20

15

10

0.875 1.025 1.175 1.325 1.475 1.625 1.775 1.925

8
Statistică şi Prelucrarea Datelor Laborator 1

Datele statistice pot fi descrise şi cu ajutorul unor caracteristici numerice. În acest sens,
există două mari categorii:
• măsuri ale tendinţei centrale: media, mediana, moda, etc.
• măsuri ale variaţiei sau împrăştierii: amplitudinea, abaterea, etc.
Pentru o variabilă discretă, moda este valoarea cu frecvenţa maximă.
Pentru o variabilă continuă, clasa cu frecvenţa maximă se numeşte clasa modală, iar
mijlocul acesteia este moda variabilei.
Definiţia 2. Pentru cazul discret, mediana unei mulţimi de date ordonate crescător x1 ≤ x2 ≤
· · · ≤ xm este valoarea de mijloc x m+1 dacă m este impar, sau media celor două valori de mijloc
2
1 
x 2 + x 2 +1 dacă m este par.
m m
2
Exemple:
• mediana mulţimii {5, 6, 8, 9, 12} este 8
• mediana mulţimii {15, 18, 20, 24, 28, 30} este 20+24
2 = 22.
Definiţia 3. Pentru o variabilă continuă, prima clasă a cărei frecvenţă cumulată asociată este
mai mare decât 21 se numeşte clasa medianei
Pentru clasa [xi−1 , xi ], notăm cu fi frecvenţa clasei, Fi frecvenţa cumulată şi hi = xi − xi−1
lungimea clasei. Efectuând o interpolare în clasa medianei [xk−1 , xk ) obţinem valoarea medianei
0.5 − Fk−1
md = xk−1 + hk
fk
Definiţia 4. Media (de selecţie) a unei mulţimi x1 , x2 , . . . , xm se defineşte prin
m
1 X
x̄ = xi .
m i=1

Exemplu: Considerăm următoarea listă de preţuri (în lei) pentru centrale termice: 9900,
10300, 11200, 12500, 7600, 17500. Costul mediu al unei centrale este
1
x̄ = (9900 + 10300 + 11200 + 12500 + 7600 + 17500) = 11500
6
Dacă x1 , x2 , . . . , xk sunt valorile distincte din selecţie şi notăm cu ni frecvenţa lui xi pentru
i = 1, 2, . . . , k, atunci media de selecţie se rescrie
Pk
ni xi
x̄ = Pi=1
k
,
i=1 ni

şi notând cu fi = ni
m, i = 1, . . . , k rezultă
k
x̄ =
X
fi xi .
i=1

9
Statistică şi Prelucrarea Datelor Laborator 1

Definiţia 5. Considerăm un tabel al frecvenţelor cu k clase. Dacă x∗1 , x∗2 , . . . , x∗k sunt mijloacele
claselor, n1 , n2 , . . . , nk frecvenţele lor absolute şi f1 , f2 , . . . , fk frecvenţele relative, atunci media
distribuţiei este
Pk ∗ k
i=1 ni xi
x̄ = P = fi x∗i .
X
k
n
i=1 i i=1
Pentru datele din tabelul cu salarii anterior media este
4 · 0.875 + 12 · 1.025 + 5 · 1.175 + 2 · 1.375 + 5 · 1.475 + 5 · 1.625 + 4 · 1.775 + 3 · 1.925
x̄ = = 1.3175
4 + 12 + 5 + 2 + 5 + 5 + 4 + 3
Se observă că media nu dă o imagine completă a datelor de selecţie sau a distribuţiei. De
exemplu, mulţimile {2, 2, 2, 5, 8, 8, 8}, {3, 3, 5, 5, 5, 7, 7}, {4, 4, 4, 5, 6, 6, 6} au aceeaşi medie, dar
au structuri diferite. Acesta este motivul pentru care sunt introduse măsuri ale variaţiei, care
indică gradul de împrăştiere a datelor în jurul mediei.
Definiţia 6. Pentru o variabilă discretă, diferenţa dintre cea mai mare şi cea mai mică valoare
a selecţiei se numeşte amplitudine.
Pentru o variabilă continuă, amplitudinea este diferenţa dintre limita superioară a clasei
cu cele mai mari margini şi limita inferioară a clasei cu cele mai mici margini.
Definiţia 7. Fie datele de selecţie x1 , x2 , . . . , xm având media x̄. Abaterea medie se defineşte
prin relaţia
m
1 X
a.m. = |xi − x̄| .
m i=1
Exemplu: Considerăm datele de selecţie {12, 15, 13, 20, 13}. Media lor este x̄ = 15 (12 + 15 +
13 + 20 + 13) = 14.6, iar abaterea medie este
1
a.m. = (|12 − 14.6| + |15 − 14.6| + |13 − 14.6| + |20 − 14.6| + |13 − 14.6|) = 2.32
5
aşadar valorile de selecţie diferă în medie cu 2.32 faţă de media 14.6.
Fie x1 , x2 , . . . , xk valorile distincte ale unei selecţii X având media x̄, iar ni frecvenţa lui xi
pentru i = 1, . . . , k. Atunci
k
X
ni |xi − x̄|
i=1
a.m. = k
X
ni
i=1
Notând cu fi = ni
m, i = 1, . . . , n frecvenţele relative, obţinem
k
a.m. =
X
fi |xi − x̄| .
i=1
Definiţia 8. Fie o variabilă continuă cu un tabel al frecvenţelor cu k clase. Dacă x∗1 , x∗2 , . . . , x∗k
sunt mijloacele claselor, n1 , n2 , . . . , nk frecvenţele lor absolute şi f1 , f2 , . . . , fk frecvenţele relative,
atunci abaterea medie este
Pk ∗ k
i=1 ni |xi − x̄|
a.m. = = fi |x∗i − x̄| .
X
Pk
i=1 ni i=1

10
Statistică şi Prelucrarea Datelor Laborator 1

Pentru datele din tabelul cu salarii anterior abaterea medie este 119.85
40 = 2.9962.

Definiţia 9. Fie datele de selecţie x1 , x2 , . . . , xm având media x̄. Dispersia se defineşte ca


fiind
m
1 X
σ2 = (xi − x̄)2 .
m i=1
v
m
u1 X
u
Valoarea σ = t (xi − x̄)2 se numeşte abaterea standard de selecţie (empirică).
m i=1

Fie x1 , x2 , . . . , xk valorile distincte ale unei selecţii X având media x̄, iar ni frecvenţa lui xi
pentru i = 1, . . . , k. Atunci dispersia este
k
ni (xi − x̄)2
X

i=1
σ2 = k
X
ni
i=1

Notând cu fi = ni
m, i = 1, . . . , n frecvenţele relative, obţinem

k
σ2 = fi (xi − x̄)2 .
X

i=1

Definiţia 10. Fie o variabilă continuă cu un tabel al frecvenţelor cu k clase. Dacă x∗1 , x∗2 , . . . , x∗k
sunt mijloacele claselor, n1 , n2 , . . . , nk frecvenţele lor absolute şi f1 , f2 , . . . , fk frecvenţele relative,
atunci dispersia distribuţiei este
k
ni (x∗i − x̄)2
X
k
i=1
σ2 = = fi (x∗i − x̄)2 .
X
k
X i=1
ni
i=1

Pentru datele din tabelul cu salarii anteriore avem:

• Mediana:

median(sal)

ans = 1.2110

• Media:

11
Statistică şi Prelucrarea Datelor Laborator 1

mean(sal)

ans = 1.3087

• Amplitudinea:

range(sal)

ans = 1.1610

• Abaterea medie:
mad(sal)

ans = 0.2970

• Dispersia:

var(sal)

ans = 0.1144

• Abaterea standard:
std(sal)

ans = 0.3382

Exerciţii
1. Grupaţi şirul de date de mai jos în 6 clase de lungimi egale. Reprezentaţi datele printr-o
histogramă.
11.2 10.9 9.3 10.7 14.9 11.5 11.9 10.2 4.7 9.7 10.7 12.6 10.4
11.1 12.4 14.6 12.3 8.9 13.1 6.7 12.7 14.3 10.8 11.2 10.9 12.6
11.7 12.1 15.2 7.9 4.6 5.5

2. S-au înregistrat timpii de aşteptare a 120 de persoane într-o anumită staţie de tramvai
obţinându-se:

timp(minute) < 1 1 − 5 5 − 10 10 − 15 15 − 20 20 − 25 25 − 30 > 30


f recvenţa 2 8 13 19 38 23 11 6

Reprezentaţi datele din tabel printr-o histogramă.

12
Statistică şi Prelucrarea Datelor Laborator 1

3. Dintr-o selecţie aleatoare de 115 votanţi pentru alegerile prezidenţiale, 45 au declarat că vor
vota cu candidatul A, 39 au declarat că vor vota cu candidatul B, iar restul cu candidatul
C.

(a) Construiţi tabelul de frecvenţe;


(b) Reprezentaţi prin bare (orizontale sau verticale) distribuţia de frecvenţe;
(c) Realizaţi o diagramă circulară a frecvenţelor.

4. Următorul set de date reprezintă preţurile (în mii de euro) a 20 de case vândute într-o
anumită regiune a unui oraş:

113 60.5 340.5 130 79 475.5 90 100 175.5 100


111.5 525 50 122.5 125.5 75 150 89 100 70

Determinaţi amplitudinea, media, mediana, modul, abaterea medie, dispersia şi abaterea


standard pentru aceste date.

13

You might also like