You are on page 1of 11

Giovanni Fonseca

Materiale aggiuntivo 1:
Statistica descrittiva univariata

Diagramma a bastoncini
Un grafico utile a rappresentare la distribuzione di frequenze di un carattere quantitativo discreto `e il diagramma a bastoncini (o ad aste). Per ogni valore osservato del carattere sullasse delle ascisse, si traccia un
segmento, parallelo allasse delle ordinate, di lunghezza pari alla frequenza relativa (o assoluta) del valore.
Esempio.
Un sito di vendite on line decide di investigare i tempi di consegna dei loro prodotti ai clienti. I dati ottenuti
su un insieme di 60 ordini sono i seguenti (espressi in giorni trascorsi fra chiusura dellordine e consegna del
corriere):
16 16 15 12 18 13 22 8 21 17 14 10 13 18 17 17 11 17 15 17 22 10 10 27 13 20 17 14 16 15
18 9 15 12 17 13 17 16 12 18 14 16 19 25 15 17 22 15 18 17 12 18 13 19 11 15 16 17 18 16
La tabella delle frequenze assolute `e
xi 8
ni 1

9 10 11 12 13 14 15 16 17 18 19 20 21 22 25 27
1 3 2 4 5 3 7 7 11 7 2 1 1 3 1 1

e il diagramma a bastoncini relativo `e

6
4
2
0

freq. ass.

10

Tempi di consegna

10

12

14

16

18
giorni

20

22

25

27

Funzione di ripartizione empirica


La funzione di ripartizione empirica `e una funzione Fn : IR ! [0, 1] tale che
8 x 2 IR

Fn (x) =

con
1lA (x) =

n
X
i=1

1
0

1l(

1,x] (xi )

x2A
x2
/ A.

La sua rappresentazione grafica si basa sulle frequenze relative cumulate delle osservazioni. Ad ogni valore delle
osservazioni sullasse delle ascisse `e associato il corrispondente valore della frequenza relativa cumulata. Questi
punti sono poi uniti da una funzione a gradini.
In dettaglio, consideriamo linsieme ordinato dei diversi valori osservati x(1) , x(2) , . . . , x(K) e le corrispondenti
frequenze relative fj e relative cumulate Fj , con j = 1, 2, . . . , K. Se il carattere `e continuo e quindi non ci sono
valori ripetuti nelle osservazioni allora fj = n1 e Fj = nj , 8 j.
A questo punto si rappresentano i punti (x(j) , Fj ) e si disegna una funzione costante a tratti, con valore pari a
0 prima di x(1) , con valore costante pari a Fj nellintervallo [x(j) , x(j+1) ), j = 1, . . . , K 1 e valore 1 da x(j) in
poi. Si `e in questo modo tracciata una funzione a gradini monotona non decrescente a valori in [0, 1] con salti
pari alle frequenze relative fj .

Esempio.
Rappresentiamo la funzione di ripartizione empirica delle osservazioni sui tempi di consegna. La tabella delle
frequenze relative `e
xi
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
25
27

ni
1
1
3
2
4
5
3
7
7
11
7
2
1
1
3
1
1
60

fi
0.0167
0.0167
0.0500
0.0333
0.0667
0.0833
0.0500
0.1167
0.1167
0.1833
0.1167
0.0333
0.0167
0.0167
0.0500
0.0167
0.0167
1

Fi
0.0167
0.0333
0.0833
0.1167
0.1833
0.2667
0.3167
0.4333
0.5500
0.7333
0.8500
0.8833
0.9000
0.9167
0.9667
0.9833
1.0000

0.6
0.4
0.2
0.0

freq. cum.

0.8

1.0

Funzione di ripartizione empirica

10

15

20
giorni

25

30

Carattere quantitativo suddiviso in K classi.


In questo caso il grafico della funzione di ripartizione empirica non sar`a una funzione a gradini. Infatti, assumendo che le osservazioni si distribuiscano uniformemente allinterno di ogni classe, la funzione di ripartizione
viene approssimata attraverso un segmento di retta che unisce i punti (Sj , Fj ), j = 1, . . . , K dove Sj indica
lestremo superiore della classe j ima e Fj la frequenza relativa cumulata corrispondente. Il primo segmento
partir`
a dal punto (I1 , 0), dove I1 `e lestremo inferiore della prima classe. Si noti che le pendenze dei tratti di
retta corrispondono alle densit`
a di frequenza utilizzate per costruire listogramma delle osservazioni.
Esempio.
Le lunghezze di 100 foglie di platano (in mm.) sono riassunte nella seguente tabella di frequenze
classi
(120, 135]
(135, 145]
(145, 150]
(150, 160]

ni
10
20
60
10
100

fi
0.1
0.2
0.6
0.1
1

Fi
0.1
0.3
0.9
1

1.0

Funzione di ripartizione empirica

0.6
0.4
0.2

0.0

freq. cum.

0.8

110

120

130

140
lunghezza foglie

150

160

170

Propriet`
a della media aritmetica
n
P
Indichiamo con x
a = n1
xi la media aritmetica delle osservazioni.
i=1

1. La media aritmetica di osservazioni costanti pari a c `e la costante stessa.


n
P
1
c = n1 nc = c.
n
i=1

2. La media aritmetica `e compresa fra il minimo x(1) e il massimo x(n) delle osservazioni, x(1) x
a x(n) .
n
n
P
P
1
1
x
a = n
xi
x(1) = x(1)
n
1
n

x
a =

n
P

3.

i=1
n
P
i=1

xi

1
n

i=1
n
P
i=1

x(n) = x(n)

xi = n
xa

i=1

Questa propriet`
a `e una conseguenza diretta della definizione di media aritmetica.
4. La somma degli scarti fra le osservazioni e la loro media aritmetica `e 0.
n
n
n
n
n
n
P
P
P
P
P
P
(xi x
a ) = ( xi ) ( x
a ) = ( xi ) (n
xa ) =
xi
xi = 0
i=1

i=1

i=1

i=1

i=1

i=1

5. Consideriamo una trasformazione lineare delle osservazioni, yi = a + bxi , i = 1, . . . , n. Allora la media


aritmetica dei valori trasformati sar`
a
n
n
n
n
P
P
P
P
ya = n1
yi = n1
(a + bxi ) = n1
a + b n1
xi = a + b
xa
i=1

i=1

i=1

i=1

N.B. La media aritmetica di una trasformazione qualsiasi delle osservazioni NON `e la trasformazione della media
delle osservazioni.
!
n
n
1X
1X
f (xi ) 6= f
xi
n i=1
n i=1
6. La media aritmetica `e il valore che minimizza la somma degli scarti al quadrato fra le osservazioni e una
costante c.
n
n
n
n
n
P
P
P
P
P
f (c) =
(xi c)2 =
(xi x
a + x
a c)2 =
(xi x
a )2 +
(
xa c)2 + 2 (xi x
a )(
xa c) =
=
=

n
P

i=1
n
P

i=1

(xi

i=1

x
a ) + n(
xa

c) + 2(
xa

c)

n
P

i=1

(xi

x
a ) =

i=1

(xi

x
a )2 + n(
xa

c)2 .

n
P

i=1

(xi

i=1

x
a ) + n(
xa

c)2 + 2(
xa

i=1

c) 0 =

i=1

Quindi f (c) `e una somma di due addendi non negativi e il suo minimo si ottiene annullando il secondo addendo,
cio`e quando c = x
a .
7. Media aritmetica di una popolazione divisa in sottogruppi.
Consideriamo il caso in cui le n osservazioni provengano da G sottogruppi.
G
P
Ogni sottogruppo `e di numerosit`
a nj , j = . . . , G, per cui
nj = n.
j=1

Indichiamo con xji , i = 1, . . . , nj losservazione i ima del j imo gruppo e con x


j =

1
nj

nj
P

i=1

xji la media aritme-

tica del j imo gruppo, con j = 1, . . . , G.


Allora la media aritmetica delle n osservazioni `e la media ponderata delle medie dei gruppi con pesi pari alle
numerosit`
a dei gruppi.
!
nj
G
G
1X X j
1X
x
a =
xi =
nj x
j
n j=1 i=1
n j=1

Propriet`
a della varianza
n
P
Indichiamo con 2 = n1
(xi

x
a )2 la varianza delle osservazioni.

i=1

1. La varianza assume valori non negativi.


Infatti dalla definizione si vede che la varianza `e una somma di quadrati. Si annulla solo quando tutte le
osservazioni assumono lo stesso valore.
2. Consideriamo una trasformazione lineare delle osservazioni, yi = a + bxi , i = 1, . . . , n. Allora la varianza dei
valori trasformati `e
n
n
n
n
P
P
P
P
1
2
(yi ya )2 = n1
(a + bxi a b
xa )2 = n1
[b(xi x
a )]2 = b2 n1
(xi x
a ) 2 = b2 2 .
y = n
i=1

i=1

i=1

i=1

3. La varianza si pu`
o calcolare anche come la media dei quadrati delle osservazioni meno il quadrato della media
delle osservazioni.
n
n
n
n
n
n
P
P
P
P
P
P
1
(xi x
a )2 = n1
x2i + n1
x
2a 2
xa n1
xi = n1
x2i + x
2a 2
x2a = n1
x2i x
2a
n
i=1

i=1

i=1

i=1

i=1

i=1

4. La varianza `e un indice della distanza al quadrato media fra le osservazioni.


n P
n
n P
n
n P
n
P
P
P
1
(xi xj )2 = 2n1 2
(xi x
a + x
a xj )2 = 2n1 2
[(xi x
a ) (xj
2n2
=
=

i=1 j=1
n P
n
P
1
(xi
2
2n
i=1 j=1
n
P
2 2n1 2
n(xi
i=1

i=1 j=1
n P
n
P
x
a )2 + 2n1 2
(xj x
a )2
i=1 j=1
n
n
P
P
x
a )2 2 2n1 2
(xi x
a )
(xj
i=1
j=1

2 2n1 2

n P
n
P

x
a )]2 =

i=1 j=1

(xi

x
a )(xj

x
a ) =

i=1 j=1

x
a ) =

1
n

n
P

x
a )2

(xi

0=

i=1

5. Varianza di una popolazione divisa in sottogruppi.


Consideriamo il caso in cui le n osservazioni provengano da G sottogruppi.
G
P
Ogni sottogruppo `e di numerosit`
a nj , j = . . . , G, per cui
nj = n.
j=1

Indichiamo con
e con

2
j

1
nj

xji ,

nj
P

i=1

i = 1, . . . , nj losservazione i ima del j imo gruppo, con x


j =

(xji

1
nj

x
j ) la varianza del j imo gruppo, con j = 1, . . . , G.

nj
P

i=1

xji la media aritmetica

Allora la varianza delle n osservazioni `e


2

nj
G
1X X j
=
(x
n j=1 i=1 i

nj
G
1X X j
=
(x
n j=1 i=1 i

x
j )

x
a )

nj
G
1X X j
=
(x
n j=1 i=1 i

nj
G
1X X
+
(
xj
n j=1 i=1
G

=
Esempio: 3
A: nA = 5
B: nB = 6
C: nC = 9
x
a =
2

gruppi
x
A = 3
x
B = 4
x
C = 5

2
A
2
B
2
C

35+46+59
5+6+9

= 4.2

25+36+49
20

1X
nj
n j=1

x
a )

x
j + x
j
G

1X
+2
(
xj
n j=1

2
j

1X
nj (
xj
n j=1

x
a )2

=2
=3
=4

5(3 4.2)2 +6(4 4.2)2 +9(5 4.2)2


20

= 3.2 + 0.66 = 3.86

x
a )

x
a )

nj
X
i=1

(xji

x
j )

Mediana e quartili
Consideriamo le osservazioni di una carattere quantitativo (non suddiviso in classi) organizzate in una tabella
di frequenze.
Il valore della mediana si pu`
o determinare attraverso la seguente procedura:
1. se esiste un valore xj nella tabella di frequenze la cui frequenza relativa cumulata `e esattamente Fj = 0.5
allora la mediana `e
xj + xj+1
Me =
2
2. se invece non esiste un valore xj nella tabella di frequenze con frequenza relativa cumulata Fj = 0.5, allora
la mediana `e quel valore xj la cui frequenza relativa cumulata supera per prima il valore 0.5, cio`e
Me = inf{xi : Fi > 0.5}

I valori dei quartili si ottengono allo stesso modo considerando, al posto del valore 0.5, i valori 0.25 per determinare il primo quartile e 0.75 per determinare il terzo quartile.

Esercizio
Unazienda che produce e vende formaggio ha in Friuli 20 punti vendita. Il fatturato settimanale (in migliaia
di Euro) dei punti vendita `e
24.5
32.1

25.1
33.0

26.3
33.4

26.7
33.7

27.2
33.8

28.1
34.1

28.9
34.2

29.7
34.7

30.8
35.8

31.6
35.9

a) Si costruisca la tabella di frequenze con i dati raggruppati nelle seguenti 6 classi


(24, 26], (26, 28], (28, 30.5], (30.5, 33], (33, 34.5], (34.5, 36]
dove con (a, b] si intende lintervallo da a a b con a escluso e b incluso (a < x b).
b) Si costruisca listogramma della distribuzione dalla tabella del punto a).

Sia dai dati originali che dai dati raggruppati per classi come nel punto a) si calcolino:
c) Media aritmetica, mediana e moda
d) Varianza, scarto quadratico medio, coefficiente di variazione, dierenza interquartile e campo di variazione

Soluzioni
a)

classi
(24, 26]
(26, 28]
(28, 30.5]
(30.5, 33]
(33, 34.5]
(34.5, 36]
Totali

ni
2
3
3
4
5
3
20

Ni
2
5
8
12
17
20

fi
0.1
0.15
0.15
0.2
0.25
0.15
1

Fi
0.1
0.25
0.4
0.6
0.85
1

punto centrale (ci )


25
27
29.25
31.75
33.75
35.25

b)

classi
(24, 26]
(26, 28]
(28, 30.5]
(30.5, 33]
(33, 34.5]
(34.5, 36]
Totali

fi
0.1
0.15
0.15
0.2
0.25
0.15
1

ampiezza (di )
2
2
2.5
2.5
1.5
1.5
12

densita (hi )
0.05
0.075
0.06
0.08
0.166
0.1

0.00

0.05

densita'

0.10

0.15

Istogramma

24

26

28

30

32

34

36

Fatturati

c)
Dati originali
Media aritmetica:

20
X
i=1

Mediana:

xi = 619.6 ) Ma =

619.6
= 30.98
20

31.6 + 32.1
= 31.85
2
Moda: siccome non ci sono modalit`
a che si ripetono non esiste la moda.
n = 20,

x10 = 31.6,

x11 = 32.1

Me =

Dati raggruppati in classi


Media aritmetica:

6
X
i=1

Mediana:

F3 = 0.4,

ci ni = 620.25 ) Ma =
F4 = 0.6

620.25
= 31.0125
20

Me = 30.5 +

0.5 0.4
= 31.75
0.08

Questa equazione per calcolare la mediana deriva dalla proporzione


(Me

Im ) : (Sm

(Me

Im ) = (0.5

30.5) : (33

Fm

30.5) = (0.5

1)

: (Fm

0.4) : (0.6

Fm

1)

0.4)

con m tale che 0.5 < Fi 0.5, e (Im , Sm ] `e lintervallo in cui si trova la mediana.
Moda: la classe modale `e (33, 34.5].

d)
Dati originali
Varianza e scarto quadratico medio:
20
X
i=1

x2i = 19448.88 )

1
19448.88
20

30.982 = 12.6836

oppure, utilizzando la devianza,


20
X

(xi

i=1

30.98)2 = 253.672 )
p

=
Coefficiente di variazione:
CV =

253.672
= 12.6836
20

12.6836 = 3.561404

3.561404
= 0.1149582
30.98

Dierenza interquartile e campo di variazione:


siccome F5 = 0.25 e F15 = 0.75 allora
x5 = 27.2, x6 = 28.1, ) Q1 =

27.2 + 28.1
= 27.65
2

33.8 + 34.1
= 33.95
2
27.65 = 6.3

x15 = 33.8, x16 = 34.1, ) Q3 =


W = 33.95
R = 35.9

24.5 = 11.4

Dati raggruppati in classi


Varianza e scarto quadratico medio:
6
X
i=1

c2i ni = 19458.94 )

19458.94
20

31.01252 = 11.17172

oppure, utilizzando la devianza basata sulla media calcolata sui dati in classi,
6
X
i=1

(ci

31.0125)2 ni = 223.4344 )
=

223.4344
= 11.17172
20

11.17172 = 3.342412
10

Coefficiente di variazione:
CV =

3.342412
= 0.1077763
31.0125

Dierenza interquartile:
F1 = 0.1,
F4 = 0.6,

F2 = 0.25
F5 = 0.85

)
)

Q1 = 26 +
Q3 = 33 +

0.25 0.1
2 = 28
0.15

0.75 0.6
1.5 = 33.9
0.25

Questo modo per calcolare i quartili deriva dalle proporzioni


(Q1

Im ) : (Sm

(Q1
con m tale che Fm

Im ) : (Sm

(Q3
1

26) : (28

26) = (0.25

Fm

1)

: (Fm

Fm

0.1) : (0.25

0.1)

1)

< 0.25 Fm e
(Q3

con m tale che Fm

Im ) = (0.25

< 0.75 Fm .

Im ) = (0.75

33) : (34.5

33) = (0.75

W = 33.9

11

Fm

1)

: (Fm

0.6) : (0.85

28 = 5.9

Fm
0.6)

1)