You are on page 1of 14

Frequenza assoluta, relativa e percentuale

Per popolazione si intende linsieme degli elementi che sono oggetto di una indagine statistica, ovvero
linsieme delle unit, dette unit statistiche o individui di una popolazione, sulle quali viene effettuata la
rilevazione di una certa caratteristica. Esempi di indagine statistica sono: il censimento della popolazione
italiana, lo studio dei macchinari prodotti da unazienda per i controlli di qualit, le misurazioni di altezza e
peso in una popolazione di individui, etc.

Una propriet che si possa osservare o studiare in ogni individuo detta carattere o attributo oppure
variabile. Se i caratteri misurati si possono esprimere in termini numerici (come l'altezza e il peso), vengono
detti quantitativi, altrimenti qualitativi (come il colore degli occhi o dei capelli).

Definita una popolazione statistica, per campione di grandezza n si intende un insieme finito di individui
della popolazione. Affinch un campione possa ritenersi rappresentativo per l'intera popolazione,
necessario supporre che il campione sia casuale (o random), ossia che ogni individuo della popolazione
abbia la stessa probabilit di essere scelto per far parte del campione.

Una rilevazione si dice campionaria quando utile per desumere dal campione informazioni relative
all'intera popolazione. In generale quando si parla di grandezze in indagini statistiche si sottintende riferirsi
a grandezze campionarie. Per semplicit di esposizione alle volte si omette tale attributo.

I risultati di una ricerca sperimentale (o di una indagine statistica) devono essere presentati in maniera
chiara e concisa e in modo da dare rapidamente un'idea delle loro caratteristiche globali. In effetti, quando
si raccolgono dati su di una popolazione o su di un campione, i risultati ottenuti si presentano come un
insieme di dati grezzi, cio dati che non sono stati organizzati, sintetizzati o elaborati opportunamente. A
meno che il numero delle osservazioni non sia piccolo, improbabile che i dati grezzi forniscano qualche
informazione finch non siano stati elaborati in qualche modo.

Di seguito verranno descritte alcune tecniche per organizzare e sintetizzare i dati in modo da poter
evidenziare le loro caratteristiche principali e individuare le informazioni da essi forniti.

Partiamo da un esempio tramite il quale introdurremo una serie di strumenti teorici. Consideriamo i
risultati di unindagine a campione che registra il numero di figli di coppie che abitano un
quartiere di una citt. Tali risultati sono inizialmente riportati nella seguente tabella

(1)

Per analizzare i dati quantitativi cos raccolti necessario suddividerli in classi e determinare per ciascuno di
essa la frequenza assoluta, cio il numero di osservazioni appartenenti ad ogni classe.

facile osservare che le frequenze assolute sono numeri interi compresi tra zero e il numero totale di
individui della popolazione e che la somma delle frequenze assolute dei valori di uno stesso carattere
equivale al numero totale di individui del campione.
Definzione

Si definisce frequenza relativa il rapporto tra la frequenza assoluta e il numero totale delle osservazioni
effettuate

(1)

facile osservare che le frequenze relative sono sempre numeri compresi tra 0 e 1 e che la somma delle
frequenze relative uguale a 1.

Definzione
Si definisce frequenza percentuale la frequenza relativa moltiplicata per cento.

(2)

I dati in tabella 1 organizzati in classi possono essere posizionati in una tabella che evidenzi il valore delle
frequenze assolute, relative e percentuali: tabella di distribuzione delle frequenze.
Esempio 1
In una scuola vengono raccolti i dati qualitativi relativi al colore degli occhi di bambini.

I dati organizzati in classi possono essere organizzati nella seguente tabella di distribuzione delle frequenze.

Come ulteriore nota, osserviamo che i dati oggetto della prima indagine sono numerici, mentre quelli
dellEsempio 1 sono non numerici. In generale, le variabili che sono oggetto di rilevazioni statistiche si
classificano come nel seguente schema:
CLASSIFICAZIONE DEI CARATTERI
Come abbiamo visto, su ogni unit statistica si rilevano una o pi informazioni di interesse (caratteri).
Il modo in cui un carattere si manifesta in ununit statistica detto modalit. E importante che ad ogni
unit si possa associare una sola modalit; inoltre le modalit elencate devono rappresentare tutti i
possibili stati che il carattere assume nel collettivo statistico. Esistono varie tipologie di caratteri.
I due grandi raggruppamenti sono:
Caratteri qualitativi
Caratteri quantitativi

CARATTERI QUALITATIVI
CARATTERI QUALITATIVI NOMINALI: hanno per modalit denominazioni qualitative tra le quali non esiste
(e non possibile stabilire) un ordinamento (sesso, religione, regione di residenza, luogo di nascita, tipo di
fondo di investimento, tipo di utilizzo di un terreno). Ad es. non si pu dire che il sesso maschile ha una
precedenza su quello femminile. Unico confronto tra le modalit uguaglianza o diversit delle modalit. In
altri termini si dice che un carattere costituisce una scala nominale se per le sue modalit possibile
affermare solo se sono uguali o diverse (cio se qualitativo sconnesso).
CARATTERI QUALITATIVI ORDINATI: hanno per modalit denominazioni qualitative tra le quali esiste un
ordinamento naturale (titolo di studio, anno di iscrizione alluniversit, qualifica funzionale, ceto sociale,
grado di soddisfazione, livello di rischio associato ad un titolo azionario). Questo tipo di caratteri costituisce
una scala ordinale proprio perch possibile dare un ordine alle modalit in modo da affermare che una
modalit precede unaltra. Tra i caratteri qualitativi ordinati va individuato un sottogruppo di caratteri
(caratteri ordinati ciclici) per i quali una qualunque modalit potrebbe essere scelta come prima o come
ultima, per i quali cio la scelta della prima modalit frutto di una convenzione. Ad es. i giorni della
settimana, il mese di nascita.

CARATTERI QUANTITATIVI
Hanno per modalit dei numeri che esprimono una misura o una quantit. Quando si opera con caratteri
quantitativi, date due modalit possibile non solo dire quale delle due viene prima ma anche effettuare
una sottrazione o costruire un rapporto tra di esse al fine di confrontare le quantit. Quando possibile
calcolare solo la differenza si parla di scala a intervalli; quando possibile anche calcolare il rapporto tra
modalit si parla di scala di rapporti.
I caratteri quantitativi si distinguono in:
DISCRETI: le modalit sono i numeri interi 0, 1, 2, ... (numero di addetti di unazienda, numero di
componenti di una famiglia, numero di chiamate in arrivo ad un call center). In altre parole, le modalit dei
caratteri quantitativi discreti sono dei conteggi perch contano quanti dipendenti ha unazienda, quanti
componenti ha una famiglia, etc. ...
CONTINUI: le modalit sono (almeno in linea teorica) tutti i numeri reali compresi in un determinato
intervallo (altezza, peso, tempo di attesa, durata di una conversazione telefonica, reddito).
Definizione 1

Assegnata la serie di dati { }, di media campionaria , si definisce scarto quadratico medio


campionario (o deviazione standard campionaria) il numero non negativo

(1)

Il quadrato di tale numero detto varianza campionaria

(2)

Si osservi che in alcuni testi possibile trovare in luogo delle (1) e (2) le seguenti altre due formule che
definiscono la deviazione standard e la varianza campionaria
Esempio
Assegnati i dati {2,5,8,7,3}, calcolarne deviazione standard e varianza campionaria

Innanzitutto necessario calcolare la media campionaria della serie assegnata, utilizzando la formula data
dalla sua definizione:

Utilizzando la (1) possibile poi calcolare la deviazione standard campionaria

Utilizzando la (2), o semplicemente calcolando il quadrato della deviazione standard campionaria,


possibile calcolare la varianza campionaria

importante osservare che gli indici di dispersione considerati sono invarianti per traslazione.
In altre parole, gli indici di dispersione di qualsiasi nuova serie di dati ottenuta
da sommando (o sottraendo) a ciascun termine la costante , sono gli stessi della serie di
dati , ossia

,dove con il pedice si sono intesi gli indici relativi alla serie .
Statistiche bivariate e covarianza

Quando si osservano due caratteri diversi, e , riferiti ad una medesima popolazione, dei quali
conosciamo i valori numerici e , si pu fare riferimento ad indici statistici che
possono descrivere come i due insiemi di dati variano tra loro.

Uno tra questi la covarianza campionaria

(1)

dove e sono le medie campionarie delle due serie di dati.

Come per la deviazione standard e la varianza campionaria, in alcuni testi possibile trovare una
definizione differente di covarianza campionaria che in luogo della (1) utilizza la seguente altra formula

(2)

Una covarianza campionaria positiva indica che ragionevole attendersi un aumento della seconda
grandezza allaumentare della prima oppure una diminuzione della seconda al decrescere della prima. In
altri termini, una covarianza campionaria positiva indica che le due serie di dati hanno un comportamento
concorde. Viceversa, una covarianza campionaria negativa indica che i dati hanno comportamenti
mediamente discordi. Una covarianza campionaria pressoch uguale a zero indica che i dati non sono in
relazione diretta tra loro.
Esempio 1
Si sono studiati lo sviluppo del femore e dell'omero di un feto tramite immagini ecografiche. Sono stati
trascritti i dati relativi alla lunghezza delle due ossa, rilevati ogni quattro settimane, a partire dalla
dodicesima settimana di gestazione sino alla quarantesima. I dati sono riportati in tabella

Calcolare la covarianza campionaria dei due caratteri.


Si indichi con il carattere lunghezza dellomero e con il carattere lunghezza del femore.
Secondo la (1), per calcolare la covarianza campionaria, necessario determinare i valori della media
campionaria dei due caratteri. Per cui si ha:

Utilizzando la (1) possibile calcolare la covarianza campionaria di e

Poich risulta che la covarianza campionaria un numero positivo, si pu concludere che le due serie di
dati si comportano in modo concorde.

C' da tenere presente che la covarianza risente della scala di misura utilizzata: se infatti, nellesempio
precedente, al posto di misurare le ossa in millimetri si fosse utilizzato il decimetro, si sarebbe ottenuta una
covarianza campionaria piccolissima, prossima allo zero, e si sarebbe erroneamente potuto pensare che
non intercorre alcuna relazione nello sviluppo delle due ossa.

Per questo motivo conveniente considerare il coefficiente di correlazione campionaria, un indice statistico
che possiede il pregio di essere un numero puro, indipendente dalle unit di misura prescelte.
Scarto quadratico medio campionario (deviazione standard) e varianza campionaria

Gli indici di dispersione sono indicatori numerici per la misura della variabilit dei dati in una distribuzione
di frequenze.

Indici significativi di dispersione sono:

il range o campo di variazione campionario

lo scarto semplice medio campionario

lo scarto quadratico medio campionario (o deviazione standardcampionaria) e la varianza campionaria


lo scarto interquantile campionario

Definizione

Assegnata la serie di dati { }, di media campionaria , si definisce scarto quadratico medio


campionario (o deviazione standard campionaria) il numero non negativo

Il quadrato di tale numero detto varianza campionaria

Si osservi che in alcuni testi possibile trovare in luogo delle (1) e (2) le seguenti altre due formule che
definiscono la deviazione standard e la varianza campionaria

4
Esempio
Assegnati i dati {2,5,8,7,3}, calcolarne deviazione standard e varianza campionaria

Innanzitutto necessario calcolare la media campionaria della serie assegnata, utilizzando la formula data
dalla sua definizione:

Utilizzando la (1) possibile poi calcolare la deviazione standard campionaria

Utilizzando la (2), o semplicemente calcolando il quadrato della deviazione standard campionaria,


possibile calcolare la varianza campionaria

importante osservare che gli indici di dispersione considerati sono invarianti per traslazione. In altre
parole, gli indici di dispersione di qualsiasi nuova serie di dati ottenuta
da sommando (o sottraendo) a ciascun termine la costante , sono gli stessi della serie di
dati , ossia

dove con il pedice si sono intesi gli indici relativi alla serie .
Coefficiente (o indice) di correlazione

Introduciamo subito la definizione di coefficiente (o indice) di correlazione.

Definizione

Assegnate le serie di dati e , si definisce coefficiente di


correlazione campionario, o indice di correlazione di Pearson, il seguente valore numerico

dove indica la covarianza di e e e indicano, rispettivamente, la deviazione


standard campionaria di e .

Il coefficiente di correlazione un indice sempre compreso tra -1 ed 1 ed in particolare:

se , le serie di dati e si dicono direttamente correlate, oppure

correlate positivamente e quanto pi il valore si avvicina ad 1 tanto pi forte la


correlazione positiva;

se , le serie di dati e si dicono non correlate;

se , le serie di dati e si dicono inversamente correlate, oppure

correlate negativamente e quanto pi il valore si avvicina ad -1 tanto pi forte la


correlazione negativa.

Si pu dimostrare che il coefficiente di correlazione uguale a 1 o a -1 se e solo se i punti sono tutti


perfettamente allineati sulla stessa retta.

Il coefficiente di correlazione campionario un indice statistico adimensionale, pertanto da privilegiarsi


rispetto alla covarianza campionaria quando si vuole capire se esiste un legame lineare tra due serie di dati,
indipenedentemente dalle unit di misura scelte.

Esempio
Si sono studiati lo sviluppo del femore e dellomero di un feto tramite immagini ecografiche. Sono stati
trascritti i dati relativi alla lunghezza delle due ossa, rilevati ogni quattro settimane, a partire dalla
dodicesima settimana di gestazione sino alla quarantesima. I dati sono riportati in tabella
Calcolare lindice di correlazione campionaria del carattere , lunghezza dell'omero, e ,
lunghezza del femore, di un feto.

Per calolare il coefficientre di correlazione tra e necessario calcolare la covarianza

di e e le deviazioni standard e .
La covarianza risulta essere:

mentre le medie sono

per cui utilizzando la definizione di scarto quadratico medio

e facendo i semplici calcoli si ottiene

2
3

Pertanto, utilizzando la (1), possibile calcolare il coefficiente di correlazione campionario tra

Il valore determinato evidenzia immediatamente che le grandezze, come cera da aspettarsi, sono
fortemente correlate tra loro in senso positivo.

You might also like