You are on page 1of 241

al Suono

Altri libri della collana:


M. Malcangi - Elaborazione Numerica del segnale - Digital Signal Processing:
teoria e pratica

Informatica Applicata al Suono


Indice

.
2.
3.

4.
5.
6.
7.
8.
9.

10.
11.
12.

.............................................................. 5
Fondamenti di acustica...........................
7
Fondamenti di psicoacustica...................
25
Digitalizzazione del suono.......................
47
Analisi del suono.......................................
65
Modifica del suono................
99
Sintesi del suono........................................
137
Analisi e sintesi della voce............ ..........
161
Compressione del suono.........................
175
Spazializzazione del suono......................
195
Architetture DSP per laudio..................

205

Bibliografia ................................................

241

Prof. Mario Malcangi


malcangi@dico. unimi. it

Prefazione
Il contenuto di questo corso il risultato della sintesi di numerose argomentazioni,
distribuite su altrettanto numerose pubblicazioni, relative alle molteplici discipline che
concorrono alla
della problematica dellelaborazione dellinformazione del
segnale audio (suono): matematica, teoria dei segnali, acustica e psicoacustica, teoria dei
sistemi, elaborazione numerica dei segnali, architetture speciali di elaborazione del
segnale numerico, ecc. Rimando quindi ai riferimenti in bibliografia per un
approfondimento relativo ai fondamenti delle suddette tematiche di base.
Lobiettivo del corso di offrire allo studente le conoscenze necessarie e sufficienti per
affrontare la progettazione di applicazioni audio digitali (incluse le applicazioni vocali)
con un approccio di natura sistemistica, avvalendosi delle conoscenze informatiche,
nonch delle necessarie conoscenze matematiche e fisiche di base.
Algoritmi e modelli di elaborazione del segnale sono una importante componente di
conoscenza di base per chi deve affrontare lo studio dellaudio digitale. Queste
conoscenze devono essere completate sia dal punto di vista della specificit della natura
dellaudio digitale, sia esplorando le problematiche implementative.
Lo studio delle architetture di calcolo orientate aHelaborazione numerica del segnale
(DSP) unaltra importante componente di conoscenza di questo corso. Laudio digitale
implica unattivit di elaborazione numerica del segnale molto intensiva e
conseguentemente, la scelta della giusta architettura di calcolo numerico per realizzare
una specifica applicazione una conoscenza che lo studente deve avere per essere
preparato a soddisfare le richieste applicative dellindustria dellaudio digitale.

\
i

'

Introduzione

00101001010001
00101001001010
00101000100101
01010001011101
10010100010010

Prof. Mario Malcangi


malcangi@flico. unimUt
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Introduzione
La tecnologia audio originariamente di natura analogica, in quanto analogica la natura
del suono e dei suoi meccanismi naturali di produzione. La variazione di tensione
elettrica che viene prodotta in uscita da un microfono non altro che unanalogia
elettronica della variazione di pressione delParia che caratterizza il suono che raggiunge
il microfono medesimo.
La tecnologia audio analogica, pur avendo raggiunto livelli di qualit sufficienti a
soddisfare le esigenze applicative professionali e di consumo, ha evidenziato notevoli
limiti applicativi, soprattutto nellintegrazione con altre tecnologie come la
comunicazione o lautomazione. La degradazione del segnale audio, ad esempio, non pu
_ess.ere_adeguatamente controllata ne! dominio analogico,, quindi la comunicazione
dellinformazione audio diventa problematica con le grandi distanze.
La tecnologia audio digitale, grazie allapplicazione delle metodologie di elaborazione
numerica dellinformazione, ha consentito di superare queste limitazioni intrinseche
dellelaborazione analogica del segnale audio, aprendo un ventaglio di applicazioni
virtualmente illimitato.
Le applicazioni della tecnologia audio digitale sono numerose e sempre pi diffuse in un
cotesto ove la tecnologia dellinformazione mette a disposizione piattaforme di
computing sempre pi potenti e adatte a soddisfare esigenze applicative emergenti come
laudio su Internet, le interfaccie uomo-macchina avanzate, i sistemi multimedia, i
dispositivi di comunicazione portatili, ecc.

Per approfondimenti: [Watkinson 01].

;r,i

-N. ^
V,

M * Ju w p W - Jp * * p W1 *1' a ia * 1" ' IV

'

Fondamenti di acustica

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

I suoni si manifestarla sotto forma di fenomeno acustico (meccanico). Tale


fenomeno determinato dalla vibrazione ^ corpi nell*aria.
II suono il risultato della modifica dello stato di equilibrio dello stato gassoso
(aria) che caratterizza un ambiente (aperto o chiuso).
I principi di acustica descrivono la natura e le caratteristiche del suono
relativamente alle generazione e alla propagazione nello spazio.
La conoscenza di tali principi consente di modellizzare sistemi di produzione
sintetica del suono intesa a simulare la generazione di suoni naturali (per esempio
un sistema di sintesi vocale) oppure di progettare strumenti per la produzione di
suoni non naturali (per esempio un pianoforte).
Sempre grazie alla conoscenza dei principi di acustica,
leffetto di propagazione del suono nello spa
naturali (ad esempi lleco) in ambienti ove il fenomeno non pu manifestarsi
neturalmente, oppure progettare sistemi che consentono di produrre effetti di
spazializzazione non ottenibili in natura.
Per approfondimenti: [Olson 67]

Fondamenti di acustica
Natura del suono

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Il suono il fenomeno di compressione e rarefazione che determina unazione


co (ad esempio laria). Il suono anche la
dalla percezione del fenomeno di compressione e
rarefazione dellaria in prossimit dellorgano uditivo.
Il suono viene prodotto quando un oggetto meccanico si mette in movimento
determinando una modifica dello stato di quiete degli ambienti gassosi, fluidi o
liquidi in cui immerso. In natura i suoni vengono prodotti da fenomeni tipici
dellambiente (ad esempio le foglie che messe in movimento dal vento urtano tra
loro e strisciano sul terreno).
I suoni possono essere anche prodotti da sistemi artificiali creati dallunomo (ad
esempio il suono prodotto da un motore di automobile). Gli strumenti
sono ip i importanti sistemi di produzione di suoni artificiali in quanto consentono di controllare in maniera quasi completa tutti i parametri acustici.

rn i

minin mi mi

mi

, ,, ,i m*M**niit1fr'r

l'Il H' ni

m
ijn iiifHi i i t ninM
ni r i

fl

'''

I suoni sono parte integrante dellambiente entro cui viviamo, in parte graditi
(voce, m usica,...), in parte utili (campanello, sirena, ecc.), in parte sgraditi
(rumori).
Laspetto pi importante del suono la sua natura di segnale, cio di
informazione acustica. Linformazione che caratterizza il suono codificata
nella cosiddetta onda sonora.
Londa sonora il mezzo di trasporto dellinformazione acustica e consiste di
di compressione e di rarefazione del mezzo trasmissivo in cui si propaga. Le
infinite modalit di conformazione dellonda sonora consentono le altrettanto
infinite possibilit di produzione dei suoni.

Fondamenti di acustica
Parametri fisici del suono

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Velocit di propagazione del suono

Il suono si propaga in un gas (ad esempio nellaria) a una definita velocit.


Lunghezza d onda e velocit di propagazione

La velocit di propagazione di unonda sonora pu essere derivata dalla


lunghezza donda e dalla frequenza. La lunghezza donda di un suono la
distanza che il suono percorre per completare un ciclo completo di compressione
e rarefazione. La frequenza il numero di cicli al secondo che si osservano in un
punto determinato dello spazio (ad esempio il punto di ascolto).
I suoni si propagano a velocit differenti se caratterizzati da frequenze differenti.
Intensit sonora

Londa sonora trasporta energia. Tale energia viene chiamata intensit sonora.
Lintensit di un campo sonoro lenergia trasmessa per unit di tempo in una
specifica direzione attraverso unarea unitaria normale a questa direzione.
DeciBel

Il suono ha una gamma di potenza o di intensit cosi ampia che risulta


conveniente utilizzare una scala di misura condensata.
Il Bel lunit base di suddivisione di una scala logaritmica che rappresenta il
rapporto tra due differenti misure. Il deciBel (dB) un decimo di Bel.

Fondamenti di acustica
Effetti della propagazione del suono

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

10

La velocit del suono nellaria dipende fondamentalmente dalla pressione, dalla


temperatura e dalla densit del gas entro cui si propaga. Data la natura fisica complessa
dei gas e dei solidi, il suono soggetto a pi o meno rilevanti effetti di distorsione
dellinformazione originaria che trasporta, tanto che al punto di ascolto pu essere
percepita una informazione anche molto differente da quella originata alla sorgente.
Il suono un processo di compressione e rarefazione del gas in cui si propaga (che da ora
in poi per semplicit chiamiamo aria). La compressione delfaria porta al suo
riscaldamento, mentre la rarefazione delfaria porta al suo raffreddamento. Dato che la
velocit di propagazione del suono nellaria dipende dalla temperatura dellaria stessa, ne
deriva un effetto di autodistorsione dal suono provocato dalla fase di compressione che
porta ad un aumento di velocit e alla fase di rarefazione che porta ad una diminuzione
della velocit. Ne consegue una distorsione della forma donda del suono, tanto maggiore
quanto maggiore la sua intensit.
Questo fenomeno di distorsione si complica ulteriormente in rapporto alla complessit
del suono. Le alte frequenze hanno una velocit leggermente superiore a quella delle
basse frequenze, quindi a lunga distanza si manifesta un fenomeno di distorsione del
rapporto di fase tra le componenti frequenziali, che porta conseguentemente ad una
distorsione della forma donda.
I fenomeni di distorsione dellinformazione audio dovute alla propagazione del suono
nellaria, dal punto di vista strettamente della catena audio sono rigorosamente da evitare.
Dal punto di vista della percezione uditiva sono invece una importante componente
informativa che consente alla persona di dedurre informazioni di natura spaziale. Ad
esempio, il fatto che un applauso in una sala da concerto venga percepito come un
crepitio, dovuto alla distorsione della forma donda del suono determinata dal rapporto
velocit/intesit. Un altro effetto quello della percezione della distanza della sorgente
fornita proprio dalla distorsione di fase.

Fondamenti di acustica
Potenza e Intensit in dB

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

11

Potenza e intensit sonora sono parametri con una gamma di variabilit

estremamente ampia (approssimativamente 1:1.000.000 relativamente alla


percezione uditiva).
La rappresentazione in dB consente di comprimere la dinamica numerica della
misura in maniera tale da rendere pi semplice la realizzazione della
strumentazione di misura e della rappresentazione grafica del suono (VU-meters,
equalizzatori grafici, ecc.).
La percezione uditiva del suono di natura logaritmica, relativamente al livello
di pressione sonora (SPL). Allo scopo di mettere in relazione la percezione
uditiva con le misure audio del livello del segnale audio misurato dalle
apparecchiature, stata adottata per una misura logaritmica chiamata deciBel
(dB).

La misura dellintensit pu essere rappresentata in modalit relativa,


adimensionale e non lineare.

Ladimensionalit si ottiene mettendo in rapporto due misure omogenee tra loro


(cio misurate con la stessa unit di misura).
La relativit si ottiene rapportando una misura generica ad una misura di
riferimento (ad esempio la massimma o la minima intensit udibile).
La non linearit si ottiene applicando una trasformazione non lineare (non
proporzionale) alla misura. Nel caso della misura in dB si utilizza la
trasformazione logaritmica in quanto di natura logaritmica la percezione
dellintensit.

Fondamenti di acustica
DeciBel

Attenuazione

Amplificazione

EquaLfzzazione

0dB

+12

-6

+30

+6

-6dB = x 0.5

+24

0dB

+18

-6

+12

-24

-12

+6

-30

-18

0dB

-12

+ 6dB = x 2

-18

27/01/2004

12

Copyright 2002-2003
Prof. Mario Malcangi

La misura in deciBel (dB) la pi importante tra le misure audio non lineari,


relative e adimensionali. La trasformazione non lineare si ottiene tramite
applicazione della funzione logaritmo base 10.
La misura in dB pu essere facilmente ricondotta alla misura lineare
considerando che il raddoppio di una misura pari a +3 dB se questa riguarda la
potenza (P) oppure pari a + 6 dB se questa riguarda lintensit (V). Viceversa, il
dimezzamento di una misura pari a -3 dB se questa riguarda la potenza, oppure
pari a -6 dB se questa riguarda lintensit.
Nella strumentazione elettronica che tratta segnali (amplificatori, registratori,
filtri, ecc.), la misura dellintensit del segnale viene rappresentata in dB. E
importante osservare che 0 dB non significa intensit nulla, ma intensit pari al
riferimento.
La misura in dB relativa al riferimento e conseguentemente si caratterizzano le
differenti scale di misura dellintensit (o della potenza):
-v -

M[|

99

9_

Amplificazione: una scala di ampiezza in dB prevalentemente positiva; 0 dB

ha il significato di nessuna amplificazione;


Attenuazione: una scala di ampiezza in dB prevalentemente negativa; 0 dB ha

il significato di nessuna attenuazione;


Equalizzazione: una scala di ampiezza in dB sia positiva che negativa; 0 db ha

il significato di segnale non equalizzato;

Fondamenti di acustica
Decibel (cont.)
Sistema con
perdita

Sistema con
guadagno

+6 dB

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

13

Il riferimento nella misura in dB implicito ma non omissibile, cio deve essere


comunque noto a chi utilizza tale misura. In alcuni casi in cui il riferimento
standard, questo viene evidenziato in modo che sia noto comunque.
Riferimento pari a 1 milliWatt su 600 Ohm: dB(m)
Riferimento pari a 1 Watt: dB(W)
Nelle misure audio, a differenza di quelle telecom (nel cui ambito stata definita
la misura in dB), non vi unimpedenza di riferimento non esist, quindi la misura
della potnza non ha senso. Conseguentemente i segnali audio vengono misurati in
tensione (Volts), utilizzando come riferimento 0,775 Volts, quindi le misure
vengono espresse in dB(u).
I sistemi audio possono operare sul segnale audio in ingresso in maniera neutra
(senza perdita, cio senza attenuazione), oppure con perdita o guadagno.
segnale audio in uscita cumula tutti questi effetti in forma
Quando il segnale audio misurato in dB, allora le perdite o i guadagni sul
segnale di ingresso vengono calcolati in termini additivi (in conseguenza della
proprit dei logaritmi: log (AxB) 0 log(A)+log(B)).

Fondamenti di acustica
Misure acustiche

Prof. Mario Malcangi

Le misure acustiche sono intese alla valutazione quantitativa del livello di pressione
sonora (SPL). La misura viene eseguita in dB utilizzando come riferimento la pressione
0,00002 Pascals rms. In questo caso la misura in dB viene identificata come dB(SPL).
Quando le misure acustiche riguardano limpressione soggettiva della percezione
dellintensit sonora (per esempio nelle misure di qualificazione dei livelli di
inquinamento acustico), allora si utilizza un filtro di ponderazione prima di eseguire le
misure. Il filtro di ponderazione riproduce la risposta in frequenza dellorecchio umano
(tipicamente pi sensibile alle frequenze medie). Il filtraggio di ponderazione pi comune
quello cosiddetto a pesatura A (A-weighting), da cui deriva il termine dB(A).
Quando per le misure si utilizzano apparecchiature che possono evidenziare perdita di
intensit per inserzione (insertion loss), allora necessario eseguire la calibrazione
della catena di misura eseguendo il cosiddetto audio level metering. Laggiustamento
della catena di misura viene eseguito in modo che il segnale audio non subisca n perdita,
ne guadagno nellattraversamento. Dato che difficile che un sistema si comporti
uniformemente a tutte le frequenze, viene eseguita la calibrazione della catena di misura
in modo tale che applicato in ingresso un tono puro a 1000 Hz con intensit pari a 0
dB(u), questo risulti in uscita sempre a 0 dB(u), cio senza perdita.
IVU (Volume Unit) meters sono gli strumenti di misura pi comuni presenti sulle
apparecchiature audio (ad esempio i registratori a nastro magnetico) che consentono di
valutare visivamente se il segnale di ingresso arriva allapparecchiatura senza perdita (o
guadagno). Questi non sono altro che voltmetri per corrente alternata (AC) con risposta
logaritmica. La risposta logaritmica comporta che la deflessione dellindicatore (ago,
barra, ecc.) sia proporzionale al volume percepito. La posizione 0 dB di un VU meter
indica la condizione di assenza di perdita per inserzione, quindi la condizione ottimale di
misura.

Fondamenti di acustica
Tono puro

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

15

Il suono pi semplice il cosiddetto tono puro. Questo un suono caratterizzato


da ununica frequenza, quella determinata dalla durata di una completa
oscillazione (periodo).
Il tono puro non esiste come tale in natura. C un solo strumento, il diapason,
capace di produrre un tono quasi puro.
La forma donda del tono puro coincide con la funzione trigonometrica Asen(a),
cio, la forma donda che si otterrebbe riportando su un piano cartesiano la
proiezione di un punto che mota a velocit costante su una circonferenza di
raggio A. La velocit di rotazione co=a/t determina la frequenza di ripetizione del
ciclo oscillatorio (numero di periodi al secondo), considerando che co=2rtf.
Il tono puro pu essere prodotto artificialmente da qualsiasi strumento capace di
generare una funzione sinusoidale. Il pi comune degli strumenti loscillatore
sinusoidale elettronico.
Il tono puro o sinusoidale ha unimportanza fondamentale nello studio
dellacustica in quanto contiene in se stesso uninformazione frequenziale unica.
Per esempio, il tono puro a 1000 Hz di una specifica intensit (0 dB(u)) viene
utilizzato per calibrare la catena di registrazione o di misura fonica,

I segnali audio trasportano informazioni che possono essere visualizzate in forma diretta o
indiretta nel tempo o in alternativa nel dominio della frequenza.
Sia nel dominio temporale, sia nel dominio frequenziale, le informazioni del segnale
audio sono le stesse, cambia solo la forma di rappresentazione.
Si definisce forma donda la variazione di ampiezza nel tempo caratteristica del
fenomeno acustico. Quella sinusoidale ad esempio la forma donda caratteristica del
tono puro.
Loscillogramma la rappresentazione grafica della forma donda nel dominio del
tempo.
Lo spettrogramma la rappresentazione grafica della forma donda nel dominio delle
frequenze.
<i
*

I segnali audio si suddividono in periodici e aperiodici, in rapporto alla natura della


forma donda. Quando la forma donda ripetitiva nel tempo, allora il segnale audio di
natura periodica, altrimenti di natura aperiodica. Il tono puro un esempio di segnale
audio periodico.
Per i segnali periodici si definisce periodo (T) il tempo di ripetizione della forma donda.
II periodo direttamente misurabile nel dominio del tempo. Il numero di periodi al
secondo (CPS) la misura della velocit di ripetizione del segnale audio, cio la sua
frequenza. La frequenza non direttamente misurabile nel dominio del tempo, ma
indirettamente tramite la relazione F=l/T. La frequenza invece direttamente misurabile
nel dominio delle frequenze.

Fondamenti di acustica
Suoni complessi

I suoni reali hanno forma donda variamente modulata in ampiezza. Qualsiasi forma
donda, in accordo con la teoria dellanalisi armonica di Fourier, una composizione
lineare di toni puri di varia ampiezza, frequenza e fase.
I suoni complessi si suddividono in due categorie fondamentali:
Suoni periodici
Suoni aperiodici
I suoni periodici evidenziano una ripetitivit della forma donda. Questa ripetitivit
identifica il periodo, quindi la frequenza fondamentale (F0=l/T).
In accordo con la teoria dellanalisi armonica di Fourier, i suoni periodici sono
caratterizzati, oltre che dalla frequenza fondamemntale, anche da una ulteriore sequenza
di frequenze in rapporto armonico con la fondamentale (2,3,4, . . n volte la frequenza
fondamentale).
La sequenza di frequenze determinata dalla periodicit e dalla morfologia della forma
donda, porta alla rappresentazione nel dominio delle frequenze dei suoni periodici detta
uspettro armonico.
I suoni aperiodici, non evidenziano periodicit nella forma donda, quindi non hanno una
frequenza fodamentale caratterizzante. Lo spettro non dunque di natura armonica,
quindi le componenti frequenziali possono assumere qualsiasi valore diverso dalla
sequenza armonica.
I suoni periodici non esistono in natura come tali. Questi possono essere generati solo
artificialmente con apparecchiature elettroniche. In natura esistono comunque suoni
molto simili a quelli periodici, cio quasi periodici (sono ad esempio quasi periodici i
fonemi che compongono le parole e i suoni della maggior parte degli strumenti musicali).

Fondamenti di acustica
Strumenti di misura
Oscilloscopio
FF --------------r?-------------------- " "
___________________________________________________________________________

1 1..... .
.

____________________________

^Y ' '

'*r T >'Vrf Jfi " '1.'VfcX fl\

________________ ;__________________________

______

_____ i

i ,
_

' y,' * "

_____________________ _

A nalizzatore di spettro
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

18

I segnali audio possono essere visualizzati nel dominio del tempo con svariate
tecniche di rappresentazione grafica. Le pi efficaci e versatili sono quelle di
natura elettronica (in particolare quelle basate su computer).
Gli strumenti elettronici, in particolare quelli basati su computer, consentono
anche la rappresentazione grafica del segnale audio nel dominio delle frequenze.
La rappresentazione grafica del segnale audio consente la misura diretta
dell informazione.
Nel dominio temporale, lo strumento principale di rappresentazione grafica e
misura dellinformazione audio loscilloscopio; nel dominio lanalizzatore di
spettro.

Entrambi questi strumenti sono utilizzati per lo sviluppo di applicazioni di


elaborazione del segnale audio e sono disponibili in versione digitale sotto forma
di applicativi software PC desktop opportunamente corredati di schede add-on
capaci di digitalizzare, elaborare e visualizzare in tempo reale il segnale.
MATLAB (Signal Processing Tool Box) e altri applicativi software consentono

di rappresentare graficamente il segnale, di misurarne le informazioni e di


ottenere rappresentazioni molto complesse come ad esempio quella
tridimensionale.

Linformazione nei segnali audio nella variazione dampiezza nel tempo della
forma donda. Tale informazione varia istante per istante ed rappresentata
matematicamente come funzione continua del tempo (ampiezza istantanea):
Aj = A(t)
La rappresentazione deHinformazione di segnale richiede dunque la valutazione
di infiniti valori di ampiezza, uno per ogni istante di tempo.
Vi sono varie misure sintetiche dellampiezza di un segnale audio intese a fornire
una informazione finalizzata e sintetica:
Ampiezza massima: ampiezza massima (positiva o negativa) raggiunta dal

segnale audio durante il periodo i misura;


Ampiezza picco-picco: escursione massima di ampiezza raggiunta dal segnale

audio (massima dinamica) durante il periodo di misura;


Ampiezza media: media temporale delle ampiezze istantanee del segnale

(offset) durante il periodo di misura;


Ampiezza efficace (RMS): ampiezza effettiva, indice della potenza efficace del

segnale durante il periodo di misura.

Fondamenti di acustica
Parametri nel dominio della frequenza
A(t) =

sin(2 Tift+tp^

f=irr

27/01/2004

Periodo

Copyright 2002-2003
Prof. Mario Malcangi

Linformazione audio codificata in termini di variazione di ampiezza (del


parametro fisico) nel tempo. Il tempo (come anche lo spazio) una variabile
indipendente, e quindi poco c da dire a tale proposito.
La variazione di ampiezza nel tempo pu essere misurata in termini di frequenza
e di fase.
La frequenza misura la rapidit di variazione dellampiezza nel tempo. Se la
variazione rapida, la frequenza alta, se la variazione lenta, la frequenza
bassa.
La frequenza definita come numero di variazioni nel tempo e la sua misura
lHertz (Hz), cio il numero di variazioni al secondo. Ne consegue che la
variazione di ampiezza ha una durata T (Periodo) pari a: T=l/Frequenza.
Questa relazione lega la durata della variazione alla frequenza e viceversa:
Frequenza = 1/T.
L unit di misura dell Hz [sec'1].

Unaltra importante informazione indice della variabilit dellampiezza nel tempo


la fase. La variazione di ampiezza del segnale audio evidenzia variazioni in
aumento (fase di compressione) e in diminuzione (fase di rarefazione)
dellampiezza.
La fase una infonnazione relativa alla variazione di ampiezza del segnale audio.
In particolare la fase iniziale indica, in quale stato di compressione o rarefazione
era il segnale audio allinizio della sua generazione.

Fondamenti di acustica
Natura frequenziale del suono

27/01 /2004

Copyright 2002-2003
Prof. Mario Malcangi

21

Linformazione dei segnali audio codificata in termini di variazione dampiezza


nel tempo. Questa variazione porta alla determinazione della cosiddetta forma
donda.

La forma donda (e quindi linformazione del segnale) , in accordo con la teoria


armonica di Fourier, la sovrapposizione lineare (proporzionale) di segnali
elementari (toni puri sinusoidali) di varia frequenza, ampiezza e fase.
La distribuzione nello spazio frequenziale delle componenti sinusoidali per uno
specifico segnale audio porta alla definizione dello spettro.
Lintervallo di esistenza delle componenti sinusoidali determina la cosiddetta
banda frequenziale.

La differenza tra la massima frequenza e la minima frequenza del segnale


audio definisce la dimensione della banda frequenziale, cio la larghezza di
banda.

Fondamentalmente, il segnale audio in generale ha una larghezza di banda


massima pari alla capacit massima (teorica) di percezione uditiva umana (da 16
a 16000 Hz).
La larghezza di banda di uno specifico segnale audio strettamente legata alla
sua natura fisica. Ad esempio, i segnali audio vocali (parlato) si caratterizzano ad
esempio per una larghezza di banda stretta (da 300 a 3000 Hz), mentre i segnali
audio musicali si caratterizzano per una larghezza di banda larga (da 20 a 20000
Hz).

Fondamenti di acustica
Modello armonico di Fourier

A(+ r/?.)
/

Modello matematico del segnale audio


27/01 /2004

Copyright 2002-2003
Prof. Mario Malcangi*I

22

Il modello matematico, noto come Analisi Armonica di Fourier, un importante


strumento di rappresentazione della natura informativa dei segnali con natura periodica o
quasi periodica. Lestensione dellanalisi armonica di Fourier, la Trasformata di
Fourier, consente di ottenere la rappresentazione del segnale nel dominio frequenziae per
segnali di natura aperiodica e di generalizzare il concetto di frequenza in termini di
velocit di variazione dellampiezza del segnale.
I segnali audio sono variazioni di un parametro fisico (pressione deHaria) rispetto ad un
altro parametro fisico indipendente (il tempo).
Dei segnali audio sarebbe virtualmente possibile fornire il modello matematico in termini
di funzione matematica che mette in relazione la variazione di ampiezza della pressione
dellaria con il tempo:
A = f(t)
Tranne che in casi semplici, i suoni reali (voce, musica, rumori, ecc.) sono difficilmente
modellizzabili tramite una funzione matematica.
4

II modello matematico uno strumento utilissimo per lelaborazione dellinformazione


del segnale audio. Purtroppo, tranne che in pochissimi casi, per la quasi totalit dei
segnali audio non derivabile una funzione matematica rappresentativa.
Quando non possibile ricavare la funzione matematica che rappresenta esattamente il
segnale audio si utilizzano tecniche che portano alla formulazione della funzione
matematica approssimata, ad esempio utilizzando lapprossimazione polinomiale.
Il modello armonico di Fourier uno degli strumenti di modellazione matematica del
segnale audio pi efficaci in quanto vicino sia alla natura fisica dei segnali audio e dei
relativi sistemi di elaborazione , sia al modello uditivo e percettivo delluomo.

*
H

\1 V

Fondamenti di psicoacustica

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

25

Lorecchio umano un sistema complesso di trasformazione del fenomeno


acustico in fenomeno percettivo. Il suo funzionamento ampiamente non lineare
in quanto non esiste ima corrispondenza diretta o proporzionale tra i parametri
fisici del suono e le relative sensazioni percettive. Parametri fisici come la
frequenza e 1intensit, indipendenti tra loro nel dominio acustico, risultano
interdipendenti tra loro nel dominio della percezione acustica.
La psicoacustica tratta la relazione che lega il fenomeno acustico alla percezione
che ne deriva lindividuo. A differenza dei principi di acustica, i principi di
psicoacustica sono derivabili esclusivamente in termini di campionamento
statistico di un numero elevato di individui quando riferiscono in merito alla
sensazione percepita quando sono sottosti a determinati stimoli acustici.
Alla percezione acustica contribuiscono vari livelli di elaborazione del segnale
audio, nellorecchio esterno e medio in termini esclusivamente meccanici,
nellorecchio interno in termini elettrochimicomeccanici e sulla corteccia
cerebrale (area uditiva) in tennini elettrochimici. A queste trasformazioni di
natura fisiologiche del suono si aggiunge anche la componente psicologica e
culturale dellindividuo che inducono trasformazioni estremamente complesse
alla percezione uditiva.
La psicoacustica fornisce dunque importanti informazioni relativamente alla
relazione che lega il fenomeno acustico alla percezione.

Dallacustica alla psicoacustica


I parametri del suono
Forma donda (Timbro)

Frequenza (Pitch)

.T

100

1000

10000

Hz

dB
120
90 60 -

Durata
30 -

0
Intensit (Loudness)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

26

Il suono esiste nella dimensione fisica (acustica) e come tale ha caratteristiche fisiche
specifiche:
Frequenza: numero di cicli (oscillazioni complete) per unit di tempo
Intensit: energia trasmessa per unit di tempo in una specifica direzione
Forma donda: struttura frequenziale del suono
Durata: intervallo di tempo di persistenza del suono
Dinamica: variazione dellintensit del suono caratterizzata essenzialmente da tre fasi,
eventualmente ripetute pi volte, lattacco, la tenuta e il decadimento.
Il suono fisico percepito dal sistema uditivo e da questo condizionato. Il sistema di
percezione uditiva non lineare, per cui non esiste una perfetta corrispondenza tra la
natura e lentit dei parametri acustici e quelli percepiti attraverso il sistema uditivo. Per
questo motivo, relativamente alla percezione uditiva, stato definito il modello
psicoacustico del suono. La psicoacustica, come lacustica, studia e definisce i parametri
costitutivi del suono, dal punto di vista percettivo. I parametri del suono non sono stimati
tramite strumenti, come in acustica, ma tramite la valutazione soggettiva. La
pisicoacustica definisce quindi la relazione tra i parametri acustici del suono e come
questi (in media) sono percepiti dagli esseri umani. I parametri psicoacustici che
consentono di descrivere compiutamente un suono sono:
Pitch: sensazione di altezza del suono legata alla frequenza
Loudness: sensazione quantitativa del suono legata allintensit
Timbro: sensazione di identificazione della natura del suono legata alla forma donda
(struttura frequenziale)
Durata-Dinamica: caratteristica percettiva che contribuisce allidentificazione del
timbro.

Dallacustica alla psicoacustica


I limiti della percezione uditiva
dB

Sirena a pochi metri di distanza


----------------------------- Soglia del dolore

130
120

Concerto rock

no

100

Concerto musica classica (fortissimo)

90
80

Cabina di un aereo

70

Conversazione vivace

60

Gamma della percezione frequenziale

50

Citt di notte

40
30

Parlato sussurrato
Foglie che rotolano

20

0 dB = 0,000204 dyne/cm2(Pascal rms)

IO
> 0

--------------------------------- Soglia di udibilit


Gamma di percezione deirintcnsit

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

27

Il suono un fenomeno acustico che esiste indipendentemente dalluomo e dalla sua


capacit di percepirlo. La percezione uditiva del suono, oltre a comportare distorsioni
dellinformazione audio, ne limita il campo di esistenza in conseguenza della natura
meccanica, biologica e neurale del sistema uditivo. I due parametri fondamentali del
suono, la frequenza e lintensit, sono limitati entro una determinata gamma,
rispettivamente, di percezione della frequenza e di percezione dellintensit.
La percezione della frequenza mediamente compresa tra 16 e 16000 Hz.
La percezione delFintensit compresa tra 0 e 120 dR.
In particolare, 0 dB corrisponde alla minima pressione acustica che produce una
sensazione di intensit, pari a 0,000204 dyne/cm2.
Questi limiti di estensione del campo uditivo, tipici delludito normale (non patologico),
implicano che non vi alcuna percezione acustica al di fuori di tali limiti ma non
necessariamente che non esista il fenomeno acustico. Va osservato che la natura dei limiti
del campo uditivo frequenziale sono differenti da quelli della percezione delFintensit.
Mentre nel primo caso il superamento del limite superiore implica solo la scomparsa
della sensazione, nel secondo caso implica una intensa sensazione di dolore. Se il
fenomeno acustico di intensit superiore a 120 dB dura per un tempo limitato e non
superiore di olre 20 dB a tale soglia, interviene un meccanismo di protezione dellorgano
uditivo (saturazione) che porta ad una sordit temporanea. Se il tempo di stimolo ad oltre
120 dB prolungato nel tempo e soprattutto se supera molto tale soglia (oltre i 140 dB),
allora lorgano uditivo subisce danni irreversibili che portano alla sordit permanente.
Oltre queste limitazioni di estensione della percezione dei parametri acustici, vi sono altre
limintazioni legate alla risoluzione e alla nrecisione di nercezione dei narametri acustici.
limitazioni
descritte di seguito.

Fondamenti di psicoacustica
Sistema uditivo
Corteccia cerebrale
Padiglione
Area uditiva
Fibre nervose
Finestra
ovale

Canale
uditivo

Orecchio
esterno

1l
M|l
Il !H

Orecchio
medio

Ai| ! Ili 1

n 4

<N ^
Frequenze (Hz)

27/01/2004

Orecchio
interno

Copyright 2002-2003
Prof. Mario Malcangi

Il sistema uditivo un meccanismo molto complesso capace di trasformare il suono in


percezione uditiva.
Esso consiste di una parte di un sottosistema di natura prevalentemente trasduttiva (cio
di trasformazione da segnale acustico a segnale elettrochimico), lorecchio, e una parte di
natura neurale, la corteccia cerebrale, capace di trasformare le informazioni
elettrochimiche in sensazioni percettive acustiche di base (pitch, laudness, ecc.) e
complesse (struttura musicale, parlato, ecc.).
Lorecchio convoglia le onde sonore attraverso la sezione esterna (orecchio esterno padiglione e canale uditivo) portandole a sollecitare la membrana del timpano.
Dalla membrana del timpano inizia lorecchio medio ove, un sistema di trasmissione
meccanico (catena degli ossicini - martello, incudine e staffa) porta la vibrazione
acustica alla finestra ovale.
La finestra ovale linizio dellorecchio interno. Questo costituito da vari organi, di cui
la coclea quella preposta alla trasformazione della vibrazione di natura meccanica in
impulsi elettrochimici che verranno inviati alla corteccia cerebrale attraverso il nervo
acustico.

Sulla corteccia cerebrale vi sono le aree sensoriali, cio aree neurali che si sono
specializzate (durante levoluzione biologica) nella trasformazione degli stimoli sensitivi
in percezione. Si tratta di aree distinte, una per ogni tipo di sensazione sensoriale (visiva,
uditiva, olfattiva, tattile e gustativa). Larea sensoriale uditiva dedicata alla
trasformazione degli stimoli provenienti dallorgano uditivo attraverso le fibre nervose
del nervo acustico in percezioni acustiche primarie. Altre aree della corteccia cerebrale
sono dedicate allelaborazione di queste percezioni primarie ad alto livello. Ad esempio,
larea del parlato dedicata alla trasformazione testo-voce, alla identificazione del
parlatore, alla comprensione del parlato, ecc.

Fondamenti di psicoacustica
Sistema uditivo (cont.)
Elico trema

Membrana di Reissner
Membrana tettona

Scala vestibolare

Scala media
Membrana basilare
Scala timpanica

Finestra ovale

Apice

16 Hz
Finestra rotonda
27/01/2004

Sviluppo della membrana basilare lungo la coclea


Copyright 2002-2003
Prof. Mario Malcangi

29

La coclea un organo a forma di tubo avvolto a spirale, delimitato ad un estremo da due


membrane (la finestra ovale e la finestra rotonda) alla estremit basale (quella
collegata alla catena degli ossicini) e chiusa alPaltro estremo (apice).
Per tutta la sua lunghezza la coclea divisa in tre sezioni (scala vestiboli, scala media e
scala timpani) da due membrane, la membrana basilare e la membrana di Reissner.
La scala vestibuli e la scala timpani sono collegate tra loro allestremit apicale della
coclea da una piccola apertura, Pelicotrema. Nella sezione intermedia (scala media) vi
unaltra membrana (membrana tettoria) su cui sono impiantate le cellelule cibate, una
sorta di trasduttori microfonici. Il suono aereo proveniente dallorecchi esterno,
trasformato in vibrazione meccanica nellorecchio medio, si propaga nel fluido contenuto
nella coclea, inducendo vibrazioni della membrana basilare. La vibrazione della
membrana basilare rilevata dallorgano del Corti. Questo si sviluppa per tutta la
lunghezza della coclea. Nellorgano del Corti vi sono le cellule cibate, capaci sia di
generare che di rilevare le vivrazioni. operando la trasduzione da vibrazione meccanica a
sequenza di impulsi elettrochimici trasmessi alla corteccia cerebrale tramite le fibre del
nervo acustico. Ogni cellula cibata collegata ad una fibra nervosa. La deflessione della
ciglia (una sorta di pelo) della cellula provoca lattivazione della fibra nervosa ad essa
connessa producendo limpulso che perviene ai neuroni della corteccia cerebrale. Le
cellule cibate sono distribuite per tutta la sua lunghezza della coclea (circa 35 mm) e sono
collegate a circa 4000 fibre nervose che si raccolgono in un fascio che costituisce il nervo
acustico (circa 1 mm di diametro). La distribuzione percettiva delle frequenze lungo lo
sviluppo della coclea (dalla finestra ovale alla fine) logaritmica e decrescente da 16000
a 16 Hz circa. Il meccanismo di trasduzione della coclea capace di distinguere circa
1500 frequenze separate, quindi un sistema ad elevata risoluzione frequenziale. Sia la
frequenza che lintensit sono trasdotte in forma non lineare (logaritmica).

1
Fondamenti di psicoacustica
Sistema uditivo (cont.)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

30

Il sistema uditivo molto complesso in quanto preposto a svolgere svariate funzioni:


orientamento, identificazione delle sorgenti sonore, comprensione del parlato, finizione
della musica, ecc. Durante il processo evolutivo il sistema uditivo ha sviluppato la
struttura e la funzionalit necessaria a svolgere queste funzioni in maniera ottimale. La
duplicazione dellapparato uditivo, oltre a soddisfare una esigenza di ridondanza,
finalizzata alla percezione spaziale: data la distanza tra i due apparati uditivi e il diverso
posizionamento rispetto alla sorgente, il cervello riceve le necessarie informazioni per
localizzare la sorgente audio in termini di distanza e posizione. Le informazioni che
contribuiscono alla determinazione della distanza e della posizione della sorgente audio
sono la fase e la struttura frequenziale del suono. La distanza tra lorecchio destro e
quello sinistro (una ventina di centimetri) implica che lo stesso suono perviene ad ogni
orecchio in tempi diversi, quindi con fase di oscillazione differente. Inoltre,
lorientamento della testa rispetto alla sorgente consente di determinare la posizione
radiale della sorgente rispetto al punto di percezione (frontale, laterale, posteriore, ecc.).
Lorientamento della testa rispetto alla sorgente provoca un effetto di mascheramento,
tanto da modificare in maniera selettiva la struttura frequenziale del suono, in particolare
attenuando le alte frequenze. Il cervello elabora in maniera combinata le informazioni di
differenza di fase e di mascheramento selettivo delle alte frequenze, determinando in tal
modo lesatta posizione spaziale della sorgente. Il ritardo di percezione tra le due
orecchie (Inter-Aural Delay, IAD) per una variazione di fase di 1 grado di circa 10
microsecondi. Il pi piccolo ritardo percepibile di 6 microsecondi. I ritardi di fase sono
utili per la percezione spaziale solo alle basse frequenze, mentre il mascheramento
efficace solo alle alte frequenze. La percezione spaziale funziona comunque bene su tutto
il campo uditivo grazie alla complessit dellinformazione audio (timbro e dinamica).
Linformazione che perviene al cervello molto complessa essendo coinvolti centinaia di
recettori acustici che trasmettono, attraverso le fibre del nervo acustico, al cervello
informazioni differenziate tra orecchio destro e orecchio sinistro.

Fondamenti di psicoacustica
Discriminazione della frequenza - Pitch

Come gi evidenziato nelle descrizione della fisiologia delPorecchio, la struttura della


coclea, in particolare della membrana basilare e dellorgano del Corti, tale da consentire
la percezione della frequenza. Il meccanismo di percezione della frequenza dei suono
tramite il sistema uditivo non lineare ed soggetto, a livello fisiologico, ad una serie di
limitazioni legate alla natura degli apparati ad essa preposti.
La membrana basilare, nel suo sviluppo inverso (dalla apice alla base), lequivalente di
un asse frequenziale a distribuzione logaritmica. Questa fisologica della membrana
basilare tale da comportare una sensazione di crescita proporzionale della frequenza in
occorrenza del raddoppio fisico della stessa (ottava), in pratica, la distanza frequenziale
tra 220 e 440 Hz viene percepita uguale a quella tra 440 e 880 Hz oppure tra 1000 e 2000
Hz.
Un altro fattore che influenza la natura della percezione della frequenza il meccanismo
stesso di eccitazione delle cellule cibate. La membrana basilare, quando viene eccitata da
un suono ad una certa frequenza, forma un inviluppo di vibrazioni nellintorno della
effettiva frequenza del suono. Ci significa che la singola frequenza attiva oltre alla
cellula cibata rivelatrice di quella frequenza, anche le cellule cibate limitrofe. La singola
frequenza produce a livello sensoriale uno stimolo frequenziale multiplo, che il cervello
elabora comunque come singola percezione frequenziale.
La non linerit della distribuzione frequenziale, il numero finito di recettori e la struttura
asimmetrica della membrana basilare sono i principali fattori che influenzano la natura
della percezione della frequenza e che determinano alcuni importanti caratteristiche
percettive come il mascheramento delle frequenze durante la percezione di strutture
frequenziali complesse.
Si definisce pitch (altezza) la sensazione uditiva che consente di assegnare ad un suono,
una posizione su una scala frequenziale (ad esempio quella musicale).

Fondamenti di psicoacustica
Discriminazione della frequenza - Pitch (cont.)
AF/FlI

50

100

10000

1000

Frequenza (Hz)
27/01/2004

32

Copyright 2002-2003
Prof. Mario Malcangi

Il limite inferiore di percezione del pich la frequenza pi bassa che fornisce al


soggetto la sensazione di percepire un tono. Tale limite soggettivo e dipende
anche da altri fattori fisici oltre la frequenza, come lintensit e la natura della
forma donda del suono (struttura ffequenziale).
In condizioni particolarmente favorevoli, alcuni individui sono riusciti a
percepire toni fino a 12 cicli al secondo (Hz).
Il limite superiore di percezione del pitch determina la massima frequenza
percepibile. Anche questo limite di natura soggettivo e diminuisce al crescere
dellet. Allet di 40 anni, senza aver subito particolari danni al sistema uditivo,
il limite massimo di percezione del pitch di circa 15000 cicli al secondo (Hz).
Un importante aspetto legato alla percezione del pitch il livello di
discriminazione. Due toni frequenzialmente molto vicini tra loro non
necessariamente sono percepiti in forma distinta.
4

Il test di discriminabilit del pitch viene eseguito generando due toni a frequenze
sufficientemente diverse tra loro da essere distintamente percepibili dal soggetto.'
La distanza ffequenziale viene gradualmente ridotta fino a quando il soggetto
riferisce di percepire un unico tono.
Il test di discriminabilit del pitch viene eseguito per tutte le frequenze e per vari
livelli di intensit, determinando un diagramma che evidenzia la natura
psicoacutica della percezione del pitch. Lorecchio maggiormente capace di
discriminare il pitch alle alte frequenze rispetto alle basse frequenze (
e
Biddulph, Jou rn al o f A coustical Society o f Am erica, Voi.
275, 1931).

n. 2, P a ri 1, p a g .

Fondamenti di psicoacustica
Discriminazione della frequenza - Pitch (cont.)
-o
I
g
Cl,

:
a
O
*5,

14001

1200
1000

s<1>
s

K
*

s
I
16

31

62

125

250

500

1000

2000

4000

8000

16000

Frequenza (Hz)
27/01/2004

Copyright 2002-2003
Prof. Mario Malcang

33

La maggiore discriminabilit del pitch alle alte frequenze rispetto alle basse
frequenze anche evidenziata dal grafico cumulativo delle differenze di pitch
appena udibili: a circa 500 cicli al secondo la curva ha una crescita pi rapida in
quanto aumenta il numero di differenze appena percepibili.
Il totale delle differenze di pitch appena percepibili circa 1400.
Considerando che gli intervalli di pitch della scala musicale sono solo 120,
evidente che la musica tradizionale occidentale sfrutta pochissimo della capacit
percettiva dellorecchio umano relativamente al pitch (Lewis, U niversity o f Jow a
Studies in P syciology o f M usic, voi. 4, 1937).

La discriminazione del pitch discreta in quanto la quantit di cellule ciliate


distribuite lungo la membrana basilare finita. Ci non significa che sono
percepibili solo un numero finito di frequenze, ma che la variazione da un pitch
al successivo non continua.
La maggiore discriminabilit del pitch tra 500 e 4000 Hz dovuta allo sviluppo
biologico dellorgano uditivo relativamente alla banda frequenziale di esistenza
del parlato.

Fondamenti di psicoacustica
Discriminazione della frequenza - Pitch (cont.)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

34

Un altro fattore che condiziona la percezione del pitch la durata. Il sistema


uditivo necessita di una certa durata minima del tono perch sia percepito come
tale.
Se la durata inferire al minimo necessario, allora invece di percepire un tono
viene percepito un rumore vagamente somigliante a un tono. Per durate
brevissime la percezione simile ad un click.
La durata minima di un tono, perch possa essere percepito come tale, dipende
dalla frequenza.
Osservando il grafico della minima durata del tono perch risulti percepibile il
pich, si evince che alle alte frequenze sono necessari pi cicli che alle basse
frequenze per avere la percezione corretta del tono. Ci conseguenza del fatto
che necessaria una durata minima del tono perch si attivi la percezione del
pitch. Questa durata minima di circa 13 ms (Turnbull, Journal o f Expl.
^

Psychology, Voi.

34,pag. 302, 1944).


J

Questa caratteristica percettiva dipende dalla natura della risposta dinamica della
membrana basilare. La risposta di eccitazione della membrana basilare ad uno
stimolo sonoro di piccola durata con attacco e decadimento rapido (burst)
evidenzia un tempo di attacco e decadimento lento dovuto alle caratteristiche
risonanti dellorecchio. Uno stimolo audio troppo corto non consente allorecchio
di arrivare allo stato stazionario, quindi ad uno stato necessario alla formazione
della completa sensazione uditiva.

Fondamenti di psicoacustica
Discriminazione della frequenza - Pitch (cont.)

b
S3

.1

.2

.4

.8 1

8 10

20

Loudness (xlO4)
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

35

La percezione del pitch non stabile rispetto alla intensit (loudness).


Allaumentare dellintensit aumenta la divergenza dalla corretta percezione del
pitch.
La percezione dei toni con frequenza nellintorno dei 1000 Hz molto stabile
relativamente allintensit. Il fenomeno della divergenza tra frequenza reale e
pitch si accentua soprattutto verso le frequenze estreme della banda uditiva.
Il comportamento alle frequenze estreme opposto, nel senso che alle basse
frequenze si manifesta un una variazione in diminuzione, mentre alle alte
frequenze si manifesta una variazione in aumento.
La variazione pu raggiungere valori assoluti superiori al 10% della frequenza
originaria. (Stevens, Journal o f A co u stica l S ociety o f Am erica, V oi 6, n. 3, pag.
150, 1935).

Lasimmetria della struttura della membrana basilare e lo sviluppo psicoacustico


del sistema uditivo sono i fattori principali a cui sono dovuti questi
comportamenti non lineari dellorecchio.

Fondamenti di psicoacustica
Banda critica - Battimenti

tempo

Spetto a risoluzione
infinitesima

Spetto a risoluzione finita


periodo
battimento

frequenza

frequenza
frequenza battimento
(fittizia)

tono singolo
con battimento

transizione

due toni distinti


dolci

tono singolo
aspro

0
27/01/2004

distanza frequenziale
Copyright 2002-2003
Prof. Mario Malcangi

36

La membrana basilare il meccanismo dellapparato uditivo pi complesso relativamente


alla trasformazione del fenomeno della vibrazione acustica in informazioni per il sistema
nervoso. Una delle caratteristiche pi importanti del meccanismo di funzionamento della
membrana basilare quello della trasformazione tempo-frequenza, realizzato attraverso
la generazione di un inviluppo oscillatorio della membrana. Questo meccanismo
evidenzia un funzionamento di natura discreta, nel senso che la singola frequenza
(informazione infinitesima) necessita che una porzione finita di membrana basilare si
ponga in oscillazione. Ne consegue che la risoluzione frequenziale finita e non
infinitesima. Questa natura funzionale della membrana basilare porta alla definizione
della banda critica, cio della minima porzione di membrana basilare che deve mettersi
in vibrazione per produrre la percezione di un tono.
I battimenti sono uno degli effetti psicoacustici derivanti dalla natura discreta della
percezione del pitch. Due toni puri, alla medesima frequenza producono un effetto
percettivo del pitch chiamato, con terminologia musicale, unisono (percezione di un
unico tono puro). Se le frequenze dei due toni puri differisce leggermente, si produce un
effetto di modulazione dampiezza determinato dal leggero sfasamento dei due toni puri.
Ne deriva la percezione di un unico tono accompagnato dalla percezione di un una bassa
frequenza (battimento). Tenendo ferma la frequenza di uno dei due toni puri e
aumentando la frequenza del secondo tono puro, la percezione del battimento permane
per un certo intervallo frequenziale (10-15 Hz). Continuando ad aumentare aumentare la
distanza frequenziale tra i due toni puri, la percezione del battimento scompare, ma non si
percepisce ancora in modo distinto i due toni puri ma ancora un unico tono aspro. Solo
dopo aver superato una certa distanza frequenziale i due toni vengono percepiti in
maniera separata con una sensazione dolce. Ci avviene quando stata superata la
dimensione della banda critica e quindi sulla membrana basilare si sono potuti formare
due inviluppi oscillatori distinti, cio non interferenti.

Lintensit (loudness) la sensazione soggettiva di percezione uditiva prodotta


dallampiezza del suono.
Come per gli altri parametri percettivi, la percezione dellintensit non lineare e
dipende anche da altri parametri del suono, principalmente la frequenza.
Lunit di misura dellintesit il phon. Questa numericamente uguale al
valore in dB prodotto dalla pressione sonora (SPL) di un tono puro alla frequenza
di 1000 Hz.
Alle altre frequenze la scala acustica in SPL e quella psicoacustica in phon non
sono coincidenti. 1000 Hz non una coicidenza tra suono fisico e percezione, ma
semplicemente un punto di riferimento per costruire una scala di misura
(psicoacustica) della percezione dellintensit.
Il sone unaltra scala di misura psicoacustica dellintensit. 1 sone viene
definita come la sensazione di loudness prodotta da un tono puro di 1000 Hz e 40
dB di ampiezza (riferita alla soglia di udibilit, SPL).
La natura soggettiva di queste unit di misura dellintensit evidente nel
diagramma che rapporta la misura in sone a quella in phone.1
1 sone e i phon non sono due misure coincidenti della loudness, nel senso che non
esiste una relazione lineare (proporzionale) tra queste due misure psicoacustiche
(Fletcher, Journal o f A cou stical S ociety o f A m erica, Voi. 9, n. 4, pag. 275, 1938).

Fondamenti di psicoacustica
Percezione dellintensit (loudness) (cont.)

Pressione acustica (dB SPL)


27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

38

La percezione dellintensit sostanzialmente lineare fino a 8000 Hz, nel senso


che fino a questa frequenza un aumento di pressione acustica determina un
aumento proporzionale di sensazione di intensit (dB).
La funzione di corrispondenza tra intensit acustica e intensit psicoacustica
differente per ogni frequenza fino a 8000 Hz, ma sempre decrescente al crescere
della frequenza.
Oltre gli 8000 Hz lorecchio manifesta un comportamento insolito. La sensazione
di intesit che ne deriva a parit di intensit acustica inferiore a quella che
derivava da una frequenza inferiore.
y
^

Lorecchio, oltre gli 8000 Hz denuncia un calo di capacit percettiva


dellintensit.
Per produrre la stessa sensazione di intensit di un tono puro a 8000 Hz e 80 dB
(SPL), un tono puro a 10000 Hz deve avere una intensit acustica di 90 dB
(SPL), cio deve circa quattro volte maggiore in ampiezza.
(Fletcher, Journal

o f A cou stical S ociety o f Am erica, Voi.

n.

Fondamenti di psicoacustica
Percezione dellintensit (loudness) (cont.)

1000

10000

Frequenza (Hz)
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

La pi chiara dimostrazione della variabilit percettiva della loudness rispetto alla


frequenza il diagramma di Fletcher e Munson. Le curve di questo diagramma sono
isofone, cio descrivono come un tono puro deve essere amplificato o attenuato per
essere percepito a tutte le frequenze con pari sensazione di intensit. Ogni curva stata
generata per un livello di loudness in phon.
Prima di tutto si pu notare che a 1000 Hz la scala di intensit in dB e quella di loudness
in phon coincidono (proprio per la definizione di phon).
Si pu osservare anche che da 100-200 a 6000-8000 Hz Porecchio particolarmente
sensibile. Sopra e sotto queste frequenze la sensibilit dellorecchio diminuisce, cio,
bisogna che lintensit sia superiore a quella equivalente che si vuole percepire in
funzione dellintensit SPL del suono.
A circa 5000 Hz Porecchio manifesta un comportamento risonante del meato
(amplificazione dellampiezza del fenomeno di eccitazione). Unaltra risonanza, meno
marcata si manifesta a circa 13 kHz.
(Fletcher e Munson, Journal o f Acoustical Society o f America, Voi. 5, n. 2, pag. 82,
1933).
Una delle principali conseguenze di questa risposta in frequenza dellorecchio che alle
basse e alle alte frequenze vi perdit nella percezione dellintensit. Questo fenomeno,
combinato a quello simile manifestato dalle apparecchiature elettroacustiche (microfoni,
amplificatori, altoparlanti, ecc.) implica di intervenire sullintensit SPL del suono per
non perdere in qualit di riproduzione audio a larga banda. I cosiddetti controlli di
loudness servono proprio a questo scopo, in quanto intervengono automaticamente
quando la dinamica diventa povera.

Fondamenti di psicoacustica
Percezione dellintensit (loudness) (cont.)
cq

a,

a
S,
a
sK

a
c

S
40

100

1000

10000

Frequenza (Hz)
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

40

Un altro aspetto della percezione della loudness di natura differenziale. Le


variazioni minime di intensit percepibili dipendono dalla frequenza e dal livello
stesso di intensit. Si osserva ancora una volta che lorecchio particolarmente
sensibile alle variazioni di intensit intorno ai 3000 Hz.
(Fletcher, Speech
Ine., Princeton, 1953).

and H earing in Communication, D. Van N ostran d C

Lintensit una percezione di natura strettamente soggettiva, molto difficile da


misurare. La risposta in frequenza dellorecchio estremamente dipendente dalla
frequenza. Dal punto di vista strettamente musicale lorecchio non un sistema
audio perfetto, anzi, esattamente il contrario. In realt, il sistema uditivo non
nato per ascoltare la musica o far godere luomo della bellezza dei suoni.
Levoluzione biologica dellapparato uditivo di natura sensoriale e finalizzato
alla sopravvivenza. La sensazione dellintensit serve soprattutto a orientarsi
nellambiente e a riconoscere la natura delle sorgenti sonore.
La musica, a differenza delle sorgenti audio naturali, artificiale, quindi stimola
sensazioni e percezioni che non necessariamente sono in accordo con la natura
dellevoluzione biologica delluomo. Mentre la musica tradizionale si
sviluppata sostanzialmente in accordo con la natura percettiva del sistema
uditivo, quella elettronica e digitale ha esplorato spazi sonori prima sconosciuti
alla percezione uditiva. La conoscenza della psicoacustica in tale fase della storia
della musica moderna stata una componente culturale importante per i
musicisti.

Fondamenti di psicoacustica
Mascheramento uditivo

10000

Frequenza (Hz)
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

41

Il mascheramento un fenomeno di percezione uditiva in cui un tono di bassa intensit


non percepito in presenza di un tono ad esso prossimo e di elevata intensit.
Questo fenomeno conseguenza delle bande critiche che caratterizzano il funzionamento
della membrana basilare. Linviluppo oscillatorio che viene generato da un tono integra
la sollecitazione del tono stesso e di altri eventuali toni ad esso frequenzialmente
prossimi. Se questultimi sono caratterizzati da minore intensit rispetto a quello
principale, la loro sollecitazione risulta inglobata in quella principale.
Ovviamente, allontanandosi frequenzialmente dal tono ad elevata intensit, questo effetto
di integrazione deHoscillazione della membrana basilare diventa sempre pi blando e
conseguentemente diminuisce leffetto di mascheramento.
sensazione di percezione uditiva in presenza di un tono. La soglia di mascheramento
una modifica dinamica della soglia statica di udibilit, conseguente dalla presenza di un
tono di elevata intensit ad una specifica frequenza.
Questa caratteristica percettiva uditiva viene correntemente sfruttata per ridurre il numero
di bit di quantizzazione nella codifica audio numerica attraverso un processo chiamato
noise shaping.

Il timbro la percezione psicoacustica pi complessa, in quanto basata su


molteplici informazioni. Fondamentalmente, la percezione del timbro legata
alla struttura armonica (frequenziale) del suono: ampiezza, frequenza e fase di
tutte le componenti frequenziali (toni puri).
In realt la struttura frequenziale dei suoni varia dinamicamente, quindi le
componenti frequenziali cambiano nei rapporti di ampiezza e di fase. La
percezione uditiva del timbro porta allidentificazione della natura del suono da
parte del soggetto: il suono di pianoforte viene percepito diverso da quello di
violino.
La percezione del timbro non percezione di frequenza, bens di struttura
frequenziale. Infatti, a parit di altezza, possibile distinguere tra due strumenti
musicali differenti.
In realt, lorecchio umano molto pi raffinato e quindi capace di discriminare
la natura della sorgente audio nellambito della stessa tipologia di sorgente.
*

Lesempio pi ovvio quello della capacit di discriminare tra due differenti


persone di identico sesso che pronunciano la stessa parola o frase.
Un altro esempio la capacit di distinguere tra due suoni di pari altezza e
intensit, generati dallo stesso strumento: il suono LA=440 Hz prodotto dalla
corda LA del violino e quello prodotto dalla corda RE dello stesso violino sono
effettivamente discriminabili.
(Olson, Music, Physycs and Engineering, Dover Publications, 1967).

Fondamenti di psicoacustica
Timbro

Frequenza Hz
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

43

La percezione del timbro dipende anche dallintensit del suono. Lorecchio ha


un meccanismo di funzionamento di natura non lineare, quindi produce altri toni
in aggiunta a quelli propri del suono che riceve.
Ad esempio, se ad un individuo viene fornito un tono puro, questo percepisce
insieme a questo altri toni (armoniche) differenti da quello originario, generati
dallorecchio stesso.
Un altro esempio, gi discusso, quello di due toni con altezza molto prossimaLa percezione uditiva rivela la presenza di un gruppo di altri toni aggiuntivi, dati
dalla somma e dalla differenza dei due toni originari.
La percezione dei toni aggiuntivi tanto maggiore tanto quanto pi elevata
1intensit. La soglia di creazione dei toni aggiuntivi varia con la frequenza,
risultando pi elevata alle alte frequenze
Wegel e Lane, Physics Review, voi.

23,n. 2, pag. 266, 19

La percezione del timbro strettamente dipendente dalla natura funzionale della


membrana basilare, in particolare dalla dimensione della banda critica. I toni
complessi consistono della combinazione lineare di numerosi toni puri, quindi
pongono in oscillazione la membrana basilare in pi punti contemporaneamente.
Leffetto di mascheramento delle componenti ffequenziali di un tono complesso
si manifesta quando si producono oscillazioni che ricadono nella stessa banda
critica.
La sensazione di asprezza o dolcezza di un tono complesso deriva dalla struttura
frequenziale del suono, in rapporto alla dislocazione delle bande critiche della
membrana basilare.

Fondamenti di psicoacustica
Durata
dB

if' l 1
1 j.u.11
Kie'"-i
JI uliiii!
m
Ijllf :
.i!21 .
iM
m
*i v;!YtFlit

r*i ft

4 (4 .

w::Aiiii
* i:!

-3

dB

-ili
iW
tM
irf.fi w'
il M
lu

il

N
l'M
iv V am
V

r 1 1J

111ilifu 'ni;
M
r*
Iti f
ir
f
li::
y
r
f
V
I

m
'M

4
Y
n

l
%
Jfl |f 1 *

Organo

.i

fINf I1 1

sec

4VM_l_
_

fi
1

~ rr

** i of.- . n i ! im ri
m

P ia n o f o r t e

*w1

'7i q-T,11-'-^

r*l !i

* io n ; i tr L'.ifli

i J cj-ii i**

V.

'

..j Wl p i.i.t,

fbli*, ;

H* flltt

fai. Ir

li l i f

i * ** *

... i

'ti1 iM, ] II

l ,\

M l i *i - M n L liltfH

sec

dB

i A , 4 * 4

I t t i

I * J i -

*|4*>

44

#M

lK

* '1

V f

( *li irifft

'1 I ffllff

sec
dB

fi
H

H t

Z."

M
M

r
w

/
4

-30

27/01/2004

sec
Copyright 2002-2003
Prof. Mario Malcangi

44

La durata contribuisce alla formazione della percezione del pitch. In particolare


stato gi evidenziato che, se il suono dura pochi cicli, la percezione del timbro
alterata. Vi quindi una dipendenza della percezione dalla durata minima del
suono.
La percezione uditiva si sviluppata per essere efficiente nella percezione
spaziale, cio in ambiente riverberante. Pochi cicli di oscillazione non sono
sufficienti alla formazione della percezione completa.
La dinamica di intensit un fattore fondamentale di caratterizzazione timbrica
finalizzata al riconoscimento della fonte di generazione del suono. Attacco e
decadimendo di un suono sono fasi transitorie di evoluzione dellampiezza del
fenomeno oscillatorio acustico che non solo implicano semplicemente laumento
e la diminuzione di intensit del suono, ma anche sua continua variazione in
termini di struttura frequenziale.
Inoltre, molti fenomeni acustici si caratterizzano proprio in quanto hanno una
specifica natura di attacco e/o di decadimento: il pianoforte ha un attacco rapido
mentre lorgano ha un attacco lento.
A parit di struttura frequenziale, questa differenza essenziale per la
discriminazione timbrica.

Fondamenti di psicoacustica
Perdita uditiva

Il sistema uditivo soggetto a perdita di efficienza legata allinvecchiamento. La


perdita uditiva si manifesta dai 30 anni in su ed particolarmente evidente da 50
anni in su.
La perdita uditiva si misura in dB equivalenti allamplificazione necessaria per
ottenere la sensazione uditiva normale.
A 50-60 armi la perdita uditiva pu raggiungere i 30 dB, cio, necessario
raddoppiare almeno 5 volte lintensit di un suono (per esempio il parlato) per
dare limpressione alla persona di sentire normalmente.
La perdita uditiva riguarda soprattutto le alte frequenze.
La misura della perdita uditiva si ottiene da un test clinico audiometrico che
consente di ottenere la curva soggettiva di perdita uditiva (audiogramma) su tutto
il campo frequenziale.
Lo strumento che consente di fare questa misura si chiama audiometro.
(Olson, Music, Physycs and Engineering, Dover Publications, 1967)

Digitalizzazione del suono

00101001010001
00101001001010
00101000100101
01010001011101
10010100010010

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

47

La digitalizzazione del suono il processo che consente di rappresentare il


segnale audio sotto forma numerica, quindi adatta ad essere memorizzato,
elaborato e trasmesso tramite sistemi di natura digitale come le memorie binarie, i
computer numerici e le linee di comunicazione digitali.
La rappresentazione numerica del suono implica perdita di informazione sia in
termini di frequenza che in termini di ampiezza.
Il teorema del campionamento fissa le regole per garantire la corretta
rappresentazione dellinformazione del segnale audio nel dominio tempo
discreto.
Il principio della quantizzazione consente di rappresentare il segnale audio
campionato nel dominio numerico a precisione finita.
Il teorema del campionamento e il principio della quantizzazione forniscono le
regole per la corretta digitalizzazione del segnale audio sotto determinate
condizioni. Tali condizioni possono non essere attuabili nella pratica, quindi
necessaria unattenta conoscenza della natura di tali regole per determinare le
necessarie condizioni di pratica applicabilit.
Per approfondimenti: [Malcangi 03]

Digitalizzazione del suono


Natura e trasformazione dei suoni*I

LMnformazione, nel mondo fisico acustico, esiste sotto forma di segnale audio. Il
segnale audio la variazione di un parametro fisico (pressione) rispetto ad un altro
parametro fisico di natura indipendente (tempo e spazio).
I segnali audio, essendo portatori di informazione, sono oggetto di elaborazione da parte
dei sistemi, in particolare quelli di natura elettronica. Ne consegue la necessit di
trasformazione da natura meccanica del segnale audio in natura elettronica analoga.
Analogici sono definiti quindi i segnali nella loro rappresentazione elettronica. In
particolare, segnale analogico sinonimo di segnale contnuo. La discretizzazione del
segnale analogico porta alla definizione di segnale digitale (segnale numerico).
La trasduzione il meccanismo che consente di trasformare un segnale fisico qualsiasi in
segnale elettrico e viceversa. In particolare, la trasduzione da natura fisica qualsiasi a
natura elettrica si ottiene con i cosiddetti sensori, mentre la trasduzione da natura elettrica
a natura fisica qualsiasi si ottiene con gli attuatori.
Per esempio, per trasformare il segnale audio (natura meccanica) in segnale elettrico, si
usa il microfono (sensore meccano-elettrico), mentre, per trasformare il segnale elettrico
in segnale acustico, si usa laltoparlante (attuatore elettro-meccanico).
La trasduzione esclusivamente una trasformazione di natura fisica, quindi nulla cambia
relativamente airinfoimazione di segnale.
I sistemi elettronici consentono di elaborare Vinformazione di segnale, estraendo parte
dellinformazione, eliminando informazioni non desiderate, modificando
quantitativamente tale informazione, ecc.
La voce, per esempio un segnale che contiene informazioni di basso livello (intensit) e
di alto livello (parole, frasi, ecc.). Il riconoscimento automatico del parlato un esempio
di elaborazione del segnale.

Digitalizzazione del suono


Dallonda acustica al segnale elettrico

Suono acustico

27/01/2004

fisso

Copyright 2002-2003
Prof. Mario Malcangi*Il

49

Il microfono il principale trasduttore per la trasformazione del suono dalla sua


natura originaria meccanica a quella elettrica. La trasduzione in segnale elettrico
del suono essenziale dato che la quasi totalit dei sistemi di elaborazione del
suono di natura elettronica.
Il principio di trasduzione microfonica del suono abbastanza semplice. La
variazione di pressione dellaria prodotta dal suono (compressione e rarefazione)
viene utilizzata come mezzo per agire su un dispositivo o componente dotato di
propriet meccano-elettrica.
Un sistema abbastanza semplice quello che utilizza il principio di induzione
elettromagnetica. La pressione acustica viene utilizzata per far muovere un
magnete allinterno di un campo magnetico. La variazione di campo magnetico
segue quella dellonda acustica del suono. Tale variazione induce su un filo di
rame una corrispondente variazione di corrente. Tale corrente variabile una
copia trasdotta della pressione variabile del suono, cio la copia elettronica del
suono.

Digitalizzazione del suono


Dal segnale elettrico allonda acustica

S u o n o e le ttr ic o

27/01 /2004

S u o n o a c u s tic o

Copyright 2002-2003
Prof. Mario MalcangiIl

50

Il suono in forma elettrica utile per essere trattato dalle apparecchiature


elettroniche, ma non percepibile in tale forma dallorecchio. Ecco dunque la
necessit di un sistema inverso di trasduzione, di natura elettro-meccanica, che
consenta di trasformare le variazioni di tensione elettrica in variazioni di
pressione acustica.
Laltoparlante il pi importante di questi sistemi di trasduzione. Il principio di
funzionamento simile a quello del microfono.
Ad esempio, una corrente variabile applicata ad un filo elettrico induce un campo
magnetico identicamente variabile neHintomo del filo stesso. Il campo
magnetico in grado di opporsi con forza ad un altro campo magnetico opposto.
Quindi, se a un magnete sottoposto al campo variabile si applica una membrana
(cono), possibile trasformare la variazione di campo magnetico in variazione di
pressione acustica equivalente.

Digitalizzazione del suono


Analogico e digitale

0 1 2 3 5 1 0 - 3 - 1 18 24

Analogico

27/01/2004

Digitale

Copyright 2002-2003
Prof. Mario Malcangi

51

La trasduzione un processo che crea unanalogia tra la rappresentazione


acustica del suono e la rappresentazione elettrica equivalente. Per questo motivo
il suono, nella sua natura fisica, viene classificato con il termine analogico.
In realt, il termine analogico ha assunto un significato particolare in quanto
contrapposto a digitale. In tal senso il termine analogico ha un sinonimo pi
significativo, il termine continuo.
Il suono esiste in natura in forma analogica (continua) e pu essere trasdotto in
forma elettrica, continuando a mantenere la natura continua. Il suono analogico
pu essere trasformato in digitale quando viene discretizzato, cio scomposto in
piccole unit e codificato in forma numerica.

Digitalizzazione del suono


Campionamento

I segnali analogici sono continui, costituiti da infinite variazioni di ampiezza nel


tempo. Per essere elaborati da sistemi di natura discreti e numerici come i
computer, i segnali continui necessitano di una trasformazione (discretizzazione)
in modo da ricondurre ad una quantit finita le variazioni continue di ampiezza
che li caratterizza.
II processo di discretizzazione del segnale rispetto al tempo si chiama
campionamento. Il campionamento di un segnale continuo si ottiene
fotografando il segnale ad istanti di tempo regolari (intervalli di
campionamento) e considerando il valore di ampiezza allistante in cui avviene il
campionamento come valore (attendibile) dellampiezza fino al successivo
campionamento.
La perdita di informazione conseguente alla discretizzazione operata con il
campionamento non significativa sotto determinate condizioni.
Il teorema del campionamento stabilisce le regole del corretto campionamento.

Il campionamento un processo che consente di passare dalla rappresentazione


continua del segnale alla rappresentazione discreta.
Un segnale campionato una sequenza discreta di valori di ampiezza, misurati a
intervalli regolati di tempo.
Il teorema di Shannon (teorema del campionamento) fissa le regole del corretto
campionamento per non avere perdite di informazione.
Il campionamento porta alla discretizzazione del tempo in termini di intervalli di
campionamento (Ts).

Il tempo pu essere espresso come sequenza di n intervalli di campionamento,


vale quindi la relazione
,

Dato un intervallo di campionamento n, ristante di tempo cui si riferisce ad


esso proporzionale sulla base della dimensione dellintervallo stesso: n diventa la
variabile discreta del tempo. Ts una costante che consente di legare il tempo
discreto n al tempo continuo t.

Digitalizzazione del suono


Campionatore
Segnale originario

Campionatore
(Sampler)

Segnale PCM

campionamento

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

54

Il campionatore un interruttore elettronico comandato da un temporizzatore. Il


temporizzatore chiude periodicamente Pinterruttore a intervalli costanti di
campionamento Ts. Lintervallo di chiusura dovrebbe essere idealmente infinitesimo* ma
di fatto ha una durata finita, anche se brevissima. Tale intervallo determina il tempo di
campionamento, un brevissimo intervallo durante il quale il segnale in ingresso al
campionatore viene trasferito in uscita. Durante tale intervallo di tempo luscita del
campionatore riporta un segnale di ampiezza identica a quella del segnale dingresso.
Durante il restante tempo, fino al prossimo intervallo di campionamento, lampiezza del
segnale duscita del campionatore nulla, essendo Pinterruttore aperto.
Dal punto di vista matematico, il campionamento il prodotto Ira la funzione segnale A(t)
da campionare e la funzione di campionamento s(t). Si tratta di un processo di
modulazione, in particolare della modulazione a impulsi (Pulse Code Modulation,
PCM).
La funzione s(t) una sequenza periodica di impulsi 8(t) (Dirac):
s(t)= ...+5(t-2ts)+5(t-ts)+5(t)+5(t+ts)H-S(t-2ts)+ ...
Poich il prodotto tra una funzione qualsiasi A(t) e la funzione di Dirac S(t+nts) vale
A(nts), cio lampiezza del segnale allistante nts (istante di campionamento), il prodotto
tra la funzione di campionamento s(t) per la funzione qualsiasi A(t) una sequenza di
impulsi modulata secondo linviluppo di ampiezza di A(t):
...+ A(-2ts)8(t- 2ts)+ A(-ts)S(t-ts)+ A(0)S(t)+A(ts)S(Hts)+ A(2ts)S(t-2ts)+ ...
cio
+ A(-2t )+ A(-ts)+ A(0)+A(ts)+ A(2ts)+ ...

Digitalizzazione del suono


Perdita di informazione

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

55

La perdita di informazione dovuta al processo di campionamento non


significativa se si campiona ad una velocit almeno doppia rispetto a quella della
pi rapida delle variazioni dampiezza contenute nel segnale stesso (frequenza
massima). Il teorema del campionamento impone che la frequenza di
campionamento deve essere almeno doppia rispetto alla massima frequenza di
segnale:
Fs > 2F m ax Il

Il campionamento di un segnale porta alla perdita delle informazioni che hanno


frequenza superiore a quella del processo di campionamento medesimo.
Il campionatore deve operare ad una frequenza superiore al doppio (almeno) della
frequenza massima del segnale per preservare tutte le informazioni di frequenza
del segnale oggetto di campionamento.
II teorema del campionamento garantisce la corretta rappresentazione
deirinform azione frequenziale del segnale, ma non quella dampiezza e di
fase.

Per garantire una adeguata rappresentazione dellinformazione di ampiezza e di


fase bisogna sovracampionare, cio campionare a frequenze superiori, anche
molto superiori, rispetto a quella della frequenza massima del segnale.

Digitalizzazione del suono


Teorema del Campionamento

La non corretta esecuzione del processo di campionamento porta ad un insidioso


effetto di distorsione dellinformazione chiamato aliasing.
Le frequenze di segnale oltre la met della frequenza di campionamento vengono
distorte in conseguenza del processo di campionamento. La distorsione (aliasing)
consiste in un effetto di rallentamento delle frequenze presenti oltre la frequenza
massima stabilita dal teorema del campionamento.
Laliasing conseguenza del sottocampionamento delle componenti armoniche
del segnale che superano la met della frequenza di campionamento. La
frequenza alias paria alla differenza tra il valore della frequenza di
campionamento e il valore della frequenza reale:
falias fs- f reale
Concluso il processo di campionamento, le frequenze distorte non sono pi
distinguibili da quelle non distorte e quindi il campionamento del segnale in tal
caso non reversibile.

Digitalizzazione del suono


Evitare (aliasing

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

57

I segnali reali sono a banda infinita, ma nella pratica vengono considerati a


banda limita. Quando si realizza unapplicazione di elaborazione del segnale
audio, si focalizza lattenzione sullinformazione di segnale significativa per

quella specifica applicazione.


Per esempio, la voce un segnale audio (banda fino a 20000 Hz), ma di fatto
linformazione necessaria al 1intellegibilit del parlato limitata alla banda fino a
3000 Hz. Un sistema di campionamento dovrebbe utilizzare una frequenza di
campionamento molto superiore a 4000 Hz (maggiore del doppio della frequenza
massima di segnale). Campionare a 8000 Hz (come di fatto avviene nella
telefonia digitale) sufficiente. 8000 Hz una frequenza di campionamento
abbastanza superiore al doppio della frequenza massima di segnale vocale, in
accordo con il teorema del campionamento.
Rispettare il teorema del campionamento garantisce la corretta rappresentazione
delle frequenze fino a quella massima di segnale, ma nulla garantisce in merito
alle frequenze superiori a quella massima. Poich il campionatore non sopprime
le frequenze oltre quella massima ma, purtroppo, le distorce (rallentandole),
necessario limitare la banda del segnale da campionare alla frequenza massima
utile. Tale limitazione di banda si ottiene tramite filtraggio passa-basso, detto
anche filtraggio anti-aliasing, in quanto previene il fenomeno di distorsione
frequenziale (aliasing) conseguente al campionamento.

Digitalizzazione del suono


Evitare aliasing (cont.)

27/01/2004

Copyright 2002-2003
Prof. Mario MalcangiIl

58

Il fenomeno dellaliasing frequenziale durante il processo di campionamento


dovuto al fatto che la banda del segnale campionato viene replicata infinite volte.
Ogni replica della banda di segnale, ovvero del suo spettro, ha come riferimento
tutti i multipli interi della frequenza di campionamento.
La banda base gravita intorno alla frequenza zero. Le altre bande sono collocate
sui multipli interi della frequenza di campionamento, cio Fs, 2FS, 3FS, 4FS,... e
sono una perfetta replica di quella base.
Le repliche della banda base possono sovrapporsi ad essa e alle altre. E proprio
questa sovrapposizione che produce il fenomeno delFaliasing. Le frequenze delle
bande superiori a quella base si ritrovano di fatto in banda base per
sovrapposizione, quindi producono distorsione frequenzaiale (armonica). Il punto
di separazione tra le bande multiple proprio la met della frequenza di
campionamento.
^)

Se il segnale a banda estesa viene limitato entro una frequenza massima non
superiore alla met della frequenza di campionamento, allora la sovrapposizione
tra la banda base e le bande replicate non avviene e quindi non vi aliasing.

Digitalizzazione del suono


Quantizzazione
hold

"

a!

1 1 1 1

i
0

i
:
I
;

;
i

I[ 1
f
!I; i

!
1 2 2 3 3 3 2 2 2 2
l

2 bit

27/01/2004

!
:
!
l
ft

:
i
;

ft

2 2 = 4 livelli di quantizzazione

Copyright 2002-2003
Prof. Mario Malcangi*Il

Il segnale campionato (PCM), per essere trattato da un elaboratore numerico (computer),


necessita di essere sottoposto ad un processo di quantizzazione. Lampiezza dei campioni
del segnale sono infatti valori a precisione infinita (rappresentabile cio con numeri reali),
mentre il calcolatore in grado di rappresentare solo numeri a precisione finita (anche se
elevata).
La quantizzazione il processo che consente di passare dalla precisione infinita alla
precisione finita (numero finito di cifre) nella rappresentazione numerica.
Questo processo implica perdita di informazione. La perdita dinformazione si manifesta
sotto forma di rumore.
fi campionamento consente di fissare lampiezza del segnale in istanti discreti di tempo
(istanti di campionamento).
La digitalizzazione del segnale (quantizzazione) consiste nel trasformare in numeri
(binari) a precisione finita il valore (a precisione infinita) dellampiezza di ogni campione
Il numero di cifre binarie (bit) utilizzato per quantizzare numericamente lampiezza di
ogni campione determina il numero di livelli di quantizzazione. Per eseguire loperazione
di quantizzazione, lampiezza del campione deve essere mantenuta costante per tutto il
tempo necessario al completamento del processo di quantizzazione. Ci viene ottenuto
aggiungendo al campionatore un elemento di memoria analogica, il condensatore. Questo,
quando linterruttore del campionatore chiuso, memorizza lampiezza del campione
corrente. Quando linterruttore si apre, il condensatore mette a disposizione del
quantizzatore tale informazione in maniera stabile, fino al successivo campionamento. Il
quantizzatore inizia il processo di quantizzazione dopo il tempo di campionamento e deve
completarlo prima che termini lintervallo di campionamento. Il campionatore, insieme al
condensatore, realizza un sistema di campionamento e tenuta, da cui il nome
Sample&Hold.

Digitalizzazione del suono


Errore di quantizzazione
Errore di

SQNR m
SQNR
dB
B

27/01/2004

6.5

rapporto Segnale/Rumore di quantizzazione


deciBel
numero di bit utilizzali per quantizzare

Copyright 2002-2003
Prof. Mario Malcangi

60

informazione
rappresentazione di valori reali con un numero finito di cifre. La quantizzazione produce
determinato
ampiezza
a altro segnale (rumore) che si somma linearmente al segnale
rumore di quantizzazione di natura statistica (rumore bianco)
quindi non separabile dal segnale quantizzato.
rumore
numerica. Per ogni cifra binaria utilizzata
quantizzazione si produce un miglioramento di 6 dB del rapporto segnale/rumore di
quantizzazione.
il rumore di quantizzazione non eliminabile, pu essere solo minimizzato.
Per ogni applicazione va stabilita la quantit minima di cifre che garantisce linefficacia
del rumore di quantizzazione sullinformazione contenuta nel segnale.
4

'

V?

Per esempio, la musica un segnale audio, quindi linformazione in essa contenuta


percepita attraverso il sistema uditivo. Il sistema uditivo ha una sensibilit media che in
termini di rapporto segnale/rumore stimata in circa 90 dB (consente di distinguere un
rumore in presenza di segnale quando il segnale ha unampiezza circa 65000 volte
superiore a quella del rumore). Ci significa che, un rumore con unampiezza 90 dB
inferiore a quella del segnale non percepibile (effetto mascheramento). Quindi, se il
rapporto segnale/rumore di quantizzazione (SQNR) prodotto nella digitalizzazione
della musica superiore a 90 dB, il rumore di quantizzazione di fatto non rilevante in
quanto non percepibile. Nellesempio specifico, sono sufficienti 16 bit (6 x 16 = 96dB) di
quantizzazione per garantire un rapporto segnale/rumore non peggiore di quello tipico dei
sistemi audio analogici.

Digitalizzazione del suono


Rapporto segnale/rumore di quantizzazione

SQNR = 20 logl0

A
-= 2 0 o g . - f - - = 20 log,0V = 205 log,02 = 20x0.301 s 65

2"

27/01/2004

: num ero di bit di quantizzazione

2D: num ero di livelli di quantizzazione

Copyright 2002-2003
Prof. Mario Malcangi

61

Il rapporto segnale/rumore di quantizzazione (SQNR), calcolato in dB viene


determinato rapportando la massima escursione di segnale (segnale picco-picco)
alla massima ampiezza di rumore (Q).
La massima ampiezza di rumore Q legata al numero di bit di codifica utilizzato
e allampiezza picco-picco:

Q = V 2B
Il numero di bit di quantizzazione determina la quantit di livelli di
quantizzazione applicati alla gamma di ampiezza picco-picco.

Il rapporto segnaie/rumore di quantizzazione (SQNR) viene determinato rapportando la


massima dinamica di segnale alla massima dinamica di rumore.
Il rumore di quantizzazione a dinamica costante. La massima dinamica del rumore
infatti determinata dal rapporto tra la massima dinamica del segnale e il numero di livelli
di quantizzazione (2B). Il segnale pu essere a dinamica variabile. Ci implica che il
SQNR calcolato nella condizione di massima dinamica del segnale non sia effettivamente
tale quando il segnale riduce la sua dinamica.
Per esempio, supponiamo di scegliere di quantizzare con 16 bit un segnale audio per
garantire un SQNR di 96 dB. Se il segnale dimezza la sua dinamica, il SQNR teorico di
96 dB diventa un SQNR reale di 90 dB: il bit pi significativo dei 16 bit di
quantizzazione non viene mai utilizzato, quindi la quantizzazione reale a 15 bit.
Poich ogni bit porta un contributo di +6dB per il SQNR, la perdita di un bit comporta un
contributo di -6dB. Se il segnale si porta a un quarto della dinamica, vengono persi 2 bit
di quantizzazione, quindi 12 dB per il SQNR, e cos via.
4

La quantizzazione non lineare consente di evitare che le piccole dinamiche siano


quantizzate con un numero di bit inadeguato rispetto alle specifiche applicative. La
suddivisione in livelli di quantizzazione della gamma dinamica non lineare (di solito
logaritmica), tale cio da assegnare una maggiore quantit di livelli di quantizzazione ai
bassi livelli di dinamica e una minor quantit agli alti livelli di dinamica.
Per esempio, per un segnale che varia in ampiezza tra -HO e -10, di 16 bit di
quantizzazione, si pu assegnarne 1 bit per la quantizzazione del segnale che varia tra
+10 e +5 (-10 e -5) e 15 bit di quantizzazione per i segnali che variano tra +5 e -5;
successivamente si pu assegnare 1 bit di quantizzazione per i segnali che variano tra +5
e +2,5 (-5 e -2,5) e 14 bit di quantizzazione per i segnali che variano tra +2,5 e -2,5; e
cos via fino ad assegnare tutti i bit di quantizzazione disponibili.

.
-

' i

Analisi del suono

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

65

Lanalisi del suono consente di entrare nella microstnittura informativa del suono
per ottenerne la sua rappresentazione analitica. Le componenti informative del
segnale, misurate tramite le tecniche di analisi, sono la base di conoscenza che
consente di estrapolare modelli per la modifica dellinformazione acustica e per la
sua sintesi.
Quella di Fourier la pi importante delle tecniche di analisi frequenziale del
segnale audio, sia per la vicinanza al modello percettivo del suono, sia anche per
la relativa semplicit del modello matematico che ne consente una facile e
immediata aDDlicazione di natura numerica. La conoscenza del modello
armonica
corretta messa in opera, per evitare di generare insidiosi artefatti che inquinano la
misura dellinformazione di segnale.
La variabilit dinamica del segnale audio, sia quello musicale che quello vocale,
impone ladeguamento delle condizioni stazionarie di validit dellanalisi
armonica di Fourier alla dinamica del segnale audio. Lanalisi armonica di
Fourier a tempo breve un esempio di adattamento dinamico di un modello di
analisi stazionario, quale quello dellanalisi armonica di Fourier.
Altre tecniche di analisi sono proposte per lestrazione delle caratteristiche
informative del segnale audio allo scopo di ottenere una estrazione mirata di
specifiche informazioni (ad esempio le formanti fonetiche), oppure per
maggiormente avvicinarsi al modello fisico del suono.
Per approfondimenti: [Malcangi 03]

Analisi del suono


Componente frequenziale

I segnali audio, anche quando si tratta di suoni, difficilmente sono modellizzabili


con una funzione matematica. Le trasformate sono un potente strumento
matematico che consente di ottenere un modello di rappresentazione
dellinformazione di segnale che ne semplifica la trattazione. La semplificazione
consiste soprattutto nella individuazione di funzioni matematiche elementari
(segnali elementari) che, combinati in forma lineare, consentono di rappresentare
una funzione complessa (segnale complesso).
La trasformata di Fourier consente di rappresentare un segnale qualsiasi come
somma lineare di segnali sinusoidali. I segnali elementari per la trasformata di
Fourier sono i segnali sinusoidali, detti anche, componenti frequenziali del
segnale, cio in campo audio, i toni puri.

Analisi del suono

Secondo la teoria dellanalisi armonica di Fourier, i segnali complessi possono


essere scomposti in una serie di segnali elementari sinusoidali, di varia
ampiezza, frequenza e fase. Questa scomposizione unica e quindi utilizzabile
per codificare linformazione di segnale in un altro dominio diverso da quello
temporale, il dominio frequenziale.

Analisi del suono


Struttura frequenziale

27/01/2004

Copyright 2002-2003
Prof. Mario MalcangiIl

68

Il tono puro (sinusoidale) il caso pi semplice di informazione audio in quanto


caratterizzata da una singola frequenza (in accordo con il modello percettivo e
con la teoria dellanalisi frequenziale di Fourier).
Qualsiasi altro suono che non abbia le caratteristiche informative del tono puro
viene definito complesso, in quanto costituito dalla somma di pi toni puri.

Analisi del suono


Struttura frequenziale

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

69

Il suono complesso, in accordo con la teoria dellanalisi armonica di Fourier,


sempre scomponibile in termini di toni puri, ognuno di ampiezza, frequenza e
fase differente. In particolare, se il tono complesso periodico, le componenti
frequenziali esistono solo in corrispondenza dei multipli della frequenza
fondamentale determinata dal periodo di ripetizione della forma donda del tono
complesso.

Analisi del suono


Struttura frequenziale

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

70

Si definisce prim a armonica (fondamentale) il tono puro caratterizzato da un


periodo uguale a quello di ripetizione del tono complesso. La seconda armonica
ha frequenza doppia della prima, la terza tripla della prima, ecc.
La prima armonica in un tono periodico sempre presente. Le armoniche
successive possono anche non essere presenti in corrispondenza di tutti i multipli
della frequenza fondamentale.

Il modello frequenziale fondamentale per la descrizione analitica della natura


dellinformazione del suono. Grazie al modello frequenziale possibile ottenere
una descrizione analitica del suono che consente di trattare linformazione audio
per realizzare applicazioni come la compressione, la trasmissione, la
spazializzazione, la sintesi e il riconoscimento automatico.
Il modello temporale e il modello frequenziale del suono sono strettamente legati
tra loro dal sistema delle trasformate. In particolare, la trasformata di Fourier
consente di ottenere un modello di rappresentazione in frequenza del suono
particolarmente vicino al modello percettivo (psicoacustico).

La rappresentazione cosiddetta spettro deriva dallanalisi armonica del tono


complesso. Ogni componente armonica del suono viene riportata su un piano
cartesiano ampiezza-frequenza. In questa rappresentazione grafica ogni
componente armonica del suono viene rappresentata da un segmento verticale
(linea spettrale) di ampiezza pari allampiezza massima (positiva) della
componente stessa. La posizione sullasse frequenziale pari allinverso del
periodo della componente.

Analisi del suono


Spettro di alcuni suoni

impulso

tono puro

>
t

treno di impulsi

i m i .

-----
t

-11

impulso di durata finita


rumore

>
t

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

73

Ogni suono ha la sua propria struttura armonica. Tale struttura armonica (spettro
frequenziale) rappresenta completamente il suono stesso, evidenziando
soprattutto le caratteristiche frequenziali.
Il tono puro per definizione ha uno spettro costituito da una sola linea spettrale
(per definizione), e ha una forma donda di natura sinusoidale.
Il suono determinato dallonda quadra ha una struttura frequenziale
caratterizzata dalla fondamentale e da una serie (teoricamente infinita) di
componenti frequenziali di ampiezza decrescente al crescere della frequenza.
Un caso particolare di suono il rumore bianco. Questo un suono
caratterizzato da una forma donda la cui ampiezza varia in modo completamente
casuale (a distribuzione statistica uniforme). Lo spettro corrispondente
altrettanto casuale nella sua composizione armonica (in ampiezza e in frequenza).
Il termine rumore conseguenza del fatto che questo suono nella maggior parte
dei casi indesiderato.
Un altro suono particolare limpulso (click). Questo un suono di durata
infinitesima e ampiezza finita. Lo spettro di questo suono altrettanto particolare
in quanto contiene tutte le componenti frequenziali a tutte le frequenze a partire
da zero e con ampiezza costante.
Una variante dellimpulso il treno di impulsi, cio una ripetizione periodica di
impulsi. Lo spetto corrispondente un treno di armoniche distanziate tra loro in
maniera uniforme.
Una ulteriore variante dellimpulso limpulso di durata finita. Lo spettro
corrispondente la funzione sen(x)/x.

Analisi del suono


Esempi di spettri di segnale vocale

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Lanalisi frequenziale del segnale una tecnica che consente di ottenere la


distribuzione deHampiezza e della fase delle componenti sinusoidali in funzione
della frequenza. Il risultato dellanalisi frequenziale lo spettro di ampiezza e di
fase. Lo spettro del segnale consente di ottenere informazioni quantitativamente
precise circa la struttura frequenziale del segnale, non evidenziabile nella
rappresentazione temporale del segnale, sia grafica che matematica.
Ad esempio, una vocale O si distingue nettamente da una vocale E se si
osserva lo spettro frequenziale di ampiezza. I picchi dello spettro indicano la
dominanza a tali frequenze. La differente posizione e ampiezza dei principali
picchi connota una vocale rispetto ad unaltra. Mentre il segnale vocale nel
dominio temporale apparentemente molto variabile, nel dominio frequenziale
risulta molto stabile, ovviamente per la stessa informazione. Ad esempio,
vocalizzando una E in tutte le maniere possibili (cupa, brillante, rauca,
interrogativa, esclamativa, imperativa, ecc.) notiamo una significativa variabilit
delloscillogramma ma una sostanziale stabilit dello spettrogramma.

Analisi del suono


Alcune formule utili
A sin(
Piano complesso

cat + <j>)~ a cos( + sin( cat)


Coordinate polari e cartesiane

Z^are

A)

A=V a + b
2

M M J.
2

a - - A sin (j)

= tan

b = A cos (/)

Formula di Eulero
Ini = Immaginario
Re = Reale

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

75

Linformazione elementare codificata dalle componenti sinusoidali lampiezza


delloscillazione ad una specifica frequenza e la relativa fase.
La rappresentazione della componente sinusoidale, che consente di costruire lo
spettro di ampiezza e di fase, dunque la seguente:
A(t)= A sin(cdt+(j)())=Asin(27i:f+(j)0)

La trasformata di Fourier consente di rappresentare un segnale complesso in


termini di combinazione di segnali elementari, i segnali sinusoidali. Essendo un
algoritmo matematico, non usa rappresentare il segnale sinusoidale nella sua
natura fisica, bens nella forma matematica. La trasformata di Fourier calcola la
componente frequenziale sinusoidale come un punto del piano dei numeri
complessi, quindi in termini di parte reale e parte immaginaria. Da questa
rappresentazione cartesiana della componente sinusoidale necessario passare
alla rappresentazione polare, evidenziando modulo (ampiezza) e fase della
componente sinusoidale.

/\n a n si uci suuiiu I*


Fourier: Serie e Trasformata

Serie di Fourier

--- ---- ^

Trasformata di Fourier

+CO

Diretta
-foc

x (i)=

I
k

X ( a ) = ^ x (t)e-Ja,dt

oo

-00

Inversa

ck

| x ( t ) e ~ J(kr' ) d t
T

1 +00

x (t)

27/01/2004

\ x ( c o ) e jmda)
00

: periodo

>

/o
Copyright 2002-2003
Prof. Mario Malcangi

76

Il punto di partenza per lanalisi dei segnali la serie di Fourier. Questa,


consente di calcolare la serie dei coefficienti di ampiezza delle componenti
armoniche di un segnale di natura continua e periodica.
I segnali periodici si caratterizzano per una forma donda che si ripete, sempre
uguale a se stessa, per tutto il tempo di esistenza del segnale. Ad esempio, il
segnale sinusoidale un segnale periodico.
Per i segnali reali, lanalisi armonica di Fourier non applicabile in quanto i
segnali reali non sono perfettamente periodici (la periodicit unastrazione
matematica). Inoltre, lelaborazione numerica del segnale riguarda i segnali
discreti (campionati).
La serie di Fourier ha comunque un equivalente, chiamata trasformata di
Fourier, applicabile ai segnali di natura non periodica. La trasformata di Fourier
infatti unestensione della serie di Fourier considerando il periodo di
oscillazione del segnale di durata infinita.
La trasformata di Fourier consente di calcolare le ampiezze delle componenti
armoniche del segnale, non necessariamente periodico, a tutte le frequenze, da
zero fino a infinito.

DTFT: Trasformata Tempo Discreto di Fourier


Trasformata Continua di Fourier

Trasformata Tempo Discreto di Fourier

D iretta

D iretta

A
-H x >

- t- 3 0

X (a t)= jx ( t) e - J*dt

(co) = X

OO

OU

In v ersa

&

Inversa

s
/

---------------------

x (t) =

* ( )

d - J . X ( a e ~ d ( a )

X
- 0 0

-H

x(r)=

Y Jx ( t ) S ( t
n =

co = 2izf
27/01/2004

- o o

t-nTs

Copyright 2002-2003
Prof. Mario Malcangi*Il

77

Sia la serie che la trasformata di Fourier operano su segnali continui. Cosa


succede se il segnale a tempo discreto, cio campionato?
Un segnale x(t) campionato rappresentabile come sequenza x(n) di campioni
derivata dal processo di campionamento, quindi rappresentabile come
combinazione lineare di impulsi unitari 5(t-nTs) modulati in ampiezza dalla
sequenza x(n), cio:
x(t) = 2 x(t)8(t-nTs)
La trasformata di Fourier quindi applicabile anche a un segnale tempo discreto
x(n).
Il modello di trasformata che ne deriva detta DTFT, cio Trasformata Tempo
Discreto di Fourier. Questa somiglia alla trasformata di Fourier, tranne che nella
versione diretta esegue la sommatoria al posto dellintegrale, come conseguenza
della natura discreta del segnale x(n).
Lo spettro X(co) comunque continuo e conseguentemente la trasformata inversa
DTFT utilizza lintegrale e non la sommatoria.
La trasformata DTFT quindi applicabile nei sistemi campionati (ad esempio i
sistemi CCD), consentendo lapplicazione dellanalisi frequenziale di Fourier in
sistemi discreti ma non numerici, i sistemi tempo discreti.

Analisi del suono


DFT: Trasformata Discreta di Fourier
Trasformata Tempo Discreto di Fourier

Trasformata Discreta di Fourier

D iretta
N- 1

D iretta
+O0

X ( k ) = YJx (n )e

Inversa
1 //_]

J2nkn
x(n)~ J^X(k)e N

| X (co)eJ,md (cu)

K -n

n
co-27tf
27/01/2004

to
VJ

N*

= >

In v ersa
=

0
V*

II

-00

n=0

X (co) = Y, x ( n ) e ~ Jm

x(n)

-=o

= 0 ,1 ,2 ,...,

N - \

t~ n T s

Copyright 2002-2003
Prof. Mario Malcangi

78

La trasformata di Fourier opera su segnali continui, con operatori matematici


continui e produce risultati continui. La natura discreta e finita del computer non
consente limplementazione dellanalisi frequenziale sotto tali condizioni. La
trasformata di Fourier tempo discreto (DTFT) in parte risolve questo problema in
quanto capace di trattare i segnali campionati, quindi un buon punto di partenza
per pervenire alla versione discreta della trasformata di Fourier (DFT).
Per passare dalla DTFT alla DFT sono necessari due passaggi, uno che limita il
numero di campioni oggetto di trasformazione da infinito a N e un altro che
discretizza la variabile frequenza co.
Eseguendo queste trasformazioni si ottiene la trasformata discreta di Fourier
(DFT), un modello matematico discreto per lanalisi frequenziale del segnale,
idoneo a essere implementato su computer, in particolare sui digitai signal
processor (DSP) per applicazioni real-time di natura embedded.
v

E interessante osservare che la discretizzazione della trasformata di Fourier


impone unartificiosa periodicit del segnale. La DFT opera su una sequenza
finita N di campioni del segnale prelevati da una sequenza infinita o di lunghezza
superiore. Ci implica una forzatura sulla natura del segnale, che, come si vedr
in seguito, comporter degli artefatti nei risultati di analisi e delle opportune
strategie di minimizzazione di tali artefatti (finestratura).

Analisi del suono


DFT: notazione

27/01/2004-

Copyright 2002-2003
Prof. Mario Malcangi

79

La DFT consente di rappresentare i segnali discreti (campionati) con una


semplice sommatoria di prodotti. Si tratta quindi di un algoritmo di

elaborazione numerica molto semplice dal punto di vista della struttura di calcolo
(facile da codificare in termini di programmazione), ma estremamente intensivo
dal punto di vista computazionale (difficile da eseguire in tempo reale).
Per esempio, per analizzare un secondo di segnale vocale campionato a 8000 Hz,
con la DFT necessario eseguire, tra le altre operazioni, almeno 8000 x 8000 =
64.000.000 di moltiplicazioni e somme in un secondo !!! Considerando la
moltiplicazione e somma una sola istruzione (come per i DSP), sarebbe
necessaria una potenza di calcolo di oltre 64 MIPS (Milioni di Istruzioni Per
Secondo) solo per eseguire la DFT in tempo reale !!!

Analisi del suono


D F T : c o d ific a

avi,A'
.liiicilff khiVWiM
, W

m i

t r i i i W

.f l it /

Ir iT , HI* rUiH
t

HiRV|IliWlM

T O ;,)

4d' ***' - - u .itili

f o r ( i= 0 ; i < N - l ; i-H-)

*ItiM
%
*"! m a r ngiX...
M
i"
p

si<i

In -llrIT' 'li1* *ih 1

r l'ir

DFT diretta

Il

I ' ! '

M i
.

f o r ( |= 0 ; j < Nv /22 - l ; I+ + )

n i
M*

X'HIKmi {

Iti

k .

in .:

t.-til

H4*

ri
-

>
i

11!

K
:fl
; r .. -||| J : -

li,--u li'
X R ) = X R ( j) + x ( i) * c o s ( 3 .1 4 1 5 9 * I * J /N ) /( N /2 ) ;
.1

I MW* I *

_Ll t*J 1*1f e

ti: ih

1
;V
'-
:(;.i -nil1 I,;,VI|,n;JiM|l*

O .

III ff

' *)
.

(iF ,;r

tri r.
t i .lia I
M| | | *4

X I ( j ) = X I ( j) + x ( i) * s in ( 3 .1 4 1 5 9 * I * J /N ) /( N /2 ) ;

IH 1 V
r

t
"1fr.,

llllY ! !

l ! 1 I
H
*M
I l

I'

1 .1

%
h

I . I i .

i l i ' I 1 , 1 1 !

min'1!

i 1*'., i'.'LLr;H

Mm!
.,! M Imi'Un.| *v
'|l H' ivJllf
P itti
Jclrii
f o r ( i= 0 ; i < N / 2 - l ;i + + )
T.
f o r ( j= 0 ; j< N - l;i- H - )
m
*iM

Il

I liti

DFT inversa

\y
11

! ' i i m .

imhi
*

i
l\
Il |.nl.Ui.l'lr
*

rv
.Mi
i r

FUI

II111

V | VM

I4

(ft1I

I .

x ( j) = x ( j) + X R ( i) * c o s ( 3 .1 4 1 5 9 * I * J /N ) + X I ( i) * s in ( 3 .1 4 1 5 9 * I * J /N ) ;
}

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

80

La codifica della DFT abbastanza semplice in quanto consiste di un ciclo per il


calcolo della singola componente frequenziale inserito in un altro ciclo che
indicizza tutte le possibili frequenze.
La DFT inversa altrettanto semplice in termini di codifica.

Analisi del suono


Trasformata Veloce di Fourier (FFT)lI*

La trasformata veloce di Fourier (Fast Fourier Transform, FFT) una versione


ottimizzata ed efficiente della trasformata discreta di Fourier (DFT) per il calcolo
dello spettro del suono eseguendo un numero inferiore di calcoli.
Il concetto fondamentale su cui si basa la velocit della FFT che una DFT pu
essere scomposta in DFT applicate a porzioni di segnale inferiori. Il numero di
calcoli eseguito da una DFT partizionata in DFT di ridotte dimensioni inferiore
a quello dellequivalente DFT non partizionata.
Lapplicazione esaustiva della scoposizione della DFT in DFT di minore
dimensione e lapplicazione estensiva di propriet intrinseche come ad esempio la
simmetria, portano alla formulazione di un modello di calcolo veloce ed efficiente
della trasformata di Fourier discreta, chiamato FFT.
Se una DFT richiede un tempo di calcolo proporzionale al quadrato del numero di
campioni corrispondenti alla finestra di segnale da analizzare, la FFT
proporzionale al numero di campioni moltiplicato il logaritmo (base 2) di tale
numero.

Analisi del suono


Codifica della trasformata Veloce di Fourier (FFT)
FFT(, M, N)
complex A(N)> U, W, T

PI - 3.141592653889793

N-Z**M

for (L - 1; L < M; L++)

NV2-N /2

LE - 2"*L

N M l-N -l

LEI = LE/2

J-l
>

U- (1,0;0,0)

for (Il; icN M l; I++)

W =>eomplcx(cn(Pl/LEl), *ln((PT/LE1))

{ if ( I < J )

for (J 1; J < LEI; J++)

{ T=A(J)

for (I - J; T< N; I - I+LE)

A(J) - A(I)
A(I)**T

B it
R eversing

Passo

K = NV2

IP I + LEI

Butterfly

T A(IP) * U

Gruppo

A(IP) - A(I) - T

while (K < J)

A(I) = A(I) + T

{ J = J-K

u =u * w

K = K/2

)
J =J +K

>
Copyright 2002-2003
Prof. Mario Malcangi

27/01/2004

82

algoritmo della trasformata veloce di Fourier


di quattro nuclei di calcolo.
Il bit-reversing unoperazione preliminare di scombinazione (scrambling) dei dati di
infatti
efficientemente i calcoli. Questo ordinamento consiste nellindicizzare i dati (campioni di
numerica
invertendo
termine
campioni
Indice lineare

Indice bit-reversed

000

000

001

100

4
V

010

010

Oli

110

100

001

101

101

110

011

111

111

Gli altri tre nuclei di calcolo rappresentano leffettivo calcolo della trasformata veloce di
Fourier, basata su una doppia iterazione (Passo e Gruppo) che ingloba una terza
iterazione, cio il nucleo di calcolo (FFT kernel) chiamato Butterfly.

La periodicit (perfetta) della forma donda un concetto astratto in quanto non


possibile produrre un suono assolutamente stabile in termini di frequenza e di
ampiezza.
Il tono puro (sinusoidale) quindi un modello teorico.

Analisi del suono


Finestratura: quasi periodicit
Ampiezza

Tempo

Ripetizione della forma donda con


variazioni di ampiezza e frequenza
Copyright 2002-2003
Prof. Mario Malcangi

27/01/2004

'

84

La quasi periodicit una caratteristica dei suoni generati dalla maggior parte
forma
ripetitivit tali per cui vi sono piccole variazioni del periodo di oscillazione e
forma
sostanzialmente stazionario.
O L JL

W A A A W A t / J L

- -------- ^

--------- --------

-------------- ----------------------------------------------------------

Analisi del suono


Finestratura: ipotesi di stazionariet

Per eseguire lanalisi del suono necessario disporre di un segmento temporale


del suono pi o meno ampio. L ampiezza temporale di tale segmento
significativa relativamente alla precisione stessa dellanalisi.
Lanalisi del suono si basa sullipotesi di stazionariet dello spettro. Lipotesi di
stazionariet implica che lo spettro del suono sia stabile (statico). Questa ipotesi
implica che la forma donda sia perfettamente periodica con durata del periodo
pari alla durata del segmento considerato.
Poich ci non vero in assoluto in quanto plausibile solo la quasi periodicit,
ne consegue che il suono oggetto di analisi pu essere pi o meno differente
rispetto a quello originario.

Analisi del suono


Finestratura: periodicit indotta

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

86

La finestratura del suono finalizzata allanalisi implica artefatti che possono


produrre risultati di analisi anche molto differenti da quelli reali. La distorsione
delle informazioni frequenziali conseguenti alla finestratura viene determinata (
tt
segnale audio per derivare il segmento
una
forma donda che porta quindi ad una

Analisi del suono


Finestratura: prodotto e convoluzione

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

87

Lanalisi del segnale pu essere applicata solo ad una porzione limitata di suono.
Loperazione di estrazione di una porzione limitata di suono implica
unoperazione di finestratura.
Loperazione di finestratura applicata ad un suono corrisponde al prodotto tra il
suono da analizzare e un suono particolare con forma donda rettangolare di
ampiezza minima nulla (0) e di ampiezza massima unitaria (1). Questo suono
(finestra) un impulso unitario di durata finita, quindi con funzione spettro
sen(x)/x.
Il prodotto nel dominio del tempo corrisponde alla convoluzione nel dominio
delle frequenze. Lo spettro della finestra si propaga quindi su ognuna delle
componenti ffequenziale del suono finestrato, producendo uno spettro risultate
fatto non di impulsi di frequenza come ci si aspetterebbe in accordo con lanalisi
armonica di Fourier, ma di una serie di campane in corrispondenza degli impulsi
di frequenza, cio la combinazione dello spettro del segnale con quello della
finestra.

Analisi del suono


Finestratura: campana e ripple

Dominio temporale

27/01/2004

inio frequenziale

Copyright 2002-2003
Profi Mario Malcangi

88

La finestratura di una porzione di suono produce implicitamente sullo spettro


reale ima serie di artefatti di cui i pi rilevanti sono la dilatazione a campana
dell impulso frequenziale e la serie di oscillazioni laterali (ripples) che
affiancano la campana principale.
Il primo ripple, dopo la campana si presenta, dal punto di vista spettrale, come
una rilevante distorsione armonica.
La larghezza della campana porta invece al mascheramento delle componenti
frequenziali effettive del segnale molto prossime e di piccola ampiezza rispetto
ad altre componenti di grande ampiezza.
La tecnica di finestratura (windowing) finalizzata a minimizzare queste
distorsioni armoniche

Opportune funzioni di finestratura possono minimizzare i ripple e restringere le


campane prodotte dallazione di finestratura. Si tratta delle cosiddette finestre
cosenate, caratterizzate fondamentalmente da una ampiezza quasi nulla in
corrispondenza degli estremi e unampiezza unitaria al centro. Lampiezza quasi
nulla agli estremi serve a minimizzare il drastico effetto di troncamento implicato
dalla finestra rettangolare.
Le finestre cosenate consentono di ridurre la larghezza della campana e di ridurre
lampiezza del primo ripple, in modo da migliorare il rapporto segnale/rumore tra
la componente frequenziale e il rumore costituito dai ripple.
Lo svantaggio quello che il segnale in prossimit degli estremi della finestra
fortemente attenuato, quindi sar scarsamente rappresentato nello spettro.

La risoluzione frequenziale dipende dalla dimensione temporale della finestra di


analisi.
In particolare, la risoluzione frequenziale inversamente proporzionale alla
dimensione temporale della finestra di analisi.
La minima frequenza misurabile F = 1/T, ove T la dimensione temporale della
finestra di analisi.
Le altre frequenze misurabili sono solo tutti i multipli interi della frequenza
minima, fino ovviamente alla frequenza massima prevista dal teorema del
campionamento (met della frequenza di campionamento).

Analisi del suono


Modello stazionario

27/01/2004

* * *

Copyright 2002-2003
Prof. Mario Malcangi

91

Lanalisi frequenziale del suono di natura stazionaria. Ci implica che lo


spettro risultante si riferisce a tutta la porzione di segnale inclusa nella finestra.
Se una componente armonica del suono varia in ampiezza e posizione
frequenziale, questa non pu essere misurata in termini analitici in quanto non
esiste alcun riferimento temporale relativamente a ognuna delle componenti.

Analisi del suono


Modello stazionario a tempo breve

(> M r * * t u a l l l t i l

I a M M

W /*

il

27/01/2004

III

ft V

Copyright 2002-2003
Prof. Mario Malcangi

92

Per applicare la tecnica di analisi frequenziale del suono necessario determinare


gli intervalli di tempo in cui il suono stazionario (quasi stazionario). La finestra
di analisi non deve superare il massimo intervallo di stazionariet del suono, in
modo da poter considerare lo spettro risultante corrispondente ad una porzione di
suono stazionario.

Analisi del suono


Analisi dinamica

* * % *

/// * #

V M 4Y *

VAVW *

l l ' v

77f H f * . > V * *

k A /M ,tA M iA l

'

fi
T

ft t fit t lifc

27/01/2004-

Copyright 2002-2003
Prof. Mario Malcangi

93

Lanalisi a finestre (stazionarie) del suono porta ad una rappresentazione dello


spettro in funzione anche del tempo, producendo una rappresentazione
tridimensionale. La dimensione temporale tiene conto della successione nel
tempo delle finestre applicate al suono.

Analisi del suono


Sonogramma

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

La rappresentazione tridimensionale dello spettro pu essere effettuata su due


dimensioni quantitative (tempo-frequenza) pi una terza dimensione qualitativa
(ampiezza). Si tratta del sonogramma. Lampiezza della componente
frequenziale viene rappresentata in termini di scala di colori (scala di grigio).

Analisi del suono


Esempio: suono armonico (violoncello)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi*Il

95

Il suono di violoncello di natura armonica, cio la frequenza delle sue componenti


spettrali sono multipli interi della frequenza fondamentale. Ci conseguenza della
natura della sorgente, la corda vibrante.
La corda vibrante produce una suono caratterizzato da una frequenza fondamentale e una
successione armonica di frequenze con ampiezza decrescente rispetto alla fondamentale,
quindi molto simile al suono con forma donda a dente di sega.
Il suono prodotto dalla corda vibrante viene modificato dalla caratteristica risonante della
tavola e cassa armonica dello strumento, portando cos alla determinazione del timbro
dello strumento.
La modalit di eccitazione della corda porta ad una continua variabilit della forma
donda, quindi dello spettro. In particolare, la fase di attacco un elemento connotante
del timbro.
Lanalisi del suono di uno strumento armonico, come ad esempio il violoncello, pu
riguardare le caratteristiche timbriche stazionarie al fine di determinare la
caratterizzazione frequenziale. In tal caso di estrae una porzione del segnale audio nella
fase stazionaria (tenuta).
Le fasi di attacco e di decadimento delloscillazione non sono significative nella
determinazione della caratteristica timbrica dello strumento di base dello strumento
(caratteristiche di risonanza), anche se sono significative per caratterizzare la modalit di
eccitazione della sorgente (corda).
Lanalisi frequenziale delle fasi di attacco e di decadimento richiede una tecnica di analisi
frequenziale a tempo breve (short-term Fourier analysis), in modo da poter ben
rappresentare le informazioni spettrali variabili nel tempo.

Analisi del suono


Esempio: suono inarmonico (tamburo)

Onda stazionaria

0 -

t(ms)

0.152

0.155

0.161

0.158

0.164

0 dB I

Spettro stazionario

0
27/01/2004

1.25

2.5

3.75

5.0

6.25

f (kHz)

Copyright 2002-2003
Prof. Mario Malcangi

96

inarmonica
vibrante) produce una componente fondamentale di frequenza abbastanza bassa e
armonico
fondamentale e di ampiezza decrescente.
In questo caso le fasi di attacco, tenuta e decadimento sono difficilmente
categorizzabili. La forma donda continuamente variabile, quindi, quali
porzione del suono di tamburo viene analizzata, lo spettro ottenuto non
r a n n r e s e n ta tiv o d e lla n a tu r a timbrica dello strumento.

Modifica del suono

27/01 /2004

Copyright 2002-2003
Prof. Mario Malcangi

99

Modificare un suono pu essere necessario per vari motivi: per eliminare del
rumore, per simulare un effetto ambiente, per amplificarlo, per identificare
infonnazioni nascoste, ecc.
Lanalisi frequenziale consente di ottenere le necessarie infonnazioni per
consentire azioni di modifica. Il filtraggio la tecnica fondamentale di modifica
della struttura informativa (frequenziale) del suono operando nel dominio
temporale.
Per approfondimenti: [Malcangi 03]

Modifica del suono


Natura filtrante dei sistemi

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Il filtraggio un operazione di elaborazione del segnale che consente di


modificare lo spettro di un segnale qualsiasi in maniera mirata.
Tutti i sistemi producono sul segnale trattato unazione di filtraggio.

Possiamo dire che il filtraggio un funzionamento intrinseco dei sistemi, di


natura passiva quando non desiderato (ad esempio per gli amplificatori), oppure
di natura attiva quando desiderata (ad esempio i filtri veri e propri).
Quanto detto sopra evidenzia che il filtraggio allo stesso tempo uno strumento
di elaborazione del segnale e un comportamento dei sistemi. Da ci si deduce che
possibile utilizzare la natura filtrante di un sistema per correggere lazione
filtrante di un altro sistema.
Perch un sistema si comporta da filtro?

Qualsiasi segnale che attraversa un sistema (ingresso/uscita) subisce unazione di


ritardo che dipende dalla natura dei componenti presenti in tale sistema. Il ritardo
non altro che un differimento nel tempo del segnale. Se il segnale entra in un
sistema allistante t, alluscita del sistema possiamo osservare un effetto
conseguente solo dopo un certo intervallo di tempo.
Leffetto del ritardo, applicato ad un segnale variabile nel tempo, produce effetti
differenti a seconda della velocit di variazione del segnale. Poich ogni segnale
comiesso, secondo la teoria di Fourier, composto da segnali elementari
sinusoidali di varia frequenza ampiezza e fase, il ritardo produce un effetto
differenziato su ognuna delle componenti frequenziali, portando cos alla
modifica della struttura ffequenziale del segnale, quindi alla modifica
dellinformazione di segnale.

Modifica del suono


Natura filtrante dei sistemi (cont.)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

101

Il ritardo del segnale implica un fenomeno combinatorio che pu amplificare una


componente frequenziale (aumento di ampiezza) oppure attenuarla.
Ad esempio, un semplice sistema che combina il segnale diretto con quello
ritardato di un certo intervallo di tempo, un filtro in quanto amplifica le
componenti a bassa frequenza e attenua quelle ad alta frequenza. In particolare,
alle basse frequenze lefFetto del ritardo produce un effetto di amplificazione del
segnale di ingresso in quanto al nodo di somma pervengono due segnali quasi
identici, la cui somma produce un segnale di ampiezza circa doppia rispetto a
quello di ingresso (amplificazione). Alle alte frequenze il segnale di uscita di
ampiezza inferiore a quello di ingresso e, in particolare quando il ritardo pari
alla met del periodo della componente frequenziale, al nodo di somma sono
presenti il segnale diretto e il suo equivalente in completa opposizione donda,
determinando un segnale di uscita di ampiezza nulla.
Il filtro dellesempio cancella le frequenze con periodo multiplo del doppio del
ritardo di sistema.
In generale, questo sistema ha una caratteristica di filtraggio che da 0 alla
frequenza 1/(2KR) modifica lo spettro del segnale in ingresso in maniera
progressiva fino ad annullare lampiezza della componente di frequenza l/(2kR).

Modifica del suono


Natura filtrante dei sistemi (cont.)
Cosine Comb

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Si definisce funzione di trasferimento lazione di un sistema sul segnale di


ingresso per determinare il segnale di uscita. A parte il caso dellamplificatore
ideale, tutti gli altri sistemi si caratterizzano con unazione di modifica
dellampiezza in modo selettivo rispetto alla frequenza. La funzione di
trasferimento rappresenta completamente la natura filtrante dei sistemi.
Nel primo esempio il segnale viene combinato con il segnale diretto. La funzione
di trasferimento evidenzia una natura filtrante di tipo elimina banda multiplo,
con frequenza centrale eliminata pari a (K+0.5/R).
Nel secondo esempio il segnale viene combinato con il segnale diretto. La
funzione di trasferimento evidenzia una natura filtrante di tipo elimina banda
multiplo, con frequenza centrale eliminata pari a (K/R).

Modifica del suono


Uso del dominio frequenziale

Linformazione nei segnali nella struttura frequenziale. Quando tale struttura si


modifica, si modifica linformazione contenuta nel segnale.
La struttura frequenziale del segnale pu essere modificata variando
selettivamente lampiezza (ed eventualmente la fase) di ogni componente. Questa
variazione equivale alla variazione dampiezza che produce un amplificatore che
processa un segnale. Lamplificatore amplifica, per definizione, tutte le
componenti frequenziali del segnale in uguale misura e quindi non modifica
rinformazione del segnale solo in termini di volume. .
Quando del segnale sono modificate le componenti frequenziali in maniera
differenziata, allora non si parla di amplificazione, bens di filtraggio.
Tutti i sistemi hanno caratteristiche filtranti (anche se modeste). Ad esempio, un
canale trasmissivo (il doppino telefonico) si comporta come un filtro in quanto
modifica la struttura ffequanziale del segnale che Tattraversa.
Dal punto di vista temporale il filtraggio produce una modifica della forma
donda, mentre dal punto di vista frequenziale produce una modifica dello spettro.

Modifica del suono


Modifica della struttura frequenziale del suono

V,(t)

vu

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

104

Il filtraggio dei segnali continui (analogici) si ottiene tramite sistemi elettronici


basati su componenti di natura capacitiva e/o induttiva. Questi componenti
elettronici si differenziano dagli altri (ad esempio le resistenze) in quanto dotati di
memoria. Il condensatore ad esempio un sistema elettronico che pu
memorizzare uninformazione sotto forma di carica elettrica. Inoltre, questi
componenti elettronici hanno un comportamento selettivo dipendente dal tempo
(quindi dalla frequenza).
Grazie a queste propriet, opportuni circuiti elettronici basati su condensatori e
induttori consentono di realizzare i cosiddetti filtri.
Un segnale che attraversa un filtro modificato nella sua struttura frequenziale.
I filtri sono utilizzati per modificare appositamente la struttura frequenziale del
segnale allo scopo di elaborare linformazione in esso contenuta.
Ad esempio, i filtri sono utilizzati nellelaborazione del segnale audio (musicale)
per separare linformazione a bassa frequenza da quella ad alta frequenza per
realizzare i cosiddetti cross-over, ovvero il sistema che consente di ripartire
correttamente il segnale tra altoparlanti a bassa frequenza (woofer) da quelli ad
alta frequenza (tweeter).

Un filtro si caratterizza tramite la funzione di trasferimento. Questa descrive


come lampiezza del segnale viene modificata in funzione della frequenza. La
funzione di trasferimento si ottiene tramite uno studio in regime variabile,
utilizzando la trasformata di Laplace e la trasformata di Fourier.

Il segnale quando attraversa un sistema subisce unazione di modifica della struttura


frequenziale, ovvero viene filtrato. La natura del filtraggio subito dal segnale
completamente descritta dalla funzione di trasferimento.
La funzione di trasferimento definita come rapporto tra segnale filtrato (segnale di
uscita) e segnale prima del filtraggio (segnale di ingresso). Essendo il filtraggio un
processo che agisce modificando le componenti frequenziali, la funzione di trasferimento
definita nel dominio delle frequenze, cio come rapporto tra lo spettro del segnale
filtrato (di uscita) e lo spettro del segnale non filtrato (di ingresso).
La funzione di trasferimento descrive completamente il comportamento del filtro nella sue
capacit di modifica selettiva delle frequenze del segnale e quindi anche chiamata
risposta in frequenza.
La funzione di trasferimento del filtro, detta anche caratteristica, rappresentata
attraverso un diagramma descritto nel dominio delle frequenze.
I parametri caratterizzanti un filtro sono tutti inclusi nella sua funzione di trasferimento:
Banda passante: lintervallo frequenziale entro cui le componenti frequenziali del
segnale non sono modificate;
Banda attenuante: lintervallo frequenziale entro cui le componenti frequenziali del
segnale sono modificate;
Frequenza di taglio: la frequenza in cui avviene il passaggio tra banda passante e
banda attenuante;
Pendenza della banda attenuante: lentit di attenuazione della banda attenuante;

I filtri possono essere caratterizzati da una funzione di trasferimento qualsiasi, ma


nella pratica si utilizzano principalmente filtri con funzioni di trasferimento
abbastanza semplici.
Passa basso: attenua le frequenze alte e lascia inalterate quelle basse
Passa alto: attenua le frequenze basse e lascia inalterate quelle alte
Passa banda: attenua le frequenze alte e basse al di fuori di una banda centrale

che lascia inalterata;


Elimina banda (notch): attenua le frequenze in una banda centrale, lasciando

inalterate quelle al di fuori di tale banda;


Filtro multibanda (pettine): si comporta come un filtro passa banda oppure

elimina banda multiplo;


Un filtro con una funzione di trasferimento qualsiasi ottenibile da una opportuna
composizione lineare serie e/o parallelo di filtri di base.

Modifica del suono


Filtri digitali
y(n) = a0 x(n) + a 1 x(n-1) + a2 x(n-2)

x(n)

x(n)

x(n-1)

ZT

x(n-2)

r
a0 x(n)

a1 x(n-1)

<>

a2 x(n-2)

<
D
a0x(n) +a1 x(n-1)

*y(n)

x(n) il segnale di Ingresso campionato: x(0) a t = 0, x(1) a t = Ts, x(2) a t = 2 T s ...


T s : periodo di campionamento = 1/F8
an = coefficenti del filtro

Z"1= ritardo unitario


(restituisce in uscita il campione entrante dopo un periodo di campionamento)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

108

I filtri digitali derivano dai filtri analogici in quanto possibile emulare con i
componenti digitali le stesse funzioni dei componenti analogici.
La memoria digitale (numerica) consente di memorizzare i campioni del segnale
per ottenere 1elaborazione differita nel tempo, in accordo con il meccanismo di
filtraggio. La moltiplicazione digitale (numerica) consente di modulare lazione
delle memorie in maniera da simulare la diversa capacit di memorizzazione di
carica di condensatori di differente capacit.
Laspetto pi attrattivo della realizzazione digitale dei filtri sta nella semplicit
del modello algoritmico: si tratta di una semplice sommatoria di prodotti. Inoltre,
la possibilit di rappresentare attraverso il firmware la struttura funzionale del
filtro apre innumerevoli possibilit applicative, prima impossibili da realizzare
con la componentistica analogica.

Modifica del suono


Modello matematico dei filtri digitali

v -i

y(n) = Ya( j ) x( n
y=o

+ 'Lb(k)y(n
k =1

Risposta finita
allimpulso
FIR

Retroazione

Risposta infinita
airimpulso
IIR

27/01/2004

Copyright 2002-2003
Prof. Mario MalcangiI

109

La funzione di trasferimento dei filtri calcolata attraverso un processo chiamato


risposta in frequenza. La risposta in frequenza si ottiene computando lo spettro
del segnale di uscita del filtro quando il segnale di ingresso un impulso
(risposta allimpulso).
I filtri digitali, in base alla natura della risposta allimpulso, si classificano in due
tipologie fondamentali: IIR e FIR.
I filtri IIR (Infinite Impulse Response) derivano direttamente dal modello
analogico. Si caratterizzano per la durata infinita del segnale di risposta
allimpulso.
I filtri FIR (Finite Impulse Response) non hanno un corrispettivo analogico,
quindi sono realizzabili solo nel dominio digitale. La risposta allimpulso in
questo caso di durata finita.

Modifica del suono


Modello grafico dei filtriI

I filtri possono essere rappresentati anche tramite schemi funzionali (grafici) che
traducono in termini di blocchi di elaborazione di base il modello matematico
discreto.
La rappresentazione matematica utile alla progettazione di natura firmware
dellalgoritmo, soprattutto quando si utilizzano architetture di calcolo sequenziali
o a limitato parallelismo interno. La rappresentazione matematica dellalgoritmo
non evidenzia i parallelismi computazionali intrinseci dellalgoritmo.
La rappresentazione grafica dellalgoritmo consente invece di evidenziare i
parallelismi esecutivi e quindi, in una eventuale realizzazione hardware, di
sfruttarli adeguatamente in modo da ottenere le migliori prestazioni esecutive
possibili.
Osservando ad esempio il modello grafico del filtro, si rileva 1esistenza di
parallelismi esecutivi sia nella componente diretta (componente FIR), sia in
quella di retroazione. Tutti i prodotti tra i campioni e i coefficienti possono essere
eseguiti in parallelo (contemporaneamente) se si dispone di tanti moltiplicatori
indipendenti, quanti ne sono rappresentati nello schema funzionale del filtro, e di
due sommatoli a ingressi multipli.

La convoluzione un algoritmo matematico fondamentale per la realizzazione


dei filtri. La convoluzione anche fondamentale per capire il meccanismo del
filtraggio.
Prima di introdurre lalgoritmo della convoluzione, necessario definire il
concetto di sistema lineare.
Un sistema lineare un sistema che evidenzia tre importanti propriet:
omogeneit, additivit e invarianza rispetto ai ritardi.

1 sistemi perfettamente lineari non esistono, n possono essere realizzati. Esistono


per i sistemi quasi lineari, cio con comportamento molto vicino a quello
lineare, tanto da poter essere correttamente (utilmente) considerati lineari. I filtri
FIR e IIR sono sistemi lineari.
Per verificare se un sistema lineare, sufficiente verificare sperimentalmente
che soddisfi le tre suddette condizioni.
La condizione di omogeneit si verifica applicando in ingresso un segnale x(n) e
misurando la corrispondente uscita y(n). Se applicando un segnale kx(n) luscita
ky(n), con k costante, allora il sistema ha la caratteristica di omogeneit.

Modifica del suono


Natura lineare di un sistema (additivit)

27/01 /2004

Copyright 2002-2003
Prof. Mario Malcangi

112

La condizione di additivit si verifica applicando in ingresso un segnale x j(n) e


misurando la corrispondente uscita y,(n), quindi applicando in ingresso un
segnale x2(n) e misurando la corrispondente uscita y2(n). Se applicando un
segnale somma (o differenza) di Xj(n) e x2(n) luscita pari a y,(n)+y2(n) (y((n)y2(n)), allora il sistema ha la caratteristica di additivit (sovrapposizione degli
effetti).

Modifica del suono


Natura lineare di un sistema (invarianza per i ritardi)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

113

La condizione di invarianza per i ritardi si verifica applicando in ingresso un


segnale x(n) e misurando la corrispondente uscita y(n). Se applicando un segnale
x(n) ritardato di k campioni luscita y(n) ritardata di k campioni, allora il
sistema ha la caratteristica di invarianza per i ritardi.

Modifica del suono


Funzione Delta (Segnale Impulso)

La funzione Delta (segnale impulso), ha una notevole importanza per lo studio e


ampiezza 1 per una durata infinitesima allistante t e ampiezza zero per qualsiasi
altro istante di tempo. Lequivalente discreto x(n)=S(k) ha ampiezza 1 al k-esimo
campione e zero per tutti gli altri campioni diversi da k. Lindice di
campionamento k in corrispondenza del quale si manifesta lampiezza unitaria
della funzione Delta identifica il ritardo.
Ad esempio, 8(3) ha ampiezza 1 in corrispondenza del campione 3 e zero in
corrispondenza di qualsiasi altro campione.
Limpulso ha una importante propriet nel dominio ffequenziale: il suo spettro
una costante di ampiezza unitaria. Dunque, il segnale impulso pu essere
utilizzato per studiare i sistemi lineari (i filtri lineari) in quanto si comporta come
la costante 1 nellalgebra lineare: 1 x h = h.

Modifica del suono


Scomposizione di un segnale qualsiasi in impulsi

Un segnale qualsiasi x(n) pu essere scomposto in una composizione lineare di


impulsi di opportuna ampiezza e ritardo. E esattamente quello che accade
quando un segnale qualsiasi viene campionato.
Moltiplicando un impulso 8(k) per ima costante m, si ottiene un impulso di
ampiezza m. Poich un segnale campionato x(n) una sequenza di impulsi di
ampiezza pari allampiezza del campione e di ritardo pari allistante di
campionamento, sommando insieme tanti impulsi modulati con 1ampiezza dei
campioni di x(n) ritardati dellindice di campionamento, si ottiene x(n).

Modifica del suono


Risposta alFimpulso

(n)

h(n)

T T >

n
5

(n) = [ , , , , , , , ,
0

h(n) = [ , , , . ,- . ,- . ,- . , ,..., ]
0

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

116

Ogni sistema che riceve in ingresso un segnale x(n) risponde in uscita con un
segnale y(n). y(n) il segnale x(n) modificato dalle caratteristiche funzionali del
sistema.
Quando un sistema riceve in ingresso un impulso S(n), questo risponde in uscita
con una segnale h(n). Il segnale h(n) la cosiddetta risposta allimpulso.
Quando il sistema lineare, la risposta allimpulso ha sempre la medesima forma
donda a meno di un fattore di scala (omogeneit) e di ritardo (invarianza rispetto
ai ritardi).

Modifica del suono


Convoluzione: dominio del tempo
1-

y(n-l)=x(l)*h(n)

1-

P
10

T I r

T*

x(n)
I

In

10
11 > *
n

y(n)=x(n)*b(n)

y(n ) =

y(n-3)=x(3)*h(n)

y(n)

x(r)

10

T ri ' "*
'

*h(r) = V x{m)h{n m)

m= 0
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

117

Poich un segnale qualsiasi x(n) una combinazione lineare di impulsi modulati


nel tempo e nei ritardi, luscita y(n) del sistema la somma delle singole risposte
allimpulso prodotte da ogni impulso che compone il segnale x(n) (principio di
additi vit).
Se h(n) la risposta allimpulso unitario 5(0), h(n-m) la risposta allimpulso
unitario 8(m). Modulando 5(m) con lampiezza dellm-esimo campione x(m) si
ottiene la singola risposta x(m)h(n-m). La somma di tutte le singole risposte
allimpulso produce luscita y(n).
Questa sommatoria la convoluzione, sinteticamente rappresentata da un
asterisco (*).
Un sistema (filtro) si caratterizza dunque tramite la risposta allimpulso. Quando
riceve in ingresso un segnale, convolve questo per la risposta allimpulso che la
caratterizza e produce in tal modo la relativa uscita.

Modifica del suono


Convoluzione: dominio della frequenza

T r >

X(k)
o

-------

H(k)

11 1 1

- 1

Y(k)

27/01/2004

------- Y (k)
H i r

X(k)H (k)

Copyright 2002-2003
Prof. Mario Malcangi

118

Una importantissima propriet della convoluzione la seguente: il prodotto di


convoluzione nel dominio del tempo corrisponde nel dominio frequenziale a un
semplice prodotto aritmetico, e viceversa, cio, il prodotto di convoluzione nel
dominio frequenziale corrisponde nel dominio del tempo a un semplice prodotto
aritmetico.
Ci significa che lo spettro X(k) del segnale di ingresso x(n) viene moltiplicato
per lo spettro H(k) della risposta allimpulso h(n), producendo in tal modo lo
spettro Y(k) del segnale di uscita y(n).

Uno dei principali vantaggi della convoluzione nel dominio delle frequenze la
possibilit di ottenere con estrema semplicit Foperazione inversa, la deconvoluzione.
Poich la convoluzione consente di ottenere il segnale di uscita y(n) quando sono noti il
segnale di ingresso x(n) e la risposta allimpulso, la deconvoluzione consente di ottenere
il segnale di ingresso x(n) che avrebbe prodotto il segnale di uscita y(n) se x(n) fosse
applicato in ingresso ad un sistema con risposta allimpulso h(n).
In certe applicazioni noto il segnale di uscita e le caratteristiche del sistema che lha
generato, ma non noto il segnale di ingresso. Per ottenere il segnale originario x(n)
sufficiente eseguire la deconvoluzione, cio il rapporto tra lo spettro del segnale y(n) e
quello della risposta allimpulso h(n).
La deconvoluzione una specie di macchina del tempo in quanto consente di tornare
ricostruire
;o Caruso. !
strumentazioni
Purtroppo
anni, quindi non possibile eseguire una replica.
La deconvoluzione non pu resuscitare Caruso, ma pu resuscitarne, o meglio
ricostruirne, la voce originaria. Essendo ancora esistenti gli strumenti di registrazione
originari, possibile ottenere la funzione h(n) e quindi il suo spettro H(k). Il segnale
registrato y(n) viene convertito in spettro Y(k). Tramite la deconvoluzione si ottiene
X(k), cio lo spettro del segnale originario x(n) che Caruso aveva prodotto quando fu
registrato agli inizi del 900.

Modifica del suono


Risposta in frequenza

Unaltra importante implicazione della convoluzione nel dominio delle frequenze


la cosiddetta risposta in frequenza.
H(k), lo spettro della risposta allimpulso, il rapporto tra lo spettro di uscita
Y(k) e lo spettro di ingresso X(k). Se il segnale di ingresso un impulso, il suo
spettro una costante (1). Ne consegue che H(k) uguale a Y(k) quando in
ingresso il sistema riceve un impulso, cio, lo spettro della risposta allimpulso
la risposta in frequenza del sistema.
La risposta in frequenza di un sistema descrive come il sistema modifica
lampiezza (e la fase) di ogni componente spettrale del segnale di ingresso in
corrispondenza di ogni frequenza.

Modifica del suono


Filtraggio (dominio del tempo)

Il filtraggio la modifica dellampiezza e della fase delle componenti


frequenziali di un segnale. La convoluzione un algoritmo che consente di
realizzare il filtraggio. sufficiente conoscere di un filtro la risposta allimpulso
h(n). Il prodotto implementa il filtro.

La dimostrazione evidente del fatto che la convoluzione di fatto un algoritmo di


filtraggio nel dominio delle frequenze. Qualsiasi componente frequenziale del
segnale di ingresso viene modulata in accordo con la caratteristica della risposta
in frequenza H(k), quindi il segnale di ingresso viene filtrato.

Modifica del suono


Risposta finita allimpulso

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

123

Grazie allalgoritmo della convoluzione possiamo realizzare virtualmente


qualsiasi tipo di filtro, basta conoscere del filtro che interessa realizzare la sua
risposta allimpulso h(n).
Se si tratta di un filtro esistente, ad esempio un filtro analogico che si vuole
realizzare in digitale, sufficiente fornire in ingresso a tale filtro un impulso e
digitalizzarne la risposta. Questa h(n), che inserita nel prodotto di
convoluzione, consente di realizzare lequivalente digitale del filtro analogico.
Se invece vogliamo ottenere un filtro con una determinata risposta in frequenza,
allora sufficiente definire H(k) e calcolarne la trasformata di Fourier inversa per
ottenere h(n), la risposta alPimpulso. Il filtro desiderato viene implementato
tramite la convoluzione.
La risposta allimpulso nei filtri di durata infinita, cio h(n) una sequenza di
lunghezza infinita. La conseguenza che il calcolo della convoluzione di
durata infinita, quindi impossibile da realizzare in termini numerici, cio con un
sistema di calcolo discreto come il calcolatore numerico.
La risposta allimpulso pu essere considerata di durata finita comunque dopo un
certo tempo, in quanto le variazioni di ampiezza diventano talmente piccole da
essere trascurabili.
Il filtri FIR (Finite Impulse Response) si basano sullalgoritmo della
convoluzione nellipotesi di risposta allimpulso finita.

Modifica del suono


Effetti della risposta finita allimpulso
b(t)t

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Rendere finita una risposta allimpulso infinita comporta delle conseguenze sulla
natura della risposta in frequenza del filtro.
Se di una risposta allimpulso infinita si ignora una parte, considerandola finita^
la risposta in frequenza reale evidenzia delle oscillazioni laterali (ripple) che la
risposta in frequenza ideale non presentava. Ci comporta che non vi una
perfetta corrispondenza alle specifiche funzionali del filtro e quindi la necessit
di operare in modo da minimizzare gli scostamenti del comportamento reale
rispetto a quello ideale.

Modifica del suono


Esempio di restauro di segnale
Segnale contaminato

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

125

Una delle pi semplici applicazioni del filtraggio FIR il moving average.


Questo filtro consiste semplicemente della media di M campioni:
y(n) = l/M[x(n)+x(n-l)+x(n-2)+ ... +x(n-M)]
Anche se non evidente, la risposta allimpulso di questo filtro h(n) = [1/M, 1/M,
1/M,..., 1/M], una sequenza di lunghezza M.
Questo filtro utile per la riduzione del rumore a larga banda, in particolare per
la ricostruzione di segnali digitali che attraversano sistemi rumorosi.
Computazionalmente il moving average un filtro estremamente economico in
quanto non contiene moltiplicazioni (tranne quella per il reciproco del numero di
campioni mediato), quindi pu essere implementato anche su processori CISC.

Modifica del suono


Moving average: risposta in frequenza

La risposta in frequenza del filtro moving average di natura passa-basso. I


parametri del filtro, frequenza di taglio, pendenza, ecc., sono determinati dalla
lunghezza della risposta allimpulso, cio, in questo caso, dal numero di campioni
mediato.

Modifica del suono


W indowed-Sy nc

Per ottenere un filtro passa basso con le desiderate caratteristiche di risposta in


frequenza si pu partire dalla definizione della risposta in frequenza H(k) e
quindi, tramite la trasformata inversa di Fourier, ottenere h(n) da inserire nel
modello di filtraggio basato sulla convoluzione.
La risposta in frequenza di un filtro ideale passa basso una funzione H(k) che
vale 1 fino alla frequenza di taglio e 0 dalla frequenza di taglio in poi (funzione
impulso di durata finita).
La trasformata inversa di Fourier di H(k) h(n) = sen(x)/x, cio la funzione sync.

Modifica del suono


Windowed-Sync
A

A Risposta allimpulso ideale

Finestra

+oo

o
00
0

A f Risposta allimpulso reale

o
^ |

o
o

27/01/2004

t
Copyright 2002-2003
Prof. Mario Malcangi

Risposta in frequenza reale

f
128

La funzione h(n) = sen(x)/x di durata infinita e necessita di essere troncata. Il


troncamento netto della risposta allimpulso provoca una modifica della risposta
in frequenza ideale. Sia nella banda passante, sia in quella attenuante, compaiono
dei ripple. La banda di transizione si estende. La pendenza aumenta. Agli estremi
della banda di transizione vi sono delle sovraelongazioni.

Modifica del suono

Windowed-Sync
A Risp osta al lirapuJ Iso idei ile

F in estra

/\
/v ,
\
r
V V

R isposta allim pulso reale

R isposta in freq u en za reale

o
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

129

Gli effetti del troncamento della risposta allimpulso possono essere minimizzati.
Il troncamento di fatto una operazione di finestratura. Come gi osservato
nellanalisi del segnale, la finestratura netta il prodotto tra il segnale da limitare
in durata e la funzione finestra rettangolare. Se la funzione finestra progressiva
e non netta come quella rettangolare, allora gli effetti del troncamento vengono
minimizzati.

Da ci deriva il nome wndowed-sync per questa tipologia di filtri passa basso.

Modifica del suono


Windowed-Sync

Blackman : w{n) - 0.42 - 0.5cos(2;m./2f +1) + 0.08cos(4^7z/2M +1)

27/01 /2004

Copyright 2002-2003
Prof. Mario Malcangi

- M<n<+M

130

Le tipiche finestre utilizzate per i filtri windowed-sync sono quelle cosenate di


Hamming e Blackman.

La trasformata Z un caso di trasformazione di dominio di rappresentazione del


segnale pi ampio di quello della DFT (Trasformata Discreta di Fourier). Infatti,
mentre la DFT moltiplica e somma i campioni di segnale per un particolare
valore complesso (e"jo)), la trasformata Z pu utilizzare per z un qualsiasi valore
complesso. In particolare, quando z = ejallora la trasformata Z coincide con la
DFT.
La trasformata Z, essendo un caso pi ampio di trasformazione di dominio di
rappresentazione del segnale, consente di fornire maggiori informazioni circa la
natura del segnale stesso.

Modifica del suono


Effetti del ritardo

4|< j)^>11 JIJ

f il i

I ! if tinn i
H

m i

> i
I* if*
I
a

li

i i t . J

i :

I V i Vi l
ir i n

.,

l ' r - i f * .
n

i - l

*
,

'

if "

-I

. 1 .

I S .

' ' l

'

If!
' - I . -

- 1 .

Ui I

llJirfniMIifI - li1
* ? li

Th*

v91V f

[ , . 1 1 1 , 1 1

1
n

U f

>

n u f

' J

.1

'rtuniti
t i ,

r . i i

"i

1 H[Ll' (i] 'rii/


......

I.

'

* J

e
* V 1 ' , ' M
.11
4 .

(*T)

,/i
I l i
i

l l l Y !
; | r '

i M

- n

ij

1. 11r j ':ir

| f

' ';jyr,ii..1

-wj

It

i Ilo,:..il

) U i l

IM I

d r i l l i v *

i i,

r y - \

-,

.K

' W f

*
T

W ir I
I

1 1 .

i i

L , i V

*1' ir 1'*PnIM
'ltJi
IIIIII ,9f*Tlllf* VUVi
'

i l

l u

M | | |

f f f

a li

m r

m
t

. '* 1

J r ?

"
*

II

l | f 11

H I*

Passato

.
J l

feS'fei* ?*$

4 II II

> :

14-f

r , - 2

*ifylHi*jV
I

'
i i f v
.

1,41

" . p .

] f

..

- n

1 f 4H * H Mi

a 'iliIU II] I

a li

i ii

t I

-"MlpiV!

..." j'iif i-e :i'M

Mr.. viyii:.

\ rftlL li f i\f\\ * ti

i l , "

z*

i | . i ,

.|

1l

. U . l u

/ J l F

i l j

r i i

111.i,i
I I .

ili . r
'i t i

p i u

V F.'JI 'l|r
**

.Il I II

i. \

"

, i * S

i'

k !r,,. |i

,1

Ritardi

i , Jllfflflri
.i Vi'I (.
.r *-'N
I Vili
liil
I

111.

il

----

U r

Predizioni

ViiwbiT
27/01/2004

t i

*i.

Ih M'ini HHi Imj ,* * tfi


I 4* i. J i ]Im i 11
4
, jil A h u f
. W

Futuro

1nu* ,.uu f.. .lii'ifi.t

|J

' i

'

11

Rifilili
ex

S i

f ' M

V i !

.*

'!

Mi WhM*.

V |

|li

3 J I
i l . 1 '

'

1f
'

U t y

<

l i l U I

.4

nil : : 'id':rN'
.

'

4 . | | i

Ila

n, i l

I II

A,

Copyright 2002-2003
Prof. Mario Malcangi

132

Questo effetto di ritardo del segnale, per i sistemi digitali, cio che trattano
segnali campionati, il ritardo un multiplo del tempo di campionamento Tc>
quindi nTc, e conseguentemente lesponenziale complesso nel dominio delle
frequenze e snTc. Considerando esTc= z, i termini z"n rappresentano i ritardi
.-1
digitali (z_1 il ritardo unitario, pari ad un intervallo di campionamento).
Conseguentemente, i termini zn sono predizioni, cio anticipi di presentazione in
uscita.

I filtri IIR (Infinite Impulse Response) si caratterizzano per la durata infinita


della risposta allimpulso. A differenza dei filtri FIR che richiedono il
campionamento della risposta allimpulso, i filtri IIR producono la risposta
allimpulso attraverso la retroazione. Questa caratteristica consente di ottenere, in
forma numerica, la stessa funzionalit dei filtri analogici. La trasformata Z ed
altri metodi matematici (ad esempio la trasformata Bilineare) consentono di
modellizzare i filtri analogici per ottenerne lequivalente modello IIR numerico.
I filtri IIR hanno il vantaggio di essere molto compatti dal punto di vista
computazionale e facilmente parametrizzabili rispetto ai filtri FIR. Per contro
possono essere instabili, difficili da controllare in termini di aritmetica a virgola
fissa, non controllabili nella fase e numericamente ingestibili se di ordine troppo
elevati.

Modifica del suono


Filtro Passa Basso Primo ordine

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

1 3 4

Il pi semplice dei filtri IIR il filtro RC.


Utilizzando la trasformata Z possibile derivare lequivalente numerico del filtro
analogico RC.

Sintesi del suono

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

La sintesi del suono alla base di numerose applicazioni di audio digitale, dalla
realizzazione di strumenti musicali elettronici alla realizzazione di sistemi di
sintesi automatica del parlato. Tutte le metodologie di base, analisi e filtraggio,
concorrono alla implementazione delle principali tecniche di sintesi.
Per approfondimenti: [Moorer 77], [Moorer 75a], [Moorer 75b].

Sintesi del suono


Modellazione

x ( n T s) oppure

x(n),

< n < N

2 ?

T: perodo di campionamento

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

138

La sintesi digitale dei suoni consiste nel generare la sequenza di numeri x(n) che
un convertitore analogico-digitale produrrebbe in uscita se in ingresso ricevesse il
suono che si intende sintetizzare.
La sintesi digitale dei suoni pu essere ottenuta nel dominio del tempo oppure nel
dominio delle frequenze.
Nel dominio del tempo la sintesi digitale del suono pu essere realizzata tramite
la rappresentazione matematica discreta del suono, oppure tramite un modello di
generazione numerica dei campioni del suono da sintetizzare.

Il tono puro un suono che, in accordo con il modello armonico di Fourier,


costituito da ununica componente frequenziale, ovvero quella pari allinverso del
suo periodo di oscillazione.
Ad esempio, un tono puro quello prodotto dalloscillazione di un diapason.
Questo strumento analogico uno dei pochissimi che effettivamente in grado di
generare un suono sinusoidale quasi puro.
Il modello numerico del tono puro derivabile da quello continuo, sostituendo
alla variabile tempo continuo t la variabile tempo discreto (t = nTs ):
A(t) = A sin(27tF nTs + (p0)
La sequenza N di campioni, equivalente a quella ottenibile campionando per NTS
secondi un suono sinusoidale di ampiezza A, frequenza F, fase iniziale (p0,
ottenibile a controllo di programma come segue:

for (n=0; n<N; n++)


x(n) = A*sin(2PI*F*n*TC + FI)

Sintesi del suono


Tono puro (cont.)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

140

Il suono sinusoidale (tono puro) un processo ciclico, ovvero i valori numerici


che ne rappresentano il campionamento si ripetono ciclicamente. I valori
numerici (campioni) del suono sinusoidale possono essere derivati dalla
discretizzazione della funzione trigonometrica seno. E sufficiente discretizzare
un singolo ciclo in quanto i successivi cicli sono una ripetizione identica dei
valori numerici del primo ciclo (funzione periodica).
Ci porta al modello di generatore sinusoidale Look-Up Table (LUT): un periodo
della forma donda sinusoidale viene memorizzato in un blocco di memoria,
quindi tali valori vengono estratti (letti) ciclicamente e inviati a intervalli di
campionamento (Tc) al convertitore D/A.

Sintesi del suono


Tono puro (cont.)

tempo

tempo

Tabella
LUT

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

141

1 campioni sinusoidali contenuti in una tabella (blocco di memoria) letti tutti in


sequenza e ciclicamente consentono di generare una frequenza pari allinvero del
periodo determinato dal numero di intervalli di campionamento necessari per la
completa lettura della tabella: F ^ l/fS Tc).
Ulteriori frequenze (fondamentali) possono essere generate dalla medesima
tabella utilizzando opportunamente le tecniche di decimazione e di
interpolazione. Ad esempio, una decimazione 2:1 porta ad ottenere una frequenza
fondamentale pari al doppio di quella ottenibile dalla lettura 1:1 della tabella: F,=
2 Fj=l/(4 Tc).

Sintesi del suono


Look-up table (LUT)

Controllo
ampiezza

0*

yr
Tabella

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

La sintesi di segnali look-up table (a forma donda memorizzata), consente di


generare qualsiasi suono si cui si conosca la forma donda di base.

Sintesi del suono


Tono puro (cont.)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

143

Limplementazione di un generatore LUT relativamente semplice in quanto


implica lutilizzo di una porzione di memoria (tabella) per contenere i campioni
della sinusoide, di un meccanismo programmabile di indirizzamento per la
generazione della frequenza desiderata e di un moltiplicatore per il controllo
dellampiezza della sinusoide generata prima che venga fornita al convertitore
D/A.
Questo meccanismo di base pu essere esteso con facilit quando viene
implementato in termini di programmazione per avere il completo controllo della
generazione (frequenza, ampiezza e fase). Inoltre, essendo un modulo software,
pu essere replicato pi volte per ottenere un banco di generatori combinabili tra
loro tramite un mixer.

Sintesi del suono


Caratteristica dinamica del suono (es. clarinetto)
attacco

tenuta

decadimento

00

-------- 10.15:

__

0 dB -,

27/01/2004

0.158

0.161

t (ms)
0.164

fondamentale

1
0.155

_L

-Ir
1.25

lidULl
2.5

3.75

5.0

_
f (kHz)
6.25

Copyright 2002-2003
Prof. Mario Malcangi

144

Il modello stazionario di sintesi non adeguato alla sintesi di suoni reali,


soprattutto quelli prodotti dagli strumenti musicali.
I suoni reali si caratterizzano prima per la modulazione dampiezza: lampiezza
del segnale varia in continuazione durante tutta la sua manifestazione.
Landamento di questa caratteristica viene descritta tramite linviluppo di
ampiezza.
Linviluppo di ampiezza caratterizza il suono attraverso le tre fasi principali:
attacco, tenuta e decadimento.
Durante la fase di attacco e decadimento lo spettro del suono scarsamente
stazionario. Dutante la fase di tenuta lo spettro del suono abbastanza
stazionario.

Sintesi del suono


Dinamica dellampiezza (es. clarinetto)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

145

Linviluppo di ampiezza di un suono reale non riconducibile ad una semplice


segnale
una
attacco e decadimento al suono stazionario. Ogni componente frequenziale d
suono sottoposta ad una specifica modulazione dampiezza.
Lanalisi frequenziale di un suono di uno strumento evidenzia una differente
variabilit dellampiezza delle componenti ffequenziali: globalmente le
componenti seguono landamento di massima dellinviluppo dampiezza del
suono, ognuna con una sua specifica caratteristica.

Sintesi del suono


Jitter della frequenza (es. clarinetto)
F(kHz)

0
0
27/01/2004

100

200

300

400

t (ms)

Copyright 2002-2003
Prof. Mario Malcangi

146

Le componenti del suono, oltre a caratterizzarsi per una specifica variabilit


dampiezza, si caratterizzano anche per una specifica variabilit della frequenza,
cio la frequenza caratteristica della singola componente del suono risulta
modulata in ampiezza.
Il processo di variazione nel tempo della frequenza della componente
descrivibile in termini di inviluppo, in questo caso si parla di inviluppo di
frequenza.
Ogni componente si caratterizza per un suo specifico inviluppo di frequenza, che
comunque globalmente segue di massima un andamento globale caratteristico
proprio dello specifico suono.

Sintesi del suono


Prime due componenti di un suono di clarinetto
P rim a a rm o n ica

S eco n d a a rm o n ica

3
<D

cl

te m p o

s<D
icr
,e
tem p o

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

147

La sintesi del suono implica il completo controllo di ogni singola componente in


termini di variabilit dellampiezza e della frequenza, per tutta la durata
complessiva del suono.

Sintesi del suono


Sintesi additiva basata su LUT

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

148

La sintesi additiva consente di generare virtualmente qualsiasi suono di cui si


conosce la struttura armonica. Ogni componente armonica pu essere sintetizzata
da un generatore LUT. Ogni sintetizzatore LUT pu essere controllato in
ampiezza, frequenza e fase in maniera dinamica.

Sintesi del suono


Sintesi additiva (cont.)

Amp 1
Freq 1

O
O
O

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

149

La sintesi additiva consente di generare virtualmente qualsiasi suono di cui si


conosce la struttura armonica. Ogni componente armonica pu essere sintetizzata
da un generatore LUT. Ogni sintetizzatore LUT pu essere controllato in
ampiezza, frequenza e fase in maniera dinamica.

Sintesi del suono


Sintesi additiva

A t ( n ) s i n {n T \ k a j , + 2 ^ F 1 ( n ) ] }

k =\

n: indice di campionamento (t=nTs)


Ts: periodo di campionamento (Ts=l/Fs)
pulsazione della fondamentale in radianti (co j =2nf j)
f x: frequenza della fondamentale
k: indice di armonica
Ak(n): variazione ampiezza dellarmonica k al tempo nTs
M: numero totale delle armoniche
Fk(n): deviazione della frequenza della k-esima armonica al tempo nTs
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

150

La sintesi additiva una tecnica di generazione di suoni che opera nel dominio
del tempo sulla base di informazioni acquisite in fase di analisi ffequenziale:
ampiezza, frequenza e fase delle componenti frequenziali di un suono.
La sintesi additiva di natura armonica, nel senso che le frequenze delle
componenti sono multiplo della frequenza fondamentale del suono oggetto di
sintesi.
Questo modello di sintesi additiva consente di includere informazioni relative
alla variabilit dellampiezza e della frequenza delle componenti armoniche.
Ak(n) e Fk(n) sono infatti due funzioni discrete del tempo che descrivono, per
ogni componente armonica k, come, campione per campione, rispettivamente
lampiezza o la fase della componente varia.
Ak(n) rappresenta linviluppo dampiezza della k-esima componente del suono
oggetto di sintesi. Con tale funzione quindi rappresentare, componente per
componente, lesatta dinamica (attacco, tenuta e decadimento) che caratterizza un
suono reale (ad esempio un suono di pianoforte oppure di tromba). Questo
controlIa.dell3_diuamica di amqiezza effettuato nel dominio delle frequenze
molto pi realistico del controllo della dinamica del suono effettuato nel dominio
del tempo, in quanto nei suoni fisici ogni componente armonica ha una sua
specifica dinamica dampiezza che contribuisce alla caratterizzazione timbrica.
*'

Poich i suoni fisici non sono perfettamente armonici ma quasi armonici, la


sintesi additiva prevede, tramite la funzione Fk(n) di includere queste
informazioni di scostamento della componente dal rapporto armonico.

Sintesi del suono


Sintesi additiva (cont.)
n+ N - 1

n + N -\

X x(m)sm(27T

m)
F

m -n

x{m)cos(2;r

b k{ n )
m

A () = J a k2 ( n ) + b] (ri)

OXn)

m)
F

()x

tan (---- )
bX

1 d d k( n )
F M
2 TC

27/01/2004

dt

Copyright 2002-2003
Prof. Mario Malcangi

151

La sintesi additiva basata sullanalisi implica lestrazione delle informazioni


Ak(n) e Fk(n) dal suono x(m) che si desidera sintetizzare. Queste informazioni
non sono derivabili tramite un opportuno adattamento dellanalisi armonica di
Fourier [Moorer 75a] [Moorer 75b].
La finestra di analisi uguale al numero di campioni del periodo fondamentale
della forma donda del suono oggetto di analisi. Ci implica una stima
preventiva e molto precisa della frequenza fondamentale (pitch) del suono. Le
componenti calcolate sono la fondamentale e tutte le sue armoniche (multipli
interi della fondamentale).
La finestra di analisi di N campioni viene spostata nel tempo di un campione per
volta, in modo da campionare linviluppo dello spettro del suono a intervalli di
campionamento, quindi con la massima risoluzione temporale consentita dalla
frequenza di campionamento.
In tal modo si ottiene la parte reale bk(n) e la parte reale ak(n) dello spettro del
suono, da cui vengono derivate lampiezza Ak(n) e la fase Sk(n).
\(n ).

Sintesi del suono


Sintesi sottrattiva
Sorgente ar onica

AAAAAAA

) = (?!,*( 7=0

&=1

ak, bk : coefficenti del filtro con funzione di trasferim ento H(z)


G : guadagno globale
s(n): segnale sorgente
y(n): segnale sintetizzato___________________________________________________
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

152

La sintesi sottrattiva un processo inverso rispetto a quello della sintesi additiva:


invece di aggiungere componenti partendo dalla completa assenza di armoniche,
si sottraggono (modificano) componenti armoniche da un segnale particolarmente
ricco di componenti frequenziali (il rumore bianco per ottenere suoni inarmonici
e aperiodici o il treno di impulsi per ottenere suoni armonici e periodici).

Sintesi del suono


Sintesi FM (Modulazione di frequenza)

Deviazione

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Frquenza
modulante ()

153

La modulazione di frequenza (FM) una tecnica di generazione dei segnali che


ottimizza la problematica della sintesi dei suoni soprattutto quando la complessit
del suono tale da rendere impraticabile sia la tecnica additiva, sia la tecnica
sottrattiva, come appunto avviene per la generazione dei suoni di natura
musicale.
La sintesi FM consente di generare suoni con spettri frequenziali molto complessi
e soprattutto dinamici, ovvero con frequenze, ampiezze e fasi che variano con
continuit per tutta la durata del suono.
Per ottenere la modulazione FM sufficiente disporre di due generatori
sinusoidali controllabili in ampiezza e frequenza e combinabili opportunamente
tra loro proprio secondo uno schema di modulazione di frequenza.
E5 proprio questa semplicit del modello di sintesi a rendere la tecnica FM molto
comptetitiva (soprattutto in termini computazionali) rispetto alle altre tecniche,
soprattutto in applicazioni di natura aduio musicale, ove la complessit e la
dinamica spettrale dei suoni da produrre talmente elevata da rendere proibitiva
lapplicazione di qualsiasi altra tecnica tranne appunto la FM.

Sintesi del suono


Sintesi FM: modello matematico

/ ( t )=

A [sin a t + I sin fit]

A : am piezza di picco
I : indice di modulazione
a : frequenza portante (carrier) in rad/s
P : frequenza modulante in rad/s

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

154

La sintesi FM (Frequency Modulation) dei suoni una tecnica non basata


sullanalisi del suono per ottenere i dati necessari alla generazione. Questa
caratteristica indubbiamente vantaggiosa rispetto alla sintesi additiva e
sottrattiva basata sullanalisi, ma anche uno svantaggio in quanto non vi diretta
corrispondenza tra i parametri di controllo della modulazione FM e la natura del
suono che si vuole generare. Tranne che per casi semplici, difficile se non
impossibile stabilire a priori quali possano essere i corretti parametri di
modulazione FM per ottenere uno specifico suono complesso e dinamico.
La tecnica FM consiste nel variare la frequenza istantanea di unonda portante
(solitamente unonda sinusoidale) in funzione dellandamento di unaltra onda
detta modulante. Nelle applicazioni di telecomunicazione londa modulante il
segnale radio che si vuole trasmettere, mentre nelle applicazioni audio londa
modulante ha la funzione di produrre componenti armoniche laterali rispetto alla
frequenza della portante, ottenendo cos da un semplice segnale sinusoidale un
segnale ricco di armoniche.

Sintesi del suono


Sintesi FM: funzione dellindice di modulazione

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

155

La proliferazione delle componenti frequenziali nella sintesi FM audio


controllata dallindice di modulazione. Quando lindice di modulazione nullo
(1=0), non vi modulazione e lo spettro del segnale consiste di una sola
frequenza, quella della portante: il segnale sintetizzato un tono puro (sinusoide).
Quando I diverso da zero, al crescere dellindice di modulazione viene sottratta
crescente energia alla portante. Tale energia sotratta alla portante viene
distribuita su un numero crescente di componenti frequenziali laterali (side
frequency). Dunque, il suono da corposo diventa sempre pi sottile al crescere di
I.
Le componenti frequenziali laterali si manifestano a intervalli regolari dipendenti
dalla frequenza di modulazione.
Lo spettro risultante dipende quindi dallindice di modulazione relativamente alla
larghezza di banda e dalla frequenza di modulazione relativamente alla
distribuzione frequenziale.
La banda totale circa pari a 2(d+m), ove d la deviazione di frequenza ed m
la frequenza di modulazione.

Sintesi del suono


Funzioni di Bessel
1

Componenti laterali di 4 ordine (J4)


0.5 -f---------------------------------0.5 -

Componenti laterali di 5 ordine (J5)


Indice di modulazione

Indice di modulazione
Componenti laterali di 2 ordine (J2)
0.5

0
Componenti laterali di 3 ordine (JQ
Indice di modulazione

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

156

L ampiezza della portante e delle componenti laterali del segnale FM


determinata dalle funzioni di Bessel il cui argomento lindice di
modulazione I. Osservando le funzioni di Bessel per i vari ordini si pu
capire la ragione dellarricchimento frequenziale determinato dal crescere
dellindice di modulazione. In particolare, eseguendo lespansione
trigonometrica della modulazione di frequenza [Abramawitz 65] si ottiene:
f(t)= A {J 0(I) sinat + Jj(I)[sin(a+fi)t-sin(a-(3)t] +J2(I)[sin(a+2/3)t+sin(a-

Tale identit trigonometrica consente di evincere che la sintesi FM in


grado di produrre sequenze di componenti che, sotto determinate
condizioni possono essere in rapporto armonico. Ci accade in particolare
quando il rapporto tra la frequenza portante fc e la frequenza modulante fm
un numero razionale.
Per esempio, quando fc=fm allora:

J 5(I)sin(4fJ+...

Sintesi del suono


Sintesi FM: modello discreto

x ( n ) = A { n ) sin[ 2 n f n T t + 7()sin( 2 jrfmnT


A(n): ampiezza globale (inviluppo)
I(n): indice di modulazione
fc : frequenza portante (carrier)
fm : frequenza modulante
Ts : periodo di campionamento

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi*Il

157

La sintesi FM di suoni complessi, come ad esempio quelli degli strumenti


musicali implica un controllo variabile dellampiezza di picco A e dellindice di
modulazione I. Entrambi questi fattori di controllo della dintesi FM sono funzioni
del tempo, cio A(t) e I(t).
Il modello discreto della sintesi FM si ottiene discretizzando queste funzioni e le
funzioni sinusoidali portante e modulante.
La funzione A(n) controlla linviluppo di ampiezza del suono (attacco, tenuta e
decadimento). Questa una funzione lentamente variabile (rispetto alla velocit
di variazione della portante), quindi viene campionata a bassa frequenza.
La funzione I(n) controlla la dinamica delle componenti spettrali. Questa una
funzione lentamente variabile (rispetto alla velocit di variazione della
modulante), quindi viene campionata a bassa frequenza.
La portante e la modulante vengono campionate alla frequenza di
campionamento determinata dalla frequenza massima di banda che si vuole
ottenere, tipicamente nel caso audio oltre i 40000 Hz.

Sintesi del suono


Esempio 1

fllKHHtem

ilir ooctfo'*.'

M w jx s .h *

oo

f T ' dc
0
.*
f

T [

:*r

ocom.-^

, W

. 0 0 . 0 0 . 4

r3 * 'T

iV > C S > > 0

O f l.Q > } ! f i

& . O

0 0 , 1 * 4

> X .^ p .K > .O C if

A % 9

27/01/2004

2496 Ufi&n

Copyright 2002-2003
Prof. Mario Malcangi

In questo esempio di sintesi FM lampiezza A(n) della portante viene tenuta


costante, mentre lindice di modulazione viene fatto crescere in maniera costante.
La frequenza della portante uguale a quella della modulante e ci consente di
avere uno spettro armonico e monolaterale (one-sided).
Lo spettro risultante dinamico, anche in assenza della modulazione di
ampiezza, in quanto larmonica fondamentale, al crescere dellindice di
modulazione tende ad attenuarsi, mentre le armoniche superiori, assenti nella fase
iniziale, si evidenziano per valori alti dellindice di modulazione.
Lindice di modulazione controlla la struttura frequenziale sia in termini di
relazione tra la fondamentale e le armoniche successive, sia in termini di
dinamica delle armoniche, quindi consente di costruire la base timbrica del
suono.
Le famiglie di strumenti musicali (a corda, a fiato, a percussione, ecc.) hanno
sostanzialmente la stessa base timbrica (struttura armonica stazionaria), e si
differenziano per la differente dinamica (attacco, tenuta e decadimento).

Sintesi del suono


Esempio 2
An

M
i*
nil
ir
W
li
Irli
"
*
i l J iy oooooo;m
I * !

n (>$.**.?

|||If W W W 7*
l

. 0

f o d

.O

.O

, 0

f r , * * ;

. 5

, 2 <

oo.oo.oo.Ui4
iil.lLJl_.J_.B ill

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi*I

La funzione di modulazione di ampiezza A(n) consente di conferire al suono


prodotto dalla modulazione di frequenza controllata dalla funzione indice di
modulazione I(n) la specificit dello strumento musicale nel contesto di una
famiglia di strumenti.
I suoni prodotti dagli strumenti musicali, in particolare quelli armonici, si
caratterizzano per una specifica dinamica dampiezza
In questo secondo esempio viene simulato il suono di una tromba modellando
con A(n) il suo tipico inviluppo di ampiezza (attacco non molto rapido, una
tenuta leggermente decrescente e un decadimento un po pi lento dell attacco) e
la struttura ffequenziale facendo evolvere lindice di modulazione in modo simile
allinviluppo di ampiezza A(n).
II risultato della sintesi abbastanza buono in quanto la percezione uditiva del
timbro di uno strumento come la tromba chiara. Ovviamente si percepisce la
natura sintetica in quanto mancano caratteristiche di variabilit casuale tipiche
dello strumento reale. La sintesi FM da sola non in grado di conferire al suono
tali caratteristiche naturali, ottenibili comunque introducendo altri elementi di
modulazione, ad esempio della frequenza della fondamentale durante la fase
iniziale dellattacco.

Analisi e sintesi della voce

Lelaborazione del segnale vocale un caso particolare della problematica pi


ampia dellelaborazione del segnale audio. Le problematiche di elaborazione
dellinformazione di segnale vocale sono pi complesse di quelle
dellelaborazione del segnale audio in generale in quanto la natura
dellinformazione codificata nel segnale vocale di complessit superiore
rispetto a quella del segnale del segnale audio, anche rispetto allaudio musicale.
Il parlato, codificato nel segnale vocale, uninformaione strutturata con
caratteristiche informative di segnale elementari (ampiezze e frequenze) e
caratteristiche di segnale complesse (fonemi, articolazione, prosodia, parole,
frasi, semantica, ecc.).
Le principali applicazioni, la sintesi e il riconoscimento del parlato, fanno
riferimento alle tecniche di analisi, modifica e sintesi dei segnali, oltre che ad
altre tecniche come la programmazione dinamica e la modellazione dei sistemi,
per risolvere le pi o meno complesse problematiche implicate.
Per approfondimenti: [OShaughnessy 87)

Analisi e sintesi della voce


Campi Applicativi

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi*Il

162

La gamma applicativa dellelaborazione del segnale vocale molto ampia e


fondamentalmente articolata sui tra filoni fondamentali: sintesi, riconoscimento e
codifica.
Il riconoscimento si riferisce sia al messaggio verbale, sia alla natura
identificativa del parlatore (impronta vocale) per applicazioni biometriche.
La sintesi si riferisce alla generazione automatica del parlato, in particolare
partendo dal testo alfanumerico. La sintesi anche alla base delle tecniche di
compressione in quanto necessarie per la ricostruzione del segnale vocale
compresso.
La codifica la tecnica che consente di realizzare applicazioni come la
comunicazione e la memorizzazione del segnale vocale, oltre a rappresentare la
base per la compressione dellinformazione di segnale vocale.

Analisi e sintesi della voce


Sistema fonatorio

27/01 /2004

Copyright 2002-2003
Prof. Mario Malcangi

163

La voce ha origine dalla compressione e successiva emissione di aria che avviene


nei polmoni e transita nella trachea. Successivamente nella laringe, che contiene
le corde vocali, si genera il segnale acustico (onda di pressione) che pu essere di
due tipi diversi:
- vocalizzato: si genera un treno dimpulsi caratterizzato da una determinata
frequenza di ripetizione (fondamentale, pitch, 80-160 Hz per la voce maschile,
160-400 Hz per quella femminile), determinata dalla tensione delle corde vocali,
che viene controllata in retroazione attraverso ludito e il cervello;
-non

vocalizzato: si genera rumore ad ampio spettro per la non chiusura delle

cartilagini di tenuta delle corde vocali.Il

Il segnale acustico viene poi modulato nel tratto vocale dalla forma del tubo
acustico data, fondamentalmente, dalla lingua. Ogni particolare forma del tratto
vocale ha delle frequenze naturali che producono dei picchi, sempre a tali
frequenze, nel suono uscente dalla bocca, le form anti.
Il contenuto energetico del segnale acustico concentrato principalmente
durante la fase di vocalizzazione.

Analisi e sintesi della voce


Digitalizzazione

ao
60

*o
20

ooo

Frequenza (Hz)
I

' V.

Segnale
Filtraggio
Passa-Basso
vocale
analogico
0-4 kHz

i'

c,amp tonarne nto


.fili],
-m / m Mi V!!*.I.
Ilf.'l
Lr/iITlJl miin v
I*|i 4i
8 kHz
Ti, '
IIil VI . .
ffel: I
1

.7

fjiif T ir
r

27/01/2004

'

I
:. rI..fj,V
iw'

1 1-11 1 .1

Quantizsazione
Lineare/non lineare
7-16 bit
ni:

Segnale
vocale
digitale

M
i

Sistema di conversione A/D della voce

Copyright 2002-2003
Prof. Mario Malcangi

164

Il segnale vocale caratterizzato da componenti frequenziali significative nella


banda 100-3000 Hz. La frequenza di campionamento viene quindi fissata a 8
KHz.
La gamma dinamica contenuta entro i 60-70 dB. Il numero di bit di
quantizzazione pu essere fissato da un minimo di 7 ad un massimo di 16 bit.

Analisi e sintesi della voce


Preeenfasi

Lo spettro del segnale vocale si caratterizza per un rapido decadimento delle alte
frequenze. Ci impedisce agli algoritmi di modellazione del tratto vocale, in
particolare la LPC, di operare in maniera efficace. Per aumentare lefficacia di
questi algoritmi, opportuno processare preventivamente il segnale vocale con
un filtro di pre-enfasi:
H(z) = 1-az"1
ovvero
y(n) = x(n)-ax(n-1)

a=0,9375

Analisi e sintesi della voce


Short-term Fourier analysis
X(n)-

y v ( /z

-m)x(m)e~J

w(n)= 0.54 - 0 . 4 6 cos

27/01/2004

50 % di sovrapposizione

r 2rcn^

Copyright 2002-2003
Prof. Mario Malcangi

166

La trasformazione tempo-frequenza di Fourier viene applicata ad una porzione di


segnale di 10-20 millisecondi.
Per minimizzare V effetto della finestratura viene usata la finestra di Hamming.
La sovrapposizione (al 50%) delle finestre necessaria per minimizzare leffetto
di attenuazione del segnale ai margini della finestra.

Analisi e sintesi della voce


Pitch, formanti e zero-crossing rate

n-ly . . . * ,
\

' ,nf.'
,

j i

Il 4 ,
v

I M

/\
/\ / \
/ \ / \ A
.

,1.

mmm

.........................

M,..
V

Il "

' ICiMmsl!*
h

. . . .

I.,l''ll'V 1! *v

111 **

.................................................

. i r l i

f *1" - 11
*

T PM
T

r ih

r
i
te'iw
P
i*

\
i i

, 1V'ihrCil4,r i
-

Il segnale vocale costituito da due entit informative fondamentali: il pitch e le


formanti. Queste due informazioni sono sovrapposte tra loro, quindi non
facilmente identificabili (e quindi separabili) sia nel dominio del tempo, sia nel
dominio delle frequenze. Queste due informazioni di segnale sono il risultato del
prodotto tra il segnale di eccitazione e la risposta in frequenza del tratto vocale.
Questo prodotto corrisponde nel dominio temporale alla convoluzione: lo spettro
presenta il pitch distribuito sulle formanti.

Analisi e sintesi della voce


Autocorrelazione

Lautocorrelazione (caso particolare della correlazione) un algoritmo


matematico particolarmente utile per evidenziare la presenza di pitch nel segnale
vocale ed eventualmente misurarlo (calcolo del periodo di ripeticione, cio della
frequenza): la funzione di autocorrelazione di una porzione di segnale vocale
R(k) presenta un massimo assoluto per k = 0 e una serie di massimi relativi per k
>0.
I massimi relativi sono indicativi della presenza di pitch e la posizione k indice
di periodo di ripetizione (frequenza) del pitch.

Analisi e sintesi della voce


Linear Predictive Coding (LPC)
La codifica predittiva lineare (LPC)
consente di stimare un modello del
tratto vocale in termini di parametri di
un filtro
Il tratto vocale viene modellizzato
come un filtro IIR a soli poli

tempo

H (z )= i^ = -------- 9.--------

1 + a xz A +... + a p[z~P

x ( n ) = Gs (n) - a ty ( n -1) - ... - a py ( n - p )

Il segnale vocale una combinazione


lineare dei campioni precedenti e dei
segnale di eccitazione: i coefficenti
cambiano fraine per trame

27/01 /2004

Copyright 2002-2003
Prof. Mario Malcangi

169

La codifica predittiva lineare (LPC) un importante algoritmo che consente di


stimare il contenuto informativo relativo alle formanti. Essendo le formanti le
risonanze caratteristiche del tratto vocale, la LPC consente di modellizzare il
tratto vocale in termini di filtro equivalente.

Analisi e sintesi della voce


Cepstrum

e(n) = sorgente di eccitazione


v(n) = risposta tratto vocale
x(n)=segnale vocale
x(n)=e(n)*v(n) - convoluzione
X(k)= spettro del segnale vocale
X(k)=E(k)V(k) - prodotto
log(EV) = log(E)+log(V)

cM)

1 I
= log|X(A:)|e "
iv

27/01 /2004

Il termine CEPSTRUM deriva dalla


parafrasi di SPECTRUM, e di
conseguenza tutti gli altri termini:
Quefrency
Rahmonics
Gamnitude
Saphe
Lifter
Short-pass Lifter
Long-pass Lifter

Frequency
Harmonics
Magnitude
Phase
Filter
Low-pass Filter
High-Pass Filter

Copyright 2002-2003
Prof. Mario Malcangi

Il Cepstrum un algoritmo di analisi del segnale, derivato dalla trasformata di


Fourier, capace di evidenziare allo stesso tempo sia il pitch che linviluppo delle
formanti del segnale vocale, cio la frequenza della sorgente di eccitazione e
lampiezza e la frequenza delle formanti.

Analisi e sintesi della voce


Sintesi

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

171

Avendo a disposizione un modello di analisi del segnale vocale capace di


evidenziare e misurare le informazioni vocali caratteristiche, possibile costruire
un sistema di sintesi artificiale del segnale vocale basato fondamentalmente su
due generatori di segnale (armonico e inarmonico), un sistema di commutazione
tra i due generatori e un sistema di filtraggio programmabile che modellizza
dinamicamente il tratto vocale durante le fasi di fonazione.

Analisi e sintesi della voce


Riconoscimento

Le informazioni ottenute con le varie tecniche di analisi possono essere utilizzate


per realizzare applicazioni di riconoscimento automatico del parlato.
Ad esempio, se si programma un filtro con le informazioni relative ad una
porzione di segnale vocale, in modo che questo sia caratterizzato da ima risposta
in frequenza inversa di quella che corrispondentemente aveva il tratto vocale
durante la fonazione di tale porzione di segnale, applicando in ingresso a tale
filtro una porzione di segnale vocale qualsiasi, il segnale di uscita conseguente
indicativo della identit (similarit) di tale segnale rispetto a quello di
modellazione. Se in ingresso si applica lo stesso segnale vocale utilizzato per
modellizzare il filtro inverso, luscita (residuo) un segnale nullo.
Il modello di riconoscimento stima la natura del segnale residuo per decidere in
merito al riconoscimento.
La programmazione del filtro inverso corrisponde alla fase di addestramento dei
sistemi di riconoscimento automatico del parlato.

Analisi e sintesi della voce


Dynamic Time Warping (DTW)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

173

Il segnale vocale ha caratteristiche dinamiche particolarmente variabili: la


fonazione della stessa parola pu avvenire lentamente o rapidamente. Ci rende
particolarmente difficoltosa lattivit di confronto tra il profilo informativo della
parola da riconoscere e quella di riferimento (modello, template).
La programmazione dinamica una delle tecniche utilizzate per il confronto
dinamico di sequenze simili dal contenuto informativo, ma dilatati (o compressi)
rispetto al tempo.

Compressione del suono

27/01/2004-

Copyright 2002-2003
Prof. Mario Malcangi

La compressione del suono fondamentale per ottenere applicazioni che consentono di


comunicare e/o memorizzare informazioni audio in maniera efficiente. Il segnale audio
contiene molta ridondanza informativa, che opportunamente identificata, pu essere
rimossa allo scopo di ridurre la quantit di informazione codificata.
Esistono numerose metodologie per la riduzione della ridondanza di informazione nel
segnale audio allo scopo di ottenere la cosiddetta compressione del segnale. La scelta di
una metodologia di compressione, tra le svariate disponibili, dipende da diversi fattori, tra
cui importanti sono la complessit computazionale e la qualit della riproduzione.
La complessit computazionale di solito cresce al crescere del rapporto di compressione e
ovviamente incide sulle prestazioni real-time del sistema. Nel dominio del tempo la
complessit computazionale medio-bassa, mentre nel dominio delle frequenze la
complessit medio-alta.
La qualit della riproduzione di un segnale audio compresso (previa decompressione)
cresce con il bit-rate, quindi non possibile in generale abbassare il bit-rate senza
degradare il segnale. Malgrado questo inevitabile effetto collaterale, il degrado del
segnale conseguente alla compressione e successiva decompressione del segnale audio,
pu essere non percepibile.
Ci sono metodologie di compressione che comunque non comportano perdita di
informazioni (lossless) e quindi consentono di ricostruire il segnale originario, ache se
con una certa aggiunta di rumore, mentre altre metodologie comportano perdita di
informazioni del segnale, non pi recuperabili dopo la decompressione (lossy).
1metodi lossless ottengono rapporti di compressione inferiori a quelli lossy.
Per approfondimenti: [AA.VY. 96], [Jayant 97].

Compressione del suono


Bit rate

Form ato audio


(dinam ica tipica)

Frequenza di
cam pionam ento

G am m a
frequenziale

Telefonia (48 dB)


CD (96 dB)
DAT (96 dB)

8
kHz
44.1 kHz
48 kHz

200-3400
20-20000
20-20000

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Bit rate
kbit al secondo

Hz 64
kbps
Hz 1411,2 kbps
Hz 1536 kbps

176

La misura dellinformazione codificata in forma numerica fondamentale per la


valutazione della complessit deHinformazione in rapporto allo spazio che essa
occupa quando viene memorizzata e al tempo che impiega per essere trasmessa.
La misura dellinformazione del segnale numerico consiste nel numero di simboli
al secondo necessari per la sua codifica. Data la natura binaria della codifica
numerica del segnale, la misura dellinformazione in termini di bit al secondo
(bps, bit/s). Questa misura si chiama bit rate.
Il bit rate dipende principalmente dalla banda frequenziale e dalla dinamica tipica
del segnale, quindi si ottiene dal prodotto della frequenza di campionamento per
il numero di bit di quantizzazione. Questo il bit rate di base, che, come accade
per esempio per il CD, va ulteriormente moltiplicato per il numero di canali
(destro e sinistro), per determinare leffettivo bit rate di sistema e quindi, in
questo caso, la quantit di memoria CDROM necessaria per una specifica durata
dellinformazione audio oggetto di registrazione su tale media.

Compressione del suono


Algoritmi e standard di codifica
Standard

Algoritm o

Applicazione

B it rate (kbps)

CCITT G.711
CCITT G.721
CCITT G.722
ITU-T G.728
TIA
IS-54
TIA
IS-96
ETSI GSM
NSA FS1015
NSA FS1016
ISO
MPEG-1
ISO
MPEG-2

A/Mu Law PCM


ADPCM
Subband ADPCM
LD-CELP
VSELP
QCELP
VSELP
LPC10E
CELP
Musicam/ASPEC
Vari

Telefonia fissa
Telefonia fissa
Teleconferenza
Telefonia fissa
Telefonia mobile
Telefonia mobile
Telefonia mobile
Telefonia sicura
Telefonia sicura
Audio (stereo)
Audio (5 canali)

64
32
32-64
16
0.8-8.5
8
5.6
2.4
4.8
128-384
320-384

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

177

La codifica del segnale audio digitale finalizzata a ridurre la quantit di


informazione codificata eliminando le ridondanze. Vari algoritmi di codifica
sono stati studiati e implementati a questo scopo sia per le applicazioni vocali che
per le applicazioni audio a larga banda.
Quando questi algoritmi sono stati utilizzati in applicazioni di ampia portata,
come la telefonia, la radiocomunicazione e la memorizzazione sui media, le
principali organizzazioni di standardizzazione sono intervenute per definire
specifici modelli applicativi di riferimento.
Soprattutto in campo telefonico, fino a tempi molto recenti, NordAmerica e
Giappone (TIA, JDC, ecc.) hanno definito propri standard, mentre lEuropa
(CCITT, ecc.) ha invece definito i propri.
Vari sono stati gli algoritmi di codifica messi in campo in tali standard, con
lobiettivo comune di ottenere il bit rate pi basso possibile compatibilmente con
il minimo livello accettabile di degrado dellinformazione di segnale.

Compressione del suono


Compressione della dinamica

27/01 /2004

Copyright 2002-2003
Prof. Mario Malcangi

178

La compressione della dinamica contribuisce a migliorare il rapporto di


compressione nei sistemi di codifica in quanto migliora il rapporto
segnale/rumore per i piccoli segnali, quindi consente di diminuire i bit di codifica
senza peggiorare il rapporto segnale/rumore di quantizzazione.

Compressione del suono


Pulse Code Modulation (PCM)

..100 ...101 ...101 ...100 ...010 ...001 ...000

...in
...n o
...101
...100

...Oli
...010
...001

...000

S ___

/
t
>

i --------------1

r ~

r ~

10

> 1
v i
V*

110

i -------------- 1-------------- r

Voce analogica cam pionata a 8 k H z e q u an tiz zata a 8 bit


M usica analogica cam pionata a 44,1 kH z e q u an tizzata a 16 b it

1 0

64000 bit/s
705600 bit/s

Bit Rate
27/01/2004-

Copyright 2002-2003
Prof. Mario Malcangi

179

Il punto di partenza il segnale campionato e quantizzato correttamente. Questo


segnale viene chiamato Pulse Code M odulation (PCM).
I

La quantit di informazione che caratterizza il segnale PCM si misura in termini


di bit rate, cio di numero di bit codificati al secondo, moltiplicando il numero di
campionamenti al secondo (frequenza di campionamento) per il numero di bit di
quantizzazione utilizzato.
Il segnale audio, codificato PCM, in accordo con il teorema del campionamento e
il principio di quantizzazione, contiene tutte le informazioni necessarie a
garantire la perfetta ricostruzione analogica del segnale audio originario.
Anche quando la frequenza di campionamento e il numero di bit di
quantizzazione sono minimi ripsetto a quanto imposto dal teorema del
campionamento e il principio di quantizzazione per garantire lintegrit
dellinformazione di segnale, il segnale PCM contiene comunque ridondanza di
informazione. Tale informazione ridondante pu essere eliminata, ottenendo
conseguentemente una riduzione nella codifica, cio alla riduzione del bit-rate.

Compressione del suono


PCM non lineare

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

La codifica PCM utilizza un modello di quantizzazione lineare, cio il gradino di


quantizzazione uniforme per tutta la dinamica del segnale. Per questo motivo e
per distinguerla da altre varianti della codifica PCM, viene chiamata PCM
lineare.

La codifica PCM lineare garantisce il rapporto segnale/rumore che deriva dal


numero B di bit di codifica utilizzato (circa 6B dB) solo se il segnale
costantemente alla massima dinamica. Tale rapporto risulta invece inferiore se la
dinamica del segnale codificato infreriore a quella massima.
Per garantire anche ai minimi livelli di dinamica del segnale il rapporto
segnale/rumore minimo previsto per una specifica applicazione (per esempio 48
dB per le applicazioni vocali e 96 dB per le applicazioni audio) necessario
utilizzare un numero superiore di bit di quantizzazione, cio necessario
sovradimensionare la codifica. Ci comporta un aumento del bit rate e quindi un
peggioramento delle condizioni applicative.
Allo scopo di tenere basso il bit rate ed allo stesso tempo mantenere elevato il
rapporto segnale/rumore si opera la compressione della dinamica durante la
codifica PCM, ottenendo la cosiddetta codifica PCM non lineare.
Ad esempio, la codifica PCM non lineare a 8 bit della voce campionata a 8 kHz
garantisce lo stesso rapporto segnale/rumore della codifica PCM lineare di a 12
bit, mantenendo il bit rate a 64000 bit/s, cio quello del PCM lineare a 8 bit.

Compressione del suono


PCM non lineare: A-Law e Mu-Law
F(x) = Sgn(x)

A-Law

1+ ln( j4|x|)
1 + In A
A t
3

= S gn (x)

Mu-Law

1+ ln ^

ln(l -f M u !X|)
F(x) = Sgn(x)
ln(l + /w)

< X <1
A

0<

<

1
A

0< x <1

x : segnale di ingresso
sgn( x) : segno di x
x : valore assoluto di x
Mu costante 255 (definita da AT & T)
A : 87.6 (definita dal CCITT)
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

181

Vi sono due codifice PCM non lineari standard, definite appositamente per la
comunicazione vocale digitale: A-Law e Mu-Law.
Si tratta di due codifche PCM non lineari, definite come standard di codifica
digitale della voce nelle applicazioni telefoniche digitali rispettivamente per
lEuropa e per il nord America/Giappone, che differiscono tra loro solo per il
profilo della curva di compressione della dinamica.

Compressione del suono


Dominio temporale (lossless): Modulazione Delta (DM)

V oce analogica cam p io n ata a 8 kH z e q u an tizzata a 1 b it DM


M usica analogica cam p io n ata a 44,1 kHz e q u an tizzata a 1 b it

c==:i>

8000 bit/s
44100 bit/s

Bit Rate
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

182

Una delle tecniche pi semplici di compressione nel dominio temporale del


segnale PCM consiste nella codifica differenziale, cio dellincremento
(decremento) di ampiezza del campione. Gli incrementi dellampiezza dei
campioni hanno una dinamica inferiore a quella della dinamica assoluta di
ampiezza, quindi necessitano di meno bit di quantizzazione a parit di rumore di
quantizzazione. Un caso limite della codifica incrementale la modulazione
delta (DM). Questa prevede un incremento (decremento) di ampiezza fissa (pari
ad un solo livello di quantizzazione), richiedendo solo un bit di codifica.
La tecnica di compressione DM molto efficace se il segnale da codificare (e
comprimere) varia lentamete rispetto al campionatore. Se la variabilit del
segnale elevata, il quantizzatore a 1 bit non riesce a seguire adeguatamente la
variazione di ampiezza del segnale, introducendo un elevato livello di errore di
codifica. Aumentando la frequenza di campionamento, la codifica DM migliora,
ma peggiora il bit-rate che si avvicina a quello PCM.
1

Questa tecnica di compressione del segnale comunque la base per la


costruzione di modelli di compressione nel dominio temporale pi efficaci, come
ad esempio la tecnica ADPCM (Adaptive Differential PCM),Capace di garantire
un bit rate inferiore a quello PCM, pur mantenendo una qualit di segnale
paragonabile.

Compressione del suono


Dominio temporale (lossless): PCM Differenziale (DPCM)

x' (n) = J^hrs ( n - r )


r =1

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

183

A parit di rappoto segnale/rumore, la codifica DPCM (Differential PCM )


una estensione del delta modulation, in quanto si utilizza la quantizzazione a pi
livelli invece della quantizzazione a due livelli del DM. Il sistema di codifica
esattamente lo stesso del DM: un predittore stima un valore di ingresso x(n) che
comparato a quello reale x(n) produce una differenza d(n) che viene quantizzata
secondo uno schema a pi livelli.
La codifica DPCM, a parit di numero di bit di quantizzazione, consente di
ottenere un rapporto segnale/rumore di quantizzazione superiore a quello del
PCM, a costo ovviamente di un aumento della complessit del sistema.

La codifica differenziale consente di ridurre la ridondanza di informazione del


segnale audio analogico in quanto codifica la variazione di ampiezza del segnale.
La variazione di ampiezza del segnale richiede meno bit di codifica
dellampiezza stessa.
Per segnali a dinamica costante possibile stabilire a priori quanti livelli di
quantizzazione utilizzare per la codifica, ma questa condizione poco ricorrente.
Voce e musica presentano dinamiche e statistiche di segnale molto variabili.
Lutilizzo di livelli di quantizzazione di ampiezza variabile consente di adattare
al meglio la codifica in funzione della variabilit del segnale.
La codifica adattativa, cio che adatatta i parametri di codifica in funzione della
natura del segnale consente di conferire alla codifica DPCM un livello di qualit
paragonabile a quello PCM pur diminuendo significativamente il bit rate.
I quantizzatori adattativi (ADPCM ) permettono di migliorare le prestazioni di

rapporto segnale/rumore dei quantizzatori non adattativi dai 3 ai 7 dB.

Compressione del suono


Dominio frequenziale (lossless): Vocoder
G

X)
m

s(n)

-1
1+qz '

x ( n ) = G i r i ) - a xy { n

-P

-1

y (n

S o r g e n t e a r m o n ic a
A A A A A A A A A

M o d e llo d i

s(n)

S in te s i

y(n)

H(z)

S o r g e n t e in a r m o n ic a

27/01/2004

G
Copyright 2002-2003
Prof. Mario Malcangi

185

I sistemi di com pressione del segnale audio nel dominio delle frequenze

possono produrre un rapporto di compressione particolarmente elevato,


soprattutto quando si basa sulla modellazione del sistema di produzione del
segnale audio. Un esempio molto significativo di questa tecnica di compressione
riguarda il segnale vocale.
La tecnica si chiama Vocoder (Voice Coder/Decoder) e consiste nella
modellazione del sistema fonatorio, in particolare del tratto vocale, in modo tale
da estrarre solo le informazioni strettamente legate al parlato, eliminando quelle
di natura ambientale. Questa modellazione avviene nel dominio delle frequenze
(estrazione delle formanti e del pitch) utilizzando in fase di analisi varie tecniche
di analisi/sintesi come per esempio la codifica predittiva lineare (LPC) oppure i
banchi di filtri, e in fase di sintesi la tecnica sottrattiva. Il pitch viene invece
stimato con varie tecniche di analisi come per esempio lautocorrelazione.
Con la tecnica vocoding, intervalli di 10-20 ms di segnale vocale campionati a
8.000 Hz (80-160 campioni) e quantizzati a 8 bit (640-1280 bit) richiedono poche
decine di bit di codifica in quanto si tratta di codificare solo una decina di
parametri caratteristici (formanti, pitch ed energia). In tal modo si ottiene un
elevatissimo fattore di compressione, molto superiore a quello ottenibile con la
pi efficiente delle tecniche di codifica nel dominio del tempo.
Per esempio, la voce codificata PCM (8 kHz, 8 bit) richiede un bit rate di 64
kbit/s. Questo pu essere ridotto solo fino a 16 kbit/s con la codifica ADPCM,
mentre con un vocoder LPC si pu arrivare fino a 1,2 kbit/s (LPC-10).

Compressione del suono


Dominio frequenziale (lossless): codifica in sottobande (SBC)

X (n )

C o d if ic a t o r e n

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

186

La compressione del segnale audio nel dominio del tempo non pu essere spinta
oltre quanto ottenibile con i modelli differenziali adattativi. Molta della
ridondanza legata alla struttura frequenziale, evidenziabile quindi solo tramite
un modello analitico operante nel dominio frequenziale.
La codifica in sottobande (SBC) un esempio di tecnica in cui la codifica
differenziale viene applicata al segnale scomposto in bande frequenziali.

La combinazione della tecnica SBC e della tecnica di compressione della


dinamica consente di ottenere ottimi risultati di compressione dellinformazione
di segnale. Il filtraggio a bande consente di applicare sistemi di compressione
della dinamica differenziati in conseguenza della differente natura dinamica del
segnale nelle varie bande frequenziali.

Compressione del suono


Modello percettivo
f

il

Trf

iU&iriiAfc*i
A'
* i l 4

-u *

Il

lift

ir

i n

*I " I I
i

iti

!JL fL

il

m i i

i n

*'

fJlV4 P _

(Il

i: L

p<:

Ini!

-l *I

80^

f II

Co

r<3
'S

Al t 4

100

l i t

120

ifV

? m i

:il

m i

.I

u <

-----------------------------

Ih
.

i . u

l!\V
I

I . - .
^

:i li

M I

14 L

14

l
lili

- Ir

r * - I

i ' l l

.1

"f V
il

*nj

in

w|

r i

di-

K M

'111.

li'

1,

l i ! Ili

irti')t'H'fi

.ft
u

il 11 i'. . J..HII lltl


*
I,* IP
JI

li H!! 'i4!

-*rii

i*r

1000
27/01/2004

10000
Frequenza (Hz)

Copyright 2002-2003
Prof. Mario Malcangi

188

La dinamica percettiva dellorecchio variabile in funzione della frequenza e


del contenuto frequenziale, cio della natura del segnale audio considerato. In
particolare esiste un fenomeno di mascheramento tra segnale audio e rumore e tra
le singole componenti frequenziali del segnale audio.
Il mascheramento tra segnale audio e rumore avviene quando il segnale audio ha
un livello di ampiezza tale da rendere non percepibile un rumore additivo. E
proprio su questo principio di mascheramento che si basa la scelta dei bit nella
codifica PCM (quantizzazione) nelle applicazioni vocali o audio digitali.
Nella codifica PCM non si tiene conto della caratteristica dinamica della
percezione e quindi della variabilit statica e dinamica della percezione e quindi
delleffetto di mascheramento: il numero di bit di codifica fisso e massimizzato
sul caso della massima dinamica percettiva dellorecchio (120 dB a 1000 Hz).
Il modello percettivo tiene conto invece della variabilit della dinamica percettiva
dellorecchio che varia da un minimo di 70 a un massimo di 120 dB. Ci implica
che un tono a 100 Hz pu essere codificato con circa 6 bit in meno di quelli
necessari per un tono a 1000 Hz, ottenendo lo stesso rapporto segnale/rumore a
livello percettivo. Unaltra conseguenza quella per cui un tono a 100 Hz pu
essere accompagnato da un rumore a banda stretta (intorno a 100 Hz) fino a 40
dB senza che risulti percepibile.
Entrambe queste due osservazioni portano al concetto di modellazione del
rumore (noise shaping) e di codifica percettiva (perceptual coding).

Compressione del suono


Soglie di mascheramento

dB
Tono mascherante
SMR
Soglia di mascheramento

SQNR

NMR
Livello del rumore di quantizzazione

Banda critica

27/01/2004-

Copyright 2002-2003
Prof. Mario Malcangi

Hz

189

Leffetto di mascheramento conseguenza della natura della membrana basilare


e nel meccanismo di trasformazione delle vribrazioni acustiche in impulsi nervosi
trasmessi allarea della percezione uditiva, cio le cosiddette bande critiche. Il
mascheramento tra toni dominanti e toni sottostanti avviene nellambito della
banda critica.
Relativamente alla quantizzazione, vengono definiti, in aggiunta al rapporto
segnale/rumore di quantizzazione (SQNR), anche un rapporto
segnale/mascheramento (SMR) e rapporto rumore/mascheramento (NMR).
Questi rapporti sono la base per la costruzione del modello percettivo finalizzato
alla codifica ottimale della sorgente audio. Il segnale audio mascherato pu
essere il rumore di quantizzazione oppure altre componenti frequenziali del
segnale audio stesso. La codifica percettiva ha come obiettivo quello di allocare i
bit di quantizzazione in maniera dinamica, in modo da ottenere un bit-rate medio
inferiore alla codifica PCM.
Per ottenere il massimo risultato, i rapporti SMR e NMR vengono calcolati per
ognuna delle bande critiche. A tale scopo si analizza il segnale per mezzo di un
banco di filtri fisiologici con banda passante distribuita in accordo con la scala
Bark.

Compressione del suono


MPEG Audio (lossy)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

190

La codifica MPEG Audio uno standard di codifica audio definito dalla ISO
(International Standard Organization) nellambito MPEG (Moving Pictures
Expert Group) nellambito del pi ampio obiettivo di definizione di uno standard
delle immagini in movimento con audio associato per media di memorizzazione
digitale fino a 1,5 MHz.
La codifica MPEG Audio rappresentativa della classe dei sistemi di
compressione con perdita di informazione lossy). In questo caso la riduzione
della quantit di informazione codificata si basa sul modello percettivo (derivato
dal modello psicoacustico). Linformazione viene ripartita in bande per poter
applicare il modello percettivo che mette in relazione la percezione del pitch con
lintensit e a frequenza.
Lo standard MPEG Audio consiste di tre livelli (layer), ognuno dei quali consente
di ottenere prestazioni crescenti di qualit del segnale codificato a costo di una
crescente complessit computazionale e di sistema.
I bit rate audio supportati sono 32000, 44100, 48000 e bit-rate variabili tra 32 e
192000 bit/s per i canali audio monofonici.
Lo standard prevede varie configurazioni di canale singolo e doppio, oltre alla
modalit stereo e stereo congiunto.

Compressione del suono


MPEG Audio (lossy)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

191

Il segnale PCM viene scomposto da un banco di 32 filtri passa banda in


altrettante sottobande. Lo stesso segnale PCM viene processato
contemporaneamente da un modello psicoacustico. Tale modello, previa analisi
in frequenza del segnale PCM, calcola il rapporto tra lenergia di segnale e le
soglie di mascheramento definite per ognuna delle sottobande.
I rapporti energia/soglia di mascheramento consentono di pilotare un sottosistema
di quantizzazione variabile. Questo, in funzione delle informazioni del modello
psicoacustico, decide quale fattore di scala e quanti bit applicare nella codifica
del segnale.
Dati non di segnale (ancillary data) possono essere inseriti nello sequenza di bit
di codifica (bitstream) per codificare informazioni ausiliarie.

Compressione del suono


MPEG Audio (lossy): banco di filtri
y , { n ) = Z Z A ( n , k ) [ C { k + 6 4 i ) * x ( k + 64Q]

=0 j=0

A ( n , k ) = cos[( 2

n:
t:
y(( n) :
C (.) :

x(.) :
A(n,k) :

27/01/2004

+ !)( - 16)(;r /6 4 )]

indice di sottobanda (0..31)


indice del tem po (m ultiplo intero di 32 periodi di cam pionam e nto)
cam pione di uscita del filtro al tem po

t per

la sottobanda

finestra di analisi (5 1 2 cam pioni)


segnale di ingresso (512 cam pioni)
matrice di analisi

Copyright 2002-2003
Prof. Mario Malcangi

La suddivisione in bande su cui si basa la codifica MPEG Audio viene ottenuta


tramite un filtro polifase. Questo processa 512 campioni di segnale PCM
finestrato per mezzo di una finestra di 512 campioni definita dallo standard.
Il filtro polifase opera come un banco di 32 filtri equamente distanziati in
frequenza tanto in modo formare 32 sottobande della banda totale del segnale
audio da codificare (a 48 kHz ogni banda ampia 750 Hz).
Il segnale in uscita di ogni filtro passa banda cos ottenuto viene campionato ai
limiti di applicabilit del teorema del campionamento attraverso un processo di
decimazione.
Dato che la matrice di analisi consiste di coefficenti derivati dal campionamento
della funzione coseno, evidente che il filtro polifase non altro che una variante
della trasformata di Fourier, e ci spiega la necessit della finestratura.

Spazializzazione del suono

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

195

La dimensione spaziale del suono integrate della dimensione temporale.


Linformazione spaziale consente allindividuo di percepire la posizione nello
spazio della sorgente sonora e quindi di orientarsi nello spazio sulla base della
percezione acustica.
La generazione di spazi e ambienti virtuali possibile modellizzando gli spazi
reali e realizzando sistemi di elaborazione del segnale in cui sono trasferibili gli
elementi che caratterizzano la natura spaziale degli ambienti.

Spazializzazione del suono


Echi e riverberi

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

La percezione della componente spaziale del segnale audio basata sulla capacit
del sistema uditivo di misurare e correlare in maniera molto raffinata le
differenze temporali di arrivo delle singole sorgenti sonore alla posizione
dellindividuo. In paricolare, ogni sorgente sonora in campo chiuso produce sia
un suono diretto, sia vari suoni indiretti podotti dalle riflessioni del suono diretto
sulle pareti dellambiente.
Il suono diretto il primo a raggiungere lascoltatore. Successivamente arrivano
le prime riflessioni. Queste possono essere percepite come echi se vi un minimo
intervallo temporale di arrivo rispetto al suono diretto.
Al suono diretto e alle prime riflessioni si aggiungono le riflessioni multiple
(indirette) dovute a ripetuti rimbalzi sulle pareti del segnale diretto prima che
questo si direzioni verso il punto di ascolto. Queste riflessioni indirette sono
temporalmente molto ravvicinate tra loro e numerose, dando la sensazione
percettiva acustica delleffetto riverbero.

Suono diretto, prime riflessioni (echi) e riflessioni multiple (riverbero) hanno una
caratteristica di distribuzione temporale caratterizzata da ritardi crescenti con
intensit delle singole componenti decrescenti in intensit.
Un sistema di generazione artificiale della componente spaziale del suono si basa
essenzialmente su un sistema di ritardi programmabili e di ricombinazione.

Per identificare la natura spaziale degli ambienti in cui si propaga il suono si


utilizza la tecnica della risposta allimpulso. Propagando un suono impulsivo in
un ambiente questo produce una risposta audio che codifica la caratteritica
specifica dellambiente. Questa evidenzia una serie di caratteristiche acutiche
tipiche dellambiente come le dimensioni, le caratteristiche riflessive, le
caratteristiche di assorbimento, ecc.
Una sala da concerto evidenzia un intervallo evidente tra larrivo del suono
diretto al punto di ricezione e larrivo delle prime riflessioni, nonch una
notevole lunghezza della durata della risposta. Questo intervallo quasi assente
in ambienti di piccole dimensioni (casa, auto, ecc.) e particolarmente breve la
durata della risposta allimpulso.
Dalla risposta allimpulso si pu derivare la caratteristica di spazializzazione che
consente di pilotare un modello di simulazione artificiale della spazializzazione
del suono.

La generazione delleco particolarmente semplice in quanto sufficiente


disporre di una linea di ritardo e di un attenuatore. Particolarmente semplice
questo modello di generazione delleco nel dominio digitale, in quanto la linea di
ritardo realizzata tramite memoria (buffer circolari, FIFO).
Leco semplice si basa su un modello diretto (feed-foreward), mentre leco
multiplo si basa su un modello retroazionato (feed-back).

Spazializzazione del suono


Riverbero

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

200

Per la generazione del riverbero necessario un sistema di ritardi e attenuazioni


non uniforme, in modo da conferire naturalezza al segnale duscita arricchito
delleffetto riverbero. La linea di ritardo in questo caso deve essere
programmabile in modo da conferire ad ogni componente di spazializzazione il
giusto ritardo e attenuazione per caratterizzare uno specifico ambiente.

Spazializzazione del suono


Riveberatori All-Pass

Uscita

Ingresso

Ingresso

27/01/2004

Uscita

Copyright 2002-2003
Prof. Mario Malcangi

201

Data la natura complessa e molteplice delleffetto di riverbero, vi sono sistemi


derivati dal modello di filtraggio e capaci di produrre un effetto simile a quello
che si otterrebbe utilizzando una linea di ritardo programmabile con attenuatori.
I filtri passa tutto (all-pass) sono i componenti base dei riverberatori complessi.
Questi sono controllabili tramite due parametri, il ritardo e lattenuazione.
Ponendo in serie una sequenza di riverberatori all-pass opportunamente
programmati su tali parametri e combinando luscita di questa serie con il suono
diretto, si ottiene un sistema di riverberazione compatto ed efficiente. I parametri
possono essere derivati dalla risposta allimpulso di un ambiente quando si vuole
simulare un ascolto che offra le stesse caratteristiche spaziali dellambiente di
riferimento (ad esempio una specifica sala da concerto).

Spazializzazione del suono


Effetto coro

Leffetto coro una situazione audio simile a quella del reverbero non
determinate daHambiente ma dalla presenza contemporanea di molteplici
sorgenti sonore tutte uguali tra loro. In pratica si tratta della diffemte percezione
acustica fornita da un singolo strumento rispetto a numerosi identici strumento
(ad esempio 100 violini che suonano lo stesso brano contemporaneamente,
oppure cento persone (coro) che canta la stessa melodia).
Leffetto coro viene determinato da piccole variazioni di intensit e di frequenza
delle singole sorgenti. Tale effetto pu essere simulato con buona
approssimazione realizzando un banco parallelo di ritardi programmabili (da 10 a
50 ms) e di guadagno variabile.

Architetture DSP per laudio

27/01/2004

/W

V w

rM
il/ litUji.i.

00101001010001
00101001001010
00101000100101

Copyright 2002-2003
Prof. Mario Malcangi

205

Lelaborazione numerica del segnale audio unattivit computazionalmente


intensiva. Malgrado i notevoli progressi in termini di velocit di elaborazione dei
processori CISC (Complex Istruction Set Computer), lelevatissima quantit di
calcoli (moltiplicazioni e somme) richiesti dagli algoritmi di elaborazione
numerica del segnale audio tale da non lasciare spazio alle inefficienze
computazionali dei processori CISC e portare inevitabilimente allutilizzo di
processori RISC (Reduced Istruction Set Computer) di natura Application
Specific Set Computer (ASSP), in particolare i processori digitale di segnale
(Digital Signal Processor, DSP).

Architetture DSP per laudio


DMX-1000: primo DSP per applicazioni audio digitali
Iv <

D bus

J A - ..

HPit

ALU
Am2903

Y bus

______ _______
Data
Memory
t ____
D

Multiplier

DAC

t
S&H

LPF
analog voutput
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

206

Intorno agli anni 80, Dean Wallraff della Digital Music Systems Ine., realizz il primo
microcomputer capace di elaborare il segnale audio in forma numerica e in tempo-reale. Il
primo esemplare di questa innovativa macchina di calcolo numerico specificamente
pensata per lapplicazione audio fu acquistata dal LIM, il Laboratorio di Informatica
Musicale dell Universit degli Studi di Milano creato da Goffredo Haus proprio in quegli
anni. Grazie alla disponibilit di questa macchina fu possibile realizzare le prime
applicazioni di Computer Music ove la produzione e lelaborazione di suoni avveniva in
tempo reale.
Il DMX-1000 fu basato sulla pi innovativa delle tecnologie di microcomputing allora
disponibili: il bit-slice AM29xx. Questa tecnologia, realizzata dallAdvanced Micro
Devices (AMD), oltre ad essere ultraveloce (tecnologia ECL), era anche modulare. La
CPU, cosiddetta slice, era a 4 bit, quindi molto piccola, ma componibile a piacere per
ottenere architetture di qualsiasi dimensione. Nel caso del DMX-1000 fu adottata
unarchitettura a 16 bit (quattro slice da quattro bit) per soddisfare le esigenze
dellelaborazione del segnale audio digitale di qualit professionale.
*

Le CPU AM29xx adottavano, per la prima volta integrandola su chip, larchitettura


Harvard, cio la completa separazione tra memoria di programma e memoria dati.
Il DMX-1000 fu costruito intorno a questa CPU, mettendo in pratica anche, oltre al
pipelining esecutivo delle istruzioni, il pipelining esecutivo su dati. Per la prima volta,
inoltre, nel microcomputer veniva integrato il moltiplicatore hardware (16 x 16 -> 32 bit
della TRW) e il convertitore analogico-digitale a 16 bit (Burr-Brown).
Nel DMX-1000 il parallelismo esecutivo (in modalit pipelining) era totale: laccesso alla
memoria dati, al moltiplicatore e alla periferica (DAC) potevano avvenire
contemporaneamente, grazie alla istruzione a campi paralleli di cui disponeva questo
processore.

Architetture DSP per laudio


DMX-1000: primo DSP per applicazioni audio digitali (cont.)

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

207

La CPU AM29xx adottava, per la prima volta integrandola su chip, 1architettura


Harvard, cio la completa separazione tra memoria di programma e memoria dati.
Il DMX-1000 fu costruito intorno a questa CPU, mettendo in pratica anche, oltre al
pipelining esecutivo delle istruzioni, il pipelining esecutivo su dati. Per la prima volta,
inoltre, nel microcomputer veniva integrato il moltiplicatore hardware (16 x 16 -> 32 bit
della TRW) e il convertitore analogico-digitale a 16 bit (Datel).
Nel DMX-1000 il parallelismo esecutivo (in modalit pipelining) era totale: laccesso alla
memoria dati, al moltiplicatore e alla periferica (DAC) potevano avvenire
contemporaneamente, grazie alla istruzione (a 32 bit) a campi paralleli di cui disponeva
questo processore.
Grazie a queste soluzioni sia tecnologiche (microelettroniche) che darchitettura di
elaborazione, il DMX-1000 era in grado di implementare a 19,3 kHz di campionamento
uno dei seguenti gruppi di strumenti oppure una loro combinazione:
24 oscillatori table look-up semplici
16 oscillatori table look-up modulabili in ampiezza (AM)
8 oscillatori modulabili in frequenza (FM)
20 filtri del primo ordine
10 filtri del secondo ordine
30 generatori di rumore bianco
Un vero portento nellera dei microprocessori a 8 bit (Intel 8080)!!!

Architetture DSP per laudio


DMX-1000: primo DSP per applicazioni audio digitali (cont.)
t

* 1 .
vP

1
.

r* I I I

1 2 -b it M u ltip lie r - A c c u m u la to r

. v

4*#W

V A 'V ,

VA%V*

.w

.t~

^ " 1

^ ----- O OUT
rw M

3.******

v / n '.W

Qt*T*QV

A v /

TOC***M
CU

V .V >%W

'A M

27/01/2004

/A

A W JP

* M W

* * /

* W

- v

*a

f M **

. . . .

. ^

, >

* * r *

. w X

Copyright 2002-2003
Prof. Mario Malcangi

Il DMX-1000, dal punto di vista dellarchitettura dei sistemi digitai audio, era innovativo
sia per ladozione dellarchitettura Harvard (adottando la tecnologia bit-slice AM2910)
per implementare il pipelining esecutivo delle istruzioni, sia per ladozione
dellarchitettura MAC (Multiply-Accumulate) per implementare il pipelining esecutivo
sui dati (adottando il moltiplicatore-accumulatore TRW).
In figura riportata unimmagine del chip MAC della TRW in package DIP (Dual-InLine) di ben 64 piedini, risultando uno dei componenti pi complessi dellintero DSP
DMX-1000.
Questo dispositivo, realizzato in tecnologia ECL, dissipava una enorme quantit di
potenza elettrica (dellordine dei Watt) e conseguentemente di calore, tanto da necessitare
di un voluminoso dissipatore che impedisse la distruzione termica del dispositivo.

Architetture DSP per laudio


DMX-1000: primo DSP per applicazioni audio digitali (cont.)
x (n )

/
A

"'1

M EM O R IA PR O G R A M M A

(0)
(1)
(2)
(3)
(4)
(5)
(6)
(7)

CLR
NXT
MOVD
NXT
MOVD
ADDDA
NOP
MOVD

azzera il puntatore ai parametri


punta al successivo
copia lampiezza da [0] a X
punta al successivo
carica SI in XI
somma SI a Phase e memorizza in Phase, mette in Y
aspetta il risultato dal moltiplicatore
trasferisce il risultato della moltiplicazione al DAC

,X0,BS
,D,X
,X1,B,D
X1,X1,B,D,WY
,N,DAC

M EM O R IA DATI

[0] Ampiezza
m SI
[2] Fase
27/01/2004

; controllo ampiezza
; controllo frequenza
; fase delloscillatore

1
fl

Copyright 2002-2003
Prof. Mario Maicangi

209

Grazie al pipelining esecutivo, il DMX 1000 consentiva di implementare con


poche istruzioni generatori o modificatori digitali di segnale audio. In questo
esempio (oscillatore a rampa lineare controllabile in frequenza, ampiezza e fase),
evidente il considerevole parallelismo che, nellistruzione (5) si evidenzia al
massimo livello (somma, trasferimento in memoria e moltiplicazione).
Ogni istruzione necessita di un solo ciclo istruzione per essere eseguita, quindi,
questa codifica delloscillatore a rampa (dente di sega) sono necessari 7 cicli
istruzione per produrre un campione di segnale.
Fissata la frequenza di campionamento e la frequenza di clock del processore,
dividendo la seconda per la prima, possibile ricavare il numero massimo di
generatori di questo tipo eseguibili in tempo reale da parte di questo processore
(circa 50).

Architetture DSP per laudio


Limitazioni dellarchitettura Von Neuman
Un solo bus per accedere alla memoria dati e di programma

Microcode
Sequencer

Microcode
ROM

Memoria
D ati/Programma

Bus Indirizzi
Bus Dati

ALU

Registri

Sequenza di programma
Fetch
istruzione

Decodifica
istruzione

Fetch
operando

Esecuzione
operazione

Fetch
operando

Ciclo istruzione
Pi cicli di clock per una istruzione

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

210

Un processore tradizionale (architettura Von Neuman) non in grado di


eseguire algoritmi di elaborazione numerica dei segnali in tempo-reale in quanto
non ottimizzato relativamente alla esecuzione veloce di operazioni MAC
(Moltiplicazione e Somma/Accumulo).
La limitazione fondamentale dellarchitettura Von Neuman, tipica dei processori
utilizzati nelle applicazioni gestionali o non real-time (ad esempio il Personal
Computer) nel bus unico attraverso cui va condiviso laccesso alla memoria sia
per le informazioni di programma, sia per le informazioni dati.
Altre limitazioni riguardano lo scarso parallelismo interno essendo stata
privilegiata in tali processori la scelta del set istruzioni esteso (CISC).

Architetture DSP per laudio


Vantaggi dellarchitettura Harvard
Un bus per accedere alla memoria programmi
Memoria
Programma

Sequenza d
programma
in pipelining

Memoria
Dati
Un bus per accedere alla memoria dati
FI : Fetch Istruzione
DI : Decodifica Istruzione
FO : Fetch Operandi
EO : Esecuzione Operandi

Istru z io n i

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

211

Larchitettura Harvard, tenendo separato il bus di accesso alla memoria di

programma da quello di accesso alla memoria di dati, consente di accelerare


notevolmente il processo di elaborazione eliminando i tempi morti legati
allattesa di risorse condivise (il bus).
La separazione del bus dati da quello di programma consente di realizzare il
cosiddetto pipelining, ovvero una sorta di parallelizzazione della fase di accesso
alle istruzioni con quella di accesso ai dati, ottenendo idealmente il raddoppio
della velocit di elaborazione a parit di clock.
I DSP (Digital Signal Processor) si basano sullarchitettura Harvard oltre ad
altre soluzioni molto sofisticate di architettura delaborazione allo scopo di
minimizzare il tempo di calcolo necessario al completamento di un algoritmo di
elaborazione numerica del segnale.
I DSP sono anche macchine RISC (Reduced Istruction Set Computer), quindi

capaci di eseguire tutte o quasi le istruzioni in un solo ciclo istruzione (due cicli
di clock (x2) o eventualmente anche in un solo ciclo di clock (xl)).
Larea di silicio risparmiata grazie al set ridotto di istruzioni impiegata per
portare il parallelismo esecutivo alle estreme conseguenze, ovvero una intera
MAC eseguita in un solo ciclo istruzione, incluse tutte le operazioni connesse,
come il load e lo store degli operandi e laggiomamento degli indirizzi di
memoria per laccesso ai dati delloperazione, ecc.

Architetture DSP per laudio


Motorola DSP56300

>0*1

551
*w*d&c<*

6I

Intonaco

h o*

___
^ .vi
^ r S i WK*
4CS>ft m24
XOmtft I VpAtA
or
RAM
RAM
(37 2 4 *nd 204**24 \i0A* A 24
nntrucLfcan
I
C acao
IB M :

Peripheral
e panalo Area

SiTchorvic
OMA Unti

2 4 - B lt
B
O
O
ttS
f

3PW 300
C o re

Extwaa
Bu*
**<*
4
Coft*
I
Centri

IntorrxM

Dflt*
8U$

M*rrc*y

S W iT O ri

exTAI

CkiCk

Cancroio?

FrgiSm

&00fftf*^rtro*UM
>

Pro^r^vm|
Doc**)*
W

1M

CdAftJttcr

M
OODrHKO
PINIYr

27/01/2004

| P/qrhm| 24*2**6*'*$$-*>
*JMC
Aderta , Tvm-5&-bi
G#riG*trtcr
r^hii tkw^ sa^w

Data

J'TAO

MttMMS*

M
OOAinoX
Copyright 2002-2003
Prof. Mario Malcangi

Motorola ha introdotto negli anni 80 larchitettura DSP56000, un DSP


monolitico a 24 bit fixed-point, studiato appositamente per limplementazione
efficiente di algoritmi di elaborazione numerica del segnale in tempo reale in
banda audio (fino a 20 kHz). In particolare, questa architettura, basata sul
modello computazionale Harvard, stata ottimizzata per ottenere il massimo
parallelismo esecutivo per uno stadio di calcolo dellalgoritmo di filtraggio FIR:
ajX(n-i)
Apparentemente si tratta di un semplice prodotto. In realt nasconde numerose
operazioni:
prodotto tra un coefficiente a., e un campione x(n-i)
accumulo con i prodotti (i-1)-esimi
fetch di un nuovo coefficiente e un nuovo campione per (i+l)-esimi prodotti
aggiornamento dei puntatori di accesso ai coefficienti e ai campioni
controllo del possibile overflow (aritmetica di saturazione)
controllo del possible underflow aritmetico
altre operazioni di controllo numerico (arrotondamento, scaling, ecc.).

Architetture DSP per laudio


Motorola DSP56300 (cont.)
t i r
Tnpi*
TVnor

HOU
W w fiw *

ess

hm

1
3C1
M o rto #

ki5lnic*ion
1024 24\
Peripheral
Exp*hfon Aree

c*Jrt*U

XAO

a n o te H o o

U
nii

FAB

S*XChJV*<

iti

*>MA Unii

24-B lt
SP3O30
Cor

i -Cftcr.

C o n t/ C f

C e n im i

Intorno*

Oft
6m
seifen

EXT At

C>C#A

en*****

iM
*rrxxy

:JP
ro

;
;
v
,Z

>
w
, PtMm,
Intsrrwl W~*k Dea**
!-* ! Add.**
Cs

h$ST
M f

A A A * . a

P
IN
IT
3
M
T

* m
$K

m
o
d
S
T
r
o
o
MOfXvTfifi

34 * :4 *5 '< 'A -** MAC


Two 5>bii Ar>Trolraeni
5bil BiiwWSMfcM

JTJKt

MODULS
MOOArth

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Tutte queste operazioni, per operare in tempo reale, devono essere eseguite in un
solo ciclo di clock. L architettura DSP56000 realizzava in tal modo, oltre al
parallelismo esecutivo delle istruzioni, anche un elevato parallelismo esecutivo
sui dati, sempre in pipelining. In particolare larchitettura DSP56000
implementava in pieno parallelismo:
una doppia memoria dati (memoria X e memoria Y) con triplo bus di accesso
parallelo (bus x, bus y e global bus)
un doppio accumulatore a 56 bit
una unit MAC (Multiply-ACcumulate)
una unit aritmetica di indirizzamento (ARU)
altre unit di controllo (controllo della saturazione, scaling automatico, ecc.).
Larchitettura DSP56000 consentiva dunque di implementare una TAP di filtro
FIR con una sola istruzione (due cicli di clock), ottenendo quindi la massima
prestazione possibile da una macchina Harvard.
Levoluzione dellarchitettura DSP56000 trova oggi la sua massima realizzazione
nellarchitettura DSP56300. Questo, mantenendo tutte le caratteristiche originarie
del DSP56000, ha introdotto alcuni nuovi elementi di architettura di elaborazione
e alcune importanti innovazioni tecnologiche come lesecuzione delle istruzioni
in un solo ciclo di clock (xl), rispetto allarchitettura precedente che richiedeva
due cicli di clock per istruzione (x2).

Architetture DSP per laudio


Motorola DSP56300

Instruction Cycle
Operation

Fetch 1
Fetch 2
Decode
Address Gen 1
Address Gen 2

10

11

n1

n2

n3

n3e

n4

n5

n6

07

n8

n9

nIO

n1

n2

n3

n3e

n4

05

06

07

n8

n9

n1

n2

n3

n3e

n4

o5

06

07

08

r tf

n2

r>3

n3e

n4

n5

06

n7

nl

n2

03

rt3e

n4

ri5

n6

n1

n2

n3

o3e

04

n5

n1

n2

n3

n3e

n4

Execute 1
Execute 2

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

214

Il pipelining esecutivo delle istruzioni nellarchitettura DSP56300 stato portato


a 7 stadi (dai 3 stadi di pipelining dellarchitettura 56000).
In stato di full-pipeline, larchitettura DSP56300 esegue lequivalente di 7
istruzioni RISC in parallelo.

Architetture DSP per laudio


Motorola DSP56300
Pipeline
Stage

Description of Pipeline Stage

PreFetch-l

Address generation for Program Fetch


Increment PC

PreFetch-ll

Instruction word read from memory

Decode
Address Gen-I

Instruction Decode
Address generation for Data Load/Store operations

Address Gen-I 1 Address pointer update


Execute-1

Read source operands to Multiplier and Adder


Read source register for memory store operations
Multiply
Write destination register for memory load operations

Execute-Il

* Read source operands for Adder if written by previous ALU operation


Add
Write Adder results to the Adder destination operand
Write Multiplier results to the Multiplier destination operands

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

215

La fase di fetch delle istruzioni stata scomposta in due fasi indipendenti in


quanto richiedono laccesso a risorse indipendenti.
Lo stesso stato fatto per la generazione degli indirizzi e per lesecuzione sui
dati.

Architetture D SP per laudio


Motorola DSP56300

Fido
M

/K
0
fo
r

U
Hr
<
w

r*
*
ti

fbf#*JW0Octjtetot

Miu
fycaniM
M
i<>r

n
un
&
jn
d
rmUh
?

AtamtutiMr
Sh*fiw

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Per ottenere il parallelismo esecutivo sui dati, larchitettura DSP56300 ha


implementato un sofisticato sistema di pipelining delle unit esecutive, ALU,
Moltiplicatore e Barrei Shifter, tramite lutilizzo di vari registri dati che si
interpongono tra le unit esecutive.

Architetture DSP per laudio


Motorola DSP56300

I registri dati dellarchitettura DSP56300 sono dimensionati per operare in


aritmetica fixed-point a 24 bit, senza perdita di dati in underflow e in overflow. I
registri sono tutti a doppia precisione (48 bit) e in particolare laccumulatore
dotato di 8 bit di estensione per contenere 1overflow, per un totale di 56 bit (da
cui stato derivato il nome di questa famiglia di DSP).

Architetture DSP per laudio


Motorola DSP56300

Signed Multiplication N x N ^ 2N ~ 1 Bits


Integer
s

Fractional

Signed Multiplier

1
r s ir r -

-4

.MSP

LSP

2N - 1 Product

_ l

| S4 '

MSP

2N - 1 Product

1
| ~5~1

LSP

Zero Fill

--------------------------2N B its----------------------

27/01/2004

Signed Multiplier

* ------------------ Sign Extension

------------------------- 2N B its---------------------- *

Copyright 2002-2003
Prof. Mario Mal cangi

218

Larchitettura DSP56300 fixed-point, quindi consente di operare sui dati sia


interi, sia reali. I dati reali sono rappresentati e trattati in virgola fissa, in
notazione cosiddetta Q23 (23 bit di parte frazionaria e nessun bit di parte intera).

Architetture DSP per laudio


Motorola DSP56300
Low Address ALU

High Address ALU

----XA VA PA8

I
NO

MO

N1

M1

N2
N3

27/01/2004

M2
M3

Address

ALU

r
/

Tnple Multiplexer

EP
RO

R4

R1

R5

r~ 1
[

R2

R6

M4

N4

A d d re s s

M5

N5

ALU

M6

N6

M7

N7

R3

R7

Copyright 2002-2003
Prof. Mario Malcangi

219

Il DSP56300 dispone di una efficiente unit aritmetica di indirizzamento. Questa


in grado di eseguire il calcolo contemporaneo di due indirizzi di fetch dei dati
dalle due memorie X e Y, oltre ad eseguire lindirizzamento modulo (buffering
circolare) e lindirizzamento offset, oltre allindirizzamento non lineare (bit
reversing) necessario per lesecuzione efficiente deHalgoritmo FFT.

Architetture DSP per laudio


Saturazione e overflow
G lpped O utput

Segnale di Input

Senza saturazione

Con la saturazione

A = +0.9999...

|Errore| = 1.0

27/01/2004

Errorc| = 0.00..01

Copyright 2002-2003
Prof. Mario Malcangi

220

Nei sistemi di elaborazione analogici il segnale, quando supera la portata piccopicco di ampiezza del dispositivo cui applicato, satura e produce una distorsione
armonica nel segnale processato.
Nei sistemi di elaborazione digitali del segnale, quando lampiezza dei campioni
supera la capacit di rappresentazione numerica del numero di bit adottati dalla
specifica architettura di elaborazione, prodotto un effetto chiamato overflow.
Questo effetto, se non gestito, produce come risultato un ribaltamento in negativo
(in positivo) di un numero positivo (negativo), cio il wraparound della
rappresentazione numerica a precisione finita.
Per i segnali digitali il wraparound un effetto disastroso in quanto introduce nei
segnale una grave distorsione dellinformazione e un comportamento anomalo dei
sistemi cui il segnale distorto applicato.
Loverflow numerico del segnale va opportunamente gestito in modo che non si
produca mai (aumentando la capacit di rappresentazione numerica) oppure che si
produca nella stessa maniera della saturazione analogica.
L architettura DSP56300 implementa in hardware il controllo della
saturazione (aritmetica di saturazione).

Architetture DSP per laudio


Codifica DSP56300 Filtro FIR
y(n) = b(pc(n)+ b;x(n-l)+ byc(n-2)+ b3x(n-3)+ ...+ b ^ n - N - l )
CLR

REP

# N -1

M AC

X 0 ,Y 0 ,A

M A C R X 0 .Y 0 ,A

X 0 ,X : ( R 0 ) +

Y : ( R 4 ) + ,Y 0

X : ( R 0 ) + ,X 0

Y : ( R 4 ) + ,Y 0

(R O )-

Xmem

O-N-l

Campioni
di
segnale

Ymem
*-----

x(n)
*
x(n-l)

b,
b2
b3

x(n-2)
x(n-3)

27/01/2004

R4

Aif,

Coefficienti
del
filtro

...
221

Copyright 2002-2003
Prof. Mario Malcangi

Larchitettura DSP56300 consente di codificare i filtri FIR con il massimo


dellefficienza. Il kernel del filtro FIR consiste infatti di una sola istruzione.
Questa istruzione realizza completamente uno stadio computazionale del filtro
FIR (TAP), da eseguire tante volte quanti sono in totale gli stadi del filtro
(numero di TAP). Le altre istruzioni sono di inizializzazione (CLR A e REP #N1) o di completamento (MACR
X0.Y0,A
(R0)-) e sono eseguite
una sola volta.
; Salva il campione corrente acquisito dal D/A
CLR

X0,X:(R0)+

Y:(R4)+,Y0

; Ripete listruzione seguente N-l volte


REP
#N-1
; Kernel del fitro FIR
MAC

X0,Y0,A

X:(R0)+,X0

Y:(R4)+,Y0

; Il risultato finale in accumulatore viene arrotondato


; R0 viene posizionato sulla locazione del campione uscente
MACR

X0.Y0,A

(R0)-

Durante lesecuzione del kernel del filtro FIR non vi esecuzione di istruzioni di
controllo. Quindi, per unesecuzione monoprocessore, limplementazione di un
FIR sullarchitettura DSP56300 raggiunge il massimo dellefficienza.
I

Architetture DSP per laudio


Codifica DSP56300 Filtro IIR
y(n) 2{a. [x(n)+ 2x(n-J)+ x(n-2)]+ cy(n-l)~ by(n-2) }
M PY

X 0 , Y 1, A

X :(R 0 )+ ,X 0

Y :(R 4 )+ ,Y 0

M AC

X 0 ,Y 0 ,A

X :(R 0 )+ ,X 0

Y :(R 4 ),Y 0

MAC

X O ,Y 0,A

X :(R 0 )+ ,X 0

Y :(R 5 )+ ,Y 0

MAC

X 0 ,Y 0 ,A

X :(R 0 )+ ,X 0

Y :(R 5 ),Y 0

M AC

X 0 ,Y 0 ,A

X :(R 0 )+ ,X 0

Y 1 ,Y :(R 4 )

A ,X I

A ,Y :(R 5 )

M OVE

M0=4

RO

Coefficienti
del
filtro

Xmem
2a
a

Ymem
x(n-l)

M4=l
R4

x(n-2)

segnale

y(n-l)

-b

y(n-2)

a
27/01/2004

Campioni
di

R5
M5=l
222

Copyriglit 2002-2003
Prof. Mario Malcangi

Limplementazione dei filtri IIR tanto efficiente sullarchitettura DSP56300


quanto quella dei filtri FIR. Ci grazie soprattutto alla doppia memoria dati (X e
Y) e allunit di indirizzamento. La codifica del filtro IIR consiste infatti di tante
istruzioni quante sono le moltiplicazioni presenti nel kernel del filtro pi una
istruzione per trasferire il risultato finale y(n). Nessuna istruzione di controllo
viene utilizzata durante lesecuzione del kernel del filtro.

;Y 1=x(n)

MPY
MAC
MAC
MAC

X0,Y1,A
X0,Y0,A
X0,Y0,A
X0,Y0,A

;X0=a
X:(R0)+,X0
X:(R0)+,X0
X:(R0)+,X0
X:(R0)+,X0

MAC
MOVE

X0,Y0,A

X:(R0)+,X0

A,Y :(R5)

Y:(R4)+,Y0
Y:(R4),Y0
Y:(R5)+,Y0
Y:(R5),Y0

;A=ax(n)
;A=A+2ax(n-1)
;A=A+ax(n-2)
;A=A+cy(n-1)

;A=A-by(n-2)
Y1,Y:(R4)
A,XI
;y(n)=2A (scaling-up attivo)

;X 1=y(n)
Anche in questo caso, considerando la soluzione monoprocessore, la codifica la
pi efficiente possibile.

Architetture DSP per laudio


16-falt data busses

Texas Instrumets TMS320C55x

B Buw fCoefflclanfi

ReglMrelntygoQ

Shifter

Splittable

drMGoda

BAB

'"Wei
27/01/2004

DAB
FAB

CAB
EAB

5 Address Busses

24-bit

Copyright 2002-2003
Prof. Mario Malcangi

223

Larchitettura Harvard consente di ottenere la massima efficienza esecutiva per


gli algoritmi di elaborazione del segnale in quanto ottimizzata per lesecuzione
della somma di prodotti, base computazionale della maggior parte di tali
algoritmi.
Qualche altro piccolo miglioramento ancora ottenibile con larchitettura
Harvard, aumentando ulteriormente le unit esecutive parallele, come ad esempio
ha fatto Texas Instruments nellarchitettura TMS320C55x.
Nellarchitettura C55x, evoluzione dellarchitettura C54x, allunit MAC stata
affiancata una unit ALU, rendendo disponibile cosi listruzione FIR, capace di
eseguire contemporaneamente una SOMMA, un PRODOTTO e un
ACCUMULO, in pratica, di eseguire due TAP di filtro FIR per ciclo istruzione.
Malgrado questi altri possibili miglioramenti, il livello di parallelismo esecutivo
dellarchitettura Harward non pu essere ragionevolmente spinto oltre.

Architetture DSP per laudio


Analog Devices SHARC
CORE

OUAL-PORTED SRAM

PROCESSOR

rm in

IW THUCT10K
CACHE
*3

JTAO

TWO m O t P C H O E K T
D U AL-PO U TED B L O C K *

M IT

PROCESSOR PORT
A

f l

?R3

i * o * a.M
S S Q O tltC tR

DATA

s
I/OFORT

TEST A
I M U L A TION

A DD I

Il A

SE

EXTERNAL

P O RT

rw AODHCia ou

OUA&DKES3 SUS
MuuiPMncESaon
IN
T
E
R
FA
C
E

Iz

PM D A T A OUS

BUS
CONNECT!
(PM

DM D A T A BU

Ti

I HO*r ftO*T j
DATA

DATA

tieaiBVEH
P IL I
<PZ*\

M U LI

f
tu * 4o-&r ARREL
1 fjtIPT*
m

neai5 reo

iz

P ILE

iPBy

0AQREL

1 V 4 O - 0 I T

H iP T E fl

H
U
LT

r TH
r
ALU

A l

DMA

fO
P
R
ECilCTEW
a
<

r , M

CONTROLLER
)

CONTROL.

STATUS, A /1_K
DATAUFFENS

UNK POfr

r/o PROCESSOR

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

224

La natura degli algoritmi di elaborazione numerica del segnale ad elevato


parallelismo. Tutte le TAP di un filtro FIR, ad esempio, possono essere eseguite
contemporaneamente in quanto sono indipendenti nei dati. Altri algoritmi, ad
esempio la FFT, evidenziano blocchi computazionali da eseguire in sequenza. I
blocchi computazionali sono ad elevato parallelismo interno.

Architetture DSP per laudio


Analog Devices SHARC

AD SP 21160

Link
Port

External
Port

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

225

Il multiprocessing una soluzione al problema dellesecuzione efficiente degli


algoritmi di elaborazione numerica del segnale. Ad esempio, utilizzando due
processori DSP Harvard possibile dimezzare il tempo di esecuzione di un
algoritmo codificato per un singolo DSP. Utilizzandone quattro possibile
ridurre ad un quarto il tempo di esecuzione, e cos via, fino ad utilizzare tanti
DSP in parallelo quanti sono i blocchi computazionali eseguibili
contemporaneamente.
La soluzione ottimale per il parallelismo esecutivo degli algoritmi di
elaborazione numerica del segnale piuttosto complessa da realizzare e da
programmare. Tale soluzione affrontabile in maniera ragionevole a tre livelli :
A grana grossa (architettura multiprocessor)
A grana media (architettura VLIW)
A grana fine (architettura sistolica)
Analog Devices, con la realizzazione del DSP SHARC (Super Harvard
ARCchitecture), ha messo a disposizione una soluzione efficiente per
linterconnessione parallela. Tale soluzione consiste di link seriali di
comunicazione dati che consentono a tali DSP di scambiare dati durante
lesecuzione parallela di un algoritmo.

Architetture DSP per laudio


Texas Instrumets C6000

Memoria
Esterna
Periferiche

27/01/2004

Copyright 2002-2003
Prof. Mario Mal cangi

226

Le architetture multiprocessor richiedono la progettazione parallela degli


algoritmi di elaborazione numerica del segnale, evidenziando i parallelismi
esecutivi, procedendo allallocazione dei processori, temporizzando, ecc.
Larchitettura VLIW (Very Long Instruction Word) utilizza la soluzione
mutiprocessor (pi unit di elaborazione in parallelo) gestendo internamente le
problematiche di scheduling delle istruzioni, di sincronizzazione, ecc.
Larchitettura VLIW esegue N istruzioni in parallelo considerandole come
ununica istruzione. Il programmatore scrive il codice come se si tratta di un
monoprocessore. Larchitettura VLIW esegue come se si tratta di un
multiprocessore.
Texas Instruments ha realizzato il TMS320C6000, un processore RISC basato
sullarchitettura di calcolo VLIW, ottimizzato per lesecuzione di algoritmi di
elaborazione numerica del segnale.

Architetture DSP per laudio


Register File A
AO
Al
A2
A3
A4
A5
A6

Al

Texas Instrumets C6000


40

a
X

contatore
prodotto
Y
Scapi]
&x[nj
&Y

.S

Y =

MVK

.s

LDH

.D

40, A2
*A5++, A0

LDH

.D

*A6++, Al

MPY
ADD
SUB

.M
.L
.L

A0, A l, A3
A4, A3, A4
A2, 1, A2

.S

lo o p

STH

.D

A4, *A7

loop:

X
.D

A15

[A2]
32-bits

Memoria Dati
27/01/2004

an * x
An

n = 1

Copyright 2002-2003
Prof. Mario Malcangi

227

La CPU del DSP C6000 consiste di quattro unit esecutive indipendenti:


*.S
*.L
'.D
Le quattro unit esecutive utilizzano un set di 16 registri di uso generale per i dati
e gli indirizzi.

Architetture DSP per laudio


Texas Instrumets C6000
Register File A

Register File B
BO
B1
B2
B3
B4

AO
Al
A2
A3
A4

B15

A15

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

228

La struttura di elaborazione completamente duplicata. La memoria dati


condivisa. Il set dei 16 registri duplicato, quindi ad uso esclusivo delle singole
strutture di elaborazione.

Architetture DSP per laudio


Texas Instrumets C6000

Tipologia

Cicli di attesa

Istruzione
singolo ciclo

Uno

Zero

IMPY

Due

Uno

Cinque

Quattro

Sei

Cinque

[
Load
[ iBranch
[
27/01/2004

Numero cicli

Copyright 2002-2003
Prof. Mario Malcangi

229

Il DSP ad architettura VLIW C6000 fondamentalmente di tipo RISC, quindi la


maggior parte delle istruzioni richiede un solo ciclo istruzione e
conseguentemente nessun ciclo di attesa delle risorse.
Fanno eccezione solo listruzione IMPY (Moltiplicazione Intera) che necessita di
un ciclo di attesa, listruzione LOAD che ne richiede 4 e listruzione BRANCH
che ne richiede cinque.

Architetture DSP per laudio


Texas Instrumets C6000

Program
Fetch

PG

(1)

Decode

PS

PW

PR

DP

DC

(2)

(3)

(4)

(5)

(6)

Execute

El

E2

E3

E4

E5

E6

(7) (8) (9) (10) (11) (12)

Stati di attesa per i risultati ritardati


27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

230

Il pipelining esecutivo delle istruzioni molto esteso nellarchitettura C6000.


La fase di fetch dellistruzione suddivisa in quattro fasi indipendenti, tutte
parallelizzabili in quanto richiedono risorse differenti e capaci di operare
indipendentemente in parallelo.
La fase di decodifica scomposta in 2 sottofasi.
La fase di esecuzione sudivisa in 6 sottofasi, in conseguenza del caso peggiore
di esecuzione delle istruzioni, cio il BRANCH.

Architetture DSP per laudio


Texas Instrumets C6000
*>

_______

t/T l T

n - * : . '

rSSzP aL I v . U \

.DI

'W
lfo
f ^

M
i1

T M

l'

NOP

Wl(l
1*

_____

'

figli
ncuuuqi,

I*'rm
T

HOT

DI

A4,*A7

fai!

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

231

Un filtro FIR, codificato per unarchitettura VLIW C6000, richiede in totale 18


istruzioni, di cui 11 nel ciclo.

Architetture DSP per laudio


Texas Instrumets C6000
Codice

Larchitettura VLIW C6000 esegue contemporaneamente 8 istruzioni semplici


per volta. Ci viene ottenuto estraendo ed assemblando pacchetti di 8 istruzioni
da 32 bit in ununica istruzione da 256 bit.

Architetture DSP per laudio


Texas Instrumets C6000

External
Interface

Il bus istruzioni quindi ampio 256 bit, rendendo cos possibile il fetch di una
istruzione VLIW con un solo accesso alla memoria di programma.

Architetture DSP per laudio


Texas Instrumets C6000

DMA

D (32)

EMIF

,D2

Serial Port

.MI .M2

Host Port

.LI

.L2

Boot Load

.S2

Timers

.DI
Memoria
Esterna

.SI

Control Regs
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Pwr Down
234

Come nellarchitettura Harvard, larchitettura C6000 tiene separata la memoria


dati dalla memoria di programma.

Architetture DSP per laudio


Texas Instrumets C6000
Completamente
Parallelo

Sequenziale

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

Una sequenza di programma pu essere eseguita con totale parallelismo se


vengono sfruttate opportunamente le risorse del processore.
Una singola unit esecutiva impone una notevole limitazione al parallelismo
quando sono da eseguire istruzioni che accedono alla stessa risorsa. Ad esempio,
due somme di seguito non possono essere eseguite contemporaneamente in
quanto entrambe richiedono lALU (.L unii), ma se si dispone di due ALU
indipendenti (.LI e 1 ,2 ), allora possibile eseguire in parallelo le due operazioni,
quindi in met tempo.
Lesecuzione completamente parellela di 8 istruzioni in una architettura WLIV
come quella C6000 equivale allesecuzione di una sola istruzione di
unarchitettura Harvard o RISC.

Architetture DSP per laudio


STMicroelectronics Nomadik
Timers

G PIO x76

Watchdog
MART x2
MSP
(AC97J2S.S P\)

MMMMBfl
Interrupt
Controller
Bridge
Bridge

I2C x2
Color LCD Ctrl
Display I/F

16 Channel
DMA Ctrl

27/01/2004

BAM/ROM
Secured

Audio Smart
Accelerator

Video Smart
Accelerator

Camera U f

Copyright 2002-2003
Prof. Mario Malcangi

236

La piattaforma multimdia-computing Nomadik di STMicroelectronics


unarchitettura di elaborazione distribuita che utilizza processori di segnale
specializzati e un processore RISC ARM926E-JS per supportare in maniera
efficiente le applicazioni multimedia (audio-video).
Il processore ARM926EJ-S svolge la funzione di CPU host per lintera
piattaforma di computing multimedia. Si tratta di una CPU RISC a 32 bit
operante a 350 MHz in tecnologia CMOS 0,13 micron. Questo core include una
memory management unit (MMU), 32 kbyte di cache istruzioni, 16 kbyte di
cache dati, un moltiplicatore 16x32 bit per eseguire in un solo ciclo istruzione le
operazioni MAC.
Listruzione MAC singolo ciclo, e una serie di altre estensioni DSP, consentono a
questo processore RISC di eseguire abbastanza efficientemente anche algoritmi
DSP di piccola e media complessit computazionale.
La piattaforma Nomadik include due acceleratori computazionali di natura DSP,
uno per la componente applicativa digitai audio, laltra per la componente
applicativa digitai video.
Lacceleratore audio un DSP completamente programmabile in C, mentre
lacceleratore video una soluzione mista hardware-software. Questi acceleratori
consentono di eseguire ad altissima velocit la generazione e la registrazione
video consumando pochissima potenza elettrica, oltre a eseguire applicazioni
come il content playback e la comunicazione audiovisiva bidirezionale.
Laccesso alla memoria di questi acceleratori computazionali avviene tramite
DMA, quindi non penalizzano loperativit della CPU RISC.

Architetture DSP per laudio


STMicroelectronics Nomadik
U l 1 I I m
111 c u l l i

ai

!I t

Instruction

RAM

MMDSP+
Host Data
Bus

Slave AHB

_____________________ _____________________________________

CCP/CCIR656
(Picture Post
Processing)

(Video
Codec Unit)

Video l/F

(Picture Input
Formating)

Master
AHB

fv

Accelerator
Data Bus

u W Itf

27/01/2004-

Copyright 2002-2003
Prof. Mario Malcangi

237

La minimizzazione della memoria lobiettivo primario nella realizzazione del


processore video. Nel caso del processore video integrato nella piattaforma
Nomadik si utilizzano solo 48 kbyte di memoria interna SRAM per il tramegrabbing e la finestra di ricerca, contro i 1200 kbyte richiesti normalmente.
Oltre alla data RAM, il processore video dispone della istruction RAM e del core
VLIW MMDSP+ (Multi-Media DSP Plus) operante a 200 MHz, con un solo
ciclo di clock per istruzione e doppia modalit computazionale (fixed-point a
16/24 bit e floating-point a 32 bit).
Operatori hardwired vengono utilizzati congiuntamente al core MMDSP+ per
garantire le prestazioni di elaborazione digitale dellinformazione video in
termini deterministici.

Architetture D SP per laudio


STMicroelectronics Nomadik

Slave AHB

ARM
DMA

l/F

.......

. . . . I . l l i l ,

XD Bus
DMA

l-Cache
DMA

Master AHB
238

Lacceleratore audio integra MMDSP+. Questo esegue le funzioni codificate in


una libreria digitai audio software (MP3, MIDI, SRS, WOW, ecc.).

Architetture DSP per laudio


STMicroelectronics Nomadik
iu .A lJ tr-

Parlphorab

Accelerator*

te Driver
Tkt

Physical

HI

Physical Drivers

1 im a s r ir iT i

v .v .

M C U Cora
' *- J f],f I
! [Irti-

peripherals

Common

ulti media

pertetberefa

Btfr
*

feliii
27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

239

STMicroelectronics e Texas Instruments hanno attuato una iniziativa congiunta


per la creazione di uno standard di interfaccia hardware e software chiamata
OMAPI (Open Mobile Application Processor Interface). Questa interfaccia viene
adottata dalla piattaforma Nomadik allo scopo di facilitare nello sviluppo di
applicazioni audio/video di natura mobile, quindi con stringenti requisiti di
compattezza dellapplicazione finale.
Questo standard di interfaccia consente di mappare la parte hardware attraverso
uno strato di astrazione software in modo che lapplicazione finale non debba
eseguire chiamate dirette ad uno specifico sistema operativo.

27/01/2004

Copyright 2002-2003
Prof. Mario Malcangi

241

[AA.W . 96] Standards in Computer Generated Music, multiplatform mixed mode CDROM (Macintosh, Windows, Unix + CD-DA tracks), G. Haus & L Pighi Editors,
IEEE Computer Society Press, 1996.
[Abramowitz 65] Abramowitz - Handbook of mathematical functions, Dover
Publications, New York, 1965.
[Jayant 97] N. Jayant - Signal Compression: Coding of speech, audio, text, image and
video, World Scientific Publishing, Singapore, 1997.
[Malcangi 03] M. Malcangi - Elaborazione Numerica del Segnale - Digital Signal
Processing: teoria e pratica, Ed. Libreria CLUP, Milano 2003.
[Moorer 75a] J. A. M oorer- On the segmentation and analysis of continuous musical
sound by digital computer, Standford University, report number STAN-M-3.
[Moorer 75b] J. A. Moorer - The synthesis of complex audio spectra by means of
discrete summation formulae, Standford University, report number STAN-M-5.
[Moorer 77] A. Moorer - Signal Processing aspects of computer music - A survey,
Computer Music Journal, February, 1977.
[Olson 67] H. F. Olson - Music, physics and engineering, Dover Publications, New
York, 1967.
[OShaughnessy 87] D. OShaughnessy - Speech sommunication - Human and
machine, Addison-Wesley, Reading (MA), 1987.
[Watkinson 01] J. Watkinson - The art of digital audio, Focal Press, Oxford (MA),
2001.

Mario Malcangi (www.dico.unimi.it), laureato in Ingegneria Elettronica presso il Politecnico di


Milano, docente presso il DICo (Dipartimento di Informatica e Comunicazione) delPIJniversit
degli Studi di Milano (www.dico.ummi.it),
Dal 1980 attivo nella ricerca finalizzata a IP applicazine della metodologia delPelaborazione
numerica del segnale (digitai signal processing) in ambito industriale, con particolare attenzione
allaudio e alla voce.
Negli anni 90 ha esteso lattivit di ricerca alle metodologie sofi computing (reti neurali, logica
fiizzy e algoritmi genetici) per affrontare problematiche di natura non lineare, soprattutto per
applicazioni di riconoscimento di pattern.
Campi di competenza sono Paudio digitale, P.elaborazione del segnale vocale e la biometrica.
E responsabile del laboratorio DSP&RTS (Digital Signal Processing & Real-Time Systems www.dsp-rts.dico.unimi.it) e delle attivit digitai audio del LIM (Laboratorio di Informatica
Musicale - www.lim.dico.unimi.it) pesso il DICo delPUniversit degli Studi di Milano.
E docente del corso di 'Informatica Applicata al Suono presso PUniversit degli Studi di Milano
e del corso Elaborazione Numerica del Sgnale presso l'Universit degli Studi di Milano Bicocca.
E' autore di vari libri, pubblicazioni, articoli scientifici e di numerosi articoli tecnici sulla teoria e
pratica delPelaborazione numerica del segnale e della comunicazione digitale.
T -

euro 14,00

9 788870 9 0 6 5 9 2