Exercicis Àudio 2017-2018 v3

Problemes de PDAP ‐ Àudio
Exercici 1
Siguin les finestres Hamming, Hanning, Blackman, Rectangular, i Triangular, les quals
presenten les característiques temporals i freqüencials de la figura següent, indica quina
finestra creus que seria més adequada per:
a) Analitzar un senyal format per dos tons purs de la mateixa amplitud i de 1000 Hz i
1750 Hz, respectivament, usant una freqüència de mostratge de 10000 Hz.
b) Analitzar un senyal format per dos tons purs d’amplituds 1 i 0.005, i de
freqüències 375 Hz i 2500 Hz, usant una freqüència de mostratge de 5000 Hz.

Figura 1. Representació temporal (esquerre) i freqüencial del mòdul en dB (dreta) de les 5 finestres analitzades.

Figura 2. Detall de la resposta freqüencial del mòdul en dB de les finestres.
Exercici 2
Escriu un pseudocodi que permeti realitzar el càlcul del paràmetre ZCR, donat un segment
d’àudio enfinestrat i guardat a la variable x(n) per n = 1,2,...,N.
Exercici 3
En un problema de classificació de so s’ha observat que els tres tipus de sons a classificar
(tipus 1, 2 i 3) tenen un espectre amb forma força similar a la funció Gaussiana (vegeu Figura
3), i que els sons de tipus 3 estan formats per events sonors força impulsius, mentre que els
altres dos son sons força constants i estacionaris.
1
|X1(f)| |X2(f)| |X3(f)|
0 5K 10K 15K 20K f 0 5K 10K 15K 20K f 0 5K 10K 15K 20K f

Figura 3. Exemples representatius d’espectres de tres tipus de sons a classificar.
Es vol proposar un sistema de classificació basat en binarització, és a dir, enlloc d’usar un

sol classificador que classifiqui en les tres categories de sons, fer-ho amb diversos
classificadors binaris que només entreguen etiquetes binàries a la seva sortida (no es disposa
de cap variable de fiabilitat de la decisió).
Es demana:
a) Explica com funcionaria un esquema de classificació binària com el comentat, és a
dir, com s’entrenarien els classificadors i com es generarien les decisions finals a
partir dels 3 classificadors.
b) Explica quins atributs d’àudio dels estudiats a classe serien els més apropiats per a
poder distingir entre els tres tipus de sons amb ajuda d’un sistema de classificació
supervisada. Dona el detall de com es realitza el seu càlcul.
Exercici 4
Sigui un problema de classificació entre dos tipus de sons (A i B), es treballa amb dos
atributs i .
A
B
2.5
1.5
0.5
0.5 1 1.5 2 2.5 3 3.5

x1

Figura 4. Exemples per a entrenar el classificador de les dues classes A i B.
2
En la Figura 4 podem apreciar els exemples de que disposem per a entrenar un classificador.
Explica quina tècnica de classificació seria apropiada en aquest cas y detalla també el
disseny final del mateix classificador a partir de la informació donada. Nota: per al disseny
del classificador, inicia el procés fixant-te primer en l’atribut .
Exercici 5
Suposant que mostregem a una freqüència de 44100 mostres per segon, i processem el senyal
d’àudio amb trames de 30 ms, calcula l’expressió del 1er filtre logarítmic del càlcul dels
coeficients MFCC en funció de l’índex de la DFT.
AJUDA:
Filtres lineals MFCC:
Filtres logarítmics MFCC: .
Exercici 6
Sigui un sistema de classificació que treballa amb dades que pertanyen a 3 categories
{A,B,C}. Disposem de 110290 vectors de característiques etiquetats en les tres categories.
Per entrenar el classificador fem servir el 90% de les dades per entrenar i el 10% per
validar/test. A part, ens donen la següent informació del conjunt de validació/test:
- Es classifiquen 135 en A, 138 en B i 10756 en C
- De la classe A, tenim 53 casos reals dels quals 50 s’han classificat com a A, cap en la
classe C, i 15 casos de la classe B han estat classificats com a A.
- Dels 138 classificats com a B, sabem que el classificador obté 125 de correctes,
mentre que 10 pertanyen en realitat a la classe C.
- 10756 exemples s’han classificat com a C, dels quals 170 pertanyen en realitat a la
classe B.
Calculeu:
a) La matriu de confusió
b) Precisió i cobertura de cada categoria
c) F1 de cada categoria
d) Taxa de reconeixement global
e) Mesura F1 macro-amitjanada.
Exercici 7
Sigui un sistema de reconeixement d’àudio del qual sabem:
- que fa servir dos paràmetres per realitzar el reconeixement, que anomenem i
- es treballa amb dues categories: sons d’aigua i sons de foc
- per la classe aigua sabem que els paràmetres mesurats ( i ) són independents,
que la seva mitja és i , i la seva dispersió és i √ .
3
- per la classe ‘foc’, en canvi, les variables mesurades són dependents, i coneixem les
mitges i , dispersions i √ / , i correlació
. .
Calculeu:
a) El resultat d’aplicar la classificació Bayesiana sobre el vector de característiques
d’entrada , assumint classes equiprobables.
b) El resultat d’aplicar la classificació Bayesiana sobre el vector de característiques
d’entrada , si la classe ‘aigua’ té una probabilitat d’ocurrència del 70%.
Exercici 8
Sigui un classificador KNN que treballa amb la base de dades d’entrenament següent, a on
es distingeixen 3 classes (A =rodona, B=quadrat, C=triangle):
12
10
4
x2
-2
-4
-6 -4 -2 0 2 4
x1
Tenint en compte que en el diagrama el pas de quantificació de les variables observables

i és de 0.5 (pas mínim), aplica el criteri de classificació del KNN pels punts:
a) . , . amb i distància Euclidiana.
b) , amb i distància Manhattan.
4
Resolució

Exercici 1
a) La diferència entre freqüències és de 750 Hz, que normalitzat a la freqüència de Nyquist (5000
Hz) representa 0.15. Com podem apreciar a la representació freqüencial de les finestres,
la Rectangular és la que té el lòbul principal més estret, d’uns 0.065 Hz normalitzats a la
freqüència de Nyquist. La següent finestra amb el lòbul més estret és la Triangular, amb una
amplada de 0.125 Hz normalitzats, seguida per la Hanning amb una amplada de lòbul d’uns 0.133
Hz normalitzats aproximadament.
Per tant, l’efecte d’enfinestrament sobre el senyal format pels dos tons purs de mateixa amplitud
i freqüències amb diferència de 0.15 Hz normalitzats provocarà la possibilitat de veure els màxims
dels lòbuls de la finestra localitzada a cada freqüència només en el cas d’usar la Rectangular, en
ser el seu lòbul principal més estret que la separació entre tons.
A la següent figura, es pot veure el resultat d’aplicar les finestres Rectangular i Triangular i
calcular al transformada de Fourier, amb una DFT de 1024 punts sobre el senyal temporal de 31
mostres. Com es pot apreciar, en el cas de la Triangular costa més apreciar ambdós pics
freqüencials, degut a la major amplada freqüencial de la seva transformada de Fourier.
15
Rectangular
10 Triangular
0
Magnitude (dB)
-5
-10
-15
-20
-25
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Normalized Frequency (  rad/sample)
b) En aquest cas els tons purs son de freqüències normalitzades a la de Nyquist de 0.075
i 0.5. La seva diferència és de 0.425. D’altra banda la diferència en dB entre les amplituds
dels dos tons és de 20 log 46 dB. Per a que l’anàlisi freqüencial basat en
.
enfinestrament i càlcul de la DFT permeti distingir els dos tons cal que el leakage de la finestra a
0.5 Hz normalitzats del pic del lòbul principal sigui menor que el valor del pic menys 46 dB. O
sigui, que la finestra que està desplaçada en freqüència al to de més energia, tingui una amplitud
menor que el segon to, de menys energia, a la freqüència d’aquest. Com podem observar, en la
5
gràfica de detall de les diverses finestres que estem avaluant (gràfica inferior de la Figura 2), el
valor de 0.425 Hz normalitzats és força a prop del valor més gran de l’eix de freqüències.
Comparant el valor d’amplitud en aquesta freqüència respecte del mateix valor però a la
freqüència 0 (lòbul principal), podem veure quines finestres donen lloc a una diferència de valors
superior a 46 dB: Hanning i Blackman. La Hamming sembla estar força al límit. Dins d’aquest
conjunt, la Hanning és la que té un lòbul principal més estret, per tant, la que permetrà obtenir
més resolució en freqüència. Així, finalment escollim la finestra Hanning.
Exercici 2
Sabent que el ZCR és el nombre de creuaments per zero del senyal d’entrada, normalitzat pel
nombre de mostres de l’interval de senyal analitzat, podem generar el següent pseudocodi:
 ZCR = 0;
 Per n = 2 fins N
o Si (x(n)*x(n-1)<0)
 ZCR = ZCR + 1
o FiSi
 ZCR = ZCR/N
Exercici 3
a) L’esquema de classificació serà un esquema One-vs-One, és a dir, cada classificador distingeix
entre només 2 tipus de sons:
- Classificador A: Distingeix entre sons de tipus 1 i 2. Per tant, s’entrena només amb
aquests tipus de sons.
- Classificador B: Distingeix entre sons de tipus 2 i 3. Per tant, s’entrena només amb
- Classificador C: Distingeix entre sons de tipus 1 i 3. Per tant, s’entrena només amb
La decisió final serà la sortida majoritària dels 3 classificadors, i en cas d’empat (cadascú dona
una decisió diferent) es donarà la sortida amb etiqueta 0 (indecisa).
b) Com podem observar, els espectres dels sons 1 i 2 es distingeixen per la posició del centre de
la Gaussiana, pel que el paràmetre “centroide espectral” seria apropiat per a separar-los. En canvi
els sons 2 i 3 es distingeixen per l’amplada de la funció, pel que en aquest cas l’atribut d’àudio
adient seria la “dispersió espectral”. Entre els sons 1 i 3 podem observar que la posició central és
també significativament diferent, però a més ens diuen que els sons 3 son força més impulsius
(menys estacionaris) que els 1 i 2. Per tant, afegiríem un tercer paràmetre adequat per a descriure
la impulsivitat o estacionarietat dels senyals: “l’entropia de l’energia”. Així, posem a continuació
les equacions de càlcul:
- Centroide espectral ( ): centre de masses del mòdul de la transformada discreta de
Fourier de la trama , | |, definit com:
∑ | |

∑ | |
6
- Dispersió espectral ( ): desviació típica del mòdul de la transformada discreta de Fourier

de la trama , | |, definida com:
∑ | |
∑ | |
- Entropia de l’energia ( ): dividim una trama del senyal en subtrames de mostres,

essent la subtrama , i la seva energia.
log
Exercici 4
Com podem veure, el conjunt d’exemples proporcionar de les dues classes A i B es caracteritza
per estar molt ben delimitat per regions de decisió rectangulars, fet que ens indica que un
classificador de tipus CART seria molt apropiat.
El disseny el podem deduir inspeccionant les dades d’exemple i identificant les coordenades de
cada atribut que delimiten cada rectangle. Veiem que per a l’atribut aquests valors serien: 1, 2,
i 2.5. En canvi, per l’atribut els valors delimitadors serien: 1 i 2. A partir d’aquí podem construir
un arbre binari que particioni l’espai 2D d’acord a les classes observades en el conjunt de dades
proporcionat, i seguint la indicació de l’enunciat de iniciar el procés fixant-nos primer en l’atribut
.
Resultat del CART:
1 1
1 1
2 2
B A
2 2
2.5 2.5 A B
1 1
1 1
A B
2 2 B
B A
7
Exercici 5
El número de mostres d’una trama serà:
0.03 44100 1323 /
Si fem la DFT de 1323 mostres, aleshores l’índex de la DFT estarà relacionat amb la
freqüència:
44100
33.33 0 1322
1323
El 1er filtre logarítmic està ubicat entre les freqüències centrals i (no confondre amb les
freqüències de la DFT anteriors), i la forma serà la següent:

A on les freqüències de referència són:

200
20 14 953.33
3
200
20 15 1020
3
1.0931 1.0931 1114.96
I a on l’alçada del filtre és:
2 2
0.0124
1114.96 953.33
A on és l’àrea dels filtres lineals, que en el nostre cas és igual a , per tant,
0.0124 0.8249.
La seva funció es pot expressar a trams:
0 953.33
953.33
0.8249 953.33 1020
66.67
1114.96
0.8249 1020 1114.96
94.96
0 1114.96
8
La versió mostrejada a les freqüències de la DFT serà:

0 0 29
33.33 953.33
0.8249 29 31
33.33 66.67
1114.96 33.33
0.8249 31 33
94.96
0 33 661
A on els marges els trobem:
953.33
33.33 953.33 ⇒ 28.6 ⇒ 29
33.33
953.33 1020
953.33 33.33 1020 ⇒ ⇒ 28.6 30.6
33.33 33.33
⇒ 29 31
1020 1114.96
1020 33.33 1114.96 ⇒ ⇒ 30.6 33.45
33.33 33.33
⇒ 31 33
33.33 1114.96 ⇒ 33
Notar que el marge inferior ( 0) i el marge superior ( 661 s’han calculat tenint en compte
que de les 1323 mostres de la DFT només processarem la primera meitat, donat que estem
suposant que processarem senyals reals d’àudio, amb el que la segona meitat de l’espectre té
simetria respecte de la primera meitat.
Exercici 6
a) Amb les dades que ens donen tenim la següent matriu de confusió:
Classificats A B C Suma
Real
A 50 0 53
B 15 125 170
C 10
Suma 135 138 10756 11029
Ara podem trobar la resta de valors mitjançant les relacions de suma per files o columnes.
Classificat A B C Suma
Real
A 50 53-50=3 0 53
B 15 125 170 15+125+170=310
C 135-50-15=70 10 10756-170= 70+10+10586=10666
=10586
Suma 135 138 10756 11029
b) Comencem per les precisions:

50
37%
º 135
9
125
90.6%
º 138
10586
98.4%
º 10756
Seguim amb les cobertures:
50
94.3%
º 53
125
40.3%
º 310
10586
99.2%
º 10666
c) Calculem les mesures F1 per cada classe:
2
1 53.2%
2
1 55.8%
2
1 98.8%
Com veiem, el classificador obté una mala mesura per les classes A i B, ja que per A obté una
mala precisió, mentre que la B té mala cobertura. En canvi, la classe C obté tant bona precisió
com cobertura, el que fa que la seva mesura F1 obtingui un valor alt.
d) Calculem la taxa de reconeixement global com el quocient entre el nombre de casos ben
classificats (verdaders positius, en la diagonal de la matriu de confusió) i el nombre total de
casos:
50 125 10586
98%
11029
e) Calculem la mesura F1 macro-amitjanada com la mitja de les mesures F1 de les tres
categories:
1 1 1
1 69.3%
3
Com veiem, la mesura F1 macro-amitjanada dona un valor significativament menor que la taxa
de reconeixement global. Això és degut a que la classe majoritària, que és la C (amb 10756
exemples reals) és la que obté millor precisió i cobertura, i això fa que la taxa de reconeixement
global obtingui un valor elevat. En canvi, en ser les classes A i B minoritàries les que obtenen
valors F1 menors, aquestes no influeixen gaire en l’avaluació de la taxa de reconeixement global,
però sí en la mesura F1 macro-amitjanada.
Exercici 7
a) En aquest cas calculem, sent les classes {A=aigua,F =foc}:
10
0 1
exp 0.5
1 2 | |
1 1 0 0 1
exp 0.5 0 1 1 2
1 0 0 2 1 2
2 | |
0 2
1 1 0 1
exp 0.5 1 1
√8 0 0.5 1
1 3
0.1125 exp 0.5 1 1 0.1125 exp 0.5
0.5 2
0.1125 0.4724 0.0532
0 1
exp 0.5
1 2 | |
1 1 0.5 0
exp 0.5 0 1 1 0
1 0.5 0.5 3/4 1
2 | |
0.5 3/4
1 1 1.5 1 1
exp 0.5 1 1
0 √2 1 2 1
0.5 3
0.2251 exp 0.5 1 1 0.2251 exp 0.5
1 2
0.2251 0.4724 0.1063
Assumint classes equiprobables,
0
0 1 0.5 0.0532
1
0
0 1 0.5 0.1063
1
0
1
Com veiem, ≃ 0.5 1, per tant el resultat de la classificació del vector és
0
1
classe F (foc).
b) En aquest cas:
0
0 1 0.7 0.0532
1
0
0 1 0.3 0.1063
1
11
0
1
Com veiem, ≃ 1.16 1, per tant el resultat de la classificació del vector és
0
1
classe A (aigua).
Exercici 8
a) En aquest cas veiem el nou punt (negre) i els punts més propers a partir d’un cercle centrat en
el punt:
4.4
4.2
3.8
3.6
x2
3.4
3.2
2.8
2.6
-0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4

x1
Com veiem, tenim dels 6 exemples més propers 4 de la classe A i 2 de la classe B. Per tant,
l’exemple queda classificat per la classe A.
b) En aquest cas, visualitzem els 18 casos més propers segons la distància Manhattan, en aquest
cas usant com a zones de proximitat diamants. Això és perquè les zones o fronteres
d’equidistància respecte d’un punt central compleixen que | | | | , essent i les
coordenades relatives d’un punt de la frontera de decisió respecte del punt central. Aleshores, les
equacions de les fronteres respecte d’aquest punt central seran: | | i | |
. Això dibuixa un diamant al voltant del punt que volem classificar.
Com veiem, tenim dels 18 exemples més propers (concretament amb una distància de Manhattan
menor o igual que 2.5) 9 son de la classe A, 8 de la classe B i 1 de la classe C. Per tant, l’exemple
queda classificat per la classe A.
12
3.5
2.5
1.5
1
x2
0.5
-0.5
-1
-1.5
0 1 2 3 4
x1
13

Exercicis Àudio 2017-2018 v3

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Exercicis Àudio 2017-2018 v3

Uploaded by

Copyright:

Available Formats

Problemes de PDAP ‐ Àudio

|X1(f)| |X2(f)| |X3(f)|

0 5K 10K 15K 20K f 0 5K 10K 15K 20K f 0 5K 10K 15K 20K f

Es vol proposar un sistema de classificació basat en binarització, és a dir, enlloc d’usar un

0.5 1 1.5 2 2.5 3 3.5

Filtres lineals MFCC:

Filtres logarítmics MFCC: .

Tenint en compte que en el diagrama el pas de quantificació de les variables observables

- Dispersió espectral ( ): desviació típica del mòdul de la transformada discreta de Fourier

- Entropia de l’energia ( ): dividim una trama del senyal en subtrames de mostres,

0.03 44100 1323 /

A on les freqüències de referència són:

La versió mostrejada a les freqüències de la DFT serà:

b) Comencem per les precisions:

-0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4

You might also like