Professional Documents
Culture Documents
Exercicis Àudio 2017-2018 v3
Exercicis Àudio 2017-2018 v3
Exercici 1
Siguin les finestres Hamming, Hanning, Blackman, Rectangular, i Triangular, les quals
presenten les característiques temporals i freqüencials de la figura següent, indica quina
finestra creus que seria més adequada per:
a) Analitzar un senyal format per dos tons purs de la mateixa amplitud i de 1000 Hz i
1750 Hz, respectivament, usant una freqüència de mostratge de 10000 Hz.
b) Analitzar un senyal format per dos tons purs d’amplituds 1 i 0.005, i de
freqüències 375 Hz i 2500 Hz, usant una freqüència de mostratge de 5000 Hz.
Figura 1. Representació temporal (esquerre) i freqüencial del mòdul en dB (dreta) de les 5 finestres analitzades.
Figura 2. Detall de la resposta freqüencial del mòdul en dB de les finestres.
Exercici 2
Escriu un pseudocodi que permeti realitzar el càlcul del paràmetre ZCR, donat un segment
d’àudio enfinestrat i guardat a la variable x(n) per n = 1,2,...,N.
Exercici 3
En un problema de classificació de so s’ha observat que els tres tipus de sons a classificar
(tipus 1, 2 i 3) tenen un espectre amb forma força similar a la funció Gaussiana (vegeu Figura
3), i que els sons de tipus 3 estan formats per events sonors força impulsius, mentre que els
altres dos son sons força constants i estacionaris.
1
Problemes de PDAP ‐ Àudio
Exercici 4
Sigui un problema de classificació entre dos tipus de sons (A i B), es treballa amb dos
atributs i .
A
B
2.5
1.5
0.5
2
Problemes de PDAP ‐ Àudio
En la Figura 4 podem apreciar els exemples de que disposem per a entrenar un classificador.
Explica quina tècnica de classificació seria apropiada en aquest cas y detalla també el
disseny final del mateix classificador a partir de la informació donada. Nota: per al disseny
del classificador, inicia el procés fixant-te primer en l’atribut .
Exercici 5
Suposant que mostregem a una freqüència de 44100 mostres per segon, i processem el senyal
d’àudio amb trames de 30 ms, calcula l’expressió del 1er filtre logarítmic del càlcul dels
coeficients MFCC en funció de l’índex de la DFT.
AJUDA:
Exercici 6
Sigui un sistema de classificació que treballa amb dades que pertanyen a 3 categories
{A,B,C}. Disposem de 110290 vectors de característiques etiquetats en les tres categories.
Per entrenar el classificador fem servir el 90% de les dades per entrenar i el 10% per
validar/test. A part, ens donen la següent informació del conjunt de validació/test:
- Es classifiquen 135 en A, 138 en B i 10756 en C
- De la classe A, tenim 53 casos reals dels quals 50 s’han classificat com a A, cap en la
classe C, i 15 casos de la classe B han estat classificats com a A.
- Dels 138 classificats com a B, sabem que el classificador obté 125 de correctes,
mentre que 10 pertanyen en realitat a la classe C.
- 10756 exemples s’han classificat com a C, dels quals 170 pertanyen en realitat a la
classe B.
Calculeu:
a) La matriu de confusió
b) Precisió i cobertura de cada categoria
c) F1 de cada categoria
d) Taxa de reconeixement global
e) Mesura F1 macro-amitjanada.
Exercici 7
Sigui un sistema de reconeixement d’àudio del qual sabem:
- que fa servir dos paràmetres per realitzar el reconeixement, que anomenem i
- es treballa amb dues categories: sons d’aigua i sons de foc
- per la classe aigua sabem que els paràmetres mesurats ( i ) són independents,
que la seva mitja és i , i la seva dispersió és i √ .
3
Problemes de PDAP ‐ Àudio
- per la classe ‘foc’, en canvi, les variables mesurades són dependents, i coneixem les
mitges i , dispersions i √ / , i correlació
. .
Calculeu:
a) El resultat d’aplicar la classificació Bayesiana sobre el vector de característiques
d’entrada , assumint classes equiprobables.
b) El resultat d’aplicar la classificació Bayesiana sobre el vector de característiques
d’entrada , si la classe ‘aigua’ té una probabilitat d’ocurrència del 70%.
Exercici 8
Sigui un classificador KNN que treballa amb la base de dades d’entrenament següent, a on
es distingeixen 3 classes (A =rodona, B=quadrat, C=triangle):
12
10
4
x2
-2
-4
-6 -4 -2 0 2 4
x1
4
Problemes de PDAP ‐ Àudio
Resolució
Exercici 1
a) La diferència entre freqüències és de 750 Hz, que normalitzat a la freqüència de Nyquist (5000
Hz) representa 0.15. Com podem apreciar a la representació freqüencial de les finestres,
la Rectangular és la que té el lòbul principal més estret, d’uns 0.065 Hz normalitzats a la
freqüència de Nyquist. La següent finestra amb el lòbul més estret és la Triangular, amb una
amplada de 0.125 Hz normalitzats, seguida per la Hanning amb una amplada de lòbul d’uns 0.133
Hz normalitzats aproximadament.
Per tant, l’efecte d’enfinestrament sobre el senyal format pels dos tons purs de mateixa amplitud
i freqüències amb diferència de 0.15 Hz normalitzats provocarà la possibilitat de veure els màxims
dels lòbuls de la finestra localitzada a cada freqüència només en el cas d’usar la Rectangular, en
ser el seu lòbul principal més estret que la separació entre tons.
A la següent figura, es pot veure el resultat d’aplicar les finestres Rectangular i Triangular i
calcular al transformada de Fourier, amb una DFT de 1024 punts sobre el senyal temporal de 31
mostres. Com es pot apreciar, en el cas de la Triangular costa més apreciar ambdós pics
freqüencials, degut a la major amplada freqüencial de la seva transformada de Fourier.
15
Rectangular
10 Triangular
0
Magnitude (dB)
-5
-10
-15
-20
-25
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Normalized Frequency ( rad/sample)
b) En aquest cas els tons purs son de freqüències normalitzades a la de Nyquist de 0.075
i 0.5. La seva diferència és de 0.425. D’altra banda la diferència en dB entre les amplituds
dels dos tons és de 20 log 46 dB. Per a que l’anàlisi freqüencial basat en
.
enfinestrament i càlcul de la DFT permeti distingir els dos tons cal que el leakage de la finestra a
0.5 Hz normalitzats del pic del lòbul principal sigui menor que el valor del pic menys 46 dB. O
sigui, que la finestra que està desplaçada en freqüència al to de més energia, tingui una amplitud
menor que el segon to, de menys energia, a la freqüència d’aquest. Com podem observar, en la
5
Problemes de PDAP ‐ Àudio
gràfica de detall de les diverses finestres que estem avaluant (gràfica inferior de la Figura 2), el
valor de 0.425 Hz normalitzats és força a prop del valor més gran de l’eix de freqüències.
Comparant el valor d’amplitud en aquesta freqüència respecte del mateix valor però a la
freqüència 0 (lòbul principal), podem veure quines finestres donen lloc a una diferència de valors
superior a 46 dB: Hanning i Blackman. La Hamming sembla estar força al límit. Dins d’aquest
conjunt, la Hanning és la que té un lòbul principal més estret, per tant, la que permetrà obtenir
més resolució en freqüència. Així, finalment escollim la finestra Hanning.
Exercici 2
Sabent que el ZCR és el nombre de creuaments per zero del senyal d’entrada, normalitzat pel
nombre de mostres de l’interval de senyal analitzat, podem generar el següent pseudocodi:
ZCR = 0;
Per n = 2 fins N
o Si (x(n)*x(n-1)<0)
ZCR = ZCR + 1
o FiSi
ZCR = ZCR/N
Exercici 3
a) L’esquema de classificació serà un esquema One-vs-One, és a dir, cada classificador distingeix
entre només 2 tipus de sons:
- Classificador A: Distingeix entre sons de tipus 1 i 2. Per tant, s’entrena només amb
aquests tipus de sons.
- Classificador B: Distingeix entre sons de tipus 2 i 3. Per tant, s’entrena només amb
aquests tipus de sons.
- Classificador C: Distingeix entre sons de tipus 1 i 3. Per tant, s’entrena només amb
aquests tipus de sons.
La decisió final serà la sortida majoritària dels 3 classificadors, i en cas d’empat (cadascú dona
una decisió diferent) es donarà la sortida amb etiqueta 0 (indecisa).
b) Com podem observar, els espectres dels sons 1 i 2 es distingeixen per la posició del centre de
la Gaussiana, pel que el paràmetre “centroide espectral” seria apropiat per a separar-los. En canvi
els sons 2 i 3 es distingeixen per l’amplada de la funció, pel que en aquest cas l’atribut d’àudio
adient seria la “dispersió espectral”. Entre els sons 1 i 3 podem observar que la posició central és
també significativament diferent, però a més ens diuen que els sons 3 son força més impulsius
(menys estacionaris) que els 1 i 2. Per tant, afegiríem un tercer paràmetre adequat per a descriure
la impulsivitat o estacionarietat dels senyals: “l’entropia de l’energia”. Així, posem a continuació
les equacions de càlcul:
- Centroide espectral ( ): centre de masses del mòdul de la transformada discreta de
Fourier de la trama , | |, definit com:
∑ | |
∑ | |
6
Problemes de PDAP ‐ Àudio
∑ | |
∑ | |
log
Exercici 4
Com podem veure, el conjunt d’exemples proporcionar de les dues classes A i B es caracteritza
per estar molt ben delimitat per regions de decisió rectangulars, fet que ens indica que un
classificador de tipus CART seria molt apropiat.
El disseny el podem deduir inspeccionant les dades d’exemple i identificant les coordenades de
cada atribut que delimiten cada rectangle. Veiem que per a l’atribut aquests valors serien: 1, 2,
i 2.5. En canvi, per l’atribut els valors delimitadors serien: 1 i 2. A partir d’aquí podem construir
un arbre binari que particioni l’espai 2D d’acord a les classes observades en el conjunt de dades
proporcionat, i seguint la indicació de l’enunciat de iniciar el procés fixant-nos primer en l’atribut
.
Resultat del CART:
1 1
1 1
2 2
B A
2 2
2.5 2.5 A B
1 1
1 1
A B
2 2 B
B A
7
Problemes de PDAP ‐ Àudio
Exercici 5
El número de mostres d’una trama serà:
Si fem la DFT de 1323 mostres, aleshores l’índex de la DFT estarà relacionat amb la
freqüència:
44100
33.33 0 1322
1323
El 1er filtre logarítmic està ubicat entre les freqüències centrals i (no confondre amb les
freqüències de la DFT anteriors), i la forma serà la següent:
A on és l’àrea dels filtres lineals, que en el nostre cas és igual a , per tant,
0.0124 0.8249.
La seva funció es pot expressar a trams:
0 953.33
953.33
0.8249 953.33 1020
66.67
1114.96
0.8249 1020 1114.96
94.96
0 1114.96
8
Problemes de PDAP ‐ Àudio
Exercici 6
a) Amb les dades que ens donen tenim la següent matriu de confusió:
Classificats A B C Suma
Real
A 50 0 53
B 15 125 170
C 10
Suma 135 138 10756 11029
Ara podem trobar la resta de valors mitjançant les relacions de suma per files o columnes.
Classificat A B C Suma
Real
A 50 53-50=3 0 53
B 15 125 170 15+125+170=310
C 135-50-15=70 10 10756-170= 70+10+10586=10666
=10586
Suma 135 138 10756 11029
9
Problemes de PDAP ‐ Àudio
125
90.6%
º 138
10586
98.4%
º 10756
Seguim amb les cobertures:
50
94.3%
º 53
125
40.3%
º 310
10586
99.2%
º 10666
c) Calculem les mesures F1 per cada classe:
2
1 53.2%
2
1 55.8%
2
1 98.8%
Com veiem, el classificador obté una mala mesura per les classes A i B, ja que per A obté una
mala precisió, mentre que la B té mala cobertura. En canvi, la classe C obté tant bona precisió
com cobertura, el que fa que la seva mesura F1 obtingui un valor alt.
d) Calculem la taxa de reconeixement global com el quocient entre el nombre de casos ben
classificats (verdaders positius, en la diagonal de la matriu de confusió) i el nombre total de
casos:
50 125 10586
98%
11029
e) Calculem la mesura F1 macro-amitjanada com la mitja de les mesures F1 de les tres
categories:
1 1 1
1 69.3%
3
Com veiem, la mesura F1 macro-amitjanada dona un valor significativament menor que la taxa
de reconeixement global. Això és degut a que la classe majoritària, que és la C (amb 10756
exemples reals) és la que obté millor precisió i cobertura, i això fa que la taxa de reconeixement
global obtingui un valor elevat. En canvi, en ser les classes A i B minoritàries les que obtenen
valors F1 menors, aquestes no influeixen gaire en l’avaluació de la taxa de reconeixement global,
però sí en la mesura F1 macro-amitjanada.
Exercici 7
a) En aquest cas calculem, sent les classes {A=aigua,F =foc}:
10
Problemes de PDAP ‐ Àudio
0 1
exp 0.5
1 2 | |
1 1 0 0 1
exp 0.5 0 1 1 2
1 0 0 2 1 2
2 | |
0 2
1 1 0 1
exp 0.5 1 1
√8 0 0.5 1
1 3
0.1125 exp 0.5 1 1 0.1125 exp 0.5
0.5 2
0.1125 0.4724 0.0532
0 1
exp 0.5
1 2 | |
1 1 0.5 0
exp 0.5 0 1 1 0
1 0.5 0.5 3/4 1
2 | |
0.5 3/4
1 1 1.5 1 1
exp 0.5 1 1
0 √2 1 2 1
0.5 3
0.2251 exp 0.5 1 1 0.2251 exp 0.5
1 2
0.2251 0.4724 0.1063
Assumint classes equiprobables,
0
0 1 0.5 0.0532
1
0
0 1 0.5 0.1063
1
0
1
Com veiem, ≃ 0.5 1, per tant el resultat de la classificació del vector és
0
1
classe F (foc).
b) En aquest cas:
0
0 1 0.7 0.0532
1
0
0 1 0.3 0.1063
1
11
Problemes de PDAP ‐ Àudio
0
1
Com veiem, ≃ 1.16 1, per tant el resultat de la classificació del vector és
0
1
classe A (aigua).
Exercici 8
a) En aquest cas veiem el nou punt (negre) i els punts més propers a partir d’un cercle centrat en
el punt:
4.4
4.2
3.8
3.6
x2
3.4
3.2
2.8
2.6
Com veiem, tenim dels 6 exemples més propers 4 de la classe A i 2 de la classe B. Per tant,
l’exemple queda classificat per la classe A.
b) En aquest cas, visualitzem els 18 casos més propers segons la distància Manhattan, en aquest
cas usant com a zones de proximitat diamants. Això és perquè les zones o fronteres
d’equidistància respecte d’un punt central compleixen que | | | | , essent i les
coordenades relatives d’un punt de la frontera de decisió respecte del punt central. Aleshores, les
equacions de les fronteres respecte d’aquest punt central seran: | | i | |
. Això dibuixa un diamant al voltant del punt que volem classificar.
Com veiem, tenim dels 18 exemples més propers (concretament amb una distància de Manhattan
menor o igual que 2.5) 9 son de la classe A, 8 de la classe B i 1 de la classe C. Per tant, l’exemple
queda classificat per la classe A.
12
Problemes de PDAP ‐ Àudio
3.5
2.5
1.5
1
x2
0.5
-0.5
-1
-1.5
0 1 2 3 4
x1
13