You are on page 1of 41

TRABAJO FIN DE CARRERA

Generacin de Mscaras Soft para Compensacin de Caractersticas en Reconocimiento Robusto del Habla
Ivn Lpez Espejo

SUMARIO
Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano
Modelado del proceso de ruido Relacin entre estados y observaciones Filtro SIR aplicado

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

1. INTRODUCCIN Y MOTIVACIN

Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano


Modelado del proceso de ruido Relacin entre estados y observaciones Filtro SIR aplicado

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

1. INTRODUCCIN Y MOTIVACIN

Acto de hablar: Usualmente en entornos acsticos ruidosos


Alta capacidad de reconocimiento en el ser humano Necesidad de adaptacin de los sistemas ASR

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

1. INTRODUCCIN Y MOTIVACIN

Acto de hablar: Usualmente en entornos acsticos ruidosos


Alta capacidad de reconocimiento en el ser humano Necesidad de adaptacin de los sistemas ASR

Algunas tcnicas para mejorar el matching:


Adaptacin de los modelos Descomposicin de HMMs Realce de las caractersticas de voz

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

1. INTRODUCCIN Y MOTIVACIN

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

1. INTRODUCCIN Y MOTIVACIN

Motivaciones
Mejora del rendimiento de un sistema ASR Ventajas de la metodologa de realce Aplicaciones:
Bsqueda de informacin Ejecucin de transacciones Control de sistemas (entornos industriales)

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

2. FUNDAMENTOS DEL SEGUIMIENTO

Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano


Modelado del proceso de ruido Relacin entre estados y observaciones Filtro SIR aplicado

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

2. FUNDAMENTOS DEL SEGUIMIENTO

Seguimiento: Estimacin de la secuencia de estados de un sistema a partir de sus observaciones Modelo compuesto de dos procesos
Proceso de estados Proceso observado

Solucin MMSE

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

2. FUNDAMENTOS DEL SEGUIMIENTO

Justificacin del filtro de partculas


Evaluacin compleja: Solucin: modelado markoviano

Aproximacin numrica:
integracin de Monte Carlo)

(muestreo y remuestreo de importancia +

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3. DISEO DEL FILTRO BAYESIANO

Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano


Modelado del proceso de ruido Relacin entre estados y observaciones Filtro SIR aplicado

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3. DISEO DEL FILTRO BAYESIANO

Seguimiento de ruido en el domino log Mel


Ruido (estado del sistema) Voz limpia (ruido que contamina la observacin) Voz ruidosa (observacin)

Definicin del espacio de estados dinmico


Proceso de ruido, Proceso observado,

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.1 Modelado del proceso de ruido

Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano


Relacin entre estados y observaciones Filtro SIR aplicado

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.1 Modelado del proceso de ruido

Codificacin de la previsibilidad proceso AR en el dominio log Mel

del ruido:

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.1 Modelado del proceso de ruido

Definicin implcita de una distribucin gaussiana para el ruido:

Seleccin de orden unidad para el modelo AR Distribucin a priori modelada como una gaussiana:

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.2 Relacin entre estados y observaciones

Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano


Modelado del proceso de ruido
Filtro SIR aplicado

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.2 Relacin entre estados y observaciones

Se parte de la aproximacin: Cul es la relacin entre las observaciones y el ruido?

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.2 Relacin entre estados y observaciones

Cul es la relacin entre las observaciones y el ruido?

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.2 Relacin entre estados y observaciones

Cul es la relacin entre las observaciones y el ruido?

Distribucin para la voz limpia:

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.2 Relacin entre estados y observaciones

Imponemos Se aplica la ley fundamental transformacin de probabilidades

de

De esta forma,

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.3 Filtro SIR aplicado

Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano


Modelado del proceso de ruido Relacin entre estados y observaciones

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.3 Filtro SIR aplicado

1.

Generacin de N partculas

2.

Clculo de pesos normalizados

3.

Remuestreo sobre las partculas

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.3 Filtro SIR aplicado

Existencia de problemas en la prctica


Si no se cumple SOLUCIN: para ningn j DROPOUT

Evolucin independiente de la observacin Prdida de la trayectoria de seguimiento SOLUCIN: Procedimiento de reinicializacin del filtro

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.3 Filtro SIR aplicado

Existencia de problemas en la prctica Modos de reinicializacin


Generacin de nuevas hiptesis sobre la distribucin a priori de ruido Inferir partculas de ruido a partir de muestrear un GMM

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.3 Filtro SIR aplicado

Existencia de problemas en la prctica Pobre modelado de ruido Subestimacin de hiptesis SOLUCIN: Se incentiva una futura reinicializacin si

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.3 Filtro SIR aplicado

Existencia de problemas en la prctica Mitigacin de dropouts TEST ACEPTACIN RPIDA

DE

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

3.3 Filtro SIR aplicado

Modos de inicializacin Uso de las l primeras tramas Empleo de la distribucin a priori de ruido

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

4. GENERACIN DE MSCARAS SOFT

Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano


Modelado del proceso de ruido Relacin entre estados y observaciones Filtro SIR aplicado

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

4. GENERACIN DE MSCARAS SOFT

22 20 18 16

22 20 18 16

22 20 18 16

22 20 18 16

Canales Mel

Canales Mel

Canales Mel

14 12 10 8 6 4 2 10 20 30 40 50 60 Tiempo 70 80 90 100

14 12 10 8 6 4 2 10 20 30 40 50 60 Tiempo 70 80 90 100

14 12 10 8 6 4 2 10 20 30 40 50 60 Tiempo 70 80 90 100

Canales Mel

14 12 10 8 6 4 2 10 20 30 40 50 60 Tiempo 70 80 90 100

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

5. TCNICA DE REALCE MULTIPLICATIVO

Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano


Modelado del proceso de ruido Relacin entre estados y observaciones Filtro SIR aplicado

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

5. TCNICA DE REALCE MULTIPLICATIVO

22 20 18 16

Canales Mel

14 12 10 8 6 4 2 10 20 30 40 50 60 Tiempo 70 80 90 100

22 20 18 16

22 20 18 16

Canales Mel

14 12 10 8 6 4 2 10 20 30 40 50 60 Tiempo 70 80 90 100

Canales Mel

14 12 10 8 6 4 2 10 20 30 40 50 60 Tiempo 70 80 90 100

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

6. TEST Y RESULTADOS

Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano


Modelado del proceso de ruido Relacin entre estados y observaciones Filtro SIR aplicado

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

6. TEST Y RESULTADOS

Uso de la base de datos Aurora-2


Empleo del conjunto de test A:
1001 grabaciones con secuencias de dgitos Ruidos: metro, multitud conversando, coche y sala de exposiciones SNRs: -5dB, 0dB, 5dB, 10dB, 15dB, 20dB y caso limpio

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

6. TEST Y RESULTADOS

Test de reconocimiento del habla


Aparente independencia del nmero de partculas
Acc. vs. SNR
120.00 100.00

80.00 Acc. (%)

60.00

Base-Line
FP (100) Promediado

40.00

20.00

0.00 -5 0 5 10 SNR (dB) 15 20 Limpio

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

6. TEST Y RESULTADOS

Test de reconocimiento del habla


Aparente independencia del nmero de partculas
Acc. vs. Tcnica empleada
90 80 70 60 Acc. (%) 50 40 30 20 10 0 Base-Line FP (100) Tcnica Promediado

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

6. TEST Y RESULTADOS

Test de reconocimiento del habla


Aparente independencia del nmero de partculas

WAcc = 1 - WER

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

7. CONCLUSIONES

Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano


Modelado del proceso de ruido Relacin entre estados y observaciones Filtro SIR aplicado

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

7. CONCLUSIONES

Verificacin experimental de la utilidad de una tcnica de realce Preferible, por el momento, uso de ruido estimado mediante promediado espectral:
Mayor rendimiento del sistema ASR Menor coste computacional

Necesidad de mejorar la calidad de las estimaciones resultantes del filtro de partculas

TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

8. TRABAJO FUTURO

Introduccin y Motivacin Fundamentos del Seguimiento Diseo del Filtro Bayesiano


Modelado del proceso de ruido Relacin entre estados y observaciones Filtro SIR aplicado

Generacin de Mscaras Soft Tcnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro
TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

8. TRABAJO FUTURO

Solventar usuales prdidas del seguimiento en el filtro de partculas


Nuevo modelo de ruido a priori Inclusin del trmino de fase relativa (FAT innecesario) Optimizacin de la implementacin Experimentacin con otros conjuntos de test Actualizacin del modelo AR de ruido y de la distribucin a priori
Uso de un detector de actividad de voz

Experimentar con un filtro RPF


TFC | Generacin de Mscaras Soft para Compensacin de Caractersticas en RSR | Ivn Lpez Espejo

Generacin de Mscaras Soft para Compensacin de Caractersticas en Reconocimiento Robusto del Habla

GRACIAS

You might also like