You are on page 1of 4

CLASIFICACIÓN DE HABLANTES USANDO

PREDICCIÓN LINEAL
Director de Proyecto: Dr. Héctor Pérez Meana
Registro CGPI: 980881
Sección de Estudios de Posgrado e Investigación
Escuela Superior de Ingeniería Mecánica y Eléctrica Unidad Culhuacan
Instituto Politécnico Nacional
Av. Santa Ana No.1000, Col San Francisco Culhuacan
C.P. 04430, México, D.F. Tel:56 56 20 58
e-mail: hmpm@prodigy.net.mx

Resumen Sistema propuesto

El presente artículo propone un sistema para


reconocimiento de hablantes de baja complejidad,
basado en n redes neuronales de tipo ADALINE
conectadas en paralelo, las cuáles realizarán la
clasificación del hablante en dos etapas; la primera de
ellas se encargará de “aprender” los patrones de voz y la
segunda etapa llevará a cabo la verificación de dicho Fig. 1. Sistema propuesto
aprendizaje. Las entradas a las redes neuronales son los
coeficientes de predicción lineal y coeficientes de La figura 1 muestra el sistema propuesto que
reflexión de los hablantes a ser identificados. Resultados consta de un extractor de características y la parte de
experimentales son dados los cuales muestran las identificación usando n redes neuronales conectadas en
características del sistema propuesto. paralelo, las cuales emplean los parámetros extraídos de
la señal de voz, que son los coeficientes de predicción
Introducción lineal y los coeficientes de reflexión. Las salidas de
estas redes se conectan en serie a otra red neuronal la
El reconocimiento de hablantes es uno de los cual lleva a cabo la identificación o verificación de la
sistemas biométricos mas estudiados a la fecha, lo cual identidad del hablante.
ha dados como resultado el desarrollo de una importante
variedad de sistemas para identificar al hablante, y de esa 2.1 Detección del punto inicial y final
manera llevar a cabo la verificación y detección de la
identidad de las personas. La potencia promedio es utilizada para encontrar
La verificación automática de hablante (ASV) hace el intervalo en donde se excede un umbral ITU, se
uso de una máquina para verificar la autenticidad de una asume que el punto inicio y fin están situados fuera de
persona a través de su voz, es decir el sistema determina este intervalo. Moviéndose hacia atrás desde el punto en
si la persona es quien dice ser o no [1]. el cuál Mn primero excede el umbral ITU, el punto
Por otro lado, los sistemas de identificación del donde Mn cae más abajo del umbral ITL es
hablante (ASI) son aquellos en donde el sistema tentativamente seleccionado como el punto inicial, un
determina quién es la persona que habla, es decir, nos procedimiento similar se lleva acabo para encontrar
indica específicamente de que persona se trata. Así tentativamente el punto final N2.
aunque en ambos casos es necesario analizar los Este doble procedimiento de umbral asegura que la
parámetros que permite la identificación de las personas inclinación de la potencia no sea una señal falsa del
de a través de sus voz, su objetivos son diferentes, ya punto final. El paso siguiente es mover hacia atrás
que mientras los primeros tiene por objeto determinar si desde N1 hacia N2 comparando la medida de cruce por
la persona es realmente quien dice ser, el objetivo de los cero a un umbral determinado estadísticamente de la
segundos es determinar, de entre un conjunto de posibles medida de cruce por cero para el ruido; esto es limitado
candidatos, de que persona se trata. para los 25 frames que preceden a N1 seguido de N2.
Si la medida de cruce por cero excede el umbral coeficientes de predicción. Así que suponemos que
tres o más veces el punto inicio N1 se mueve atrás hacia algunas características dependientes del hablante se
el primer punto en el cuál el umbral de cruce por cero encuentran presentes en esta señal de excitación
fue excedido, de otra manera N1 es definido como el (frecuencia fundamental), si la señal de excitación es
inicio [2] ignorada, la información valiosa de discriminación en la
verificación del hablante se podría perder.
Definiendo el error de predicción (conocido
también como residual) como la diferencia entre el
valor actual de S n y el valor predecido de Ŝ n , produce
la siguiente ecuación:

p
en  Sn  Sˆn  Sn   ak Sn  k (3)
k 1

Por tanto el error de predicción es idéntico a la


señal de entrada escalar G  U n . Permitiendo que E
represente el error cuadrático medio (MSE):

2
 p

Fig. 2. Ejemplo típico del promedio de la magnitud y la
medida de cruce por cero.
E   e    S n   ak  S n  k 
2
n (4)
n  k 1 
2.2 Coeficientes de predicción lineal
En cada recursión del algoritmo de Durbin, el
orden de predicción se incrementa y su correspondiente
El sistema vocal del ser humano se puede
error es determinado. Esto puede ser monitoreado como
representar matemáticamente por medio de la siguiente
un criterio sobre la predicción de orden p [3]
ecuación:
E0  R0
p
S n   ak  S n  k  G  U n
k 1
(1)

Ki 

 Ri   j 1 a (ji 1) Ri  j
i 1
  1 i  p
Ei 1
Donde: Sn Salida
p Orden de predicción ai(i )  ki
ak Coeficientes de predicción
a (ji )  a ij1  ki ai(i j1)  1  j  i -1
Sn  k Salidas anteriores
G Factor escalar de ganancia

Ei  1  ki2 Ei 1   i  1,2,..., p
Un Entrada presente (en aplicaciones de
voz es ignorada)
a j  a (j p )  1 j p
Como la entrada G  U n es desconocida, la
aproximación Ŝ n depende solo de las salidas anteriores, p

entonces: S n   ak  S n  k en (5)


k 1
p
Sˆn   ak  Sn  k (2)
k 1

La estimación se reduce porque la fuente y el filtro


han sido separados. La fuente U n corresponde a la
excitación del tracto vocal, no es modelada por estos
a p (k )  k p a p ( p  k )
a p 1 (k ) 
1 kp
2

k  1,2,3,..., p  1
a p 1 (1), a p 1 (2),..., a p 1 ( p  1) 
K p 1  a p 1 ( p  1)

Hasta que K sea igual a 1.

Fig. 3. Coeficientes de predicción para la vocal a de un mismo


hablante

2.3 Coeficientes de reflexión


Los coeficientes de reflexión indican la cantidad de
voz reflejada así como la cantidad de voz que pasa a
través del sistema vocal. El tracto vocal es representado
por tubos acústicos de distinta magnitud como se
muestra en la siguiente figura:

6)
Fig. 5. Coeficientes de reflexión para la vocal a de un mismo
hablante

2.4 Red neuronal ADALINE


Las redes neuronales artificiales fueron diseñadas
con el propósito de simular el funcionamiento que tiene
Fig. 4. Representación de los coeficientes de reflexión una red neuronal fisiológica por lo que el primer paso
que se realiza posterior al desarrollo de la red, es el
Si el algoritmo de Levinson-Durbin es usado para entrenamiento de la misma; este se lleva a cabo con la
resolver las ecuaciones normales, los coeficientes de utilización de una determinada cantidad de entradas
reflexión son las variables intermedias ki en la distintas.
recursión. Si los tubos acústicos son de la misma Dentro de las redes neuronales artificiales existen
longitud, el tiempo requerido para la propagación del varios modelos, así como de entrenamientos para este
sonido a través de cada tubo es el mismo. Así los proyecto se utilizó como base la red neuronal
coeficientes de reflexión pueden ser obtenidos de un ADALINE.
modelo de tubos acústicos [3]. Una ADALINE (elemento lineal adaptable) esta
Se tiene un vector de coeficientes (Levinson) formada por un solo elemento la cuál maneja datos
analógicos en su entrada y a la salida tiene una
(a0 , a1 , a2 ,..., a p ) activación lineal o sigmoidal; esta red utiliza para su
de un predictor de forma aprendizaje la regla de LMS (regla de aprendizaje de
p mínimos cuadrados) [4], tratando de obtener un mínimo
a
k 1
p (k ) z 1 error entere la salida deseada y la obtenida, la cuál se
basa en hallar un vector de pesos deseados, mediante la
introducción de valores de pesos en las entradas de la
K p  a p ( p) red calculando el error y posteriormente actualizar los
valores de los pesos distribuyendo el error entre las
Calculo del predictor p-1
entradas. Este proceso se repite hasta obtener los valores vocal Coeficientes de reflexión
deseados, a este proceso se le llama entrenamiento. % Reflexión 1 Reflexión 2

Vocal 'a' 80.00 73.33

Vocal 'e' 64.00 88.00


Tabla 1. Resultados de los coeficientes de reflexión

Vocal Coeficientes de predicción lineal


% LPC 1 LPC 2

Fig. 6 Red Neuronal ADALINE Vocal 'a' 80.00 86.67

La actualización de los pesos se hace para cada Vocal 'e' 69.33 78.67
vector de entrada como se muestra en (7):
Tabla 2. Resultados de los coeficientes de predicción lineal

Wk (n  1)  W (n)  ek (n) x(n) (7)


4. Conclusiones
Donde Wk(n) es un vector de pesos de conexión de Los resultados obtenidos muestran que el sistema
k-ésimo nodo del ADALINE en tiempo n. X(n) es el propuesto mostrado en la figura 1 es eficiente, ya que
vector de entradas y ek es la señal de error entre la salida presenta un porcentaje de reconocimiento aceptable
deseada y la salida obtenida, que se muestra en (8): usando los coeficientes de reflexión y de predicción
lineal separadamente. El reconocimiento puede ser
ek (n)  d k (n)  Yk (n) (8) mejorado empleando ambos parámetros de manera
conjunta. Además el sistema propuesto presenta una
arquitectura simple y fácil de desarrollar por lo que el
donde: Yk (n)  Wk (n) x(n)  (9) costo del sistema es bajo.
 es el factor de convergencia que cumple con la Mayor funcionamiento del sistema se puede
siguiente ecuación: esperar usando una palabra completa, en el cual los 5
vocales y consonantes pueden ser factores combinados
0   1 . 0 ( 10 ) para identificación. También se podría mejorar su
funcionamiento empleando una red neuronal de Back
Propagation, el lugar de la red ADALINE, ya que esta
3. Resultados obtenidos tiene mayor flexibilidad en la similitud de patrones a
detectar permitiendo que no sean completamente
El sistema propuesto ha evaluado por dos vocales 'a' similares, aunque su complejidad es mayor.
,'e' de 3 hablantes. Se generaron bases de datos con 15 Para eliminar el ruido que afecta directamente a
vocales por cada hablante para entrenamiento de las todo el sistema, sería necesario implementar filtros a la
redes neuronales, y 5 vocales por cada hablante se entrada que pudieran reducir la distorsión y aclarar las
usaron para verificación del sistema propuesto. señales de voz previas al reconocimiento.
Total han generado 2 bases de datos para
entrenamiento, uno para vocal 'a', y otro para vocal 'e', y
2 bases de datos para la verificación del sistema.
Referencias
Partir de estos bases de datos, se calcularon los [1] Speaker verification: A tutorial, IEEE Commun. Mag.,
coeficientes de LPC y los coeficientes de reflexión. Vol.28, J.Naik, January 1990.
Usando las bases de datos antes mencionada, se [2] Digital Processing of Speech Signal, Lawrence R. Rabiner
evaluó el sistema propuesto. Los resultados obtenidos se and Ronald W. Shafer, Ed. Prentice-Hall Inc.
muestran en las siguientes tablas (tabla 1 y tabla 2). De [3] Linear prediction: A tutorial review, Proc. .of The
los resultados obtenidos, el vocal 'a' puede ser mejor IEEE, Vol. 63, J. Makhoul, 1975.
factor que el vocal 'e' para identificar hablantes. [4] Freeman. James A, David M. Skapura. REDES
También el reconocimiento obtenido con los NEURONALES Algoritmos, aplicaciones y técnicas de
coeficientes de LPC fue mejor que el reconocimiento programación. Addison-Wesley/Díazde santos Wilmignton,
empleando los coeficientes de reflexión. delaware, E.U.A. 1993.

You might also like