You are on page 1of 4

REVISTA COLOMBIANA DE FÍSICA, VOL. 38, No.

4, 2006

DETECCIÓN DE EXTREMOS EN SEÑALES DE VOZ UTILIZANDO CARACTERÍS-


TICAS DE ENERGÍA Y ENTROPÍA

E. A. Rueda, Y. Torres
Grupo de Óptica y Tratamiento de Señales
Universidad Industrial de Santander, A.A. 678 Bucaramanga, Colombia.
(Recibido 09 de Sep.2005; Aceptado 20 de Jun. 2006; Publicado 20 de Nov. 2006)
RESUMEN
En el tratamiento digital de la voz es necesario e importante conocer donde empieza y donde ter-
mina la señal de voz con exactitud, por ejemplo, en aplicaciones como las de reconocimiento de
voz es necesario procesar previamente la señal; la cual consiste de segmentos de voz, silencio y
otros considerados como ruido. Se propone un algoritmo para la solución de este problema. Te-
niendo en cuenta los siguientes requerimientos: Robustez (funcione en ambientes adversos), Baja
complejidad computacional (fácil implementación), rápido tiempo de respuesta y, exactitud a la
hora de encontrar los puntos de inicio y de fin de la voz. El algoritmo se diseño en tres etapas: La
primera etapa viene asociada con el requerimiento de robustez al ruido a través de la técnica de
substracción espectral; en la segunda etapa se mejora la calidad de la señal de voz a través de fil-
tros y otras técnicas; en la tercera y última etapa se encuentran los limites de la señal. Para lograr-
lo, lo primero que se hace es extraer los parámetros que sirven como discriminantes entre segmen-
tos que tienen voz y los que no. Para esto se utilizan las características de energía y entropía de la
señal. Finalmente, la señal es enviada a una máquina de decisión que se encarga de clasificar los
segmentos voz, y no voz. Durante todo el proceso se hace una evaluación de los resultados y se
compara el resultado obtenido con los reportados para las técnicas de la energía y de la entropía

Palabras claves: Detección de voz, puntos de inicio y fin, substracción espectral.

ABSTRACT
Currently, many applications of speech are in development. In these applications it is necessary to
know exactly where the signal of speech begins and ends, or "endpoint detection". In applications
like voice recognition, it is necessary to preprocess signals. The voice signal is composed of
speech signal, silence and noise segments. An algorithm to solve this problem is proposed. The al-
gorithm seeks to fulfill the following requirements: Robustness (it works in adverse noises), low
complexity (easy computational implementation), fast time of response and mainly, accurate to
find the beginning and end points. The proposed algorithm is designed in three stages: The first
stage comes associated to the robustness requirement and uses the spectral subtraction technique
for noise reduction; the second stage improves the quality and the SNR ratio of the voice signal
through the application of filters and other techniques; in the third or last stage, the algorithm
seeks to find the limits of speech. The algorithm extracts different parameters to make speech and
non-speech discriminations. For this, energy characteristics and signal entropy are used. Finally,
the signal is sent to a decision machine to classify between speech and non-speech. Throughout the
algorithm, an evaluation process is made of the results to compare them to those reported for the
techniques of algorithm energy and entropy.

Key Words: Speech detection, endpoint, spectral subtraction

1447
REVISTA COLOMBIANA DE FÍSICA, VOL. 38, No. 2. 2006

1. INTRODUCCION
En aplicaciones como reconocimiento de voz, verificación del hablante, etc... se procesan seña-
les de voz las cuales consisten en segmentos de voz, silencio y casi siempre con ruido. La de-
tección de extremos se hace con el fin de separar la voz de otros eventos. Este proceso de detec-
ción se conoce como “endpoint detection”.
Los algoritmos de detección de extremos se encargan de encontrar el inicio y final de una señal
de voz, son comúnmente basados en el uso de la energía como característica principal para la
clasificación de los segmentos y posterior localización de los puntos de inicio y de fin debido a
la sencillez para su cálculo, por lo que pueden ser muy sensibles a artefactos de la voz como
una respiración por lo cual se buscan otras alternativas como característica de clasificación.
Estos algoritmos deben ser exactos, robustos, de baja complejidad computacional, tiempo de
respuesta corto e implementación simple.
.
2.ESTRUCTURA DEL ALGORITMO
El algoritmo se divide en tres etapas. La primera etapa consiste en aplicar técnicas de SS, la
segunda en preprocesamiento y la tercera en la detección de extremos. La señal de entrada es
segmentada y almacenada en una matriz, donde cada columna corresponde a un segmento de la
señal. Cada segmento corresponde a 25 ms con un solapamiento del 50%.
Eliminación del Ruido Preprocesamiento Detección de extremos Figura No.1. Etapas
del algoritmo

Para aplicar las técnicas de SS consideramos que la señal de voz analizada esta compuesta de la
siguiente manera: Y ( n ) = S ( n ) + N ( n ) donde (S) representa la señal de voz limpia y (N) el
ruido. Distintas técnicas de SS se derivan de este modelo. Varios modelos fueron estudiados. El
primer modelo estudiado consiste en una modificación a la substracción espectral básica aña-
diendo un factor β de sobre-substracción al ruido, S ( k ) a = Y ( k ) a − β E [N ( k ) ] a , el cual
depende de la SNR de la señal.
La segunda técnica analizada se denomina substracción con magnitud selectiva [1]. Está fun-
damentada en que la señal de ruido (N) que se adiciona a la señal de voz limpia, no es siempre
constructiva o está en fase con la señal, por lo tanto la substracción solo se lleva cuando el ruido
es aditivo de lo contrario no se aplica. Otras técnicas derivadas al hacer un análisis cuantitativo
de cómo la señal de voz se afecta por el ruido, como se muestra en [2] también se analizaron.
La segunda etapa consistía en la aplicación de un filtro pasa-banda y pre-énfasis con el objetivo
de mejorar la señal de voz eliminando componentes frecuenciales residuales de la etapa ante-
rior.
En la última etapa, se calcula para cada columna de la matriz la energía o entropía; la energía es
escogida como característica teniendo en cuenta que los fonemas sordos contienen más energía
que los segmentos de silencio, La señal de voz es una señal limitada en banda, aproximadamen-
te entre 20 Hz y 20 Khz (región de audición para un ser humano normal). Sin embargo, la ma-
yor parte de la energía se concentra por debajo de 2 Khz. la energía es sencilla de calcular,
aunque se han hecho variaciones en su calculo, por ejemplo la hecha por Teager [3] (TE) donde
cada componente en el espacio reciproco es multiplicado por un peso, con el fin de darle mayor
importancia a las componentes donde se encuentra concentrada la voz.
1/ 2
⎛ N
⎞ n
TE i = ⎜ ∑ ( S (k )) 2 * W (k ) ⎟ H (ε ) = − ∑ P ( xi ) ⋅ L o g 2 P ( x i )
⎝ k =1 ⎠ i =1

1448
REVISTA COLOMBIANA DE FÍSICA, VOL. 38, No. 4, 2006

(a) (b)

Figura No.2. (a) Cálculo de la energía según Teager, (b) Cálculo de la entropía.
La idea de utilizar la entropía es mejorar las falencias dejadas por el análisis la energía. La en-
tropía H representaría el valor medio de las informaciones, se calcula según la figura N°2. (b),
donde p representa la probabilidad. Por lo que el primer paso es hallar una función de distribu-
ción de probabilidad (FDP), una manera es construir un histograma con n clases que posterior-
mente es normalizado. Este proceso se realiza para todos los segmentos de la señal.
Las características extraídas de la señal se almacenan en un vector con lo cual se construye un
perfil que sirve para caracterizar la voz como se muestra en la siguiente figura.

Figura No.3. Perfil hallado con la característica de entropía.

La señal es clasificada como voz o no, a través de una máquina de decisión, la cual consiste en
un umbral que puede ser estático si no cambia, o dinámico si es calculado dependiendo de la
señal de entrada, la función de este umbral es discriminar cuales segmentos pertenecen a voz y.
A través de los criterios MUD (mínima distancia de pronunciación) y MUS (mínima separación
entre pronunciaciones); segmentos aislados son descartados y si son muy próximos se conside-
ran como uno solo, de esta manera segmentos falsamente clasificados como voz son descarta-
dos.

3. RESULTADOS
La base de datos de hablantes utilizada fue la EUSTACE speech corpus
(http://www.cstr.ed.ac.uk/projects/eustace). La cual pertenece al Centre for Speech Technology
Research de la universidad de Edinburgh, Inglaterra. Cada muestra a una frase. Se utilizaron 50
muestras escogidas al azar de esta base las cuales fueron contaminadas con ruido blanco, para
obtener muestras con niveles de SNR de 0,5, 10, 15, 20 [db]
La primera prueba consistió en buscar la técnica que más se ajustara a nuestros requerimientos.
Se aplicaron las diferentes técnicas de SS y se observó el SNR a la salida, la tabla 1 muestra los
resultados promedios obtenidos. La letra A identifica la técnica básica, la B a la modificación
con un factor de sobre-substracción, C a la de magnitud selectiva y D a reconstrucción a través
de un análisis cuantitativo de la señal.

Tabla No.1. Comparación de las técnicas SS


SNR
0[db] 3[db] 5[db] 10[db] 20[db]
A 8,626 10,791 12,173 15,764 22,719
B 9,74 11,86 13,21 16,33 23,13
C 9,703 11,855 13,138 16,288 22,217
D 5,502 8,2035 9,9822 14,166 22,058
1449
REVISTA COLOMBIANA DE FÍSICA, VOL. 38, No. 2. 2006

Las técnicas B y C presentaron resultados similares, pero B presento un tiempo de respuesta


varias veces menor a la de la técnica C, por lo que la técnica escogida fue B.
Para medir la exactitud del algoritmo se propuso la siguiente evaluación: con la ayuda del cool
edit pro se hizo un marcado manual de la base de datos. Los resultados obtenidos con los algo-
ritmos se comparan contra estos. La diferencia en tiempo es medida y luego promediada para
todas las muestras.

Tabla No.2. Comparación de resultados

Energía Entropía
SNR [db] P. Inicio P. Fin P. Inicio P. Fin
0 0.083 s 0,082 s 0,056 s 0,057
3 0,075 s 0,076 s 0,051 s 0,048 s
5 0,073 s 0,074 s 0,048 s 0,047 s
10 0,057 s 0,062 s 0,039 s 0,04 s
20 0,055 s 0,059 s 0,038 s 0,039 s

Figura No.4. Funcionamiento del algoritmo en un ambiente limpio y en un ambiente con ruido.

4. CONCLUSIONES
El algoritmo presenta robustez a diferentes niveles de SNR gracias a las técnicas de SS, el in-
conveniente con estas técnicas es que la señal de salida presenta la aparición de ruido musical.
El algoritmo basado en la entropía demostró ser mejor que el algoritmo de energía en todos los
aspectos, demostrando que se pueden construir algoritmos basados en características diferentes
a los tradicionales para mejorar la exactitud. A futuro se pueden hacer combinaciones comple-
mentarias entre estos dos métodos.

REFERENCIAS
[1] SOON, Yann; KOH; Soo Nge; YEO; Chai Kiat. Selective magnitude for speech enhancement. Pro-
ceedings of the 4th International Conference on High Performance Computing in Asia-Pacific Re-
gion, vol. 2, pp. 692-695. 2000
[2] ZHU, Qifeng y ALWAN, Abeer. The effect of aditive Noise on speech amplitude spectra: a quantative
analysis.IEEE Signal processing letters. Vol. 9, No. 9 (sep 2002); p. 275-277
[3] RUEDA, Euclides Alfonso. Algoritmo de detección de inicio y fin de palabra para señales de voz.
Tesis de grado para optar al titulo de ingeniero de sistemas. 2004, Universidad Industrial de Santan-
der.

1450

You might also like