You are on page 1of 8

Reconocimiento de Voz

Entre las nuevas tecnologas de hoy en da, el reconocimiento de voz tiene el potencial de
proporcionar un fuerte impacto en unos pocos aos. Echemos un vistazo a las diferentes
aplicaciones, caractersticas, limitaciones y opciones, del reconocimiento de voz en el siglo
21.

1. Definicin de Reconocimiento de voz


El reconocimiento de voz es la capacidad de un ordenador, de convertir, las palabras de la
vos humana a un cdigo binario comprensible por la computadora. La mayora de las
personas tienen la idea de que el reconocimiento de voz, se basa en que un computador
tiene una especie de odos electrnico, en realidad este sirve ms como un traductor, el cual
convierte nuestro lenguaje, en uno comprensible por la maquina. Este tipo de funciones
mejoran las experiencias del usuario.

El reconocimiento de voz funciona en muchos niveles. Como una derivacin del concepto, el
reconocimiento de voz, es el intento del equipo para identificar a la persona que le habla,
basndose en el tono nico de su voz. Por lo tanto, podemos decir que el reconocimiento de
voz es una de las nuevas tecnologas que nos permiten la entrada de comandos y datos a la
computadora, al igual que otras interfaces de entrada como el teclado, el ratn o la pantalla
tctil, entre otros.

Esta interfaz abre muchas puertas para aplicaciones de computacin, que se utilizan de
forma cotidiana. Nos da una nueva forma de interactuar con nuestro equipo, mientras se
reduce el tiempo necesario para la introduccin de datos. Por ejemplo, si su telfono
celular, posee un software de reconocimiento de voz, usted podr hacer llamadas sin
necesidad de marcar, nicamente diciendo el nombre de la persona a la que desea llamar.
Esta funcin, es incluso ms productiva, que la de marcado rpido, y eso que la versin que
esta en el mercado de marcacin por voz es bastante limitada. Sin embargo, el
reconocimiento de voz, ha hecho grandes avances, en la industria militar y de la salud, lo
que ha dado paso a la una automatizacin de muchos procesos.

2. El reconocimiento de voz dentro del mercado de masas


El reconocimiento de voz ha recorrido un largo camino desde que era una tecnologa
utilizada nicamente en las complejas maquinas industriales, para convertirse en una
herramienta, encontrada en mucho elementos de nuestra vida cotidiana. Los adelantos, en
el reconocimiento de voz, estn relacionados con la evolucin de las computadoras ms
rpidas, lo que demuestra, que la aparicin de un sistema avanzado de reconocimiento de
voz, sol es slo una cuestin de tiempo. El avance del reconocimiento de voz en los
laboratorios de ingeniera para aplicaciones especializadas se produjo en la dcada de 1970,
este sistema era de reconocimiento continuo, lo que significa que los seres humanos no
necesitan hacer una pausa entre las palabras. A medida que se fue desarrollando, esta
tecnologa, fue ganando terreno, en el mercado masivo.

La primera industria que utiliz el software de reconocimiento de voz, como una aplicacin
comercial, fue la industria de la salud. Al inicio, los doctores, pensaron que con esta
tecnologa, podran reemplazar a las transcripciones mdicas tradicionales. Esta idea, no fue
muy exitosa, ya que los mdicos son tan impacientes, que prefieren no ser molestados con el
uso de estos programas, adems no confan en que una computadora, haga trascripciones
crticas, las cuales son hechas a la perfeccin por los seres humanos.

Sin embargo, los avances en la informtica, hicieron posible, el uso del reconocimiento de
voz, en artculos como celulares, automviles y computadoras personales. El reconocimiento
de voz aade un nivel de simplicidad para todos los usuarios que ponen tanta responsabilidad
en este sistema como la industria de la salud. Despus de todo, ninguna vida esta en juego,
si el sistema de reconocimiento de voz de su celular, marca un nmero equivocado. Con las
agresivas campaas de compaas como Microsoft y su sistema operativo Vista, y otros
sistemas operativos mviles, la tecnologa de reconocimiento de voz est siendo absorbida
lentamente por el estilo de vida actual.

3. Aplicaciones del software de reconocimiento de voz


Las funciones y caractersticas de la tecnologa de reconocimiento de voz son muy amplias.
Con un programa de reconocimiento bsico, los usuarios y programadores pueden
personalizar la aplicacin en base a sus preferencias. Las dos principales funciones del
reconocimiento de voz son, la toma de dictado y el control de funciones dentro de la
computadora. Hay ciertas aplicaciones que convierten su voz a texto en documentos de
Word con gran precisin. El reconocimiento de voz tambin se utiliza para controlar el
equipo, mediante el uso de rdenes que pueden ser muy simples, o muy complejas. En una
palabra, usted puede pedirle a su equipo que cierre o abra un programa, que lo lleve a un
sitio web o realizar otros comandos similares. El valor de controlar su equipo mediante el
reconocimiento de voz, es que usted tendr sus dos manos libres, y a su disposicin para
realizar otras tareas. Esa es la razn por reconocimiento de voz est optimizado para
funciones dentro de los nuevo vehculos. Por esta razn, la fuerza area, tambin utiliza el
reconocimiento de vos para el uso de sus pilotos.

Esta nueva tecnologa tambin es til para las personas con discapacidades. Esta interfaz
extensa, le da la oportunidad a las persona con discapacidad, de hacer uso de sus
computadora, en forma que antes no podran. Usted puede encontrar una gran variedad de
funciones de software de reconocimiento de voz en la industria aeronutica, militar, de
salud, educacin y mucho ms.

4. Una Mirada al uso de computadoras con las manos libres


El uso de computadores con las manos libres, es un mtodo interaccin con un ordenador sin
el uso de dispositivos de entrada convencionales, tales como el teclado y el ratn. Esto es
posible con el desarrollo constante de tecnologas de reconocimiento de voz. Este tipo de
funciones, son tiles, tanto para los usuarios sanos, como para aquellos con algn tipo de
discapacidad. Los usuarios sanos, pueden ver que estas tecnologas, tienen como resultado
un incremento en sus capacidad, y a los usuarios con discapacidad, esta es una forma de
enriquecer su experiencia informtica.

El software de reconocimiento de voz, puede ser configurado, para reconocer diferentes


rdenes y comando de su voz. El uso de las computadoras, con las manos libres, es parte de
una nueva tecnologa llamada, tecnologa de asistencia, ya que estas aumentan el
rendimiento de las computadoras, y hacen ms productivas las tareas y transacciones
cotidianas. La tecnologa de asistencia, impulsada por el software de reconocimiento de voz,
le da al usuario, la libertad de utilizar sus manos, para otras funciones, lo que eleva su nivel
de productividad. Esta tecnologa est en continua evolucin, lo que har el acceso de las
personas a las computadoras, mucho ms fcil y niveles completamente nuevos.

5. Hablndole a su casa
Una aplicacin del software de reconocimiento de voz, que est muy de moda, es la
automatizacin del hogar. Esta automatizacin, se aplica mediante diferentes tcnicas
dentro de las paredes de su casa para aumentar sus niveles de comodidad y seguridad. Si
usted tiene una casa controlada totalmente por un computador, usted puede instalar
software de reconocimiento de voz para controlar su hogar. Las caractersticas bsicas de un
sistema automatizado de casa, se centran el control de la iluminacin, el clima, las
cerraduras y puertas, ventanas y los sistemas de vigilancia. La automatizacin de los
hogares, tambin pueden extenderse a equipos multimedia, el riego de plantas, la
alimentacin de animales, y hasta su garaje. Este mtodo de construccin de viviendas
permite a los residentes con mucho dinero tener una casa llena de aparatos que responden a
sus rdenes.

Aparte de reconocimiento de voz, un sistema automatizado de casa tambin puede ser


manejado por diferentes sensores y controladores. Por ejemplo, si usted entra a una
habitacin, el sensor detecta su presencia, y encender automticamente la luz. El
reconocimiento de voz tambin se puede utilizar para tener acceso a su casa sin llaves. Con
la tecnologa inalmbrica, los aparatos puedan comunicarse unos con otros para darle las
caractersticas que usted desea en su hogar. Hay una tendencia hacia la automatizacin de
los hogares, y uno de los elementos ms importantes en este proceso, es la tecnologa de
reconocimiento de voz.

6. Reconocimiento de voz y movilidad


Una caracterstica popular en los telfonos celulares, es la marcacin por voz. A partir de
esta funcin bsica, una lnea de telfonos inteligentes ha incluido el reconocimiento de voz
para incrementar la productividad de estos dispositivos. Los ltimos modelos de telfonos,
incluyen la marcacin por voz, en la cual el usuario puede grabar su voz a diferentes
nmeros. Con esto, usted solo tendr que apretar un botn en su telfono, decir el nombre
de la persona que desea llamar, y el telfono, har el resto.

La marcacin por voz, es solo un indicio de lo que el reconocimiento de voz puede hacer en
los dispositivos mviles. Debido a que las computadoras porttiles encajan en la categora de
dispositivos mviles, y a medida que estas, se hacen cada vez ms pequeas, se puede
predecir, la extensin de la tecnologa de reconocimiento de voz a estos aparatos para
mejorar su productividad y nuestro estilo de vida. Necesita una actualizacin del clima?
Usted puede hablar con su telfono celular, y este estar dispuesto a darle esta
informacin.

Algunos dispositivos inteligentes de GPS, ya poseen la funcin de reconocimiento de voz,


especialmente, los que se encuentran instalados en los vehculos, permitindole al conductor
recibir instrucciones, pero al mismo tiempo, se puede concentrar en conducir. Usted solo
necesitar, decirle al dispositivo GPS a donde quiere ir y este encontrar la ruta, sin que
usted toque nada.

7. El reconocimiento de voz para las personas con discapacidades


Uno de los mayr5es impactos de la tecnologa de reconocimiento de voz, se da en la
educacin, de personas con algn tipo de discapacidad. Los estudiantes con discapacidad,
que posee un control limitado, sobre las computadoras, se encuentran en una situacin de
desventaja. Pero, con la tecnologa de reconocimiento de voz, tienen una herramienta
eficaz para controlar el equipo y ser tan productivos como sus compaeros que no poseen
ninguna discapacidad. El reconocimiento de voz se utiliza para convertir sus ideas en texto.
Para los estudiantes con discapacidades, el hecho de ver sus pensamientos e ideas
convertidas en texto, es un refuerzo para el uso de sus capacidades orales de vocabulario.

El reconocimiento de voz es tambin una bendicin para los adultos que sufren algn tipo de
discapacidad. El hecho de poder manejar una computadora, le permite tener una serie de
herramientas a su deposicin que mejorarn su calidad de vida. No hay ninguna razn por la
que no puedan participar en debates en lnea, chats, blogs, video juegos, y mucho ms. El
objetivo de la tecnologa de reconocimiento de voz, es el de mejorar la experiencia del
usuario y aumentar los niveles de accesibilidad a las computadoras. El reconocimiento de voz
y otras herramientas de accesibilidad esencialmente proporcionan una igualdad de
condiciones en el uso de las computadoras. Los beneficios del uso de estas tecnologas, en la
vida diaria de muchas personas, son ms que obvios.

8. El reconocimiento de voz en atencin de la salud


La industria de la atencin de la salud es el principal consumidor de este tipo de tecnologa.
Hasta el da de hoy, se reconoce, que la tecnologa de reconocimiento de voz, no solo
mejora la productividad de los medico, si no que tambin, ayuda a obtener resultados ms
exactos. En un ambiente, donde las demandas por malas `practicas, estn a la orden del da,
el tener registros exactos de todo lo que se hizo o dijo, es vital. Mucho trabajadores de la
salud, encuentran diferentes usos para el reconocimiento de voz, por lo que es una
herramienta ampliamente utilizada por los mdicos, enfermeras, mdicos, transcriptores,
farmacuticos y administradores de hospitales.

Los profesionales de la salud, hacen uso de esta tecnologa para los dictados y
transcripciones. Si bien la tecnologa todava no est en una fase en la que puede sustituir a
los mecangrafos, hay otras razones por las cuales los mdicos prefieren utilizar el software
de reconocimiento de voz. Estas razones van desde el miedo de adquirir algn tipo de
enfermedad, hasta la indiferencia de los doctores para escribir reportes.

Los mdicos, pueden estar muy ocupado, como para comprender tecnologas tan nuevas
como estas. Pero aun lo doctores, que prefieren el trabajo ms tradicional, se darn cuenta
de que el uso de las herramientas de reconocimiento de voz, puede ahrrales mucho tiempo
valioso. Ellos podran utilizar este software, para realizar sus transcripciones, y luego
contratar a un especialista, para revisar cualquier error obtenido por el software, este
mtodo, adems de ahorrar tiempo tambin, puede ahorrar mucho dinero.

Muchos estn de acuerdo en que el reconocimiento de voz puede ser un impulso en la mejora
de los sistemas de atencin de salud. Con todo el estrs de la profesin medica, los
doctores, pueden estar tranquilos, sabiendo que tendrn datos confiables de cada uno de los
procedimientos que realizan. Adems estos datos son indispensables, para todo medico. Es
por estas razones, que esta tecnologa y sus derivados, tienen tanto auge, dentro de la
industria medica.
9. Las limitaciones del reconocimiento de voz
El reconocimiento de voz es, sin duda, una tecnologa, que promete cambiar la forma en
cmo interactuamos con las computadoras. Sin embargo, la tecnologa an no ha entrado en
la etapa de ser una herramienta que pueda ser usada de forma dinmica por la gente.
Todava falta un poco de tiempo para que esta sustituya al teclado y al ratn, o al menos,
para que modifique nuestras prcticas de computacin.

El reconocimiento de voz todava tiene muchos defectos y limitaciones. Estas limitaciones se


basan en las deficiencias de la inteligencia artificial. Esta tecnologa sirve como un traductor
de comandos determinados, ya que las computadoras no pueden filtrar el contexto o la
motivacin de las rdenes. Al mismo tiempo, el procesamiento del lenguaje es ms fcil
decirlo que hacerlo. La realidad es que a las computadoras, le es difcil procesar mltiples
frases y reconocer los comandos fcilmente. La mayora del software de reconocimiento de
voz tiene que ser configurado para funcionar correctamente, este debe adecuarse a su tono
de voz, para que pueda reconocer las rdenes y comandos que usted le dicta. Sin embarga,
se espera que en un futuro el software de reconocimiento de voz, sea una parte integral de
las computadoras, no slo en las industrias, sino tambin dentro de nuestros hogares.

Reconocimiento del habla


El reconocimiento automtico del habla (RAH) o reconocimiento automtico de voz es una
disciplina (y a la vez es un arte) de la inteligencia artificial que tiene como objetivo permitir la
comunicacin hablada entre seres humanos y computadoras. El problema que se plantea en un sistema
de este tipo es el de hacer cooperar un conjunto de informaciones que provienen de diversas fuentes de
conocimiento (acstica, fontica, fonolgica, lxica, sintctica, semntica y pragmtica), en presencia de
ambigedades, incertidumbres y errores inevitables para llegar a obtener una interpretacin aceptable
del mensaje acstico recibido.

Un sistema de reconocimiento de voz es una herramienta computacional capaz de procesar la seal de


voz emitida por el ser humano y reconocer la informacin contenida en sta, convirtindola en texto o
emitiendo rdenes que actan sobre un proceso. En su desarrollo intervienen diversas disciplinas, tales
como: la fisiologa, la acstica, el procesamiento de seales, la inteligencia artificial y la ciencia de
la computacin.

Diseo de un sistema de RAH


Aprendizaje
Un aspecto crucial en el diseo de un sistema de RAH es la eleccin del tipo de aprendizaje que se
utilice para construir las diversas fuentes de conocimiento. Bsicamente, existen dos tipos:

Aprendizaje deductivo: Las tcnicas de Aprendizaje Deductivo se basan en la transferencia de los


conocimientos que un experto humano posee a un sistema informtico. Un ejemplo paradigmtico
de las metodologas que utilizan tales tcnicas lo constituyen los Sistemas Basados en el
Conocimiento y, en particular, los Sistemas Expertos.

Aprendizaje inductivo: Las tcnicas de Aprendizaje Inductivo se basan en que el sistema pueda,
automticamente, conseguir los conocimientos necesarios a partir de ejemplos reales sobre la tarea
que se desea modelizar. En este segundo tipo, los ejemplos los constituyen aquellas partes de los
sistemas basados en los modelos ocultos de Mrkov o en las redes neuronales artificiales que son
configuradas automticamente a partir de muestras de aprendizaje.

En la prctica, no existen metodologas que estn basadas nicamente en el Aprendizaje Inductivo, de


hecho, se asume un compromiso deductivo-inductivo en el que los aspectos generales se suministran
deductivamente y la caracterizacin de la variabilidad inductivamente.

Decodificador acstico-fontico[editar editar cdigo]


Las fuentes de informacin acstica, fontica, fonolgica y posiblemente lxica, con los
correspondientes procedimientos interpretativos, dan lugar a un mdulo conocido como decodificador
acstico-fontico (o en ocasiones a un decodificador lxico). La entrada al decodificador acstico-
fontico es la seal vocal convenientemente representada; para ello, es necesario que sta sufra un
preproceso de parametrizacin. En esta etapa previa es necesario asumir algn modelo fsico,
contndose con modelos auditivos y modelos articulatorios.

Modelo del lenguaje[editar editar cdigo]


Las fuentes de conocimiento sintctico, semntico y pragmtico dan lugar al modelo del lenguaje del
sistema. Cuando la representacin de la Sintaxis y de la Semntica tiende a integrarse, se desarrollan
sistemas de RAH de gramtica restringida para tareas concretas.

Reconocimiento de una gramtica restringida


El reconocimiento de la gramtica restringida trabaja reduciendo las tpicas frases reconocidas a un tamao
ms pequeo que la gramtica formal. Este tipo de reconocimiento trabaja mejor cuando el hablante
proporciona respuestas breves a cuestiones o preguntas especficas: las preguntas de si o no, al elegir una
opcin del men, un artculo de una lista determinada, etc. La gramtica especfica las palabras y frases ms
tpicas que una persona dira como respuesta rpida y despus asocia esas palabras o frases a un concepto
semntico. Por ejemplo, un si puede entenderse cuando se oye un sip, vale, yes o okey, y un no
con un nop, nada o en absoluto.

Si el hablante dice algo que gramaticalmente no tiene sentido, el reconocimiento fallar. Normalmente, si el
reconocimiento falla, la aplicacin incitar al usuario a repetir lo que ha dicho y el reconocimiento se
intentar de nuevo. Si el sistema est correctamente diseado y es repetidamente incapaz de entender al
usuario (debido a que no se ha entendido bien la pregunta, un acento cerrado, interferencias o demasiado
ruido alrededor), se retirar y desviar la llamada a otro operador. La investigacin muestra que las llamadas
a las que se las pide replantear la pregunta o cuestin una y otra vez, en poco tiempo se frustran y se agitan.

Los modelos del lenguaje ms complejos necesitan para su correcto funcionamiento grandes cuerpos
de voz y de texto escrito para el aprendizaje y la evaluacin de los correspondientes sistemas. Gracias a
ellos, se pueden abordar gramticas ms complejas y acercarse al Procesamiento de lenguajes
naturales.

Caractersticas de los sistemas existentes[editar editar cdigo]

Los sistemas comerciales han estado disponibles desde 1990. A pesar del aparente xito de estas
tecnologas, muy pocas personas utilizan el sistema del reconocimiento del habla en sus computadoras.
Parece ser que muchos de los usuarios utilizan el ratn y el teclado para guardar o redactar
documentos, porque les resulta ms cmodo y rpido a pesar del hecho de que todos podemos hablar a
ms velocidad de la que tecleamos. Sin embargo, mediante el uso de ambos, el teclado y el
reconocimiento del habla, nuestro trabajo sera mucho ms efectivo.

Este sistema donde est siendo ms utilizado es en aplicaciones telefnicas: agencias de viajes,
atencin al cliente, informacin etc. La mejora de estos sistemas de reconocimiento del habla han ido
aumentando y su eficacia cada vez es mayor.

Clasificacin[editar editar cdigo]

Los sistemas de reconocimiento de voz pueden clasificarse segn los siguientes criterios:

Entrenabilidad: determina si el sistema necesita un entrenamiento previo antes de empezar a


usarse.

Dependencia del hablante: determina si el sistema debe entrenarse para cada usuario o es
independiente del hablante.

Continuidad: determina si el sistema puede reconocer habla continua o el usuario debe hacer
pausas entre palabra y palabra.

Robustez: determina si el sistema est diseado para usarse con seales poco ruidosas o, por el
contrario, puede funcionar aceptablemente en condiciones ruidosas, ya sea ruido de fondo, ruido
procedente del canal o la presencia de voces de otras personas.
Tamao del dominio: determina si el sistema est diseado para reconocer lenguaje de un
dominio reducido (unos cientos de palabras p. e. reservas de vuelos o peticiones de informacin
meteorolgica) o extenso (miles de palabras).
Usos y aplicaciones[editar editar cdigo]

Aunque en teora cualquier tarea en la que se interacte con un ordenador puede utilizar el
reconocimiento de voz, actualmente las siguientes aplicaciones son las ms comunes:

Dictado automtico: El dictado automtico es, hasta hoy, el uso ms comn de las tecnologas de
reconocimiento de voz. En algunos casos, como en el dictado de recetas mdicas y diagnsticos o
el dictado de textos legales, se usan corpus especiales para incrementar la precisin del sistema.

Control por comandos: Los sistemas de reconocimiento de habla diseados para dar rdenes a
un computador (p.e. "Abrir Firefox", "cerrar ventana") se llaman Control por comandos. Estos
sistemas reconocen un vocabulario muy reducido, lo que incrementa su rendimiento.

Telefona: Algunos sistemas PBX permiten a los usuarios ejecutar comandos mediante el habla, en
lugar de pulsar tonos. En muchos casos se pide al usuario que diga un nmero para navegar un
men.

Sistemas porttiles: Los sistemas porttiles de tamao reducido, como los relojes o los telfonos
mviles, tienen unas restricciones muy concretas de tamao y forma, as que el habla es una
solucin natural para introducir datos en estos dispositivos.

Sistemas diseados para discapacitados: Los sistemas de reconocimiento de voz pueden ser
tiles para personas con discapacidades que les impidan teclear con fluidez, as como para
personas con problemas auditivos, que pueden usarlos para obtener texto escrito a partir de habla.
Esto permitira, por ejemplo, que los aquejados de sordera pudieran recibir llamadas telefnicas.