You are on page 1of 15

Universidad Continental de Ciencias e Ingeniería

Facultad de Ingeniería
Ingeniería de Sistemas e Informática

“Aplicación web para empresas con reconocimiento de voz y


análisis de tendencias en las radios por Internet en la ciudad de
Huancayo”

Tesis para optar el Título de Ingeniero de Sistemas e Informática

Ernesto Luismaria Pariona Díaz

Huancayo, Perú – 2017


CAPÍTULO I: PLANTEAMIENTO DEL ESTUDIO

1.1 Planteamiento y formulación del problema

Planteamiento del problema

En América Latina surge por la necesidad de observar y evaluar el comportamiento de los


medios de comunicación masivos al momento de informar sobre hechos sociales, en este caso
en particular, los procesos electorales. Paso de ser una activad netamente académica a una de
dominio público; en los años 80 se experimentaba un cambio de régimen dictatorial y militar a
uno democrático, por lo cual se necesitaba de que los grupos políticos que participaban
tuvieran transparencia y equidad al momento del ejercicio de sus actividades proselitistas.

En el Perú, surgió en el año 1999 cuando en el país los propietarios de los medios de
comunicación coludieron junto al gobierno corrupto y autoritario de Alberto Fujimori para
cambiar, exagerar o crear información falsa que luego era presentada al público creándose la
Veeduría Ciudadana de la Comunicación Social.

“Escaso monitoreo de radios que no permiten tener una contexto objetivo de la realidad”
Causas: pocas empresas especializadas, falta de recursos, procesos lentos para obtener la
información.
Consecuencias: información sesgada de la realidad, desinformación de personas.

A nivel mundial se empezó a utilizar el reconocimiento de voz en los años de 1970 con el
reconocimiento de palabras aisladas , el desarrollo de reconocimiento de grandes vocabularios
por parte de IBM, el proyecto SUR (Speech Understanding Research) que era parte de
DARPA cuyo objetivo era obtener un léxico mediano, con pocos errores semánticos y poco
costo computacional, el sistema HARPY de la universidad de Carnegie-Mellon que utilizaba
una red de estados finitos. En los años 80 se empezó a dar mas importancia a los métodos
estadísticos “Los Modelos ocultos de Markov” que se basan en una matemática robusta y un
aprendizaje automático a partir de muestras vocales, algunos sistemas que emplean estos
metodos son: Sphinx de la universidad Carnegie-Mellon y Byblos de Bolt Beranek and Inc.
En los años 90 se desarrollan los modelos neuronales que tiene como base el perceptrón
desarrollado por Frank Rosenblatt en 1959 donde se trata de imitar el comportamiento
neuronal del cerebro humano, tienen una gran capacidad de adaptación y aprendizaje. El
monitoreo de medios surge a nivel mundial en la época de la guerra fría, donde se tenía como
finalidad fiscalizar la influencia cultural que tenían los medios de comunicación masivas en
los países en vías de desarrollo, el poder que ejercían las grandes potencias en distorsionar la
información que se brindada al público.

En Latinoamérica algunos de los proyectos que se basaron en los modelos de Markov usando
el sistema Sphinx son el proyecto DIME que se inicio en el año de 1998 en la UNAM
(Universidad Nacional Autónoma de México) y el proyecto CIEMPIESS en el año 2012 de la
misma universidad.

Así mismo en el Perú existen pequeños proyectos que se desarrollaron para un contexto en
específico como: reconocer algunas palabras para instrucciones dentro de una casa, respuestas
en el proceso de compra de boletos. En el caso particular del monitoreo de las estaciones de
radios, los procesos que realizan para obtener información es rudimentaria. Designan a un
persona que se sienta en un computador y empieza a oír un programa grabado de una emisora
seleccionada para luego escribir un informe de dicho programa escuchado. Este es el proceso
para obtener información de un solo programa de radio de una emisora, ahora imaginemos que
necesitamos obtener información de muchos programas de radios de distintas emisoras, es un
proceso que demanda mucho tiempo y recursos.

En la ciudad de Huancayo no se tienen datos de proyectos realizados y es casi ausente un


monitoreo de medios por el hecho de que solo se monitorea a uno o dos programas radiales
que tengas más sintonía de una emisora radial omitiendo otros programas de la misma emisora
y otros programas radiales de otras emisoras llevando a la posibilidad de reflejar una realidad
que no es de la localidad, dejando un gran vació en lo que respecta a transparencia de
información que brindan los medios locales. Y esto no asegura que las empresas puedan tener
un análisis eficiente de la información que las radios brindan en sus programas, dando como
resultado tendencias erróneas.
Entre las múltiples causas que generan el problema son: no disponer de un corpus con el
idioma español-Perú, son casi inexistentes las empresas que realicen un monitoreo de radios,
procesos lentos para obtener la información.

La consecuencia es tener información sesgada de la realidad de nuestra localidad,


desinformación de los habitantes.

Lo que podríamos hacer para reducir o evitar este sesgo al momento de recopilar la
información es desarrollar una herramienta que analizara cada programa radial que se le
asigne, nos brindara información sobre las palabras que más mención tienen en cada programa
radial y con ello se obtendrá reflejo más fiel de nuestra realidad en la localidad.

Requerimientos

• El sistema mostrara en cuadros estadísticos las palabras más comentadas en cada


programa analizado.
• La aplicación web se utilizara sin necesidad de instalar ningún software adicional en
un navegador web.
• Los usuarios deberán ingresar un nombre de usuario y contraseña.
• La aplicación web grabara la transmisión de la señal de radio por Internet en los
horarios establecidos por el usuario.
• El tiempo de aprendizaje de la aplicación web por un usuario deberá ser menor a 5
horas.
• La aplicación web contara con diseño responsivo para que se pueda visualizar en
múltiples dispositivos electrónicos como smartphones, laptops, pc de escritorios,
tablets.
• En la aplicación web no se podrá ingresar de direcciones web de las radios.
• El administrador será el único que puede cambiar los permisos de acceso de los
usuarios.
1.2 Objetivos
1.2.1 Objetivo general

• Reconocer y analizar las palabras del audio obtenido de la señal de radio por
streaming.

1.2.2 Objetivos específicos

• Guardar las palabras reconocidas del audio en un archivo de texto plano.


• Analizar el archivo de texto plano para encontrar las palabras que más se repiten.
• Generar un gráfico de tendencias con las palabras del archivo analizado.

1.3 Justificación

El presente proyecto tiene la finalidad de obtener información de los programas radiales para
saber que temas de interés local o nacional le dan importancia, para ello se va a desarrollar un
algoritmo que obtenga el audio de los programas de las emisoras y luego lo analice para
obtener las palabras que son las más concurrentes, siendo pertinente porque lograría hacer una
comparación de los temas que tratan cada emisora en sus programas radiales y con ello
obtener un análisis mucho más real de la coyuntura que vive una ciudad o el país.
CAPÍTULO II: MARCO TEÓRICO

2.1 Antecedentes del problema

Monitoreo de Medios

La investigación de Willian Ignacio Gándara Hernández y Hugo Vladimir Pineda Perez (2015)
en la que desarrollaron un proyecto sobre: Diseño e Implementación del Sistema de monitoreo
de medios para Komunikarte, explican que “el monitoreo de radio se lo realizaba con las
principales radios de Quito (Democracia, Visión, Quito) y las de Guayaquil (Sucre, Centro,
Caravana), se revisaban, ingresaban y digitalizan todas las notas periodísticas emitidas en los
programas de noticias, deportivos, de opinión y de variedades de las emisoras radiales
monitoreadas, tanto de los programas de la mañana, medio día, como de la noche, cubriendo
así todas las emisiones generadas por las distintas estaciones de radios.”(1)

En otra parte de la investigación añaden que “Años más adelante debido a la demanda de
inmediatez de los clientes y al lógico desarrollo tecnológico surgió la necesidad de reemplazar
esta metodología por sistemas tecnológicos administrativos de información que permitan
realizar actividades de seguimiento de información mediática que provean a la misma de
herramientas de gestión para una efectiva administración.”(2)

Reconocimiento de voz

Concepto

Teorías
2.2 Bases teóricas

El reconocimiento de voz plantea 3 métodos(), en este proyecto se utilizara el método de la


inteligencia artificial.

El Fonético-acústico: En este método la máquina intenta decodificar la señal de voz de manera


secuencial con base en características acústicas observadas de la señal y las relaciones
conocidas entre las características acústicas y los símbolos fonéticos. Sin embargo, se tienen
algunos problemas para tener un sistema de reconocimiento de voz exitoso ya que se requiere
un conocimiento extensivo de las propiedades acústicas de las unidades fonéticas.()

El de Reconocimiento de Patrones: En este método los patrones de voz se usan directamente


sin determinación de características explícitas. Se tienen dos pasos: entrenamiento de patrones
de voz y reconocimiento de patrones de voz a través de la comparación de patrones. Este es el
método más utilizado para reconocedores de voz, debido a la simplicidad de uso, facilidad de
entendimiento y por su riqueza en matemáticas y teoría de comunicaciones.()

El de Inteligencia artificial: Es un método híbrido que explota ideas y conceptos del método
acústico fonético y del de reconocimiento de patrones. Involucra conceptos como el de redes
neuronales.()

La inteligencia artificial se define como maquina inteligente que realiza el proceso de analizar,
organizar, y convertir los datos en conocimiento, donde el conocimiento del sistema es
información estructurada adquirida y aplicada para reducir la ignorancia o la incertidumbre
sobre una tarea especifica a realizar por esta. (citar)

En la actualidad cuenta con muchas áreas:(citar)


Minería de Datos Computación Evolutiva Algoritmos Bio-inspirados
Reconocimiento de Imágenes Reconocimiento de Patrones IA Distribuida y Sistemas
Multiagentes
Sistemas Expertos y Sistemas Representación y Procesamiento del Lenguaje
Basados en Conocimiento Administración del Natural
Conocimiento
Ontologías Interfaces Inteligentes Redes Neuronales
Lógica Difusa Algoritmos Genéticos Aprendizaje Máquina
Vida Artificial Programación Lógica Sistemas Híbridos
Inteligentes
Sistemas Tutores Inteligentes Razonamiento Basado en Realidad Aumentada
Casos
Programación Evolutiva Optimización Multiobjetivo Teoría de Autómatas

Las redes neuronales son un paradigma de procesamiento de información inicialmente


inspirado en el modo en el que lo hace el cerebro. El elemento clave de este paradigma es su
estructura. Las RNA están compuestas por un cierto número de elementos de procesamiento o
neuronas que trabajan al unísono para resolver un problema específico.(citar)

redes neuronales recurrentes son ..

El procesamiento del lenguaje natural(PLN) se define como …

Existen 2 modelos que se utilizan:

Modelos Lógicos: gramáticas

Los lingüistas escriben reglas de reconocimiento de patrones estructurales, empleando un


formalismo gramatical concreto. Estas reglas, en combinación con la información almacenada
en diccionarios computacionales, definen los patrones que hay que reconocer para resolver la
tarea (buscar información, traducir, etc.).
Estos modelos lógicos pretenden reflejar la estructura lógica del lenguaje y surgen a partir de
las teorías de N. Chomsky en los años 50.

Modelos probabilísticos del lenguaje natural: basados en datos

La aproximación es a la inversa: los lingüistas recogen colecciones de ejemplos y datos


(corpus) y a partir de ellos se calculan las frecuencias de diferentes unidades lingüísticas
(letras, palabras, oraciones) y su probabilidad de aparecer en un contexto determinado.
Calculando esta probabilidad, se puede predecir cuál será la siguiente unidad en un contexto
dado, sin necesidad de recurrir a reglas gramaticales explícitas.

Algunas de las aplicaciones del PLN son : (citar)

Traducción automática
Recuperación de la información
Extracción de Información y Resúmenes
Resolución cooperativa de problemas
Tutores inteligentes
Reconocimiento de Voz

2.3 Definición de términos básicos

Según Carles Mateu(2004) define a las aplicaciones web como “un método para confeccionar
páginas dinámicas que permitiesen que lo mostrado fuese dinámico(generado o calculado a
partir de los datos de la petición). Dicho método fue conocido como CGI(common gateway
interface) y definía un mecanismo mediante el cual podíamos pasar información entre el
servidor HTTP y programas externos. Los CGI siguen siendo muy utilizados, puesto que la
mayoría de los servidores web los soportan debido a su sencillez. Además, nos proporcionan
total libertad a la hora de escoger el lenguaje de programación para desarrollarlos. El esquema
de funcionamiento de los CGI tenía un punto débil: cada vez que recibíamos una petición, el
servidor web lanzaba un proceso que ejecutaba el programa CGI. Como, por otro lado, la
mayoría de CGI estaban escritos en algún lenguaje interpretado (Perl, Python, etc.) o en algún
lenguaje que requería run-time environment (VisualBasic,Java, etc.), esto implicaba una gran
carga para la máquina del servidor. Además, si la web tenía muchos accesos al CGI, esto
suponía problemas graves. Por ello se empiezan a desarrollar alternativas a los CGI para
solucionar este grave problema de rendimiento. Las soluciones vienen principalmente por dos
vías. Por un lado se diseñan sistemas de ejecución de módulos más integrados con el servidor,
que evitan que éste tenga que instanciar y ejecutar multitud de programas. La otra vía consiste
en dotar al servidor de un intérprete de algún lenguaje de programación (RXML, PHP,
VBScript, etc.) que nos permita incluir las páginas en el código de manera que el servidor sea
quien lo ejecute, reduciendo así el tiempo de respuesta. A partir de este momento, se vive una
explosión del número de arquitecturas y lenguajes de programación que nos permiten
desarrollar aplicaciones web. Todas ellas siguen alguna de las dos vías ya mencionadas. De
ellas, las más útiles y las que más se utilizan son aquellas que permiten mezclar los dos
sistemas, es decir, un lenguaje de programación integrado que permita al servidor interpretar
comandos que “incrustemos” en las páginas HTML y un sistema de ejecución de programas
más enlazado con el servidor que no presente los problemas de rendimiento de los CGI.” (3)

Por otra parte Adobe System Software explica que “una aplicación Web es un sitio Web que
contiene páginas con contenido sin determinar, parcialmente o en su totalidad. El contenido
final de una página se determina sólo cuando el usuario solicita una página del servidor Web.
Dado que el contenido final de la página varía de una petición a otra en función de las
acciones del visitante, este tipo de página se denomina página dinámica.”(4)

El reconocimiento automático del habla (RAH) o reconocimiento automático de voz es


explicada por José Andrés González López (2013) en su investigación: Reconocimiento
robusto de voz con datos perdidos o inciertos, como “el proceso mediante el cual la señal de
voz se transforma en texto a través de un programa informático. Esta tecnología se sitúa dentro
del marco más general del procesamiento de la voz, en el que se incluyen también otras
tecnologías como la síntesis de voz, la codificación de voz y la biometría por voz
(identificación y/o verificación de locutor). En general, estas tecnologías persiguen replicar
mediante una máquina la habilidad humana de escuchar, identificar y pronunciar frases de una
lengua dada. Otra tecnología muy relacionada con las anteriores y que suele ir de la mano de
éstas es el procesamiento del lenguaje natural, cuyo objetivo es modelar la capacidad humana
de comprender y procesar el contenido del lenguaje humano.”(5)
Para Juan Andrés Morales Cordovilla (2011) en su trabajo de investigación: Técnicas de
reconocimiento robusto de la voz basadas en el pitch, define que “Reconocer voz de forma
automática no es más que comparar una representación de la señal de voz con una serie de
patrones previamente establecidos. La implementación de los sistemas de ASR requiere el
desarrollo de dos etapas diferenciadas: una de entrenamiento, en la que se establecen los
patrones, y otra de test para validar el sistema. El que en la etapa de test no se obtengan
buenos resultados se debe principalmente a que la voz se presenta de una forma distinta e
incontrolable a la prevista por la etapa de entrenamiento.

Son muchas las formas en las que se puede presentar la voz y los investigadores que trabajan
en el problema del ASR suelen poner restricciones respecto a la cantidad de formas en las que
esta se puede presentar para así limitar el problema del reconocimiento.”(6)

Para Oscar Fernando Castellanos Domínguez, Aida Mayerly Fúquene Montañez y Diana
Cristina Ramírez Martínez(2011) tendencia “está asociada técnicamente al análisis de
mercado, con el objetivo de detectar y medir el comportamiento del precio y así determinar
acciones de compra-venta para participar en él. La tendencia no se limita a los mercados
financieros; en un sentido más amplio, una tendencia es un patrón de comportamiento de los
elementos de un entorno particular durante un período. En este sentido, el término análisis de
tendencia se refiere al concepto de recoger la información y de evidenciar un patrón, dinámica
o comportamiento a partir del procesamiento de esa información.”(7)

Para Alejandro Méndez Hoyos, Carlos Montiel Del Pino, Alberto Moreno González, Laura
Yanina Muñoz Azcurrain, Jorge Ayllón García, Sergio Castañeda Puche, Manuel de los Reyes
Del Valle García, Alejandro Jaime Núñez, José Pablo García López y Ángel López Martínez
(2013) radio online “Consiste en la transmisión de audio dotado de las características propias
del medio radiofónico(tales como su guión y su lenguaje) a través de la red mediante
streaming. El streaming es la posibilidad de distribuir recursos multimedia (texto, audio,
video) mediante el uso de una red de ordenadores en tiempo real, es decir, el usuario puede
consumir el producto al mismo tiempo que lo está descargando.”(8)
CAPÍTULO III: RESULTADOS ESPERADOS Y METODOLOGÍA

3.1 Resultados esperados

Realizado el proyecto se espera:

• Tener una aplicación que realice un reconocimiento del audio de los programas de
radios.
• Mejorar y optimizar el análisis de tendencias en las radios.

3.2 Plan del proyecto

El presente proyecto sera abordado siguiendo la metodología de desarrollo web: OOHDM


(Modelo de Diseño de Hipermedia Orientado a Objetos - Object Oriented Hypermedia Design
Model), el cual posee los siguientes procesos:

• Diseño conceptual.
• Diseño navegacional.
• Diseño de interfaz abstracta.
• Implementación.
CAPÍTULO IV: ASPECTOS ADMINISTRATIVOS

4.1 Presupuesto

Todos los gastos están expresados en soles.

Recurso Descripción Cantidad Total


Equipo Pc Escritorio 1 0
Papel Hojas para impresión 1 millar 22
Fotocopias 100 15
Gastos Internet 0 150
Luz 0 250
Total 437

4.2 Cronograma

Cronograma 2017-2018
Setiembre Octubre Noviembre Diciembre Enero Febrero Marzo
Descripción
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Definición del problema
Análisis de los requerimientos
Diseño conceptual
Diseño navegacional
Diseño de interfaz abstracta
Implementación de la aplicación web
REFERENCIAS BIBLIOGRÁFICAS

1) GÁNDARA HERNÁNDEZ, Willian Ignacio. PINEDA PÉREZ, Hugo Vladimir. Diseño e


Implementación del Sistema de monitoreo de medios para Komunikarte [en línea]. Tesis de
titulación. Universidad Politécnica Salesiana, Quito, 2015. pp.32-33.[consulta:10 de setiembre
del 2017]. Disponible en web: http://dspace.ups.edu.ec/handle/123456789/9678

2) GÁNDARA HERNÁNDEZ, Willian Ignacio. PINEDA PÉREZ, Hugo Vladimir. Diseño e


Implementación del Sistema de monitoreo de medios para Komunikarte [en línea]. Tesis de
titulación. Universidad Politécnica Salesiana, Quito, 2015. pp.41.[consulta:10 de setiembre del
2017]. Disponible en web: http://dspace.ups.edu.ec/handle/123456789/9678

3) CARLES MATEU. Desarrollo de aplicaciones web[en línea]. Barcelona: Eureca


Media,SL.2004.[Consulta: 10 de setiembre del 2017].Capítulo 1, pp.20-21.ISBN 84-9788-
118-4.Disponible en web: http://libros.metabiblioteca.org/handle/001/591

4) ADOBE SYSTEM SOFTWARE. Aspectos básicos de las aplicaciones web[en línea]


[Consulta: 10 de setiembre del 2017]. Disponible en web:
https://helpx.adobe.com/es/dreamweaver/using/web-applications.html

5) GONZÁLES LÓPEZ, José Andrés. Reconocimiento robusto de voz con datos perdidos o
inciertos [en línea]. Tesis doctoral. Universidad de Granada, Granada, 2013. pp.1.[consulta:10
de setiembre del 2017]. Disponible en web: http://digibug.ugr.es/handle/10481/29507

6) MORALES CORDOVILLA, Juan Andrés. Técnicas de reconocimiento robusto de la voz


basadas en el pitch [en línea]. Tesis doctoral. Universidad de Granada, Granada, 2011. pp.1.
[consulta:10 de setiembre del 2017]. Disponible en web:
http://digibug.ugr.es/handle/10481/19962

7) OSCAR FERNANDO CASTELLANOS DOMÍNGUEZ, AIDA MAYERLY FÚQUENE


MONTAÑEZ Y DIANA CRISTINA RAMÍREZ MARTÍNEZ. Análisis de tendencias:de la
información hacia la innovación[en línea]. Bogotá: Universidad Nacional de Colombia.2011.
[Consulta: 10 de setiembre del 2017].Capítulo 1, pp.20-21.ISBN 978-958-719-765-
5.Disponible en web:
http://www.bdigital.unal.edu.co/3564/1/ANALISIS_DE_TENDENCIAS_MAYO_7.pdf

8) ALEJANDRO MÉNDEZ HOYOS, CARLOS MONTIEL DEL PINO, ALBERTO


MORENO GONZÁLEZ, LAURA YANINA MUÑOZ AZCURRAIN, JORGE AYLLÓN
GARCÍA, SERGIO CASTAÑEDA PUCHE, MANUEL DE LOS REYES DEL VALLE
GARCÍA, ALEJANDRO JAIME NÚÑEZ, JOSÉ PABLO GARCÍA LÓPEZ Y ÁNGEL
LÓPEZ MARTÍNEZ. Nuevos tiempos para la industria radiofónica en España[en línea].
Málaga: Universidad de Málaga.2013.[Consulta: 10 de setiembre del 2017].La radio online.
Definición, evolución y tendencias, pp.100.ISBN 978-84-15774-82-2.Disponible en web:
http://www.eumed.net/libros-gratis/2013a/1312/index.htm

You might also like