You are on page 1of 21

Documento de planificación y

gestión de proyecto.

Modelo de analisis de sentimientos


en redes sociales con un modelo de
minería de datos y machine
learning.

ICETEX
2021
1. Objetivos del Proyecto
Desarrollar un ejercicio de analítica basada en contenido, enfocada en información sobre
ICETEX publicada en redes sociales y medios de comunicación, utilizando técnicas de
análisis de sentimientos.

Entre los principales objetivos específicos que se espera cumplir con este proyecto estan:

1. Preparación de la Entidad para la transición a Big Data

2. Generación de Capacidades a través de capacitaciones y talleres de formación en


arquitecturas y servicios de nube

3. Uso de la Infraestructura de SandBox.

4. Acompañamiento técnico por parte de un experto en Big Data

5. Visibilidad a nivel de gobierno mediante la entrega de información relevante


sobre el ejercicio y la entrega del detalle del desarrollo para que pueda ser
replicado.

2. Beneficiarios.
Serán favorecidos ciudadanos beneficiarios y/o potenciales beneficiarios de los
productos del ICETEX. Algunos beneficios son:

Para la entidad:

• Con esta Información la entidad puede desarrollar productos adaptados a las


necesidades.
• Preparación de la Entidad para la transición a proyectos de Big Data.
• Generación de Capacidades de los funcionarios en el uso de la Infraestructura
de DataSandBox.

Para la Ciudadanía:

• Desarrollo de estrategias de comunicación efectivas para más de 100 mil jóvenes


graduados de bachilleres y que pueden iniciar estudios de educación superior.
• Generación de nuevos servicios acorde a las expectativas y necesidades de los
ciudadanos.

Para los beneficiarios de la entidad:


• Ser más eficiente en la entrega beneficios a los más de 2 millones de usuarios del
ICETEX.
• Configurar los portales de comunicación para dar respuesta a las peticiones de los
usuarios.

3. Equipó de trabajo y Roles


Para la implementación del prototipo de analisis de Sentimientos para ICETEX se
conformo un equipo transversal a la entidad conformado por los roles idóneos
pertenecientes a diferentes áreas y que convergieron para resolver la iniciativa de la
entidad en la realización de un ejercicio de Big Data y fue beneficiado por la
convocatoria abierta por MINTIC mediante la entrega de recursos tecnológicos en el
Datasandbox.

Este equipo técnico se compone de los siguientes roles:

Líder del Proyecto

Jennyfer Forero Valenzuela


Arquitecta Empresarial
Vicepresidencia de Operaciones y Tecnología

Responsable de la definición del cronograma y la articulación del equipo para su


ejecución, así como ser el puente entre el equipo técnico y el equipo definido por
MINITIC para la entrega de las herramientas técnicas y capacitaciones.

Adicionalmente realiza la Identificación y gestión de brechas durante el desarrollo del


proyecto.

Científico de datos

Herbert Jair Bermudez


Grupo i3
Vicepresidencia de Fondos en Administración
Responsable de la investigación y definición de las técnicas de analítica de datos,
modelos predictivos o los modelos que den solución al problema planteado para el
desarrollo del proyecto.

Ingeniero de datos

Jeison Delgado
Ricardo Castillo
Vicepresidencia de Operaciones y Tecnología

Responsable de las tareas técnicas asociadas a la gestión de los datos, como, por
ejemplo, preparación, extracción, transformación, limpieza y validación, entre otros.

Adicionalmente faculta la definición de la infraestructura y software requerido para el


desarrollo del proyecto y la creación de programas o rutinas de automatización
relacionadas con el manejo de los datos.

Artista de datos

Jahir Farouk Ladino


Oficina de Planeación
VICEPRESIDENCIA DE FONDOS EN ADMINISTRACIÓN

Responsable de la definición de lo modelo de presentación de datos a utilizar y la


construcción del tablero de resultados.

Adicionalmente apoyo en la definición de la infraestructura y software requerido para el


desarrollo del proyecto y la depuración y limpieza de los datos, así como la creación de
programas o rutinas para la ejecución del proyecto.

4. Descripción de la Necesidad
EL ICETEX es una entidad del Estado que promueve la Educación Superior a través del
otorgamiento de créditos educativos y su recaudo, con recursos propios o de terceros, a
la población con menores posibilidades económicas y buen desempeño académico.
Igualmente, facilita el acceso a las oportunidades educativas que brinda la comunidad
internacional para elevar la calidad de vida de los colombianos y así contribuir al
desarrollo económico y social del país.

Por lo anterior es el interés de la entidad impulsar los proyectos de vida de los


colombianos brindando las mejores alternativas en la educación superior, sin embargo,
este propósito se puede ver afectado a causa de la precepción negativa sobre la entidad
por parte de los ciudadanos la cual influiría en la toma de decisiones sobre el acceso a
los servicios del ICETEX. Si este caso se da, es muy probable que todas las personas que
requieren adelantar sus estudio no accedan a los servicios y beneficios que le ofrece la
entidad y tomen decisiones antes de validar la veracidad de su percepción.

Con esto en mente es que surge la iniciativa de realizar un analisis de sentimientos en


redes sociales y algunos medios de comunicación que permita extraer aquellos términos
semánticos que expresen un sentimiento en particular para conocer la opinión, las
actitudes y las expectativas de los ciudadanos sobre la entidad en general o sobre algún
tema en concreto, así como para analizar el comportamiento de los usuarios ante algún
mensaje y, por tanto, determinar su impacto o poder anticipar su reacción. En ese orden
de ideas los sentimientos se clasifican en positivos, negativos o neutros.

El Análisis de sentimiento hace referencia al uso de procesamiento de lenguaje natural


(NLP), lingüística computacional y análisis de texto (rama específica de la minería de
datos) para identificar y extraer la información, en el diseño de los sistemas se combinan
distintas áreas como son las técnicas de minería de datos, la selección de atributos y los
algoritmos de árboles de decisión. El procesamiento del lenguaje natural (PLN)
transforma el texto en un lenguaje que la máquina pueda entender, el Big Data obtiene
gran cantidad de datos para lograr un análisis más preciso y la Inteligencia Artificial (IA)
utiliza la información que le proporciona el PLN para determinar las categorías de
sentimientos y sus correspondientes polaridades: satisfacción-insatisfacción, confianza-
temor, amor-odio, felicidad-tristeza.

El análisis de sentimiento es una estrategia que garantiza una mirada 360º a la reputación de la
entidad, a partir de esto, es posible identificar oportunidades, tomar decisiones basadas en
datos más efectivas y resolver escenarios negativos.

Este ejercicio puede ayudar a la entidad a:

• Entender si la Entidad está cumpliendo con las expectativas de los beneficiarios.


• Identificar Usuarios insatisfechos.
• Mejorar la relación con el público.
• Evaluar la receptividad de un servicio.
• Gestionas las crisis de imagen más rápido.
• Comprender si la comunicación está siendo eficaz.
Sin embargo, el lenguaje natural es complejo y ambiguo por lo que enseñar a una
máquina a que analice los diferentes matices gramaticales, variaciones culturales, jergas,
expresiones coloquiales o a distinguir faltas de ortografía, la sinonimia o la polisemia
dentro de un contexto que determina el tono de la conversación es francamente difícil.
Así, por ejemplo, ante un comentario sarcástico, la máquina tomaría la frase como algo
positivo en vez de algo negativo o expresiones como “LOL, OMG, estuvo
geeeeeeeniaaaaaaaal” son dificilísimas de procesar.

Esta es la razón por la que el proceso automático es propenso a errores y requiere una
revisión manual posterior. De este modo se complementan la rapidez de los sistemas
expertos con listas de palabras buenas y malas hechas manualmente con sistemas de
procesamiento del lenguaje natural y el entendimiento del habla en los que se emplean
modelos estadísticos y sets de entrenamiento.
5. Metodología
La metodología utilizada para el desarrollo del proceso está basada en el ciclo de Vida
para el Análisis de los datos propuesta por el BID1.
• Explorar Datos Disponibles.
• Formular la pregunta
• Formular la Hipótesis
Explorar •
• Tomar decisiones basadas en los
resultados.
• Definir estándares de servicio Preparar • Determinar Datos Necesarios.
• Metas para alcanzar estándares. Utilizar • Recolectar Datos.
• Planificar y asignar recursos Datos • Limpiar Datos.
• Analizar consistencia de Datos.

• Determinar que variables


explican y cuáles predecir.
• Interpretar Resultados • Seleccionar posibles algoritmos
Planificar a utilizar.
• Generar Visualizaciones Comunicar • Definir métricas de desempeño.
adecuadas Modelo
• Hacer recomendaciones
de Mejora

Elaborar • Implementar los modelos


• Determinar el mejor según
Modelo ajuste y significancia
• Validar Modelo

Ilustración 1 Ciclo de Vida del análisis de los Datos

El analisis de los Datos es un proceso iterativo en el que se puede pasar entre etapas
hacia adelante o hacia atrás no necesariamente de forma secuencial.

5.1 Explorar

En esta fase se determinó la necesidad y las fuentes a usar para el desarrollo del
proyecto mediante el uso de un primer Social Listening de redes en internet, lo cual
arrojo los siguientes resultados:

1 El uso de datos masivos y sus técnicas analíticas para el diseño e implementación de políticas públicas en Latinoamérica y el Caribe
Site Volume

twitter.com 54144

facebook.com 122

twnews.co 89

msn.com 85

lafm.com.co 76

elnuevosiglo.com.co 75

eltiempo.com 74

caracol.com.co 69

vanguardia.com 59

caracoltv.com 48

Ilustración 2 Resultados del Social Listening

Este analisis nos permitió identificar los principales sitios en los cuales se habla de
#ICETEX y el volumen de las interacciones. Aunque los resultados de Tweeter estaban
muy por encima de los demás, se seleccionaron los primeros 3 a fin de nutrir el ejercicio
y tener varias fuentes de información.

1. twitter.com
2. facebook.com
3. twnews.co

Por medio de un primer acercamiento con brandwatch, una aplicación de social


listening, se identificaron fuentes y métodos de visualización por alcanzar en el modelo.
Ilustración 3 Métodos de visualización BrandWatch

5.2 Preparar Datos

El procesamiento de los datos masivos se describe a partir de dos etapas principales: la


gestión de los datos y la analítica de datos.

Gestión de los datos

La gestión de los datos se compone de tres aspectos:

• Recopilación y almacenamiento de los datos,


• Limpieza y depuración de los datos
• Preparación para su análisis.

Analítica de datos

La analítica de datos se refiere a la respuesta de preguntas y/o hipótesis formuladas a


partir de técnicas de modelamiento y análisis. Este proceso no es distinto del proceso de
indagación científica presente en cualquier disciplina; la principal diferencia subyace en
las características generales de los datos que se utilizan y los desafíos que significan el
acceso y manipulación de los datos.

Respecto a la gestión de datos, se utilizaron las siguientes metodologías:

Tipo de datos Ejemplos de técnicas de Herramienta Utilizada


procesamiento según el tipo
de datos.
Texto Extracción de la información:
obtener datos estructurados de Datascrapping Portales
un texto reconociendo entidades
y relaciones entre ellas.

Análisis de sentimiento: analiza Modelo cognitivo de Microsoft


un texto de opinión y genera una Modelo propio
respuesta negativa o positiva.
Redes sociales Analítica basada en contenido: API Tweeter
se enfoca en los datos API Facebook
posteados por los usuarios,

Respecto a la analítica de datos, existen distintas metodologías, esto es, los métodos
científicos que se utilizan para los análisis que se pueden tener diferentes
implementaciones tecnológicas en forma de productos y servicios. A continuación, se
listan las utilizadas en el proyecto:

Metodología Descripción Aplicación

Aprendizaje Subespecialidad de la Ciencia de • Etiquetado de los comentarios


automático la Computación (denominada realizados en redes sociales
(Machine históricamente "Inteligencia conforme a las categorías
Learning) Artificial") que se ocupa del asignadas.
diseño y desarrollo de algoritmos • Sugerencias y
que permiten inferir recomendaciones de servicios
comportamientos basados en en función de historial de
datos empíricos. El aprendizaje comentarios en Redes sociales.
automático puede ser de dos
tipos: supervisado y sin • Procesamiento de lenguaje
supervisión. natural: reconocimiento de
lenguaje para análisis de
En el caso del proyecto se sentimientos en textos y redes
utilizaron técnicas de aprendizaje sociales.
supervisado en el cual se debe
inferir una función a partir de un
conjunto de ejemplos de
entrenamiento.
Estos consisten en un conjunto
de entradas (en forma de vector)
y un conjunto de salidas que son
casos exitosos (satisfacen la
función). Los casos exitosos
permiten generar una medida de
error respecto a las predicciones
que se quieren hacer.
Visualización Forma de descubrir y entender Análisis visual interactivo de
analítica de patrones en grandes conjuntos resultados principales del
datos de datos vía interpretación análisis.
visual, para que así los usuarios
pueden navegar y explorar los • Infografías.
datos. • Tableros de mando
Comunicación de información en (Dashboards), para
forma clara y efectiva a través de seguimiento y síntesis del
distintas formas de analisis de sentimientos en
representación gráfica interactiva Redes Sociales.
5.3 Planificar el Modelo

En la planificación del modelo se determinaron que variables explican y cuáles


predecir para dar respuesta a la necesidad, en este punto se investigo sobre varios
algoritmos de PLN – Procesamiento de Lenguaje Natural y se definió la utilización del
Modelo cognitivo de Microsoft y se configuró en el DataSandbox mediante la
habilitación del servicio.

En este punto se realiza la preparación de los features, para los datos de


entrenamiento se obtuvieron y etiquetaron 600 tweets los cuales se convierten en los
datos fuente del modelo.

Luego se realizó la distribución de las categorías del entrenamiento


5.4 Elaborar Modelo

Para los datos de entrenamiento se obtuvieron y etiquetaron 600 tweets por parte de
la oficina de comunicaciones en cabeza de @nataly Rodriguez Rincon, la labor fue
identificar una serie de Twees etiquetados por el modelo cognitivo de Azure y
asignarle una nueva etiqueta conforme al analisis manual de cada uno de los
comentarios. Este analisis se consignó en la columna de Sentimiento Real.

Con esta muestra se realizo el entrenamiento del modelo. Para el modelo se usaron
los dos siguientes algoritmos de clasificación multiclase

Ilustración 4 Modelos de entrenamiento PLN


Pasos para el entrenamiento:

1. Dividir datos de entrenamiento y prueba

2. Entrenamiento del clasificador usando NaiveBayes

Con este entrenamiento se obtuvo una precisión del modelo del 74 %

3. Entrenamiento del clasificador usando Random Forest

Con este entrenamiento se obtuvo una precisión del modelo del 72 %


4. Selección del mejor modelo
Para este punto se utilizó Cross Validator con el fin de determinar el modelo más apropiado para
el analisis.
Ilustración 5 4. Selección del mejor modelo Cross Validator

5. Implementación Cross Validator a NaiveBayes

6. Implementación Cross Validator Random forest


7. Monitoreo de metricas en MlFlow

Comparativo de las diferentes ejecuciones


4. Ejecutar predicción
5.5 Comunicar

Para el proceso de comunicación de resultados se establecieron 3 tableros desarrollados


en Power BI cada uno por las fuentes de información:

• Tweeter
• Facebook
• Noticias

https://app.powerbi.com/links/UZn0XWFfw-?ctid=5e3d1ca0-7f75-4014-9422-
06979167bedc&pbi_source=linkShare
6. Cronograma

7. Servicios tecnológicos
A continuación, se ilustran los productos y servicios tecnológicos (software) utilizados
para la gestión y analisis de los datos.

Ilustración 6 Arquitectura DataSandBox

You might also like