Professional Documents
Culture Documents
gestión de proyecto.
ICETEX
2021
1. Objetivos del Proyecto
Desarrollar un ejercicio de analítica basada en contenido, enfocada en información sobre
ICETEX publicada en redes sociales y medios de comunicación, utilizando técnicas de
análisis de sentimientos.
Entre los principales objetivos específicos que se espera cumplir con este proyecto estan:
2. Beneficiarios.
Serán favorecidos ciudadanos beneficiarios y/o potenciales beneficiarios de los
productos del ICETEX. Algunos beneficios son:
Para la entidad:
Para la Ciudadanía:
Científico de datos
Ingeniero de datos
Jeison Delgado
Ricardo Castillo
Vicepresidencia de Operaciones y Tecnología
Responsable de las tareas técnicas asociadas a la gestión de los datos, como, por
ejemplo, preparación, extracción, transformación, limpieza y validación, entre otros.
Artista de datos
4. Descripción de la Necesidad
EL ICETEX es una entidad del Estado que promueve la Educación Superior a través del
otorgamiento de créditos educativos y su recaudo, con recursos propios o de terceros, a
la población con menores posibilidades económicas y buen desempeño académico.
Igualmente, facilita el acceso a las oportunidades educativas que brinda la comunidad
internacional para elevar la calidad de vida de los colombianos y así contribuir al
desarrollo económico y social del país.
El análisis de sentimiento es una estrategia que garantiza una mirada 360º a la reputación de la
entidad, a partir de esto, es posible identificar oportunidades, tomar decisiones basadas en
datos más efectivas y resolver escenarios negativos.
Esta es la razón por la que el proceso automático es propenso a errores y requiere una
revisión manual posterior. De este modo se complementan la rapidez de los sistemas
expertos con listas de palabras buenas y malas hechas manualmente con sistemas de
procesamiento del lenguaje natural y el entendimiento del habla en los que se emplean
modelos estadísticos y sets de entrenamiento.
5. Metodología
La metodología utilizada para el desarrollo del proceso está basada en el ciclo de Vida
para el Análisis de los datos propuesta por el BID1.
• Explorar Datos Disponibles.
• Formular la pregunta
• Formular la Hipótesis
Explorar •
• Tomar decisiones basadas en los
resultados.
• Definir estándares de servicio Preparar • Determinar Datos Necesarios.
• Metas para alcanzar estándares. Utilizar • Recolectar Datos.
• Planificar y asignar recursos Datos • Limpiar Datos.
• Analizar consistencia de Datos.
El analisis de los Datos es un proceso iterativo en el que se puede pasar entre etapas
hacia adelante o hacia atrás no necesariamente de forma secuencial.
5.1 Explorar
En esta fase se determinó la necesidad y las fuentes a usar para el desarrollo del
proyecto mediante el uso de un primer Social Listening de redes en internet, lo cual
arrojo los siguientes resultados:
1 El uso de datos masivos y sus técnicas analíticas para el diseño e implementación de políticas públicas en Latinoamérica y el Caribe
Site Volume
twitter.com 54144
facebook.com 122
twnews.co 89
msn.com 85
lafm.com.co 76
elnuevosiglo.com.co 75
eltiempo.com 74
caracol.com.co 69
vanguardia.com 59
caracoltv.com 48
Este analisis nos permitió identificar los principales sitios en los cuales se habla de
#ICETEX y el volumen de las interacciones. Aunque los resultados de Tweeter estaban
muy por encima de los demás, se seleccionaron los primeros 3 a fin de nutrir el ejercicio
y tener varias fuentes de información.
1. twitter.com
2. facebook.com
3. twnews.co
Analítica de datos
Respecto a la analítica de datos, existen distintas metodologías, esto es, los métodos
científicos que se utilizan para los análisis que se pueden tener diferentes
implementaciones tecnológicas en forma de productos y servicios. A continuación, se
listan las utilizadas en el proyecto:
Para los datos de entrenamiento se obtuvieron y etiquetaron 600 tweets por parte de
la oficina de comunicaciones en cabeza de @nataly Rodriguez Rincon, la labor fue
identificar una serie de Twees etiquetados por el modelo cognitivo de Azure y
asignarle una nueva etiqueta conforme al analisis manual de cada uno de los
comentarios. Este analisis se consignó en la columna de Sentimiento Real.
Con esta muestra se realizo el entrenamiento del modelo. Para el modelo se usaron
los dos siguientes algoritmos de clasificación multiclase
• Tweeter
• Facebook
• Noticias
https://app.powerbi.com/links/UZn0XWFfw-?ctid=5e3d1ca0-7f75-4014-9422-
06979167bedc&pbi_source=linkShare
6. Cronograma
7. Servicios tecnológicos
A continuación, se ilustran los productos y servicios tecnológicos (software) utilizados
para la gestión y analisis de los datos.