You are on page 1of 16

UNIVERSIDAD ESTATAL DEL SUR DE MANABÍ

Excelencia Académica para el Desarrollo

FACULTAD:
CIENCIAS TÉCNICAS

CARRERA:
TECNOLOGÍAS DE LA INFORMACIÓN

PROFESIONAL EN FORMACION:
QUIJIJE BAQUE GEOVANNY DANIEL

SEMESTRE:
SÉPTIMO “C” 

ASIGNATURA:
MINERIA DE DATOS

TITULO:
CASO PRACTICO DE MINERIA DE DATOS

DOCENTE:
ING. ADRIANA CASTILLO MERINO

PERIODO ACADÉMICO:
PII 2022
 
 
Fecha:
Noviembre 2018.

País:
Colombia

Ciudad o Lugar donde se realizó:


BOGOTA

tema de la investigación:
Aplicación de Técnicas de Minería de Datos para el Análisis de Información del Sector Educativo de
Colombia

objetivo:
Obetivo general
 Aplicar técnicas de minería de data a una muestra significativa de datos otorgados por el
programa de datos abiertos del gobierno, recolectados mediante la construcción de un prototipo
de sistema de integración de información para analizar la información estadística consolidada en
los exámenes de estado aplicados al grado 11 de las instituciones educativas de Colombia.

Objetivos Específicos
 Clasificar la información estadística referente a los exámenes de estado aplicados al grado 11 de
las instituciones educativas de Colombia mediante el estudio de fuentes reales de información
otorgadas por el programa de datos abiertos del gobierno.
 Diseñar y desarrollar un sistema prototipo de minería de datos mediante el análisis y la
integración de información usando herramientas especializadas en integración y análisis de datos
para estructurar un sistema de información para análisis de la información estadística referente a
los exámenes de estado aplicados al grado 11 de las instituciones educativas de Colombia.
 Generar una serie de reportes consolidados mediante la aplicación de algoritmos al prototipo de
sistema de integrado de información creado mediante el proceso de integración de información
para analizar las principales variables que afectan los procesos educativos de acuerdo a la
información generada por los repositorios de datos abiertos de grados 11.
métodos y/o técnicas:
La investigación debe permitir que se realice una indagación de si es posible mediante la

aplicación de técnicas de minería de datos que permita integrar y analizar la información del

sector educativo colombiano, por ello es de gran importancia poder en primer lugar investigar

a fondo las características que tiene la información del sector educativo siendo la materia

prima de la investigación y en segundo sentar unas bases teóricas relacionadas con las

estrategias de integración de información y de minería de datos que son las herramientas que

se van a utilizar durante la investigación.

La información recopilada junto con las herramientas de integración van a permitir realizar en

primer lugar la generación de modelos de análisis y finalmente la aplicación de algoritmos

estadísticos cuyos modelos pueden ser analizados por un usuario final; por ello es necesario

comprobar experimentalmente si toda el modelo teórico que se investigo acerca de las técnicas

de minería de datos permite integrar información del sector educativo colombiano para

realizar análisis cuantitativos de una forma que anteriormente no se había logrado.

Teniendo en cuenta lo anterior y que se parte de que la hipótesis planteada requiere en cierta

forma ser comprobada mediante pruebas experimentales, el método que se selecciona para

desarrollar esta investigación es el método científico.

Resultados
Resultados y discusión.

El modelo de base de datos dimensional fue creado en un motor de base de datos

Oracle Xe 11G, versión para desarrollador. Esta versión y modelo fueron seleccionados

por facilidad de implementación y por la robustez del motor de base de datos [].

Conforme a se obtenían el modelo de tablas se procedió a generar un proceso automático

que realiza la carga para un periodo (por ejemplo 20182) de evaluación icfes en

particular.
Figura 50. Ejecución de la integración de datos por periodo fuente propia.

Una vez se ejecuta la implementación en Weka integrada con modelo dimensional

de base de datos de donde se realiza la extracción de una muestra de datos para ser

analizados, se procede organizar la información, sacar los datos para generar patrones con

los cuales se puedan concluir el estado académico de los estudiantes en Colombia de

forma semestral y anual.


Una vez teniendo la organización total sobre cada dato parametrizado con filtros,

se procede a realizar un desglose total de datos, junto con visualización y estadísticas

para verificar la variación entre cada uno. Lo que se puede observar para este caso es un

ejemplo de identificación de datos de los exámenes por ítem del semestre 2016-2 de los

mejores puntajes, comparado con los estudiantes que son del programa “ser pilo paga”

Figura 51. Visualización de puntajes para periodo 20162 fuente propia.

Para un mayor análisis se realizó una interpretación de cada columna para cada

semestre desde 2014 hasta la actualidad (2018), tomando los menores y mayores puntajes

de la prueba saber 11. De este modo con las sentencias SQL se obtiene los datos más

importantes para el análisis, ya que durante cada semestre para los colegios de calendario

A son más de 500.000 registros, en cambio para calendario B tienen un promedio de

30.000 registros.
Para obtener y generar una búsqueda completa de datos se tomó en cuenta:

- Búsqueda de los estudiantes por encima de la media y por debajo

del promedio

- Obtención de datos columna por columna

- Mezcla y análisis sobre cada relación que tienen los estudiantes

 Familia

 Ocupaciones tanto familia como estudiante

 Géneros

 Deberes

 Colegios

 Trabajo

 Ciudad

 Promedio

 Inglés

 Estrato

 Nivel educativo

 Nivel de vida

 Jornada

 Calendario

 Documento de Identidad

- Gráficas que permitan identificar variables, picos y descendencia entre:

 Resultados anuales
 Resultado por Semestre

 Promedio entre 2014-2 hasta la actualidad

Para obtener un entorno de clasificación óptimo para los datos analizados, se usó

la opción Use training set: este método permite “entrenar” a Weka para que pueda

seleccionar todos los datos del fichero y aplicar que es lo más adecuado para su

interpretación.

Se adquieren mayor cantidad de datos con su respectivo análisis para evaluar los

cruces de información que se puede realizar con las variables que son las más

importantes, las cuales se identifican como los datos de cada materia, junto con

clasificadores de tipo “árbol” para el desglose y organización de la información y así

llegar hasta observar el margen de error y los datos que no pueden ser clasificados.

Figura 52. Configuración del arbol

En la siguiente gráfica se puede observar con detalle la combinación de data entre

cada lfo y ver como es el comportamiento al combinarlos, para este caso de realiza la

comparación entre el tipo de documento de cada persona, y si estudiaron en un colegio

Bilingüe y de esta manera verificar que variaciones tienen.


Figura 53. Ejemplo de combinación de data y su comportamiento

Esto mismo se aplica para la parte de Clustering, el cual tiene funcionamiento

similar al de clasificación, teniendo en cuenta la cantidad de instancias (árbol), que se

puede analizar y cuales datos no son permiten identificar patrones.

Explorando los datos permite en las demás pestañas determinar cuáles son los

atributos que se pueden seleccionar, cuales tienen más peso que otros y diferentes

métodos a evaluar que aporta Weka, teniendo en cuenta los datos que se encuentran en el

fichero, debido a que algunos no pueden ser analizados por no ser numéricos. Al final el

modo visualización permite verificar la distribución de todos los datos, mostrándolas en

forma de dos dimensiones, representando todos los ejes posibles y las combinaciones que

puede tener cada dato y por supuesto las correlaciones y asociaciones de forma detallada.

Para generar una mejor visualización de los datos se define la cantidad de pixeles,

tamaño y el Jitter: el cual añade ruido a las muestras, de manera que espacia que datos se

encuentran más cerca de otros y en donde se pueden concentrar la cantidad de puntos en


un área, teniendo en cuenta con cuál columna se realiza el análisis. Para este caso se

identifica el comportamiento que tiene cada data haciendo conciliación por ítem.

Figura 54. Visualización por pixeles

Una vez se ejecuta la implementación en Weka, se procede tomar la información,

sacar los datos y concluir el estado académico de los estudiantes en Colombia de forma

semestral y anual. La siguiente tabla cuenta con toda la conciliación de datos realizada en

la herramienta Weka para generar las respectivas conclusiones sobre qué factores afectan

o benefician la educación en Colombia.


Figura 55. Consolidado de datos

Con el fin de validar que la data almacenada es consistente para un análisis de un

área funcional a nivel de negocio; se realizó un proceso detallado de análisis a nivel

global de las variables más relevantes en las muestras de datos obtenidas por el proceso

de integración del prototipo de sistema de información de icfes.

En la vigencia 2015 a 2018 los estudiantes menores de 18 años, a pesar de tener

facilidades de comunicación, de acceso a internet, de recursos económicos, para presentar

el examen, tienden a tener resultados no tan favorables como se esperaba ya que tiende a

decrecer su nivel académico. De igual forma los estudiantes mayores a 18 años tienen la

misma tendencia.
Los estudiantes mayores a 18 años representan entre el 2 y el 3 por ciento de la

cantidad total de estudiantes que se presentan al examen, reduciendo tanto el número de

estudiantes como su nivel académico en esta misma vigencia del 2015 al 2018.

El porcentaje de hombres que se presentan en cada examen se mantiene en el

60%, la diferencia está en el género femenino, sin embargo, la cantidad de personas que

se presentan tiende a disminuir en ambos géneros, sin embargo, el género femenino se

incrementa a medida que pasa el tiempo, caso contrario con el género masculino, lo que

nos da a entender que la mujer representa un factor predominante en la sociedad.

La ciudad con mejores resultados en la prueba saber es Bogotá, la cual representa

el 30% de los estudiantes a nivel nacional que se presentan a esta prueba, seguidos por

Medellín, el cual representa el 13%, la diferencia oscila en las demás ciudades principales

y en la zona rural.

Los estudiantes que pagan pensión por encima de $250.000 representan el 75%.

Comparado con los estudiantes que pagan menos de $250.000, vemos un menor interés

por sacar buenos puntajes dentro de este examen, así mismo denota que cuando el

estudiante tiene que pagar su estudio, genera una obligación por tener mayor nivel y

mayor necesidad de ingresar a estudios superiores, a diferencia de los que tienen un

subsidio en su educación entran en una franja de bienestar, trayendo consigo

conformidad.

La zona urbana representa el 90% de estudiantes que presentan el examen, con tendencia

a la baja, caso contrario se presenta en la zona rural, donde su porcentaje diferencia 10%,

tiende a incrementarse. Esto nos da a entender que el sector rural a medida que pasa el

tiempo necesita tecnificarse y generar mejores resultados dentro del producto interno.
La cantidad de estudiantes que presentan su examen tiende a incrementarse en un

3% anual, así mismo los estudiantes que presentan más de una vez la prueba, representan

el 2% del total que quieren mejorar su promedio, a fin de poderse presentarse a

universidades con un alto nivel académico. Por lo anterior a medida que pasa el tiempo

vemos que esta clase de pruebas va cogiendo mayor importancia e indica que los

estudiantes se proyectan en la tecnificación de la mano de obra.

Los colegios que cuentan con una pensión más alta y con una mayor imagen, son

estudiantes mejor preparados, lo cual se refleja en los buenos resultados a comparación

con estudiantes que no pagan pensión. Durante el 2016 hubo un aumento de estudiantes

en colegios del gobierno en obtener las mejores calificaciones del país, pero aun así no

lograron superar a los estudiantes de colegios privados.

El nivel educativo de los padres afecta considerablemente el resultado de sus hijos

en la prueba saber, como es el caso de los padres que cuentan con estudios universitarios,

entre mayor estudio tengan, los hijos tienden a obtener resultados por encima de la media

a nivel nacional. Si esto lo comparamos con los estudiantes que tuvieron resultados no

favorables, vemos que el incremento para obtener educación primaria y básica secundaria

de sus padres es muy bajo: Los padres con nivel educativo primaria se incrementan en

20% anual, comparado con los padres de nivel secundaria que incrementan en 1% anual.

Lo anterior nos indica que el nivel de estudio básico en los padres genera mayor interés

para que sus hijos tengan unos objetivos académicos concretos, así mismo se incremente

la influencia para que haya mejores resultados tanto en el examen del Icfes como en las

diferentes pruebas para ingresar a instituciones universitarias.


Los padres que cuentan con una ocupación pueden facilitarles mayores estudios y

recursos a sus hijos, a comparación de los que no están trabajando y no pueden proveerles

los recursos necesarios, por lo que los resultados negativos se ven reflejados.

De 2014 A 2015 bajo el porcentaje de padres sin estudio en un 10%, es decir que

los padres se están preparando más para respaldar a los hijos, por ello tanto el nivel

académico se presenta cada vez más favorable a medida que avanza.

Bajo el porcentaje de padres que no tienen estudio en un 6% del 2016 al 2017,

manteniéndose la reducción a medida que nos acercamos a la actualidad.

Según los puntos anteriores los padres que no tienen estudio a medida que se

acerca el tiempo se reducen y es directamente proporcional a los padres que árbol

obteniendo educación, como en este caso que de 2014 a 2015 están subiendo el 1% a

primaria.

Entre 2016 y 2017 el porcentaje de padres con nivel primaria bajo en un 22%

comparado con el nivel de secundaria bajo el 1%, con base en lo anterior, entre más sube

el nivel académico se va reduciendo el número de padres, esto nos indica que los padres

no terminan el nivel secundario por deserción y ocupación, lo que provoca el olvido del

estudio y su prioridad se convierte en sus obligaciones económicas.

Entre 2015 y el 2017 vemos que a medida que aumenta el desempleo (6%) los

menores puntajes aumentan, esto quiere decir que a medida que hay menores ingresos en

los hogares afecta el nivel académico de los estudiantes.

Los estudiantes que trabajan tienen menores puntajes en el examen saber 11, lo

que nos indica que la disponibilidad de tiempo para prepararse académicamente es

menor, caso
contrario con los que no trabajan, tienden a obtener mejores puntajes por disponibilidad

de tiempo

A menor estrato, hay menores puntajes en los exámenes saber 11, siendo un claro

ejemplo: el año 2016 al 2017 los estudiantes que trabajan y sacaron menores puntajes

subió un 45%, caso contrario en los estratos altos, se presenta mayor nivel académico, lo

que nos indica que el nivel socioeconómico afecta para un desarrollo normal en la

obtención de estudios.

Los colegios con mayor estatus han sobresalido en nivel académico a nivel

nacional, y el mayor porcentaje están ubicados en Bogotá, entre ellos se encuentran:

 San Pedro Claver: 18 estudiantes promedio

 Angloamericano: 44 estudiantes promedio

 Colombo británico: 15 estudiantes promedio

 Corazonista: 30 estudiantes promedio

 Calasanz: 48 estudiantes promedio

 Colegio la Salle: 22 estudiantes promedio

En el caso contrario, los colegios que han tenido menor rendimiento académico

demostrado por menores puntajes en las pruebas saber 11 están localizados en zonas

rurales, en la zona de Antioquia, en la zona de Santander y en la zona de Cauca, entre

ellos

están:

 Cedepro: 12 estudiantes promedio

 Gimnasio Guayacanes: 22 estudiantes promedio


 Instituto Iberia: 8 estudiantes promedio

 Institución educativa Alfonso López Pumarejo: 9 estudiantes promedio

 Instituto técnico para el desarrollo rural Idear: 8 estudiantes promedio

Los colegios que obtienen los mejores resultados en la prueba saber son los

mixtos, para cualquier semestre presentado desde el 2014-2 al 2018-1 en un porcentaje

promedio al 80%. En cambio, los colegios masculinos como femeninos presentan un

porcentaje reducido de estudiantes que obtienen buenos puntajes (15% - 20%), y en el

año 2016 al 2017 hubo una reducción de estudiantes en un 16%.

Las jornadas que más se presentan estudiantes que obtienen menores puntajes es

la media jornada, lo mismo se presentan con las sabatinas, cuentan con estudiantes que

obtienen menores puntajes, pero a comparación con la media jornada, equivale al 38%

para los 2014 – 2015, 16% para los años 2016 – 2017 y en ningún semestre de la muestra

hay estudiantes que obtengan los mejores puntajes.

Los estudiantes de Jornada completa son los que obtienen mejores resultados en

los puntajes de las pruebas saber 11 y cada vez más hay más estudiantes que obtienen

buenos resultados, a excepción del 2017 debido a una disminución del 2%

La materia que obtienen los menores resultados es la de ciencias naturales

ubicándose en puntajes menores a 60 puntos, lo que nos indica que hay menores

tendencias a las ciencias investigativas. Los mejores resultados son en la materia de

matemáticas, lo que nos permite identificar que los estudiantes que obtienen buenos

resultados tienen un enfoque mayor a las ingenierías y ciencias numéricas.


En Ingles el semestre que contiene mejores puntajes de resultado

se encuentra ubicado en el semestre 2016-2, en cambio en el 2017 hubo

una disminución de mejores resultados en un 47%, ubicándose en el

rango de 70 a 80 puntos. El desempeño durante cada semestre se

mantiene estable, cada vez que se acerca a B+ hay un aumento

considerable en los resultados de un 57% y más.

La cantidad de estudiantes que se presentan al examen saber 11

ha ido aumentando cada vez que pasan los semestres, demostrando que

los estudiantes quieren progresar, desean estudiar y obtener mejores

puntajes. Por otro lado, en el año 2017 hubo una disminución del 1%

(Gámez Patiño, 2018)

Bibliografía
Gámez Patiño, D. E. (11 de 2018). Obtenido de
https://repository.udistrital.edu.co/bitstream/handle/11349/14628/
GámezPatiñoDavidEsteban2018.pdf?sequence=1&isAllowed=y

You might also like