Professional Documents
Culture Documents
FACULTAD:
CIENCIAS TÉCNICAS
CARRERA:
TECNOLOGÍAS DE LA INFORMACIÓN
PROFESIONAL EN FORMACION:
QUIJIJE BAQUE GEOVANNY DANIEL
SEMESTRE:
SÉPTIMO “C”
ASIGNATURA:
MINERIA DE DATOS
TITULO:
CASO PRACTICO DE MINERIA DE DATOS
DOCENTE:
ING. ADRIANA CASTILLO MERINO
PERIODO ACADÉMICO:
PII 2022
Fecha:
Noviembre 2018.
País:
Colombia
tema de la investigación:
Aplicación de Técnicas de Minería de Datos para el Análisis de Información del Sector Educativo de
Colombia
objetivo:
Obetivo general
Aplicar técnicas de minería de data a una muestra significativa de datos otorgados por el
programa de datos abiertos del gobierno, recolectados mediante la construcción de un prototipo
de sistema de integración de información para analizar la información estadística consolidada en
los exámenes de estado aplicados al grado 11 de las instituciones educativas de Colombia.
Objetivos Específicos
Clasificar la información estadística referente a los exámenes de estado aplicados al grado 11 de
las instituciones educativas de Colombia mediante el estudio de fuentes reales de información
otorgadas por el programa de datos abiertos del gobierno.
Diseñar y desarrollar un sistema prototipo de minería de datos mediante el análisis y la
integración de información usando herramientas especializadas en integración y análisis de datos
para estructurar un sistema de información para análisis de la información estadística referente a
los exámenes de estado aplicados al grado 11 de las instituciones educativas de Colombia.
Generar una serie de reportes consolidados mediante la aplicación de algoritmos al prototipo de
sistema de integrado de información creado mediante el proceso de integración de información
para analizar las principales variables que afectan los procesos educativos de acuerdo a la
información generada por los repositorios de datos abiertos de grados 11.
métodos y/o técnicas:
La investigación debe permitir que se realice una indagación de si es posible mediante la
aplicación de técnicas de minería de datos que permita integrar y analizar la información del
sector educativo colombiano, por ello es de gran importancia poder en primer lugar investigar
a fondo las características que tiene la información del sector educativo siendo la materia
prima de la investigación y en segundo sentar unas bases teóricas relacionadas con las
estrategias de integración de información y de minería de datos que son las herramientas que
La información recopilada junto con las herramientas de integración van a permitir realizar en
estadísticos cuyos modelos pueden ser analizados por un usuario final; por ello es necesario
comprobar experimentalmente si toda el modelo teórico que se investigo acerca de las técnicas
de minería de datos permite integrar información del sector educativo colombiano para
Teniendo en cuenta lo anterior y que se parte de que la hipótesis planteada requiere en cierta
forma ser comprobada mediante pruebas experimentales, el método que se selecciona para
Resultados
Resultados y discusión.
Oracle Xe 11G, versión para desarrollador. Esta versión y modelo fueron seleccionados
por facilidad de implementación y por la robustez del motor de base de datos [].
que realiza la carga para un periodo (por ejemplo 20182) de evaluación icfes en
particular.
Figura 50. Ejecución de la integración de datos por periodo fuente propia.
de base de datos de donde se realiza la extracción de una muestra de datos para ser
analizados, se procede organizar la información, sacar los datos para generar patrones con
para verificar la variación entre cada uno. Lo que se puede observar para este caso es un
ejemplo de identificación de datos de los exámenes por ítem del semestre 2016-2 de los
mejores puntajes, comparado con los estudiantes que son del programa “ser pilo paga”
Para un mayor análisis se realizó una interpretación de cada columna para cada
semestre desde 2014 hasta la actualidad (2018), tomando los menores y mayores puntajes
de la prueba saber 11. De este modo con las sentencias SQL se obtiene los datos más
importantes para el análisis, ya que durante cada semestre para los colegios de calendario
30.000 registros.
Para obtener y generar una búsqueda completa de datos se tomó en cuenta:
del promedio
Familia
Géneros
Deberes
Colegios
Trabajo
Ciudad
Promedio
Inglés
Estrato
Nivel educativo
Nivel de vida
Jornada
Calendario
Documento de Identidad
Resultados anuales
Resultado por Semestre
Para obtener un entorno de clasificación óptimo para los datos analizados, se usó
la opción Use training set: este método permite “entrenar” a Weka para que pueda
seleccionar todos los datos del fichero y aplicar que es lo más adecuado para su
interpretación.
Se adquieren mayor cantidad de datos con su respectivo análisis para evaluar los
cruces de información que se puede realizar con las variables que son las más
importantes, las cuales se identifican como los datos de cada materia, junto con
llegar hasta observar el margen de error y los datos que no pueden ser clasificados.
cada lfo y ver como es el comportamiento al combinarlos, para este caso de realiza la
Explorando los datos permite en las demás pestañas determinar cuáles son los
atributos que se pueden seleccionar, cuales tienen más peso que otros y diferentes
métodos a evaluar que aporta Weka, teniendo en cuenta los datos que se encuentran en el
fichero, debido a que algunos no pueden ser analizados por no ser numéricos. Al final el
forma de dos dimensiones, representando todos los ejes posibles y las combinaciones que
puede tener cada dato y por supuesto las correlaciones y asociaciones de forma detallada.
Para generar una mejor visualización de los datos se define la cantidad de pixeles,
tamaño y el Jitter: el cual añade ruido a las muestras, de manera que espacia que datos se
identifica el comportamiento que tiene cada data haciendo conciliación por ítem.
sacar los datos y concluir el estado académico de los estudiantes en Colombia de forma
semestral y anual. La siguiente tabla cuenta con toda la conciliación de datos realizada en
la herramienta Weka para generar las respectivas conclusiones sobre qué factores afectan
global de las variables más relevantes en las muestras de datos obtenidas por el proceso
el examen, tienden a tener resultados no tan favorables como se esperaba ya que tiende a
decrecer su nivel académico. De igual forma los estudiantes mayores a 18 años tienen la
misma tendencia.
Los estudiantes mayores a 18 años representan entre el 2 y el 3 por ciento de la
estudiantes como su nivel académico en esta misma vigencia del 2015 al 2018.
60%, la diferencia está en el género femenino, sin embargo, la cantidad de personas que
incrementa a medida que pasa el tiempo, caso contrario con el género masculino, lo que
el 30% de los estudiantes a nivel nacional que se presentan a esta prueba, seguidos por
Medellín, el cual representa el 13%, la diferencia oscila en las demás ciudades principales
y en la zona rural.
Los estudiantes que pagan pensión por encima de $250.000 representan el 75%.
Comparado con los estudiantes que pagan menos de $250.000, vemos un menor interés
por sacar buenos puntajes dentro de este examen, así mismo denota que cuando el
estudiante tiene que pagar su estudio, genera una obligación por tener mayor nivel y
conformidad.
La zona urbana representa el 90% de estudiantes que presentan el examen, con tendencia
a la baja, caso contrario se presenta en la zona rural, donde su porcentaje diferencia 10%,
tiende a incrementarse. Esto nos da a entender que el sector rural a medida que pasa el
tiempo necesita tecnificarse y generar mejores resultados dentro del producto interno.
La cantidad de estudiantes que presentan su examen tiende a incrementarse en un
3% anual, así mismo los estudiantes que presentan más de una vez la prueba, representan
universidades con un alto nivel académico. Por lo anterior a medida que pasa el tiempo
vemos que esta clase de pruebas va cogiendo mayor importancia e indica que los
Los colegios que cuentan con una pensión más alta y con una mayor imagen, son
con estudiantes que no pagan pensión. Durante el 2016 hubo un aumento de estudiantes
en colegios del gobierno en obtener las mejores calificaciones del país, pero aun así no
en la prueba saber, como es el caso de los padres que cuentan con estudios universitarios,
entre mayor estudio tengan, los hijos tienden a obtener resultados por encima de la media
a nivel nacional. Si esto lo comparamos con los estudiantes que tuvieron resultados no
favorables, vemos que el incremento para obtener educación primaria y básica secundaria
de sus padres es muy bajo: Los padres con nivel educativo primaria se incrementan en
20% anual, comparado con los padres de nivel secundaria que incrementan en 1% anual.
Lo anterior nos indica que el nivel de estudio básico en los padres genera mayor interés
para que sus hijos tengan unos objetivos académicos concretos, así mismo se incremente
la influencia para que haya mejores resultados tanto en el examen del Icfes como en las
recursos a sus hijos, a comparación de los que no están trabajando y no pueden proveerles
los recursos necesarios, por lo que los resultados negativos se ven reflejados.
De 2014 A 2015 bajo el porcentaje de padres sin estudio en un 10%, es decir que
los padres se están preparando más para respaldar a los hijos, por ello tanto el nivel
Según los puntos anteriores los padres que no tienen estudio a medida que se
obteniendo educación, como en este caso que de 2014 a 2015 están subiendo el 1% a
primaria.
Entre 2016 y 2017 el porcentaje de padres con nivel primaria bajo en un 22%
comparado con el nivel de secundaria bajo el 1%, con base en lo anterior, entre más sube
el nivel académico se va reduciendo el número de padres, esto nos indica que los padres
no terminan el nivel secundario por deserción y ocupación, lo que provoca el olvido del
Entre 2015 y el 2017 vemos que a medida que aumenta el desempleo (6%) los
menores puntajes aumentan, esto quiere decir que a medida que hay menores ingresos en
Los estudiantes que trabajan tienen menores puntajes en el examen saber 11, lo
menor, caso
contrario con los que no trabajan, tienden a obtener mejores puntajes por disponibilidad
de tiempo
A menor estrato, hay menores puntajes en los exámenes saber 11, siendo un claro
ejemplo: el año 2016 al 2017 los estudiantes que trabajan y sacaron menores puntajes
subió un 45%, caso contrario en los estratos altos, se presenta mayor nivel académico, lo
que nos indica que el nivel socioeconómico afecta para un desarrollo normal en la
obtención de estudios.
Los colegios con mayor estatus han sobresalido en nivel académico a nivel
En el caso contrario, los colegios que han tenido menor rendimiento académico
demostrado por menores puntajes en las pruebas saber 11 están localizados en zonas
ellos
están:
Los colegios que obtienen los mejores resultados en la prueba saber son los
Las jornadas que más se presentan estudiantes que obtienen menores puntajes es
la media jornada, lo mismo se presentan con las sabatinas, cuentan con estudiantes que
obtienen menores puntajes, pero a comparación con la media jornada, equivale al 38%
para los 2014 – 2015, 16% para los años 2016 – 2017 y en ningún semestre de la muestra
Los estudiantes de Jornada completa son los que obtienen mejores resultados en
los puntajes de las pruebas saber 11 y cada vez más hay más estudiantes que obtienen
ubicándose en puntajes menores a 60 puntos, lo que nos indica que hay menores
matemáticas, lo que nos permite identificar que los estudiantes que obtienen buenos
ha ido aumentando cada vez que pasan los semestres, demostrando que
puntajes. Por otro lado, en el año 2017 hubo una disminución del 1%
Bibliografía
Gámez Patiño, D. E. (11 de 2018). Obtenido de
https://repository.udistrital.edu.co/bitstream/handle/11349/14628/
GámezPatiñoDavidEsteban2018.pdf?sequence=1&isAllowed=y