You are on page 1of 18

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/364921833

Un modelo de minería de datos para predecir la deserción escolar en la carrera de


Ingeniería de Software

Article · October 2022

CITATIONS READS

0 202

4 authors:

Alan Ramírez Noriega Samantha Jiménez


Universidad Autónoma de Sinaloa Autonomous University of Baja California
65 PUBLICATIONS   240 CITATIONS    82 PUBLICATIONS   271 CITATIONS   

SEE PROFILE SEE PROFILE

Bogart Yail Márquez Yobani Martínez-Ramírez


Autonomous University of Baja California Universidad Autónoma de Sinaloa
76 PUBLICATIONS   356 CITATIONS    37 PUBLICATIONS   106 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Technical and Soft Skills of Engineers of the 21st Century: Software Engineering View project

Create new project "Intelligent tutoring systems" View project

All content following this page was uploaded by Alan Ramírez Noriega on 30 October 2022.

The user has requested enhancement of the downloaded file.


Abstraction & Application 36 (2022) 46 – 62
UADY

Un modelo de minería de datos para predecir la deserción escolar en la


carrera de Ingeniería de Software
A data mining model to predict school dropout in the Software
Engineering career

Alan Ramírez-Noriega1, Samantha Jiménez2, Bogart Marquez3, Yobani Martínez-Ramírez1


1
Facultad de Ingeniería Mochis, Universidad Autónoma de Sinaloa

{alandramireznoriega,yobani}@uas.edu.mx
2
Facultad de Ciencias de la Ingeniería y tecnología, Universidad autónoma de Baja
California
samantha.jimenez@tectijuana.edu.mx
3
Departamento de Sistemas y Computación, Instituto Tecnológico de Tijuana
bogart@tectijuana.edu.mx

Abstract
School desertion refers to the abandonment of studies before finishing the educational level. It is a
problem that occurs at all educational levels, although it has a greater impact at the higher level.
Dropping out is a complex phenomenon that has many related variables, which negatively impacts
institutions. This research determines a model based on data mining techniques to classify students
who drop out of a career in Software Engineering (SE), considering SE competencies as the main
attributes of analysis. An instrument is developed to build the data set with active and dropout
students, then the Knowledge Discovery process in Database was applied to build a data set and
apply mining techniques based on predictive algorithms. The results yielded a model with a
prediction of 75% and a set of competencies characteristic of active SE students. The built model
allows detecting possible cases of student dropout in SE or even define if a student has aptitudes to
pursue the career, in both cases the proposal allows to control school dropout to a certain degree.

Resumen
La deserción escolar se refiere al abandono de los estudios antes de terminar el nivel educativo. Es
un problema que se presenta en todos los niveles educativos, aunque tiene mayor impacto en el
nivel superior. La deserción es un fenómeno complejo que tiene muchas variables relacionadas, por
lo que impacta de forma negativa a las instituciones. La presente investigación determina un modelo
basado en técnicas de minería de datos para clasificar a los estudiantes que desertan de una carrera
en Ingeniería de Software (IS) considerando las competencias de la IS como principales atributos de
análisis. Se elabora un instrumento para construir el conjunto de datos con estudiantes activos y
desertores, posteriormente se aplicó el proceso de Descubrimiento del Conocimiento en Base de

________________________________________
Fecha de recepción: Julio 7, 2027 / Fecha de aceptación: agosto 28, 2022
A. Ramírez et al. / Abstraction & Application 36 (2022) 46 - 62 47

Datos para construir un conjunto de datos y aplicar técnicas de minería basados en algoritmos
predictivos. Los resultados arrojaron un modelo con un poder de predicción de 75% y un conjunto
de competencias características de los estudiantes activos de IS. El modelo construido permite
detectar posibles casos de deserción de estudiantes en IS o incluso definir si un estudiante tiene
aptitudes para cursar la carrera, en ambos, casos la propuesta permite controlar en cierto grado la
deserción escolar.

_____________________
Keywords and phrases: Deserción escolar, competencias, ingeniería de software, minería de datos,
clasificación, predicción.

2010 Mathematics Subject Classification: 68T05

_____________________

1 Introducción
La minería de datos basada en la opinión de las personas es muy útil para descubrir los
conocimientos y sus sentimientos con respecto a cualquier entidad específica. Es una práctica
común que, cuando se trata de la toma de decisiones, los individuos u organizaciones prefieren
buscar las opiniones de los demás [1], [2]. Las instituciones académicas no están fuera de esta
práctica, ya que provee retroalimentación cuantitativa y cualitativa, fácil de resumir y analizar.

Reunir y procesar la información de estudiantes en sus experiencias de aprendizaje es ampliamente


reconocido como una estrategia importante para evaluar la calidad de los procesos educativos. La
mayoría de las instituciones académicas comúnmente requieren estudiantes para participar con
encuestas. Estos instrumentos se aplican para conocer el punto de vista del alumno sobre los
objetivos, conducción y resultados del curso, además de opiniones sobre la institución o sentimiento
sobre el estilo de enseñanza del instructor y su efectividad [2], [3]. El objetivo de esta práctica es
mejorar el programa, disminuir el índice de reprobación y de deserción escolar.

La deserción escolar se refiere al abandono de los estudios por parte de los estudiantes inscritos
antes de terminar el nivel educativo [4]. La deserción escolar es un problema importante para las
instituciones educativas de nivel superior, es una tarea compleja dar un acompañamiento al
estudiante y lograr que finalicen sus estudios. Es importante señalar que la deserción es un
fenómeno altamente complejo y de múltiples impactos negativos para los distintos agentes e
individuos involucrados en ello [5].

Algunos estudios [5], [6] han sugerido niveles diferenciados de la deserción vinculados a variables
diversas como son el costo financiero de una carrera específica, las condiciones sociocontextuales
del estudiante, el entorno universitario que alberga a los ingresantes a la universidad, entre otros.
Dado que son muchas variables involucradas, es complicado en un solo estudio abarcar todo el
fenómeno, por lo que es importante cubrir el problema desde diferentes perspectivas [6].
Considerando lo anterior, esta investigación se enfoca en variables propias de la carrera
universitaria, y se empleó como caso de estudio la Licenciatura en Ingeniería de Software (IS).
48 Un Modelo de minería de datos para predecir la deserción escolar

La IS está enfocada en construir sistemas de software disminuyendo la complejidad del proceso y


obteniendo productos deseables para el cliente [7]. Esta ingeniería combina aspectos de análisis,
documentación a través de diagramas y programación; estos aspectos se vuelven complejos cuando
los estudiantes no tienen las habilidades o competencias necesarias, principalmente con la
programación. Esta incapacidad de dominar una nueva área sin el conocimiento de respaldo
necesario hace que el estudiante termine por abandonar la carrera.

Por tanto, la presente investigación determina un modelo basado en técnicas de minería de datos
para clasificar a los estudiantes que podrían desertar de una carrera o seguir activos considerando
competencias de la IS como principales atributos de análisis. El proceso de recopilación de datos
incluyó diseñar una encuesta basada en las competencias de los Ingenieros en Software que ofrece
la Asociación Nacional de Instituciones de Educación en Tecnologías de Información (ANIEI).
Además, se incluyeron atributos de los estudiantes tales como la edad, el turno, la calificación y
otros datos personales (estar casados y/o tener hijos). La hipótesis principal de la investigación
radica en que las competencias de los estudiantes que desertan de la carrera son cuantitativamente
más bajas que las de los estudiantes activos, por lo que se podrá generar un modelo predictivo
basado en esta característica.

El artículo está estructurado de la siguiente forma. La segunda sección define el marco teórico de la
investigación, donde se explican los conceptos empleados. La tercera sección representa la
metodología empleando el Descubrimiento del Conocimiento en Base de Datos, donde se explica
desde la elaboración del conjunto de datos hasta el análisis predictivo con una técnica de minería.
La cuarta sección representa la discusión y conclusiones sobre los resultados obtenidos. Finalmente
se muestran las referencias.

2 Marco teórico
A continuación, se despliegan algunos temas relacionados con la investigación, algunos tratan de
explicar con más detalles los conceptos y otros serán empleados en este artículo en secciones
posteriores.

2.1 La ANIEI y la Ingeniería de Software

La Asociación Nacional de Instituciones de Educación en Informática (ANIEI) [8] surgió en 1982 en


México. Esta asociación tiene como objetivo contribuir a la formación de profesionales en
Informática y Computación sólidamente preparados, además de impulsar la difusión y la asimilación
de una cultura computacional en la sociedad.

La ANIEI define 4 perfiles profesionales de nivel licenciatura [8]: informática, ingeniería de software,
ciencias computacionales e ingeniería computacional. Esta investigación se enfoca en la licenciatura
en Ingeniería de Software. La ANIEI define al profesional en IS como: “Es un especialista en la
producción de sistemas de software de calidad para la solución de diversas problemáticas del
entorno. Es responsable de la formulación, planeación, implantación y mantenimiento de sistemas
de información que garanticen la disponibilidad de altos niveles de servicio.”

Además, esta asociación define los modelos curriculares de los perfiles, y sus competencias
generales, específicas y transversales [9]. De acuerdo con la ANIEI, una competencia es lo que hace
que la persona utilice las mejores prácticas para realizar un trabajo o una actividad y sea exitosa en
A. Ramírez et al. / Abstraction & Application 36 (2022) 46 - 62 49

la misma, lo que puede significar la conjunción de conocimientos, habilidades, disposiciones y


conductas específicas. La asociación clasifica las competencias en:

• Competencias de primer nivel o de referencia: Son las competencias necesarias para que
los individuos sean productivos desde su ingreso al mundo laboral.

• Competencias de segundo nivel o específicas: Son las competencias necesarias para que los
individuos puedan realizar un trabajo o actividad de su perfil de profesional.

Las competencias de primer nivel, también llamadas transversales pertenecen a todos los perfiles,
estas son: Comunicación oral y escrita, análisis y síntesis de Información, planteamiento y resolución
de problemas, modelación de soluciones, aprendizaje autónomo, trabajo en equipo, toma de
decisiones, uso efectivo de herramientas de TIC, responsabilidad en la actuación, visión sobre el
impacto de las soluciones.

Por otra parte, las competencias específicas son: realiza ingeniería de requisitos de software, diseña
Software, construye software, realiza pruebas de software, realiza mantenimiento de software,
administra proyectos de software, estima parámetros del proyecto de software, asegura la calidad
del software, establece mecanismos de seguridad, emplea ciclos de vida, verifica calidad de
soluciones de software y usa herramientas para creación de software.

2.2 Descubrimiento del Conocimiento en Base de Datos

El Descubrimiento del Conocimiento en Base de Datos (Knowledge Discovery Databases, KDD por
sus siglas en inglés) es el proceso no trivial de identificar patrones válidos, novedosos,
potencialmente útiles y comprensible a través de los datos [10]. La frase descubrimiento de
conocimiento en bases de datos se acuñó en el primer taller de KDD en 1989 por Piatetsky-Shapiro
para enfatizar que el conocimiento es el producto final de un descubrimiento impulsado por datos.
Se ha popularizado en los campos de la inteligencia artificial y el aprendizaje automático [11].

El proceso de KDD se organiza en cinco fases [12], [13]:

1. Integración y recopilación: Se determinan las fuentes de información que pueden ser útiles
y donde conseguirlas. A continuación, se transforman los datos a un formato común.
Frecuentemente mediante un almacén de datos que consiga unificar de manera operativa
toda la información recogida, detectando y corrigiendo las inconsistencias

2. Selección, limpieza y transformación: Dado que los datos provienen de diferentes fuentes,
pueden contener valores erróneos o faltantes. Estas situaciones se tratan en esta fase, en
donde se eliminan o corrigen los datos incorrectos y se decide la estrategia a seguir con los
datos incompletos. A continuación, se describe cada fase:

a. Selección: Se proyectan los datos para considerar únicamente aquellas variables o


atributos que van a ser relevantes, con el objetivo de hacer más fácil la tarea de
minería. Si los datos son muchos, se debe considerar el uso del muestreo,
seleccionando solo algunas de las filas, con el objetivo de agilizar el procesamiento
de información.
50 Un Modelo de minería de datos para predecir la deserción escolar

b. Limpieza: Se detecta la presencia de datos faltantes o perdido que pueden conducir


a resultados poco precisos. También se detectan valores que no se ajustan al
comportamiento general de los datos.

c. Transformación: Consiste en construir automáticamente nuevos atributos aplicando


alguna operación o función a los atributos originales con el objeto de que estos
atributos hagan más fácil el proceso de minado.

3. Minería de datos: El objetivo de esta etapa es la búsqueda y descubrimiento de patrones


insospechados y de interés. Se deben tomar varias decisiones como:

a. Determinar qué tipo de tarea es la más apropiada (clasificación, regresión,


clusterización, etc.).

b. Elegir el tipo de modelo (redes neuronales, arboles de decisión, Bayes ingenuo, entre
otros).

c. Elegir el algoritmo de minería que resuelva la tarea y obtenga el tipo de modelo que
estamos buscando.

4. Evaluación e interpretación: Se evalúan e interpretan los patrones descubiertos y


posiblemente se retorna a las anteriores etapas para posteriores iteraciones. La evaluación
depende del tipo de tarea aplicada.

5. Difusión, uso y monitorización: La última fase se refiere a la implementación del sistema


desarrollado, así como la inclusión de una fase de mantenimiento que permita corregir
errores y actualizar los datos del modelo.

2.3 Métricas de evaluación

Las métricas típicas de recuperación de información son precisión y exhaustividad [14]. La precisión
(Ecuación 1) es el número de documentos correctamente clasificados sobre el total de documentos
clasificados, para una categoría dada. La exhaustividad (Ecuación 2) es el número de documentos
clasificados correctamente sobre el total de documentos de esa categoría.
|{𝑜𝑏𝑗𝑟𝑒𝑙 }∩{𝑜𝑏𝑗𝑟𝑒𝑐 }|
𝑝𝑟𝑒𝑐 = 𝑜𝑏𝑗𝑟𝑒𝑐
(1)

|{𝑜𝑏𝑗𝑟𝑒𝑙 }∩{𝑜𝑏𝑗𝑟𝑒𝑐 }|
𝑒𝑥ℎ = 𝑜𝑏𝑗𝑟𝑒𝑙
(2)

Donde, 𝑜𝑏𝑗𝑟𝑒𝑙 corresponde a los objetos relevantes, 𝑜𝑏𝑗𝑟𝑒𝑐 corresponde a los objetos recuperados.

La medida F1 (Ecuación 3) es una media armónica ponderada de exhaustividad (exh) y precisión


(prec); donde, β es una variable para dar preferencia a la exhaustividad o a la precisión. Cuando β >
1 entonces la preferencia es para la precisión, cuando β < 1 entonces la preferencia es para la
exhaustividad.
(𝑝𝑟𝑒𝑐∗𝑒𝑥ℎ)
𝐹𝛽 = (1 + 𝛽2 ) ∗ (𝛽2∗𝑝𝑟𝑒𝑐)+𝑒𝑥ℎ (3)
A. Ramírez et al. / Abstraction & Application 36 (2022) 46 - 62 51

3 Metodología con KDD

Con el objetivo de generar un conjunto de datos relacionado a los estudiantes, se diseñó y aplicó
una encuesta. Con el conjunto de datos se pueden encontrar patrones que nos permitan identificar
aspectos de los estudiantes tales como su opinión de la carrera o si pudieran desertar en algún
momento. El presente artículo se enfoca en el problema de la deserción escolar tomando como
variables las competencias de la Ingeniería de Software (IS). Aunque posteriores investigaciones
permitirán hacer otros análisis de la información recopilada.

La presente investigación recupera información de dos tipos de estudiantes: 1) Los estudiantes


activos, son aquellos estudiantes que sigue cursando la carrera de forma regular o irregular. 2) Los
estudiantes desertores, son aquellos que abandonaron la carrera por cualquier motivo.

Los alumnos cursan o cursaron la carrera en IS de la Facultad de Ingeniería Mochis (FIM), esta
Facultad pertenece a la Universidad Autónoma de Sinaloa. La FIM cuenta con otras carreras como
Ingeniería Civil, Ingeniería Geodésica, Ingeniería Industrial además de posgrados a nivel maestría y
doctorado. La FIM se ubica en la zona norte del estado de Sinaloa, recibe alumnos de la ciudad de
Los Mochis principalmente, aunque también recibe estudiantes de otros municipios como El fuerte,
Choix y Guasave.

A continuación, se describe el proceso de KDD.

3.1 Integración y recopilación

El proceso KDD recomienda hacer un integración y recopilación de diversos sistemas como fuente
de datos [15], sin embargo, no hay un sistema que cuente con los datos que se quieren analizar en
esta investigación, por lo que se construyó un instrumento (encuesta) y se generó un procedimiento
para capturar la información.

Procedimiento de la recopilación de los datos:

1. Primeramente, se retomaron las competencias que debe de tener un ingeniero en software


basado en la Asociación Nacional de Instituciones de Educación en Tecnologías de
Información (ANIEI).

2. Después, se diseñó una encuesta basada en el punto anterior, tratando de elegir


competencias que pudieran ser detectadas incluso antes de iniciar la carrera. La forma de
redacción de las preguntas no fue técnica ni profunda, de tal forma que estudiantes que
abandonaron a inicios de la carrera pudieran entender y contestar sin problemas de
interpretación.

3. Esta encuesta tuvo dos versiones, una para los estudiantes activos y otra versión para
estudiantes desertores. La segunda versión manejaba tiempo verbales en pasado y una
redacción diferente ya que los estudiantes ya no estudian la carrera de IS, sin embargo, se
mantenía la idea principal de la pregunta.
52 Un Modelo de minería de datos para predecir la deserción escolar

4. Posteriormente, la encuesta se aplicó con estudiantes activos de la carrera de IS de los


semestres finales. Se eligieron estos alumnos porque son los más avanzados en la carrera y
tienen mejor desarrolladas las competencias de los semestres previos.

5. Finalmente, la encuesta para estudiantes desertores se aplicó tomando como base a


alumnos que estudian en la actualidad, aunque no precisamente los que son parte del
conjunto de datos. Los alumnos que aun estudian ubicaron a compañeros que habían
desertado de la carrera, fueron compañeros en los inicios de la carrera, aunque también
había casos recientes, a pesar de la deserción aun mantenían contacto, de esta forma se les
envió la encuesta para ser contestada en línea. Se manejo de esta forma porque no hay un
listado de alumnos desertores, simplemente salen de la carrera y se pierde contacto con
ellos.

Instrumento aplicado

La encuesta inicia con preguntas básicas referentes a la edad, sexo, promedio de preparatoria, el
promedio de la carrera, el turno, el estado civil y si tiene hijos (ver Tabla 1). Posteriormente, se
aplican preguntas relacionadas con las competencias de un estudiante en IS (ver Tabla 2 en columna
pregunta). La encuesta fue aplicada de forma independiente al tipo de estudiante, por lo que se
tenía un registro de estudiantes activos y otro de estudiantes desertores.

Tabla 1. Preguntas secundarias del conjunto de datos.

Conjunto de datos activos Conjunto de datos desertores

¿Cuál es tu edad?

¿Cuál es tu sexo?

¿Cuál es tu promedio de preparatoria?

¿Cuál era tu promedio en la carrera de Ingeniería de


¿Cuál es tu promedio en la carrera de Software al abandonar tus estudios? (Si no alcanzaste
Ingeniería de Software actualmente? a tener un promedio, puedes poner un estimado o
dejarlo en blanco)

Turno en el que estas actualmente Turno en el que estabas al abandonar la carrera

¿Estabas casado (unión libre) cuando abandonaste la


¿Estas casado(a) (unión libre)?
carrera?

¿Tienes hijos? ¿Tenías hijos cuando abandonaste la carrera?

Actualmente la opinión de la carrera es: Tu opinión de la carrera es:


A. Ramírez et al. / Abstraction & Application 36 (2022) 46 - 62 53

Tabla 2. Relación preguntas y competencias para activos y desertores.

No. Pregunta Competencia (Transversal o Especifica) S

1 Me gusta interactuar con las Análisis y síntesis de Información (T),


personas cuando tengo que ingeniería de requisitos de software (E)
recopilar información
2 Me gusta entender completamente Análisis y síntesis de Información (T), *
los problemas antes de intentar ingeniería de requisitos de software (E)
solucionarlos
3 Comprendo fácilmente las ideas de Análisis y síntesis de Información (T),
los demás ingeniería de requisitos de software (E)
4 Me gusta elaborar diagramas para Modelación de soluciones (T), Diseña
representar flujos de información Software (E)
5 Me gusta emplear esquemas para Modelación de soluciones (T), Diseña *
explicar ideas Software (E)
6 Me gusta construir objetos u cosas Construye software (E)

7 Me gusta (ría) saber cómo se Construye software (E) *


desarrollan las aplicaciones que uso
en mi celular o computadora
8 Me gusta (ría) desarrollar mi propio Construye software (E) *
video juego
9 Me gusta expresar mis ideas de Comunicación oral y escrita (T)
manera escrita
10 Me gusta trabajar en equipo para Trabajo en equipo (T)
lograr objetivos comunes
11 Tengo capacidad para manejo de Uso efectivo de herramientas de TIC (T), *
tecnologías de cómputo (Software y usa herramientas para creación de
hardware) software (E)
12 Me gusta aprender por iniciativa e Aprendizaje autónomo (T) *
interés propio
13 Me gusta investigar situaciones Aprendizaje autónomo (T)
desconocidas para resolver
problemas
14 Tengo facilidad para encontrar la Aprendizaje autónomo (T)
información que necesito (web,
libros, revistas y otros medios)
15 Me gusta resolver problemas Planteamiento y resolución de problemas *
matemáticos (E)
16 Me gusta resolver problemas Planteamiento y resolución de problemas *
capciosos o complejos (E)
54 Un Modelo de minería de datos para predecir la deserción escolar

Cabe destacar que algunos atributos del estudiante desertor como el promedio, la carrera, el turno,
el estado civil y el número de hijos eran los que tenía el estudiante al momento de abandonar la
carrera (ver Tabla I).

Las respuestas a las preguntas relacionadas con competencias (Tabla 2) eran tipo Likert de 5 puntos
(Totalmente en desacuerdo, En desacuerdo, Neutral, De acuerdo, Totalmente de acuerdo), las
demás fueron tratadas como tipo numérico.

Las preguntas están asignadas a su correspondiente categoría según la competencia. La Tabla 2


muestras las competencias Transversales (T) y Especificas (E) con las que se trabajaron, además de
la pregunta relacionada. La última columna (S) representa si la pregunta marca diferencia entre
estudiantes activos y desertores, de acuerdo con el procedimiento explicado en la parte de
reducción de dimensionalidad (sección más abajo).

Antes de aplicar la encuesta se sometieron a pruebas para detectar errores de dedo, errores de
redacción, validación de respuestas, entre otros aspectos. La encuesta fue diseñada y aplicada a
través de Google Forms, aunque los datos fueron analizados con el software estadísticos SPSS (IBM
Corp., 2021).

3.2 Selección, limpieza y transformación

Esta fase en general se refiere a la preparación de los datos previamente a ser explotados, la fase es
dividida en varias subfases, las cuales se describen a continuación.

3.2.1 Selección

Después de aplicar las encuestas, de inicio se obtuvieron 75 estudiantes activos y 61 estudiantes


desertores.

Debido a que se consideraron más atributos con los estudiantes desertores, algunos atributos no
coincidían con los estudiantes activos, por tanto, los datos fueron analizados por separado y luego
integrados en un solo conjunto de datos. Por ejemplo, en los estudiantes desertores se consideraron
cuestiones como las siguientes:

1. ¿Has estudiado otra carrera después abandonar ingeniería de software?

2. Si la respuesta anterior es afirmativa (si no déjala en blanco) ¿Cómo te fue o está yendo en
tus estudios?

3. ¿En cuál año abandonaste la carrera?

4. ¿En cuál semestre abandonaste la carrera de Ingeniería de Software?

Todos estos aspectos no se aplican a los estudiantes activos, por lo que se omitieron del conjunto
de datos final. Por otra parte, se integró un campo para diferenciar a los estudiantes activos y
desertores.

Al finalizar esta fase, se generó un conjunto de datos con 136 registros (75 estudiantes desertores y
61 estudiantes activos) y 26 atributos.
A. Ramírez et al. / Abstraction & Application 36 (2022) 46 - 62 55

3.2.2 Limpieza

Para mantener el conjunto de datos con información fiable, algunos registros tuvieron que ser
eliminados, las causas principales fueron:

1. Los encuestados pusieron todas las respuestas en 1 o en 5, claramente hay un sesgo en sus
respuestas

2. Los encuestados agregaron edades poco creíbles para estudiantes en universidad

3. Los encuestados pusieron promedios de preparatoria con valores muy bajos.

Toda esta información produce sesgos en los resultados finales, por lo que se prescindió de esos
registros. Al finalizar el proceso de limpieza quedaron 68 (54.8) estudiantes activos y 56 (45.2)
estudiantes desertores, para un total de 124 registros o instancias y 26 atributos.

3.2.3 Transformación

El proceso de transformación se ha dado a lo largo de la etapa de selección y limpieza. El proceso


inicio transformando dos conjuntos de datos (activos y desertores) en uno solo, lo que ocasionó
eliminar atributos y crear otros. Además, en el proceso de limpieza se quitaron algunos registros
para evitar sesgos.

Por otra parte, en el proceso de captura de la información con Google Forms hasta tener los datos
en SPSS, se numerizaron las respuestas que estaban con base en Likert y otros atributos, esto con
el objetivo que los algoritmos de minería pudieran realizar un procesamiento más eficiente al
trabajar con números.

3.2.4 Reducción de dimensionalidad

Los datos se sometieron a un proceso de reducción de dimensionalidad para enfocar


exclusivamente en las preguntas relacionadas a las competencias de IS, por lo que el conjunto de
datos quedo con 16 atributos y una clase.

A pesar de esto, se tuvo que seleccionar las preguntas más representativas de ambos grupos para
favorecer el trabajo de los algoritmos. Para esto, se analizaron las 16 preguntas categorizándolas
entre estudiantes activos y desertores. Algunas preguntas fueron más representativas para un tipo
de estudiante que otros, por lo que se realizó un proceso para determinar cuáles preguntas son más
significativas:

1. Los estudiantes fueron divididos en 2 grupos (activos y desertores, línea azul y naranja de
la Fig. 1).

2. Por cada grupo se obtuvo un promedio por pregunta, los valores están representados de 1
a 5, de acuerdo con la escala de Likert empleada. Este promedio representa la afinidad
general del grupo para una competencia dada (Eje y de la Figura 1).
56 Un Modelo de minería de datos para predecir la deserción escolar

3. El valor de las preguntas de cada grupo fue comparado, para todos los casos los valores de
los estudiantes activos fueron mayores que los desertores, sin embargo, había valores con
una diferencia muy baja.

4. Las competencias seleccionadas fueron aquellas donde la diferencia entre los valores era
mayor. Entre más diferencia había entre los valores, más representativo es la competencia
para los estudiantes.

Los resultados de este proceso están representados la Figura 1. El proceso de selección se basó en
encontrar los atributos que tenían mayor diferencia en la opinión generalizada del atributo. De esta
forma, el atributo 7 representa el caso con mayor diferencia entre la opinión de los estudiantes
activos y desertores. Mientras que el atributo 9 no hay mucha diferencia entre sus opiniones,
tomando casi el mismo valor. Por tanto, algunas competencias obtuvieron una diferencia mayor
entre grupos porque representan mejor al grupo (activos o desertores), otras competencias tenían
promedios muy similares por lo que no son representativas de los grupos.

Figura 1. Comparativo de respuestas de estudiantes activos y desertores.

De esta forma, las preguntas fueron filtradas seleccionado las siguientes:

1. Me gusta entender completamente los problemas antes de intentar (atributo 2)

2. Me gusta emplear esquemas para explicar ideas (atributo 5)

3. Me gusta (ría) saber cómo se desarrollan las aplicaciones que uso en mi celular o
computadora (atributo 7)

4. Me gusta (ría) desarrollar mi propio video juego (atributo 8)

5. Tengo capacidad para manejo de tecnologías de cómputo (Software y hardware)


(atributo 11)

6. Me gusta aprender por iniciativa e interés propio (atributo 12)

7. Me gusta resolver problemas matemáticos (atributo 15)

8. Me gusta resolver problemas capciosos o complejos (atributo 16)


A. Ramírez et al. / Abstraction & Application 36 (2022) 46 - 62 57

Estas 8 preguntas relacionadas a las competencias diferencian en mejor forma a los grupos. Por lo
que el conjunto de datos finalmente quedo con 8 atributos y una clase (activos y desertores) y 124
instancias.

3.4 Análisis descriptivo

Antes de iniciar con el proceso de minería, se procede a analizar los datos de forma descriptiva
tratando de encontrar información importante en los datos. Como lo muestra la Tabla 3, los
estudiantes activos corresponden al 54.8% y los desertores al 45.2%.

Tabla 3. Porcentajes de estudiantes

Frecuencia Porcentaje

Desertor 56 45.2

Activo 68 54.8

Total 124 100.0

El promedio de edad de los participantes es 22.42 años (ds 2.76, min. =19, máx.=35), aunque este
promedio es solo un dato, ya que algunos desertaron hace uno o más años por lo que no tienen el
promedio de los estudiantes activos. Los estudiantes activos tienen un promedio de edad de 21.86
y los desertores 23.14 años.

Por otra parte, la carrera de IS principalmente es cursada por hombres, esto concuerda con los
porcentajes de esta investigación, 83.1% de hombres (103) y 16.9% (21) de mujeres.

Las calificaciones de los estudiantes desertores son menores que las calificaciones de los estudiantes
activos, esto considerando las calificaciones de la preparatoria (desertor 8.6 y activos 8.9). La Fig. 2
muestra una menor dispersión de datos en los estudiantes activos al estar más cercanos a la media.

Figura 2. Gráfica de bigotes de los promedios de los estudiantes.


58 Un Modelo de minería de datos para predecir la deserción escolar

Un porcentaje muy bajo de estudiantes están casados mientras estudia la carrera (4.4%) (3)
mientras que los estudiantes desertores tienen un ligero porcentaje más alto (7.1%) (4)
comparándolo cuando estudiaban la carrera. Por otro lado, un 2.9% (2) de los estudiantes activos
tienen hijos mientras estudian, mientras un 7.1% (4) de estudiantes desertores tenían hijos mientras
estudiaban la carrera. Realmente no hay una diferencia importante considerando si los estudiantes
tienen esposa y/o tiene hijos.

Un dato importante corresponde al semestre en que los estudiantes desertaban de la carrera. De


acuerdo con la Fig. 3, la mayor deserción escolar se enfoca en los primeros semestres, en los
primeros 2 semestres desertan el 46.8% de la matricula que inicio la carrera. Por lo que la gráfica de
tendencia (línea punteada azul) muestra altos niveles de deserción en los primeros semestres
disminuyendo en los semestres finales.

Figura 3. Porcentaje de deserción escolar en la carrera de IS por semestre.

3.5 Minería de datos

Existen diferentes tareas de la minería de datos tales como clasificación, regresión, agrupamiento,
correlación y reglas de asociación [12], [16]. Esta investigación se enfoca en la clasificación, es decir,
con base a las competencias en IS (atributos) se pretende clasificar nuevos estudiantes, para
determinar si un estudiante podría desertar de la carrera. La técnica de minería elegida es la
máquina de soporte vectorial.

3.6 Evaluación e interpretación

Aunque finalmente se empleó la técnica de MSV, se probaron varias técnicas como: redes
neuronales, el algoritmo del vecino más cercano, arboles de decisión y Bayes ingenuo. Sin embargo,
La MSV obtuvo mejores resultados que las otras técnicas mencionadas.
A. Ramírez et al. / Abstraction & Application 36 (2022) 46 - 62 59

Para la evaluación se utilizó la herramienta de análisis de datos Scikit-learn, se empleó una


validación cruzada con 5 pliegues de inicio. Aunque posteriormente se hizo una validación simple
con 20% de prueba y 80% de entrenamiento.

Los resultados de la validación con 5 pliegues esta descrito en la Tabla 4. La MSV tuvo un
rendimiento (accuracy) de 0.75 en promedio.

Tabla 4. Resultados de la validación con 5 pliegues

Iteración

1 2 3 4 5

MSV 0.68 0.80 0.68 0.84 0.75

La matriz de confusión se muestra en la Tabla 5, en total fueron 25 elementos que corresponde al


20% del conjunto de datos para pruebas. El resto (80%) fue para entrenamiento. Con base en la
Tabla 5 se genera la Tabla 6, el algoritmo MSV logro un rendimiento de 0.76 a acertar correctamente
19 de los 25 casos.

Para brindar más detalles de los resultados, se describe la precisión, la exhaustividad y la medida f1.
La precisión fue similar para ambas clases al tener un porcentaje de acierto cercano. La
exhaustividad tuvo una mayor diferencia en sus resultados, teniendo un mejor rendimiento para la
clase de estudiantes activos. Por lo que la medida F1 también fue más alta.

Tabla 5. Matriz de confusión para MSV

Desertor Activo Total

Desertor 7 4 11

Activo 2 12 14

Total 11 16 25
60 Un Modelo de minería de datos para predecir la deserción escolar

Tabla 6. Métricas para MSV

Precisión Recall F1 Support

Desertor 0.78 (7/9) 0.64 (7/11) 0.70 11

Activo 0.75 (12/16) 0.86 (12/14) 0.80 14

25

3.7 Difusión, uso y monitorización

El proyecto está en fase de prueba y la aplicación aun en desarrollo, por lo que su difusión aun no
puede ser posible, sin embargo, podemos mejorar en diversos aspectos la investigación como
incrementar las instancias del conjunto de datos o aplicar otro algoritmo de reducción de
dimensionalidad.

4 Discusión y conclusiones

Es complicado generar un conjunto de datos preciso que permita la predicción cercana al 100%, ya
que la deserción escolar un es tema multifactorial [4], [5]. En esta investigación se aborda desde el
punto de las competencias de la IS, dejando a un lado otros aspectos. Aunque es cierto que muchos
estudiantes desertan porque las competencias requeridas en la IS no son de su agrado, también hay
un porcentaje de estudiantes que cumplen con dichas competencias y aun desertan, dado que hay
otros factores que impactan su permanencia en la carrera. Esto factores pueden ser [4], [17]:
personales, sociales, económicos, familiares, docentes, entre otros, aunque para los fines de esta
investigación no se analizaron esos factores.

Todos los estudiantes mal clasificados por el algoritmo de predicción son estudiantes que no encajan
con el patrón que indican sus respuestas, de acuerdo con el algoritmo empleado, lo que indica que
estos estudiantes desertaron por otras causas diferentes a las estudiadas en este artículo.

Además, hay un grupo de estudiantes activos que son clasificados como desertores, esto permite
identificar posibles casos de deserción al no cumplir con las competencias de la carrera. Estos
estudiantes deberían ser canalizados para tratar de remediar las deficiencias o apatías que muestran
para evitar deserciones. Aun así, podrían no salvarse todos los casos, pero si es posible disminuir el
grado de deserción escolar.

Por otra parte, se ha detectado que hay algunas competencias que destacan más que otras. De
acuerdo con el método empleado en la sección de transformación de datos, podemos definir que
las características principales de los estudiantes activos son: 1) Gustan de jugar videojuegos, además
que les gusta o gustaría desarrollar su propio videojuego, aunque el desarrollo se expande a otras
áreas como aplicaciones del celular o de la computadora. 2) Tienen facilidad por manejar las
tecnologías de cómputo, ya sea hardware o software.

Las características anteriores están asociadas a la programación, aunque también sobresale otras
competencias como: 1) Resolver problemas capciosos o complejos, lo que implica un análisis previo
del problema antes de implementar la solución. 2) Aprender por iniciativa propia. 3) Preferencia por
explicar ideas a través de esquemas.
A. Ramírez et al. / Abstraction & Application 36 (2022) 46 - 62 61

Para probar la diferencia significativa de medias se empleó la prueba estadística U de Mann-Whitney


[18] para muestras independientes, ya que los datos no mostraron normalidad. Los datos analizados
corresponden a la sumatoria de los atributos relacionados a las competencias del conjunto de datos.
La hipótesis del investigador indica que hay una diferencia significativa de medias entre los grupos
de estudiantes activos y desertores, considerando un nivel de confiabilidad del 95%. Los resultados
indican un p-valor igual a 0.000 (p-valor<0.05) por lo que podemos afirmar que estadísticamente
hay diferencia significativa en las medias de los grupos activos y desertores a un nivel de significancia
del 95%.

De esta forma, podemos afirmar que, de acuerdo a la opinión de los estudiantes que participaron
en este estudio, las competencias de los estudiantes que desertan de la carrera son
cuantitativamente más bajas que las de los estudiantes activos, por lo que se pudo generar un
modelo predictivo basado en esta característica.

Como trabajo futuro, el artículo considera hacer ajustes a las preguntas que generan el conjunto de
datos para aplicar a nuevas generaciones de alumnos, de esta forma se podrán obtener nuevos
datos para ser explotados tratando de superar el rendimiento actualmente mostrado.

Referencias
[1] J. Chulilla Alcalde, “Análisis de sentimiento de textos basado en opiniones de
películas usando algoritmos de aprendizaje computacional,” Universitat Oberta de
Catalunya, 2021.
[2] M. Misuraca, G. Scepi, and M. Spano, “Using Opinion Mining as an educational
analytic: An integrated strategy for the analysis of students’ feedback,” Stud. Educ.
Eval., vol. 68, no. March, 2021, doi: 10.1016/j.stueduc.2021.100979.
[3] C. D. Algecira Arbelaez, “Arquitectura de Big Data para el análisis de sentimientos
multimodales en el sector turístico del Departamento de Boyacá,Colombia.,”
Universidad Santo Tomás, 2021.
[4] F. J. López Pedraza, M. del C. González Macías, and Sandoval García Edgar R.,
“Minería de Datos: Identificando causas de deserción en las Instituciones Públicas
de Educación Superior de México,” TiES, Rev. Tecnol. e Innovación en Educ. Super.,
vol. 1, no. 2, pp. 1–12, 2019, [Online]. Available: http://www.ties.unam.mx/.
[5] A. Matheu Pérez, C. Ruff Escobar, M. Ruiz Toledo, L. Benites Gutierrez, and G.
Morong Reyes, “Modelo de predicción de la deserción estudiantil de primer año en
la Universidad Bernardo O´Higgins,” Educ. e Pesqui., vol. 44, no. 0, pp. 1–23, 2018,
[Online]. Available: http://dx.doi.org/10.1590/S1678-4634201844172094.
[6] A. B. Bernardo, E. Tuero, A. Cervero, A. Dobarro, and C. Galve-González, “Acoso y
ciberacoso: Variables de influencia en el abandono universitario,” Comunicar, vol.
28, no. 64, pp. 63–72, 2020, doi: 10.3916/C64-2020-06 |.
[7] R. Pressman, Software Engineering: A Practitioner’s Approach, 7th ed. New York,
62 Un Modelo de minería de datos para predecir la deserción escolar

NY, USA: McGraw-Hill, Inc., 2010.


[8] ANIEI, “Asociación Nacional de Instituciones de Educación en Tecnologías de
Información,” 2022. http://www.aniei.org.mx/ANIEI/ (accessed May 20, 2022).
[9] N. A. García, L. S. Guerrero, G. R. Abitia, R. V. Argüelles, and A. L. L. Cruces, “The
University Learning Network of ANIEI,” in 2018 XIII Latin American Conference on
Learning Technologies (LACLO), 2018, pp. 89–92, doi: 10.1109/LACLO.2018.00031.

[10] W. Frawley, G. Piatetsky-Shapiro, and C. Matheus, “Knowledge Discovery in


Databases: An overview,” AI Mag., vol. 13, no. 1, pp. 57–70, 1992, doi:
10.6026/97320630001367.
[11] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, “From data mining to knowledge
discovery in databases,” AI Mag., vol. 17, no. 3, pp. 37–53, 1996.
[12] J. Hernández Orallo, M. J. Ramírez Quintana, and C. Ferri Ramírez, Introducción a la
minería de datos. Pearson Educación, 2004.
[13] S. R. Timarán-Pereira, I. Hernández-Arteaga, S. J. Caicedo-Zambrano, and A.
Hidalgo-Troya, “El proceso de descubrimiento de conocimiento en bases de datos,”
in Descubrimiento de patrones de desempeño académico con árboles de decisión en
las competencias genéricas de la formación profesional, Bogotá, Colombia, 2016,
pp. 63–86.
[14] A. Nenkova and K. McKeown, “Automatic Summarization,” in Foundations and
Trends in Information Retrieval, vol. 5, 2011, pp. 103–233.
[15] C. Diamantini, D. Potena, and E. Storti, “Ontology-Driven KDD Process
Composition,” in Proceedings of the 8th International Symposium on Intelligent
Data Analysis: Advances in Intelligent Data Analysis VIII, 2009, pp. 285–296, doi:
10.1007/978-3-642-03915-7_25.
[16] I. Witten, E. Frank, M. Hall, and C. Pal, Data Mining: Practical Machine Learning
Tools and Techniques, 4th. Morgan Kaufmann Publishers, 2016.
[17] R. Ruiz-Ramírez, J. L. García-Cué, and M. A. Pérez Olvera, “Causas y Consecuencias
de la Deserción Escolar en el Bachillerato: Caso Universidad Autonóma de Sinaloa,”
Rev. Ra Ximhai, vol. 10, no. 5, pp. 51–74, 2014, [Online]. Available:
http://www.redalyc.org/articulo.oa?id=46132134004.
[18] K. Weaver, V. Morales, S. Dunn, K. Godde, and P. Weaver, “Mann–Whitney U and
Wilcoxon Signed-Rank,” in An Introduction to Statistical Analysis in Research, K.
Weaver, V. Morales, S. Dunn, K. Godde, and P. Weaver, Eds. John Wiley & Sons, Ltd,
2017, pp. 297–352.

View publication stats

You might also like