Prospect. Vol. 8, No. 2, Julio - Diciembre de 2010, pgs. 55-62
Implementacin de patrones de secuencia en el aula extendida de la Universidad Autnoma del Caribe, para la exploracin y anlisis de las actividades realizadas por los docentes Implementation of sequence paterns in the extended class of autonomous university of the caribbean for the exploration and analysis of activities carried out by teachers Juan Carlos Calabria Sarmiento 1 , Ilma Azucena Bonilla Bota 2
1-, Magster Ingeniera de Sistemas y Computacin Especialista en desarrollo de Procesos Cognoscitivos. Docente Tiempo Completo Universidad Autnoma del Caribe. Grupo Ingeniera de sofware y nuevas tecnologas. Programa Ingeniera de Sistemas. jcalabria@uac.edu.co 2-, Candidato a Magster Informtica Educativa. Especialista en Informtica y Telemtica. Docente de Tiempo Completo Universidad Autnoma del Caribe. Grupo Ingeniera de sofware y nuevas tecnologas. Recibido 6/10/2010, Aceptado 1/12/2010 ReSumen Se implementa una herramienta informtica que apoya el anlisis del comportamiento de las actividades de aprendizaje que el docente registra en el Aula Extendida de la Universidad Autnoma del Caribe. Para esto, se adopta una metodologa para desarrollo de proyectos en minera de datos, CRISP- DM que provee las fases de comprensin del negocio, comprensin de los datos y preparacin de los datos; teniendo en cuenta la herramienta de ETL (Extraccin, Transformacin y Carga) Talend Open, que permite depurar los datos para la integracin. Para la bsqueda de patrones del comportamiento en el desempeo docente en el aula extendida, se tienen en cuenta las variables socio demogrfcas y niveles de estudio. Se utiliza la herramienta WEKA que permite; a tra- vs de los datos de entrenamiento y validacin, realizar los modelos que determinan el comportamiento de un docente. Los modelos de comportamiento se generan a travs de diferentes tcnicas [4]; rboles de decisin, redes neuronales y reglas de decisin, que dependiendo de una situacin especfca y la variable de estudio permiten mostrar y seleccionar el mejor anlisis. Estos resultados permiten generar estrategias que apoyan el proceso de formacin acadmica y elevar la calidad de la educacin en la Universidad Autnoma del Caribe. Palabras clave: Metodologa, ETL, Tcnica, Aula Extendida, TALEND, WEKA. AbStRACt Implemented a sofware tool that supports the analysis of the behavior of learning activities that teachers register with Extended Classroom at the Autonomous University of the Caribbean. For this, we adopt a methodology for project development in data mining, CRISP-DM phases providing business understanding, data understan- ding and data preparation, taking into account the ETL tool (Extraction, Transformation and Load) Talend Open, which lets you debug data for integration. To search for paterns of behavior in the classroom teaching performance extended, taking into account the socio- demographic variables and levels of study. Using the WEKA tool that allows, through the training and validation data, make models that determine the behavior of a teacher. Behavioral models are generated using diferent techniques [4], decision trees, neural networks and decision rules that depend on a specifc situation and the study variable can display and select the best analysis. These results allow us to create strategies that support the academic process and improve the quality of education at the Autnoma University of the Caribe. Key words: Methodology, ETL, Technique, Extended Classroom, Talend, WEKA 56 Implementacin de patrones de secuencia en el aula extendida de la Universidad Autnoma del Caribe 57 1. Introduccin En la Actualidad las empresas suelen generar grandes cantidades de informacin sobre sus procesos producti- vos, desempeo operacional, mercados y clientes. Pero el xito de los negocios depende; por lo general, de la habi- lidad para visionar las nuevas tendencias en manejo de informacin como apoyo a la toma de decisiones. Se defne la minera de datos como el proceso de extraer conocimiento til y comprensible, previamente descono- cido, desde grandes cantidades de datos almacenados en distintos formatos [10]. Es decir, la tarea fundamental de la minera de datos es encontrar modelos inteligibles a partir de los datos [2] y su objetivo es convertir datos en conocimiento. Las aplicaciones de minera de datos identifcan tenden- cias y comportamientos; que adems de extraer informa- cin, descubren las relaciones en bases de datos que mues- tran comportamientos que no son muy evidentes. [3] Por otro lado, la minera datos est contribuyendo signif- cativamente en la toma de decisiones [5], ya que permite determinar el comportamiento de los datos, encontrar pa- trones de secuencia y sus relaciones, facilitando la crea- cin de modelos predictivos y descriptivos, es decir, repre- sentaciones abstractas de la realidad. La Universidad Autnoma del Caribe brinda el Aula Ex- tendida como plataforma para que los docentes agreguen actividades de enseanza aprendizaje. Actualmente no posee un mecanismo que permita el anlisis de las activi- dades secuenciales que se producen en una determinada sesin, por lo tanto no se tiene conocimiento del desempe- o y buen uso este recurso como orientacin a la forma- cin acadmica. Teniendo en cuenta lo anterior, se implementaran Patro- nes de Secuencia en el Aula Extendida de la Universidad Autnoma del Caribe, para la exploracin y anlisis de las actividades realizadas por los docentes, como apoyo en la toma de decisiones o plantear estrategias para potenciar el recurso en las actividades de enseanza aprendizaje por parte de la Direccin Acadmica. Para tal fn, se hace uso de la metodologa CRISP-DM[10] [12] y haciendo uso la herramienta WEKA [7] [11] , que permite a travs de los datos de entrenamiento, validacin y prediccin realizar los modelos que permiten hacer las predicciones para determinar el comportamiento de un docente. 2. metodologa La metodologa de CRISP-DM [10] [12]. est descrita en trminos de un modelo de proceso jerrquico, consisten- te en un conjunto de tareas descritas en cuatro niveles de abstraccin (de lo general a lo especfco): fase, tarea gen- rica, tarea especializada, e instancia de procesos. Figura 1. Etapas de un Proyecto de Minera de Datos. Me- todologa CRISP-DM Figure 1. Stages of a Data Mining Project. CRISP-DM Me- thodology 2.1 Comprensin del negocio Determinar los Objetivos del negocio: La Universidad Autnoma del Caribe como Institucin Educativa cuenta con un Aula Virtual para el proceso de enseanza aprendizaje. Su estructura para la realizacin de actividades docentes esta dada por: Zona de descarga: Diseada para que los docentes suban material de estudio relacionado al tema del curso asignado. Zona de actividades de aprendizaje: Permite asignar activida- des a los estudiantes, las cuales deben realizar y subir al aula. Zona de evaluacin: en la cual se colocan en lnea quiz tipo E-CAES, foros de discusin, entre otros para que los estudiantes desarrollen en determinado tiempo. La plataforma actual le permite a la Direccin Acadmica de la Universidad Autnoma del Caribe obtener informa- cin de los docentes que utilizan el aula virtual, es decir, los que ingresan, pero no sobre los contenidos y activida- des que se generan. 56 57 Prospect. Vol. 8, No. 2, Julio - Diciembre de 2010, pgs. 55-62 Por lo mencionado anteriormente los objetivos de negocio [6] del proyecto son los siguientes: Establecer perfles de los docentes de acuerdo a las acti- vidades realizadas en el Aula Virtual de la Universidad Autnoma del Caribe. Realizar estadsticas con base al desempeo de los do- centes en la utilizacin de las herramientas que brinda el aula virtual de la Universidad Autnoma del Caribe. Establecer cules son las herramientas ms y menos utilizadas por los docentes en el Aula Virtual de la Uni- versidad Autnoma del Caribe. Predecir el desempeo de los docentes de acuerdo a variables socio demogrfcas y a su formacin acad- mica. Comprensin de los Datos 2.2.1 Recoleccin de los datos Iniciales Los datos se recolectaron a partir de las diversas tablas de la base de datos que hacen referencia a informacin re- levante de los docentes y datos del aula extendida de la Universidad Autnoma del Caribe. Todos lo datos iden- tifcan relacionan las actividades que realiza un docente en el aula. Los datos recolectados son los que se muestran a conti- nuacin: Nombres y Apellidos del docente Cdula Sexo Fecha Nacimiento Fecha de Ingreso a la Universidad Direccin Periodo Actual en la Universidad Horas laboradas Estudios realizados por el docente Las materias que dicta un docente en un periodo La actividad que realiza en el aula extendida La fecha en que ingreso a realizar la actividad El curso donde realiz la actividad 2.2.2 Descripcin de los Datos Los datos mencionados anteriormente tienen uno o varios campos asignados a la base de datos y en diversas tablas. A continuacin se hace una descripcin a detalle de toda esta informacin discriminado por tablas y por campos: tAbLA emPLeADO: Se presentan los campos escogidos para la tabla profesores que hace referencia a la tabla EM- PLEADO y a la tabla CATEDRTICO las cuales se unie- ron en una sola tabla diferenciando el tipo de docente de acuerdo a un nuevo campo que se agrego en esta nueva tabla. Los nombres de los campos se modifcaron para un mayor entendimiento. tAbLA CAteDRtICOS: Esta tabla hace referencia a los datos de los docente de la universidad, esta tabla se integr con la tabla empleados, ya que manejaban datos similares. tAbLA eStuDIOS DOCenteS: Esta tabla muestra la informacin del grado de estudio de un docente. tAbLA mAteRIAS DOCenteS: Esta tabla contiene in- formacin de las materias que tiene a cargo un determi- nado profesor. Se modifcaron los nombres de los campos para un mayor entendimiento. tAbLA mDL_LOG: Esta tabla guarda los registros de las actividades realizadas por los docentes en una sesin de- terminada en el aula extendida. Dicha tabla se encuentra en la base de datos del moodle. tAbLA mDL_uSeRS: La cual tiene la informacin de los usuarios que entran al aula extendida. tAbLA mDL_COuRSe: Esta tabla hace parte de la base de datos del moodle. En esta tabla se encuentra la infor- macin del curso la cual se relaciona con la tabla materia a travs del IdNumber. tAbLA uAC_tODOS: En esta tabla se encuentra la rela- cin de la informacin del docente en la base de datos de la universidad con la informacin del docente en el log. tAbLA mDL_ROLe_ASSIGmentS: A continuacin se muestra la tabla mdl_role_assignments la cual hace parte de la base de datos del moodle es decir del aula virtual. Dicha tabla nos brinda la informacin del role del usuario es decir si el usuario es profesor o estudiante. tAbLA mDL_ROLe: A continuacin se muestra la tabla mdl_role la cual hace parte de la base de datos del moodle es decir del aula virtual. Dicha tabla nos brinda la infor- macin de los roles con que cuenta el moodle. tAbLA mIneRIA_DAtOS: A continuacin se presenta la tabla minera de datos la cual contiene las variables ne- cesarias para la evaluacin de los datos, los cuales son ob- tenidos de las diversas tablas descritas anteriormente. La 58 Implementacin de patrones de secuencia en el aula extendida de la Universidad Autnoma del Caribe 59 tabla Minera de datos contiene un campo xito que es la variable que nos determina si el docente cumpli con las actividades necesarias para subir en el aula extendida en un corte especfco. 2.2.3 Verifcacin de los Datos Al realizar una exploracin minuciosa de los datos reco- lectados se analizo que en algunas tablas hay datos incon- sistentes o estn vacos. Es el caso de la tabla empleados y catedrticos en la que se encontraron datos vacos en la fecha de nacimiento de los docentes, sin embargo el n- mero de registros con esta situacin no era considerable. 2.3 Preparacin de los Datos 2.3.1 Seleccin de los Datos En esta etapa se seleccionan los datos que realmente sern utilizados para el modelo de minera de datos excluyendo los datos que no son relevantes para este propsito. Estos datos fueron seleccionados de acuerdo a las caracte- rsticas socio demogrfco, y grado de estudio de los docen- tes tales como edad, sexo, nivel de estudio, tipo de profesor. 2.3.2 Limpieza de Datos Como se dio en la fase de verifcacin de datos se encon- traron registros con campos vacos, como fue el caso de la fecha de nacimiento de la tabla catedrticos y emplea- dos. Para solucionar esta inconsistencia se tom la moda estadstica de los registros y se le asigno a los fecha de nacimiento que se encontraban vacas. Al completar estos datos el impacto fue signifcativo en el modelo de mine- ra de datos que se obtuvo, porque los resultados fueron lo esperado y se dejaron preparados para su transfor- macin. 2.3.3 transformacin de Datos Al analizar las tablas empleado y catedrtico, se not que tenan los mismos campos, a partir de estas se gener la tabla profesores con los campos de las tablas antes men- cionadas. Adems, se le agrego un nuevo campo llamado Tipo el cual toma dos dominios N para Ptc y S para ca- tedrticos. Como se muestra a continuacin: Los campos que tienen asignadas fechas en las tablas se les modifcar el tipo de datos convirtindose a tipo date con un formato dd/mm/yyyy. Esto se debe a que en la realizacin del modelo se hacen operaciones con campos tipo date ya que con cadena no se pueden realizar. Se adi- cionar un nuevo campo que es la edad del docente y se incluir en la tabla profesor. Este dato se obtendr a partir de una operacin que se realice con la fecha de nacimiento del docente. Para esto se utiliz la herramienta Talend Open Source como se muestra en la fgura 5. Figura 2. Tabla Empleado (Table employee) 58 59 Prospect. Vol. 8, No. 2, Julio - Diciembre de 2010, pgs. 55-62 Figura 3. Tabla Catedrtico (Profesor) Figura 4. Tabla Integrada Profesores (Table Integrated Teaching) Figura 5. Aplicacin de Talend Open Source (Talend Open Source application)
60 Implementacin de patrones de secuencia en el aula extendida de la Universidad Autnoma del Caribe 61 2.4. modelamiento Al aplicar la herramienta Talend Open Source a las tabla catedrticos y empleados da como resultado la tabla Pro- fesores, como se muestra en la fgura Figura 4 que junto con la tabla Minera _ datos conforman el modelo a eva- luar: 4. Resultados Despus de generar el modelo mostrado en la fgura 6. teniendo en cuenta datos de entrenamiento, validacin y prediccin, se evalu la efectividad en cada una de las tc- nicas; Redes Neuronales, rboles de Decisiones y Reglas de decisiones, para determinar cual es mejor una con res- pecto a la otra para este tipo de modelo. A continuacin tenemos una tabla comparativa con las cantidades de registros con xito y no xito de los 3 perio- dos analizados, 2008-01(Entrenamiento), 2008-01 (Valida- cin) y 2009-01 (Prediccin). 3062 2939 2654 No 4.1 Algoritmos Redes neuronales En la siguiente tabla relacionamos cada uno de los Algo- ritmos pertenecientes a las Redes Neuronales por cada perodo, teniendo en cuenta la prediccin de registros no exitoso. 79,80% 79,30% 92,00% 79,70% 73,50% 85,10% 4.2 Algoritmos rboles de Decisin En la siguiente tabla relacionamos cada uno de los Algorit- mos de Arboles de Decisin por cada perodo, teniendo en cuenta la prediccin de registros no exitoso. 84,10% 86,70% 92,90% 84,10% 84,10% 84,10% 84,40% 86,70% 86,70% 86,70% 92,90% 92,90% 94,30% 92,90% Se concluye del anlisis realizado por cada Algoritmo, el resultado con mayor efectividad para la prediccin de las variables de xito. Podemos observar que hay 3 Algorit- mos que cumplen con el criterio de efectividad. Por inter- pretacin del rbol que genera cada uno, para un mejor entendimiento de la informacin se escoge el J48 (C4.5). 4.3 Algoritmos Reglas de Decisin En la siguiente tabla relacionamos cada uno de los Algorit- mos de Reglas de Decisin por cada perodo, teniendo en cuenta la prediccin de registros no exitoso. Figura 6. Tabla Minera _ datos(Table Data Mining) 60 61 Prospect. Vol. 8, No. 2, Julio - Diciembre de 2010, pgs. 55-62 A continuacin se explican los resultados segn la tcnica aplicada: rbol de decisin J48 teniendo en cuenta las variables del negocio. Segn el rbol de decisin generado: Los profesores que tienen una edad entre 61 y 70 en un 100% no suben actividades de aprendizaje en el aula ex- tendida. Los profesores que tienen una edad entre 41 y 50 que son Catedrticos en su 65,6% no participan en las actividades de aprendizaje para los estudiantes en el aula extendida.
Los profesores que tienen una edad entre 20 y 30 que tie- nen una especializacin realizada que son de sexo mascu- lino y son PTC en un 100% no participan en las actividades de aprendizaje para los estudiantes en el aula extendida. Los profesores que tienen una edad entre 20 y 30 que tie- nen una carrera profesional que son PTC y que son de sexo Masculino en un 100% no participan en las actividades de aprendizaje para los estudiantes en el aula extendida. Los profesores que tienen una edad entre 20 y 30 que tie- nen estudios de tecnologa en un 96% no participan en las actividades de aprendizaje para los estudiantes en el aula extendida. Los profesores que tienen una edad entre 31 y 40 que tie- nen estudios de tecnologa en un 100% no participan en las actividades de aprendizaje para los estudiantes en el aula extendida. rbol de Decisin Algoritmo J48 Visualizacin
Rango edad (eje X) Vs xito (eje Y) Reglas de Decisin Algoritmo JRip A continuacin se muestran los resultados que arroj el algoritmo de Reglas de decisin JRip teniendo en cuenta las variables del negocio. 94,30% 83,90% 83,50% 83,60% 86,10% 92,90% 62 Implementacin de patrones de secuencia en el aula extendida de la Universidad Autnoma del Caribe 63 6. Conclusiones El uso de la metodologa CRIP-DM facilit el desarro- llo de la investigacin, teniendo en cuenta la naturaleza de los datos que se manejan en el aula extendida de la Universidad Autnoma del Caribe. Las herramientas Open Sources: Talend y Weka , fue- ron esenciales en el desarrollo de la investigacin. La primera fue fundamental en la preparacin de los da- tos tomados de las tablas originales y trasformados para la construccin del modelo y la aplicacin de la minera de datos. La segunda permiti evaluar el mo- delo a travs de las tcnicas: Redes Neuronales, rbo- les de Decisiones y Reglas de Decisiones, proporcio- nando resultados para la toma de decisiones por parte del departamento de secretaria general. Aplicando las tcnicas redes neuronales, reglas de de- cisin con el algoritmo JRip y rbol de decisin con el algoritmo RJ48, se logra determinar que esta ltima es la que ms se ajusta al fenmeno en estudio. Con relacin a los resultados del estudio, se encon- tr que los profesores no participan en actividades de aprendizaje a travs del Aula Extendida. Se analizaron las variables edad, tipo de contrato y nivel de educa- cin. Referencias [1] KRABARTI, SOUMEN. Mining The Web Discovering Knowledge FromHypertext Data. Morgan Kaufmann, 2002. [2] HERNNDEZ, Jos. Introduccin a la Minera de Da- tos. Pearson Educacin, 2004. [3] DUNHAM, Margaret. Data Mining Introductory and Advanced Topic. Prentice Hall, 2003. [4] EIBE, Frank. Data Mining: Practical Machine L e a r - ning Tools and Techniques (Second Edition). Morgan Kaufmann, 2005. [5] MARGARET DUNHAM, Data Mining Introductory and Advanced Topic, Prentice Hall, 2003, P 204. [6] MEHMED KANTARDZIC, Data Mining: Concepts, Models, Methods, and Algorithms, Wiley- IEEE Press, 2002, P 180. [7] MORGAN KAUFMANN, Data Mining: Practical Machi- ne Learning Tools and Techniques (Second Edition). 2005 [8] PEREZ, Cesar. Data Mining, soluciones con Enterprise Miner. Alfaomega, 2006 [9] GIUDICI, Paolo. Applied Data Mining, Wiley, 2006 [10] WITTEN, Ian. FRANK, Eibe. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition. Morgan Series in Data Management Systems. 2005 enLACeS: [11] Weka 3: Data mining Sofware in Java. [Internet]. WEKA the University of Waikato. Disponible desde: <htp://www.cs.waikato.ac.nz/ml/weka/ > [Acceso Julio 10 de 2010] [12] CRISP-Dm. [Internet]. CRoss Industry Standard Process for Data Mining. Disponible desde : htp://www.crisp-dm. org/ [Acceso Marzo 5 de 2010]