You are on page 1of 10

Instituto Politcnico Nacional

Centro de Investigacin en Computacin


______________________________________________________________________________________________________________

Minera de Datos con Bsqueda de Patrones de Comportamiento


M.en C. Gilberto Lorenzo Martnez Luna,
Centro de Investigacin en Computacin (CIC)
Instituto Politcnico Nacional (IPN)
lluna@pollux.cic.ipn.mx

Dr. Adolfo Guzmn Arenas


Centro de Investigacin en Computacin (CIC)
Instituto Politcnico Nacional (IPN)
aguzman@pollux.cic.ipn.mx

Resumen.
En este trabajo se presenta una forma de realizar el descubrimiento de conocimiento o Minera de Datos a partir de una
base de datos, la tcnica utilizada es la generalizacin y sumarizacin de datos en cubos de datos. Se utiliza una
herramienta construida en el CIC que permite definir y utilizar los cubos, elegir las regiones de inters de estudio y definir
los patrones de comportamiento o situaciones anmalas a localizar en estas regiones. Nuestra herramientas permite
programar los procesos de extraccin y anlisis de datos en horarios nocturnos para aprovechar los recursos
computacionales. En la presentacin de los resultados de las bsquedas, se busca que esta sea sencilla de revisar e
interpretar para descubrir las tendencias o relaciones entre los datos, y as generar conocimiento validado. En este
artculo se describe este desarrollo como una implantacin a la tecnologa de anlisis automtico.

1. Introduccin
Una definicin de Minera de Datos es el descubrimiento
eficiente de informacin valiosa, no-obvia de una gran
coleccin de datos [1], cuyo objetivo es ayudar a buscar
situaciones interesantes con los criterios correctos,
complementar una labor que hasta ahora se ha
considerado intelectual y de alto nivel, privativa de los
gerentes, planificadores y administradores. Adems, de
realizar la bsqueda fuera de horas pico, usando tiempos
de mquina excedentes [4]. En general, el proceso de
minera se puede ver en la figura 1.

realiza utilizando la tcnica que construye cubos de ndimensiones,


conocida como generalizacin y
sumarizacin en cubos de datos [5], tcnica implantanda
en una base de datos relacional. La generalizacin de los
datos se puede desarrollar en los niveles que se considere
necesario usar y as realizar anlisis a diferentes niveles de
conceptos. En los cubos formados, la herramienta permite
definir regiones de inters en las cuales se buscan patrones
de comportamiento [3], al trmino de la ejecucin de las
bsquedas los resultados se muestran en reportes de tipo
texto y grficas.

La utilidad de la Minera de Datos ya no se pone a


discusin [1][5], por lo cual est tecnologa esta siendo
aplicada por muchas herramientas de software. Las
tcnicas de aplicacin varan de acuerdo a la herramienta,
algunas la instrumentan haciendo uso de redes neuronales
(SPSS Neural Connection), otras con generacin de reglas
(Data Logic) o Arboles de Decisin [XpertRule Profiler].
En [6] puede verse una clasificacin de las herramientas
para desarrollar minera, de acuerdo a su tcnica de
aplicacin.
En el Laboratorio de Sistemas de Informacin del CICIPN, se desarrolla una herramienta que forma parte del
1
proyecto ANASIN , con la cual la Minera de Datos se
Figura 1
1

ANASIN se trabaja en el Laboratorio de Sistemas de Informacin y


Bases de Datos del C.I.C., donde la actualizacin es apoyada por el CICIPN, SOFTWARE PRO INTERNATIONAL e I.D.A.S.A. Los mdulos que
componen el proyecto son: Bitcoras, Tabla Maestra, Generador de
Formatos, Instalador Automtico de Sistemas, Recolector de Datos,
Interrogador, Reporteador, Graficador, Despliegue Geogrfico, Minera
de Datos, Clasificador de Entidades y Arbol Semntico de Conceptos.

En esta parte de la ejecucin del proceso de minera se


pueden distinguir dos tipos de programas, los que extraen
la regin de inters de la base de minera, llamados
extractores; y los programas que realizan la bsqueda de

______________________________________________________________________________________________________
1
Laboratorio de Sistemas de Informacin

de 10

Instituto Politcnico Nacional


Centro de Investigacin en Computacin
______________________________________________________________________________________________________________

patrones, que se les llama mineros [4]. Tanto la actividad


de extraccin como la de bsqueda de patrones
generalmente pueden consumir demasiado tiempo por la
gran cantidad de datos para formar las regiones y los
numerosos calculos a realizar, por lo que estas actividades
se delegan a programas que las realizan en forma
autnoma y nocturna y as lograr aprovechar los recursos
computacionales.

2.1 Definicin de cubo de datos.


Un usuario selecciona las variables de sus bases de datos
de sus sistemas operacionales, en las que desea buscar
patrones o comportamientos de inters. Segn el nmero
de variables seleccionadas es la dimensin del cubo
formado, a cada variable se le denomina una dimensin o
un eje del cubo (ver figura 2 y Figura 3).

El presente documento esta organizado cmo sigue. En la


seccin 2 se describe en detalle el proceso de minera de
datos como lo desarrolla la herramienta construida; en la
seccin 3 se describe algunos problemas por resolver y
hacer ms completa la herramienta; en la seccin 4 se
indican algunas lneas de investigacin que se estan
trabajando; en la seccin 5, algunas conclusiones, al
avance de nuestro trabajo; para terminar con caractersticas
del software .

2. Descripcin del Proceso de Minera


La herramienta desarrollada, se llama Mdulo Minera de
tiene el modelo de trabajo
Datos ANASIN y
Cliente/Servidor, donde, se distinguen 4 actividaes
principales:
Definicin del cubo y configuracin de los niveles de
bsqueda.
Realizar solicitudes de minera, en una estacin de
trabajo o cliente
El proceso prncipal de minera; generacin de la
regin y bsqueda de un patrn determinado, en el
Servidor
La visualizacin de resultados de la bsqueda en el
Cliente.
Para realizar la minera con el mdulo, se siguen los pasos:
Definir el cubo de datos o espacio de bsqueda de
mineros
Generalizacin o definicin de los niveles de bsqueda
en cada una de las dimensiones del cubo
Generar los datos y cargar el cubo de datos
Definir los horarios de trabajo de los procesos de
minera
Generar las preguntas (definir regin y patrn a buscar)
Solicitar ejecucin del proceso de extraccin y anlisis.
Ejecucin de la extraccin de la regin solicitada y la
bsqueda del patrn
Revisar e Interpretar los resultados
Una descripcin de los pasos que debe realizar un usuario
se amplia a continuacin.

Figura 2

Figura 3
Ejemplo. Generalmente se manejan una gran cantidad de
variables en una base de datos, pero solo pueden interesar
tres variables cuya interseccin es el valor de inters a
analizar, esto da como resultado un cubo de datos con tres
dimensiones, ms una dimensin que puede contener los
valores en los que se realizar la bsqueda del patrn. Un
usuario puede elegir la relacin venta(producto, cliente,
tiempo), definir como primer eje al producto, como
segundo eje al cliente y como tercer eje al tiempo. La

______________________________________________________________________________________________________
2
Laboratorio de Sistemas de Informacin

de 10

Instituto Politcnico Nacional


Centro de Investigacin en Computacin
______________________________________________________________________________________________________________

interseccin es la venta de un producto para un cliente en


un momento definido en el tiempo.

2.2 Generalizacin o niveles en las dimensiones


del cubo
El usuario define los niveles de anlisis en cada una de sus
dimensiones. Ejemplo. En la tabla 1 se pueden apreciar
varios niveles de generalizacin o niveles de anlisis, con
respecto a variables con datos geogrficos, datos de
tiempo, entre otras
Nivel de
Anlisis
1
2
3
4
5

Geogrfico

Producto

Continente
Pas
Estado
Municipio
Ciudad.

Clase
Subclase
Identificador

Servicio a
Autmovil
Tipo
Frecuencia

La complejidad de generar los datos para la base de


minera (ver seccin 3) generalmente se incrementa, dado
que en las bases de los sistemas generadores o
capturadores de datos, la
organizacin no esta
estructurada para realizar operaciones de minera. Estas
bases se definen para llevar a cabo operaciones
relacionadas a la dinmica diaria o peridica de consultas,
reportes y otras actividades y no para realizar anlisis
histricos, bsqueda de patrones de comportamiento,
clasificacin de objetos, pronsticos, entre otros anlisis de
datos en grandes volumenes.

Tiempo
Ao
Mes
Quincena
Semana
Da

Tabla 1.
La hacer esta definicin, internamente la herramienta
utiliz la funcin de agregacin sumar, la cual se combina
con el lenguaje de especificacin de regiones (ver punto
2.5.1), permitiendo realizar anlisis a los diferentes niveles
de abstraccin definidos en cada uno de los ejes. Ejemplo.
Los anlisis pueden ser a nivel de ciudad, o sumarizar los
datos de ciudad para hacer el anlisis a nivel municipio, o
sumarizar los datos nuevamente para hacer el anlisis a
nivel estado, y as consecutivamente.

Ejemplo. Una base con una estructura que dificulte la


extraccin para formar el cubo, es la que almacena las
ventas mensuales de gasolina con clave GA01 y se
representa en las tablas 2, ,3 y 4.
AO
1990
1991
1992
1993

01
890
890
900
910

02
0
850
850
850

AO
1990
1991
1992
1993

07
670
620
650
650

08
789
690
690
690

Estas tareas de extraccin pueden ser sencillas o complejas


dependiendo de la organizacin de la base fuente de datos.
Si la esta base puede ser accesada con instrucciones de
manipulacin de datos como SQL o 4GL (sistemas
manejadores de bases de datos como INFORMIX,
ORACLE, entre otros), la extraccin se podra reducir a
usar este tipo de instrucciones para extrer los datos, pero si
esta es una base donde no se puede accesar con un
lenguaje de manipulacin, es necesario desarrollar
programas con un lenguaje que permita accesar y extraer
los datos (archivos de RM-COBOL, archivos de BASIC,
entre otros)

700
710
720

04
650
660
680
660

05
540
550
570
580

06
650
600
610
610

09
770
760
775
790

10
770
760
775
790

11
800
820
810
850

12
890
890
890
890

Tabla 2. Cliente 02 en Chihuahua

2.3 Generar los datos y cargar el cubo de datos


Las especificaciones que se describen en las variables de
inters y el nivel de concepto de cada una de ellas se usan
para construir el cubo de datos. Ests especificaciones
ayudan a definir los procesos de extraccin a partir de las
bases originales y contenedoras de los datos de las
variables (bases de usuario).

03

AO
1991
1992
1993
1994

01
880
890
880
890

02
0
820
810
820

03
710
700
720

04
640
620
710
730

05
510
550
540
560

06
610
610
600
620

AO
1991
1992
1993
1994

07
620
620
710
750

08
790
640
660
660

09
720
640
650
650

10
720
650
650
650

11
780
770
780
800

12
850
800
810
850

Tabla 3. Cliente 03 en Chihuahua


AO
1992
1993
1994

01
810
810
810

02
0
840
840

03
660
660

04
610
610
610

05
500
540
540

06
610
600
600

______________________________________________________________________________________________________
3
Laboratorio de Sistemas de Informacin

de 10

Instituto Politcnico Nacional


Centro de Investigacin en Computacin
______________________________________________________________________________________________________________

1995
AO
1992
1993
1994
1995

810
07
670
620
620
620

840
08
790
690
690
690

660
09
770
700
700
700

610
10
770
700
700
700

540
11
800
750
750
750

600
12
890
760
760
760

Tabla 4. Cliente 01 en Sonora


Para poder utilizar los datos en los procesos de bsqueda
de patrones se requiere estructurar como se muestra en las
tablas 5, 6, 7 y 8

Llave1
AC01
AC01
GA01
GA02

Descripcin
Aceite nmero 1
Aceite nmero 2
Gasolina nmero 1
Gaslina nmero 2

Tabla 5. Dimensin 1 Producto, con 2 niveles,


clase e identificador.
Llave2
MXSO
01
MXSO
02
MXCH
02
MXCH
03

Descripcin
Cliente de Mxico, estado de Sonora,
identificador 01
Cliente de Mxico, estado de Sonora,
identificador 02
Cliente de Mxico, estado de Chihuahua,
identificador 02
Cliente de Mxico, estado de Chihuahua,
identificador 03

Tabla 6. Dimensin 2, Cliente, con 3 niveles; pas,


estado e identificador.
Llave3
199001
199002
199003
199004
199005
...
...
199511
199512

Descripcin
Enero de 1990
Febrero de 1990
Marzo de 1990
Abril de 1990
Mayo de 1990
...
...
Noviembre de 1995
Diciembre de 1995

Llave1
AC01
AC01
AC01
AC01

Llave2
MXSO01
MXSO01
MXSO01
MXSO01

Llave3
199001
199002
199003
199004

Valor
810
0
610

Tabla 8. Dimensin 4, venta, dimensin donde


buscar el patrn de comportamiento interesante.
Este cambio de estructura en los datos, se refleja en los
datos que forman parte de la carga inicial (gran volumen
de datos) a la base de minera, actividad que abarca
analizar, disear, construir e implantar los algortimos de
extraccin o generacin de datos. En nuestro caso, la carga
inicial es la extraccin y generacin de archivos de tipo
ASCII los cuales se cargan a la base de datos de minera.
Otra actividad posterior y necesaria para el proceso de
minera, es la definicin de cargas de actualizacin
(menor volumen de datos que la carga inicial) a la base de
minera. La actualizacin se debe realizar en perodos que
se consideren conveniente para mantener vigentes los
resultados de la minera. Est actividad tambin contiene la
complejidad que se describe en la carga inicial, adems de
que se debe de considerar el no cargar datos duplicados.
Cumplidos los procesos de crear la base de minera y
cargarla de datos se procede a los siguientes pasos.

2.4 Definir los horarios de trabajo de los procesos


de minera
Dependiendo de la carga de trabajo de los servidores
donde se almacena la base de datos de minera, se procede
a programar el inicio y fin de las ejecuciones a las
solicitudes de bsqueda de patrones o comportamientos
interesantes.
Esta programacin para aprovechar los recursos de
cmputo se recomienda sea definida en horarios nocturnos,
cuando los servidores generalmente estan libres de
procesamientos de datos. Ejemplo. iniciar los procesos a
las 22:00 y terminarlos a las 08:00.
Si se desea esta programacin de inicio o fin de minera
ms autnoma, se pueden desarrollar agentes de software
(programas) [1] que detecten la no actividad en la
computadora y si ellos consideran conveniente iniciar la
tarea de extraccin y anlisis de datos.

Tabla 7. Dimensin 3, Tiempo con 2 niveles; ao y


mes.

______________________________________________________________________________________________________
4
Laboratorio de Sistemas de Informacin

de 10

Instituto Politcnico Nacional


Centro de Investigacin en Computacin
______________________________________________________________________________________________________________

2.5 Generar las preguntas (definir regin y patrn


a buscar)
Generalmente el cubo de minera donde se realizaran las
bsquedas, almacena una gran cantidad de datos
histricos, pero al usuario solo le interesa analizar en una
regin ms pequea, regin donde buscar su patrn de
comportamiento de inters. La definicin de la pregunta se
divide en dos partes a describir:

La regin que se desea a analizar


El patron a buscar en la regin.

tiempo = 199501.199512
La regin son todos los productos cuya clave inicie con
AC; los clientes cuya clave es MXSO01, MXSO02,
MXCH03 y MXCH06; y en el ao de 1995, desde el mes
01 al mes 12.
Si el nivel del producto va de AC01 a AC99, Esto define
un cubo de posiblemente 99 * 4 * 12 < 4800 registros a
analizar.

2.5.2 Patron de comportamiento o situacin interesante


El usuario define un patrn de comportamiento (ver figura
4) a buscar en la regin que el defina (ver figura 5)

2.5.1 Regin a Analizar


Para definir una regin en el Minera de Datos-ANASIN,
la herramienta proporciona un lenguaje de especificacin
de tramos o intervalos de bsqueda en cada uno de los
ejes, los operadores usados en lenguaje se pueden observar
en la tabla 9.
Sm Significado
bolo
.
Buscar dentro de un
intervalo de claves,
donde el smbolo se
coloca en la clave
inicial y final
|

Buscar en claves
especficas, donde
cada una de las
claves a buscar esta
separada
por
el
smbolo |
Buscar en todos las
claves que esten
definidos para esa
dimensin o eje.
Tambin
puede
funcionar como un
comodn , que indica
que se desea la
bsqueda de todos
los elementos de un
nivel inferior

Ejemplo
AC01.AC10; en el eje
de producto buscar en
los que se tienen las
siguientes
claves,
AC01,
AC02,
AC03,...,AC09 y AC10
AC01|AC02|AC03|AC0
6, en el eje de
producto, solo buscar
en los productos AC01,
AC02, AC03 y AC06

Figura 4

MX*; en eje de cliente,


buscar en los clientes
cuyas claves inicien
con
MX o sea
MXSO01.MXSO99
y
MXCH01 ... MXCH99
(en los que existan).

Tabla 9. Operadores del Lenguaje de Especificacin.


Un ejemplo con los operadores para definir una regin es:
producto = AC*
cliente = MXSO01|MXSO02|MXCH03|MXCH06

Figura 5
Minera de Datos-ANASIN, cuenta con un catlogo de
patrones de comportamiento bien identificados a travs de
n momentos o puntos del tiempo (los puntos pueden ser

______________________________________________________________________________________________________
5
Laboratorio de Sistemas de Informacin

de 10

Instituto Politcnico Nacional


Centro de Investigacin en Computacin
______________________________________________________________________________________________________________

dias, semanas, meses, aos u otra unidad de tiempo),


catlogo que ayuda al usuario a buscar un conocimiento
oculto en sus datos. Entre los comportamientos se hallan:

Crecimientos
Crecimientos con valles
Crecimientos con crestas
Decrecimientos
Decrecimientos con valles
Decrecimientos con crestas
Crecimientos escalonados
Decrecimientos escalonados
Zig Zag
Constantes

(mesd)<(mese) y
(mese)=(mesf)
Estos patrones en la herramienta (figuras 6 y 7) se
presentan en grficas que ayudan a visualizar los patrones
de comportamiento a buscar.

Cada uno de los patrones anteriores tiene su expresin


matemtica que lo define.
Ejemplos:
a) Crecimiento en 4 puntos:
(mesa)<(mesb) y
(mesb)<(mesc) y
(mesc)<(mesd)

Figura 6.

b) Crecimiento con cresta en 5 puntos:


(mesa)<(mesb) y
(mesb)<(mesc) y
(mesc)<(mesd) y
(mesd)>(mese) y
(mesc)<(mese)
c) Decrecimiento en 4 puntos:
(mesa)>(mesb) y
(mesb)>(mesc) y
(mesc)>(mesd)
d) Crecimiento con cresta en 5 puntos:
(mesa)<(mesb) y
(mesb)<(mesc) y
(mesc)<(mesd) y
(mesd)>(mese) y
(mesc)<(mese)
e) Crecimiento escalonado en 4 puntos:
(mesa)=(mesb) y
(mesb)<(mesc) y
(mesc)=(mesd)
f) Crecimiento escalonado en 6 puntos:
(mesa)=(mesb) y
(mesb)<(mesc) y
(mesc)=(mesd) y

Figura 7.
Con los dos componentes de las preguntas descritos
anteriormente, se pueden realizar las siguientes bsquedas:
Con que clientes la venta de gasolina tiene un
crecimiento continuo en 4 meses?
En que clientes se ha mantenido una venta o un consumo
en 3 meses ?
Cules son los clientes en los que se ha mantenido un
porcentaje de variacin mnima de 1 %, sin importar
cuantas unidades de tiempo se ha sostenido la variacin ?

______________________________________________________________________________________________________
6
Laboratorio de Sistemas de Informacin

de 10

Instituto Politcnico Nacional


Centro de Investigacin en Computacin
______________________________________________________________________________________________________________

Preguntas que se pueden armar con un lenguaje de


consulta (SQL o 4GL), pero su construccin puede resultar
dficil,

2.6 Solicitud de proceso de extraccin y nalisis


La solicitud de la ejecucin a responder la pregunta, se
registra en una base de datos que contiene todos los
procesos de extraccin y anlisis o bsqueda de patrones.

La extraccin que contiene los lugares donde se


cumplio el criterio que define la regin y en los cuales
se busco el patrn (con xito o sin xito)
Grficas para visualizar los lugares donde se busco el
patrn
Grficas para visualizar donde tuvo xito la bsqueda
del patrn, es decir, donde se encontr el patrn
definido en la pregunta.
Ejemplo de esto son las grficas 9, 10, 11 y 12.

2.7 Ejecucin de Anlisis


La ejecucin de los procesos de extraccin de datos y
bsqueda de patrones (anlisis) se realizaran de acuerdo a
los horarios programados, donde el programa extractor y
minero utilizaran los recursos del servidor donde se
almacena la base de minera.

2.8 Resultados del Anlisis


El xito en los procesos de Minera de Datos o de anlisis
automtico en un gran cmulo de datos, se deber a la
interpretacin correcta de los resultados. Para lo cual
ayuda mucho la forma en que se presenten al usuario los
resultados. Est debe ser sencilla y entendible para una
fcil interpretacin (ver figura 8).
El mdulo de Minera de Datos ANASIN, presenta tanto
reportes como grficas de los resultados de la extraccin y
bsqueda de patrones.
Los
resultados
son
los
siguientes:

Figura 8

Fgura 9. Regin de xito para el patrn de


bsqueda Constante en 4 puntos

Fgura 10. Regin de xito para el patrn de


bsqueda Constante en 4 puntos

Reporte que muestra el resultado o la indicacin del


tiempo y lugar donde se cumpli el patrn buscado

______________________________________________________________________________________________________
7
Laboratorio de Sistemas de Informacin

de 10

Instituto Politcnico Nacional


Centro de Investigacin en Computacin
______________________________________________________________________________________________________________

histricos de totales por alumno inscritos en una


institucin con varios planteles.
No

Campo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

Matrcula
separador
clave de plantel
separador
clave de carrera
separador
plan de estudios
separador
Ingreso
Separador
causa ingreso
Separador
causa egreso
separador
crditos acumulados
separador
porcentaje acrditados
separador
crditos obligatorios
Separador
Porcentaje
obligatorios
Separador
crditos optativos

24
25

Separador
Porcentaje optativos

Fgura 12. Regin de xito para el patrn de


bsqueda Crecimiento escalonado en 4 puntos

26
27

3. Un Desafo en la Minera con Cubos de


Datos

28
29

34
35

Separador
Aprobados en
ordinario
Separador
Reprobados en
ordinario
Separador
Aprobados en
extraordinario
Separador
reprobados en
extraordinario
separador
promedio

36
37

separador
inicio de carrera

Fgura 11. Regin de xito para el patrn de


bsqueda Crecimiento en 4 puntos

Para poder aplicar la tcnica de cubos de datos, es


necesario realizar una transformacin a los datos del
usuario para dejarlos listos como se requiere (figuras 2 y
3), la trasformacin es originada como ya se dijo en el
punto 2, por las fuentes de datos (sistemas operacionales)
que no estan diseadas para realizar minera, por lo cual es
necesario su preparacin.
Un caso en extremo puede plantearse en la siguiente
forma, la estructura ptima de un sistema escolar podra
ser la que se presenta en la tabla 10, que almacena datos

30
31
32
33

Tipo
char(8)
char(1)
char(3)
char(1)
char(2)
char(1)
char(2)
char(1)
entero(3)
char(1)
entero(3)
char(1)
entero(3,)
char(1)
entero(4)
char(1)
entero(4)
char(1)
entero(4)
char(1)
entero(4)
char(1)
decimal(3,
0)
char(1)
decimal(4,
0)
char(1)
decimal(2,
0)
char(1)
decimal(2,
0)
char(1)
decimal(2,
0)
char(1)
decimal(2,
0)
char(1)
decimal(4,
0)
char(1)
decimal(3,

Inici
o
0
8
9
12
13
15
16
18
19
21
22
24
25
27
28
31
32
36
37
40
41

7
8
11
12
14
15
17
18
20
21
23
24
26
27
30
31
35
36
39
40
44

45
46

45
48

49
50

49
53

54
55

54
56

57
58

57
59

60
61

60
62

63
64

63
65

66
67

66
70

71
73

71
74

______________________________________________________________________________________________________
8
Laboratorio de Sistemas de Informacin

Fin

de 10

Instituto Politcnico Nacional


Centro de Investigacin en Computacin
______________________________________________________________________________________________________________

38
39

Separador
Fin de carrera

40
41
42
43
44
45
46
47

Separador
Sexo
Separador
Auxiliar
Separador
Fecha de nacimiento
Separador
Nacionalidad

0)
char(1)
decimal(3,
0)
char(1)
char(1)
char(1)
char(1)
char(1)
char(6)
char(1)
char(1)

75
76

75
78

79
80
81
82
83
84
90
91

79
80
81
82
83
89
90
91

Tabla 10. Datos de Alumnos


Algunos patrones de inters a buscar a travs de las
generaciones podrin ser:
La matrcula
Por cada una de las causas de ingreso
Por cada una de las causas de egreso
Porcentaje de crditos aprobados en forma normal
Porcentaje de crditos aprobados por extraordinario
Porcentaje de crditos reprobados
Promedio de calificaciones
Edad
Los cuales se estudiarian con respecto:

Plantel
Carrera
Sexo
Causas de ingreso
Causas de egreso
Generacin

La dimensin de nuestros cubos hasta aqu es de 6, pero


como se mantiene un histrico por alumnos, es decir la
matrcula se convierte en un eje ms, la dimensin de
nuestros cubos ser finalmente de 7.
Si tuviesemos en total 13 valores diferentes que definen 13
posibles patrones a buscar, cada uno de nuestros registros
de los alumnos sera necesario duplicarlo 13 veces
(promedio, porcentaje aprobado, porcentaje reprobado,
causa de ingreso, causa de egreso, entre otros). Las
preguntas posibles a contestar seran:
En que alumnos por tipo de ingreso crece su
promedio ?
En que alumnos por tipo de ingreso decrece su
promedio ?
En que alumnos por tipo de ingreso se incrementa su
porcentaje de aprobadas ?

En que alumnos por tipo de ingreso se incrementa su


porcentaje de reprobadas ?
En que alumnos por tipo de ingreso se incrementa su
porcentaje de aprobadas obligatorias ?
En que alumnos por tipo de ingreso se incrementa su
porcentaje de reprobadas obligatorias?
Cada registro con una estructura similar salvo por el valor
de una variable que define el tipo de patrn que almacena
el registro.
Es decir, si tuviesemos en total 8,000 registros, es
necesario ahora tener 104,000 registros en la tabla
interseccin. Aunque solo tuviesemos 10 planteles, 5
carreras, 2 sexos, 10 generaciones y 100 causas de egreso
y ingreso
En forma similar tenemos, si la estructura de
almacenamiento de ventas de gasolina por cliente contiene
por registro la venta de un ao en doce items, es necesario
cada registro duplicarlo 12 veces y registrarlo 12 veces en
la tabla que permite almacenar los comportamientos. De
aqui, si tenemos 10,000 clientes, 4 productos y
almacenados 10 aos, nuestra informacin en la tabla de
interseccin de los cubos, registraria al menos 10,000 * 4 *
10 *12 = 4,800,000 registros.
Aqu no se se toman en cuenta los registros que pueden
facilitar el tiempo de respuesta y que son los precalculados
que agilizan el tiempo de respuesta pero incrementan la
cantidad de registros [7].
Como se observa de alguna forma nuestros datos se
duplican y por lo tanto existe la necesidad de manejar lo
que se conoce como un cubo virtual, el cual se generara
cada vez que se procesa una pregunta. Con solo la ventaja
de no duplicar la informacin y no almacenar dicho cubo
en disco; y las desventajas de buscar ptimizar los tiempos
necesarios para su clculo, que dependerera de la regin
de inters a analizar y el algoritmo que definiese el rea de
almacenamiento temporal.
Esto es un problema que se mantiene vigente y necesario
de resolver [5]. Aunado a este desafio existen otros como
el de generar en forma autmatica los algoritmos de los
procesos de extraccin y carga de datos a la base de datos
que se usa para la minera (ver seccin 2.3).

4. Trabajos Futuros.
Esta herramienta se utiliza como apoyo en varios
proyectos que se estan planeado en conjuncin con otros
Laboratorios del C.I.C, entre los cuales destacan:

______________________________________________________________________________________________________
9
Laboratorio de Sistemas de Informacin

de 10

Instituto Politcnico Nacional


Centro de Investigacin en Computacin
______________________________________________________________________________________________________________

Uso de Agentes [2] para la Minera de Datos en


Sistemas Distribuidos y Cooperativos [8]
Uso de Agentes para la Minera Distribuida
Uso de Agentes para la Minera en Texto
Generacin de nuevos agentes (mineros que buscan
variables con comportamientos similares, ya sea que
crezcan, decrezcan o comportamientos contrarios) [4]

5. Conclusiones
Algo que complica el llevar a cabo el desarrollo de
herramientas con tecnologa nueva, es que implica varios
tipos de conocimiento, entre los cuales tenemos:
Algoritmos matemticos
Organizacin de las bases de datos
Algoritmos de recuperacin
Diseo de interfaces de usuario
Sistemas operativos
Una de las principales aportaciones de nuestro desarrollo,
es el modelo de trabajo que permite aprovechar los
recursos de cmputo y permite an ms buscar este
aprovechamiento, adems como ya se menciono en los
trabajos futuros, permite buscar aplicar otras tecnologas
cmo son la de agentes de software.

6. Caractersticas del Software


Modelo de trabajo. Cliente/servidor
Software en Servidor
UNIX SCO
INFORMIX (Online y 4GL)
SAMBA
Programas en C
Programas en Shell Scripts de UNIX SCO
Software en Cliente
Windows NT o Windows 95
Ejecutable en DELPHI
INFORMIX

7. Grupo de desarrollo de versin 2.12

Alfonso Garcia Gonzlez (Analista / Programador,


Documentador)
Absalom Zamorano Castellanos (Analista /
Programador)
Karina Ortiz Nicolas (Analista / Programador)
Rodolfo Rodrguez bando (Analista / Programador)
Bertha Patricia Ramrez Arzate (Beta Tester)
Ixcheel Martnez Castillo (Beta Tester)
M. en C. Gilberto Lorenzo Martnez Luna (Lder de
Proyecto)
Asesores
Dr. Adolfo Guzmn Arenas
M. en C. Guillermo Rafael Domnguez de Len

Referencias
[1] Bigus Josep P. Data Mining With Neural Networks,
McGraw-ill 1996.
[2] Davidsson P., Autonomous Agents and the Concept of
Concepts Departament of Computer Science, Lund University,
Sweden 1996.
[3] Guzmn Arenas A, Estado del Arte y de la Prctica en
Minera de Datos, Anlisis y Critica, Conferencia Magistral,
Cuba, Marzo de 1996
[4] Guzmn Arenas A, Uso y Diseo de Mineros de Datos,
Soluciones Avanzadas, Junio de 1996
[5] Ming-Syan Chen, Jiawei Han, and Philip S. Yu, Fellow,
Data Mining: a view from database perspective, IEEE, Dic.
1996
[6] http: // www. kdnuggets. com / siftware. htm
[7] Harinayan v., Rajamaran a., Ullman j, Implementing Data
Cubes Efficiently, Stanford University
[8] P. Papazoglou Mike, K. Sellis Timos, International Journal
of Intelligent & Cooperative Information Systems , IJICIS,
Volume 1, Number 1, Queensland University of Technology
Brisbane, Australia, University of maryland, College Park, USA,
March 1992.

Integrantes del Laboratorio de Sistemas de Informacin en


1998:
Lilia Gonzlez Rodriguez (Analista / Programador,
Documentador)
2

(2). La versin 1.0 fu desarrolloda por las empresas SoftwarePro International e IDASA, con apoyo del CONACYT para la
Gerencia de Informtica y Telecomunicaciones de la C.F.E.
dirigida por el Ing. Enzo Molino e Ing. Ramn Sobern Kuri en
1994

______________________________________________________________________________________________________
10
Laboratorio de Sistemas de Informacin

de 10

You might also like