Professional Documents
Culture Documents
Resumen.
En este trabajo se presenta una forma de realizar el descubrimiento de conocimiento o Minera de Datos a partir de una
base de datos, la tcnica utilizada es la generalizacin y sumarizacin de datos en cubos de datos. Se utiliza una
herramienta construida en el CIC que permite definir y utilizar los cubos, elegir las regiones de inters de estudio y definir
los patrones de comportamiento o situaciones anmalas a localizar en estas regiones. Nuestra herramientas permite
programar los procesos de extraccin y anlisis de datos en horarios nocturnos para aprovechar los recursos
computacionales. En la presentacin de los resultados de las bsquedas, se busca que esta sea sencilla de revisar e
interpretar para descubrir las tendencias o relaciones entre los datos, y as generar conocimiento validado. En este
artculo se describe este desarrollo como una implantacin a la tecnologa de anlisis automtico.
1. Introduccin
Una definicin de Minera de Datos es el descubrimiento
eficiente de informacin valiosa, no-obvia de una gran
coleccin de datos [1], cuyo objetivo es ayudar a buscar
situaciones interesantes con los criterios correctos,
complementar una labor que hasta ahora se ha
considerado intelectual y de alto nivel, privativa de los
gerentes, planificadores y administradores. Adems, de
realizar la bsqueda fuera de horas pico, usando tiempos
de mquina excedentes [4]. En general, el proceso de
minera se puede ver en la figura 1.
______________________________________________________________________________________________________
1
Laboratorio de Sistemas de Informacin
de 10
Figura 2
Figura 3
Ejemplo. Generalmente se manejan una gran cantidad de
variables en una base de datos, pero solo pueden interesar
tres variables cuya interseccin es el valor de inters a
analizar, esto da como resultado un cubo de datos con tres
dimensiones, ms una dimensin que puede contener los
valores en los que se realizar la bsqueda del patrn. Un
usuario puede elegir la relacin venta(producto, cliente,
tiempo), definir como primer eje al producto, como
segundo eje al cliente y como tercer eje al tiempo. La
______________________________________________________________________________________________________
2
Laboratorio de Sistemas de Informacin
de 10
Geogrfico
Producto
Continente
Pas
Estado
Municipio
Ciudad.
Clase
Subclase
Identificador
Servicio a
Autmovil
Tipo
Frecuencia
Tiempo
Ao
Mes
Quincena
Semana
Da
Tabla 1.
La hacer esta definicin, internamente la herramienta
utiliz la funcin de agregacin sumar, la cual se combina
con el lenguaje de especificacin de regiones (ver punto
2.5.1), permitiendo realizar anlisis a los diferentes niveles
de abstraccin definidos en cada uno de los ejes. Ejemplo.
Los anlisis pueden ser a nivel de ciudad, o sumarizar los
datos de ciudad para hacer el anlisis a nivel municipio, o
sumarizar los datos nuevamente para hacer el anlisis a
nivel estado, y as consecutivamente.
01
890
890
900
910
02
0
850
850
850
AO
1990
1991
1992
1993
07
670
620
650
650
08
789
690
690
690
700
710
720
04
650
660
680
660
05
540
550
570
580
06
650
600
610
610
09
770
760
775
790
10
770
760
775
790
11
800
820
810
850
12
890
890
890
890
03
AO
1991
1992
1993
1994
01
880
890
880
890
02
0
820
810
820
03
710
700
720
04
640
620
710
730
05
510
550
540
560
06
610
610
600
620
AO
1991
1992
1993
1994
07
620
620
710
750
08
790
640
660
660
09
720
640
650
650
10
720
650
650
650
11
780
770
780
800
12
850
800
810
850
01
810
810
810
02
0
840
840
03
660
660
04
610
610
610
05
500
540
540
06
610
600
600
______________________________________________________________________________________________________
3
Laboratorio de Sistemas de Informacin
de 10
1995
AO
1992
1993
1994
1995
810
07
670
620
620
620
840
08
790
690
690
690
660
09
770
700
700
700
610
10
770
700
700
700
540
11
800
750
750
750
600
12
890
760
760
760
Llave1
AC01
AC01
GA01
GA02
Descripcin
Aceite nmero 1
Aceite nmero 2
Gasolina nmero 1
Gaslina nmero 2
Descripcin
Cliente de Mxico, estado de Sonora,
identificador 01
Cliente de Mxico, estado de Sonora,
identificador 02
Cliente de Mxico, estado de Chihuahua,
identificador 02
Cliente de Mxico, estado de Chihuahua,
identificador 03
Descripcin
Enero de 1990
Febrero de 1990
Marzo de 1990
Abril de 1990
Mayo de 1990
...
...
Noviembre de 1995
Diciembre de 1995
Llave1
AC01
AC01
AC01
AC01
Llave2
MXSO01
MXSO01
MXSO01
MXSO01
Llave3
199001
199002
199003
199004
Valor
810
0
610
______________________________________________________________________________________________________
4
Laboratorio de Sistemas de Informacin
de 10
tiempo = 199501.199512
La regin son todos los productos cuya clave inicie con
AC; los clientes cuya clave es MXSO01, MXSO02,
MXCH03 y MXCH06; y en el ao de 1995, desde el mes
01 al mes 12.
Si el nivel del producto va de AC01 a AC99, Esto define
un cubo de posiblemente 99 * 4 * 12 < 4800 registros a
analizar.
Buscar en claves
especficas, donde
cada una de las
claves a buscar esta
separada
por
el
smbolo |
Buscar en todos las
claves que esten
definidos para esa
dimensin o eje.
Tambin
puede
funcionar como un
comodn , que indica
que se desea la
bsqueda de todos
los elementos de un
nivel inferior
Ejemplo
AC01.AC10; en el eje
de producto buscar en
los que se tienen las
siguientes
claves,
AC01,
AC02,
AC03,...,AC09 y AC10
AC01|AC02|AC03|AC0
6, en el eje de
producto, solo buscar
en los productos AC01,
AC02, AC03 y AC06
Figura 4
Figura 5
Minera de Datos-ANASIN, cuenta con un catlogo de
patrones de comportamiento bien identificados a travs de
n momentos o puntos del tiempo (los puntos pueden ser
______________________________________________________________________________________________________
5
Laboratorio de Sistemas de Informacin
de 10
Crecimientos
Crecimientos con valles
Crecimientos con crestas
Decrecimientos
Decrecimientos con valles
Decrecimientos con crestas
Crecimientos escalonados
Decrecimientos escalonados
Zig Zag
Constantes
(mesd)<(mese) y
(mese)=(mesf)
Estos patrones en la herramienta (figuras 6 y 7) se
presentan en grficas que ayudan a visualizar los patrones
de comportamiento a buscar.
Figura 6.
Figura 7.
Con los dos componentes de las preguntas descritos
anteriormente, se pueden realizar las siguientes bsquedas:
Con que clientes la venta de gasolina tiene un
crecimiento continuo en 4 meses?
En que clientes se ha mantenido una venta o un consumo
en 3 meses ?
Cules son los clientes en los que se ha mantenido un
porcentaje de variacin mnima de 1 %, sin importar
cuantas unidades de tiempo se ha sostenido la variacin ?
______________________________________________________________________________________________________
6
Laboratorio de Sistemas de Informacin
de 10
Figura 8
______________________________________________________________________________________________________
7
Laboratorio de Sistemas de Informacin
de 10
Campo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Matrcula
separador
clave de plantel
separador
clave de carrera
separador
plan de estudios
separador
Ingreso
Separador
causa ingreso
Separador
causa egreso
separador
crditos acumulados
separador
porcentaje acrditados
separador
crditos obligatorios
Separador
Porcentaje
obligatorios
Separador
crditos optativos
24
25
Separador
Porcentaje optativos
26
27
28
29
34
35
Separador
Aprobados en
ordinario
Separador
Reprobados en
ordinario
Separador
Aprobados en
extraordinario
Separador
reprobados en
extraordinario
separador
promedio
36
37
separador
inicio de carrera
30
31
32
33
Tipo
char(8)
char(1)
char(3)
char(1)
char(2)
char(1)
char(2)
char(1)
entero(3)
char(1)
entero(3)
char(1)
entero(3,)
char(1)
entero(4)
char(1)
entero(4)
char(1)
entero(4)
char(1)
entero(4)
char(1)
decimal(3,
0)
char(1)
decimal(4,
0)
char(1)
decimal(2,
0)
char(1)
decimal(2,
0)
char(1)
decimal(2,
0)
char(1)
decimal(2,
0)
char(1)
decimal(4,
0)
char(1)
decimal(3,
Inici
o
0
8
9
12
13
15
16
18
19
21
22
24
25
27
28
31
32
36
37
40
41
7
8
11
12
14
15
17
18
20
21
23
24
26
27
30
31
35
36
39
40
44
45
46
45
48
49
50
49
53
54
55
54
56
57
58
57
59
60
61
60
62
63
64
63
65
66
67
66
70
71
73
71
74
______________________________________________________________________________________________________
8
Laboratorio de Sistemas de Informacin
Fin
de 10
38
39
Separador
Fin de carrera
40
41
42
43
44
45
46
47
Separador
Sexo
Separador
Auxiliar
Separador
Fecha de nacimiento
Separador
Nacionalidad
0)
char(1)
decimal(3,
0)
char(1)
char(1)
char(1)
char(1)
char(1)
char(6)
char(1)
char(1)
75
76
75
78
79
80
81
82
83
84
90
91
79
80
81
82
83
89
90
91
Plantel
Carrera
Sexo
Causas de ingreso
Causas de egreso
Generacin
4. Trabajos Futuros.
Esta herramienta se utiliza como apoyo en varios
proyectos que se estan planeado en conjuncin con otros
Laboratorios del C.I.C, entre los cuales destacan:
______________________________________________________________________________________________________
9
Laboratorio de Sistemas de Informacin
de 10
5. Conclusiones
Algo que complica el llevar a cabo el desarrollo de
herramientas con tecnologa nueva, es que implica varios
tipos de conocimiento, entre los cuales tenemos:
Algoritmos matemticos
Organizacin de las bases de datos
Algoritmos de recuperacin
Diseo de interfaces de usuario
Sistemas operativos
Una de las principales aportaciones de nuestro desarrollo,
es el modelo de trabajo que permite aprovechar los
recursos de cmputo y permite an ms buscar este
aprovechamiento, adems como ya se menciono en los
trabajos futuros, permite buscar aplicar otras tecnologas
cmo son la de agentes de software.
Referencias
[1] Bigus Josep P. Data Mining With Neural Networks,
McGraw-ill 1996.
[2] Davidsson P., Autonomous Agents and the Concept of
Concepts Departament of Computer Science, Lund University,
Sweden 1996.
[3] Guzmn Arenas A, Estado del Arte y de la Prctica en
Minera de Datos, Anlisis y Critica, Conferencia Magistral,
Cuba, Marzo de 1996
[4] Guzmn Arenas A, Uso y Diseo de Mineros de Datos,
Soluciones Avanzadas, Junio de 1996
[5] Ming-Syan Chen, Jiawei Han, and Philip S. Yu, Fellow,
Data Mining: a view from database perspective, IEEE, Dic.
1996
[6] http: // www. kdnuggets. com / siftware. htm
[7] Harinayan v., Rajamaran a., Ullman j, Implementing Data
Cubes Efficiently, Stanford University
[8] P. Papazoglou Mike, K. Sellis Timos, International Journal
of Intelligent & Cooperative Information Systems , IJICIS,
Volume 1, Number 1, Queensland University of Technology
Brisbane, Australia, University of maryland, College Park, USA,
March 1992.
(2). La versin 1.0 fu desarrolloda por las empresas SoftwarePro International e IDASA, con apoyo del CONACYT para la
Gerencia de Informtica y Telecomunicaciones de la C.F.E.
dirigida por el Ing. Enzo Molino e Ing. Ramn Sobern Kuri en
1994
______________________________________________________________________________________________________
10
Laboratorio de Sistemas de Informacin
de 10