You are on page 1of 8

MINERIA DE DATOS

Antonio Macas Cervantes , Vctor Galindo Lpez Profesores investigador de la Facultad de Ingeniera BUAP. amacias46@yahoo.con.mx , vgalop@hotmail.com Gloria Yez Gayosso Estudiante de Ingeniera Mecnica y Elctrica de la Facultad de Ingeniera BUAP. RESUMEN. La minera de datos es una nueva tecnologa de manejo y anlisis de informacin que aprovecha la capacidad existente hoy da de procesamiento, almacenamiento y transmisin de datos a gran velocidad y bajo costo. Permite encontrar el conocimiento contenido en las inmensas montaas de informacin para luego tomar decisiones mejor fundamentadas para el futuro de una organizacin. El futuro de una organizacin radica en la conservacin del cliente, en ganar nuevos consumidores para nuestro producto o servicio, por lo que es importante tener pleno conocimiento de sus hbitos, gustos, preferencias, deseos y costumbres, todo lo que necesitamos saber del cliente est escondido en las grandes bases de datos que a diario se generan por las operacin del consumidor. A la montaa de datos se accesa con las tcnicas de la minera de datos. PALABRAS CLAVE: Datos, Bsqueda, Conocimiento, Tecnologa, Consumidor

ABSTRACT The data mining is a new technology of handling and analysis of information that nowadays takes advantage of the existing capacity storage, data processing and data transmission at great speed and low cost. It allows to find the knowledge contained' in the huge mountain of information to make better substained decisions for the future of an organization. This future relies on the conservation of the client, in gaining new consumers for our product or service that is why it is important to have total knowledge his or her its habits, tastes, preferences, desires, customs, etc., Everything what we need to know about the client is hidden in the great data base that daily is generated by the operation of the consumer. The access into the data mountain is through the data mining. KEY WORDS: data, search, knowledge, technology, consumer.

INTRODUCCION. El desarrollo tecnolgico al que hemos llegado, el aumento desbordante del nmero de consumidores, la capacidad de compra del consumidor, la enorme demanda de productos, la diversidad de productos en el mercado, la gran cantidad de servicios que se ofrecen en todos los giros comerciales, la gran variedad de perfiles del consumidor moderno, la cada vez mayor exigencia del cliente que demanda nuevos productos de mayor calidad, ms funcionales, con mayor capacidad de resolucin, con mayor capacidad de respuesta y a mejor precio, por todo esto y ms en la actualidad se estn creando grandes montaas de datos, bases de datos de enorme tamao, millones de datos que se han estado almacenando o que siguen almacenndose, cada da los cerros de informacin en forma de datos numricos, han planteado a los investigadores y analistas de datos nuevos retos para el manejo de los mismos y de su anlisis para luego extraer de ellos conocimiento, sobre todo de la fuente que los gener, el consumidor Los mineros entran a las entraas de la tierra, en las montaas se abren camino entre las rocas, tierra, arcilla, lodo, en busca de la esencia, el metal precioso hasta que encuentran la veta de oro y plata de entre las toneladas de escombro, piedra y lodo, y extraen el material realmente valioso. De la misma manera, el analista entra a las montaas de datos en bsqueda de la esencia de la informacin sobre las variables del problema. A diario se generan grandes cantidades de datos dando lugar a inmensas bases de datos, que en su interior contienen informacin muy valiosa, esencial para el descubrimiento del conocimiento que permita tomar decisiones sobre el presente y futuro de las organizaciones. Con la enormidad de las montaas de datos que actualmente se generan, ya no solo es viable el uso de las tcnicas estadsticas tradicionales para su anlisis y bsqueda de fundamentos como: probar hiptesis, el muestreo, la teora de lmite central, la teora de la estimacin, la regresin, el anlisis de varianza, el diseo de experimentos.

JUSTIFICACION. Para el abordaje de problemas de cierta complejidad, cuya tardanza en encontrar la solucin da lugar a perdidas de oportunidades para mantener a la organizacin en el mercado, hacerla crecer, mantener el nmero de clientes y ganar parte del gran nmero de nuevos consumidores que a diario se integran al mercado. Para esto, se requiere aplicar nuevas tcnicas de anlisis de datos, computadoras ms potentes y eficientes y de expertos estadsticos capaces de interpretar los resultados obtenidos al aplicar las tecnologas de minera de datos a grandes poblaciones de informacin, todo con el fin de mantener el control de un sistema, optimizar la operacin, planificar, analizar y sobre todo poder

predecir su comportamiento futuro de manera que se puedan tomar decisiones mejor fundamentadas y respaldadas por el conocimiento, sobre el comportamiento de las variables extrado de una montaa de datos. Desde luego que el punto de partida es el problema que una vez detectado, ubicado y entendido lo mejor posible, se desglosa en sus elementos estructurales, sus variables generadoras de los datos, estos deben someterse a una revisin con el fin de detectar inconsistencias, valores incongruentes, valores faltantes, incorrectos, contradictorios con otros, error en la captura, error en las fuentes de informacin, etc., se trata de eliminar todas las inconsistencias para tener lista una base de datos depurada antes de entrar con la minera de datos, esto es para evitar sesgos o afectaciones en la precisin y confiabilidad de los resultados; es decir tener una base de datos confiable y suficientemente tamizada y lista para efectuar un pre-procesamiento y una transformacin de datos, esto es porque los algoritmos de minera de datos piden siempre un orden o un formato o cierta estructura en la entrada, cuando la naturaleza de los datos no coincide con la entrada del algoritmo, entonces se tienen que transformar cuidando que la perdida de informacin en esta transformacin sea la mnima y entonces se inicia el proceso de minera de datos que arrojara los resultados sobre las estructuras relacionales de los datos para luego realizar una evaluacin de lo encontrado, es decir habr que separar los patrones ms significativos para el usuario y ser necesario definir los parmetros que nos permitan medir la calidad de los patrones encontrados para que finalmente surja EL CONOCIMIENTO. En las bases de datos se encuentran las vetas del conocimiento relacionado con el problema, su naturaleza, su dimensin, sus alcanzas, sus repercusiones, sus efectos y su impacto sobre el sistema de origen o al que pertenece, las causas, el comportamiento de sus variables, la dimensin de las mismas, sus relaciones, el tipo de relacin que guardan unas con otras, la dimensin del impacto de las variables independientes sobre las dependientes, brindando tambin los fundamentos valorativos o para validar los modelos relacionales de las variables.

Figura ilustrativa del proceso en el que participa la minera de datos.


VARIABLES DEL PROBLEMA PROBLEMA

OBJETIVOS

GENERACION DE UNA BASE DE DATOS PRIMARIA

REVISION DE DATOS

BASE DE DATOS SELECCIONADA MUESTREO

TAMIZADO DE DATOS

TRANSFORMACION DE DATOS

Se encuentran: MINERIA DE DATOS PATRONES CLASIFICACIONES ASOCIACIONES RELACIONES SECUENCIAS AGRUPACIONES PARAMETROS

EVALUACION DE LO ENCONTRADO

MODELO

CONOCIMIENTO

UNA NUEVA TECNOLOGIA. La minera de datos aparece como una de las nuevas tecnologas de manejo, ordenamiento y anlisis de los datos, que nos permite encontrar el conocimiento soterrado en las entraas de las montaas de nmeros, de que se dispone en la actualidad generado por; el aumento en la capacidad en las maquinas procesadoras de datos, la existencia de dispositivos con gran capacidad de almacenamiento de datos a bajo costo, la existencia de sistemas de transmisin de informacin a grandes velocidades y con mayor confiabilidad. La minera de datos trabaja con los datos como materia prima a la que hay que transformar de su estado bruto a formas que expresen comportamientos, patrones, tendencias, tipos, clases, dimensiones, parmetro, secuencias, asociaciones, que puedan generar algn modelo que nos permita comprender mejor un sistema, o sea extraer la esencia contenida en las bases de datos, extraer el metal precioso, el oro de la montaas de datos, encontrar la veta de conocimiento escondido en su interior y entonces saber; de que, con que, cuando, como, de que manera opera, como falla, como trabaja, como se desarrolla, como crece, como aumenta o disminuye la eficiencia y productividad de un sistema y entonces poder tomar decisiones mejor fundamentadas y de mayor consistencia validacional. Las cantidades de informacin en la actualidad son tan enormes que es prcticamente imposible su asimilacin por una sola persona, por lo que se hace necesario contar con nuevos mtodos de procesamiento de datos, nuevas tecnologas que nos permitan y nos faciliten el proceso de bsqueda del conocimiento escondido al interior de las enormes montaas de datos existentes y que nos proporcionen la esencia contenida en la base de datos. Una definicin entre varias que existen es que la minera de datos se entiende como Un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fallad y otros 1996). La minera de datos, surge en los aos 60`s con trminos tales como: arqueologa de datos, pesca de datos en donde se propona el encuentro de correlaciones sin necesidad de plantear una hiptesis previa de trabajo en una investigacin. Al inicio de la dcada de los aos 80`s los investigadores: Gio Weiderhold, Gregor y Pratetsky, Rakesh Agawal y Robert Blum, realizaron trabajos de minera de datos. Diez aos despus no existan ms de dos organismos que aplicaban esta metodologa, en la actualidad existen ms de 500 empresas en el mundo que trabajan en el desarrollo de nuevas propuestas como soluciones disponibles y son ya ms de 150 pases los que aportan investigadores al campo de la minera de datos. La minera de datos se arma en una estructura de varios niveles, pero no es un software de grandes dimensiones, se utilizan tcnicas estadsticas de ordenamiento, graficacin, correlacin, clculo de parmetros e inteligencia artificial y en cada nivel se usan diferentes

tipos de software que hacen a la minera de datos una herramienta de alto poder para el gran nmero de utilera que contienen y las capacidades para facilitar la formulacin y evaluacin de proyectos. Existen referencias de cmo en la actualidad se estn aplicando estas tcnicas para enfrentar problemas de gran complejidad; en empresas relacionadas con la banca, dependencias gubernamentales, universidades, hospitales, grandes cadenas comerciales y otras organizaciones de servicios preocupados por mantener y hacer crecer su posicionamiento en el mercado ante sus competidores.

APLICACIONES Y USOS Existe un buen nmero de referencias como aplicaciones y usos que se estn dando en grandes corporaciones y organizaciones tanto pblicas como privadas. El FBI del gobierno norteamericano ha realizado investigaciones sobre grandes bases de datos con la finalidad de detectar terroristas potenciales; esto es, se ha metido a grandes bases de datos del sector comercial para estudiar los hbitos y preferencias de compra de los consumidores, con la intencin de detectar posibles terroristas potenciales y descubrirlos antes de que ejecuten un acto. En consorcios bancarios para detectar fraudes con tarjetas de crdito, tarjetas de debito y tarjetas de otro tipo como las de combustible, tarjetas telefnicas. El sistema utilizado para este fin ha logrado ahorrar ms de 600 millones de Dlares al ao y ha protegido ms de 500 mil millones de operaciones con tarjeta en todo el mundo. En una compaa operadora de telefona celular, buscando las causas de la desercin de sus clientes, se analiza el perfil del cliente que se da de baja y se estudia el posible comportamiento de clientes nuevos. En este caso se analizan los datos personales del cliente; estado civil, sexo, edad, religin, grado de estudio, estrato ocupacional, nacionalidad, etc. Y se analizan tambin las variables; morosidad, horario de uso, frecuencia de uso, proporcin de llamadas locales, nacionales, internacionales y gratuitas. Se encontr que los clientes que desertaron pertenecan al grupo de los menos promovidos y tenan menos incidencias que la media general entonces, en base a las tendencias encontradas se dise un nuevo sistema de promociones y de atencin al cliente. En una tienda departamental se pueden conocer ciertos hbitos de los clientes, con respecto al tipo y clase de productos que compran con mayor frecuencia y si estas compras guardan alguna asociacin entre diversos productos, por ejemplo, botanas con cerveza. Las cadenas de televisin pueden estimar con bastante confiabilidad el rating de un programa determinado, el horario ms adecuado al tipo y contenido del programa.

CONCLUSIONES. El cliente es el rey, tiene el poder de vida o muerte sobre la empresa, a l se debe el xito o el fracaso. Si el cliente compra se sigue con vida, si deja de comprar acaba con la empresa. Solo manteniendo al cliente de nuestro lado fiel a nuestro producto, comprador y consumidor permanente, entonces se mantendra en el mercado dando la batalla en la lucha diaria por mantener su confianza y su preferencia. Esto no es fcil, los mercados estn en una dinmica de cambio continuo. El consumidor es cada da ms exigente, esta mejor informado, busca cada vez mejores productos, ms personalizados y que le resuelvan sus problemas de la manera ms efectiva y al menor costo posible. La competencia se hace cada vez ms intensa, los competidores son cada vez ms agresivos con sus productos que lanzan al mercado, actan con mayor celeridad, sorprenden al consumidor con nuevos productos, con ms funcionalidad y a un buen precio. La lucha por el cliente es feroz, no puede darse tiempo al adversario a que reaccione, se tiene que sorprender al consumidor tanto como al competidor. Para eso se requiere mantener una constante comunicacin con el cliente, pero el cliente no es partidario de entrevistas o llenado de encuestas, no tiene tiempo, no hay que molestarlo, pero si deja toda la informacin cuando realiza sus operaciones de compra o hace sus pedidos, dando lugar a la generacin de grandes bases de datos. Es ah, en la base de datos donde el cliente nos deja todo el conocimiento que de l necesitamos para entender sus hbitos, gustos, costumbres, preferencias, etc., y es la minera de datos la tecnologa que nos permite extraer el conocimiento vital para saber que quiere, como lo quiere, que prefiere, que necesita el consumidor, y entonces ofrecerle con precisin lo que con seguridad va a comprar, se requiere entonces capacidad rpida de respuesta y flexibilidad para ajustarnos a la velocidad de cambio de los mercados actuales de manera que estemos siempre en ventaja competitiva. REFERENCIAS 1) Silberchatz, Abraham, Korth, Henry F. y Sudarshan, S. Fundamentos de bases de datos. Mc Graw Hill , 4 edicin, 2002. 2) Mc Graw Hill Alex Berson, Stephen j. Smith. Data Warehouse, Data Mining and OLAP. USA, 1997. 3) Brodley, C. E., Lane, T. , Stough, T. M. (1999). Knowledge discovery and data mining. American Scientist. Vol. 86, pag. 55 65.

4) Fayyad, U. M. , Piatetsky-Shampiro, G., Smyth, P., Uthurusamy, R. (Ed.) (1996). Advances in knowledge and data mining. Cambridge (Massachusets): AAAI/MIT Press. 5) Molina, L. C., (1998)Data mining no processo de extracao de conhecimiento de bases de dados. Tesis de mster. Sao Carlos (Brazil): Instituto de Ciencias Matematicas e Computacao. Universidad de Sao Paulo. 6) Molina Felix Luis Carlos: Data mining: Torturando a los datos hasta que confiesen. Articulo (UOC). lmolinaf@uoc.edu 7) Olmos Pineda, J. A. Gonzalez Bernal. Minera de datos, Universidad Politecnioca de Puebla. ivanop_rkl@yahoo.com.mx jagonzalez@inaoep.mx

You might also like