You are on page 1of 22

CONSULTORA DE CIENCIAS DE LA INFORMACIN BUENOS AIRES ARGENTINA

Serie

DOCUMENTOS DE TRABAJO

rea: Tecnologa

Gestin del conocimiento y Minera de datos Marcelo de la Puente

Agosto 2010 N 019

ISSN 1852 - 6411 Copyright Consultora de Ciencias de la Informacin Editor: Patricia Allendez Sullivan. Asistente Editorial: Mariana Sabugueiro

Puente, Marcelo de la Gestin del conocimiento y Minera de datos. Buenos Aires: Consultora de Ciencias de la Informacin, 2010.
ISSN 1852 - 6411

1. Gestin del Conocimiento 2. Minera de Datos. 3. Conocimiento. 4. Informacin. I. Ttulo

Resumen:

La Gestin del Conocimiento se refiere al conjunto de procesos desarrollados en una organizacin para crear, organizar, almacenar y transferir el conocimiento. La Minera de Datos es la disciplina que tiene por objetivo la extraccin de conocimiento implcito en grandes bases de datos. La Minera de Datos tiene un papel fundamental en el proceso de convertir en explicito al conocimiento implcito y en las distintas etapas del proceso de Gestin del Conocimiento en las organizaciones.

Introduccin

La Gestin del Conocimiento es un concepto actualmente altamente aplicado en las organizaciones1 que procura transferir el conocimiento y la experiencia de sus recursos humanos, de forma tal que quede disponible y pueda ser utilizado por otros miembros de dicha organizacin.

Aunque las aportaciones tericas que han configurado este campo pueden rastrearse hasta unos cincuenta aos atrs, su implementacin en el mbito empresarial ha tenido lugar en el perodo que abarca desde el ao 1985 hasta el momento actual. Usualmente el proceso implica una variedad de distintas tcnicas para capturar, organizar y almacenar el conocimiento del personal de la organizacin para transformarlo en un activo intelectual que brinde beneficios y se pueda compartir. En la actualidad las tecnologas de la informacin permiten contar con herramientas que apoyan este proceso, es decir, la recoleccin, la transferencia y la administracin sistemtica de la informacin, junto con los sistemas diseados para dar un mejor uso a dicho conocimiento.

Todo esto implica que la informacin suministrada por este conjunto de herramientas les sirva a los individuos clave de la organizacin para apoyar la

Entendemos por organizacin a las Bibliotecas, Archivos y Centros de Documentacin, as como a toda

otra forma de denominar los centros de almacenamiento y recuperacin de informacin.

toma de decisiones y reducir el riesgo vinculado a las mismas. En el mbito de las nuevas tecnologas de la informacin y de actividades de consultora relacionadas al tema de la inteligencia competitiva de las organizaciones, la Gestin del conocimiento cobra una importancia vital. La administracin del conocimiento se ha convertido en un asunto primordial en las empresas ya que se han percatado de que una gran parte de su valor como entidades que brindan un servicio de valor agregado al usuario, depende de la capacidad de las mismas para crear y administrar el conocimiento. Existen estudios que han determinado que una parte importante del valor de una organizacin, se relaciona con sus activos intangibles, de los cuales el conocimiento es un activo fundamental

La gestin del conocimiento, entonces, se refiere al conjunto de procesos de negocios desarrollados en una organizacin para crear, almacenar, transferir y aplicar el conocimiento; incluye una variedad de tcnicas en sus distintas fases entre las que se encuentra la Minera de Datos o Data Mining. En este trabajo exploraremos la relacin entre la Gestin del Conocimiento y la Minera de Datos y como esta ltima contribuye al proceso total de la dicha gestin.

La Minera de Datos y las etapas de la Gestin del Conocimiento

La Minera de datos tambin denominada extraccin de datos es la prctica por medios automticos o semiautomticos de la bsqueda y la exploracin en grandes almacenes de datos de relaciones no visualizadas previamente, dando por resultado el descubrimiento de patrones significativos entre los mismos y reglas. Para lograr este propsito la Minera de Datos emplea tcnicas estadsticas, de automatizacin del conocimiento y de reconocimiento de patrones (observar datos de una sola fuente, recursos de informacin, etc.)

Para ver la contribucin de la Minera de Datos al mbito de la Gestin del Conocimiento debe analizarse previamente, el ciclo completo de la Gestin del Conocimiento en las organizaciones.

Entre las diferentes fases de la Gestin del Conocimiento, encontramos:

Descubrimiento, captura y creacin del conocimiento: en esta fase el conocimiento tcito o implcito de la organizacin se captura a travs de una variedad de tcnicas entre ellas la Minera de Datos, tambin por medio de la colaboracin, directorios expertos o sistemas inteligentes que usan patrones o estrategias de bsquedas particulares, etc.

Clasificacin y representacin: En esta fase se utilizan herramientas para organizar la informacin, como los metadatos, taxonomas, ontologas, mapas temticos para la visualizacin grfica de la informacin, clustering, una tcnica de agrupamiento de la informacin en clusters o categoras por medio de un algoritmo que clasifica los trminos en funcin de la distancia, de su cercana tomando vectores de entrada con caractersticas comunes, comnmente usada por la Minera de datos ; indizacin automtica, etc.

Recuperacin de la informacin: en esta fase intervienen motores de bsqueda, agentes inteligentes, la competencia del browsing o navegacin general versus bsqueda especfica, arquitectura del conocimiento y de la

informacin y Minera de datos

Diseminacin de la informacin: comunicacin, publicacin, incluyendo Internet versus Intranet, etc.

Puede observarse claramente, que la Minera de datos interviene tanto en la parte de entrada o input, como en el eslabn intermedio del ciclo, la organizacin de la informacin y finalmente en la salida o en el output del mismo, la recuperacin de la informacin.

A continuacin se analizar ms detalladamente, la funcin de la Minera de datos en cada una de las etapas de la Gestin del Conocimiento.

Descubrimiento y captura del conocimiento

La organizacin adquiere conocimiento de una gran variedad de formas, segn el tipo de conocimiento que se est buscando. Los primeros sistemas de gestin del conocimiento buscaban construir almacenes de conocimientos, informes, presentaciones y mejores prcticas. Estos primeros esfuerzos se han ampliado para incluir documentos no estructurados, como el correo electrnico. En otros casos, las organizaciones adquieren ms conocimientos al desarrollar redes de expertos en lnea con el propsito de que en la empresa los empleados puedan encontrar al experto que posee el saber especfico que buscan.

El primer paso que hay que tomar para descubrir el conocimiento, es conocer cules pueden ser las fuentes potenciales del mismo, que pueden diferir de una organizacin a otra, en general, se puede enunciar la siguiente lista: E-Mail, Internet, conocimiento pblico, clientes, competidores, suscripciones, cadena de suministros, adquisicin de contenidos, noticias, conocimiento interno, bases de datos, agencias de informacin, etc.

En la Gestin del conocimiento existe una jerarqua de la informacin, que comienza con los datos, que consisten en un conjunto discreto de elementos objetivos acerca de distintos eventos, que pueden derivar de hechos, informacin, estadsticas o similares, tanto histricos como derivados del clculo o de la experimentacin. En el contexto de las empresas los datos pueden ser descriptos como registros estructurados de transacciones u operaciones comerciales propias de la organizacin. Los datos en s mismos, carecen de sentido, ya que solo describen lo que sucede de manera parcial y no proporcionan juicio o interpretacin, ni favorecen la toma de decisiones.

En el siguiente nivel, la informacin, consiste en datos dotados de relevancia y de propsito. Consiste en conocimiento comunicado o recibido concerniente a 5

hechos o circunstancias particulares, es cualquier conocimiento adquirido mediante comunicacin, aprendizaje o instruccin. La informacin se construyen a travs de datos a los que en cierto sentido, se le ha aplicado un control de calidad previo, se los ha contextual izado. Para la Teora de la Comunicacin de Shannon que describe la informacin como mensaje, normalmente en forma de un documento en un soporte dado, impreso, audiovisual, etc., es el receptor de la comunicacin el que le da la categora de informacin al mensaje. Las mediciones cuantitativas de la gestin de la informacin tienden a incluir medidas como conectividad y tipo de transacciones, por ejemplo, cuantos tipos de mensaje se intercambian por un canal particular, por ejemplo, el E-mail, pero todas estas mediciones carecen de sentido a menos que aporten nuevas perspectivas o aporten a la solucin de un problema.

Los datos se convierten en informacin cuando se les aade un sentido mediante la contextualizacin de los mismos, es decir, conocer para qu propsito han sido recolectados, su categorizacin, es decir, se conocen las unidades de anlisis o los componentes clave de los datos, para puedan ser analizados matemtica o estadsticamente. Se debe efectuar un proceso de correccin de los mismos para eliminar los datos errneos y finalmente, se debe efectuar una condensacin de los datos, para que la informacin contenida en los mismos sea resumida, es decir, que sean concisos.

En el tercer nivel, el conocimiento, consiste en una aprensin de hechos, verdades o principios como resultado del estudio, investigacin o de la erudicin en general. Implica familiaridad con un tema particular o rama del saber. El conocimiento deriva de la informacin, como sta deriva de los datos, para transformarse en conocimiento, la informacin debe pasar por un proceso comparativo, en el que se analiza cmo se ajusta la informacin a una situacin dada, comparndola con otras situaciones ya conocidas, se deben tomar en cuenta, adems, las consecuencias o implicaciones que tiene la informacin para la toma de decisiones en la organizacin. Se debe considerar cmo se relaciona ese fragmento de conocimiento con otros y finalmente se tiene que tomar conciencia de la opinin de otras personas de la organizacin sobre este 6

fragmento de conocimiento particular, ya que el conocimiento se obtiene de los individuos y se transmite por medios estructurados de comunicacin, documentos, libros, redes digitales, o en contactos persona a persona, mediante conversaciones y aprendizaje. Las tecnologas de la informacin

deben actuar como facilitadores para la comunicacin del conocimiento a lo largo de una organizacin, ya que sea esta est centralizada en un solo lugar geogrfico o distribuida en muchas localidades.

En un ltimo nivel de la pirmide se encuentra la sabidura o inteligencia, saber definido o entendido como la capacidad de comprender los principios, como contraposicin al conocimiento que solo comprende patrones y de la informacin que analiza relaciones y cuya acumulacin puede dar lugar al capital intelectual de una organizacin.

En la gestin del conocimiento, generalmente se consideran dos categoras bsicas de conocimiento, el conocimiento tcito y el conocimiento explcito

El conocimiento tcito es el conocimiento personal o implcito, almacenado en los cerebros del personal de la organizacin, difcil de formalizar, registrar y articular. Se desarrolla por medio de un proceso de prueba y error y va conformando el conocimiento de un individuo sobre diferentes temas.

El conocimiento explcito es el conocimiento almacenado en distintos soportes o medios fsicos. La interaccin entre el conocimiento tcito y el explcito es lo que da lugar a procesos de generacin de nuevo conocimiento

La transmisin del conocimiento tcito no resulta fcil y para que pueda ser rentabilizado es necesario sustraerlo del contexto de origen y formalizarlo, con lo que se genera un "ciclo de conversin" que se describe en tres procesos: 1) De tcito a tcito: El paso de conocimiento de tcito a tcito se produce a travs de procesos de socializacin, es decir, a travs de la adquisicin de conocimientos e informacin mediante la interaccin directa con el mundo exterior: con otras personas, con otras culturas, etc. 2) De tcito a explcito: Se produce a travs de la externalizacin, que podramos definir como el proceso de expresar algo, el dilogo. Externalizar es convertir imgenes y/o palabras a travs del dilogo. 3) De explcito a explcito: Este paso se denomina combinacin. Como su propio nombre indica, se combinan diferentes formas de conocimiento explcito mediante documentos o bases de datos. A la hora de utilizar tcnicas de minera de datos en un determinado proyecto, el proceso que se est llevando a cabo es una "extraccin no trivial de informacin implcita, previamente desconocida a partir de los datos", a nivel del conocimiento explicito, con el fin de descubrir patrones, relaciones, reglas, asociaciones o incluso excepciones tiles, que se debe interiorizar, para posteriormente externalizarlo en la toma de decisiones. La Minera de Datos utiliza una gran variedad de tcnicas, pero se puede formular un esquema general que siguen todas: 1. Seleccin y procesamiento de los datos: generalmente los datos disponibles en una base de datos no se encuentran en la forma ms adecuada para el tratamiento de los mismos por medio de algoritmos que utiliza la Minera de Datos, por lo que es necesario realizar una

operacin de filtrado de valores incorrectos o efectuar un muestreo, es decir extraer una muestra de la poblacin total que se considere representativa de la misma, para poder trabajar con un nmero ms reducido de datos. El filtrado que se realiza sobre los datos puede efectuarse de diferentes maneras, puede ser aleatorio, puede aplicarse la citada tcnica de clustering, para formar clusters o grupos de datos con caractersticas homogneas o similares en base a documentos clasificados anteriormente y a la inferencia de reglas de agrupamiento. 2. Seleccin de caractersticas a estudiar: una vez que ya est determinada la poblacin de estudio, si se considera que el conjunto de datos con el que se trabaja es muy amplio, se realiza una seleccin de las caractersticas a observar, las variables del problema, con el propsito de simplificar el procesamiento de los datos y de agilizarlo. Se puede utilizar una gran variedad de tcnicas estadsticas o mtodos grficos que permitan visualizar las relaciones existentes entre los datos. La visualizacin de datos es una tcnica adecuada para localizar patrones en un conjunto de datos. Puede ser utilizada al comienzo del proceso de Minera de Datos para tener obtener una referencia de la calidad del conjunto de los datos 3. Uso de algoritmo de extraccin de conocimiento: se utiliza la tcnica de Minera de datos elegida previamente, con el objetivo de elaborar un modelo de conocimiento con los patrones de comportamiento y de asociacin entre las distintas variables de estudio, algoritmos que encuentran reglas simples de clasificacin de un conjunto de instancias o ejemplos, de valores perdidos y atributos numricos, modelos estadsticos, rboles de decisin, etc. Los rboles de decisin, por

ejemplo, son estructuras con forma arborescente que representan conjuntos de decisiones. Estas decisiones, a su vez, generan reglas para la clasificacin del conjunto de datos, lo cual puede llevar a predicciones basadas en esta clasificacin efectuada. En el rbol se comparan los atributos en cada nodo o punto del mismo, para decidir si un tem pertenece a una clase o a otra. A cada nodo del rbol se encuentra asociada la cantidad de informacin necesaria para decidir si

una instancia debe ser clasificada con un s o con no, es decir, si satisface o no la condicin especificada en cada nodo. 4. El anlisis predictivo utiliza tcnicas de Minera de Datos, datos histricos y suposiciones sobre condiciones futuras, para predecir el comportamiento de eventos determinados, por ejemplo, el

comportamiento de clientes servicio o producto.

en base al lanzamiento de un nuevo

5. Interpretacin y evaluacin de los resultados: se verifica que los resultados obtenidos sean consistentes y se compara con los obtenidos mediante los mtodos estadsticos y grficos. Se determina finalmente si aportan alguna novedad en las relaciones ocultas entre los datos que permitan guiar toma de decisiones. Si existe una discrepancia se deben tomar en cuenta los que se consideren ms confiables o reiniciar todo el proceso.

Una de las principales funciones que la Minera de Datos le brinda a la Gestin del Conocimiento es precisamente, la capacidad de hacer explcito este conocimiento que permanece como tcito o implcito en los recursos humanos de las organizaciones al codificarlo en bases de datos, lo cual resulta de vital importancia cuando el conocimiento codificado o explcito es insuficiente para enfrentar una situacin determinada.

Descubrimiento

La fase de descubrimiento y captura del conocimiento tienen lmites difciles de precisar y comparten elementos comunes. Lo primero que debe hacerse para descubrir nuevo conocimiento es saber cules son las fuentes de informacin potenciales con las que cuenta la organizacin, ests difieren en distintos casos, pero en general pueden dividirse en:

Competidores

10

Clientes Internet Proveedores Socios Bases de datos Agencias de informacin Publicaciones peridicas

A estas fuentes externas se les debe sumar el conocimiento interno de la organizacin. Toda esta variedad de fuentes brindan una gran variedad y diversidad en la cantidad y tipos de datos que pueden recolectarse, lo cual convierte al exceso de informacin en un problema clave para la adquisicin de conocimiento. La filtracin de datos relevantes resulta, entonces, de vital importancia. Los primeros sistemas de gestin del conocimiento buscaban construir archivos o repositorios de documentos, informes, presentaciones y mejores prcticas. Con el tiempo este primer repertorio se ampli hasta incluir los documentos no estructurados, generalmente en formato digital, como el Email. En otros casos, las organizaciones adquieren conocimiento al desarrollar redes de expertos en lnea, con el propsito de que los recursos humanos de la organizacin encuentren al experto en el tema de inters.

11

Las organizaciones requieren lograr la creacin de conocimiento descubriendo nuevos patrones en los datos almacenados en el sistema. En este punto cobra importancia el OLAP o Procesamiento analtico en lnea2, este tipo de procesamiento soporta el anlisis de datos mulidimensionales, el cual permite a los usuarios ver los datos de diferentes formas utilizando mltiples dimensiones. Cada atributo o aspecto de la informacin representa una dimensin diferente, tales como producto, precio, costo, etc. Por ejemplo, se puede conocer el uso de un servicio determinado de la organizacin. OLAP permite a los usuarios del sistema obtener respuestas en lnea a preguntas particulares en un perodo de tiempo sumamente rpido, an cuando los datos estn almacenados en bases de datos de gran tamao. Una organizacin puede utilizar una base de datos multidimensional especializada o una herramienta que genere una visualizacin de los datos multidimensionales en base de datos relacionales, es decir, bases de datos que representan los datos como tablas bidimensionales o relaciones, en donde las diferentes tablas se consideran archivos y cada una contiene datos sobre una entidad y sus atributos. Se efecta, entonces, una extraccin selectiva de los datos

multidimensionales para su anlisis.

La Minera de Datos va ms all del OLAP ya que proporciona conocimiento acerca de los datos de la organizacin que no se podran obtener con el primero, al encontrar patrones y relaciones ocultas en grandes bases de datos e infiriendo reglas acerca de ellas para predecir el comportamiento futuro. Los patrones y reglas hallados se usan para orientar la toma de decisiones y predecir el efecto de tales decisiones. Los tipos de informacin que se pueden obtener con esta tcnica son las asociaciones, secuencias, clasificaciones y pronsticos

Las asociaciones son ocurrencias enlazadas a un nico evento, en las secuencias, los eventos se asocian con el paso del tiempo, la clasificacin reconoce patrones que describen al grupo al cual pertenece un elemento dado

Para profundizar este tema se puede leer el Documento de Trabajo N 14 , perteneciente a esta misma

coleccin.

12

por medio del anlisis de los elementos existentes que se han clasificado. El agrupamiento o clustering funciona de forma similar a la clasificacin cuando an no se han definido grupos, se realiza como se cito anteriormente por medio de una clasificacin automtica y la generacin de pronsticos usa las predicciones de otra forma, emplea una serie de valores existentes para pronosticar que otros valores asociados se hallarn.

El Text Mining y el Web Mining son variaciones de la Minera de Datos. En el primer caso, tenemos las tcnicas de Minera de datos, pero aplicadas a descubrir patrones ocultos en textos, es el proceso de extraer informacin del anlisis de textos, que es til para determinados propsitos; en el segundo estas tcnicas estn aplicadas a la red. Estas tcnicas se emplean en analizar los datos que se hallan en documentos y pginas Web. Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, etc.) que los servidores automticamente almacenan en una bitcora de accesos (Log). Las herramientas de Web mining analizan y procesan estos logs para producir informacin significativa. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vdeo, metadatos o hipervnculos investigaciones recientes usan el trmino multimedia data mining (minera de datos multimedia) como una instancia del Web mining), para tratar ese tipo de datos asociados al crecimiento de Internet se han desarrollado tcnicas que permiten descubrir y analizar la informacin existente en Internet. El Web Mining ayuda a descubrir informacin, localizar documentos relacionados, mostrar distintos temas, as como a evaluar el nivel de satisfaccin de los recursos web, por parte de los internautas, etc..

Web mining:

Segn el objetivo que se persigue, se puede efectuar una

clasificacin en tres grandes grupos de dominios de extraccin de la informacin en funcin de la naturaleza de los datos:

1. Minera de contenidos web: Busca la regularidad y dinmica de los contenidos en la Web. Los documentos Web pueden ser datos sin estructurar, archivos HTML parcialmente estructurados, o

13

informacin procedente de bases de datos generadas en pginas con formato HTML. Estos documentos hipertexto incluyen texto y tambin a imgenes, audio, vdeo, metadatos e hiperenlaces. La metodologa utilizada en este apartado, va desde las tradicionales relaciones entre trminos hasta la tecnologa que se utiliza en la minera de textos. 2. Minera de estructura web o Web Mining de estructura: intenta descubrir la organizacin de los enlaces del conjunto de hiperenlaces dentro del documento para generar un informe estructural sobre la pgina y el sitio web. Obtenemos informacin acerca de si los usuarios encuentran la informacin, si la estructura de sitio es demasiado ancha o demasiado profunda, si los elementos estn colocados en los lugares adecuados dentro de la pgina, si la navegacin se entiende, cules son las secciones menos visitadas y su relacin con el lugar que ocupan en la pgina central. 3. Minera web de uso: es la aplicacin de las tcnicas de data mining para descubrir pautas de conducta a la hora de utilizar la web por parte de los usuarios. Esta extraccin se refiere a patrones de

navegacin que podemos descubrir en nuestros usuarios y nos pueden servir para mejorar la misma. Text Mining: dado que el ochenta por ciento de la informacin de una compaa est almacenada en forma de documentos, las tcnicas como la categorizacin de texto, el procesamiento de lenguaje natural, la extraccin y recuperacin de la informacin o el aprendizaje automtico, entre otras, apoyan al text mining o Minera de Textos. En ocasiones se confunde la Minera de Textos con la recuperacin de la informacin o Information Retrieval . Esta ltima consiste en la recuperacin automtica de documentos relevantes mediante indizacin de textos, clasificacin, categorizacin, etc. Generalmente se utilizan palabras clave para encontrar una pgina relevante. En cambio, la Minera de Textos se refiere a examinar una coleccin de documentos y al descubrimiento de nueva informacin no contenida en ningn documento individual de la coleccin. El texto es informacin ms amorfa y no estructurada, al igual que la informacin digital que se encuentra en Internet,

14

por lo que es ms difcil manejar el procesamiento automtico de la informacin. Una forma particular de Text Mining o Minera de Textos es la Extraccin de Metadatos. Los metadatos son datos sobre datos, se refieren generalmente a aspectos, como autor, ttulo, esquema de clasificacin, descriptores, etc. Los metadatos pueden considerarse como un registro bibliogrfico enriquecido y actualmente estructurado del documento, tal que su objetivo es expandir y acompaar con frases al objeto tomando la nocin de extraccin de entidades. Pueden incluirse una gran variedad de atributos de estos recursos de informacin, como e-mail, direcciones, resmenes, tablas de contenido, URL, ISBN, estructuras qumicas, ecuaciones matemticas, etc. El procesamiento documental se puede acelerar y mejorar significativamente con el uso adecuado de los metadatos, se pueden realizar bsquedas, enlaces y referencias cruzadas entre los documentos representados por los metadatos. Para identificar este tipo de objetos digitales se usan atributos que se completan con piezas individuales de informacin estructuradas, denominadas informacin de extraccin. Se realiza el anlisis sintctico automtico de

palabras del texto para determinar relaciones entre los distintos elementos por medio del procesamiento del lenguaje natural. El problema fundamental para el procesamiento automtico de informacin contenida en textos es su falta de estructura. Luego de que el sistema analiza las oraciones del texto desde los puntos de vista, morfolgico y sintctico, sigue el anlisis semntico en el que se determina el significado. En el anlisis

morfolgico se detectan las unidades mnimas que pueden formar una palabra, como el reconocimiento de prefijos y sufijos. Este anlisis guarda estrecha relacin con el lxico. El lxico es un conjunto de informacin de cada palabra que el sistema utiliza para el procesamiento. Las palabras del diccionario estn representadas por una entrada lxica y en el caso de que tenga ms de un significado o diferentes categoras gramaticales, tendr asignadas diferentes entradas.

15

El anlisis sintctico analiza cmo cada una de las palabras de la oracin que se combinan para formar construcciones correctas desde el punto de vista sintctico. El resultado consiste en generar las diferentes categoras sintcticas formadas por las distintas unidades lxicas de una oracin. El anlisis de contenido del texto adquiere el conocimiento contenido en el mismo, transformando el contenido literal y explcito en una representacin ms fluida que captura la estructura referencial. Dicha representacin debe tener en cuenta no slo la estructura superficial del texto, sino tambin operaciones referenciales tales como analogas y generalizaciones. Entre las diferentes tcnicas utilizadas para el anlisis textual estn: -Modelizacin de textos: se busca generar un entorno para el modelado del texto, incluyendo facilidades para la investigacin y simulacin de procesos cognitivos -Independencia del dominio temtico: las operaciones deben descansar en ontologas o formas de representacin del dominio temtico, que proporcionan una serie de conceptos pertenecientes a dicho dominio y a sus relaciones recprocas, en ella se indican conceptos sinnimos, hipnimos (trminos ms especficos de una clase genrica), hipernimos (trminos genricos que pueden usarse para referirse a conceptos ms especficos), mernimos (trminos cuyo significado constituye una parte del significado global de otro trmino) y antnimos (trminos con significados opuestos) -Representacin por medio del parsing, el cual representa significados usando las relaciones gramaticales a travs de la divisin de las oraciones en sus componentes gramaticales y estableciendo relaciones cruzadas entre dichos componentes.

En conclusin en la Minera de Textos se daran en general, las siguientes etapas:

16

1. Recuperacin pertinentes.

de

informacin,

es

decir,

seleccionar

los

textos

2. Extraccin de la informacin incluida en esos textos: hechos, acontecimientos, datos clave, relaciones entre ellos, etc. 3. Por ultimo se realizara lo que antes definamos como Minera de Datos para encontrar asociaciones entre esos datos claves previamente extrados de entre los textos.

Captura, clasificacin y almacenamiento

Una vez que se han descubierto los documentos, patrones y las reglas expertas deben almacenarse con la finalidad de los recursos humanos de la organizacin puedan recuperar y utilizar todo este conocimiento.

Generalmente el almacenamiento del conocimiento requiere la creacin de una gran base de datos en que la que la coleccin de documentos relevantes digitalizados sean indizados y etiquetados de acuerdo a reglas consistentes, en este nivel encontramos los distintos sistemas de gestin documental, las bases de datos de conocimientos y los sistemas expertos, que ayudan a las

organizaciones a preservar el conocimiento adquirido incorporndolo en los procesos y en la cultura de la organizacin.

Generalmente un almacn de datos o data warehousing es una base de datos que almacena datos actuales e histricos de potencial inters para los encargados de la toma de decisiones de la organizacin. El almacn de datos consolida y normaliza una gran variedad de datos provenientes de distintas fuentes, internas (datos operativos, de usuarios, histricos, etc.) y externas, de la organizacin. En el almacn todos estos datos se combinan y se reorganizan en una gran base de datos central diseada para elaborar informes y anlisis para el apoyo de la toma de decisiones por parte de los directivos de las organizaciones. Es a partir de este almacn que se pueden realizar anlisis

17

mucho ms profundos a travs de la Minera de datos y puede llegarse al descubrimiento de nuevos patrones, relaciones y conocimientos ms profundos para orientar esta toma de decisin.

En esta etapa, la Minera de datos puede aportar distintas tcnicas de clasificacin, como obtener un modelo que permita asignar una clase concreta de un sistema de clases, como en el caso de los rboles de clasificacin o CART, rboles de clasificacin: Una tcnica de rbol de decisin usada para la clasificacin de un conjunto de datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto de datos creando dos divisiones cuyos resultados pueden expresarse en lenguaje SQL o en el modelo Bayesiano3 o de probabilidad, en la clasificacin Bayesiana, uno de los algoritmos ms usados en la clasificacin de textos, se construyen las distintas clases de documentos basndose en una estimacin de las probabilidades de que un elemento pertenezca a cada clase, dado un nuevo documento

En el caso del mtodo de clustering, se hace corresponder cada caso a una clase determinada, con un conjunto de clases construidas con la datos de entrada del sistema, utilizando medidas de similaridad o proximidad, se agrupan los datos segn una gran variedad de criterios. Generalmente, los vectores de un mismo grupo (o clsters) comparten propiedades comunes. El conocimiento de los grupos puede permitir una descripcin sinttica de un conjunto de datos multidimensional complejo. Esta descripcin sinttica se consigue sustituyendo la descripcin de todos los elementos de un grupo por la de un representante caracterstico del mismo. Las tcnicas ms usadas son la distancia mnima y los mapas autoorganizados de Kohonen4 mediante el uso de redes neuronales. Las redes neuronales son un modelo de aprendizaje y procesamiento automtico de la informacin inspirado en la forma en que

3 4

Es un modelo en el que se considera constante la informacin que se posee. Este concepto fue desarrollado en el Documento de Trabajo N 14 perteneciente a esta coleccin.

18

funciona el sistema nervioso. Se trata de un conjunto de neuronas interconectadas en red que colaboran para producir un elemento de salida.

Los mapas autoorganizados o SOM (Self-Organizing Map), tambin llamados Redes de Kohonen son un tipo de red neuronal no supervisada, competitiva, distribuida de forma regular en una rejilla de, normalmente, dos dimensiones, cuyo fin es descubrir la estructura subyacente de los datos introducidos en ella. A lo largo del entrenamiento de la red, los vectores de datos son introducidos en cada neurona y se comparan con el vector de peso caracterstico de cada neurona. La neurona que presenta menor diferencia entre su vector de peso y el vector de datos es la neurona ganadora (o BMU) y ella y sus vecinas vern modificados sus vectores de pesos.

Se usan tambin tcnicas de resumen en las que se utilizan diversas representaciones de datos, como visualizacin de datos, generacin

automtica de informes, etc.

Conclusiones

Puede concluirse que la Minera de Datos constituye una parte muy importante en todo el ciclo de la creacin, organizacin, recuperacin y difusin de nuevo conocimiento en el Ciclo de la Gestin del Conocimiento en las organizaciones.

Esto le permite a una organizacin mejorar significativamente en su eficiencia y en su eficacia. La Minera de Datos interviene a lo largo de todo el proceso, en la Adquisicin, Captura, Organizacin, Almacenamiento y en la Recuperacin del Conocimiento de las organizaciones. No obstante, es importante tomar en consideracin que tipo de conocimiento, tcito o explcito se ha descubierto, analizar la forma de generacin, organizacin y recuperacin del mismo para lograr una potenciacin del papel de la Minera de Datos en el Ciclo de la Gestin del Conocimiento. La Minera de Datos se usa tanto en la bsqueda de la informacin, como en el anlisis de la misma para descubrir relaciones ocultas entre los datos, brinda mtodos de procesamiento de la informacin, de 19

clasificacin automtica

y de almacenamiento. Sirve para fomentar

el

planeamiento estratgico, entendindose por tal, el proceso sistemtico de identificacin, adquisicin, anlisis, registro y presentacin de las

oportunidades y amenazas de una organizacin, para apoyar de esta manera, la toma de decisiones por parte de los directivos. La Gestin del Conocimiento aliada con la Minera de Datos debe permitirle a la organizacin la creacin continua de capital intelectual para generar un valor agregado en los servicios que la organizacin brinda a sus clientes, aportando de esta forma, un plus de competitividad a la organizacin en comparacin con otras organizaciones del mismo nicho.

Bibliografa

Advances in Knowlegde Discoveryt and Data Mining (1996) , edited by Usama Fayyad.. (et. al.), Cambridge (Ma.): MIT Press

Frappaolo, C. (2006). Knowlegde Management. John Willey

Herramientas

de

Gestin

del

Conocimiento.

En:

www.gestiondelconocimiento.com/documentos2/america/herramientas.pdf Acceso, 1,sep. 2010

Larose, D. (2006). Data Mining: Methods and Models. New Jersey: John Willey

Laudon, K. (2008)

J. Laudon.

Sistemas de informacin gerencial:

Administracin de la informacin digital. Mxico: Pearson.

Leite Lopez, L (2009).

Minera de datos para inteligencia competitiva. En: Acceso,

www.delfos.co.cu/boletines/bsa/PDF/13mineria%20de%20datos.pdf 1,sep., 2010

20

Martnez Orol, J. La Gestin del Conocimiento y su vinculacin a los Data Warehouses. En: www.gestiopolis.com/.../gestion-del-conocimiento-y-su-

vinculacion-a-los-data-warehouses.htm, Acceso, 1, sep, 2010

Valhondo, D. (2003). Gestin del conocimiento: Del mito a la realidad, Madrid: Daz de Santos.

Valcarcel Acensios, V. (2004)

Data Mining y el descubrimiento de

conocimiento. En: Industrial Data, 7(2), p. 83-86.

Witten, I. (2005). E. Frank. Data Minino: Practical Machina Learning Tools and Techniques. 2nd. ed. New York. Elsevier

21

You might also like