You are on page 1of 3

MINERA WEB.

Etzioni defini la Minera Web como el uso de tcnicas de Minera de Datos


para descubrir y extraer informacin automticamente desde el World Wide Web

El proceso de Minera Web consta de una serie de subtareas:


1. Descubrimiento de las fuentes
fuentes  consiste en localizar la informacin que se
encuentra alojada en los distintos documentos y servicios que ofrece la web.
La recuperacin de dicha informacin es tanto la perteneciente a fuentes
textuales cono cualquier otro tipo de documento de hipertexto, es decir, se
recupera informacin como pdf, xml, html, correo electrnico
Para llevar a cabo esta actividad se utilizan los ndices de documentos web, es
decir los llamados Buscadores, que recuperan los documentos relevantes a
travs de los procesos de recuperacin de informacin (Information Retrieval).
Se puede mencionar como buscadores, los siguientes:
a. Google (http://www.google.es)
b. AltaVista (http://www.altavista.com)
c. Excite, que comercializa con WebCrawler (http://www.webcrauler.com)
d. Lycos (http://www.lycos.com)
e. Yahoo (http://www.yahoo.com)

2. Seleccin y preprocesado de la informacin  consiste en extraer


automticamente la informacin desde las fuentes.
Para poder extraer la informacin necesaria, existen algunos sistemas que
extraen la informacin a travs de las FAQ (preguntas ms frecuentes)

3. Generalizacin  en esta etapa se utilizan tcnicas de Minera de Datos


adaptadas a la Minera Web, como por ejemplo, reglas de asociacin o
agrupamiento, procesos de recuperacin de informacin (Information
Retrieval)

4. Anlisis  consiste en el desarrollo de tcnicas y herramientas que permitan


que las personas puedan utilizar la informacin que ha sido obtenida a travs de
las tcnicas de Minera de Datos.
Parra ello se utilizan tcnicas estadsticas y de visualizacin
MINERA WEB. DISCIPLINAS

Algunas disciplinas relacionadas con el proceso de Minera Web son:


1. Procesos de Recuperacin de Informacin (Information Retrieval)  sus
principales actividades son:
a. la indexacin de texto
b. bsqueda de documentos tiles en una coleccin
c. modelizacin de documentos
d. categorizacin de documentos
e. clasificacin de documentos
f. Visualizacin de filtrados
g. Interfaz de usuario
En definitiva, todas aquellas actividades que tengan que ver con la seleccin de
documentos relevantes

2. Procesos de Extraccin de Informacin (Information Extraction)  su principal


objetivo es la extraccin de hechos relevantes a partir de documentos.
Existen dos tipos de extraccin de informacin:
a. A partir de textos no estructurados: son textos escritos en lenguaje
natural y que requieren la necesidad de procesados lingsticos como:
 Anlisis sintctico
 Anlisis semntico
 Anlisis del discurso
b. A partir de datos semi-estructurados: utilizan etiquetas html, es decir,
requieren el uso de la meta-informacin.
Cabe destacar el uso de tcnicas de Minera de Datos ya que no se
suelen utilizar sistemas manuales
MINERA WEB. CLASIFICACIN

La clasificacin que se puede realizar de la Minera Web es la siguiente:


1. Minera del Contenido de la web  describe la informacin til que poseen los
documentos que se encuentran en la web, tanto el contenido textual como el
contenido grfico, pasando por las imgenes, audio o video. Su origen se
encuentra en el procesamiento del lenguaje natural y en la recuperacin de
informacin
En relacin con la recuperacin de informacin, la minera del contenido de la
web, se mejora la informacin que los buscadores ofrecen a los usuarios que
demandan dicha informacin.
En relacin con las bases de datos, la minera de contenido de la web permite
que el usuario realice preguntas mucho ms sofisticadas en el caso de realizar
una bsqueda con palabras clave

2. Minera de la Estructura de la web  analiza la estructura ms profunda de los


enlaces en la web, es decir, la relacin entre los diferentes sitios web
Un buen ejemplo del uso de Minera de la estructura de la web, es la ofrecida
por los distintos buscadores como Google o AltaVista, que ofrecen dentro de
sus herramientas de bsqueda los llamados PageRank (MyGoogle
MyGoogle PageRank:
PageRank:
http://www.mygooglepagerank.com/pagerank.php)

3. Minera del Uso de la Web  analiza la informacin sobre los accesos web
disponibles en los servidores web, esto es, datos que derivan de la interaccin
del usuario con la web
Para ello, de la interaccin del usuario con la web se extraen patrones de
comportamiento para conocer sus preferencias de navegacin con el fin de
mejorar las pginas adaptando la interfaz del sitio web en cuestin.
Dos de las aplicaciones ms importantes son:
a. Patrones de navegacin
b. Perfiles de usuario

You might also like