You are on page 1of 22

Modelos para la

recuperación de
información
por Luis León
Modelos de Recuperación
de Información
La manera en que se representan las consultas
La manera en que se representan los documentos
La forma en que se realiza el emparejamiento de consultas y
documentos
2
Modelo Booleano
Un término sólo puede tener dos estados:
verdadero (“aparece”)
falso (“no aparece”)
Representa las consultas como una expresión booleana de términos
Representa documentos como el conjunto de términos que
aparecen en ellos
Un documento es relevante si al evaluar la consulta sobre el
documento, se obtiene el valor “verdadero”
3
4
Modelo Booleano
es difícil hacer un ranking con
sólo dos valores.
Modelo Probabilístico
La base de cálculo es la
probabilidad de un documento
de ser relevante a una pregunta
dada
5
Modelo Probabilístico
Dada una necesidad informativa del usuario, existe un
subconjunto de documentos de la colección que contiene
exclusivamente los documentos relevantes en relación a ella.
El modelo probabilístico actúa sobre los términos que
configuran la consulta del usuario, ponderándolos; mayor
cuanto mejor permita discernir los documentos relevantes de
los irrelevantes, y menor en caso contrario.
6
Modelo Probabilístico
este modelo considera, para cada uno de los términos
empleados en la consulta, la “probabilidad de ser buen
descriptor” y la “probabilidad de ser mal descriptor”
hace una hipótesis inicial sobre las “probabilidades de ser
buen y mal descriptor” para cada término de la consulta
7
Modelo Probabilístico
Basados en estos pesos iniciales, el modelo probabilístico es
capaz de calcular el grado de similitud existente entre cada
documento de la colección y la consulta ponderada,
consiguiendo ordenar los documentos de la colección en
orden descendente de probabilidad de relevancia en relación
a la consulta.
8
Modelo Probabilístico
una de las grandes aportaciones del modelo probabilístico a la
recuperación de información consiste en el fenómeno
denominado retroalimentación por relevancia
El usuario analiza los documentos recuperados y juzga cuales
son relevantes.
Con esta información se imponen nuevos valores a las
“probabilidades de ser buen y mal descriptor” para cada
término de la consulta, obteniéndose una nueva respuesta de
documentos ordenados por su probabilidad de relevancia
9
Modelo Probabilístico
el modelo probabilístico, aun siendo un modelo binario,
efectúa equiparación parcial, lo que permite ordenar los
documentos de la respuesta conforme a su probabilidad de
relevancia
1
0
Modelo Vectorial
cada documento es representado por un vector de términos
las consultas, formuladas en lenguaje natural, son
representadas también como un vector de términos
es fácil aplicar alguna función de similitud que estime la
semejanza entre el vector de la consulta y el de cada uno de
los documentos
1
1
Modelo Vectorial
podemos registrar más información, no solamente la aparición
de términos en documentos.
un término puede ser más significativo en un documento que
en otro
podemos asignar a cada término un peso en cada uno de los
documentos, en función de su importancia en cada
documento
1
2
Modelo Vectorial: TF-IDF
Consiste en multiplicar dos factores que reflejan la importancia
de los términos
El número de veces que aparece en la consulta/documento (TF)
Lo “raro” que es, i.e., el número de documentos en los que aparece
(IDF)
1
3
1
4
Modelo
Vectorial
Es fácil realizar un ranking de
acuerdo a las medidas
obtenidas
Modelos basados en
la interactividad
En este modelo, se consideran
factores de carácter subjetivo y
contextual de cada usuario
como su estado de ánimo,
áreas de interés, grado de
motivación
1
5
Modelo global de poli-
representación
Se nutre de las representaciones de las consultas y los
documentos, así como de la aplicación de diferentes técnicas
en el proceso de recuperación de información.
1
6
Modelo episódico
define el conjunto de interacciones que se producen entre el
usuario y el sistema durante la consulta.
Los componentes que integran dicho modelo son:
Técnicas de navegación (browsing).
Técnicas consulta (querying).
Técnicas de visualización.
Técnicas de indización.
1
7
Modelo estratificado
Uno de sus objetivos fundamentales es localizar e identificar
los procesos de búsqueda de información de los usuarios
para incorporarlos al diseño de interfaz como garantía para el
éxito de la interacción entre sistema y el usuario.
el intercambio de información entre participantes, con el
objetivo de cambiar el estado de conocimiento propio o del
resto de los participantes
1
8
Modelo de retroalimentación
interactiva
un proceso de búsqueda interactivo puede estar formado por una
serie de estrategias de búsqueda, construidas por una o más
iteraciones y uno o más ciclos de retroalimentación interactiva
tipos de retroalimentación interactiva:
Retroalimentación por relevancia de contenido.
Retroalimentación por relevancia de términos.
Retroalimentación por magnitud de respuestas.
Retroalimentación por revisión de consultas anteriores.
Retroalimentación por revisión de términos.
1
9
Modelos basados en la Lógica
Difusa
la Teoría de Conjuntos Difusos se basa en el reconocimiento
de que determinados conjuntos poseen unos límites
imprecisos. Estos conjuntos están constituidos por
colecciones de objetos para los cuales la transición de
“pertenecer” a “no pertenecer” es gradual.
Un conjunto borroso permite describir el grado de pertenencia
de un objeto a una determinada clase.
Se utiliza en casos donde no es fácil catalogar algo
2
0
Modelos basados en la
Inteligencia Artificial.
propone modelar el conocimiento humano con la intención de
construir componentes o sistemas automatizados que imiten
el comportamiento humano o aumenten sus capacidades.
Conceptos como proceso en lenguaje natural, redes
semánticas, redes neuronales, modelos de aprendizaje,
agentes inteligentes y robots en la web, pertenecen al área de
investigación en inteligencia artificial relacionada con la
recuperación de información.
2
1
Modelos basados en la
Lógica Formal.
Se almacenan reglas o conocimiento de forma que se pueda
razonar con ellas (Sistemas Expertos)
2
2