You are on page 1of 29

Chapitre 8

Filtrage collaboratif

8.1. Introduction
8.1.1. Motivation et application des systmes de filtrage
8.1.1.1. Principe gnral
Laccs linformation seffectue lheure actuelle selon diffrentes modalits :
la recherche active de documents via des systmes de recherche dinformation, la
rception de documents par des tierces personnes, la rencontre fortuite dun
document par navigation sur Internet par exemple, etc.
Parmi les systmes informatiques permettant ce type dactivits, les systmes de
filtrage sinscrivent parmi ceux permettant la rception de documents jugs
intressants. Par opposition aux moteurs de recherche dinformation, qui requirent
de lutilisateur une activit de formulation systmatique de son besoin, les systmes
de filtrage prennisent ce besoin dinformation et permettent lacheminement au
cours du temps des documents intressants. Ainsi les premiers permettent la
dcouverte ponctuelle de documents, les seconds leur rception permanente. En ce
sens, les deux types de systmes se compltent.
Etre inform tant une ncessit professionnelle et citoyenne, recevoir des
informations ayant un certain niveau dintrt individuel permet chacun dapprendre,
danalyser, de critiquer toute nouvelle source dinformation. Ainsi recevant toute
nouveaut, lutilit du filtrage permet donc dviter de procder rgulirement une

Chapitre rdig par Catherine BERRUT et Nathalie DENOS.

242

Assistance intelligente la RI

recherche dventuelles avances. Cela procure lutilisateur bien videmment une


conomie deffort mais galement une certaine srnit.
De nombreux systmes de filtrage existent lheure actuelle. A lorigine, les
systmes de filtrage se sont appliqus aux forums lectroniques, exemple typique de
source dinformations o de nouveaux documents fleurissent chaque jour. On trouve
galement des systmes de filtrage du courrier lectronique, qui permettent de
catgoriser les messages reus automatiquement. Plus rcemment, les systmes de
filtrage permettent dexploiter les archives lectroniques de documents, qui sont
alimentes rgulirement par les crivains de certaines communauts. Il ne faut pas
non plus ngliger lutilisation but commercial, culturel, ou de divertissement de
ces systmes.
Ce chapitre a pour objectif de prsenter le filtrage dinformations dit collaboratif.
Pour cela, nous prsentons tout dabord le filtrage et les grandes familles de filtrage,
dont le filtrage collaboratif. La deuxime partie prsente de faon dtaille ce type
de filtrage et les algorithmes classiques quil utilise. Enfin la troisime partie permet
de faire un tour dhorizon des systmes les plus connus, et des fonctionnalits
perceptibles dans les systmes existants sur la toile (web).
8.1.1.2. Fonctionnement des systmes de filtrage
Habituellement, on considre quun systme de recherche dinformation a pour
fonction damener lutilisateur les documents qui vont lui permettre de satisfaire
son besoin en information [BEL 92]. Un systme de filtrage dinformation
achemine des documents qui se prsentent vers des groupes de personnes, en se
basant sur leurs profils long terme , et labors partir de donnes dapprentissage
[CRO 93].
Le filtrage dinformation est lexpression utilise pour dcrire une varit de
processus se rapportant la fourniture de linformation adquate aux personnes qui
en ont besoin [BEL 92]. Le filtrage est souvent interprt comme llimination
de donnes indsirables sur un flux entrant, plutt que la recherche de donnes
spcifiques sur ce flux. Lapproche la plus rpandue est base sur le contenu
smantique des documents. Elle trouve ses racines dans le monde de la recherche
dinformation, et utilise plusieurs de ses principes ; les documents textuels sont
proposs sur la base dune comparaison de leur contenu et du profil de lutilisateur.
Ce profil est prsent sous forme dun ensemble de termes et de pondrations,
tablis partir de documents que lutilisateur a jugs pertinents. Cette mthode est
simple, rapide et a fait ses preuves en recherche dinformation classique [BAL 97].
Les applications de filtrage impliquent typiquement des flux de donnes entrantes
[BEL 92], donnes mises par une source distante ou envoyes directement par

Filtrage collaboratif

243

dautres sources. Le filtrage est bas sur des descriptions dindividus et de groupes,
souvent appeles profils. De tels profils reprsentent gnralement un ensemble de
thmes dintrts long terme.
Dans la figure 8.1, le filtrage dinformation commence avec des personnes (les
utilisateurs du systme de filtrage dinformation) qui ont des objectifs ou des dsirs
(exemple : tche professionnelle, passe-temps, etc.) relativement stables, longterme ou priodiques. Des groupes, aussi bien que des personnes peuvent tre
caractriss par de tels buts. Ceci amne des besoins rguliers dinformation
(exemple : tre jour sur un sujet) qui peuvent voluer lentement au cours du temps
au fur et mesure que les conditions, objectifs et connaissances changent. De tels
intrts engagent les utilisateurs dans un processus relativement passif de recherche
dinformation. Ce processus est ralis travers la reprsentation des besoins
en information par des profils ou des requtes destins au systme de filtrage
dinformation.

Figure 8.1. Modle gnral pour le filtrage dinformation, adapt de [BEL 92]

Dun autre ct, les producteurs de documents, qui sont souvent des institutions,
entreprennent de distribuer leurs produits ds quils sont gnrs. Pour accomplir
cette tche, on associe aux documents une reprsentation de leur contenu, qui est
ensuite compare aux profils. Les documents sont utiliss et valus en termes de
rponse aux besoins exprims. Cette valuation peut mener la modification des
profils et des domaines dintrt.

244

Assistance intelligente la RI

8.1.2. Filtrage dinformation versus recherche dinformation


Bien que proches dans un certain nombre de fonctionnalits, recherche
dinformation et filtrage dinformation sopposent en un certain nombre de points :
la recherche dinformation est typiquement concerne par des usages singuliers
du systme, avec une personne avec un objectif et une requte la fois, alors que le
filtrage dinformation est concern par des usages rptitifs du systme, par une
personne ou des personnes avec des buts et des intrts long terme ;
la recherche dinformation reconnat des problmes inhrents ladquation
des requtes comme reprsentation des besoins en information. Le filtrage
dinformation fait lui lhypothse que lvolution des profils peut compenser ces
problmes ;
collecter et organiser les documents est une des fonctionnalits des systmes
de recherche dinformation, distribuer des documents des groupes ou des
individus demeure la priorit fonctionnelle des systmes de filtrage ;
la recherche dinformation permet la slection de documents partir dune
base relativement classique. En contrepartie, le filtrage dinformation slectionne ou
limine des documents partir dun flux dynamique de donnes ;
la recherche dinformation permet linteraction de lutilisateur avec le document
durant une session unique de recherche. De son ct, le filtrage dinformation
autorise des changements long terme travers des sries de session de recherche.
Cette comparaison est rsume dans le tableau 8.1.
Recherche dinformation

Filtrage bas sur le contenu

Approche

Trouver linformation
recherche

Filtrer linformation non dsire

Livraison

Corpus statique, sur demande

Flux dynamique

Persistance

Des besoins court terme

Des intrts long terme

Personnalisation

Non personnalis

Profil dutilisateur requis

Analyse
du contenu

Utilise souvent des mots-cls

Diffrents et multiples dispositifs


utiliss
Personnalis

Non personnalis
Fonctionnalits

Non adaptatif
Non dynamique
A court terme

Sadapte au changement
du profil de lutilisateur
Filtre dynamiquement linformation
entrante
A long terme

Tableau 8.1. Recherche dinformation et filtrage


dinformation bass sur le contenu : comparaison

Filtrage collaboratif

245

8.1.3. Grandes familles de filtrage


Le filtrage dinformation se dcline selon plusieurs grandes familles :
le filtrage bas sur le contenu (aussi appel filtrage cognitif) : le choix des
documents proposs est bas sur une comparaison des thmes abords dans les
documents par rapport aux thmes intressant lutilisateur (voir figure 8.2) ;
le filtrage collaboratif : le choix des documents proposs est bas sur les opinions
dutilisateurs sur ces documents (voir figure 8.3) ;
le filtrage hybride : combine les approches de ces deux familles.

Figure 8.2. Filtrage bas sur le contenu : la prdiction de lopinion quun utilisateur aura
dun document donn, est calcule en rapprochant les thmes noncs par lutilisateur
comme constituant son profil, et les thmes extraits des documents par un processus
dindexation.

Figure 8.3. Filtrage collaboratif : la prdiction de lopinion quun utilisateur 0 aura dun
document donn, est calcule en rapprochant les valuations passes de lutilisateur des
valuations que dautres utilisateurs de la communaut ont donnes par le pass sur les
mmes documents.

246

Assistance intelligente la RI

8.1.3.1. Filtrage bas sur le contenu (ou filtrage cognitif)


Le filtrage bas sur le contenu peut tre vu comme un systme de recherche
dinformation dont la fonction de correspondance entre une requte et un corpus de
documents joue le rle dun filtre permanent entre un profil (sorte de requte long
terme et volutive) et le flot de documents entrant (sorte de corpus volutif). Deux
fonctionnalits centrales ressortent, pour un systme de filtrage :
la slection des documents pertinents vis--vis du profil ;
la mise jour du profil en fonction du retour de pertinence fourni par
lutilisateur sur les documents quil a reus ; la mise jour se fait par intgration des
thmes abords dans les documents jugs pertinents.
Ces systmes prsentent un certain nombre de limitations :
tout dabord, citons la difficult dindexation de documents multimdia. Le
filtrage bas sur le contenu sappuie sur un profil qui dcrit le besoin de lutilisateur
du point de vue thmatique, de faon analogue une requte qui serait destine un
systme de recherche dinformation. Ce profil peut prendre diverses formes, mais il
repose toujours sur des termes qui seront compars aux termes qui indexent le
document. De ce fait, la difficult dindexer des documents, multimdia ou non, est
un goulet dtranglement pour cette approche ;
lincapacit traiter dautres critres de pertinence que les critres strictement
thmatiques pose galement problme. Le filtrage des documents bas sur le
contenu ne permet pas dintgrer dautres facteurs de pertinence que le facteur
thmatique. Pourtant il existe de nombreux autres facteurs de pertinence comme par
exemple ladquation entre le public vis par lauteur et lutilisateur, ou encore la
qualit scientifique des faits prsents, la fiabilit de la source dinformation, le
degr de prcision des faits prsents, etc. ;
enfin leffet dit entonnoir restreint le champ de vision des utilisateurs. En
effet, le profil volue toujours dans le sens dune expression du besoin de plus en
plus spcifique, qui ne laisse pas de place des documents pourtant proches mais
dont la description thmatique diffre fortement. Par exemple, lorsquun nouvel axe
de recherche surgit dans un domaine, avec de nouveaux termes pour dcrire les
nouveaux concepts, ces termes napparaissent pas dans le profil, ce qui limine
automatiquement les documents par filtrage ; lutilisateur naura donc jamais loccasion
dexprimer un retour de pertinence positif envers ce nouvel axe de recherche,
moins den avoir connaissance par ailleurs et de modifier son profil manuellement
en ajoutant les termes pertinents.
8.1.3.2. Filtrage collaboratif
Le paradigme du filtrage collaboratif apporte prcisment une rponse ces
problmes, en sappuyant sur la communaut des utilisateurs du systme.

Filtrage collaboratif

247

Le principe est de filtrer le flot de documents entrant en fonction de lopinion


que dautres utilisateurs de la communaut ont dj porte sur les documents. Si un
document a t jug intressant par un utilisateur, il sera diffus automatiquement
aux utilisateurs qui ont eu des opinions similaires par le pass.
Les trois limitations des systmes bass sur le contenu (difficult dindexation,
incapacit traiter dautres critres, effet entonnoir ) napparaissent pas dans ces
nouveaux systmes.
En rponse la difficult dindexation, la slection ne sappuie plus sur le
contenu des documents, mais sur une sorte dindexation parallle qui traduit les
opinions que les utilisateurs ont mises sur les documents. La difficult dindexer les
documents selon leur contenu (premier problme) est ainsi contourne.
Par consquent, cette indexation parallle prsente un autre avantage, celui
de reflter non seulement les gots des utilisateurs relativement aux thmes, mais
aussi dautres facteurs de pertinence utiles aux utilisateurs. En effet, lorsquun
utilisateur met une opinion positive sur un document, il affirme non seulement que
le document traite bien dun sujet qui lintresse, mais aussi que ce document est de
bonne qualit, et quil lui convient lui personnellement (public vis). Ainsi le
problme de lincapacit traiter dautres critres est galement rsolu.
Enfin, leffet entonnoir est lui aussi limin du fait que les documents
entrants ne sont pas filtrs en fonction du contenu. Pour quun utilisateur reoive un
document, il suffit quun autre utilisateur de profil proche lait jug intressant, et
cela quels que soient les termes qui indexent le contenu du document. Lutilisateur
peut alors ouvrir son profil sur un nouveau thme en donnant simplement un retour
de pertinence positif sur ce document.
Bien entendu, le filtrage collaboratif prsente lui aussi des limitations, que nous
dtaillerons plus loin. Nous pouvons ds prsent indiquer que des approches
hybrides (collaboratif et bas sur le contenu) permettent de tirer profit des avantages
des deux approches, en limitant les problmes qui leur sont lis.

8.2. Filtrage collaboratif


8.2.1. Principes
Le filtrage collaboratif se base sur lhypothse que les gens la recherche
dinformation devraient pouvoir se servir de ce que dautres ont dj trouv et
valu. Cette approche rsout les problmes de lapproche base sur le contenu
smantique ; il devient possible de traiter nimporte quelle forme de contenu et de

248

Assistance intelligente la RI

diffuser des ressources non ncessairement similaires celles dj reues. Pour ce


faire, pour chaque utilisateur dun systme de filtrage collaboratif, un ensemble de
proches voisins est identifi, et la dcision de proposer ou non un document un
utilisateur dpendra des apprciations des membres de son voisinage.
Le filtrage collaboratif emploie des mthodes statistiques pour faire des
prvisions bases sur des configurations des intrts des utilisateurs. Ces prvisions
sont exploites pour faire des propositions un utilisateur individuel, en se fondant
sur la corrlation entre son propre profil personnel et les profils dautres utilisateurs
qui prsentent des intrts et gots semblables. Pour le filtrage collaboratif, les
utilisateurs fournissent des valuations des documents, sous forme de notes, pour
constituer leur profil. Ces estimations sont compares celles dautres utilisateurs et
des similitudes sont mesures. Des prvisions sont calcules comme moyenne
pondre des avis dautres utilisateurs avec des gots soit semblables, soit
compltement opposs.
Il ny a donc pas danalyse du sujet ou du contenu et un document nest connu
que par son identifiant. Les systmes de filtrage dinformation collaboratifs
fonctionnent en impliquant des personnes dans le systme, et nous pouvons esprer
que les valuations produites par des personnes satisfont globalement les utilisateurs
du systme. En effet, les lecteurs humains ne partagent pas les difficults des
ordinateurs avec la synonymie, le polysmie, et le contexte en jugeant la pertinence
du texte [MIL 97]. Les systmes de filtrage automatiques courants essayent de
trouver des ressources dintrt pour leurs utilisateurs, souvent en employant une
certaine fonction de calcul de score pour valuer les documents. Ils leur renvoient
ensuite les documents avec les scores les plus hauts. Des personnes peuvent sans
grand effort valuer les documents qui sont importants pour dautres, mais seraient
difficiles dtecter automatiquement. Les exemples de tels critres sont le style
dcriture, la lisibilit du document, ou la clart et la force de son argumentation
(imaginez la difficult quun systme de filtrage automatique aurait pour dterminer
laquelle, de deux recettes de cuisine, est la plus facile suivre).
Une autre motivation pour le filtrage collaboratif [MAL 95] vient de la
comparaison de la richesse de lenvironnement des objets rels et de la pauvret
dans laquelle les utilisateurs des systmes oprent. Quand un utilisateur lit un fichier
lectronique il na gnralement aucune manire de savoir sil est en train de
consulter la rfrence la plus communment utilise ou sil est la premire personne
la lire. Le filtrage collaboratif fonctionne en partie en associant aux documents
numriques lhistoire de leur utilisation. Les objets que nous employons dans la vie
quotidienne accumulent leur usage et leur usure comme partie normale de leur
utilisation : les pages des livres deviennent froisses, des attaches plisses, et les
marges tachetes avec des empreintes digitales. Les objets les plus utiliss sont
gnralement prfrs. Un exemple sont les ouvrages de rfrence qui souvrent en

Filtrage collaboratif

249

tombant sur un bureau sur le chapitre le plus intressant. Donner des utilisateurs
laccs lhistoire dusage pass les laisse tirer profit des conseils subtiles que nous
employons gnralement pour prendre des dcisions de lecture ou de non lecture
dans le monde rel. Lusage agit ainsi en tant quindex linformation approprie
lintrieur de lobjet.
8.2.2. Architecture gnrale
Larchitecture gnrale dun systme de filtrage collaboratif sarticule autour de
deux fonctionnalits centrales : le calcul de la proximit entre les utilisateurs, et le
calcul de la prdiction de lvaluation quun utilisateur fera dun document. Sajoute
la fonctionnalit de mise jour perptuelle des profils dutilisateurs, au fur et
mesure de la collecte de leurs valuations.
Dans ce type de systme, o lutilisateur contribue de faon dcisive au bon
fonctionnement du systme dans son ensemble, on ne peut ngliger les fonctionnalits
interactives du systme. Les fonctionnalits indispensables sont les suivantes :
une interface permettant dvaluer un document ;
une interface permettant de visualiser les documents reus par filtrage.
Dautres fonctionnalits interactives peuvent exister, notamment celle permettant
aux utilisateurs deffectuer ce que lon appelle du filtrage actif : le terme filtrage
actif [MAL 95] traduit le fait que lutilisateur dcide, de sa propre initiative, denvoyer
des documents certains membres de la communaut. Cette possibilit peut savrer
trs utile lors de lamorage du systme, pour faire crotre les chances de
recoupement des profils dutilisateurs. En effet, un utilisateur qui reoit un document
envoy par un autre est amen lvaluer lui aussi ; la suite de cette valuation,
son propre profil et celui de lauteur du filtrage actif se recouperont ncessairement.

Figure 8.4. Architecture gnrale dun systme de filtrage collaboratif

250

Assistance intelligente la RI

8.2.3. Calcul de la prdiction pour un systme de filtrage collaboratif


Breese et al. [BRE 98] proposent une classification intressante des techniques
de filtrage collaboratif : les algorithmes bass mmoire , et les algorithmes bass
modle . Delgado [DEL 00] y ajoute une nouvelle catgorie : les algorithmes
dapprentissage en ligne.
8.2.3.1. Algorithmes bass mmoire
Les algorithmes bass mmoire utilisent lensemble de la base de donnes des
valuations des utilisateurs pour faire les prdictions : les valuations de lutilisateur
actif sont prdits partir dinformations partielles concernant lutilisateur actif, et un
ensemble de poids calculs partir de la base de donnes des valuations des
utilisateurs.
Si Ii est lensemble des items valus par lutilisateur i, alors lvaluation
moyenne pour lutilisateur i peut tre dfinie comme :
vi =

1
Ii

vi, j
jIi

Lvaluation prdit sur litem j pour lutilisateur actif a est une somme pondre
des valuations des autres utilisateurs :
n

pa , j = va + w( a, i )( vi , j vi )
i =1

o n est le nombre dutilisateurs dans la base de donnes qui ont un poids non nul, et
est un facteur de normalisation tel que la somme des valeurs absolues des poids fait 1.
Le poids w(a,i) est dtermin de faon variable, selon lalgorithme.
Les dtails de calcul de ces poids donnent lieu des algorithmes diffrents. Nous
prsentons ici lalgorithme bas sur la corrlation, et lalgorithme bas sur la
similarit de vecteurs.
Pour lalgorithme bas sur la corrlation (projet GroupLens [RES 94]), le poids
est calcul comme la corrlation entre les utilisateurs a et i, comme suit :

(va, j va )(vi, j vi )
w( a, i ) =

(va, j va )2 (vi, j vi )2
j

Filtrage collaboratif

251

o les sommes sur les j concernent les items pour lesquels la fois i et a ont donn
des valuations.
Pour lalgorithme bas sur la similarit des vecteurs, le poids est calcul comme
un cosinus entre les vecteurs forms par les valuations des utilisateurs, comme suit :
w( a, i ) =

va , j

vi , j

kI va,k kI vi,k 2
2

o les termes du dnominateur servent normaliser les valuations pour que les
utilisateurs qui ont valu plus ditems ne soient pas favoriss.
Des extensions ces algorithmes existent, notamment celles proposes par
Breese et al. [BRE 98] pour amliorer les performances de ces algorithmes (voir
article 25 section 2.2).
8.2.3.2. Algorithmes bass modle
Les algorithmes bass modle utilisent la base de donnes des valuations
des utilisateurs pour estimer ou apprendre un modle qui est alors utilis pour les
prdictions.
Du point de vue probabiliste, la tche de prdiction dune valuation peut tre
vue comme le calcul de la valeur espre dune valuation, tant donn ce que lon
sait dun utilisateur.
Supposons que les valuations se fassent sur une chelle dentiers de 0 m.
Alors la valeur prdite sera :
m

pa , j = E (va , j ) =

Pr(va, j = i va,k , k Ia )i
i =0

o la probabilit exprime est celle dont lutilisateur actif fera lvaluation particulire
i pour litem j compte tenu des valuations observes auparavant.
Nous prsentons ici deux modles probabilistes : le modle base de clusters, et
le modle base de rseau baysien.
Le modle base de clusters repose sur le principe que certains groupes ou types
dutilisateurs capturent un ensemble commun de prfrences et de gots. Etant
donn un tel groupe, les prfrences concernant les diffrents items (sous la forme
dvaluations) sont indpendantes.

252

Assistance intelligente la RI

Du point de vue formel, on sappuie sur un classifieur baysien, o la probabilit


des valuations est conditionnellement indpendante sachant lappartenance une
variable de classe C non observe comportant un ensemble de valeurs discrtes
relativement petit. Le modle de probabilit qui met en relation les probabilits
jointes des classes et des valuations, et un ensemble de distributions conditionnelles
et marginales, est la formulation standard nave de Bayes :
n

Pr(C = c, v1,..., vn ) = Pr(C = c)

Pr(vi C = c)
i =1

La partie gauche est la probabilit dobserver un individu dun classe particulire


et un ensemble complet de valeurs dvaluations. Dans ce contexte, on peut calculer
directement les expressions de probabilit requises pour lquation prcdente
donnant la valeur prdite.
Les paramtres du modle, les probabilits dappartenance une classe Pr(C = c),
et les probabilits conditionnelles des valuations sachant la classe sont estimes
partir dun ensemble dexemples dvaluations dutilisateurs, appel la base des
valuations.
Le modle base de rseau baysien associe un nud chaque item du domaine.
Les tats pour chaque nud correspondent aux valeurs dvaluation possibles pour
chaque item. On inclut galement un tat correspondant labsence dvaluation
pour les domaines o il ny a pas dinterprtation naturelle pour les donnes
manquantes.
On peut alors appliquer un algorithme dapprentissage de rseau baysien sur
la base dexemples, o les valuations manquantes sont associes une valeur
pas dvaluation . Lalgorithme dapprentissage cherche sur plusieurs structures
de modle en termes de dpendances pour chaque item. Dans le rseau rsultant
de lapprentissage, chaque item a un ensemble ditems parent qui sont les
meilleurs prdicteurs de ses valuations. Chaque table de probabilit conditionnelle
est reprsente par un arbre de dcision qui code les probabilits conditionnelles
pour ce nud.
8.2.3.3. Algorithmes dapprentissage en ligne
Le principe de cette approche propose par Delgado est de voir le problme
comme un ensemble dagents de prdiction indpendants, un pour chaque utilisateur
du systme. Chaque agent est confront un ensemble dessais avec une prdiction
faire chaque tape. Lhypothse sous-jacente lapprentissage est que pour
chaque agent, les agents qui lentourent ont un comportement similaire, neutre, ou
oppos la fonction que cet agent cherche atteindre. Du point de vue oprationnel,

Filtrage collaboratif

253

lalgorithme associ chaque agent est une combinaison dun algorithme de


prdiction bas-mmoire (voir plus haut) et dun algorithme de vote en ligne
majorit pondre .
Les algorithmes dapprentissage en ligne reposent sur le principe dapprentissage
partir de lavis dexperts. Le modle dapprentissage repose sur un processus
continu et interactif, o un ensemble dalgorithmes, considrs comme des experts
prdicteurs , sont associs des poids qui mesure leur confiance envers la tche de
prdiction quils ralisent. A chaque tape, une instance valide est prsente aux
algorithmes, et chaque prdicteur donne son verdict (une valeur binaire, 0 ou 1). Le
calcule de majorit pondre donne :
&

arg max ai ( x ) wi
R{R0 , R1 }

&

&

&

o R0 = {ai ( x ) = 0; i n} , R1 = {ai ( x ) = 1; i n}, et ai ( x ) est le rsultat de la


&

prdiction du i-ime algorithme sur les n algorithmes qui votent sur x . Aprs cela,
le bon rsultat est montr lalgorithme, qui met alors jour les poids wi quil
associe aux autres algorithmes. Pour cela, il applique une stratgie qui fait dcrotre
les poids des algorithmes qui se sont tromps, et qui augmente ou laisse inchangs
les poids de ceux qui ont donn la bonne rponse.
On peut alors dfinir une prdiction binaire pour lutilisateur actif a sur litem j :
pa , j = arg max wa ,i (vi , j )
R{R0 , R1}

o R0 = vi , j = 0; i n , R1 = vi, j = 1; i n . Les poids wa,i ne sont pas bass


sur les donnes prsentes dans la base de donnes, mais initialiss comme des
nombres positifs ou nuls mis jour chaque essai. Delgado donne galement les
algorithmes pour des valuations et des prdictions continues dans lintervalle [0,1] .

8.2.4. Difficults
Le filtrage collaboratif se base sur lhypothse que les gens la recherche
dinformation devraient pouvoir se servir de ce que dautres ont dj trouv et
valu. Cette approche rsout les problmes de lapproche base sur le contenu
smantique ; il devient possible de traiter nimporte quelle forme de contenu et de
diffuser des ressources non ncessairement similaires celles dj reues.

254

Assistance intelligente la RI

Toutefois, des problmes subsistent pour les nouveaux documents ; ils ne


peuvent tre diffuss que si un minimum dinformations les concernant est collect
partir de lavis de lun des utilisateurs. Dun autre ct, les personnes ayant des
gots peu frquents risquent de ne pas recevoir de propositions. Ces deux problmes
sont en ralit lis la taille et la composition de la population dutilisateurs.
Ces systmes souffrent aussi tous du problme de dmarrage froid. Les
nouveaux utilisateurs commencent avec un profil vide et doivent le constituer
partir de zro. Mme avec un profil de dmarrage, une priode dapprentissage est
toujours ncessaire avant que le profil ne reflte concrtement les prfrences de
lutilisateur. Pendant cette priode le systme ne peut pas filtrer efficacement pour le
compte de lutilisateur.

8.3. Quelques systmes de filtrage


Afin de prsenter des systmes de filtrage, nous avons souhait le faire en deux
grandes parties : tout dabord une prsentation de sept systmes de filtrage, puis
nous ferons une synthse de huit systmes plus rcents accessibles via Internet.

8.3.1. Tapestry
Le concept du filtrage collaboratif [MAL 95] a t lanc avec le projet Tapestry
Xerox Parc. La gestion des e-mails est sa motivation premire [GOL 92].
Limplication de lutilisateur nest pas limite fournir de simples jugements
binaires dacceptation ou de rejet [RES 94]. Il donne la possibilit de faire des
annotations en texte libre ou des apprciations dans le style Jai bien aim ou
Je dteste , ainsi les utilisateurs peuvent transmettre des jugements sur la valeur
des documents quils lisent. Les autres utilisateurs peuvent alors oprer des
recherches parmi ces documents non seulement sur la base de leur contenu, mais
galement sur la base des jugements quont ports dautres utilisateurs leur sujet.
Tapestry a aussi introduit la prise en compte de la confiance dans la source de
linformation. Le systme a souffert de deux problmes [MAL 95]. Le premier est la
taille de sa base dutilisateurs. Puisque Tapestry est base sur un systme
commercial de base de donnes, il ne peut tre fourni librement. De plus, il na pas
t conue pour lusage dun grand nombre de personnes gographiquement
distribues. Ces deux facteurs se combinent pour limiter la population dutilisateurs
potentiels aux chercheurs Xerox Parc. Cependant, cette population ne semblait pas
assez grande pour constituer une masse critique dutilisateurs et la grande majorit
des documents passaient sans annotations. Ainsi le systme souffrait dun manque
dinformations pour pouvoir fonctionner normalement.

Filtrage collaboratif

255

Le deuxime problme avec Tapestry est le moyen par lequel les utilisateurs
interagissent avec les filtres. Une interface commune exigeait des utilisateurs
dindiquer des requtes en un langage driv de SQL. Cette forme dinterface a t
un obstacle lexploration de nouveaux secteurs et a rendu difficile la visualisation
de linformation disponible.
Il nen demeure pas moins que Tapestry fut un des premiers systmes de filtrage
existants.

8.3.2. GroupLens
Plusieurs systmes se sont intresss aux articles newsgroups du Usenet, et le but
des premiers tait dvaluer la masse critique dutilisateurs que les technologies
disponibles permettaient de supporter, en permettant une large dispersion
gographique [MAL 95]. Un des rsultats les plus importants de ces travaux tait
dapporter la preuve que les lecteurs adhrent au concept et valuent des documents,
bien quaucune sorte de rcompense ou dincitation matrielle nait t offerte aux
utilisateurs de ces systmes.
GroupLens [MIL 97], systme exprimental de luniversit du Minnesota, est
lun des plus clbres et solides dans ce domaine. Il est semblable dans son esprit
Tapestry : les lecteurs sont appels noter les articles quils lisent sur une chelle
numrique de cinq niveaux. Le systme trouve alors des corrlations entre les
diffrents utilisateurs RI destimations et identifie des groupes dutilisateurs dont les
intrts sont semblables, et ensuite il emploie ces estimations pour prdire lintrt
que porteront les lecteurs chaque article.
GroupLens prolonge Tapestry de deux manires [RES 94] : dabord, Tapestry est
conu pour partager des valuations dans un mme lieu. Avec GroupLens, les
estimations sont rparties en plusieurs emplacements et son architecture est ouverte
la cration de nouveaux clients de newsgroups et serveurs destimation qui
emploieraient lvaluation dune manire diffrente. En second lieu, Tapestry ne
supporte pas de requtes globales. Les serveurs destimation qui ont t mis en place
pour GroupLens prennent en considration les estimations globales de plusieurs
experts, bases sur la corrlation de leurs estimations passes. Un lecteur na pas
besoin de voir lavance les valuations employer et na pas besoin de savoir qui
les valuations sont destines rellement. Dans GroupLens, les estimations fournies
sous un pseudonyme sont aussi utiles que celles qui sont signes.
Pour son valuation, la corrlation entre lvaluation faite par le systme et
lvaluation individuelle dun utilisateur aprs la lecture dun article, a t utilise.

256

Assistance intelligente la RI

GroupLens a aussi permis de dmontrer [PAL 97] que la consultation des


estimations des autres utilisateurs ne constituait pas un risque de biais pour
lvaluation. Et contrairement ce que lon pourrait penser, il ny avait pas de
corrlation entre la taille et la dure de consultation dun article, ainsi la
combinaison du temps et des estimations a donn de bons rsultats.
En raison du grand nombre de diffrents documents, ce systme dpend beaucoup
du nombre de lecteurs et de leurs valuations sur les mmes documents [MAL 95].
De plus, il souffre dun problme de dmarrage froid [MIL 97]. Beaucoup
dutilisateurs ont abandonn son utilisation ; ils avaient un grand nombre de
documents noter avant de commencer recevoir des recommandations et donc
bnficier du systme (problme de motivation). En outre, les premiers utilisateurs
ne recevaient pratiquement que des documents quils avaient dj lus et nots, en
raison de la lenteur de lapprentissage.

8.3.3. Phoaks
Phoaks (people helping one another know stuff) est un systme exprimental
de reconnaissance, de correspondance et de redistribution automatiques de
recommandations sur les ressources web, extraits des messages des newsgroups de
Usenet [TER 87]. Il effectue une recherche contextuelle de mentions dURL dans
ces messages, qui dans 23 % des cas mentionnent des ressources web (sous forme
dURL), et 30 % de ces mentions sont des recommandations.
Phoaks compte toute mention comme recommandation si elle passe un certain
nombre de tests : (i) un message ne doit pas tre post plusieurs groupes en mme
temps, il devient alors trop gnral et ne peut tre assez proche thmatiquement de
lensemble des groupes ; (ii) si lURL fait partie de la signature de lexpditeur, il
nest pas considr comme recommandation, cest une forme dauto-promotion ;
(iii) si lURL apparat dans une partie entre quotes du message (inclus dans la
partie message dorigine dans une rponse un message), elle nest pas retenue.
Enfin, (iv) si le contexte textuel de lURL indique quil sagit dune recommandation
et quelle nest pas lobjet dune publicit, lURL est retenu et class.
Phoaks se diffrencie des autres systmes par la distinction quil fait entre les
rles de fournisseur et consommateur ; il prend ainsi en considration le fait que
seule une minorit dutilisateurs prend la peine dvaluer les ressources et de faire
partager leur opinions avec les autres. Aussi, la rutilisation des conversations en
ligne existantes comme source des recommandations ne demande aucune intervention
de la part des recommandeurs.

Filtrage collaboratif

257

Avec dautres rgles plus complexes, Phoaks slectionne et catgorise les


ressources. Le nombre de recommandeurs distincts dune mme ressource a t
retenu comme mesure de la qualit dune recommandation. Une tude a montr que
la multiconfirmation est une source de recommandation pertinente. En effet, une
ressource a dautant plus de chance de paratre dans une foire aux questions (FAQ),
bases maintenues par des experts humains) quelle est recommande par diffrentes
personnes.
Son efficacit est value par la mesure de la prcision (pourcentage des
ressources que les rgles classifient dans la bonne catgorie) et du rappel (le
pourcentage de ressources qui appartiennent une catgorie et que la rgle classe
rellement dans cette catgorie). Des tests ont montr que Phoaks offre un rappel de
88 % et une prcision de 87 %.
Comme continuation, les auteurs de Phoaks projettent damliorer le calcul de la
crdibilit des recommandeurs et la recherche daffinits entre ceux qui offrent et
ceux qui sont la qute des recommandations dans un domaine particulier. Il tentent
aussi de combiner une recherche dinformation par mots-cls avec le filtrage
collaboratif, dans une recherche classe par communaut . Le principe est de
traiter des requtes en utilisant un moteur de recherche par mots-cls classique, et de
filtrer les rsultats des requtes travers la base de Phoaks. Les rsultats sont alors
classs par groupe de newsgroups qui les mentionnent. Ceci permet de rduire
lambigut des requtes et de classer les rsultats en fonction de leurs frquences de
mention.

8.3.4. Siteseer
Siteseer [RUC 97] est galement un systme de recommandation de pages web
qui utilise les bookmarks personnels et leur organisation en rpertoires pour prdire
et recommander des pages pertinentes. Il utilise chaque bookmark dutilisateur
comme une dclaration implicite dintrt pour le contenu, et le classement de ces
bookmarks comme une indication de cohrence smantique ou un regroupement
pertinent entre des sujets.
Au cours du temps, Siteseer apprend les prfrences et les catgories travers
lesquelles les utilisateurs peroivent le monde, et en mme temps, apprend pour
chaque page web, quelles sont les diffrentes communauts ou groupes daffinits
qui sy intressent. Siteseer gnre alors des recommandations organises et
contextualises en les dlivrant dans leur rpertoire dorigine.
Les bookmarks offrent un mcanisme de collecte dinformation sur les
prfrences, directement gr par lutilisateur, et qui ne requiert pas de comportement

258

Assistance intelligente la RI

additionnel pour la tche dinformation du systme de recommandation. A la


diffrence dun clic de souris inutile pour valuer un document, car il peut tre
accidentel, et qui engage rarement un grand effort ou investissement personnel, les
bookmarks sont le rsultat dun acte trs intentionnel qui prend, surtout sils sont
placs dans des rpertoires, un certain effort de rflexion.
Siteseer consulte les bookmarks de chaque utilisateur et mesure le degr de
chevauchement (URL communs par exemple) de chaque rpertoire avec les
rpertoires dautres utilisateurs, pour donner un poids additionnel aux URL ; le
chevauchement de contenu permet de dterminer les similarits entre rpertoires et
de former dynamiquement des communauts virtuelles dintrt, particulire pour
chaque utilisateur et spcifique chaque catgorie dintrt. En calculant ladhsion
relative dune communaut chaque rpertoire, et en vitant de former un ensemble
dfinitif de clusters, Siteseer nimpose pas de catgorisation rigide.
Le systme ne tire aucune smantique ni du contenu des URL ni du nom du
rpertoire. Il utilise lURL simplement dune ressource comme identifiant unique et
ignore compltement le titre.
Toutefois les bookmarks ont des limitations spcifiques ; les utilisateurs
marquent moins que la moiti des sites/pages quils trouvent intressants, souvent
parce quun site est facilement accessible travers dautres chemins, comme une
autre page web ou un moteur de recherche. De plus, les utilisateurs ont tendance
marquer des sites/pages pour diffrentes raisons, allant du vritable intrt au simple
besoin de revisiter ou de retourner. Enfin, les bookmarks peuvent exister ou non.
Aussi, il ny a pas de bookmarks partiels qui permettent dindiquer un intrt
marginal, et il ny a pas de moyen de montrer un manque dintrt ou sujet, quun
systme explicite de feed-back peut demander.
Les principales limites de Siteseer proviennent de son approche purement
collaborative. Il est incapable de servir les premiers utilisateurs ou un utilisateur
crant une nouvelle catgorie.

8.3.5. Fab
Fab [BAL 87] est un systme hybride qui essaye de combiner les deux
approches : lapproche base sur le contenu smantique et lapproche collaborative
du filtrage pour en rcuprer les avantages et en rduire les inconvnients. La notion
de profil base sur lanalyse du contenu y est maintenue et les profils y sont
systmatiquement compars pour identifier les similarits entre utilisateurs. Un
utilisateur reoit un document soit parce quil correspond son profil soit parce quil
a t apprci par un autre utilisateur ayant un profil ressemblant.

Filtrage collaboratif

259

Le processus de recommandation peut tre rpartie en deux phases : une phase


de collecte de ressources pour constituer une base ou un index et une phase de
slection de ressources de cette base pour des utilisateurs particuliers. La phase de
collecte peut tre triviale dans le cas gnral mais pose un vrai problme dans le cas
du web, pour le concepteur du systme. Dans Fab, cette phase consiste rassembler
des pages pertinentes pour un nombre rduit de sujets, et qui sont regroupes
automatiquement suivant les domaines dintrt des utilisateurs. Ces pages sont
ensuite diffuses un large nombre dutilisateurs dans la phase de slection. Un
sujet peut intresser plusieurs personnes et une personne peut tre intresse par
plusieurs sujets.
Pour limplmentation, des agents sont utiliss ; les pages retrouves par lagent
de collecte sont envoyes un routeur central qui se charge de les transfrer aux
utilisateurs dont les profils correspondent, partir dun certain seuil. Dautres
fonctionnalits sont assures par les agents personnels de chaque utilisateur ; les
pages dj consultes sont limines, et sur les pages prsentes, ils assurent quil y
a au plus une page dun mme site.
Une fois que lutilisateur a envoy une requte, reu et consult des
recommandations, il lui est demand de fournir une note de 0 7. Ces notes servent
dune part mettre jour les profils personnels et informer lagent de collection.
De plus, toute page trs bien note est automatiquement passe aux utilisateurs
estims les plus proches.
La construction de profils reprsentatifs est une condition importante pour le
succs du systme. Ils permettent la composante base sur le contenu smantique
dassurer des recommandations appropries, et la composante collaborative de
fournir les utilisateurs ayant des profils proches.
La population des agents de collecte sadapte la population dutilisateurs, et
non un utilisateur particulier. Pour aider ce processus, les agents de collecte
impopulaires , dont les pages ne sont pas visualises par un grand nombre
dutilisateurs ou ont peu de succs (faibles scores) sont constamment dtruits et les
meilleurs profils dupliqus pour les remplacer. Ainsi, la spcialisation des agents de
collecte na pas tre fixe davance, mais peut tre dtermine dynamiquement et
modifie au cours du temps.
Plusieurs autres types dagents de collecte sont employs. Des agents de
recherche excutent une recherche sur le web, pour trouver des pages approchant au
mieux les profils existants. Les agents dindexation construisent des requtes poser
aux diffrents moteurs de recherche commerciaux sur le web, qui ont dj ralis
une indexation exhaustive. Dautres agents sont employs des fins comparatives :
ils peuvent proposer des pages slectionnes alatoirement (random), ou retrouves

260

Assistance intelligente la RI

dans les index sites du jour , ou tenter de servir un utilisateur moyen, dont le
profil est la moyenne de lensemble des profils des utilisateurs. Les agents de
collecte permettent aussi didentifier les communauts dintrt mergentes, offrant
la possibilit dtablir des liens et des interactions entre des gens culturellement
proches.
Fab est un exemple-type de la combinaison des approches bases sur le contenu
smantique et collaborative dans les systmes de recommandation.

8.3.6. Referralweb
De nombreuses recherches ont montr que les rseaux de collaborateurs, de
collgues et damis sont parmi les canaux les plus efficaces de diffusion de
linformation et de lexpertise, dans les entreprises et les organisations. De ce fait,
les rseaux sociaux sont au moins aussi importants que la structure organisationnelle
officielle pour des tches de choix, de rsolution de problmes.
Une des raisons du succs des rseaux sociaux est la limite la quantit
dinformation quune personne voudrait ou pourrait rendre publique ; un expert dans
un domaine particulier est incapable dtaler toutes ses connaissances sur un sujet, et
ne voudrait pas rcrire des donnes dj publies chaque fois que des personnes
lui demanderaient de le faire. La recherche dune information dans ce cas se ramne
reconstituer le rseau social entre lexpert et une chane de contacts et de
rfrences personnelles, du chercheur lexpert. Cette chane de rfrences remplit
deux fonctions : elle fournit lexpert une raison pour accepter de rpondre au
demandeur, en explicitant leur relation (ayant un collaborateur en commun) et elle
fournit au demandeur un critre pour valuer la crdibilit de lexpert.
Referralweb [KAU 87] se prsente comme un systme interactif pour la
reconstruction, visualisation et la recherche de rseaux sociaux sur le web. Une
reconstruction manuelle de ces rseaux est certes possible mais risque dtre
frustrante et coteuse en termes de temps.
Un rseau social est modlis par un graphe o les nuds reprsentent des
personnes et les arcs une relation directe entre deux personnes. Il y a plusieurs
sources pour dterminer ces relations ; les utilisateurs peuvent tre appels
introduire la liste de leurs collgues proches, ou encore, on peut analyser les enttes
des mails. Cette dernire solution nest pas sans poser des problmes de confidentialit
et de scurit vidents. Pour Referralweb, les donnes sont rcupres sur le web. Il
utilise la co-occurrence de noms de personnes dans des fentres de proximit,
partir des home pages, des listes des coauteurs dans des publications et rfrences
des papiers, les changes denregistrements personnels dans les archives des

Filtrage collaboratif

261

newsgroups et lorganisation des organigrammes. La construction du rseau est


incrmentale. Quand un utilisateur sabonne pour la premire fois Referralweb, un
moteur de recherche classique est utilis pour retrouver les documents o une
mention de son nom est faite. Les noms des autres personnes sont alors extraits de
ces pages. Le mme processus est repris rcursivement pour chaque nom. Le rseau
est ensuite utilis pour guider lutilisateur dans la recherche de personnes ou de
documents en rponse sa requte. Il peut tout simplement demander de retrouver le
chemin qui le relie une autre personne. Il peut aussi, pour rechercher un expert,
spcifier le sujet et le statut social ( lequel de mes collgues ou des collgues
de mes collgues est expert en chimie du carbone ? ou quels sont les
documents traitant de la chimie du carbone et crits par des personnes proches de
Martin Dupont ? ).
Il est important de signaler que Referralweb ne remplace pas les moteurs de
recherche gnriques comme AltaVista, mais sert augmenter lefficacit et la
focalisation des sessions de recherche. Il permet aussi une appropriation des rsultats
par lutilisateur, en ramenant des documents crits par des personnes qui lui sont
proches. Dun autre ct Referralweb cherche dcouvrir des rseaux sociaux
existants plutt que doffrir les outils pour crer de nouvelles communauts, et la
diffrence des autres systmes de recommandation qui favorisent lanonymat,
Referralweb est bas sur la connaissance des interlocuteurs et de la crdibilit quon
leur porte. Dautre part, Referralweb ne demande pas ses utilisateurs de saisir une
liste de leurs collaborateurs, mais se base sur des ressources disponibles au public
sur le web.
Referralweb prsente une nouvelle manire daborder la recherche dinformation,
en valorisant les relations personnelles qui peuvent exister entre les producteurs de
documents et les chercheurs dinformation.

8.3.7. Le systme de Maltz et Ehrlich


Ce systme [MAL 95] est bas sur lhypothse que les utilisateurs recherchant
linformation devraient pouvoir se servir de ce que dautres ont dj trouv et
valu.
Une pratique courante chez les utilisateurs est dutiliser le-mail pour envoyer
des pointeurs sur des documents intressants des collgues ou des amis. Cependant,
cette action requiert un effort relativement important de la part de lexpditeur, et il
arrive souvent que lutilisateur nenvoie pas la rfrence toutes les personnes
quelle pourrait intresser, ou quil oublie simplement de le faire.

262

Assistance intelligente la RI

Le systme de Maltz et Ehrlich est prsent comme un substitut au mail dans ces
situations. Il est intgr un systme de recherche dinformation et permet ses
utilisateurs dadresser des pointeurs aux personnes quils jugent intresses, sans
avoir interrompre leur session de recherche dinformation. Dun autre ct,
lensemble de ces changes est stock pour constituer une base de rfrences.
Dautres systmes dimportances variables sont disponibles et deviennent de plus
en plus populaires (Myyahoo, Amazon.com, Miningco.com, etc.). Ils offrent leurs
utilisateurs des possibilits de personnalisation dinterface, toutefois limites, ou leur
suggrent suivant leurs centres dintrts constats (explicitement ou implicitement)
des ressources qui pourraient les intresser.

8.3.8. Comparaison de quelques systmes plus rcents sous langle de linteraction


avec lutilisateur
Parmi les systmes plus rcents accessibles via le web, voici une slection dont
lintrt rside dans les fonctionnalits interactives proposes :
http://www.cuisinenet.com : site de recettes de cuisines ;
http://comment.imdb.com : site pour les amateurs de films et de documents
multimdias ;
http://www.mybeer.org : site pour les amateurs de bire ;
http://www.amazon.com : site de vente de livres et disques ;
http://www.moviecritic.com : site pour les amateurs de films ;
http://vguide.sepia.com : site pour les amateurs de films ;
http://www.topouaibe.com : systme gnral pour valuer les pages web ;
http://cmc.dsv.sv.se/select : systme gnral pour valuer les pages web ;
http://movielens.umn.edu : site pour les amateurs de films ;
http://www.trabble.com : site dvaluation de restaurants ;
http://abyss.eurocom.fr :1111/AMW/login.html : muse virtuel de tableaux.
Lobjectif de cette comparaison est dobserver tous ces systmes sous langle des
fonctionnalits perceptibles pour les utilisateurs. Ainsi chacune de ces fonctionnalits
sera prsente de faon globale et synthtique :
lutilisateur (son identification, son profil) ;
perception de la communaut (statistiques, classement) ;
lvaluation des documents (ergonomie, contrle de lvaluation).

Filtrage collaboratif

263

8.3.8.1. Lutilisateur
8.3.8.1.1. Son identification

Sepia

Select

Movielens

Trabble

Nom, prnom
Age, sexe, profession, code postal

Webmuseum

Moviecritic

Topouaibe

Amazon

Login et mot de passe

Mybeer

E-mail

IMDB

Parmi les informations fournir par lutilisateur lors de lenregistrement, on


trouve les choses suivantes.

Tableau 8.2. Informations fournir lors de lenregistrement

Notons que Topouaibe autorise une valuation parfaitement anonyme.

Gots de lutilisateur

Amazon

Sepia

Movielens

Evaluation dun nombre minimal de produits

Moviecritic

Voici quelques mthodes pour constituer un profil significatif.

Tableau 8.3. Mthodes pour constituer un profil significatif

Parmi les modalits de connexion au systme, on trouve celles du tableau 8.4.


Pour limiter les utilisations biaises ou malintentionnes, seul le systme IMDB
exige la connaissance du vritable email de lutilisateur.

Lors de lvaluation (pas


didentification larrive sur le site)

Select

Sepia

Trabble

Mybeer

Amazon

Webmuseum

Ds lentre sur le site

Movielens

Assistance intelligente la RI

Moviecritic

264

A chaque valuation
Tableau 8.4. Modalits de connexion au systme

8.3.8.1.2. Son profil

Par prfrence ou dfiance


Par ordre alphabtique

Trabble

Amazon

Select

Sepia

Moviecritic

Movielens

Webmuseum

Concernant la visualisation du profil, les systmes classent les uvres values.

x
x

Par ordre chronologique dvaluation

x
x

Tableau 8.5. Visualisation du profil

Concernant les possibilits offertes lutilisateur pour raffiner ou faire voluer


volontairement son profil, tous les sites proposent lvaluation. Au-del de cette
fonctionnalit indispensable, Moviecritic propose lutilisateur dvaluer les films
quil a dj vus, et dans Webmuseum, lutilisateur peut demander dvaluer 10 50
tableaux.
8.3.8.2. La perception de la communaut
8.3.8.2.1. Les statistiques
Certains systmes prsentent pour chaque document, des statistiques sur leur
perception et leur historique dans la communaut.

IMDB

Moyenne des valuations

Prdiction du systme

Topouaibe

Amazon

265

Moviecritic

Filtrage collaboratif

Nombre de votants

Rpartition des valuations dans le temps

Rpartition des valuations par valeur, par catgorie dutilisateur


(sexe, ge, etc.)

Tableau 8.6. Visualisation du profil

8.3.8.2.2. Le classement
Certains systmes offrent des vues globales sur la collection de documents dans
la communaut. Cela se concrtise dans Webmuseum, par un hit-parade des 4
uvres les plus ou les moins apprcies.
8.3.8.2.3. Les groupes
On distingue trois sortes de groupes :
tous les autres ;
ceux qui valuent de la mme faon ;
ceux qui se sont volontairement regroups (possibilit offerte par Movielens).
8.3.8.3. Lvaluation
8.3.8.3.1. Lergonomie

Select

Sepia

Les toiles

Le d
Le thermomtre

Moviecritic

Mtaphores

Amazon

Parmi les mtaphores pour lvaluation des documents, on trouve celles du


tableau 8.7.

x
x

Tableau 8.7. Mtaphores dvaluation

266

Assistance intelligente la RI

Mybeer

Select

Menus droulants

Movielens

Amazon

Listes de choix

Trabble

Dispositifs interactifs
dvaluation

Webmuseum

Parmi les dispositifs interactifs dvaluation, on trouve :

Tableau 8.8. Dispositifs interactifs dvaluation

Les chelles dvaluation sont toutes discrtes : il faut choisir une valeur soit
numrique, soit symbolique dans un ensemble prdfini (5 valeurs en gnral).
Topouaibe propose un systme dvaluation compltement diffrent.
En gnral, un seul critre dvaluation est possible : le point de vue global de
lutilisateur sur le document. Seul Cuisinenet propose une valuation plus dtaille.
Lors de lvaluation, le document valuer peut tre prsent. Cest le cas dans la
plupart des systmes. Notons la difficult que peuvent avoir les utilisateurs
dAmazon pour trouver ledit document dans le foisonnement dinformations. Dans
le cas de Select, il nest pas prsent : le systme propose une liste de documents
valuer faisant ainsi appel la mmoire de lutilisateur.
8.3.8.3.2. Le contrle de la dmarche de lvaluation
Lauthenticit de lvaluation est contrle soit en limitant sa frquence, soit par
lidentification du votant (rendue formelle par la validit de son adresse e-mail).
La dmarche dvaluation de la part de lutilisateur peut tre :
volontaire : de sa propre initiative, lutilisateur va chercher valuer le document
qui lui est prsent. Cest le cas de la plupart des systmes.
obligatoire : le systme oblige lutilisateur valuer des documents pour pouvoir
continuer utiliser le systme. Seul Webmuseum force cette valuation.
Lorsque lvaluation est associe lutilisateur, lvaluation est unique pour
chaque produit (avec ventuellement la possibilit de modifier). Au contraire
Topouaibe permet dvaluer un document jusqu une fois par heure, en se basant
sur la session puisque lvaluation est anonyme.

Filtrage collaboratif

267

8.4. Complmentarits entre approches collaboratives et par le contenu


Lapproche collaborative apporte des rponses aux problmes rencontrs dans le
filtrage bas sur le contenu. Cest en cela que ces deux approches se compltent
avantageusement. Le tableau 8.9 synthtise les lments de comparaison de ces deux
approches.
Filtrage bas sur le contenu
Filtrage collaboratif
smantique
Amorage (dmarrage de
lexploitation du systme)

Le filtrage peut commencer


aprs ltablissement du
profil

Exige une base de donnes


substantielle et plusieurs
valuations de lutilisateur
avant dtre utilisable

Qualit de linformation
(lisibilit, fiabilit,
nouveaut, etc.)

La qualit de linformation
nest pas connue

La qualit de linformation
est connue via des
valuations dutilisateurs

Contexte de linformation
(domaine dintrt)

Lidentification du domaine
se fait gnralement par la
co-occurrence des termes
dans chaque document

Lidentification du domaine
se fait par la diffrence des
domaines dintrt des
utilisateurs

Effet entonnoir

Le systme ne suggre que


des documents dont le thme
a dj t voqu
explicitement

Le systme peut suggrer


des documents sans rapport
explicite avec les thmes
dj voqus

Tableau 8.9. Comparaison de approche collaborative et de lapproche par le contenu

8.5. Conclusions
8.5.1. Difficult dvaluation
Lvaluation des systmes de filtrage collaboratif prsente des difficults, dont
certaines sapparentent aux difficults dvaluation des systmes de recherche
dinformation, et dautres sont propres au filtrage collaboratif.
Evaluer un systme de recherche dinformation pose problme dans la mesure o
il est difficile dy intgrer lutilisateur, alors que cest lui qui en dernier ressort,
dcide de la qualit du service rendu par le systme. Ces difficults se retrouvent
bien videmment avec les systmes de filtrage collaboratif, mais ils sont dautant
plus aigus que le service rendu par ce type de systme doit svaluer au cours du
temps, tout au long de lexploitation du systme. En effet, pour lutilisateur, le
rapport entre le cot (son effort dvaluation) et le bnfice (les documents reus

268

Assistance intelligente la RI

automatiquement) varie au cours du temps. En particulier, au dbut de lutilisation


du systme, ce rapport lui est souvent dfavorable, ce qui peut le dcourager
dutiliser le systme pour atteindre une phase plus favorable. La dfection des
utilisateurs pnalise alors lensemble des performances du systme, qui ne fonctionne
bien quavec une participation active dun nombre suffisant dutilisateurs.
Ainsi la question de lvaluation des systmes de filtrage collaboratif constitue
un sujet de recherche de premire importance pour le succs de ce paradigme
daccs linformation.
8.5.2. Systmes de filtrage et systmes de recommandation
Le filtrage collaboratif permet de rsoudre un certain nombre de problmes lies
la prise en compte des donnes multimdias ou des caractristiques contextuelles
des documents. Mais dautres canaux traditionnels de recherche dinformation,
jusque-l informels, mritent dtre tudis. Les avis et conseils des collgues et des
amis permettent souvent damliorer la qualit de la recherche personnelle. Aussi,
bon nombre dindications vers des ressources intressantes sont changs soit
directement soit au travers du e-mail : des personnes qui trouvent des documents
intressants envoient des pointeurs sur ces documents leurs collgues. Un pointeur
contient gnralement un lien hypertexte au document source et souvent une
information contextuelle pour aider le destinataire dterminer son intrt et sa
pertinence avant dy accder.
Plusieurs systmes ont t labors pour supporter ce genre de communication.
Ils ont t regroups sous lappellation systmes de recommandation . Les
techniques qui y sont employes ont la caractristique dtre hybrides et prsentent
lavantage de ne pas tre cloisonnes en recherche dinformation ou filtrage
dinformation. Elles impliquent des domaines de comptences trs varis allant du
monde de linterface homme-machine aux sciences cognitives ou sociales.
Les systmes de recommandation ne se limitent pas grer des rfrences
des documents, mais supportent des domaines larges : cinma, cuisine, assistance
juridique, technologies de pointes, etc. Nous en avons dcrit deux dans ce chapitre :
les systmes Phoaks et Siteseer.

8.6. Bibliographie
[BAL 97] BALABANOVIC M., SHOHAM Y., Fab: content-based, collaborative recommendation ,
Communications of the ACM, vol. 40, n 3, p. 66-72, mars 1997.
[BEL 92] BELKIN N.J., CROFT W.B., Information filtering and information retrieval: two sides
of the same coin? , Communications of the ACM, vol. 35, n 12, p. 29-38, dcembre 1992.

Filtrage collaboratif

269

[BRE 98] BREESE J.S., HECKERMAN D., KADIE C., Empirical analysis of predictive
algorithms for collaborative filtering , Proceedings of the Fourteenth Annual
Conference on Uncertainty in Artificial Intelligence, p. 43-52, juillet 1998.
[CRO 93] CROFT W.B., Knowledge-based and Statistical approaches to Text Retrieval ,
IEEE EXPERT, vol. 8, n 2, p. 8-12, avril 1993.
[DEL 00] DELGADO J., Agent-based Recommender Systems and Information Filtering on
the Internet, PhD. Thesis, Nagoya Institute of Technology, mars 2000.
[GOL 92] GOLDBERG D., NICHOLS D., OKI B.M., TERRY D., Using collaborative filtering
to weave an information Tapestry , Communications of the ACM, vol. 35, n 12, p. 6170, dcembre 1992.
[KAU 97] KAUTZ H., SELMAN B., SHAH M., Referral Web: Combining Social Networks and
Collaborative Filtering , Communications of the ACM, p. 63-65, vol. 40, n 3, mars 1997.
[MAL 95] MALTZ D., EHRLICH K., Pointing the way: active collaborative filtering ,
Proceedings of CHI95, p. 7-11, mai 1995.
[MIL 97] MILLER D., MALTZ J.L., HERLOCKER L.R, GORDAN A., RIEDL J.A., KONSTAN B.N.,
GroupLens: applying collaborative filtering to Usenet News , Communications of the
ACM, vol. 40, n 3, p. 77-87, mars 1997.
[PAL 97] PALME, J., Notes from the 5th DELOS Workshop 1997 in Budapest: Filtering
and Collaborative Filtering , http://www.iihe.ac.be/scimitar/J1297/delos-filtering-notesnov97.htm, novembre 1997.
[RES 94] RESNICK P., IACOVOU P., SUCHAK M., BERGSTROM P., RIEDL J., GroupLens: An
Open Architecture for Collaborative Filtering of Netnews , Proceedings of ACM
Conference on Computer Supported Cooperative Work, p. 175-186, 1994.
[RUC 97] RUCKER J., POLANCO M.J., Siteseer: personalized navigation for the Web ,
Communications of the ACM, vol. 40, n 3, p. 73-75, mars 1997.
[TER 97] TERVEEN L., HILL W., AMENTO B., MCDONALD D., CRETER J., Phoaks: a system
for sharing recommendations , Communications of the ACM, vol. 40, n 3, p. 59-62,
mars 1997.

You might also like