Professional Documents
Culture Documents
Ecole
doctorale IAEM Lorraine
UFR math
ematiques et informatique
D
epartement de formation doctorale en informatique
Doctorat de luniversit
e Nancy 2
(sp
ecialit
e informatique)
par
Ilham Esslimani
Composition du jury
Rapporteurs :
Examinateurs :
Directrice de th`ese :
Remerciements
Je tiens adresser tout dabord mes remerciements ma Directrice de thse Anne
Boyer pour son encadrement et ses conseils pendant ces annes de thse. Sa disponibilit,
son soutien et son esprit pdagogique mont permis dapprendre beaucoup de choses et
de donner le meilleur de moi-mme. En outre, sa constante bonne humeur a rendu trs
agrable nos changes tout au long de la thse.
Je remercie galement Armelle Brun pour tout le temps quelle ma consacr, pour son
esprit dcoute, pour les changes intressants quon a eu pendant la thse et pour tous
les conseils quelle ma prodigu. Quelle trouve ici lexpression de ma reconnaissance.
Je tiens exprimer ma gratitude au Groupe Crdit Agricole (S.A) pour avoir soutenu
nancirement cette thse et remercier en particulier Jean Philippe Blanchard pour sa
collaboration et pour ses conseils aviss qui mont permis de mener bien mon travail de
thse.
Jadresse mes remerciements galement aux membres du jury Ccile Paris et Sylvie
Calabretto pour avoir accept dtre les rapporteurs de ma thse, Monique Grandbastien
et Jean Philippe Blanchard davoir t examinateurs de ma thse.
Je remercie la socit Sailendra et en particulier Rgis Lhoste pour son assistance, son
soutien et sa collaboration.
Mes remerciements vont aussi tous les membres de lquipe KIWI que jai cotoys au
quotidien. Jai beaucoup apprci lambiance de travail et les moments agrables passs
avec eux qui taient riches tant sur le plan professionnel que personnel. Je remercie en
outre toute lquipe MAIA de mavoir accueilli pendant ma premire anne de thse.
Mes remerciements sadressent galement Antoinette Courrier pour son aide notamment
pour toutes les procdures administratives qui taient lies ma thse.
Je remercie toute ma famille : mes parents, mes surs et mes frres qui mont pouss
jusquau bout pour eectuer cette thse. Je remercie inniment mon mari pour son encouragement, son coute et son soutien tout au long de ces annes et grce qui jai pu
surmonter des moments diciles.
Une pense trs particulire est adresse Najet Boughanmi, Maha Idrissi Aouad, Geoffray Bonnin, Ahmad Hamad, Chrif Haydar et Rokia Bendaoud. Je remercie aussi tous les
amis et les collgues que jai ctoys pendant les annes de thse : Wahiba Touali, Ghaith
Kaabi, Hanen Maghrebi, Ines Sakly, Stphane Goria, Manel Sorba, Ilyess Ohayon, Maxime
Rio, Mathieu Lefort, Nicolas Jones, Sylvain Castagnos, Cdric Bernier, Billel Nefzi, Karim
Dahman, Yoann Bertrand, Cdric Rose, Walid Fdhila et Arnaud Glad. La liste ntant
pas exhaustive, mes remerciements les plus sincres sont adresss toute personne que
jai oublie de citer ici et qui a contribu de prs ou de loin la ralisation de cette thse.
Introduction gnrale
11
Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Problmatique de recherche . . . . . . . . . . . . . . . . . . . . . . . . 13
Approche propose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Partie I
3.1
Cadre industriel . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2
Approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3
Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4
Evaluation
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Structure du document . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Contexte
Chapitre 1
Etat de lart
21
5
Origines et applications . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2
Donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3
Techniques de recommandation . . . . . . . . . . . . . . . . . . . . . . 27
1.4
1.3.1
1.3.2
1.3.3
1.3.4
1.3.5
Techniques hybrides . . . . . . . . . . . . . . . . . . . . . . . . 44
. . . . . . . . . . . . . . . . . 29
Verrous scientiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.4.1
Manque de donnes . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.4.2
Dmarrage froid . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.4.3
1.4.4
Robustesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.4.5
Chapitre 2
Schma gnrique, contexte applicatif et mthodologie exprimentale 55
2.1
2.2
Contexte applicatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.3
Donnes exploites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3.1
Corpus dusage . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3.2
2.4
2.5
Partie II
2.4.2
2.4.3
Couverture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.4.4
Temps de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Benchmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
dation
Chapitre 1
Vers un Filtrage Collaboratif Comportemental
75
1.1
1.2
1.3
Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.3.2
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7
2.2
2.3
2.4
Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2.4.1
2.4.2
Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2.4.3
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Partie III
109
Chapitre 1
Prdiction de lien dans les rseaux comportementaux
1.1
1.2
1.1.2
1.3
1.2.2
1.2.3
1.3.2
Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
1.3.3
1.3.4
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Chapitre 2
Leaders comportementaux pour la recommandation de la nouveaut
2.1
2.2
2.3
Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
2.3.2
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Conclusion et Perspectives
141
147
149
Bibliographie
151
10
Introduction gnrale
1
Contexte
http ://www.internetworldstats.com
Alessio Signorini. "Indexable Web Size". http ://www.cs.uiowa.edu/asignori/web-size/
11
Introduction gnrale
cherche proposent des milliers voire des millions de rsultats se rapportant direntes
thmatiques telles que rseau informatique, rseau de transport, rseau dentreprises
ou mme rseau de trac de drogue.
De ce fait, la qualit et la pertinence des items proposs par les moteurs de recherche sont
notamment conditionnes par la prcision des quations de recherche des utilisateurs.
En outre, les techniques utilises par les moteurs de recherche tel que Google, exploitent principalement le contenu des pages Web ainsi que la structure des hyperliens
entre ces pages an dvaluer la pertinence et limportance dun item par rapport lquation de recherche formule [Brin et Page, 1998]. Peu importe qui a ralis cette recherche,
si la mme requte est formule par deux utilisateurs, les items proposs seront souvent
les mmes. Or, mme si deux utilisateurs expriment la mme requte, ils nont pas ncessairement les mmes besoins.
Avec lexpansion du Web et le dveloppement de nombreux outils de recherche et
de diusion de linformation, tel que les portails Extranet dentreprise, lenjeu est de
considrer lutilisateur lors du processus de recherche dinformation [Tamine-Lechani et
Calabretto, 2008], en vue de satisfaire ses besoins spciques et de le dliser ainsi au
service en question. Dans le cadre dun portail Extranet, les utilisateurs tant connus au
pralable et non occasionnels, il sagit de leur facilier laccs des informations susceptibles
de les intresser, pouvant tre cruciales et ncessaires laboutissement des projets de
lentreprise et contribuant la prise de dcision.
Ces enjeux lis la satisfaction des attentes des utilisateurs et leur dlisation
constituent les objectifs principaux de la personnalisation de laccs linformation. En
eet, la personnalisation a pour nalit de proposer des items en lien avec les gots rels
de chaque utilisateur. La personnalisation est un axe de recherche qui a suscit lintrt
et lengouement de nombreux chercheurs. Plusieurs approches ont t ainsi proposes,
intgrant les approches bases sur le contenu [Krulwich et Burkey, 1996] [Mladenic, 1999],
les techniques base de critiques issue du domaine de raisonnement partir des cas (Case
Based Reasoning (CBR)) [Burke, 2000] [Aha et al., 2000], les approches bases sur la
navigation sociale [Svensson et al., 2005], etc.
Les systmes de recommandation sinscrivent dans le cadre de la personnalisation de
laccs linformation. Ils peuvent exploiter les approches cites ci-dessus, en vue de proposer un utilisateur actif (i.e. un utilisateur courant), des conseils ditems quils jugent
pertinents par rapport ses attentes. Ils cherchent en eet anticiper ses futurs besoins
travers la prdiction de ses apprciations concernant un ou plusieurs items quil na pas
encore consults.
En dautres termes, les systmes de recommandation ont pour but dassister lactivit
de recherche de lutilisateur et de lorienter vers linformation qui lui convient. En guise
dexemple, sur un portail Extranet dentreprise, le systme de recommandation peut proposer lutilisateur actif un article spcialis, une actualit ou bien un rapport technique.
Sur un site de-commerce, le systme de recommandation peut proposer cet utilisateur
un produit acheter, un livre lire ou un lm regarder.
12
2. Problmatique de recherche
Plusieurs techniques, issues notamment du domaine de lapprentissage automatique
et du data mining sont utilises par les systmes de recommandations. Le Filtrage Collaboratif (FC) [Goldberg et al., 1992] reprsente lune des techniques de recommandation
les plus populaires [Adomavicius et Tuzhilin, 2005]. Lorsquun utilisateur actif a besoin
dune recommandation, le systme de FC retrouve les utilisateurs ayant des prfrences
et des gots similaires cet utilisateur (ces utilisateurs sont appels utilisateurs voisins) et utilise leurs opinions pour gnrer une ou des recommandations susceptibles de
lintresser.
Dans un processus de recommandation, lidentication des apprciations des utilisateurs est souvent fondamentale, dans la mesure o elle permet de connatre lutilisateur
an de lui proposer des recommandations pertinentes. Les apprciations retent les avis
positifs ou ngatifs des utilisateurs vis--vis dun certain nombre ditems. Leur identication peut varier selon le type de lapproche utilise. Par exemple dans un systme de
recommandation base de critiques, elle se base sur limplication directe de lutilisateur
pour lexpression des apprciations, appelle aussi licitation. Certes, llicitation constitue une dmarche fastidieuse pour cet utilisateur [McGinty et Smyth, 2005], puisquil est
sollicit an dexprimer explicitement lintrt quil porte un certain nombre ditems.
De ce fait, le recours llicitation doit dpendre de lenjeu de lapproche utilise.
En eet, dans le cas o cette licitation va lencontre des priorits de lapproche de recommandation, en provoquant par exemple la dmotivation et labandon de lutilisateur,
le recours dautres mthodes didentication des apprciations savre indispensable.
Dans cette optique, lapproche par lanalyse des usages peut se prsenter comme une solution palliant ce problme.
Lintrt de cette approche est dviter llicitation en observant le comportement de
lutilisateur actif et en analysant ses actions lors de son interaction avec un systme informatique tel quun portail Extranet. Lanalyse des usages est ainsi susceptible de ressortir
des indicateurs permettant de dduire les apprciations de cet utilisateur et didentier
ventuellement des communauts virtuelles.
Dans le cadre de cette thse, nous nous intressons ltude des systmes
de recommandation fonds sur le filtrage collaboratif exploitant lanalyse des
usages dans le contexte dun Extranet dentreprise. La section qui suit prsente
les questions de recherche que nous traitons travers cette thse.
Problmatique de recherche
Introduction gnrale
basant sur les opinions de leurs voisins (cf. section 1). Direntes questions de recherche
peuvent ressortir de cette dnition :
1. En terme de modlisation des utilisateurs. An de construire un modle de
lutilisateur actif, le systme a besoin notamment de collecter les donnes relatives
aux apprciations de cet utilisateur. Lanalyse de ces donnes permet ensuite de
construire ce modle utilisateur qui va tre utilis par le systme pour recommander
les items estims pertinents pour cet utilisateur.
De ce fait, lexploitation des apprciations dans un tel processus de recommandation
est primordiale. Or, souvent les donnes relatives aux apprciations ne sont pas sufsamment disponibles dans le systme voire pas disponibles du tout [Sarwar et al.,
2000b]. Par consquent, quand le systme manque de donnes, la modlisation des
utilisateurs devient dicile et complexe. En eet, dans le cadre du FC, le systme
serait incapable didentier un nombre signicatif de voisins ncessaires au calcul
de recommandations adaptes aux besoins de lutilisateur actif.
En outre, lenjeu quant lexploitation des donnes dapprciation est que, du point
de vue utilisateur, les contraintes lies leur collecte doivent tre faibles. Il sagit
dviter lintervention directe de lutilisateur (llicitation) pour exprimer ses apprciations parce que dune part, lutilisateur dispose de peu de connaissances sur les
items pour pouvoir les valuer tous, et dautre part, parce quil a tendance tre
rticent quant lvaluation ditems [Burke, 2002].
2. En terme didentification de voisins pertinents. Les systmes de recommandation base de FC peuvent utiliser lapproche kNN (k Nearest Neighbors) [Resnick
et al., 1994], qui repose sur la recherche des plus proches voisins, an de calculer les
recommandations. Lidentication des plus proches voisins consiste slectionner
les k voisins les plus similaires lutilisateur actif. Pour lvaluation des similarits, cette approche prend en considration les apprciations relatives aux items
communs lutilisateur actif et les autres utilisateurs. Nanmoins, un systme bas
sur une approche kNN peut tre confront une situation o les utilisateurs nont
pas ditems communs avec lutilisateur actif (donc pas de voisins). Ainsi, faute de
voisins, il sera incapable de proposer des recommandations cet utilisateur. A cet
eet, lutilisation dautres techniques permettant de dcouvrir les similarits entre
utilisateurs savre cruciale.
3. En terme de recommandation de la nouveaut. Lorsquun nouvel item est
introduit dans le systme, il ne peut pas tre pris en compte dans le cadre de
recommandations bases sur le FC, tant donn que les apprciations des utilisateurs
vis--vis de cet item ne sont pas encore disponibles. Ce problme est connu sous
le nom de dmarrage froid ou de latence [Schein et al., 2002]. Les systmes
de recommandation doivent ainsi faire face ce problme dans le but de prendre
en considration les nouveaux items au niveau des recommandations proposes
lutilisateur.
14
3. Approche propose
4. En terme de prcision des recommandations [Herlocker et al., 1999]. Cette
question est troitement lie aux deux premires questions de recherche cites cidessus. En eet, la prcision des recommandations fournies par un systme de recommandation dpend essentiellement de la disponibilit des donnes permettant de
modliser les utilisateurs et didentier des voisins pertinents et ables. En outre,
la performance du systme en terme de prcision ou qualit de recommandation,
mane galement de la abilit de lalgorithme de modlisation utilis.
A cet eet, pour atteindre une meilleure performance en terme de prcision, les
systmes de recommandation ont pour enjeu de fournir lutilisateur actif des recommandations ables correspondant ses besoins, ce qui permettra de le dliser
le plus possible et damliorer lusage du systme informatique en question.
5. En terme de rduction du temps de calcul et de lespace de recherche. La
performance dun systme de recommandation est value galement au niveau du
temps de calcul. En eet, le temps de traitement requis pour le calcul des recommandations doit tre rduit, notamment par la rduction de lespace de recherche utilis
au niveau de la modlisation. Cet enjeu est li galement au passage lchelle,
lorsque le systme dispose dun nombre considrable dutilisateurs et ditems traiter. Dautant plus, ce nombre volue dynamiquement dans le temps, do lintrt
de la rduction de lespace de recherche dans le processus de recommandation.
6. En terme de robustesse. Le systme de recommandation doit tre robuste pour
faire face aux donnes bruites et garantir la abilit des recommandations.
La problmatique scientifique que nous traitons est lie la modlisation
des utilisateurs en se basant sur lobservation du comportement et sur lanalyse des usages dans le cadre dun processus de recommandation exploitant le
filtrage collaboratif. Notre objectif est de remdier au problme de manque
de donnes, de dmarrage froid et damliorer la prcision des recommandations. En outre, il sagit de garantir la robustesse du systme de recommandation.
3
3.1
Approche propose
Cadre industriel
Cette thse sinscrit dans le cadre du projet PERCAL ralis en collaboration avec le
Crdit Agricole S.A, en particulier avec le Ple Innovation qui est charg de ltude, de
lexprimentation et de la dnition des modalits de mise en uvre des technologies au
service des mtiers bancaires au sein du Groupe Crdit Agricole.
A partir des questions de recherche souleves et en prenant en compte le contexte dun
15
Introduction gnrale
Extranet dentreprise, lobjectif de ce projet est de proposer de nouvelles techniques de
recommandation permettant laccs personnalis linformation, an doptimiser lusage
des ressources de lExtranet documentaire par les utilisateurs du Groupe Crdit Agricole.
En eet, les items et les utilisateurs de cet Extranet tant trs nombreux et varis (des
milliers dutilisateurs et des dizaines de milliers ditems), lenjeu est de pouvoir mettre
en place des outils de recommandation collaboratifs, sappuyant sur lanalyse des usages,
capables de mettre la disposition des utilisateurs des informations pertinentes adaptes
leurs besoins.
3.2
Approche
Lobjectif de cette thse est dutiliser lapproche par analyse des usages an de construire des modles utilisateurs partir de lobservation de leur comportement navigationnel.
En eet, notre hypothse est que lanalyse des traces dusage, qui reprsentent lensemble
des actions et des vnements rsultant du processus dinteraction dun utilisateur avec le
systme, peut extraire un certain nombre dindicateurs retant les apprciations de cet
utilisateur.
Analyser les usages va permettre ainsi de cerner le comportement de lutilisateur, de
connatre mieux ses besoins, ce qui permettra damliorer potentiellement les performances
et la qualit des recommandations calcules par le systme de recommandation. En outre,
tant donn que la quantit de traces et dobservations traiter par le systme de recommandation est importante, notre objectif consiste galement proposer une approche
permettant de rduire lespace de recherche lors de lapprentissage des modles utilisateurs et pour la gnration des recommandations.
De plus, cette approche de recommandation doit permettre de faire face au problme
de manque de donnes. A ce niveau, notre hypothse est que les techniques issues du
domaine de lanalyse des rseaux sociaux peuvent tre des solutions prometteuses face
ce problme de manque de donnes grce la dcouverte de nouvelles relations entre
utilisateurs.
3.3
Contributions
3. Approche propose
avec une approche de clustering calculant les clusters selon les similarits de voisins
entre utilisateurs [Esslimani et al., 2009a]. Ce modle a pour objectif de rduire lespace de recherche des voisins et damliorer le temps de calcul des recommandations
ainsi que leur prcision.
Un modle de recommandation exploitant les mthodes de prdiction de lien dans un
rseau comportemental [Esslimani et al., 2009b] [Esslimani et al., 2009c] [Esslimani
et al., 2010a]. Dans lobjectif damliorer lidentication des voisins dans le cadre de
ce rseau, ce modle utilise les associations transitives et les mthodes de prdiction
de lien an dtablir de nouvelles relations entre utilisateurs. Ce modle a pour
enjeu de faire face au problme de manque de donnes et damliorer la prcision
des recommandations.
Un modle de recommandation bas sur les leaders comportementaux pour la recommandation de la nouveaut [Esslimani et al., 2010c] [Esslimani et al., 2010b].
Ce modle vise dtecter des leaders dans lobjectif de remdier au problme de
dmarrage froid dans le cadre dun rseau comportemental. Ces leaders ont la
particularit dtre au centre de ce rseau et disposent dune potentialit importante de prdiction des apprciations des autres utilisateurs concernant les nouveaux
items introduits dans le systme.
3.4
Evaluation
Pour la validation des approches proposes dans cette thse, nous avons valu les
dirents modles au travers dexprimentations sur un corpus dusage rel qui contient
les traces dusage extraites de lExtranet du Crdit Agricole. De plus, nous avons utilis le
corpus Movielens (corpus de rfrence dans le domaine des systmes de recommandation)
du laboratoire de recherche Grouplens3 an de confronter certains de nos rsultats avec
ceux de la communaut scientique.
Ces approches ont t values en termes de prcision, de temps de calcul et de robustesse
et compares au FC standard [Herlocker et al., 1999] utilis souvent dans les travaux de
recherche comme banc dessai (benchmark).
Les rsultats de ces exprimentations ont t publis dans :
des revues internationales : Journal of Digital Information Management (JDIM)
[Esslimani et al., 2008a], the Social Network Analysis and Mining Journal (SNAMJ)
[Esslimani et al., 2010a] ;
des confrences internationales : WEBIST 2009 [Esslimani et al., 2009a], ASONAM
2009 [Esslimani et al., 2009b], EC-WEB 2010 [Esslimani et al., 2010c], ASONAM
2010 [Esslimani et al., 2010b] ;
un workshop international : RSPR 2008 [Esslimani et al., 2008b] ;
3
http ://www.grouplens.org
17
Introduction gnrale
un colloque francophone : ISKO 2009 [Esslimani et al., 2009c].
Structure du document
18
Premire partie
Contexte
19
Chapitre 1
Etat de lart
Ce chapitre a pour objectif de faire un tour dhorizon, non exhaustif, des systmes de
recommandation lis au domaine de la recherche dinformation, en voquant leur origine
et leurs applications et en dcrivant les donnes quils exploitent. De plus, il sagit de prsenter les principales techniques de recommandation en soulignant leurs apports et leurs
limites et de discuter les principaux verrous scientiques auxquels nous nous intressons
dans le cadre de cette thse.
1.1
Origines et applications
1.2
Donnes
Dans le cadre des systmes de recommandation exploitant notamment le FC, la dtermination des apprciations est requise an de pouvoir modliser lutilisateur. Cette
dmarche didentication dapprciations repose soit sur des approches dites ractives
ou soit dites proactives [Anand et Mobasher, 2005]. Dans le cas dune approche ractive,
lutilisateur ragit suite la demande du systme an dexprimer ses besoins, tandis que
4
http
http
6
http
7
http
8
http
9
http
5
22
://www.grouplens.org
://www.informatik.uni-freiburg.de/cziegler/BX
://www.lastfm.fr
://eigentaste.berkeley.edu
://www.amazon.com
://www.gregsadetsky.com/aol-data
1.2. Donnes
dans une approche proactive, lutilisateur est moins sollicit, cest le systme qui anticipe
ses besoins.
Dans les approches ractives, la personnalisation est considre comme un processus
conversationnel fond sur des interactions explicites avec lutilisateur dans lobjectif dafner ses apprciations. Ce processus est ralis via un ensemble de questions ncessitant
un retour de lutilisateur qui doit exprimer explicitement ses apprciations concernant des
critres ou des items.
Les systmes de recommandation de type ractif, utilisent pour la plupart, des techniques base de critiques, issues du raisonnement partir des cas [Smyth, 2007]. Llicitation du retour de lutilisateur y est un composant principal permettant dadapter
prcisment les recommandations aux besoins exprims par cet utilisateur.
Par exemple, Entree [Burke, 2000] est un systme de recommandation de restaurants
ractif qui utilise des requtes, partir desquelles lutilisateur spcie le type de cuisine,
le prix, le style de restaurant, la localit, latmosphre, etc. Lutilisateur peut ainsi soit
accepter les recommandations proposes ou bien les critiquer travers des critres spciques (moins cher, plus calme, etc.).
Dautres exemples de systme base de critique sont proposs galement par [Aha et al.,
2000], [Shimazu, 2001] et [McGinty et Smyth, 2005].
Lavantage des systmes base de critique est quils sont faciles appliquer et ne
requirent pas une connaissance approfondie du domaine de la part de lutilisateur. Toutefois, les critiques demeurent une arme double tranchant. En eet, si elles reprsentent
des informations explicites sur les apprciations, elles ncessitent un eort et un investissement de lutilisateur quant lexpression de ses avis et de ses retours [McGinty et
Smyth, 2005].
Les approches proactives privilgient plutt la dduction des apprciations pour fournir des recommandations. Les systmes de recommandation proactifs ne ncessitent pas
de retour de lutilisateur (suite aux recommandations) an dorienter le processus de recommandation. Ces systmes reposent sur lobservation des interactions de lutilisateur
an destimer ses gots.
Cette observation peut tre directe ou indirecte. Quand elle est directe, elle se base sur
des donnes exprimes explicitement par lutilisateur en attribuant par exemple :
1. des notes aux items consults indiquant le degr dapprciation dun item par cet
utilisateur. Les notes sont souvent numriques et limites par une chelle de valeurs.
Une note (numrique) leve signie que lutilisateur accorde un grand intrt
litem et quil correspond bien ses gots. Cependant, une note faible signie que
lutilisateur ne sintresse pas litem. Dans dautres cas, les notes peuvent tre
exprimes sous une forme binaire telle que Aime ou Aime pas.
La Figure 1.1 prsente un exemple tir du site de vente en ligne Amazon qui ore la
possibilit de noter des items (par exemple le livre Network models of the diusion
23
Dune manire gnrale, lchelle de note doit reter les apprciations dun utilisateur vis--vis ditems. Les chelles de note les plus communes sont prsentes dans
le tableau 1.1 [Schafer et al., 2007]. Le choix dune chelle de note trs large telle
que [1 100] peut augmenter lincertitude sur la valeur de note attribue. Ainsi, il
est dicile de dterminer par exemple la dirence entre une note de 55 et de 60
sur lchelle [1 100], lcart tant dicilement interprtable par le systme et la
nuance dicile valuer pour un utilisateur.
Tab. 1.1 Les chelles de notes les plus communes
Echelle de note
Description
Unaire
Aime ou Je ne sais pas
Binaire
Aime ou Aime pas
Entier
[1 5], [1 7] ou [1 10]
Lutilisation des notes permet de faciliter lapprentissage des apprciations, vu que
les notes sont faciles traiter par le systme de recommandation. Nanmoins, dans
24
1.2. Donnes
certains cas, les utilisateurs nayant pas les mmes faons de noter, les notes peuvent
ne pas tre ables. En eet, certains utilisateurs attribuent des notes leves et
dautres non. Par exemple, sur une chelle [1 5], une note qui vaut 3 peut tre
ngative pour un utilisateur et plutt neutre pour un autre.
2. des commentaires, des mots-cls ou des tags sur des items. La gure 1.2 montre un
exemple dajout de tags sur le site de recommandation de musique LastFM. Ces
tags sont exprims dans un langage libre propre chaque utilisateur, exprimant le
mieux son avis.
Toutefois, tout comme les systmes base de critiques, lexpression des apprciations
via des commentaires ou tags ncessite une motivation de la part de lutilisateur,
puisquelle requiert un eort cognitif plus important, par rapport lattribution
des notes. De plus, le traitement de ces commentaires (exprims en langage libre)
par le systme de recommandation demeure assez complexe. Le systme doit en eet
procder une analyse du contenu et une interprtation des commentaires an
destimer les apprciations.
Fig. 1.2 Exemple de tags sur le site LastFM
Technique de suivi et denregistrement du mouvement oculaire sur un site Web par exemple, pour
dtecter les zones du site les plus vises par lutilisateur
26
1.3.
Techniques de recommandation
1.3
Techniques de recommandation
1.3.1
La technique de recommandation base sur le contenu repose sur lhypothse que des
items ayant des contenus similaires seront apprcis pareillement [Schafer et al., 2007].
Pour la proposition de recommandations aux utilisateurs, cette technique est fonde sur
lanalyse des similarits de contenu entre les items prcdemment consults par les utilisateurs et ceux qui nont pas t encore consults [Burke, 2002].
Ainsi, an de recommander par exemple des lms un utilisateur, le systme analyse les
corrlations entre ces lms et les lms consults antrieurement par cet utilisateur. Ces
corrlations sont values en considrant des attributs comme le titre et le genre. De ce
fait, parmi ces lms, ceux qui seront recommands lutilisateur, sont les plus similaires
(en terme dattribut) aux lms consults par cet utilisateur [Adomavicius et Tuzhilin,
2005].
27
1.3.
Techniques de recommandation
qui leur sont associs. Par consquent, an davoir un ensemble susant dattributs,
il est ncessaire soit de prtraiter le contenu pour permettre une extraction automatique dattributs, soit dattribuer les descriptions manuellement [Shardanand et
Maes, 1995]. Dans les deux cas, lextraction dattributs demeure une opration fastidieuse surtout lorsquil sagit ditems multimdia tels que : les images, les documents
audio et vido, etc. De ce fait, certains aspects pertinents du contenu peuvent tre
ngligs, ce qui peut avoir un impact sur la qualit des recommandations.
Dans les sections suivantes, nous nous intressons aux approches qui font abstraction
du contenu. Ces approches, bases sur le FC, exploitent notamment les apprciations
(explicites et/ou implicites) ainsi que les traces dusage des utilisateurs dans le cadre des
recommandations.
Ces approches reposent en eet sur lhypothse que les utilisateurs qui partageaient les
mmes gots dans le pass (en attribuant des notes similaires, en achetant les mmes
articles ou en visitant les mmes items), vont trs probablement avoir les mmes gots
dans le futur [Goldberg et al., 2001].
1.3.2
Lapproche base sur la mmoire exploite les apprciations des utilisateurs sur les items
(sous forme de notes par exemple), an de gnrer les prdictions [Sarwar et al., 2001].
Cette approche applique principalement des techniques statistiques dans le but didentier
des utilisateurs voisins ayant, sur un mme ensemble ditems, des apprciations similaires
celles de lutilisateur actif. Une fois les voisins identis, lapproche base sur la mmoire
utilise dirents algorithmes an de combiner les apprciations des voisins et gnrer des
recommandations lutilisateur actif [McLaughlin et Herlocker, 2004].
Dans ce contexte, la technique la plus utilise et la plus populaire est le Filtrage Collaboratif (FC) bas sur la mmoire [Goldberg et al., 1992]. Le FC bas sur la mmoire
recherche les k plus proches voisins (k Nearest Neighbors kNN) [Resnick et al., 1994],
i.e. les k voisins les plus similaires lutilisateur actif, dans le but de gnrer des recommandations ables. Ces voisins sont identis partir dune valuation de la similarit
des apprciations sur les items communs lutilisateur actif et les autres utilisateurs.
Dans un systme de FC bas sur la mmoire, tel que dcrit dans la gure 1.3, les donnes sont reprsentes sous forme dune matrice Utilisateur x Item (dont un exemple est
prsent dans le tableau 1.2), o les lignes reprsentent les utilisateurs U = {u1 , ...um } et
les colonnes constituent les items I = {i1 , ...ij }. Les utilisateurs fournissent leurs opinions
concernant les items sous forme de notes v. Pour un utilisateur actif ua (par exemple Jean)
nayant pas exprim son avis concernant un item ik (le lm Les visiteurs), le systme
recherche les utilisateurs voisins les plus proches nots Ua (parmi Rose, Ryan et Hlne
ayant not le lm Les visiteurs et qui ont dj co-not le lm Pulp Fiction avec Jean) et
utilisent leurs opinions pour prdire la note manquante v(ua , ik ) (v(Jean , Les visiteurs)).
29
Identification du voisinage
Plusieurs mesures ont t exploites dans le cadre du FC bas sur la mmoire dans le
but dvaluer les similarits dapprciations entre utilisateurs et identier les utilisateurs
voisins (les plus proches). Parmi ces mesures nous pouvons citer : le coecient de corrlation de Pearson [Herlocker et al., 1999], la mesure base sur le cosinus [Sarwar et al.,
2000b], la corrlation de Spearman [Resnick et al., 1994], Mean squared dierence (qui
reprsente une mesure de dissimilarit) [Shardanand et Maes, 1995], etc.
Les mesures les plus populaires sont le coecient de corrlation de Pearson et la mesure
base sur le cosinus. Cette popularit est lie leur contribution la performance des
systmes de recommandation [Anand et Mobasher, 2005].
Nous dcrirons ces deux mesures ci-dessous. Notons que CorrP (ua , ub ) et Cos(ua , ub ) dsignent les similarits calcules respectivement avec le coecient de corrlation de Pearson
et la mesure base sur le cosinus, entre deux utilisateurs ua et ub . Ia et Ib reprsentent
respectivement lensemble des items nots par ua et ub . v(ua ) reprsente la moyenne de
notes de ua et v(ua , i) dsigne la note de ua sur litem i. Ic dsigne les items co-nots
(nots en commun) entre lutilisateur actif ua et lutilisateur ub .
30
1.3.
Techniques de recommandation
CorrP (ua , ub ) = qP
iIc (v(ua , i)
(1.1)
La mesure base sur le cosinus : cette mesure est trs frquemment utilise dans le
domaine de la recherche dinformation. Dans ce contexte, elle consiste valuer la
similarit entre deux documents reprsents par des vecteurs de frquences de mots,
en calculant le cosinus de langle form par ces deux vecteurs [Salton et McGill,
1983].
En FC, cette mesure peut tre adapte pour lvaluation de la similarit entre deux
utilisateurs ua et ub en calculant le cosinus de langle entre les vecteurs correspondant
ces deux utilisateurs sur la base de lquation (1.2) [Breese et al., 1998], en prenant
en considration les items co-nots Ic . La valeur calcule par la mesure cosinus est
comprise entre 0 et 1.
P
v(ua , i) v(ub , i)
P
2
2
i Ia v(ua , i )
i Ib v(ub , i )
Cos(ua , ub ) = qP
iIc
(1.2)
Linconvnient des deux mesures Pearson et cosinus, est que le calcul des similarits
devient non able voire impossible, lorsque le systme dispose de peu ditems conots entre utilisateurs. An de pallier ce problme, certaines extensions ont t
proposes notamment par [Breese et al., 1998], telle que La note par dfaut
consistant attribuer une valeur par dfaut une note manquante. Mais lenjeu
ce niveau est de savoir quelle valeur par dfaut choisir (apprciation positive,
ngative ou bien neutre) et dvaluer son impact sur le calcul des similarits.
Par ailleurs, en vue damliorer la performance des systmes de recommandation
exploitant le FC bas sur la mmoire, [Breese et al., 1998] ont propos dutiliser :
Lamplication de cas permettant de transformer les similarits en ampliant
les valeurs proches de 1 et en pnalisant celles qui sont proches de 0, dans le
but dattribuer un poids important aux voisins fortement similaires lutilisateur
actif.
La frquence inverse utilisateur inspire de la mthode IDF (Inverse Document
Frequency), prsente dans la section 1.3.1. Lhypothse est que les items apprcis par un grand nombre dutilisateurs sont moins pertinents pour le calcul des
similarits compars ceux qui sont apprcis par un nombre restreint dutilisateurs. Ainsi, chaque note est transforme en la multipliant par la frquence inverse
utilisateur qui est quivalente log nni , n tant le nombre total des utilisateurs et
k
nik le nombre dutilisateurs ayant not ik .
31
P red(ua , ik ) = v(ua ) +
ub Ua
(1.3)
Le choix des plus proches voisins Ua est dterminant dans la mesure o la performance
du systme dpend de la qualit des voisins impliqus lors de la gnration des prdictions.
Direntes stratgies peuvent tre prises en compte pour la slection de ces voisins :
La dtermination dun seuil de similarit [Breese et al., 1998] [Shardanand et Maes,
1995] : il sagit de slectionner les plus proches voisins qui sont corrls avec lutilisateur actif partir dun seuil de similarit prtabli.
La slection de la taille du meilleur voisinage [Herlocker et al., 1999] : cette stratgie
permet de slectionner les voisins les plus proches (20, 50 ou 100 meilleurs voisins
par exemple).
La dtermination dun seuil pour les items co-nots [Viappiani et al., 2006] : cette
stratgie consiste ltrer les plus proches voisins en fonction du nombre ditems
co-nots avec lutilisateur actif.
Au niveau des trois stratgies, les seuils choisis ne doivent pas avoir des valeurs extrmes (ni trop leves, ni trop faibles). En eet, par exemple, si la valeur du seuil de
similarit est trop faible, cela peut engendrer de mauvaises prdictions quand lutilisateur actif est corrl avec de nombreux utilisateurs. De la mme faon, si le seuil est trs
lev, cela peut aecter la qualit des prdictions et la couverture (la capacit du systme
gnrer des prdictions), quand lutilisateur actif est faiblement corrl avec les autres
utilisateurs. En eet, dans ce cas, le systme ne dispose que de peu de voisins pour pouvoir
gnrer les prdictions.
Une fois les prdictions calcules, le systme de FC recommande lutilisateur actif
les items ayant les valeurs de prdiction les plus leves.
32
1.3.
Techniques de recommandation
Par ailleurs, lapproche base sur la mmoire peut tre centre sur litem. Cette approche a t propose par [Sarwar et al., 2001]. Le principe de cette approche consiste
analyser la matrice Utilisateur x Item pour identier des relations entre les items et
utiliser ces relations an de calculer les prdictions. Lhypothse est que lutilisateur serait
intress par des items, similaires aux items quil a apprcis auparavant (i.e. similaires
en termes de notes attribues par cet utilisateur).
Pour [Sarwar et al., 2001], dans ce processus, il nest pas ncessaire didentier les voisinages pour les utilisateurs. Par consquent, un tel systme a tendance calculer plus
rapidement les recommandations et permettre ainsi le passage lchelle. Les auteurs supposent en eet que le nombre ditems est gnralement moins important que le nombre
dutilisateurs.
Cette hypothse peut tre valable pour les applications en e-commerce, o le nombre potentiel des utilisateurs augmente rgulirement, compar au nombre de produits proposs.
Or, dans dautres contextes, comme dans un portail Extranet (lExtranet du Crdit Agricole par exemple), ce nest pas vraiment le cas. En eet, le nombre dutilisateurs reste
relativement stable par rapport au nombre ditems accessibles qui est de plus en plus
croissant.
Lapproche base sur la mmoire a pour avantage la simplicit de limplmentation
et de lintgration des nouvelles donnes dans le systme. Cependant, cette approche a
linconvnient dtre trs dpendante de la quantit de notes des utilisateurs. En eet, si
les donnes savrent rares, il est dicile didentier des voisins ables ( partir des items
co-nots) et par consquent la performance du systme dcrot.
De plus, dans une situation de dmarrage froid, cette approche est incapable de tenir
compte des nouveaux utilisateurs et/ou items, rcemment introduits au systme. En eet,
lapproche base sur la mmoire ncessite la disponibilit des apprciations concernant ces
utilisateurs et/ou ces items pour pouvoir les intgrer parmi les recommandations.
En outre, lapproche base sur la mmoire reste limite dans la mesure o elle ne permet
pas le passage lchelle. En eet, quand le nombre dutilisateurs et ditems prsents dans
le systme devient important, la gnration des recommandations requiert un temps de
traitement trs lev.
1.3.3
Les mthodes bases sur un modle ont t intgres aux systmes de recommandation
pour remdier aux problmes des mthodes bases sur la mmoire, dont notamment : la
non robustesse au manque de donnes ainsi que le non passage lchelle [Sarwar et al.,
2000b] [Su et Khoshgoftaar, 2009]. Pour faire face ces deux problmes, les mthodes
bases sur un modle utilisent notamment les techniques de rduction de dimensionnalit
ou le clustering dans le but dcarter les utilisateurs ou les items non reprsentatifs.
Ainsi lespace de reprsentation utilisateur-item est plus rduit et le taux de donnes
manquantes est moins important compar lespace de reprsentation original. Les voisins
peuvent ainsi tre calculs dans cet espace rduit, ce qui permet de garantir le passage
33
Clustering
Un cluster est une collection dobjets qui sont similaires entre eux et dissimilaires aux
objets appartenant aux autres clusters [Han et Kamber, 2001]. Dans le cadre du FC,
le clustering a pour objectif de crer des clusters homognes dutilisateurs ou ditems.
Les prdictions sont par la suite calcules en prenant en considration les opinions des
utilisateurs (en FC centr sur lutilisateur) ou les notes des items (en FC centr sur litem)
faisant partie des mmes clusters.
Les mthodes de clustering les plus exploites sont les mthodes de partitionnement
dont k-means [MacQueen, 1967] est la plus populaire.
Dans le cas dun clustering dutilisateurs [Kim et al., 2002], k-means consiste crer k
clusters telle que la distance entre utilisateurs intracluster est faible alors que la distance
intercluster est forte. En dautres termes, chaque cluster cr doit comprendre des utilisateurs ayant des apprciations similaires.
Lalgorithme (1) [Han et Kamber, 2001] prsente les tapes dun clustering k-means appliqu aux utilisateurs. Cet algorithme consiste choisir alatoirement des k centrodes (des
points situs au centre) partir de lespace de reprsentation (i.e. matrice Utilisateur x
Item). Par la suite, chaque utilisateur est aect un cluster, tel que la distance entre
cet utilisateur et le centrode du cluster est faible. Dans une tape suivante, en prenant en
compte les utilisateurs qui viennent dtre aects aux clusters, la position du centrode de
chaque cluster est recalcule. Aprs la dcouverte des nouveaux centrodes, les distances
sont nouveau rvalues an de retrouver le cluster auquel chaque utilisateur devrait
appartenir. Cette opration est itre jusqu ce que les centrodes deviennent stables et
ne changent plus.
Pour illustrer ces tapes, la gure 1.4 [Han et Kamber, 2001] prsente un exemple
permettant la gnration de trois clusters (k = 3) base sur k-means.
Au dbut du processus de clustering, trois utilisateurs reprsentant les centrodes (reprsents par le symbole +) sont slectionns arbitrairement an de construire trois clusters.
Ainsi, dans la phase (a) chaque utilisateur est aect au cluster le plus proche. La phase
(b) reprsente ltape de recalcul des positions des centrodes ainsi que la raectation
34
1.3.
Techniques de recommandation
des utilisateurs aux clusters les plus proches (les direntes lignes pointilles dterminant
les trois clusters, changent au fur et mesure du recalcul des positions des centrodes).
La phase (c) reprsente la n du processus du clustering, les lignes pleines retent les
clusters dnitifs obtenus suite la stabilit des centrodes.
Fig. 1.4 Clustering k-means
Lalgorithme k-means a lavantage dtre ecient et son implmentation demeure facile [Su et Khoshgoftaar, 2009]. De plus, il permet le passage lchelle dans la mesure
o il peut tre appliqu de larges corpus. Notons que la complexit de cet algorithme
est O(nkt), n tant le nombre total dutilisateurs, k le nombre de clusters et t le nombre
ditrations.
Toutefois, le choix alatoire des centrodes au dbut du processus du clustering k-means
ainsi que la dtermination de leur nombre reste encore problmatique. [Castagnos, 2008]
a tudi ce problme et a propos damliorer le choix des centres initiaux dans le cadre
dun clustering k-means, en garantissant la convergence de lalgorithme lorsque k = 2.
Par ailleurs, la mthode k-means demeure sensible aux donnes aberrantes (outliers).
Cette sensibilit dcoule du fait quun objet ou un utilisateur ayant une valeur extrmement dirente des autres (un outlier) peut altrer la distribution de donnes [Wang et
Shao, 2004]. En eet, lorsquun outlier est trs loin du centrode dun cluster, la position
du ce centrode va tre dplace. Par consquent, la distribution de donnes ne va plus
tre homogne.
35
Comme nous lavons prcis ci-dessus, lintrt de lalgorithme PAM compar kmeans, rside dans son insensibilit aux donnes aberrantes [Kaufman et Rousseuw, 1990]
[Wang et Shao, 2004]. Cette insensibilit est d au principe mme de lalgorithme. En
eet, au lieu de considrer une valeur situe au centre des utilisateurs comme tant le
point de rfrence dans un cluster (comme dans k-means), PAM dsigne des utilisateurs
rels reprsentatifs des clusters (mdodes) parmi les autres utilisateurs. Un mdode
constitue lobjet ou lutilisateur le plus central du cluster. Ceci est assur en permutant
systmatiquement un mdode et un autre utilisateur choisi alatoirement an de vrier
si la qualit du clustering dcrot [Tury, 2007].
Nanmoins, lalgorithme PAM reste inappropri pour de larges corpus. Il requiert en eet,
un temps de traitement plus important que lalgorithme k-means. En eet, la complexit
36
1.3.
Techniques de recommandation
de cet algorithme est O(tk(n k)2 ). De plus, comme k-means, la mthode PAM ncessite
galement de dnir k qui est le nombre de clusters gnrer.
Dans le cadre des systmes de recommandation, la mthode de partitionnement kmeans a t largement applique aux utilisateurs et/ou aux items, en vue de rduire
lespace de recherche et le temps de calcul des recommandations, de permettre le passage
lchelle et de pallier le manque de donnes [Tang et McCalla, 2003] [Xue et al., 2005] [Jiang
et al., 2006]. Or, notre connaissance, la mthode PAM a t moins utilise par les
systmes de recommandation [Wang et al., 2008].
Par ailleurs, pour ces mmes perspectives, dautres algorithmes de clustering ont t
intgrs aux systmes de recommandation, notamment : ROCK [Conner et Herlocker,
1999], Gibbs Sampling [Breese et al., 1998], etc.
Toutefois, lune des limites du clustering est le risque de perte dinformation cruciale
lors de la cration des clusters. Par exemple, suite un clustering, deux utilisateurs
proches peuvent ne pas avoir t aects au mme cluster, ce qui peut se rprcuter sur
la performance du systme de recommandations.
Modles probabilistes
Les modles probabilistes utiliss dans le cadre du FC visent reprsenter le calcul des
prdictions sous forme de distributions de probabilit [Schafer et al., 2007]. Ces modles
valuent en gnral la probabilit quun utilisateur ua attribue une note v un item ik ,
note P r(v(ua , ik )) [Breese et al., 1998]. La note v est comprise entre vmin et vmax qui
reprsentent respectivement la valeur minimale et maximale correspondant lchelle de
note. ix dsigne un item appartenant Iua qui constitue lensemble des items nots par
ua .
P red(ua , ik ) =
vX
max
v=vmin
(1.4)
P r(v|ua , ik ) =
(1.5)
P red(v|ua , ik ) =
X
v
(v
P r(v|z, ik )P r(z, ua ))
(1.6)
1.3.
Techniques de recommandation
1.3.4
Rgles dassociation
Initialement, les techniques de dcouverte de rgles dassociation ont t dveloppes
pour lanalyse des bases de donnes transactionnelles [Agrawal et Srikant, 1994]. Par la
suite, ces techniques ont t intgres dans dautres domaines, notamment dans le cadre
du WUM [Srivastava et al., 2000].
Au niveau dune base de donnes transactionnelle, les techniques de dcouverte de rgles
dassociation permettent la dcouverte de corrlations entre items. Ces corrlations sont
identies travers lexploration de probabilits estimant que si un certain nombre ditems
sont prsents, dautres items sont galement potentiellement prsents dans la mme transaction [Wang et Shao, 2004].
La dcouverte de rgles dassociation dans une base de donnes transactionnelle repose
sur deux tapes essentielles :
La dcouverte ditemsets frquents. Un itemset dsigne un ensemble ditems qui
apparaissent dans une mme transaction. Cette dcouverte est base sur le support
qui dtermine la frquence minimum dapparition de ces itemsets dans la base de
donnes.
La dcouverte des rgles dassociation partir des itemsets frquents en se basant sur
la conance. La conance value le degr dimplication dune rgle dassociation.
Si la conance est leve, la rgle est able.
Considrons un ensemble de transactions T intgrant un ensemble ditemsets I =
{I1 , I2 , ...In }. Le support dun itemset Ii I est dnie par lquation (1.7). |T | reprsente
le cardinal de T .
(Ii ) =
|t T : Ii t|
|T |
(1.7)
1.3.
r =
(X Y )
(X)
Techniques de recommandation
(1.8)
Dans le cadre du WUM, la dcouverte des rgles dassociation est dun intrt considrable. Par exemple, pour un Extranet dentreprise ou un portail dinformation, les rgles
dassociation permettent dobserver que les utilisateurs consultant un item i1 , consultent
souvent un item i2 . Cette rgle aura la forme de i1 i2 .
Les rgles dassociation ont t largement utilises par les systmes de recommandation [Krulwich, 1997] [Sarwar et al., 2000a] [Fu et al., 2000] [Lin et al., 2002] [Nakagawa
et Mobasher, 2003] [Wang et Shao, 2004]. Toutefois, cette technique prsente quelques
limites. En eet, quand le systme manque de donnes, les rgles dassociation et les recommandations ne peuvent pas tre calcules. De plus, le processus de calcul de rgles
requiert un temps de calcul lev et devient non-performant quand la taille de donnes
est importante.
Motifs squentiels
La recherche de motifs squentiels, introduite par [Agrawal et Srikant, 1995], peut
tre considre comme une variation des rgles dassociation. En eet, elle repose sur le
principe dordre des lments ou de temporalit dans le but de dcouvrir des squences
frquentes ordonnes dans le temps [Gery et Haddad, 2003]. A la dirence des rgles
dassociation, elle pose plus de contraintes.
Un exemple de motif squentiel est que les utilisateurs ont tendance consulter dans
lordre, sur un portail dinformation, les articles : Volcan dIslande, puis Suspension des
vols en Europe et enn Prvisions mtorologiques.
A linstar des rgles dassociation, la recherche de motifs squentiels a t applique
dabord aux bases de donnes transactionnelles dans le cadre des stratgies marketing [Han
et Kamber, 2001]. Ainsi, il tait possible didentier par exemple que les clients qui ont
achet lappareil photo numrique Samsung, vont probablement acheter plus tard une
imprimante HP.
Par la suite, dautres domaines dapplications se sont intresss ltude des squences
de donnes, telles que :
Le Web mining qui comprend le WUM et le Web Structure Mining (WSM).
Dans le domaine du WSM [Srivastava et al., 2000], ltude des squences vise
analyser la structure de sites Web dans lobjectif didentier les liens hypertextes et
les pages Web les plus populaires (au travers des usages) et den faciliter laccs.
Dans le WUM, ltude des squences de navigation permet notamment laide la
navigation sur le Web [Baumgarten et al., 2000], [Mobasher et al., 2001], [Nakagawa
et Mobasher, 2003], [Gery et Haddad, 2003].
41
Dans le cadre du WUM, lanalyse des motifs squentiels peut mettre en vidence
des motifs squentiels de type contigu (ferm) ou bien non contigu (ouvert) [Anand et
Mobasher, 2005]. Les motifs contigus sont une forme restrictive des motifs squentiels. En
42
1.3.
Techniques de recommandation
eet, la particularit des motifs contigus est que les items contenus dans le motif squentiel
doivent tre adjacents suivant lordre de la squence. Par exemple un motif squentiel
contigu hi4 i5 i6 i est satisfait par la squence {i4 , i5 , i6 } et non pas par {i4 , i5 , i8 , i6 } qui
reprsente plutt un motif squentiel ouvert, tant donn que i8 apparat entre i5 et i6 .
Lutilisation des motifs squentiels pour la recommandation de pages Web est dun
grand intrt. Cependant, cette technique savre limite lorsquil est question de traiter
un grand volume de traces dusage et de gnrer des motifs en temps rel.
Par ailleurs, il existe dautres techniques permettant la dcouverte des motifs squentiels, telle que :
La technique LCS (Longuest Common Subsequences) : Cest une technique issue de
la programmation dynamique. Elle permet dextraire un cas particulier de motifs
squentiels. En eet, cette technique vise identier la plus longue sous-squence
commune deux squences donnes. Dans le cadre des systmes de recommandation, [Jalali et al., 2008] ont propos une architecture de classication des motifs
squentiels, en se basant sur la dcouverte de LCS. Ces motifs permettent de prdire
les futures activits de navigation des utilisateurs. Dans [Banerjee et Ghosh, 2001],
un algorithme bas sur la technique LCS est utilis pour le clustering dutilisateurs
en exploitant les traces dusage. Cette approche de clustering prend en compte les
similarits entre les chemins de navigation, bases sur les LCS, ainsi que la dure
de consultation des items contenus dans ces LCS.
Les modles de Markov : cette approche vise mettre en vidence des liens squentiels entre les items consults durant les activits de navigation des utilisateurs. En
estimant les probabilits conditionnelles de transition entre items, les dpendances
squentielles de comportement de navigation sont modlises sur la base des modles de Markov [Eirinaki et al., 2005]. Plusieurs travaux de recherche ont intgr
les modles de Markov dans le processus de recommandation notamment : [Zimdars
et al., 2001], [Shani et al., 2005], [Liu et al., 2007], [Bonnin et al., 2009] et [Verma
et al., 2009].
Dirents algorithmes ont t proposs pour la recherche de motifs squentiels depuis
leur mergence en 1994, notamment : GSP [Srikant et Agrawal, 1996], FreeSpan [Han
et al., 2000], SPADE [Zaki, 2001], SPAM [Ayres et al., 2002], etc.
Tous ces algorithmes ont t intgrs dans diverses applications. Dans le domaine du
WUM, de nombreux travaux de recherche ont eu un engouement pour les motifs squentiels, notamment : [Baumgarten et al., 2000], [Gaul et Schmidt-Thieme, 2001], [Mobasher
et al., 2001], [Nakagawa et Mobasher, 2003], [Gery et Haddad, 2003].
Les techniques issues du WUM prsentes ci-dessus, ont pour avantage danalyser
les usages et de prdire les futurs comportements navigationnels des utilisateurs sans
lutilisation des notes (requises notamment dans lapproche base sur la mmoire). Or,
comme pour les autres approches prsentes prcdemment, les algorithmes dextraction
43
1.3.5
Techniques hybrides
Les direntes techniques exploites par les systmes de recommandation ont chacune
leurs apports mais aussi leurs limites. Le tableau 1.4 prsente une synthse comparant les
avantages et les inconvnients des techniques de recommandation qui ont t prsentes
dans cet tat de lart.
Nous pouvons observer partir de ce tableau que le FC bas sur un modle peut tre
performant, cependant cette performance reste un compromis entre amlioration de la
qualit des recommandations et construction coteuse de modles.
Quant au FC bas sur la mmoire, bien quil soit able et simple implmenter, il demeure
peu performant surtout lorsque le systme manque de donnes, telles que les notes.
La technique base sur le contenu permet de remdier ce problme de manque de
donnes. Toutefois, les recommandations quelle gnre sont trs spcialises et manquent
de diversit (i.e. les items recommands un mme utilisateur ont un contenu similaire).
Ainsi, le choix dune technique de recommandation reste un compromis entre performance,
facilit dimplmentation et complexit.
De ce fait, an de combler les faiblesses dune technique par une autre, plusieurs
travaux de recherche ont propos de combiner ou dhybrider des techniques de recommandation qui sont potentiellement complmentaires.
Le systme de recommandation hybride le plus courant consiste combiner les techniques bases sur le contenu avec le FC bas sur la mmoire [Balabanovi et Shoham,
1997], [Pazzani, 1999], [Claypool et al., 1999], [Schein et al., 2002]. Il existe direntes
possibilits de combinaison, [Adomavicius et Tuzhilin, 2005] les ont classi en quatre
catgories :
Implmenter sparment le FC bas sur la mmoire et les mthodes bases sur le
contenu et combiner les prdictions par la suite en se basant sur une combinaison
linaire des notes prdites.
Incorporer certaines caractristiques issues du contenu dans le cadre du FC bas
sur la mmoire. De ce fait, au lieu de calculer les similarits sur la base des items
co-nots comme en FC, les similarits entre utilisateurs sont values en se basant
sur la corrlation du contenu des items consults [Balabanovi et Shoham, 1997].
44
1.3.
Catgorie
Techniques de recommandation
Technique
base
Analyse de simi- Amlioration de la Manque de diversit
sur le contenu
larit de contenu
qualit des recommandes recommandations
(TF/IDF)
dations
Ncessit dindexation
Clustering
Rduction du prode contenus (extrac Arbres de dcision
blme de manque de
tion dattributs reprdonnes
sentatifs)
Problme dindexation
de documents multimdia
FC bas sur la mmoire
FC exploitant lap- Implmentation simple Dpendance aux donproche kNN (base Intgration facile de
nes de notes
sur lutilisateur ou
nouvelles donnes
Dtrioration de la
sur litem)
Prcision des recomqualit de recomman Utilisation des memandations
dations cause du
sures Pearson ou comanque de donnes
sinus
Problme de passage
lchelle
Construction coteuse
de modles
Risque de perte dinformation pertinente
d la rduction de
dimensionnalit
Problme de calcul
des rgles ou de motifs
quand le systme
manque de donnes
Pas de considration
du prol utilisateur
(pour les modles du
WUM)
45
1.4
Verrous scientifiques
1.4.1
Manque de donnes
Dans le cadre dune approche de recommandation fonde sur le FC (bas sur la mmoire), lidentication des apprciations des utilisateurs est lun des piliers de base du
processus de recommandation. Elle permet en eet de modliser les utilisateurs dans le
but de prdire les futurs gots dun utilisateur actif en se basant sur les apprciations
connues dun groupe dutilisateurs.
Ces apprciations sont soit renseignes explicitement par les utilisateurs eux-mmes
ou bien induites par le systme sur la base de lanalyse des interactions de ces utilisateurs
avec le systme.
Or, dans les deux cas, souvent les donnes relatives aux apprciations des utilisateurs
manquent et savrent insusantes pour le bon fonctionnement du systme de recommandation [Sarwar et al., 2000b]. En eet, la quantit de donnes ou de notes disponible
demeure toujours insusante pour pouvoir prdire correctement les notes manquantes.
Par consquent, en raison de ce manque de donnes, la modlisation des utilisateurs devient complexe. Les modles utilisateurs deviennent ainsi peu ables, parce quils ont t
construits en se basant sur un volume limit de donnes.
En outre, dans le cadre du FC bas sur la mmoire, quand la matrice Utilisateur x Item
est trs creuse11 , le systme est incapable didentier un nombre signicatif de voisins en
11
Par exemple, sur la base de Movielens, environ 94% de la matrice de notes est vide
47
1.4.2
Dmarrage froid
Le problme de dmarrage froid se traduit par la dicult de gnrer des recommandations concernant de nouveaux items ou de nouveaux utilisateurs qui viennent dtre
introduits au systme de recommandation. Dni comme le problme de systemic bootstrapping par [Rashid et al., 2008], le dmarrage froid peut concerner tous les types
donnes (concernant les utilisateurs et les items). Ce problme se produit lorsquil sagit
par exemple dun nouveau service cr et pour lequel aucune donne nest encore disponible [Schein et al., 2002]. Ainsi, le nouveau systme de recommandation en question ne
peut recommander aucun item, aucun utilisateur.
Nouveaux utilisateurs
Proposer des recommandations un nouvel utilisateur, rcemment introduit au systme, constitue un enjeu pour les systmes de recommandations. Dans le cadre du FC,
tant que le systme na aucune connaissance sur les apprciations de ce nouvel utilisateur,
sa modlisation reste complexe et le systme de recommandation ne sera pas capable de
lui proposer des recommandations personnalises.
Dans ce contexte, llicitation ( travers la sollicitation de notes explicites, de critiques ou
dinformations dmographiques) peut se prsenter comme une solution. Or, cette sollicitation directe peut entraner labandon de lutilisateur tel que dcrit dans la section 1.2.
Un autre moyen daborder le problme de nouveaut de lutilisateur, est de lui proposer
des recommandations arbitraires ds sa premire utilisation du systme. Cependant, cette
stratgie risque doccasionner une insatisfaction chez lutilisateur, au vu de la faible qualit des recommandations.
[Rashid et al., 2008] prsentent dautres stratgies pour faire face au problme de nouveaut de lutilisateur. Ces stratgies exploitent la popularit des items et lentropie consistant valuer la dispersion des avis des utilisateurs sur un item.
Par ailleurs, les prols dmographiques des utilisateurs (cf. section 1.2) reprsentent aussi
un moyen de remdier au manque de donnes. En eet, linformation dmographique peut
tre exploite en vue de construire les modles utilisateurs. Ainsi, deux utilisateurs appartenant au mme segment dmographique, sont considrs comme similaires [Pazzani,
49
50
1.4.3
Dans le cadre du processus de FC bas sur la mmoire (centr sur lutilisateur), lapproche kNN permet de retrouver les k voisins les plus proches dun utilisateur actif dans
le but dutiliser leurs avis pour gnrer des recommandations pertinentes cet utilisateur
actif. Ces k plus proches voisins sont considrs comme tant les voisins les plus informatifs. Ils ont en eet des apprciations similaires vis--vis de lutilisateur actif, au vu de
leurs opinions concernant des items nots ou consults en commun antrieurement.
Lidentication de ces voisins dans une approche kNN peut notamment reposer sur
des stratgies telles que la dtermination dun seuil de similarit ou la dtermination dun
seuil ditems co-nots (cf. section 1.3.2). Or, la dtermination de ce type de seuil reste
problmatique. En eet, avec lintgration de nouveaux utilisateurs et ditems, pour tre
plus able, le systme de recommandation rinitialise le calcul des voisinages. Par consquent, lensemble des k voisins les plus proches varie et son choix nest jamais dnitif. De
ce fait, ces seuils doivent tre adapts au fur et mesure de la rinitialisation du systme,
tout en vitant de xer des valeurs extrmes pour que le pouvoir prdictif du systme ne
soit pas faible et pour que le bruit ne soit pas engendr cause de voisins peu pertinents.
La limite dune telle approche est quelle demeure dpendante des items nots en
commun an dvaluer le degr de similarit entre utilisateurs et de dterminer les plus
proches voisins. En labsence de ces items co-nots, aucune modlisation dutilisateurs
nest possible et aucun voisinage able ne peut tre slectionn.
Dans cette optique, dautres mthodes permettant didentier des similarits entre utilisateurs ont t proposes. Il sagit dexploiter par exemple les associations transitives
an dtablir des liens entre utilisateurs ou entre utilisateurs et items. [Papagelis et al.,
2005] et [Golbeck, 2009] exploitent le principe dinfrence an dexplorer les associations
entre utilisateurs dans lobjectif didentier des voisins potentiellement ables, susceptibles damliorer la qualit des recommandations. Nanmoins, considrant que les systmes de recommandation sont dynamiques et que la phase de calcul du voisinage requiert
un temps de calcul important, lapplication de ce type dassociation devrait se baser sur
des stratgies permettant de limiter par exemple le nombre dutilisateurs concerns, an
de permettre le passage lchelle.
Par ailleurs, la notion de conance a galement t tudie comme un moyen de dtermination de voisins ables dans le cadre des systmes de recommandation. [Massa et
Bhattacharjee, 2004] [ODonovan et Smyth, 2005] [Papagelis et al., 2005] [Golbeck, 2009]
proposent en eet de considrer la conance en prenant notamment en compte la capacit
antcdente dun voisin fournir ou contribuer des recommandations pertinentes. Par
exemple, en utilisant des mesures de conance, le systme propos par [ODonovan et
Smyth, 2005] peut spcier un utilisateur actif ua que le systme vous recommande la
voiture Toyota Verso, cette recommandation vous a t gnre par les utilisateurs uc , ud
et ue , ces utilisateurs ont dj recommand la Toyota Verso n fois dans le pass, et ces
recommandations ont t ables r fois.
51
1.4.4
Robustesse
1.4.5
Lvaluation des systmes de recommandation constitue une tape cl dans un processus de recommandation dans la mesure o elle rete la performance de lintgralit du
systme. Pour tout systme de recommandation, prdire ecacement les futures apprciations contribue la satisfaction des besoins des utilisateurs et leur dlisation.
Lvaluation des systmes de recommandation peut prendre en compte dirents critres, savoir : la prcision, la couverture, la satisfaction de lutilisateur, la robustesse, le
temps de calcul, la nouveaut et la diversit des recommandations, etc. [Anand et Mobasher, 2005].
La plupart des travaux de recherche portant sur les systmes de recommandation, valuent
la performance de leurs algorithmes en sappuyant notamment sur le critre de prcision
des prdictions. La prcision permet en eet dvaluer la capacit du systme recommander des items que lutilisateur apprcie rellement.
A travers les algorithmes proposs par les travaux cits dans ce chapitre, lamlioration
de la prcision tait souvent un enjeu majeur. La performance de ces algorithmes tait
mesure en eet selon le degr de prcision des recommandations compare des techniques de recommandation standards.
Il est signaler que la qualit et la prcision des recommandations est troitement lie
la disponibilit des donnes sur les apprciations. En eet, quand ces donnes sont rares,
le systme ne peut gnrer des prdictions prcises. En outre, cette qualit de recommandation dpend galement de la abilit de lalgorithme utilis pour lapprentissage des
modles utilisateurs.
Les mesures utilises pour valuer la prcision des systmes de recommandation vont
53
54
Chapitre 2
Schma gnrique, contexte applicatif
et mthodologie exprimentale
2.1
Une fois les prdictions gnres, une liste ditems jugs pertinents, trie gnralement
par ordre dimportance (i.e. un classement ditems selon un ordre de pertinence estim
par le systme), est propose automatiquement lutilisateur qui choisit daccepter ou
non de consulter les items recommands.
Ainsi, lenjeu de ce schma de recommandation est danticiper les besoins et de garantir
la dlisation des utilisateurs ces systmes grce la satisfaction de leurs attentes.
Dans les sections qui suivent, nous prsenterons dune part le contexte dapplication
lie nos travaux de recherche. Dautre part, la mthodologie dvaluation sera dcrite
en prsentant la fois les corpus de donnes exploits, les mtriques dvaluation utilises
pour lvaluation des approches de recommandation que nous avons proposes ainsi que
le modle de recommandation de ltat de lart qui nous a servi comme banc dessai
(benchmark).
2.2
Contexte applicatif
Cette thse sinscrit dans le cadre du projet PERCAL entre le Crdit Agricole S.A, en
particulier avec le Ple Innovation et lquipe de recherche KIWI12 du LORIA.
Le Crdit Agricole reprsente un des leaders de la banque de proximit en France qui
compte plus que 7000 agences dans son rseau (regroupes en 39 caisses rgionales) et
plus de 20 millions de clients en intgrant Le Crdit Lyonnais (LCL) et ses liales internationales. A lorigine, le Crdit Agricole proposait des services nanciers dans le domaine
de lagriculture, ces services se sont tendus par la suite divers acteurs conomiques
incluant les particuliers, les professionnels et les entreprises.
12
56
http ://kiwi.loria.fr
http ://www.jalios.com
57
Les items accessibles sur le portail Extranet du Crdit Agricole sont trs varis, ils
peuvent inclure : des articles dactualit, des rapports techniques, des FAQ, des sondages,
des blogs, des livres, etc. Leur nombre est en constante croissance. De ce fait, partir
des questions de recherche souleves (cf. section 1.4 du chapitre prcdent) et en prenant
en compte ce portail Extranet, lobjectif de notre travail de recherche est de proposer de
nouvelles approches de recommandation permettant doptimiser lusage des ressources de
lExtranet par les utilisateurs du Groupe Crdit Agricole. En eet, lenjeu est de pouvoir
mettre en place des outils de personnalisation et de recommandation collaboratifs, sappuyant sur les usages, capables de mettre la disposition des utilisateurs des informations
pertinentes adaptes leurs prols.
Dans le but de valider les approches de recommandation proposes travers cette
thse, nous avons exploit des corpus de donnes dusage rel et de notes explicites. Ces
corpus vont tre dcrits dans la section suivante.
58
2.3
2.3.1
Donnes exploites
Corpus dusage
Les traces dusage permettent de dcrire lensemble des activits de navigation eectues par un utilisateur sur un site Web donn.
Le WCA14 avait publi un projet portant sur les dnitions des termes relatifs aux informations contenues dans les traces dusage. Ils concernent notamment les notions dutili14
World Wide Web Comittee web usage characterization Activity : http ://www.w3.org/wca
59
60
http ://www.w3.org/TR/WD-logfile.html
la CNIL(http ://www.cnil.fr) met en particulier en garde contre lutilisation des cookies, pour le
profilage systmatique des utilisateurs, leur insu
61
Tab. 2.2 Description des principales balises du chier log du Crdit Agricole
Balise
Description
ip
LIP de lutilisateur
port
Le port de lutilisateur
startDate / endDate Le temps de dbut et de n de consultation de litem
method
GET ou POST du protocole HTTP
referer
LURL source du clic
mid
Identiant de lutilisateur authenti sur JCMS
id
Identiant de litem
type
Type de litem consult (Faq, News, Brves...)
pub
Identiant de la publication parente
name
Nom de la page
sessionId
Identiant de la session
port
Numro du port
locale
La langue utilise
userAgent
Le navigateur de lutilisateur
proposs travers cette thse, dont la description sera dtaille dans la deuxime et la
troisime partie de ce manuscrit, sont collaboratifs, centrs sur lutilisateur et sinscrivent
dans le cadre des approches proactives de recommandation (c.f. section 1.2).
Dans la phase de prdiction, nous avons exploit la fonction de prdiction du FC bas
sur la mmoire, an de gnrer des valeurs numriques de prdiction, en se basant sur
les notes implicites des voisins identis a priori. Le choix de calculer ces valeurs relve
notamment du besoin de comparer la performance de nos approches au FC bas sur la
mmoire, utilis largement par la communaut scientique. De ce fait, pour calculer ces
notes implicites, nous avons exploit les traces dusage.
Lintrt dutiliser les traces dusage pour estimer les apprciations ou les notes implicites a t dj examin dans quelques travaux de recherche.
[Chan, 1999] exploite en eet les traces dusage an destimer lintrt que porte un utilisateur sur un item ou une page Web donne. Chan a propos cet eet la formule
(2.1) Page Interest Estimator pour estimer une apprciation en prenant en compte les
62
Interest(P age) =
(2.1)
F rq(P age) (1 + IsBookmark(P age) + Dur(P age) + Rec(P age) + LinkP erc(P age)
Dans le cadre de notre travail de recherche, nous nous sommes inspirs de ltude
de [Chan, 1999] pour estimer les apprciations partir des traces contenues dans les chiers logs du Crdit Agricole, concernant les items accessibles sur le portail Extranet.
Il est signaler quau dpart, nous avions opt pour les indicateurs souligns par [Chan,
1999] tels que : lajout aux favoris dun item, la frquence de consultation dun item et
la dure de consultation dun item. Nous avions choisi en outre dexploiter dautres indicateurs tels que : lenvoi dun item un ami et limpression dun item. Toutefois, les
informations se rapportant certains indicateurs (comme lajout aux favoris, lenvoi ou
limpression dun item) ne pouvaient pas tre disponibles vu que les utilisateurs nexploitent pas ces fonctionnalits au niveau du portail Extranet. De ce fait, nous avons
retenu les indicateurs de frquence de visite et de dure de visite dun item.
Notons que nous navons pas pris en compte le critre de rcence parce que nous considrons que le fait de consulter un item plus rcemment quun autre peut tre li notamment
la date de premire publication de cet item. En eet, comme la rcence de visite dun
item (selon [Chan, 1999]) est value notamment en fonction de la date actuelle, les items
visits dont la publication est rcente auront un plus grand poids au dtriment des items
publis et visits prcdemment. Or, ces derniers peuvent tre plus pertinents pour lutilisateur.
Le corpus de donnes que nous avons exploit et qui inclut ces chiers logs, comprend
748 utilisateurs et 3856 items. Ces donnes ont t collectes durant les annes 2007 et
2008. Depuis lanne 2008, le corpus a augment en incluant de nouvelles donnes (chiers
logs de navigation), mais pour des raisons de stabilisation dchantillon, nous avons gard
le corpus initial.
Comme dans un processus de WUM, la premire tape consiste prtraiter les traces
dusage [Cooley et al., 1999] [Han et Kamber, 2001] et parser les chiers logs en XML,
an deectuer un nettoyage de donnes (en supprimant les entres dans les logs qui ne
sont pas ncessaires lanalyse dusage) et de reprer :
lidentiant de lutilisateur,
63
lidentiant
lidentiant
le temps de
le temps de
de litem visit,
de la session,
dbut et de n de session,
visite dun item.
Dans une deuxime tape, pour lestimation des notes implicites, nous avons pris en
compte les indicateurs prciss ci-dessus.
La frquence correspond au nombre de fois o lutilisateur a consult un item. Elle est
calcule sur la base de lquation (2.2). En considrant un utilisateur actif ua , la frquence
de visite dun item ik est le ratio entre le nombre de visites de ik (N(ua ,ik ) ) et le nombre
moyen de visites de tous les items I (N(ua ,I) ).
F requency(ua ,ik ) =
N(ua ,ik )
N(ua ,I)
(2.2)
En ce qui concerne la dure, elle est calcule comme le ratio entre la dure totale de
visite de ik (Drt(ua ,ik ) ) et la dure totale de visites de tous les items I (Drt(ua ,I) ), selon
lquation (2.3). La dure de visite dun item a t calcule partir des informations
fournies par les balises startDate et endDate contenues dans les chiers logs. La dure
maximale de visite dun item a t xe par un timeout an dviter une situation
o lutilisateur ne consulte pas rellement litem mme sil a envoy une requte pour
lachage de cet item.
Duration(ua ,ik ) =
Drt(ua ,ik )
Drt(ua ,I)
(2.3)
Une fois les frquences et les dures calcules pour chaque item, nous avons utilis
lquation (2.4) propose par [Castagnos, 2008] an de pouvoir calculer et normaliser les
notes selon lchelle choisie [1 5]. Il sagit de lchelle de note la plus utilise par les
systmes de recommandation exploitant les notes numriques.
Dans lquation (2.4) fT ransf(ua ,ik ) dsigne la fonction de transformation de la note de ua
sur ik . vmin et vmax sont respectivement les notes minimum et maximum correspondant
lchelle de note, i.e. 1 et 5. p(c) reprsente le poids attribu au critre (frquence et dure
dans notre cas), c(ua , ik ) est la valeur du critre et cmax reprsente la valeur maximum du
critre.
)
cmax
c p(c)
(2.4)
Aprs la normalisation des valeurs, une matrice de notes implicites est gnre, telles
que les lignes reprsentent les utilisateurs et les colonnes reprsentent les items. Les notes
64
N iveauSparsity =
2.3.2
N ombreEntreesV ides
T ailleM atrice
(2.5)
Dans le but dvaluer la qualit des recommandations produites par nos approches,
nous avons eu recours galement au corpus de donnes de notes explicites Movielens
propos par le laboratoire de recherche Grouplens17 .
Le corpus utilis comprend 100.000 notes attribues par 943 utilisateurs sur 1682 lms.
Les valeurs de notes sont des entiers qui correspondent lchelle [1 5]. Dans ce corpus,
chaque utilisateur a au moins not 20 items.
80% de ce corpus constitue les donnes dapprentissage et 20% reprsente les donnes de
test. Chaque ligne du corpus reprsente une note dun utilisateur sur un lm en indiquant
le timestamp de cette action.
Le tableau 2.3 prsente des exemples de lignes de notes provenant du corpus Movielens.
Dans ces lignes les informations sont prsentes sous la forme suivante : utilisateur id |
item id | note | timestamp.
Tab. 2.3 Exemple de notes du corpus Movielens
Identifiant de lutilisateur Identifiant de litem Note attribue
196
242
3
184
302
4
22
177
1
17
Timestamp
881250949
891717742
878887116
http ://www.grouplens.org
65
2.4
An dvaluer la performance des systmes de recommandation et de valider les approches de recommandation que nous proposons par rapport des approches de ltat de
lart, direntes mtriques dvaluation sont utilises dans la cadre des exprimentations.
Le choix de telle ou telle mtrique dpend notamment de la problmatique de dpart, des
objectifs escompts et de la nature de lexprimentation mener.
[Paris et al., 2009] proposent une mthode dvaluation qui prend en considration les diffrents acteurs dans le cadre dune activit de recherche dinformation dont notamment
lutilisateur, le systme de recherche dinformation et le fournisseur du contenu informationnel.
Dans le contexte des systmes de recommandation, [Herlocker et al., 2004] ont tudi les
direntes stratgies dvaluation du point de vue utilisateur, prdictions, types de corpus utiliss, etc. Dune manire gnrale, les direntes mtriques dvaluation valuent
la prcision, la couverture, la satisfaction de lutilisateur, la robustesse et le passage
lchelle.
Le critre le plus valu dans le cadre des systmes de recommandation est la prcision.
La prcision mesure la performance du systme de recommandation en valuant la qualit
des prdictions compares aux apprciations relles. Les mesures de prcision peuvent tre
soit statistiques, soit des mesures permettant laide la dcision.
18
66
http ://www.movielens.org
2.4.1
MAE
Les mesures statistiques de prcision consistent valuer la dirence existant entre
les notes prdites et les notes rellement attribues par les utilisateurs. La mesure de
prcision la plus populaire pour lvaluation des systmes de recommandation est la MAE
(Mean Absolute Error). Selon lquation (2.6), la MAE calcule, pour chaque paire <noteprdiction>, la moyenne derreur absolue entre les notes prdites P red(ua , i) et les notes
relles des utilisateurs v(ua , i). n reprsente le nombre ditems prdits prsents dans le
corpus test.
Plus la valeur de MAE est faible, plus les prdictions sont prcises et le systme de
recommandation est performant.
M AE =
Pn
i=1
(2.6)
La MAE a t frquemment utilise pour lvaluation des systmes de recommandation et du FC [Shardanand et Maes, 1995] [Herlocker et al., 1999]. Lavantage de la MAE
est quelle est simple utiliser, facile interprter et quelle est largement utilise par la
communaut scientique, ce qui permet de positionner les approches de recommandation
proposes par rapport aux travaux de recherche existants.
Nanmoins, pour lvaluation de systmes de recommandation proposant des listes ordonnes de recommandation (listes TopN), la mesure MAE peut ne pas tre approprie [McLaughlin et Herlocker, 2004].
Il existe dautres mesures statistiques de prcision valuant les prdictions numriques,
notamment : Root Mean Squared Error, Mean Squared Error qui attribuent un poids
plus important aux prdictions dont lerreur est leve, par rapport aux prdictions prcises (i.e. ces deux mesures pnalisent plus que la MAE les sytmes de recommandation
gnrant des prdictions dont le taux de prcision est faible).
HMAE
Les systmes de recommandations ont pour objectif de calculer les prdictions des
notes manquantes concernant le maximum de paires <utilisateur-item>. Une fois ces
prdictions calcules, les items ne sont pas tous recommands par la suite aux utilisateurs.
En eet, seuls les items ayant les valeurs de prdiction les plus leves sont proposes.
Dans ce cas, lerreur concernant les items ayant de faibles valeurs de prdiction nest pas
utile quant lvaluation de la performance des systmes de recommandation, tandis que
lerreur relative aux items ayant des notes prdites leves est dune grande importance
67
HM AE =
Pm
i=1
(2.7)
La HMAE nexploite pas les items ayant des valeurs de prdictions faibles, mais qui
ont des valeurs relles leves dans le corpus test. Son avantage est sa capacit valuer la
prcision des recommandations, juges pertinentes, qui sont eectivement suggres aux
utilisateurs.
2.4.2
Les mesures permettant laide la dcision consistent valuer jusqu quel point le
systme de recommandation peut recommander des items potentiellement pertinents pour
lutilisateur [Adomavicius et Tuzhilin, 2005] (les items susceptibles dtre trs apprcis).
En dautres termes, ces mesures valuent la pertinence des recommandations en calculant,
dans une liste de recommandation, la proportion ditems qui sont eectivement utiles et
pertinents pour lutilisateur actif.
Pour les besoins dvaluation en terme daide la dcision, les apprciations ou les
notes des utilisateurs doivent tre transformes dans le cadre dune chelle binaire (Aime
ou Aime pas) an de distinguer les items pertinents de ceux qui ne le sont pas, pour un
utilisateur donn.
Ainsi, dans le cadre de nos exprimentations, un item est considr comme pertinent
lorsquil dispose des valeurs les plus leves, cest--dire des valeurs entre 4 et 5 sur
lchelle choisie [1 5]. Nous considrons que les notes de 1 3 correspondent des items
non pertinents pour lutilisateur.
Les mesures permettant laide la dcision sont principalement issues du domaine de
68
Prcision
La prcision value si un item slectionn par un utilisateur est rellement peru comme
tant pertinent par ce mme utilisateur [Anand et Mobasher, 2005]. Un item slectionn
reprsente un item qui est propos par le systme de recommandation lutilisateur
actif et qui est contenu en mme temps dans le corpus test. Le tableau 2.4 [Herlocker
et al., 2004] prsente les catgories ditems rpartis selon lintersection entre les listes de
recommandation et les apprciations relles des utilisateurs.
A partir de ce tableau, la prcision est calcule sur la base de lquation (2.8) comme
tant le rapport entre le nombre ditems pertinents slectionns Nps et le nombre ditems
slectionns par un utilisateur actif Ns .
P =
Nps
Ns
(2.8)
Rappel
Le rappel mesure la probabilit quun item pertinent soit slectionn par lutilisateur
actif. Il est calcul sur la base de lquation (2.9) comme tant le ratio entre le nombre
ditems pertinents slectionns par lutilisateur Nps et le nombre total ditems pertinents
disponibles Np [Herlocker et al., 2004].
R=
Nps
Np
(2.9)
69
F1 =
2.4.3
2P R
P +R
(2.10)
Couverture
2.4.4
Temps de calcul
Lintrt de cette valuation dcoule du fait que la qualit des recommandations est mesure galement
sur le corpus test
70
2.5. Benchmark
2.5
Benchmark
71
72
Deuxime partie
Approche collaborative
comportementale de recommandation
73
Chapitre 1
Vers un Filtrage Collaboratif
Comportemental
Parmi les verrous qui entravent la performance des systmes de recommandation, nous
pouvons citer : le manque de donnes (de notes explicites) ainsi que la prcision des recommandations (cf. section 1.4, chapitre 1, partie 1). Dans la perspective de lever ce verrou
et damliorer la performance des systmes de recommandation, nous avons propos un
nouveau modle de recommandation qui repose sur un filtrage collaboratif comportemental
centr sur lutilisateur. Ce modle est appell Behavioral Network Collaborative Filtering
(BNCF) [Esslimani et al., 2008b] [Esslimani et al., 2008a].
Selon la classication des approches de recommandation de [Anand et Mobasher, 2005],
ce modle sinscrit dans le cadre des approches proactives de recommandation qui privilgient la dduction des apprciations. Ainsi, contrairement aux approches ractives, le
retour de lutilisateur et le recours llicitation nest pas ncessaire.
Ce modle consiste observer le comportement navigationnel de lutilisateur et analyser
ses traces dusage dans le but de modliser cet utilisateur. La construction dun modle
utilisateur dans le cadre du BNCF repose sur lanalyse du comportement an de prdire
les gots de lutilisateur et destimer lintrt quil porte chaque item.
Le concept de comportement englobe gnralement dirents aspects se rapportant
lagissement et aux ractions dun utilisateur dans une situation donne. Ce comportement peut tre notamment reprsent par les mouvements, les actions ou les expressions
verbales de cet utilisateur.
Dans le contexte des systmes dinformation sur le Web (portail dentreprise par exemple),
nous entendons par comportement, lensemble des actions lies la navigation de lutilisateur travers un site Web. Ces actions peuvent tre observes partir de (cf. section
1.2 du chapitre 1, partie 1) :
une consultation de page Web ou ditem,
une manipulation ditem : des actions de copier/coller, denregistrement ou dim75
1.1
La premire phase du BNCF consiste en lextraction des motifs dusage qui vont tre
exploits an de calculer les similarits de comportement navigationnel entre les paires
dutilisateurs.
Dans le cadre du BNCF, nous supposons que plus la longueur dun motif commun deux
utilisateurs est leve, plus ils ont un comportement similaire. Nous entendons ici par
motif, une squence frquente, contenant une suite ordonne ditems et qui est commune
deux utilisateurs (cf. section 1.3.4, chapitre 1, partie 1).
Lalgorithme 3 prsente le processus dextraction de la longueur maximale de motifs
communs. Ainsi, pour toute paire dutilisateurs h ua ,ub i, cet algorithme exploite en entre les squences de navigation contenues dans leurs sessions, notes respectivement Sua
et Sub , dans lobjectif dextraire leurs motifs communs (i ) et de calculer les longueurs
correspondant ces motifs L(i ). Chaque longueur correspond au nombre ditems contenus dans un motif commun. Lalgorithme permet de calculer les longueurs de motifs pour
chaque paire dutilisateurs h ua ,ub i et den dduire la longueur maximale des motifs Lmax
(Lmax (ua , ub ) = M ax(L(i ))) communs ua et ub .
A la dirence des motifs utiliss dans le domaine du WUM, dans notre modle nous
ne spcions pas de support minimum dterminant un seuil pour la slection des motifs
(par exemple 20%, 30% ou 50%). En eet, lextraction de motifs dans le cadre du BNCF
est eectue par paire dutilisateurs, ce qui implique que le support correspondant est in78
An dvaluer les similarits entre utilisateurs, nous avons propos la nouvelle quation
(1.1), permettant de calculer la similarit de navigation ou de comportement entre deux
utilisateurs donns. Cette quation prend en considration les critres suivants :
les motifs communs entre ces deux utilisateurs,
la longueur maximale de leurs motifs communs,
les tailles maximales de leurs sessions.
SimN av(ua , ub ) =
Lmax (ua , ub )
min(SessM ax(ua ), SessM ax(ub ))
(1.1)
2
5
= 0.4
P
qP
(43)(43)+(43)(43)
((43)2 +(43)2 )((43)2 +(43)2 )
=1
Lcart entre SimN av(u3 , u4 ) et SimN ote(u3 , u4 ) est d dune part la dirence
de donnes utilises sparment par le BNCF et le FCS, dautre part, la technique
permettant lvaluation des similarits entre utilisateurs. A partir de cet exemple, nous
constatons que u3 et u4 sont considrablement similaires en terme de notes. Or, en terme
de comportement navigationnel, ces utilisateurs ne sont pas trs similaires.
Cette phase (PHASE I) du BNCF, dcrite dans cette section, permet de gnrer une
matrice de similarit de comportement Utilisateur x Utilisateur. Les voisins peuvent
ainsi tre identis et intgrs, dans une tape suivante, au calcul des prdictions.
1.2
Une fois les similarits calcules entre utilisateurs, la deuxime phase (PHASE II) du
BNCF exploite la matrice de similarit gnre an didentier les voisins. Les apprciations de ces voisins (rcupres partir de la matrice de notes) sont par la suite considres
lors du calcul des prdictions.
Ces prdictions sont gnres sur la base de la somme pondre (cf. section 1.3.2, chapitre
1, partie 1), prsente dans lquation (1.2). Cette quation est en eet la plus utilise par
les systmes de recommandation exploitant notamment le FCS.
SimN av(ua , ub ) reprsente la valeur de similarit comportementale. Seuls les voisins qui
sont corrls avec lutilisateur actif ua (nots Ua ) et ayant dj not litem ik sont considrs lors du calcul des prdictions.
P red(ua , ik ) = v(ua ) +
ub Ua
(1.2)
(1.3)
Il est rappeler que pour le calcul des P redF CS(ua , ik ), la similarit de note entre
utilisateurs est utilise. Cette similarit est calcule avec le coecient de Pearson.
De ce fait, la principale divergence entre les modles BNCF et FCS rside dans la phase
dapprentissage permettant le calcul des similarits.
1.3
En vue dvaluer la qualit des prdictions gnres par le BNCF et le FCS, nous avons
utilis le corpus Movielens ainsi que le corpus du Crdit Agricole dcrits dans la section
2.3.2 du chapitre prcdent.
Le corpus Movielens comprend 100.000 notes explicites attribus par 943 utilisateurs
sur 1682 items (lms). Ce corpus ne contient pas de donnes relles dusage et la notion
de session nest pas vraiment explicite. Il sagit dune suite ditems, qui ont t nots par
les utilisateurs du systme Movielens, selon des dates donnes (timestamp).
A cet eet, pour ladapter nos besoins, nous avons considr quune session correspond,
dans ce corpus, une valeur spcique de timestamp. Or, la limite de la considration de
ces timestamp est que les sessions correspondantes sont parfois trs courtes. Il est signaler
que pour obtenir des motifs ables et retant mieux la similarit du comportement entre
utilisateurs dans le cadre du BNCF, nous navons pas considr les sessions de taille 1
(i.e. des sessions o lutilisateur a not un seul item).
Concernant lordre squentiel des items, nous avons considr lordre des items tels quils
gurent dans le chier qui comprend le corpus dapprentissage.
82
1.3.1
Rsultats
Dans lobjectif danalyser la performance de notre modle, nous avons dabord compar
la prcision des prdictions gnres par le systme de recommandation en considrant
que vaut soit 0 ou bien 1. Il sagit dune valuation spare de chacun des modles
BNCF et FCS, au niveau de la qualit des prdictions en termes de MAE, de HMAE et
de robustesse.
Pour la slection des plus proches voisins au niveau des deux modles tudis, sur les
deux corpus expriments, nous avons appliqu les stratgies suivantes (cf. section 1.3.2
du chapitre 1, partie 1) :
Un seuil de similarit minimum entre un utilisateur actif et les voisins, not .
La dnition dun nombre minimum ditems co-nots (pour le FCS) ou co-visits
(pour le BNCF) entre un utilisateur actif et ses voisins. Pour toutes les exprimentations, nous avons test dabord direntes valeurs du nombre ditems co-nots/covisits. Nous avons dduit que 20 permet de raliser les meilleurs rsultats de MAE
(stratgie conrme en eet par [Viappiani et al., 2006]). De ce fait, nous avons
retenu ce nombre en tant que paramtre de slection des plus proches voisins.
Ainsi, tous les utilisateurs ayant co-not ou co-visit un minimum de 20 items avec
lutilisateur actif et ayant une similarit suprieure avec cet utilisateur, sont considrs
83
La gure 1.3 prsente la distribution de voisins calculs avec les modles BNCF et FCS
sur le corpus du Crdit Agricole. Au niveau de la distribution des valeurs de similarits
dans la gure 1.3, nous remarquons que, compar au FCS, le BNCF a en moyenne des
valeurs de similarit plus faibles. De plus, il a galement un cart type plus petit. En eet,
dans le cas du FCS, il est plus facile dobtenir de grandes valeurs de similarits si les deux
utilisateurs ont des notes similaires sur 20 items co-nots. Or, dans le cas du BNCF une
grande valeur de similarit suppose que les motifs communs deux utilisateurs ont une
longueur proche du minimum des tailles maximales des sessions ralises par ces deux
utilisateurs (cf. quation (1.1)).
Notons que sur le corpus Movielens (cf. gure 1.2), les voisins identis par le FCS ont
des valeurs de similarit plus faibles que sur le corpus du Crdit Agricole. Il semblerait en
eet que sur Movielens, trs peu de voisins ont des notes similaires sur 20 items co-nots
avec les autres utilisateurs.
84
En prenant en considration ces distributions, nous avons fait le choix dvaluer les
modles BNCF et FCS sur les corpus Movielens et Crdit Agricole selon dirents seuils
variant de 0 0.4. En eet, quand dpasse la valeur de 0.4, le systme ne peut pas
retrouver susamment de voisins pour le BNCF et le FCS sur le corpus Movielens (cf.
gure 1.2). De mme, dans la gure 1.3, si nous xons le seuil une valeur suprieure
0.4 sur le corpus du Crdit Agricole, le systme va ngliger une grande proportion de
voisins pour le BNCF, ce qui risque de dgrader la prcision des prdictions et le pouvoir
prdictif du BNCF. Sur le mme corpus, le FCS parvient avoir des voisins au del du
seuil 0.4. Cependant, nous avons constat que plus ce seuil augmente plus la couverture
est faible. Ainsi, les seuils ont t choisis (de 0 0.4) dans le but dvaluer la performance
des modles BNCF et FCS sur un nombre signicatif de prdictions.
Seuil
0
0.1
0.2
0.3
0.4
Le tableau 1.4 prsente les rsultats de prcision en MAE selon la valeur du seuil
pour les modles BNCF et FCS, en utilisant le corpus du Crdit Agricole.
Nous remarquons que la meilleure prcision en MAE, pour les modles BNCF et FCS,
est atteinte lorsque le seuil est x 0.2. Notons que le FCS parvient gnrer des
prdictions plus prcises denviron 3% compares aux prdictions calcules par le BNCF,
en considrant ce mme seuil.
De plus, comme pour le corpus Movielens, lorsque les seuils 0 et 0.1 sont utiliss par le
BNCF et par le FCS, le rsultat de la MAE reste similaire puisque les voisins impliqus
au calcul des prdictions sont approximativement les mmes. En eet, peu de voisins ont
des similarits infrieures 0.1 sur ce corpus (cf. gure 1.3).
Lorsque le seuil est quivalent 0.4, la prcision en MAE a tendance se dgrader respectivement pour les modles FCS et BNCF.
Il est signaler que pour le modle FCS, suivant la distribution des voisins prsente dans
la gure 1.3, certains voisins peuvent disposer de similarits au del du seuil 0.4. Nous
avons ainsi valu la performance du FCS en prenant en compte dautres seuils allant
jusqu 0.9. Il sest avr que la prcision en MAE sest dgrade et la couverture tend
tre trs faible (perte denviron 80% de la capacit prdictive du systme). En outre,
cause de cette grande baisse de couverture, les rsultats deviennent dicilement interprtables et peuvent ne pas tre signicatifs puisque peu de prdictions sont considres lors
de lvaluation de la performance du FCS.
Si nous considrons les rsultats en MAE obtenus sur les deux corpus, nous constatons que les rsultats restent homognes, notamment au niveau de la performance du
86
Tab. 1.9 Robustesse des prdictions combines : corpus Crdit Agricole et Movielens
Crdit Agricole Movielens
Robustesse (HMAE)
0.494
0.548
91
1.3.2
Discussion
Le modle BNCF a t propos an de modliser les utilisateurs sur la base de lanalyse du comportement navigationnel. Ainsi, des utilisateurs ayant en commun des motifs
dusage, sont considrs comme similaires et partagent potentiellement les mmes apprciations. Lexploitation des motifs dusage dans le cadre du BNCF, permet de faire face
au problme de raret de donnes de notes explicites et de rduire llicitation.
En eet, le BNCF ne requiert pas de donnes de notes dans la phase dapprentissage tel
quen FCS. De plus, le BNCF prend en considration les traces dusage, non pas pour
prdire directement comme dans le WUM, mais pour valuer les similarits entre utilisateurs.
Les direntes exprimentations prsentes dans ce chapitre, avaient pour objectif
dvaluer limpact du BNCF (compar au FCS) sur la performance du systme de recommandation en termes de MAE, de HMAE et de robustesse, en utilisant deux corpus
dirents (corpus du Crdit Agricole et de Movielens).
Si nous comparons les rsultats obtenus sur les deux corpus, nous constatons que les
rsultats restent globalement homognes, en particulier en termes de MAE, de robustesse
et de lhybridation des prdictions.
Au niveau du corpus du Crdit Agricole, le BNCF contribue une meilleure prcision
en HMAE, en considrant lvaluation du BNCF spar (cf. tableau 1.6) et de lhybridation
des prdictions avec une pondration importante pour le BNCF (cf. gure 1.5).
Quant au FCS, en utilisant le mme corpus, ses meilleures performances ont t obtenues
en termes de MAE (cf. tableau 1.4) et de robustesse (cf. tableau 1.8).
Lorsque les modles sont expriments sur le corpus Movielens, le FCS parvient
gnrer des prdictions prcises en termes de MAE et de HMAE. Or, en exploitant ce
corpus, le BNCF savre plus robuste et moins vulnrable face aux donnes bruites, en
considrant lvolution de la HMAE correspondant au BNCF et au FCS prsente dans
les tableaux 1.5 et 1.7.
Il savre ainsi que le BNCF demeure globalement plus performant en cas dhybridation des prdictions (avec une importante pondration pour le BNCF) pour les deux
corpus et en terme de HMAE en cas dutilisation du corpus dusage. En eet, ce corpus
dusage permet au BNCF didentier des motifs ables permettant de retrouver des voisins pertinents contribuant une meilleure prcision en HMAE.
La robustesse et la stabilit du systme de recommandation exploitant le BNCF ou le
FCS, est trs inuence par la nature du corpus utilis.
Nous pouvons dduire des rsultats de ces exprimentations que les traces dusage sont
une source dinformation able permettant au systme de recommandation de modliser
ecacement les utilisateurs et de gnrer des prdictions potentiellement pertinentes.
92
20
http ://www.sailendra.fr/
93
Par ailleurs, au del du contexte applicatif, en vue de rduire lespace de recherche des
voisins, il serait judicieux dtudier lintrt des mthodes de clustering, notamment pour
la limitation du nombre de paires dutilisateurs impliques lors du calcul des similarits.
Dans le chapitre suivant, il est question en eet dexaminer lapport du clustering dans le
cadre du BNCF. Ce chapitre est ddi la description de cette contribution.
94
Fig. 1.7 Aperu des recommandations gnres par le BNCF au niveau du portail
Extranet du Crdit Agricole
95
96
Chapitre 2
Clustering en Filtrage Collaboratif
Comportemental
Les exprimentations du chapitre prcdent pour lvaluation du modle BNCF nous
mnent aborder les enjeux suivants : lamlioration de la prcision des recommandations
et la rduction de lespace de recherche pour lidentication de voisins dans un but de passage lchelle. Cest dans cette optique que nous avons propos une nouvelle approche
de recommandation nomme BNCF-PAM Clustering on Similarities (BNCF-PCS) [Esslimani et al., 2009a]. Pour atteindre les objectifs cits ci-dessus, cette nouvelle approche
exploite notamment un clustering dutilisateurs.
Le clustering est une technique permettant de grouper des objets en clusters, tel que
les objets appartenant au mme cluster sont similaires. Dans le contexte des systmes de
recommandation, le clustering peut tre appliqu aux utilisateurs ou bien aux items [Ungar
et Foster, 1998]. Lavantage dutiliser le clustering dans un processus de recommandation
est de permettre la fois de rduire lespace de recherche pour lidentication des voisins
et de pallier les problmes de manque de donnes et de passage lchelle [Sarwar et al.,
2002], [Tang et McCalla, 2003], [Xue et al., 2005], [Jiang et al., 2006].
Les mthodes de clustering les plus exploites par les systmes de recommandation sont
les mthodes de partitionnement dont k-means [MacQueen, 1967] est la plus populaire.
Cette mthode a lavantage dtre eciente et permet le passage lchelle. Toutefois, la
mthode k-means demeure peu robuste. Ce manque de robustesse est d sa sensibilit
aux donnes aberrantes (outliers) [Wang et Shao, 2004] (cf. section 1.3.3, chapitre 1,
partie 1).
De ce fait, nous avons choisi dexploiter la mthode de clustering PAM (Partitioning
Around Medoid) qui est une mthode de type k-medode [Han et Kamber, 2001]. Habituellement, le clustering peut tre exploit dans le cadre du Filtrage Collaboratif Standard
97
2.1
Le BNCF-PCS est constitu des mmes phases que celles du BNCF dcrites dans la
gure 1.1 du chapitre prcdent. Il inclut en outre, de nouvelles tapes correspondant en
particulier la PHASE I qui reprsente la phase dapprentissage.
La gure 2.1 dcrit le schma du modle BNCF-PCS. Ce schma reprend galement les
tapes qui sinscrivent dans le cadre du BNCF, du FCS et du FCS bas sur le clustering
(indiqu ci-dessus).
Le FCS exploite directement la matrice de note Utilisateur x Item contenant les
notes estimes partir des traces dusage dans le but didentier les voisins et de calculer
21
98
les prdictions. Le FCS bas sur le clustering utilise cette mme matrice an de gnrer
des clusters dutilisateurs selon les similarits de note et calculer les prdictions partir
de ces clusters.
Le BNCF, comme nous lavons dcrit dans le chapitre prcdent, exploite les squences de
navigation (extraites des traces dusage) en vue de calculer les similarits de comportement
entre utilisateurs. Ces similarits sont par la suite exploites pour le calcul des prdictions.
99
2.2
Nous avons choisi dintgrer le clustering an de permettre de rduire lespace de recherche des voisins et de promouvoir la qualit des recommandations.
Le modle FCS bas sur le clustering utilise la matrice Utilisateur x Item pour la gnration de clusters. Ainsi, les clusters sont crs en considrant les items co-nots entre
utilisateurs.
Dans le cadre du BNCF-PCS, nous avons fait le choix dexploiter une matrice Utilisateur
x Utilisateur (une matrice de similarit de note entre utilisateurs) pour la cration de
clusters. Pour la gnration de cette matrice de similarit entre utilisateurs, comme dans
le FCS, le coecient de corrlation de Pearson [Herlocker et al., 1999] a t utilis an
dvaluer les similarits de notes entre chaque paire dutilisateurs h ua ,ub i en se basant
sur les items consults en commun.
Notons que ces notes ont t estimes en exploitant les traces dusage des utilisateurs,
comme nous lavions prsent prcdemment (section 2.3.1, chapitre 2, partie 1). A partir
de la matrice de similarit entre utilisateurs, les clusters sont construits sur la base des
similarits de voisins, plutt que des notes. Cette dmarche utilise pour le clustering
a ainsi lavantage de prendre galement en compte des items non co-nots, vu que les
similarits entre utilisateurs sont exploites.
En vue dillustrer cette dmarche de clustering, nous proposons lexemple trs simple
de la matrice de notes du tableau 2.1 qui reprsente cinq utilisateurs pouvant noter cinq
items.
A partir des notes quils ont attribu aux items, nous valuons les similarits de notes
entre ces utilisateurs (en utilisant le coecient de Pearson). Le tableau 2.2 reprsente la
matrice de similarit rsultant de cette valuation.
Par exemple, en considrant les items nots en commun, lutilisateur u1 et u3 sont corrls.
100
Matrice de note
i2 i3 i4 i5
x
x
x
x
x
Bien videmment, cest la valeur de note (estime) de u1 et u3 sur litem co-not i3 , qui
dtermine le degr de corrlation entre ces deux utilisateurs. Plus leur note sur litem i3
est similaire, plus ils sont corrls, i.e. la valeur de similarit est proche de 1.
La matrice de similarit de notes va constituer, dans une tape suivante, les donnes
dentre de lalgorithme de clustering PAM. La gure 2.2 dcrit le processus du clustering
PAM. Considrant que k, reprsentant le nombre de clusters crer, est quivalent 2,
au dbut du processus deux mdodes umed et umed (par exemple les utilisateurs u3 et u4 )
sont choisis alatoirement (cf. gure 2.2 (1)). Ces mdodes vont reprsenter les centres
ou les mdodes initiaux de chaque cluster. Par la suite, en calculant les dissimilarits (ou
le cot de permutation) entre chacun de ces mdodes et les autres utilisateurs (cf. gure
2.2 (2)), lalgorithme PAM identie les mdodes eectifs (par exemple les utilisateurs u1
et u2 ).
Il est noter que cette opration itre jusqu ce que que les mdodes deviennent stables,
i.e., jusqu ce que les umed et umed ne changent plus (cf. section 1.3.3 du chapitre 1,
partie 1).
A la n du processus, nous obtenons deux clusters homognes dont chacun comprend
le groupe dutilisateurs les plus similaires en terme de voisins (cf. gure 2.2 (3)). Selon
lexemple prsent, les deux clusters obtenus sont : C1 = {u1 , u3 } et C2 = {u2 , u4 , u5 }.
Nous pouvons constater par exemple que dans le cluster C2 , les utilisateurs partagent en
eet des voisins communs, ce qui justie leur appartenance au mme cluster.
101
2.3
Les similarits de comportement entre toute paire dutilisateurs h ua ,ub i sont values
au niveau de chaque cluster cr dans ltape prcdente. Cette valuation repose sur
lalgorithme dextraction de motifs du BNCF et exploite lquation (1.1) prsente dans
le chapitre prcdent (p. 77) pour lvaluation des similarits.
De plus, dans lobjectif de rduire davantage lespace de recherche des voisins et damliorer la qualit des prdictions, nous avons propos de procder une slection de soussquences positives qui comprennent uniquement les items positivement apprcis de la
part des utilisateurs.
Si nous considrons une squence dun utilisateur ua , est une sous-squence positive
de ( ) lorsque tous les items contenus dans = {i1 , i2 ...., in }, ont des notes positives de ua . Par exemple, sur une chelle de note [1 5], nous pouvons considrer quune
note v est positive lorsque v >= 4.
Ainsi, pour toute paire dutilisateurs h ua ,ub i appartenant un mme cluster, en
prenant en considration les sous-squences positives de ua et ub parmi leurs squences de
navigation, les motifs dusage communs ces deux utilisateurs sont extraits an dvaluer
les similarits de comportement SimN av(ua , ub ).
Ds la gnration de la matrice de similarit de comportement, comme dans le BNCF,
la formule de prdiction base sur la somme pondre (cf. quation (1.2) p. 79) est employe en vue de calculer les prdictions. Cette tape correspond la PHASE II du
modle BNCF-PCS (cf. gure 2.1).
Pour le calcul des prdictions, nous prenons en considration les plus proches voisins Ua
(prsents dans le mme cluster que ua ) ayant dj not litem et qui sont corrls avec ua .
102
2.4. Evaluation
2.4
Evaluation
2.4.1
Modles expriments
La prcision des recommandations proposes par le BNCF-PCS a t compare direntes variantes des modles BNCF et FCS. Lobjectif de cette valuation est dexaminer
limpact du clustering dutilisateurs (algorithme PAM ou k-means) ainsi que linuence
de la nature de la matrice utilise pour le clustering (matrice de note ou matrice de similarit). En outre, nous avons valu limpact de lexploitation des sous-squences positives
sur le temps de calcul des similarits de comportement.
Notons que durant le calcul des prdictions pour le BNCF et le FCS, en considrant les
rsultats de lexprimentation sur le corpus du Crdit Agricole (cf. section 1.3 du chapitre
prcdent, tableaux 1.4 et 1.6 ), nous avons x le minimum ditems co-nots 20 et le
seuil 0.2.
2.4.2
Rsultats
MAE
Dans cette section, nous prsentons les rsultats dvaluation en terme de MAE. Dans
cette valuation, il tait question dexaminer dabord limpact du clustering exploitant
une matrice de notes dans le cadre du BNCF et du FCS. Par la suite, lobjectif tait
dvaluer le BNCF-PCS en examinant limpact de lalgorithme de clustering exploitant
une matrice de similarit.
103
2.4. Evaluation
MAE, quel que soit lalgorithme de clustering utilis, compare aux rsultats du tableau
2.3 relatifs au BNCF. De plus, dans le cas dun clustering PAM (BNCF-PCS), la prcision
atteint mme une amlioration de 15%, par rapport un clustering exploitant une matrice
de note.
Rappelons quici le clustering a t appliqu une matrice de similarit, ce qui permet de
gnrer des clusters, non pas uniquement en fonction de la manire dont les utilisateurs
ont co-not les items, mais galement suivant les similarits de voisins que ces utilisateurs
ont en commun. En outre, cette dmarche de clustering ne considre pas seulement les
items co-nots, mais lensemble des items nots par les utilisateurs. Il semblerait que dans
cette exprimentation, la considration des voisinages communs lors du clustering PAM,
contribue lamlioration de la performance du systme.
De plus, lors de lvaluation des similarits, le BNCF-PCS exploite linformation relative
aux items positivement apprcis par les utilisateurs, contenus dans les sous-squences
positives. Les rsultats du tableau 2.4 conrment galement que cette stratgie permet
damliorer le calcul des voisinages et lidentication des plus proches voisins, ce qui mne
une meilleure qualit des recommandations en terme de MAE.
Nous pouvons ainsi dduire que lamlioration de la prcision des prdictions (en MAE)
rsulte de lapplication de lalgorithme PAM sur une matrice de similarit et de lutilisation des sous-squences positives des utilisateurs pour lvaluation des similarits de
comportement.
HMAE
Comme dans le chapitre prcdent, nous nous intressons ici lvaluation de la HMAE
du BNCF-PCS tout en comparant les mmes variantes utilises ci-dessus, i.e. avec ou
sans clustering, utilisation dune matrice de note ou bien dune matrice de similarit. Les
rsultats en HMAE sont prsents dans les tableaux 2.5 et 2.6.
A partir du tableau 2.5, nous observons que lorsque le clustering exploite la matrice
de note, les valeurs de la HMAE augmentent pour les deux modles BNCF et FCS. Or,
sans lutilisation du clustering, le BNCF atteint une meilleure performance (amlioration
denviron 7%) en HMAE, compar au FCS (cf. section 1.3.1 du chapitre prcdent).
Tab. 2.5 Rsultats en HMAE avec ou sans clustering (utilisation dune matrice de note
en cas de clustering)
FCS BNCF
Sans clustering
0.541 0.501
Avec clustering k-means 1.285 1.272
Avec clustering PAM
1.168 1.159
Le tableau 2.6 prsente les rsultats en HMAE, en cas dapplication du clustering exploitant une matrice de similarit, dans le cadre du BNCF-PCS.
105
Temps de calcul
Dans cette section, nous nous intressons lvaluation du temps de calcul requis
pour la phase de calcul des similarits de comportement, avec ou sans clustering et avec
la slection ou non des sous-squences positives.
Les rsultats de cette valuation ont montr que les modles nintgrant pas le clustering, requirent en moyenne un temps de calcul plus lev, en vue dvaluer les similarits
de comportement. Ce temps de calcul rsulte du fait que les similarits ont t values
entre toutes les paires dutilisateurs contenues dans le corpus dapprentissage. Or, avec
lapplication du clustering, ces similarits sont calcules uniquement au sein des clusters,
ce qui se rpercute sur le nombre dutilisateurs concerns par lvaluation, qui tend bien
videmment la baisse.
Par ailleurs, partir de ces rsultats, nous remarquons galement que la slection des
sous-squences positives contribue une importante rduction du temps de calcul. En
eet, ce temps dcrot denviron 8% sans lutilisation du clustering et de 16% 30% avec
lapplication du clustering. Cela peut tre expliqu par le fait que le nombre de squences
considres lors de lextraction des motifs dusage a t rduit.
Pour le BNCF-PCS, lapplication du clustering et lutilisation des sous-squences positives reste bnque en terme de temps de calcul ainsi quen terme de prcision des
recommandations.
2.4.3
Discussion
Nous avons propos le modle BNCF-PCS en vue de rduire lespace de recherche pour
lidentication de voisins et damliorer la performance du systme de recommandation.
106
2.4. Evaluation
Pour la rduction de lespace de recherche, le BNCF-PCS applique lalgorithme de clustering PAM. La particularit de ce clustering rside dans lutilisation dune matrice de
similarit Utilisateur x Utilisateur plutt quune matrice de note Utilisateur x Item,
an de crer des clusters. Ainsi, dans le cadre du BNCF-PCS, les utilisateurs sont groups
en dirents clusters homognes, selon les similarits de leurs voisins.
Lavantage dune telle dmarche de clustering est la considration ditems supplmentaires
et non pas uniquement des items co-nots par les utilisateurs. En eet, tant donn que
les similarits exploites pour le clustering reposent sur les voisinages communs, tous les
items consults par les utilisateurs ayant des voisins en commun sont considrs.
Le BNCF-PCS a t valu en termes de MAE et de HMAE et compar dautres
modles de FCS, en vue dexaminer linuence de la matrice utilise lors du clustering
ainsi que limpact de lalgorithme de clustering utilis.
Les rsultats montrent lintrt dappliquer le clustering PAM (exploitant une matrice de
similarit) et dutiliser les sous-squences positives pour valuer les similarits de comportement. En eet, une importante amlioration en terme de MAE a t atteinte (cf.
tableau 2.4).
Toutefois, avec la slection des sous-squences positives, le systme risque de ne pas
tenir compte dinformations pertinentes relatives aux squences utilisateurs, en vue de
dtecter des motifs dusage ables. En eet, des sous-squences incluant les items non
apprcis peuvent galement rvler certaines corrlations de comportement entre utilisateurs.
Par ailleurs, lapplication du clustering (sur une matrice de similarit) risque de ngliger certaines informations pertinentes pendant le processus de rduction de lespace de
recherche. En eet, les utilisateurs sont groups en clusters selon les similarits de voisins. De ce fait, deux utilisateurs ua et ub qui sont faiblement similaires avec leur voisin
commun uc , ne vont pas appartenir au mme cluster. Nanmoins, lutilisateur ub peut apporter une importante contribution la gnration de prdictions lutilisateur actif ua ,
surtout lorsque le systme ne retrouve pas dautres voisins ua . Par consquent, une telle
perte dinformation est susceptible dengendrer une diminution de la capacit prdictive
du systme de recommandation.
Cest dans ce contexte que nous avons propos dtendre notre approche de recommandation, en intgrant dautres techniques permettant de faire face ce problme de perte
dinformation. En eet, nous souhaitons amliorer le processus didentication des voisins, notamment par la dcouverte de nouveaux liens entre utilisateurs qui peuvent tre
interprts comme tant des similarits. Ces nouveaux liens reprsentent une solution
prometteuse face au problme de manque de donnes.
107
108
Troisime partie
Approche sociale de recommandation
109
Chapitre 1
Prdiction de lien dans les rseaux
comportementaux
Dans lobjectif de pallier le manque de donnes, didentier des voisins ables et de
promouvoir la performance des systmes de recommandation, nous avons propos une
nouvelle approche sociale de recommandation.
En eet, dans le cadre du FCS (Filtrage Collaboratif Standard), les voisins sont identis
sur la base des similarits entre un utilisateur actif et les autres utilisateurs. Lvaluation de ces similarits repose sur le calcul des corrlations de leurs apprciations vis--vis
ditems co-nots dans le pass. Or, linconvnient de cette approche est quelle exploite
uniquement les apprciations communes, i.e. les liens directs entre utilisateurs, an de
calculer les prdictions. En eet, si deux utilisateurs ne partagent aucune de ces apprciations communes, aucun lien ne peut tre tabli entre eux (ce lien est mme considr
comme nul).
Ce problme mane notamment du manque de donnes. En eet, lorsque le volume des
donnes de notes est limit, lidentication des voisins savre complexe, ce qui entrane
une diminution de la capacit prdictive et de la qualit des prdictions produites par le
systme de recommandation.
Dans la partie prcdente, nous avons dj fait une premire proposition pour pallier
le problme de manque de donnes. Lapproche de recommandation prsente dans ce
chapitre vise galement remdier ce problme. En eet, lobjectif de cette nouvelle
approche est dexplorer de nouveaux liens entre des utilisateurs nayant pas eu ncessairement des apprciations communes antrieurement. Cest dans cette optique que nous
nous sommes inspirs des approches issues de lanalyse des rseaux sociaux, permettant
notamment de prdire les liens entre utilisateurs, do lappellation dapproche sociale de
recommandation.
Les rseaux sociaux reprsentent une structure sociale entre des acteurs, souvent des
individus ou des organisations, permettant dindiquer les connexions existantes entre eux,
111
1.1
1.1.1
Prdiction de lien
Dans le domaine des rseaux sociaux
1.1.2
1.2
Modle D-BNCF
1.2.1
1.2.2
116
(1.1)
Voisins communs Common neighbors : mesure la similarit entre deux utilisateurs ua et ub en fonction du nombre de leurs voisins communs. Voisins communs
entre ua et ub est calcul ainsi :
1
Sim(ua , ub ) = ((ua ) (ub ) )
(1.2)
uc (ua ) (ub )
1
log [f requency(uc )]
(1.4)
Outre les mthodes prsentes ci-dessus, nous avons propos une nouvelle mthode
de prdiction de lien, fonde sur le voisinage, appele ETL (Enhanced Transitive Link). Il sagit dune amlioration de la mthode Jaccard. Cette mthode,
reprsente par lquation (1.5), calcule le lien entre deux utilisateurs en considrant
les plus proches voisins que deux utilisateurs ua et ub ont en commun,
nots
E(ua ) E(u ) , par rapport leurs voisins communs, nots (ua ) (u ) .
b
b
Pour slctionner les plus proches voisins communs ua et ub , nous avons propos de
calculer pour chaque utilisateur, la valeur mdiane de similarit, parmi lensemble
de ses voisins. Ainsi, les plus proches voisins de chaque utilisateur sont dtermins
en fonction de cette valeur mdiane de similarit.
E(ua ) E(u )
b
(1.5)
Sim(ua , ub ) =
(ua ) (ub )
Lors de lapplication des mthodes fondes sur le voisinage, une seule itration est
permise an dexplorer de nouveaux liens travers le rseau comportemental. Les
liens originaux sont ainsi remplacs par les nouveaux liens calculs, qui sont intgrs
par la suite pour gnrer les prdictions.
d(ua , ub ) = 1 Sim(ua , ub )
(1.6)
A la n du processus, lorsque les nouveaux liens sont dcouverts (les plus courts chemins entre utilisateurs), ces valeurs sont nouveau transformes en similarits Sim (ua , ub )
(suivant lintervalle [0, 1]) en utilisant lquation (1.7). dmax reprsente la distance maximale dun plus court chemin identi parmi toutes les paires dutilisateurs. Lobjectif de
lutilisation de cette quation consiste normaliser les valeurs de distances.
Ainsi, les nouveaux liens calculs sont considrs pour la gnration des prdictions.
Sim (ua , ub ) = 1
d(ua , ub )
dmax
(1.7)
Les gures 1.2 et 1.3 permettent dillustrer lapplication de cette mthode. Lors de
la recherche des plus courts chemins entre les paires dutilisateurs travers le rseau
comportemental, nous distinguons deux types de paires :
1. une paire dutilisateurs qui ne sont pas connects directement,
2. une paire dutilisateurs qui sont dj connects travers un lien direct.
La gure 1.2 est une illustration du premier type de paire. Dans cet exemple, ue et
uh ne sont pas connects directement dans le rseau comportemental. Les similarits sont
transformes en distance pour que les chemins les plus courts soient calculs travers le
rseau comportemental (volet (II)). Grce la transitivit, un nouveau lien est identi
entre ue et uh tel que : d(ue , uh ) = d(ue , uf ) + d(uf , uh ) = 0.5 + 0.7 = 1.2 (volet (III)).
Dans cet exemple, nous avons considr que dmax = 1.5. Ainsi la similarit est calcule en
e ,uh )
= 1 1.2
utilisant lquation (1.7) : Sim (ue , uh ) = 1 d(u
= 0.2 (volet (IV)).
dmax
1.5
Fig. 1.2 Calcul du plus court chemin entre ue et uh
119
Dans le cadre des mthodes fondes sur les chemins, nous avons suggr une variation de la mthode distance de graphe, en considrant le critre du nombre de nuds
intermdiaires prsents au niveau du plus court chemin entre deux paires de nuds ou
dutilisateurs dans le rseau comportemental. Ainsi, les poids des arcs, dnis par les similarits de comportement, ne sont pas considrs. Plus le nombre de nuds intermdiaires
est faible, plus le chemin est able.
Dans le but de calculer le nouveau lien entre deux utilisateurs ua et ub , nous utilisons
des valeurs boolennes an de dterminer la prsence dun lien ou non. Deux utilisateurs
similaires sont ainsi relis par un arc dont le poids vaut 1, sinon ce poids vaut 0 (i.e. le lien
est inexistant). Autrement dit, le rseau comportemental est reprsent par un graphe non
valu. Aprs le calcul des plus courts chemins, nous dduisons les valeurs de similarits en
utilisant lquation (1.7). Ici, d est reprsent par le nombre de nuds intermdiaires et
dmax dsigne le nombre maximal de nuds reliant un utilisateur avec lun de ses voisins.
120
En comparant les matrices D-BNCF, nous observons que dans certains cas, des liens
sont dcouverts par toutes les mthodes, tel que le lien entre u1 et u4 . Dans dautres cas,
selon la mthode utilise, les nouveaux liens peuvent tre rajouts ou pas. En eet, si nous
comparons les matrices D-BNCF-Adamic/Adar et D-BNCF-Jaccard, nous remarquons
que D-BNCF-Jaccard a identi un nouveau lien entre u2 et u3 , alors que D-BNCFAdamic/Adar na pas identi ce lien. En eet, le voisin commun u1 de la paire de nuds
hu2 , u3 i nest pas frquent parmi les autres paires de nuds.
La gure 1.5 prsente la matrice D-BNCF-Adamic/Adar sous forme de graphe. Les
lignes pleines reprsentent les liens directs calculs par le BNCF et les lignes pointilles
121
Les direntes mthodes prsentes dans cette section permettent didentier de nouveaux voisins potentiels pour tous les utilisateurs actifs. Ces voisins sont par la suite
impliqus dans le calcul des prdictions dans lobjectif de remdier au manque de donnes
et damliorer la performance du systme de recommandation.
1.2.3
Une fois les nouveaux liens entre un utilisateur actif ua et les autres utilisateurs sont
identis (PHASE I), les prdictions sont calcules (PHASE II) en se basant sur lquation
de la somme pondre utilise dans les chapitres prcdents, an de calculer les prdictions
pour chaque utilisateur actif.
Nous slectionnons les plus proches voisins Ua (directs et non directs) dans le rseau
comportemental, ayant dj not litem prdire ik .
Les items qui seront recommands lutilisateur actif sont les items disposant des valeurs
de prdictions les plus leves.
1.3
Evaluation du modle
1.3.1
Modles expriments
Lobjectif de cette valuation consiste tudier limpact de chaque mthode de prdiction de lien sur la performance du systme de recommandation.
Les modles D-BNCF sont nots ainsi :
D-BNCF-VoisinsCommuns,
D-BNCF-AttachementPrfrentiel,
D-BNCF-Jaccard,
D-BNCF-Adamic/Adar,
D-BNCF-ETL(Enhanced Transtitive Link),
D-BNCF-DistanceDeGraphe-Valu (en considrant les similarits en tant que poids
des arcs),
D-BNCF-DistanceDeGraphe-NonValu (les poids des arcs ne sont pas considrs,
cest le nombre de nuds sparant deux utilisateurs qui dtermine le plus court
chemin).
En outre, nous avons compar la performance des modles D-BNCF au :
BNCF : il reprsente le rseau comportemental sans aucun nouveau lien. Seuls les
voisins directs sont impliqus au calcul des prdictions.
FCS.
Par ailleurs, dans lobjectif dexaminer si les modles D-BNCF peuvent tre complmentaires, nous avons propos un autre modle combinant les similarits calcules par les
deux modles D-BNCF les plus performants.
1.3.2
Rsultats
MAE
Le tableau 1.1 prsente les rsultats en MAE relatifs aux modles D-BNCF compars
au BNCF ainsi quau FCS. En observant les rsultats du tableau 1.1, nous remarquons
quen cas dapplication de la mthode distance de graphe (D-BNCF-DistanceDeGrapheValu/D-BNCF-DistanceDeGraphe-NonValu) exploitant soit un graphe (rseau comportemental) valu ou bien non valu, lutilisation de nouveaux liens contribue une lgre
123
MAE
0.763
0.789
1.074
1.011
0.858
0.882
0.847
0.782
0.780
HMAE
Les rsultats en HMAE relatifs cette exprimentation sont prsents dans le tableau
1.2.
124
1.3.3
D-BNCF Combin
En tenant compte des performances des modles D-BNCF dcrites ci-dessus, nous
avons slectionn les modles D-BNCF exploitant les mthodes Jaccard et Adamic/Adar,
vu leur performance en terme de HMAE.
Bien que Jaccard et Adamic/Adar appartiennent la mme famille de mthodes de prdiction de lien, savoir les mthodes fondes sur le voisinage des nuds, ces mthodes
125
1.3.4
Discussion
Nous avons prsent ici le modle de recommandation D-BNCF que nous avons propos. Le D-BNCF exploite un rseau comportemental (construit partir des similarits de
comportement entre utilisateurs) ainsi que les mthodes de prdiction de lien permettant
de densier ce rseau. Lobjectif du D-BNCF consiste dcouvrir de nouveaux liens entre
utilisateurs. Ces nouveaux liens sont impliqus dans le processus de recommandation an
de pallier le manque de donnes et damliorer la qualit des recommandations.
Lvaluation des modles D-BNCF montre limpact des mthodes de prdiction de lien
Jaccard et Adamic/Adar, en particulier en terme de HMAE. La performance de ces deux
mthodes est lie la faon dont les nouveaux liens sont identis, considrant les voisins
communs et les voisins communs rares, plutt que plusieurs voisins intermdiaires telle
que dans la mthode distance de graphe.
La faible prcision des recommandations produites par le D-BNCF-AttachementPrfrentiel
et D-BNCF-VoisinsCommuns tait prvisible. En eet, ces deux mthodes engendrent respectivement une hyperconnectivit du rseau comportemental ainsi que laugmentation
de limpact des utilisateurs disposant de nombreux voisins.
En ce qui concerne la mthode de prdiction que nous avons propose ETL (Enhanced
Transitive Link), la performance ralise reste modeste. Les rsultats obtenus au niveau
de la prcision des recommandations sont notamment ds la stratgie de slection des
plus proches voisins communs.
En vue dexaminer cette question et dans la perspective damliorer la prcision des re126
127
128
Chapitre 2
Leaders comportementaux pour la
recommandation de la nouveaut
Dans les chapitres prcdents, nous nous sommes intresss ltude des problmes de
manque de donnes et de la qualit des recommandations. Dans le cadre des systmes de
recommandation fonds sur le FCS, une autre question de recherche qui demeure souleve
est le dmarrage froid concernant les items, appelle aussi problme de latence [Sollenborn et Funk, 2002]. En eet, un item rcemment intgr un systme de recommandation, ntant pas encore consult ou not par un utilisateur, ne peut tre recommand aux
utilisateurs actifs.
En vue de rsoudre ce problme de latence, la solution la plus communment utilise
consiste exploiter la technique base sur le contenu (cf. section 1.4.2, chapitre 1, partie
1). Lorsquun nouvel item est intgr, le systme value sa similarit avec les autres items
disponibles en terme de contenu. Ainsi, ce nouvel item pourra tre recommand un
utilisateur ayant apprci dans le pass des items ayant un contenu similaire ce nouvel
item.
La technique base sur le contenu constitue un moyen damorage et permet de recommander un nouvel item ds son intgration dans le systme. Or, sur le long terme, lutilisation
de cette technique peut ne pas tre approprie. En eet, la technique base sur le contenu
a pour inconvnient dengendrer une surspcialisation des recommandations (i.e. toutes
les recommandations sont lies un mme domaine). De plus, cette technique pose des
problmes lorsquil sagit ditems qui ne sont pas des donnes textuelles.
Dans ce chapitre, nous prsentons le modle que nous avons propos dans le but
dattnuer ou de rduire le temps de latence. Ce modle repose sur lidentication de
leaders comportementaux dans le contexte des rseaux comportementaux [Esslimani et al.,
2010b] et des systmes de recommandation [Esslimani et al., 2010c].
Dans le domaine des rseaux sociaux, un leader est une personne qui inuence ses
amis ou ses collaborateurs par ses ides et ses opinions. Ici, nous considrons quun leader
129
2.1
131
2.2
not |(ua ) |
D(ua ) = |(ua ) |
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
end for
Trier les degrs D de tous les nuds N dans un ordre descendant
return TopN leaders potentiels UP L ayant un degr de centralit lev
end function
function DetecterLeaders
for chaque leader potentiel upl UP L do
Slectionner les items apprcis Iprf (upl ) Its
Slectionner les nuds voisins
for chaque voisin slectionn ua do
for chaque item ij Iprf (upl ) do
Propager les apprciations apr(upl , ij ) ua tel que :
papr(ua , ij ) = (ua ,upl ) apr(upl , ij )
15:
16:
17:
18:
19:
20:
21:
22:
(2.1)
(2.2)
134
2.3
Dans lobjectif dvaluer la performance de lapproche prsente ici, nous avons exploit
le corpus dusage du Crdit Agricole qui a t galement utilis dans les exprimentations
prcdentes.
An de valider la qualit des apprciations propages par les leaders potentiels travers
le rseau, nous avons extrait ces apprciations du corpus test nomm Its . Comme nous
lavons mentionn auparavant, nous considrons uniquement les apprciations positives
de ces leaders (seuls les items quils apprcient, nots 4 et 5).
De plus, les poids sont utiliss dans ltape de propagation comme un facteur dattnuation. Ces poids varient de 0 1. A titre dexemple, lorsque les valeurs de similarits
appartiennent lintervalle ]0.8 1.0], le poids correspondant vaut 1.0. Notons que lattribution des poids , prsente dans la gure 2.2, repose sur la distribution des similarits
entre utilisateurs relative au corpus tudi ici.
Fig. 2.2 Pondration selon les similarits
2.3.1
Rsultats
Dans cette exprimentation, nous avons valu la prcision des apprciations propages
de chaque leader potentiel en utilisant lquation (2.3).
135
Fig. 2.3 Distribution des TopN10 leaders comportementaux potentiels selon le pourcentage de prcision
Si nous observons les rsultats des gures 2.3 et 2.4, nous remarquons que les distributions de prcision ont une volution similaire pour les TopN10 et TopN20 leaders
potentiels. Lorsque les TopN10 leaders comportementaux sont impliqus, nous observons
que 80% de ces leaders ont plus de 60% de prcision, 60% ont une prcision de plus de
80% et 40% ont atteint 100% de prcision.
En ce qui concerne les TopN20 leaders comportementaux, nous observons que, de la mme
faon, environ 80% de leaders propagent ecacement les recommandations, puisque la prcision correspondante est suprieure 60%, 53% ont une prcision suprieure 80% et
37% ont une prcision qui slve 100%.
136
Avec lutilisation des TopN10 ou des TopN20, une importante proportion de leaders
comportementaux potentiels obtient une grande prcision relative aux apprciations propages. Nous considrons que les leaders ayant atteint plus de 80% de prcision, constituent les nuds reprsentatifs parmi tous les nuds dans le rseau comportemental. En
eet, ils prdisent ecacement les apprciations des autres utilisateurs.
En outre, dans cette exprimentation nous avons compar la performance de notre
modle la performance du FCS (Filtrage Collaboratif Standard), en terme de prcision
(cf. section 2.4.2, chapitre 2, partie 1). Le tableau 2.1 prsente les moyennes de prcision
correspondant notre modle Recommandations fondes sur les leaders ainsi quau FCS.
Ces prcisions ont t calcules sur les mmes paires < utilisateur, item > en utilisant
deux ensembles dirents R1 et R2 . Ces ensembles reprsentent respectivement les paires
prdites < utilisateur, item >, considres lors de la propagation par les TopN10 et les
TopN20 leaders.
En observant les rsultats du tableau 2.1, nous remarquons quau niveau des items recommands par les leaders (contenus dans R1 et R2 ), notre modle mne une meilleure
performance compar au FCS. En eet, lorsque nous considrons les ensembles R1 et
R2 , environ 77% de prcision est atteinte. Cependant, le FCS est moins performant puisquil parvient uniquement 51% et 43% de prcision, en considrant respectivement
R1 et R2 . Ces rsultats conrment ainsi la abilit des leaders comportementaux pour la
recommandation ditems pertinents aux autres utilisateurs.
Tab. 2.1 Moyenne de prcision des recommandations fondes sur les leaders compare
au FCS
Modle de recommandation
R1
R2
Recommandations fondes sur les leaders 77% 76%
FC Standard (FCS)
51% 43%
137
2.3.2
Discussion
139
140
Conclusion et Perspectives
Lexpansion de lInternet et du nombre dapplications bases sur le Web tels que les
portails dentreprise, est associe une prolifration dinformation ou ditems dont le
volume ne cesse de crotre. Devant cette profusion et cette surcharge ditems, lutilisateur
peine reprer linformation pertinente qui correspond le plus ses besoins. Dans ce
contexte, les systmes de recommandation ont t dvelopps en vue de faciliter laccs
ces items pertinents. Leur objectif est danticiper les besoins de lutilisateur en lui
fournissant des recommandations ditems jugs pertinents par rapport ses gots.
Il existe une varit de techniques de recommandation parmi lesquelles le Filtrage
Collaboratif (FC), qui constitue la technique la plus populaire. Le principe du FC consiste
retrouver des utilisateurs ayant des gots similaires ceux dun utilisateur actif (ses
voisins) et utiliser leurs avis dans le but de lui recommander des items susceptibles de
lintresser.
La dernire dcennie a t marque par un large dploiement des systmes de recommandation exploitant notamment le FC, dans dirents champs dapplication intgrant
les sites de e-commerce (e.g. Amazon), les sites de recrutement (e.g. JobFinder), les sites
de musique (e.g. LastFM), etc.
Malgr cet engouement pour les systmes de recommandation, certaines questions restent
encore souleves. Lune de ces questions est lie au manque de donnes, notamment le
manque de notes explicites attribues par des utilisateurs aux items. En eet, un systme fond sur le FC exploite ces notes an dvaluer les similarits entre utilisateurs en
exploitant les items co-nots. Ces similarits permettent didentier les voisins dont les
apprciations sont combines pour calculer les recommandations. Or, si ces notes savrent
insusantes, le systme sera incapable didentier un nombre signicatif de voisins ables.
Un autre enjeu pour les systmes de recommandation est de rsoudre le problme de
dmarrage froid concernant la nouveaut dun utilisateur et/ou dun item. En labsence
des notes de la part de cet utilisateur et/ou sur cet item, il devient impossible pour le
processus de ltrage de les intgrer dans les recommandations.
En outre, la prcision des recommandations est un d majeur pour tout systme
de recommandation dans la mesure o la pertinence des items recommands permet de
141
Conclusion et Perspectives
contribuer la satisfaction des attentes de lutilisateur et sa dlisation au service en
question.
A partir de ces questions de recherche et en prenant en compte le contexte dun portail
Extranet dentreprise, nous avons propos dans cette thse de nouvelles approches de
recommandation sappuyant sur lobservation du comportement et sur lanalyse des usages
des utilisateurs. Lobjectif est damliorer lusage des items accessibles sur ce portail,
auprs des utilisateurs du Groupe Crdit Agricole.
Nous avons propos un nouveau modle comportemental de recommandation nomm
BNCF, inspir du Web Usage Mining et du FC. Ce modle vise modliser les utilisateurs
en analysant le comportement de navigation partir des traces dusage. Nous considrons
en eet que deux utilisateurs ayant des motifs dusage communs sont similaires.
Les similarits de comportement sont values sur la base dune mesure que nous avons
propose, qui tient notamment compte de la longueur maximale de motifs dusage communs entre utilisateurs. Ces similarits sont par la suite exploites an didentier les
voisins et gnrer des prdictions.
Lvaluation de la performance du systme de recommandation montre que le BNCF
contribue une amlioration de la prcision au niveau des items rellement recommands
par le systme. Nous pouvons dduire que les traces dusage sont une source dinformation
able permettant au systme de recommandation de modliser ecacement les utilisateurs
(sans faire appel aux donnes de notes) et de gnrer des prdictions pertinentes.
Dans lobjectif damliorer davantage la performance du BNCF et de rduire lespace
de recherche des voisins, nous avons propos une extension du BNCF travers le modle BNCF-PCS qui intgre une phase de clustering dutilisateurs. Ce clustering a pour
particularit de gnrer des clusters en considrant les similarits de voisins. Lavantage
dune telle dmarche de clustering est la considration ditems supplmentaires (tous les
items consults par les utilisateurs) et non pas uniquement des items co-nots par les
utilisateurs.
Les similarits de comportement navigationnel sont par la suite calcules dans chaque
cluster gnr en prenant en compte uniquement les squences positives de navigation des
utilisateurs (i.e. les squences ditems positivement apprcis).
Lvaluation de ce modle a permis de souligner une amlioration importante de la prcision des recommandations, ainsi quune rduction du temps de calcul des similarits grce
lexploitation des clusters et lutilisation des squences positives.
Nanmoins, malgr la contribution de cette dmarche de clustering la performance du
systme de recommandation, elle risque de ngliger certaines informations pertinentes
pendant le processus de rduction de lespace de recherche. En eet, si un utilisateur na
pas beaucoup de voisins communs avec les autres utilisateurs, le systme trouvera des
dicults lui retrouver des voisins ables et lui gnrer des recommandations pertinentes.
Ce constat nous a men une autre rexion visant remdier ce problme de perte
dinformation ainsi quau problme de manque de donnes.
Il sagit damliorer le processus didentication des voisins, notamment par la recherche
142
de nouveaux liens entre utilisateurs. Cest dans cette optique que nous nous sommes inspirs des approches issues de lanalyse des rseaux sociaux pour prdire les liens pouvant
relier les utilisateurs.
Ainsi, dans le cadre du modle propos D-BNCF, nous avons exploit linformation comportementale an de modliser les liens entre utilisateurs travers un rseau comportemental. Nous avons propos dappliquer par la suite des mthodes de prdiction de
lien et des associations transitives an de densier le rseau construit et dcouvrir de
nouveaux voisins pour chaque utilisateur. Ces voisins sont impliqus dans le calcul des
recommandations dans le but damliorer la qualit des recommandations ainsi que la
capacit prdictive du systme.
Lexprimentation met en vidence lintrt dutiliser les nouveaux liens dcouverts par
certaines mthodes de prdiction de lien. En eet, ces mthodes ont contribu une
meilleure prcision des recommandations.
En outre, nous nous sommes intresss la question de dmarrage froid lie en particulier la nouveaut dun item (i.e. problme de latence). Nous avons ainsi propos un
modle qui repose sur lidentication de leaders comportementaux pour la recommandation de la nouveaut. Nous considrons quun leader comportemental est un utilisateur
connect un grand nombre dutilisateurs ayant un comportement similaire et qui prdit
ablement les apprciations de ces utilisateurs.
Dans le but de dtecter les leaders, notre modle mesure dabord la connectivit des utilisateurs pour dterminer des leaders potentiels. Par la suite, ce modle value leur capacit
propager des recommandations pertinentes dans le but de dterminer les leaders les plus
ables.
Ainsi, en connaissant au pralable leurs opinions sur les nouveaux items, ces leaders constituent les utilisateurs reprsentatifs du rseau que le systme doit cibler pour prdire les
avis des autres utilisateurs sur ces nouveaux items.
Lvaluation de ce modle a montr lavantage de la propagation des avis des leaders pour
la recommandation de la nouveaut. En eet, en prenant en compte lensemble des items
recommands par les leaders, notre modle parvient amliorer la qualit des recommandations.
Par ailleurs, en collaboration avec la socit Sailendra S.A.S23 , les algorithmes dvelopps autour du ltrage collaboratif comportemental (BNCF) ont t intgrs au niveau
de la plate forme CASA du portail Extranet du Groupe Crdit Agricole (cf. section 1.3.2,
chapitre 1, partie 2). Actuellement, ces algorithmes sont dploys et tests au niveau du
site Extranet du Ple Innovation avant dtre fonctionnels au niveau de tout le Groupe
Crdit Agricole. Il est question dintgrer galement par la suite les autres modles proposs dans le cadre de cette thse.
23
http ://www.sailendra.fr/
143
Conclusion et Perspectives
Perspectives
Notre travail de recherche ouvre des perspectives court terme et moyen et long
terme.
A court terme
Nous souhaitons avoir un retour dexprience de la part des utilisateurs du
Groupe Crdit Agricole S.A concernant les recommandations qui leur sont proposes.
Ces retours vont nous permettre dvaluer directement lintrt de nos modles pour
la recommandation ditems pertinents et dvaluer la satisfaction des utilisateurs. Ces
retours peuvent mme tre exploits par le systme de recommandation en
vue daffiner les profils utilisateurs.
Lun des objectifs que nous nous sommes xs aussi pour les travaux futurs court
terme est dlaborer un modle de recommandation qui ne requiert pas de notes
pendant tout le processus de recommandation. En eet, dans les modles que nous
avons proposs dans cette thse, mmes si les notes ntaient pas exploites en phase
dapprentissage, elles taient souvent ncessaires dans la phase de prdiction.
Nous pouvons ainsi soit prendre en compte dautres critres permettant de dterminer
lapprciation dun item dans la phase de prdiction ou bien de considrer uniquement
laction de consulter ou pas un item dans cette mme phase.
En outre, nous prvoyons dtudier galement lintrt des liens sociaux pour les
systmes de recommandation (i.e. les liens issus des relations sociales telle que la
collaboration professionnelle ou lamiti dans le cadre des plates-formes du Web social)
et dexaminer jusqu quel point ils peuvent tre complmentaires avec les liens
comportementaux. Il sagit dvaluer limpact de cette combinaison sur le choix des
voisins et sur la performance du systme de recommandation dune manire gnrale.
A moyen et long terme
Dans le cadre de nos perspectives de recherche moyen et long terme, nous envisageons dtudier davantage lapport du leadership dans le cadre des systmes de
recommandation. En eet, notre connaissance peu dtudes sont consacres lidentication de leaders dans ce cadre.
Nous souhaitons ainsi exploiter les techniques issues de lanalyse de rseaux sociaux bases sur des approches topologiques ainsi que la technique danalyse
de contenu. Il sagit dexaminer notamment si lhybridation des deux types de techniques permet la dcouverte de leaders pertinents. Les leaders peuvent ainsi tre dtects
en fonction de leur connectivit dans le rseau (construit par exemple sur la base de linformation comportementale) mais aussi sur la base de lanalyse du contenu des changes
( travers des forums par exemple) quils peuvent avoir avec les autres utilisateurs du
rseau.
Par ailleurs, il semble prometteur dtudier lapplicabilit des techniques de sondage
144
145
Conclusion et Perspectives
146
1.1
1.2
1.3
1.4
Clustering k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.5
2.1
2.2
2.3
2.4
2.5
1.1
FC comportemental BNCF . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.2
Distribution des pourcentages des plus proches voisins identis sur le corpus Movielens par le BNCF et le FCS . . . . . . . . . . . . . . . . . . . . 84
1.3
Distribution des pourcentages des plus proches voisins identis sur le corpus Crdit Agricole par le BNCF et le FCS . . . . . . . . . . . . . . . . . 85
1.4
1.5
. . . . . . . . . . . . . . . . . . . . 62
. . . . . . . . . . 90
. . . . . . . 91
148
1.6
Aperu du menu de personnalisation des recommandations par les utilisateurs du portail Extranet du Crdit Agricole . . . . . . . . . . . . . . . . 94
1.7
2.1
2.2
1.1
1.2
1.3
1.4
Exemple comparant les voisins identis par D-BNCF (selon les mthodes
de prdiction de lien) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
1.5
2.1
2.2
2.3
Distribution des TopN10 leaders comportementaux potentiels selon le pourcentage de prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
2.4
Distribution des TopN20 leaders comportementaux potentiels selon le pourcentage de prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
1.1
1.2
1.3
1.4
2.1
2.2
2.3
2.4
1.1
Squences ditems de u1 et u2 . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.2
1.3
1.4
1.5
1.6
1.7
150
1.8
1.9
2.1
Matrice de note
2.2
2.3
2.4
2.5
2.6
1.1
1.2
2.1
Moyenne de prcision des recommandations fondes sur les leaders compare au FCS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
. . . . . . . . . . . . . . . . . . . . . . . . . 101
Bibliographie
[Abhinandan et al., 2007] Abhinandan, S. D. ; Mayur, D. ; Ashutosh, G. et Shyam,
R. (2007). Google news personalization : scalable online collaborative ltering. In
Proceedings of the 16th international conference on World Wide Web. ACM.
[Adamic et Adar, 2003] Adamic, L. et Adar, E. (2003). Friends and neighbors on the
web. Social networks, 25(3):211230.
[Adomavicius et Tuzhilin, 2005] Adomavicius, G. et Tuzhilin, A. (2005). Toward the
next generation of recommender systems : A survey of the state-of-the-art. IEEE
transactions on knowledge and data engineering, 17(6):734749.
[Agarwal et al., 2008] Agarwal, N. ; Liu, H. ; Tang, L. et Yu, P. (2008). Identifying
the inuential bloggers in a community. In Proceedings of the international conference
on Web search and web data mining (WSDM08), pages 207218, New York, NY, USA.
ACM.
[Aggarwal et al., 1999] Aggarwal, C. ; Wolf, J. ; Wu, K. et Yu, P. (1999). Horting
hatches an egg : A new graph-theoretic approach to collaborative ltering. In Proceedings of the ACM KDD Conference. ACM.
[Agrawal et al., 1993] Agrawal, R. ; Imieliski, T. et Swami, A. (1993). Mining association rules between sets of items in large databases. In Proceedings of the 1993
ACM SIGMOD international conference on Management of data (SIGMOD93), pages
207216, New York, NY, USA. ACM.
[Agrawal et Srikant, 1994] Agrawal, R. et Srikant, R. (1994). Fast algorithms for
mining association rules. In Proceedings of VLDB Conference, pages 487499.
[Agrawal et Srikant, 1995] Agrawal, R. et Srikant, R. (1995). Mining sequential patterns. In Proceedings of the 11th International Conference on Data Engineering, pages
314.
[Aha et al., 2000] Aha, D. ; Breslow, L. et Muoz-Avila, H. (2000). Conversational
case-based reasoning. Applied Intelligence, (14):932.
[Anand et Mobasher, 2005] Anand, S. et Mobasher, B. (2005). Intelligent techniques
for web personalization. Lecture Notes in Artificial Intelligence, 3169:136.
[Ayres et al., 2002] Ayres, J. ; Flannick, J. ; Gehrke, J. et Yiu, T. (2002). Sequential pattern mining using a bitmap representation. In Proceedings of the eighth ACM
SIGKDD international conference on Knowledge discovery and data mining (KDD02),
pages 429435, New York, NY, USA. ACM.
151
Bibliographie
[Balabanovi et Shoham, 1997] Balabanovi, M. et Shoham, Y. (1997). Fab : contentbased, collaborative recommendation. Commun. ACM, 40(3):6672.
[Baltrunas et Ricci, 2007] Baltrunas, L. et Ricci, F. (2007). Dynamic item weighting
and selection for collaborative ltering. In Web mining 2.0 Workshop, ECML-PKDD
2007. Springer-Verlag.
[Banerjee et Ghosh, 2001] Banerjee, A. et Ghosh, J. (2001). Clickstream clustering
using weighted longest common subsequences. In Proceedings of the Web Mining Workshop at the 1st SIAM Conference on Data Mining.
[Barabsi et Albert, 1999] Barabsi, A. et Albert, R. (1999). Emergence of scaling in
random networks. Science, 286(5439):509.
[Barabsi et al., 2002] Barabsi, A. L. ; Jeong, H. ; Neda, Z. ; Ravasz, E. ; Schubert,
A. et Vicsek, T. (2002). Evolution of the social network of scientic collaboration.
Physica A, 311(3-4):590614.
[Bartal et al., 2009] Bartal, A. ; Sasson, E. et Ravid, G. (2009). Predicting links in social networks using text mining and sna. In Proceedings of the International Conference
on Advances in Social Networks Analysis and Mining (ASONAM). IEEE.
[Basilico et Hofmann, 2004] Basilico, J. et Hofmann, T. (2004). A joint framework for
collaborative and content ltering. In Proceedings of the 27th annual international ACM
SIGIR conference on Research and development in information retrieval (SIGIR04),
pages 550551, New York, USA. ACM.
[Baumgarten et al., 2000] Baumgarten, M. ; Buchner, A. ; Anand, S. ; Mulvenna,
M. et Hughes, J. (2000). User-driven navigation pattern discovery from internet data,
chapitre Web Usage Analysis and User Proling, pages 7491. Lecture Notes in Computer Science. Springer-Verlag.
[Bell et al., 2007] Bell, R. ; Yehuda, K. et Volinsky, K. (2007).
neighborhood-based collaborative ltering. In KDDCup07.
Improved
Bibliographie
[Claypool et al., 2001] Claypool, M. ; Le, P. ; Waseda, M. et Brown, D. (2001). Implicit interest indicators. In Proceedings of ACM Intelligent User Interfaces Conference.
[Coleman et al., 1966] Coleman, J. ; Menzel, H. et Katz, E. (1966). Medical Innovations : A Diffusion Study. Bobbs-Merrill Co.
[Conner et Herlocker, 1999] Conner, M. et Herlocker, J. (1999). Clustering items for
collaborative ltering. In Proceedings of the ACM SIGIR Workshop on Recommender
Systems.
[Cooke, 2006] Cooke, R. (2006). Link prediction and link detection in sequences of large
social networks using temporal and local metrics. Thse de doctorat, University of cape
Town.
[Cooley et al., 1999] Cooley, R. ; Mobasher, B. et Srivastava, J. (1999). Data preparation for mining world wide web browsing patterns. Journal of Knowledge and
Information Systems, 1(1):532.
[Cosley et al., 2002] Cosley, D. ; Lawrence, S. et Pennock, D. (2002). Referee : An
open framework for practical testing of recommender systems using researchindex. In
Proceedings of the 28th international conference on Very Large Data Bases, page 46.
VLDB Endowment.
[Crandall et al., 2008] Crandall, D. ; Cosley, D. ; Huttenlocher, D. ; Kleinberg,
J. et Suri, S. (2008). Feedback eects between similarity and social inuence in online
communities. In Proceedings of the 14th ACM SIGKDD international conference on
Knowledge discovery and data mining. ACM.
[Domingos et Richardson, 2001] Domingos, P. et Richardson, M. (2001). Mining the
network value of customers. In Proceedings of the seventh ACM SIGKDD international
conference on Knowledge discovery and data mining (KDD01), pages 5766, New York,
NY, USA. ACM.
[Doyle et Cunningham, 2000] Doyle, M. et Cunningham, P. (2000). A dynamic approach to reducing dialog in on-line decision guides. In Proceedings of the 5th European
Workshop on Advances in Case-Based Reasoning (EWCBR00), pages 4960, London,
UK. Springer-Verlag.
[Eirinaki et al., 2005] Eirinaki, M. ; Vazirgiannis, M. et Kapogiannis, D. (2005).
Web path recommendations based on page ranking and markov models. In Proceedings of the 7th annual ACM international workshop on Web information and data
management. ACM Press.
[Esslimani et al., 2008a] Esslimani ; Brun, A. et Boyer, A. (2008a). Behavioral similarities for collaborative recommendations. Journal of Digital Information Management,
6(6):442448.
[Esslimani et al., 2008b] Esslimani, I. ; Brun, A. et Boyer, A. (2008b). Enhancing collaborative ltering by frequent usage patterns. In Proceedings of the First IEEE International Conference on the Applications of Digital Information and Web Technologies
(ICADIWT 2008). Workshop on Recommender Systems and Personalized Retrieval,
pages 180185.
154
Bibliographie
[Goldberg et al., 1992] Goldberg, D. ; Nichols, D. ; Oki, B. et Terry, D. (1992).
Using collaborative ltering to weave an information tapestry. Communications of the
ACM, 35(12):6170.
[Goldberg et al., 2001] Goldberg, K. ; Roeder, T. ; Gupta, D. et Perkins, C. (2001).
Eigentaste : A constant time collaborative ltering algorithm. Information Retrieval,
4(2):133151.
[Gong et al., 2009] Gong, S. ; Ye, H. et Dai, Y. (2009). Combining singular value decomposition and item-based recommender in collaborative ltering. In Proceedings of
the 2009 Second International Workshop on Knowledge Discovery and Data Mining
(WKDD09), pages 769772, Washington, DC, USA. IEEE Computer Society.
[Good et al., 1999] Good, N. ; Schafer, J. ; Konstan, J. ; Borchers, A. ; Sarwar,
B. ; Herlocker, J. et Riedl, J. (1999). Combining collaborative ltering with
personal agents for better recommendations. In Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications
of artificial intelligence conference innovative applications of artificial intelligence
(AAAI99/IAAI99), pages 439446, Menlo Park, CA, USA. American Association for
Articial Intelligence.
[Goyal et al., 2008] Goyal, A. ; Bonchi, F. et Lakshmanan, L. (2008). Discovering
leaders from community actions. In Proceeding of the 17th ACM conference on Information and knowledge management (CIKM08), pages 499508, New York, NY, USA.
ACM.
[Grcar, 2004] Grcar, M. (2004). User proling : Collaborative ltering. In Proceedings
of the conference on data mining and warehouses (SIKDD 2004) at multiconference IS
2004.
[Han et Kamber, 2001] Han, J. et Kamber, M. (2001). Data Mining : Concepts and
Techniques. Morgan Kaufmann, San Francisco, California, USA.
[Han et al., 2000] Han, J. ; Pei, J. ; Mortazavi-Asl, B. ; Chen, Q. ; Dayal, U. et Hsu,
M. (2000). Freespan : frequent pattern-projected sequential pattern mining. In Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery
and data mining (KDD00), pages 355359, New York, NY, USA. ACM.
[Hao et al., 2007] Hao, M. ; King, I. et Lyu, M. R. (2007). Eective missing data prediction for collaborative ltering. In Proceedings of the 30th annual international ACM
SIGIR conference on Research and development in information retrieval. ACM.
[Herlocker et al., 1999] Herlocker, J. ; Konstan, J. ; Borchers, A. et Riedl, J.
(1999). An algorithmic framework for performing collaborative ltering. In Proceedings
of the 22nd annual international ACM SIGIR conference on Research and development
in information retrieval.
[Herlocker et al., 2004] Herlocker, J. ; Konstan, J. ; Terveen, L. et Riedl, J. (2004).
Evaluating collaborative ltering recommender systems. ACM Trans. Inf. Syst., 22(1):
553.
[Hofmann, 2003] Hofmann, T. (2003). Gaussian latent semantic models for collaborative
ltering. In Proceedings of the 26th Annual International ACM SIGIR Conference.
156
[Hofmann, 2004] Hofmann, T. (2004). Latent semantic models for collaborative ltering.
ACM Transactions on Information Systems (TOIS), 22(1):89115.
[Hopeld, 1982] Hopfield, J. (1982). Neural network and physical system with emergent
collective computational abilities. Nat.Acad.Sci, 79:25542558.
[Hu et Panda, 2004] Hu, Y. et Panda, B. (2004). A data mining approach for database
intrusion detection. In Proceedings of the 2004 ACM symposium on Applied computing
(SAC04), pages 711716, New York, NY, USA. ACM.
[Huang et al., 2004] Huang, Z. ; Chen, H. et Zeng, D. (2004). Applying associative
retrieval techniques to alleviate the sparsity problem in collaborative ltering. ACM
Transactions on Information Systems (TOIS), 22(1):116142.
[Huang et al., 2002] Huang, Z. ; Chung, W. ; Ong, T. et Chen, H. (2002). A graphbased recommender system for digital library. In Proceedings of the 2nd ACM/IEEE-CS
joint conference on Digital libraries. ACM.
[Huang et al., 2005] Huang, Z. ; Li, X. et Chen, H. (2005). Link prediction approach
to collaborative ltering. In Proceedings of the 5th ACM/IEEE-CS joint conference on
Digital libraries. ACM.
[Huang et Zeng, 2005] Huang, Z. et Zeng, D. (2005). Why does collaborative ltering
work ? a recommendation model validation and selection by analyzing bipartite random
graphs. In Proceedings of Workshop of information Technologies and Systems.
[Jalali et al., 2008] Jalali, M. ; Mustapha, N. ; Sulaiman, N. et Mamat, A. (2008). A
web usage mining approach based on lcs algorithm in online predicting recommendation
systems. In Proceedings of 12th conference of information visualisation.
[Jamali et Abolhassani, 2006] Jamali, M. et Abolhassani, H. (2006). Dierent aspects
of social network analysis. In Proceedings of the 2006 IEEE/WIC/ACM International
Conference on Web Intelligence.
[Jschke et al., 2007] Jschke, R. ; Marinho, L. ; Hotho, A. ; Schmidt-Thieme, L.
et Stumme, G. (2007). Tag recommendations in folksonomies. Knowledge Discovery
in Databases (PKDD 2007), pages 506514.
[Jiang et al., 2006] Jiang, X. ; Song, W. et Feng, W. (2006). Optimizing collaborative
ltering by interpolating the individual and group behaviors. In APWeb.
[Katz et Lazarsfeld, 1955] Katz, E. et Lazarsfeld, P. (1955). Personal Influence : the
Part Played by People in the Flow of Mass Communications. Free Press.
[Kaufman et Rousseuw, 1990] Kaufman, L. et Rousseuw, P. (1990). Finding Groups
in Data : An Introduction to Cluster Analysis. John Wiley and Sons, New York.
[Kautz et al., 1997] Kautz, H. ; Selman, B. et Shah, M. (1997). Referralweb : Combining social networks and collaborative ltering. Communications of the ACM, 30(3).
[Keller et Berry, 2003] Keller, E. et Berry, J. (2003). The influentials. Simon and
Schuster Ed.
[Kempe et al., 2003] Kempe, D. ; Kleinberg, J. et Tardos, E. (2003). Maximizing
the spread of inuence through a social network. In Proceedings of the ninth ACM
SIGKDD international conference on Knowledge discovery and data mining (KDD03),
pages 137146, New York, NY, USA. ACM.
157
Bibliographie
[Kim et al., 2002] Kim, T.-H. ; Ryu, Y.-S. ; Park, S.-I. et Yang, S.-B. (2002). An improved recommendation algorithm in collaborative ltering. E-Commerce and Web
Technologies, pages 517529.
[Krulwich, 1997] Krulwich, B. (1997). Lifestyle nder : Intelligent user proling using
large-scale demographic data. AI Magazine, (18):3745.
[Krulwich et Burkey, 1996] Krulwich, B. et Burkey, C. (1996). Learning user information interests through extraction of semantically signicant phrases. In Proceedings
of the AAAI Spring Symposium on Machine Learning in Information Access. Stanford,
CA.
[Lam et Riedl, 2004] Lam, S. et Riedl, J. (2004). Shilling recommender systems for fun
and prot. In Proceedings of the 13th international conference on World Wide Web
(WWW04), pages 393402, New York, NY, USA. ACM.
[Lang, 1995] Lang, K. (1995). Newsweeder : Learning to lter netnews. In Proceedings
of the 12th International Conference on Machine Learning (ICML95), pages 331339.
[Liben-Nowell et Kleinberg, 2003] Liben-Nowell, D. et Kleinberg, J. (2003). The
link prediction problem for social networks. In Proceedings of the 12th international
conference on Information and knowledge management. ACM.
[Lieberman, 1995] Lieberman, H. (1995). Letizia : An agent that assists web browsing.
In International Joint Conference on Artificial Intelligence, pages 924929.
[Lim et al., 2003] Lim, M. ; Negnvitsky, M. et Hartnett, J. (2003). Articial intelligence applications for analysis of e-mail communication activities. In Proceedings of
the International Conference On Artificial Intelligence In Science And Technology.
[Lin et al., 2002] Lin, W. ; Alvarez, S. et Ruiz, C. (2002). Ecient adaptive-support
association rule mining for recommender systems. Data Mining and Knowledge Discovery, 6(1):83105.
[Linden et al., 2003] Linden, G. ; Smith, B. et York, J. (2003). Amazon.com recommendations : Item-to-item collaborative ltering. IEEE Internet computing, 7(1):7680.
[Littlestone et Warmuth, 1994] Littlestone, N. et Warmuth, M. K. (1994). The
weighted majority algorithm. Inf. Comput., 108(2):212261.
[Liu et al., 2007] Liu, Y. ; Huang, X. et An, A. (2007). Personalized recommendation
with adaptive mixture of markov models. Journal of American Society for Information
Science and Technology, 58(12):18511870.
[MacQueen, 1967] MacQueen, J. (1967). Some methods for classication and analysis
of multivariate observations. In Proceedings of the 5th Symposium on Math, Statistics
and Probability, pages 281297.
[Massa et Bhattacharjee, 2004] Massa, P. et Bhattacharjee, B. (2004). Using trust in
recommender systems : an experimental analysis. In Proceedings of 2nd International
Conference on Trust Managment.
[McGinty et Smyth, 2005] McGinty, L. et Smyth, B. (2005). Intelligent techniques for
web personalization, volume 3169/2005 de Lecture Notes in Computer Science, chapitre
Improving the performance of recommender systems that use critiquing, pages 114132.
Springer Berlin / Heidelberg.
158
[McLaughlin et Herlocker, 2004] McLaughlin, M. et Herlocker, J. (2004). A collaborative ltering algorithm and evaluation metric that accurately model the user
experience. In Proceedings of the 27th annual international ACM SIGIR conference on
Research and development in information retrieval (SIGIR04), pages 329336, New
York, NY, USA. ACM.
[McNee et al., 2002] McNee, S. ; Albert, I. ; Cosley, D. ; Gopalkrishnan, P. ; Lam,
S. ; Rashid, A. ; Konstan, J. et Riedl, J. (2002). On the recommending of citations
for research papers. In Proceedings of the 2002 ACM conference on Computer supported
cooperative work, page 125. ACM.
[Mehta et al., 2007] Mehta, B. ; Hofmann, T. et Nejdl, W. (2007). Robust collaborative ltering. In Proceedings of the 2007 ACM conference on Recommender systems
(RecSys07), pages 4956, New York, NY, USA. ACM.
[Melville et al., 2002] Melville, P. ; Mooney, R. et Nagarajan, R. (2002). Contentboosted collaborative ltering for improved recommendations. In Proceedings of the
Eighteenth national conference on Artificial intelligence, pages 187192, Menlo Park,
CA, USA. American Association for Articial Intelligence.
[Middleton et al., 2004] Middleton, S. ; Shadbolt, N. et Roure, D. D. (2004). Ontological user proling in recommender systems. ACM Transactions on Information
Systems (TOIS), 22(1):5488.
[Mislove et al., 2007] Mislove, A. ; Marcon, M. ; Gummadi, K. P. ; Druschel, P. et
Bhattacharjee, B. (2007). Measurement and analysis of online social networks. In
Proceedings of the 7th ACM SIGCOMM conference on Internet measurement. ACM.
[Mladenic, 1999] Mladenic, D. (1999). Text-learning and related intelligent agents : A
survey. IEEE Intelligent Systems, 14(4):4454.
[Mobasher et al., 2001] Mobasher, B. ; Dai, H. ; Luo, T. et Nakagawa, M. (2001).
Improving the eectiveness of collaborative ltering on anonymous web usage data. In
Proceedings of the IJCAI 2001 Workshop on Intelligent Techniques for Web Personalization (ITWP01).
[Nakagawa et Mobasher, 2003] Nakagawa, M. et Mobasher, B. (2003). A hybrid web
personalization model based on site connectivity. In Proceedings of WebKDD Workshop
at KDD2003, pages 5970.
[Newman, 2001] Newman, M. (2001). Clustering and preferential attachment in growing
networks. Physical Review Letters, 64(025102).
[Newman, 2003] Newman, M. (2003). The structure and function of complex networks.
SIAM Review, 45:167256.
[Nguyen et al., 2006] Nguyen, A. ; Denos, N. et Berrut, C. (2006). Exploitation des
donnes disponibles froid pour amliorer le dmarrage froid dans les systmes de
ltrage dinformation. In Actes du XXIV Congrs dINFORSID, pages 8195.
[Nichols, 1997] Nichols, D. (1997). Implicit rating and ltering. In Proceedings of the
Fifth DELOS Workshop on Filtering and Collaborative Filtering, pages 3136. ERCIM.
[ODonovan et Smyth, 2005] ODonovan, J. et Smyth, B. (2005). Trust in recommender systems. In Proceedings of the 10th international conference on Intelligent user
interfaces (IUI05), pages 167174, New York, NY, USA. ACM.
159
Bibliographie
[Ohn et al., 2003] Ohn, J. H. ; Kim, J. et Kim, J. H. (2003). Social network analysis
of gene expression data. In Proceedings of AMIA symposium : Biomedical and health
informatics. AMIA.
[OMahony et al., 2006] OMahony, M. ; Hurley, N. et Silvestre, G. (2006). Detecting noise in recommender system databases. In Proceedings of the 11th international
conference on Intelligent user interfaces (IUI06), pages 109115, New York, NY, USA.
ACM.
[OReilly, 2005] OReilly, T. (2005). What is web 2.0. design patterns and business
models for the next generation of software. In Proceedings of Web 2.0 Conference.
[Papagelis et al., 2005] Papagelis, M. ; Plexousakis, D. et Kutsuras, T. (2005). Alleviating the sparsity problem of collaborative ltering using trust inferences. In iTrust.
Springer-Verlag Berlin Heidelberg.
[Paris et al., 2009] Paris, C. ; Colineau, N. ; Thomas, P. et Wilkinson, R. (2009).
Stakeholders and their respective costs-benets in ir evaluation. In SIGIR 2009 Workshop on the Future of IR Evaluation.
[Park et al., 2006] Park, S. ; Pennock, D. ; Madani, O. ; Good, N. et DeCoste, D.
(2006). Nave lterbots for robust cold-start recommendations. In Proceedings of the
12th ACM SIGKDD international conference on Knowledge discovery and data mining
(KDD06), pages 699705, New York, NY, USA. ACM.
[Pass et al., 2006] Pass, G. ; Chowdhury, A. et Torgeson, C. (2006). A picture of
search. In Proceedings of the 1st international conference on Scalable information systems.
[Pazzani et Billsus, 2007] Pazzani, M. et Billsus, D. (2007). The Adaptive Web, volume
4321/2007 de Lecture Notes in Computer Science, chapitre Content-Based Recommendation Systems, pages 325341. Springer Berlin / Heidelberg.
[Pazzani, 1999] Pazzani, M. J. (1999). A framework for collaborative, content-based and
demographic ltering. Artificial Intelligence Revue, 13(5-6):393408.
[Pessiot et al., 2006] Pessiot, J. ; Vinh, T. ; Usunier, N. ; Amini, M. et Gallinari, P.
(2006). Factorisation en matrices non-ngatives pour le ltrage collaboratif. In Actes
de CORIA 2006.
[Popescul et al., 2001] Popescul, A. ; Ungar, L. ; Pennock, D. M. et Lawrence, S.
(2001). Probabilistic models for unied collaborative and content-based recommendation in sparse-data environments. In Proceedings of the 17th Conference in Uncertainty
in Artificial Intelligence (UAI01), pages 437444, San Francisco, CA, USA. Morgan
Kaufmann Publishers Inc.
[Rafter et al., 2000] Rafter, R. ; Bradley, K. et Smyth, B. (2000). Adaptive Hypermedia and Adaptive Web-Based Systems, volume 892/2000 de Computer Science, chapitre
Automated Collaborative Filtering Applications for Online Recruitment Services, pages
363368. Springer Berlin Heidelberg.
[Rashid et al., 2008] Rashid, A. ; Karypis, G. et Riedl, J. (2008). Learning preferences
of new users in recommender systems : an information theoretic approach. SIGKDD
Explor. Newsl., 10(2):90100.
160
Bibliographie
[Shimazu, 2001] Shimazu, H. (2001). Expertclerk : navigating shoppers buying process
with the combination of asking and proposing. In Proceedings of the 17th international
joint conference on Artificial intelligence (IJCAI01), pages 14431448, San Francisco,
CA, USA. Morgan Kaufmann Publishers Inc.
[Smyth, 2007] Smyth, B. (2007). Case-based recommendation. The adaptive web : methods and strategies of web personalization, pages 342376.
[Smyth et Cotter, 2000] Smyth, B. et Cotter, P. (2000). A personalized tv listings
service for the digital tv age. Knowledge-Based Systems, (13):5359.
[Soboro et Nicholas, 1999] Soboroff, I. et Nicholas, C. (1999). Combining content
and collaboration in text ltering. In Proceedings of the IJCAI-99, Workshop on Machine Learning for Information Filtering.
[Sollenborn et Funk, 2002] Sollenborn, M. et Funk, P. (2002). Category-based ltering and user stereotype cases to reduce the latency problem in recommender systems.
In Proceedings of the 6th European Conference on Advances in Case-Based Reasoning
(ECCBR02), pages 395420, London, UK. Springer-Verlag.
[Srikant et Agrawal, 1996] Srikant, R. et Agrawal, R. (1996). Mining sequential patterns : Generalizations and performance improvements. In Proceedings of the 5th International Conference on Extending Database Technology (EDBT96), pages 317, London, UK. Springer-Verlag.
[Srivastava et al., 2000] Srivastava, J. ; Cooley, R. ; Deshpande, M. et Tan, P.-N.
(2000). Web usage mining : discovery and applications of usage patterns from web
data. SIGKDD Explorations, 1(2):1223.
[Su et Khoshgoftaar, 2009] Su, X. et Khoshgoftaar, T. (2009). A survey of collaborative ltering techniques. Advances in Artificial Intelligence, Janvier 2009:120.
[Svensson et al., 2005] Svensson, M. ; Hk, K. et Cster, R. (2005). Designing and
evaluating kalas : A social navigation system for food recipes. ACM Transactions on
Computer-Human Interactions (TOCHI), 12(3):374400.
[Tamine-Lechani et Calabretto, 2008] Tamine-Lechani, L. et Calabretto, S. (2008).
Recherche dinformation : tat des lieux et perspectives, chapitre Recherche dinformation contextuelle et Web, pages 201224.
[Tang et McCalla, 2003] Tang, T. et McCalla, G. (2003). Mining implicit ratings for
focused collaborative ltering for paper recommendations. In 9th International Conference on User Modeling (UM 2003), Workshop on User and Group Models for Webbased Adaptive Collaborative Environments.
[Tran, 2006] Tran, T. (2006). Designing recommender systems for e-commerce : an
integration approach. In Proceedings of the 8th international conference on Electronic
commerce (ICEC06), pages 512518, New York, NY, USA. ACM.
[Tury, 2007] Tuffry, S. (2007). Data mining et statistique dcisionnelle : lintelligence des donnes. Editions Ophrys.
[Ungar et Foster, 1998] Ungar, L. et Foster, D. (1998). Clustering methods for collaborative ltering. In Proceedings of the AAAI Workshop on Recommendation Systems,
pages 112125.
162
Bibliographie
[Ziegler et al., 2005] Ziegler, C. ; McNee, S. ; Konstan, J. et Lausen, G. (2005). Improving recommendation lists through topic diversication. In Proceedings of the 14th
international conference on World Wide Web (WWW05), pages 2232, New York, NY,
USA. ACM.
[Zimdars et al., 2001] Zimdars, A. ; Chickering, D. et Meek, C. (2001). Using temporal data for making recommendations. In Proceedings of the 17th Conference in Uncertainty in Artificial Intelligence (UAI01), pages 580588, San Francisco, CA, USA.
Morgan Kaufmann Publishers Inc.
164
Rsum
Internet met la disposition des utilisateurs une large varit ditems dont le volume
est sans cesse croissant. Devant cette surcharge ditems, lutilisateur peine reprer les
items qui correspondent ses besoins. Cest dans ce contexte que les systmes de recommandation se sont dvelopps, dans la mesure o ils permettent de faciliter laccs aux
items susceptibles dintresser lutilisateur. Nanmoins, malgr le succs des systmes de
recommandation, certaines questions de recherche restent souleves telles que : le manque
de donnes, lidentication de voisins ables, la prcision des recommandations et la recommandation de la nouveaut. En vue de rpondre ces questions, nous avons propos
travers cette thse une nouvelle approche de recommandation inspire du web usage mining et du ltrage collaboratif. Cette approche repose sur lobservation du comportement
de lutilisateur et sur lanalyse de ses usages en vue de gnrer des recommandations. En
outre, nous nous sommes inspirs des techniques utilises dans le domaine de lanalyse
des rseaux sociaux an de prdire les liens travers un rseau dutilisateurs construit sur
la base des similarits de comportement. Lobjectif est de pallier le manque de donnes
et damliorer lidentication de voisins ables. De plus, dans la perspective dattnuer le
problme de dmarrage froid (concernant les nouveaux items), nous avons propos une
approche de recommandation qui repose sur la dtection de leaders pour la recommandation de la nouveaut.
Mots-cls : systmes de recommandation, ltrage collaboratif, analyse des usages,
prdiction de lien, rseau comportemental, leadership
Abstract
The development of internet engendred an important proliferation of items. Thus,
users are often overwhelmed and unable to detect the items corresponding to their needs.
Therefore, the need of tools for automatic personalization of information becomes heightened. Recommender systems are widely used for this purpose thanks to their ability to
guide users towards relevant items. Despite the success of recommender systems in many
application areas, some research questions still remain. Some of these questions concern
sparsity, selection of reliable neighbors, precision of recommendations and cold start problem. In this PhD thesis we explored these issues and proposed some solutions. We suggested a new approach inspired from web usage mining and collaborative ltering. This
approach observes users behavior and exploits usage analysis to generate recommendations. In addition, we applied link prediction methods, from social network analysis area,
in order to predict new links in a behavioral network. The objective is to overcome sparsity and to improve neighbor selection. Moreover, with the perspective of alleviating the
cold start problem (for new items), we proposed a recommendation approach based on
leader detection. These leaders can propagate their appreciations towards their neighbors
and predict accurately their future preferences.
Keywords : recommender systems, collaborative ltering, usage analysis, link prediction, behavioral network, leadership
165