Approche Comportementale de Recommandation

Vers une approche comportementale de recommandation
: apport de lanalyse des usages dans un processus de

personnalisation
Ilham Esslimani
To cite this version:

Ilham Esslimani. Vers une approche comportementale de recommandation : apport de lanalyse
des usages dans un processus de personnalisation. Human-Computer Interaction. Universite
Nancy II, 2010. French. <tel-00581436>
HAL Id: tel-00581436

https://tel.archives-ouvertes.fr/tel-00581436
Submitted on 31 Mar 2011
HAL is a multi-disciplinary open access

archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
Larchive ouverte pluridisciplinaire HAL, est

destinee au depot et `a la diffusion de documents
scientifiques de niveau recherche, publies ou non,
emanant des etablissements denseignement et de
recherche francais ou etrangers, des laboratoires
publics ou prives.

Ecole
doctorale IAEM Lorraine
UFR math
ematiques et informatique
D
epartement de formation doctorale en informatique
Vers une approche comportementale de

recommandation : apport de lanalyse
des usages dans un processus de
personnalisation
`
THESE
presentee et soutenue publiquement le 11 decembre 2010
pour lobtention du
Doctorat de luniversit
e Nancy 2
(sp
ecialit
e informatique)
par
Ilham Esslimani
Composition du jury
Rapporteurs :
Pr. Cecile Paris, CSIRO ICT Centre, Australie

Pr. Sylvie Calabretto, LIRIS INSA-Lyon
Examinateurs :
Pr. Monique Grandbastien, UHP-Nancy 1

Dr. Jean Philippe Blanchard, Credit Agricole S.A, Paris
Directrice de th`ese :
Pr. Anne Boyer, Universite Nancy 2
Laboratoire Lorrain de Recherche en Informatique et ses Applications UMR 7503
Mis en page avec la classe thloria.
Remerciements
Je tiens adresser tout dabord mes remerciements ma Directrice de thse Anne
Boyer pour son encadrement et ses conseils pendant ces annes de thse. Sa disponibilit,
son soutien et son esprit pdagogique mont permis dapprendre beaucoup de choses et
de donner le meilleur de moi-mme. En outre, sa constante bonne humeur a rendu trs
agrable nos changes tout au long de la thse.
Je remercie galement Armelle Brun pour tout le temps quelle ma consacr, pour son
esprit dcoute, pour les changes intressants quon a eu pendant la thse et pour tous
les conseils quelle ma prodigu. Quelle trouve ici lexpression de ma reconnaissance.
Je tiens exprimer ma gratitude au Groupe Crdit Agricole (S.A) pour avoir soutenu
nancirement cette thse et remercier en particulier Jean Philippe Blanchard pour sa
collaboration et pour ses conseils aviss qui mont permis de mener bien mon travail de
thse.
Jadresse mes remerciements galement aux membres du jury Ccile Paris et Sylvie
Calabretto pour avoir accept dtre les rapporteurs de ma thse, Monique Grandbastien
et Jean Philippe Blanchard davoir t examinateurs de ma thse.
Je remercie la socit Sailendra et en particulier Rgis Lhoste pour son assistance, son
soutien et sa collaboration.
Mes remerciements vont aussi tous les membres de lquipe KIWI que jai cotoys au
quotidien. Jai beaucoup apprci lambiance de travail et les moments agrables passs
avec eux qui taient riches tant sur le plan professionnel que personnel. Je remercie en
outre toute lquipe MAIA de mavoir accueilli pendant ma premire anne de thse.
Mes remerciements sadressent galement Antoinette Courrier pour son aide notamment
pour toutes les procdures administratives qui taient lies ma thse.
Je remercie toute ma famille : mes parents, mes surs et mes frres qui mont pouss
jusquau bout pour eectuer cette thse. Je remercie inniment mon mari pour son encouragement, son coute et son soutien tout au long de ces annes et grce qui jai pu
surmonter des moments diciles.
Une pense trs particulire est adresse Najet Boughanmi, Maha Idrissi Aouad, Geoffray Bonnin, Ahmad Hamad, Chrif Haydar et Rokia Bendaoud. Je remercie aussi tous les
amis et les collgues que jai ctoys pendant les annes de thse : Wahiba Touali, Ghaith
Kaabi, Hanen Maghrebi, Ines Sakly, Stphane Goria, Manel Sorba, Ilyess Ohayon, Maxime
Rio, Mathieu Lefort, Nicolas Jones, Sylvain Castagnos, Cdric Bernier, Billel Nefzi, Karim
Dahman, Yoann Bertrand, Cdric Rose, Walid Fdhila et Arnaud Glad. La liste ntant
pas exhaustive, mes remerciements les plus sincres sont adresss toute personne que
jai oublie de citer ici et qui a contribu de prs ou de loin la ralisation de cette thse.
Je ddie cette thse la mmoire de mon pre.
Table des matires
Introduction gnrale
11
Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Problmatique de recherche . . . . . . . . . . . . . . . . . . . . . . . . 13
Approche propose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Partie I
3.1
Cadre industriel . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2
Approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3
Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4
Evaluation
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Structure du document . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Contexte
Chapitre 1
Etat de lart
21
5
Table des matires

1.1
Origines et applications . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2
Donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3
Techniques de recommandation . . . . . . . . . . . . . . . . . . . . . . 27
1.4
1.3.1
Technique base sur le contenu . . . . . . . . . . . . . . . . . . 27
1.3.2
Mthodes bases sur la mmoire
1.3.3
Mthodes bases sur un modle . . . . . . . . . . . . . . . . . . 33
1.3.4
Techniques issues du Web Usage Mining . . . . . . . . . . . . . 39
1.3.5
Techniques hybrides . . . . . . . . . . . . . . . . . . . . . . . . 44
. . . . . . . . . . . . . . . . . 29
Verrous scientiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.4.1
Manque de donnes . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.4.2
Dmarrage froid . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.4.3
Slection de voisins ables . . . . . . . . . . . . . . . . . . . . . 51
1.4.4
Robustesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.4.5
Prcision des recommandations . . . . . . . . . . . . . . . . . . 53
Chapitre 2
Schma gnrique, contexte applicatif et mthodologie exprimentale 55
2.1
Schma gnrique de la recommandation . . . . . . . . . . . . . . . . . 55
2.2
Contexte applicatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.3
Donnes exploites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3.1
Corpus dusage . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3.2
2.4
2.5
Partie II
Corpus de notes explicites . . . . . . . . . . . . . . . . . . . . . 65
valuation des recommandations . . . . . . . . . . . . . . . . . . . . . 66

2.4.1
Mesures statistiques de prcision . . . . . . . . . . . . . . . . . 67
2.4.2
Mesures permettant laide la dcision . . . . . . . . . . . . . . 68
2.4.3
Couverture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.4.4
Temps de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Benchmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Approche collaborative comportementale de recomman-
dation
Chapitre 1
Vers un Filtrage Collaboratif Comportemental
75
1.1
Extraction des motifs dusage et calcul des similarits de comportement 78
1.2
Gnration des prdictions . . . . . . . . . . . . . . . . . . . . . . . . . 81
1.3
Evaluation de la qualit des prdictions . . . . . . . . . . . . . . . . . . 82

1.3.1
Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.3.2
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7
Table des matires

Chapitre 2
Clustering en Filtrage Collaboratif Comportemental
2.1
Schma du modle BNCF-PCS . . . . . . . . . . . . . . . . . . . . . . 98
2.2
Gnration des clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
2.3
Calcul des similarits de comportement et gnration des prdictions . 102
2.4
Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2.4.1
Modles expriments . . . . . . . . . . . . . . . . . . . . . . . 103
2.4.2
Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2.4.3
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Partie III
Approche sociale de recommandation
109
Chapitre 1
Prdiction de lien dans les rseaux comportementaux
1.1
1.2
Prdiction de lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

1.1.1
Dans le domaine des rseaux sociaux . . . . . . . . . . . . . . . 112
1.1.2
Dans le domaine des systmes de recommandation . . . . . . . 113
Modle D-BNCF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

1.2.1
Modlisation du rseau comportemental . . . . . . . . . . . . . 115
1.3
1.2.2
Densication du rseau comportemental . . . . . . . . . . . . . 116
1.2.3
Gnration des prdictions . . . . . . . . . . . . . . . . . . . . . 122
Evaluation du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

1.3.1
Modles expriments . . . . . . . . . . . . . . . . . . . . . . . 123
1.3.2
Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
1.3.3
D-BNCF Combin . . . . . . . . . . . . . . . . . . . . . . . . . 125
1.3.4
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Chapitre 2
Leaders comportementaux pour la recommandation de la nouveaut
2.1
Dtection des leaders et des inuenceurs . . . . . . . . . . . . . . . . . 130
2.2
Dtection des leaders comportementaux . . . . . . . . . . . . . . . . . 132
2.3
Evaluation des recommandations de leaders . . . . . . . . . . . . . . . 135

2.3.1
Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
2.3.2
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Conclusion et Perspectives
141
Table des figures
147
Liste des tableaux
149
Bibliographie
151
Table des matires
10
Introduction gnrale
1
Contexte
Internet est un rseau numrique mettant la disposition des utilisateurs, notamment

travers le Web et les portails Extranet, une large varit de ressources, appeles aussi
items qui ont la particularit dtre htrognes et distribus et dont le volume est sans
cesse croissant. Nous entendons par item tout type de document lectronique regroupant
un ensemble de donnes informatives accessible sous un format lectronique donn (e.g.
format textuel ou multimdia).
Selon une valuation de lInternet World Stats1 ralise en 2010, il y aurait plus de 1.9
milliards dinternautes dans le monde pouvant consulter environ 109.5 millions de sites
Web oprationnels et 25.21 milliards de pages2 . Or, devant cette surabondance ditems,
lutilisateur devient incapable de grer cette masse dinformation et de reprer les items
qui correspondent au mieux ses attentes, que jappellerai items pertinents.
Dans ce contexte, le recours des outils permettant de faciliter laccs aux items
pertinents savre crucial. Les moteurs de recherche font partie des premiers outils qui
ont t dvelopps pour pallier ce problme daccs aux items pertinents sur le Web. Ces
moteurs ont pour rle dexplorer et de parcourir le Web an dindexer les items qui y
sont publis. Cette indexation consiste en lextraction de mots-cls, considrs comme
signicatifs, reprsentant le contenu des items. Lobjectif de ces moteurs de recherche
est de proposer des items correspondant aux quations de recherche formules par les
utilisateurs (sous forme de mots-cls).
La dernire dcennie a t marque par une volution considrable des moteurs de
recherche dont Google est devenu le plus populaire. Un utilisateur, qui sait a priori comment exprimer son quation de recherche, est souvent satisfait par les rsultats proposs
par un tel moteur de recherche. Cependant, un utilisateur prcisant mal ses quations
de recherche parce quil est peu initi Internet ou parce quil a peu de connaissances
sur le sujet recherch, trouvera des dicults reprer les items qui correspondent ses
besoins. Ainsi, en choisissant un mot-cl gnrique tel que rseau, les moteurs de re1
2
http ://www.internetworldstats.com
Alessio Signorini. "Indexable Web Size". http ://www.cs.uiowa.edu/asignori/web-size/
11
Introduction gnrale
cherche proposent des milliers voire des millions de rsultats se rapportant direntes
thmatiques telles que rseau informatique, rseau de transport, rseau dentreprises
ou mme rseau de trac de drogue.
De ce fait, la qualit et la pertinence des items proposs par les moteurs de recherche sont
notamment conditionnes par la prcision des quations de recherche des utilisateurs.
En outre, les techniques utilises par les moteurs de recherche tel que Google, exploitent principalement le contenu des pages Web ainsi que la structure des hyperliens
entre ces pages an dvaluer la pertinence et limportance dun item par rapport lquation de recherche formule [Brin et Page, 1998]. Peu importe qui a ralis cette recherche,
si la mme requte est formule par deux utilisateurs, les items proposs seront souvent
les mmes. Or, mme si deux utilisateurs expriment la mme requte, ils nont pas ncessairement les mmes besoins.
Avec lexpansion du Web et le dveloppement de nombreux outils de recherche et
de diusion de linformation, tel que les portails Extranet dentreprise, lenjeu est de
considrer lutilisateur lors du processus de recherche dinformation [Tamine-Lechani et
Calabretto, 2008], en vue de satisfaire ses besoins spciques et de le dliser ainsi au
service en question. Dans le cadre dun portail Extranet, les utilisateurs tant connus au
pralable et non occasionnels, il sagit de leur facilier laccs des informations susceptibles
de les intresser, pouvant tre cruciales et ncessaires laboutissement des projets de
lentreprise et contribuant la prise de dcision.
Ces enjeux lis la satisfaction des attentes des utilisateurs et leur dlisation
constituent les objectifs principaux de la personnalisation de laccs linformation. En
eet, la personnalisation a pour nalit de proposer des items en lien avec les gots rels
de chaque utilisateur. La personnalisation est un axe de recherche qui a suscit lintrt
et lengouement de nombreux chercheurs. Plusieurs approches ont t ainsi proposes,
intgrant les approches bases sur le contenu [Krulwich et Burkey, 1996] [Mladenic, 1999],
les techniques base de critiques issue du domaine de raisonnement partir des cas (Case
Based Reasoning (CBR)) [Burke, 2000] [Aha et al., 2000], les approches bases sur la
navigation sociale [Svensson et al., 2005], etc.
Les systmes de recommandation sinscrivent dans le cadre de la personnalisation de
laccs linformation. Ils peuvent exploiter les approches cites ci-dessus, en vue de proposer un utilisateur actif (i.e. un utilisateur courant), des conseils ditems quils jugent
pertinents par rapport ses attentes. Ils cherchent en eet anticiper ses futurs besoins
travers la prdiction de ses apprciations concernant un ou plusieurs items quil na pas
encore consults.
En dautres termes, les systmes de recommandation ont pour but dassister lactivit
de recherche de lutilisateur et de lorienter vers linformation qui lui convient. En guise
dexemple, sur un portail Extranet dentreprise, le systme de recommandation peut proposer lutilisateur actif un article spcialis, une actualit ou bien un rapport technique.
Sur un site de-commerce, le systme de recommandation peut proposer cet utilisateur
un produit acheter, un livre lire ou un lm regarder.
12
2. Problmatique de recherche
Plusieurs techniques, issues notamment du domaine de lapprentissage automatique
et du data mining sont utilises par les systmes de recommandations. Le Filtrage Collaboratif (FC) [Goldberg et al., 1992] reprsente lune des techniques de recommandation
les plus populaires [Adomavicius et Tuzhilin, 2005]. Lorsquun utilisateur actif a besoin
dune recommandation, le systme de FC retrouve les utilisateurs ayant des prfrences
et des gots similaires cet utilisateur (ces utilisateurs sont appels utilisateurs voisins) et utilise leurs opinions pour gnrer une ou des recommandations susceptibles de
lintresser.
Dans un processus de recommandation, lidentication des apprciations des utilisateurs est souvent fondamentale, dans la mesure o elle permet de connatre lutilisateur
an de lui proposer des recommandations pertinentes. Les apprciations retent les avis
positifs ou ngatifs des utilisateurs vis--vis dun certain nombre ditems. Leur identication peut varier selon le type de lapproche utilise. Par exemple dans un systme de
recommandation base de critiques, elle se base sur limplication directe de lutilisateur
pour lexpression des apprciations, appelle aussi licitation. Certes, llicitation constitue une dmarche fastidieuse pour cet utilisateur [McGinty et Smyth, 2005], puisquil est
sollicit an dexprimer explicitement lintrt quil porte un certain nombre ditems.
De ce fait, le recours llicitation doit dpendre de lenjeu de lapproche utilise.
En eet, dans le cas o cette licitation va lencontre des priorits de lapproche de recommandation, en provoquant par exemple la dmotivation et labandon de lutilisateur,
le recours dautres mthodes didentication des apprciations savre indispensable.
Dans cette optique, lapproche par lanalyse des usages peut se prsenter comme une solution palliant ce problme.
Lintrt de cette approche est dviter llicitation en observant le comportement de
lutilisateur actif et en analysant ses actions lors de son interaction avec un systme informatique tel quun portail Extranet. Lanalyse des usages est ainsi susceptible de ressortir
des indicateurs permettant de dduire les apprciations de cet utilisateur et didentier
ventuellement des communauts virtuelles.
Dans le cadre de cette thse, nous nous intressons ltude des systmes
de recommandation fonds sur le filtrage collaboratif exploitant lanalyse des
usages dans le contexte dun Extranet dentreprise. La section qui suit prsente
les questions de recherche que nous traitons travers cette thse.
Problmatique de recherche
Comme nous lavons indiqu prcdemment, les systmes de recommandation visent

personnaliser laccs linformation fournie par un systme informatique. Pour atteindre
cet objectif, les systmes de recommandation peuvent notamment exploiter la technique
du FC an de modliser les utilisateurs et leur recommander des items pertinents en se
13
Introduction gnrale
basant sur les opinions de leurs voisins (cf. section 1). Direntes questions de recherche
peuvent ressortir de cette dnition :
1. En terme de modlisation des utilisateurs. An de construire un modle de
lutilisateur actif, le systme a besoin notamment de collecter les donnes relatives
aux apprciations de cet utilisateur. Lanalyse de ces donnes permet ensuite de
construire ce modle utilisateur qui va tre utilis par le systme pour recommander
les items estims pertinents pour cet utilisateur.
De ce fait, lexploitation des apprciations dans un tel processus de recommandation
est primordiale. Or, souvent les donnes relatives aux apprciations ne sont pas sufsamment disponibles dans le systme voire pas disponibles du tout [Sarwar et al.,
2000b]. Par consquent, quand le systme manque de donnes, la modlisation des
utilisateurs devient dicile et complexe. En eet, dans le cadre du FC, le systme
serait incapable didentier un nombre signicatif de voisins ncessaires au calcul
de recommandations adaptes aux besoins de lutilisateur actif.
En outre, lenjeu quant lexploitation des donnes dapprciation est que, du point
de vue utilisateur, les contraintes lies leur collecte doivent tre faibles. Il sagit
dviter lintervention directe de lutilisateur (llicitation) pour exprimer ses apprciations parce que dune part, lutilisateur dispose de peu de connaissances sur les
items pour pouvoir les valuer tous, et dautre part, parce quil a tendance tre
rticent quant lvaluation ditems [Burke, 2002].
2. En terme didentification de voisins pertinents. Les systmes de recommandation base de FC peuvent utiliser lapproche kNN (k Nearest Neighbors) [Resnick
et al., 1994], qui repose sur la recherche des plus proches voisins, an de calculer les
recommandations. Lidentication des plus proches voisins consiste slectionner
les k voisins les plus similaires lutilisateur actif. Pour lvaluation des similarits, cette approche prend en considration les apprciations relatives aux items
communs lutilisateur actif et les autres utilisateurs. Nanmoins, un systme bas
sur une approche kNN peut tre confront une situation o les utilisateurs nont
pas ditems communs avec lutilisateur actif (donc pas de voisins). Ainsi, faute de
voisins, il sera incapable de proposer des recommandations cet utilisateur. A cet
eet, lutilisation dautres techniques permettant de dcouvrir les similarits entre
utilisateurs savre cruciale.
3. En terme de recommandation de la nouveaut. Lorsquun nouvel item est
introduit dans le systme, il ne peut pas tre pris en compte dans le cadre de
recommandations bases sur le FC, tant donn que les apprciations des utilisateurs
vis--vis de cet item ne sont pas encore disponibles. Ce problme est connu sous
le nom de dmarrage froid ou de latence [Schein et al., 2002]. Les systmes
de recommandation doivent ainsi faire face ce problme dans le but de prendre
en considration les nouveaux items au niveau des recommandations proposes
lutilisateur.
14
3. Approche propose
4. En terme de prcision des recommandations [Herlocker et al., 1999]. Cette
question est troitement lie aux deux premires questions de recherche cites cidessus. En eet, la prcision des recommandations fournies par un systme de recommandation dpend essentiellement de la disponibilit des donnes permettant de
modliser les utilisateurs et didentier des voisins pertinents et ables. En outre,
la performance du systme en terme de prcision ou qualit de recommandation,
mane galement de la abilit de lalgorithme de modlisation utilis.
A cet eet, pour atteindre une meilleure performance en terme de prcision, les
systmes de recommandation ont pour enjeu de fournir lutilisateur actif des recommandations ables correspondant ses besoins, ce qui permettra de le dliser
le plus possible et damliorer lusage du systme informatique en question.
5. En terme de rduction du temps de calcul et de lespace de recherche. La
performance dun systme de recommandation est value galement au niveau du
temps de calcul. En eet, le temps de traitement requis pour le calcul des recommandations doit tre rduit, notamment par la rduction de lespace de recherche utilis
au niveau de la modlisation. Cet enjeu est li galement au passage lchelle,
lorsque le systme dispose dun nombre considrable dutilisateurs et ditems traiter. Dautant plus, ce nombre volue dynamiquement dans le temps, do lintrt
de la rduction de lespace de recherche dans le processus de recommandation.
6. En terme de robustesse. Le systme de recommandation doit tre robuste pour
faire face aux donnes bruites et garantir la abilit des recommandations.
La problmatique scientifique que nous traitons est lie la modlisation
des utilisateurs en se basant sur lobservation du comportement et sur lanalyse des usages dans le cadre dun processus de recommandation exploitant le
filtrage collaboratif. Notre objectif est de remdier au problme de manque
de donnes, de dmarrage froid et damliorer la prcision des recommandations. En outre, il sagit de garantir la robustesse du systme de recommandation.
3
3.1
Approche propose
Cadre industriel
Cette thse sinscrit dans le cadre du projet PERCAL ralis en collaboration avec le
Crdit Agricole S.A, en particulier avec le Ple Innovation qui est charg de ltude, de
lexprimentation et de la dnition des modalits de mise en uvre des technologies au
service des mtiers bancaires au sein du Groupe Crdit Agricole.
A partir des questions de recherche souleves et en prenant en compte le contexte dun
15
Introduction gnrale
Extranet dentreprise, lobjectif de ce projet est de proposer de nouvelles techniques de
recommandation permettant laccs personnalis linformation, an doptimiser lusage
des ressources de lExtranet documentaire par les utilisateurs du Groupe Crdit Agricole.
En eet, les items et les utilisateurs de cet Extranet tant trs nombreux et varis (des
milliers dutilisateurs et des dizaines de milliers ditems), lenjeu est de pouvoir mettre
en place des outils de recommandation collaboratifs, sappuyant sur lanalyse des usages,
capables de mettre la disposition des utilisateurs des informations pertinentes adaptes
leurs besoins.
3.2
Approche
Lobjectif de cette thse est dutiliser lapproche par analyse des usages an de construire des modles utilisateurs partir de lobservation de leur comportement navigationnel.
En eet, notre hypothse est que lanalyse des traces dusage, qui reprsentent lensemble
des actions et des vnements rsultant du processus dinteraction dun utilisateur avec le
systme, peut extraire un certain nombre dindicateurs retant les apprciations de cet
utilisateur.
Analyser les usages va permettre ainsi de cerner le comportement de lutilisateur, de
connatre mieux ses besoins, ce qui permettra damliorer potentiellement les performances
et la qualit des recommandations calcules par le systme de recommandation. En outre,
tant donn que la quantit de traces et dobservations traiter par le systme de recommandation est importante, notre objectif consiste galement proposer une approche
permettant de rduire lespace de recherche lors de lapprentissage des modles utilisateurs et pour la gnration des recommandations.
De plus, cette approche de recommandation doit permettre de faire face au problme
de manque de donnes. A ce niveau, notre hypothse est que les techniques issues du
domaine de lanalyse des rseaux sociaux peuvent tre des solutions prometteuses face
ce problme de manque de donnes grce la dcouverte de nouvelles relations entre
utilisateurs.
3.3
Contributions
Les contributions de cette thse comprennent :

Un modle de recommandation bas sur le ltrage collaboratif comportemental [Esslimani et al., 2008b] [Esslimani et al., 2008a]. Ce modle exploite les observations
relatives au comportement de navigation des utilisateurs pour les modliser et se
base sur le FC pour produire des recommandations. Ce modle vise amliorer la
qualit des prdictions et garantir la robustesse du systme de recommandation.
Un modle de recommandation combinant le ltrage collaboratif comportemental
16
3. Approche propose
avec une approche de clustering calculant les clusters selon les similarits de voisins
entre utilisateurs [Esslimani et al., 2009a]. Ce modle a pour objectif de rduire lespace de recherche des voisins et damliorer le temps de calcul des recommandations
ainsi que leur prcision.
Un modle de recommandation exploitant les mthodes de prdiction de lien dans un
rseau comportemental [Esslimani et al., 2009b] [Esslimani et al., 2009c] [Esslimani
et al., 2010a]. Dans lobjectif damliorer lidentication des voisins dans le cadre de
ce rseau, ce modle utilise les associations transitives et les mthodes de prdiction
de lien an dtablir de nouvelles relations entre utilisateurs. Ce modle a pour
enjeu de faire face au problme de manque de donnes et damliorer la prcision
des recommandations.
Un modle de recommandation bas sur les leaders comportementaux pour la recommandation de la nouveaut [Esslimani et al., 2010c] [Esslimani et al., 2010b].
Ce modle vise dtecter des leaders dans lobjectif de remdier au problme de
dmarrage froid dans le cadre dun rseau comportemental. Ces leaders ont la
particularit dtre au centre de ce rseau et disposent dune potentialit importante de prdiction des apprciations des autres utilisateurs concernant les nouveaux
items introduits dans le systme.
3.4
Evaluation
Pour la validation des approches proposes dans cette thse, nous avons valu les
dirents modles au travers dexprimentations sur un corpus dusage rel qui contient
les traces dusage extraites de lExtranet du Crdit Agricole. De plus, nous avons utilis le
corpus Movielens (corpus de rfrence dans le domaine des systmes de recommandation)
du laboratoire de recherche Grouplens3 an de confronter certains de nos rsultats avec
ceux de la communaut scientique.
Ces approches ont t values en termes de prcision, de temps de calcul et de robustesse
et compares au FC standard [Herlocker et al., 1999] utilis souvent dans les travaux de
recherche comme banc dessai (benchmark).
Les rsultats de ces exprimentations ont t publis dans :
des revues internationales : Journal of Digital Information Management (JDIM)
[Esslimani et al., 2008a], the Social Network Analysis and Mining Journal (SNAMJ)
[Esslimani et al., 2010a] ;
des confrences internationales : WEBIST 2009 [Esslimani et al., 2009a], ASONAM
2009 [Esslimani et al., 2009b], EC-WEB 2010 [Esslimani et al., 2010c], ASONAM
2010 [Esslimani et al., 2010b] ;
un workshop international : RSPR 2008 [Esslimani et al., 2008b] ;
3
http ://www.grouplens.org
17
Introduction gnrale
un colloque francophone : ISKO 2009 [Esslimani et al., 2009c].
Structure du document
Dans ce manuscrit, nous prsenterons dans la premire partie le contexte gnral en

dcrivant lorigine des systmes de recommandation ainsi que les donnes exploitables
dans le cadre des recommandations. De plus, il sera question de dcrire les principales
techniques de recommandation en discutant leurs avantages et leurs inconvnients tout
en soulignant les verrous scientiques que nous traitons dans le cadre de cette thse (cf.
chapitre 1, partie 1).
En outre, dans le chapitre suivant (cf. chapitre 2, partie 1), nous introduirons le schma
gnrique de la recommandation, tel que nous le percevons. Ensuite, il sagira de dcrire le
contexte applicatif li nos travaux de recherche ainsi que la mthodologie exprimentale
(corpus et mesures dvaluation) que nous avons utilise en vue dvaluer la performance
de nos approches.
Les parties suivantes sont consacres la description de nos contributions.
La deuxime partie comprend la prsentation de lapproche collaborative comportementale de recommandation. Ainsi, nous dcrirons dans un premier temps (cf. chapitre 1,
partie 2) notre modle fond sur le ltrage collaboratif comportemental et les rsultats de
son valuation. Ensuite, nous montrerons lapport dune approche de clustering exploitant
les voisinages dans le cadre du ltrage collaboratif comportemental, notamment en terme
de qualit de recommandation (cf. chapitre 2, partie 2).
La troisime partie est ddie la description de lapproche sociale de recommandation.
Il sagit de discuter dabord lintrt de faire appel aux mthodes de prdiction de lien
dans le cadre dun rseau comportemental, an de pallier le problme de manque de
donnes. Dans la mme perspective, il est question dintroduire la dtection de leaders
dans le cadre de ce rseau, pour la recommandation de la nouveaut. Cette partie intgre
galement les exprimentations qui ont t ralises pour valider nos modles et mettre
en vidence leur performance, compars des modles de ltat de lart.
La dernire partie de la thse comprend la conclusion et les perspectives de recherche.
Cette partie rsume les principales contributions de la thse et prsente quelques orientations futures de nos travaux de recherche dans le cadre des systmes de recommandation.
18
Premire partie
Contexte
19
Chapitre 1
Etat de lart
Ce chapitre a pour objectif de faire un tour dhorizon, non exhaustif, des systmes de
recommandation lis au domaine de la recherche dinformation, en voquant leur origine
et leurs applications et en dcrivant les donnes quils exploitent. De plus, il sagit de prsenter les principales techniques de recommandation en soulignant leurs apports et leurs
limites et de discuter les principaux verrous scientiques auxquels nous nous intressons
dans le cadre de cette thse.
1.1
Origines et applications
Les systmes de recommandation ont t utiliss an de faire face au problme de

surcharge et de profusion dinformations disponibles notamment travers le Web ou les
e-services. Les systmes de recommandation visent proposer un utilisateur actif une ou
des recommandations ditems susceptibles de lintresser. Ces recommandations peuvent
concerner un article lire, un livre commander, un lm regarder, un restaurant
choisir, etc.
Tapestry [Goldberg et al., 1992] reprsente lun des premiers systmes de recommandation. Il a t dvelopp en 1992 par le centre de recherche de Xerox aux Etats Unis.
Il sagit dun systme de recommandation intgr une application de mail lectronique,
permettant de recommander des listes de diusion aux utilisateurs. Tapestry est fond sur
le Filtrage Collaboratif (FC) exploitant les annotations (les tags) des utilisateurs attribus
aux listes de diusion. Lanalyse de ces annotations par le systme de FC permet de dterminer et de proposer les listes de diusion qui sont pertinentes pour chaque utilisateur.
Par la suite, dautres systmes de recommandation ont vu le jour en 1994 et en 1995,
tels que le systme de recommandation darticles dactualits et de lms dvelopp par
GroupLens [Resnick et al., 1994] et le systme de recommandation de musique Ringo
21
Chapitre 1. Etat de lart

propos par [Shardanand et Maes, 1995]. Ces deux systmes sont galement bass sur le
FC.
Quelques annes plus tard, avec lessor de lInternet et des applications Web, il y a
eu un engouement pour les systmes de recommandation qui se sont dvelopps dans
dirents domaines dapplications. Nous pouvons en citer :
les systmes de recommandation de lms, tels que : Movielens4 [Herlocker et al.,
1999] et Eachmovie [Breese et al., 1998],
les systmes de recommandation de livres (Bookcrossing5 [Ziegler et al., 2005]),
les systmes de recommandation de musique (LastFM6 [Jschke et al., 2007]),
les systmes de recommandation darticles dactualits [Billsus et al., 2002],
les systmes de recommandation de blagues (Jester7 [Goldberg et al., 2001]),
les systmes de recommandations introduits sur des sites e-commerce (Amazon8
[Linden et al., 2003]),
les systmes de recommandation de restaurants [Burke, 2002],
les systmes de recommandation intgrs aux Extranets documentaires (lExtranet
documentaire du Crdit Agricole [Bertrand-Pierron, 2006]),
les systmes de recommandations intgrs aux moteurs de recherche (le moteur de
recherche dAOL9 [Pass et al., 2006]),
les systmes de recommandations implments sur des sites de recrutement (JobFinder [Rafter et al., 2000]),
les systmes de recommandations de citations bibliographiques [McNee et al., 2002]
[Cosley et al., 2002].
Pour tous les systmes de recommandation dvelopps jusqu nos jours, la collecte
de donnes relatives aux utilisateurs et/ou aux items, reprsente une phase cl dans le
processus de personnalisation. La section qui suit dcrit en dtails la typologie de donnes
exploitables par les systmes de recommandation ainsi que les enjeux lis leur collecte.
1.2
Donnes
Dans le cadre des systmes de recommandation exploitant notamment le FC, la dtermination des apprciations est requise an de pouvoir modliser lutilisateur. Cette
dmarche didentication dapprciations repose soit sur des approches dites ractives
ou soit dites proactives [Anand et Mobasher, 2005]. Dans le cas dune approche ractive,
lutilisateur ragit suite la demande du systme an dexprimer ses besoins, tandis que
4
http
http
6
http
7
http
8
http
9
http
5
22
://www.grouplens.org
://www.informatik.uni-freiburg.de/cziegler/BX
://www.lastfm.fr
://eigentaste.berkeley.edu
://www.amazon.com
://www.gregsadetsky.com/aol-data
1.2. Donnes
dans une approche proactive, lutilisateur est moins sollicit, cest le systme qui anticipe
ses besoins.
Dans les approches ractives, la personnalisation est considre comme un processus
conversationnel fond sur des interactions explicites avec lutilisateur dans lobjectif dafner ses apprciations. Ce processus est ralis via un ensemble de questions ncessitant
un retour de lutilisateur qui doit exprimer explicitement ses apprciations concernant des
critres ou des items.
Les systmes de recommandation de type ractif, utilisent pour la plupart, des techniques base de critiques, issues du raisonnement partir des cas [Smyth, 2007]. Llicitation du retour de lutilisateur y est un composant principal permettant dadapter
prcisment les recommandations aux besoins exprims par cet utilisateur.
Par exemple, Entree [Burke, 2000] est un systme de recommandation de restaurants
ractif qui utilise des requtes, partir desquelles lutilisateur spcie le type de cuisine,
le prix, le style de restaurant, la localit, latmosphre, etc. Lutilisateur peut ainsi soit
accepter les recommandations proposes ou bien les critiquer travers des critres spciques (moins cher, plus calme, etc.).
Dautres exemples de systme base de critique sont proposs galement par [Aha et al.,
2000], [Shimazu, 2001] et [McGinty et Smyth, 2005].
Lavantage des systmes base de critique est quils sont faciles appliquer et ne
requirent pas une connaissance approfondie du domaine de la part de lutilisateur. Toutefois, les critiques demeurent une arme double tranchant. En eet, si elles reprsentent
des informations explicites sur les apprciations, elles ncessitent un eort et un investissement de lutilisateur quant lexpression de ses avis et de ses retours [McGinty et
Smyth, 2005].
Les approches proactives privilgient plutt la dduction des apprciations pour fournir des recommandations. Les systmes de recommandation proactifs ne ncessitent pas
de retour de lutilisateur (suite aux recommandations) an dorienter le processus de recommandation. Ces systmes reposent sur lobservation des interactions de lutilisateur
an destimer ses gots.
Cette observation peut tre directe ou indirecte. Quand elle est directe, elle se base sur
des donnes exprimes explicitement par lutilisateur en attribuant par exemple :
1. des notes aux items consults indiquant le degr dapprciation dun item par cet
utilisateur. Les notes sont souvent numriques et limites par une chelle de valeurs.
Une note (numrique) leve signie que lutilisateur accorde un grand intrt
litem et quil correspond bien ses gots. Cependant, une note faible signie que
lutilisateur ne sintresse pas litem. Dans dautres cas, les notes peuvent tre
exprimes sous une forme binaire telle que Aime ou Aime pas.
La Figure 1.1 prsente un exemple tir du site de vente en ligne Amazon qui ore la
possibilit de noter des items (par exemple le livre Network models of the diusion
23

of innovation) sur une chelle de [1 5].
Fig. 1.1 Exemple de notes : Site dAmazon
Dune manire gnrale, lchelle de note doit reter les apprciations dun utilisateur vis--vis ditems. Les chelles de note les plus communes sont prsentes dans
le tableau 1.1 [Schafer et al., 2007]. Le choix dune chelle de note trs large telle
que [1 100] peut augmenter lincertitude sur la valeur de note attribue. Ainsi, il
est dicile de dterminer par exemple la dirence entre une note de 55 et de 60
sur lchelle [1 100], lcart tant dicilement interprtable par le systme et la
nuance dicile valuer pour un utilisateur.
Tab. 1.1 Les chelles de notes les plus communes
Echelle de note
Description
Unaire
Aime ou Je ne sais pas
Binaire
Aime ou Aime pas
Entier
[1 5], [1 7] ou [1 10]
Lutilisation des notes permet de faciliter lapprentissage des apprciations, vu que
les notes sont faciles traiter par le systme de recommandation. Nanmoins, dans
24
1.2. Donnes
certains cas, les utilisateurs nayant pas les mmes faons de noter, les notes peuvent
ne pas tre ables. En eet, certains utilisateurs attribuent des notes leves et
dautres non. Par exemple, sur une chelle [1 5], une note qui vaut 3 peut tre
ngative pour un utilisateur et plutt neutre pour un autre.
2. des commentaires, des mots-cls ou des tags sur des items. La gure 1.2 montre un
exemple dajout de tags sur le site de recommandation de musique LastFM. Ces
tags sont exprims dans un langage libre propre chaque utilisateur, exprimant le
mieux son avis.
Toutefois, tout comme les systmes base de critiques, lexpression des apprciations
via des commentaires ou tags ncessite une motivation de la part de lutilisateur,
puisquelle requiert un eort cognitif plus important, par rapport lattribution
des notes. De plus, le traitement de ces commentaires (exprims en langage libre)
par le systme de recommandation demeure assez complexe. Le systme doit en eet
procder une analyse du contenu et une interprtation des commentaires an
destimer les apprciations.
Fig. 1.2 Exemple de tags sur le site LastFM
3. des attributs dmographiques concernant lutilisateur, tels que : lge, le sexe, la

catgorie socio-professionnelle, le niveau dtude, la localit gographique, le statut personnel, etc. Certes, ces attributs ne fournissent pas dinformations sur les
apprciations, mais ils permettent notamment daner le prol utilisateur an dy
adapter les recommandations. Ces attributs peuvent tre soit renseigns par lutilisateur lui-mme [Krulwich, 1997], ou bien extraits par exemple partir des pages
Web personnelles [Pazzani, 1999]. Par ailleurs, les prols dmographiques peuvent
25

tre utiliss pour calculer les recommandations lorsquil sagit de nouveaux utilisateurs [Vozalis et Margaritis, 2006] [Nguyen et al., 2006]. Ainsi, le systme de
recommandation peut considrer par exemple que les utilisateurs appartenant des
classes dmographiques homognes, ont des gots similaires et peut exploiter ces
similarits pour la gnration de recommandations.
Les apprciations explicitement exprimes par lutilisateur sinscrivent dans le cadre
dun processus dlicitation. Malgr son intrt, llicitation prsente certains risques [Rashid et al., 2008]. Elle peut tre en eet perue comme un processus long et fastidieux [Burke, 2002], qui requiert un eort de la part de lutilisateur, ce qui peut engendrer
un abandon du processus dlicitation.
Lenjeu quant lacquisition de toutes ces donnes explicites dcrites ci-dessus, est de
trouver le compromis entre collecte de donnes relatives aux apprciations et rduction
de llicitation.
Quand lobservation des interactions de lutilisateur est indirecte, elle repose sur des
donnes ou des apprciations implicites dduites partir des actions ralises par cet
utilisateur. Nous appellerons ces actions les traces dusage. Ces traces peuvent inclure
[Claypool et al., 2001] :
1. Des indicateurs dcrivant la manipulation tels que : des copier/coller dun texte
partir dune page, la recherche dun texte dans une page, lajout ou la suppression
dun item du panier ou la commande dun item (dans le cadre des applications ecommerce), la sauvegarde ou limpression dune page, lajout dune page aux favoris,
lenvoi dune page un ami, etc.
2. Des indicateurs de navigation tels que : la frquence et la dure de consultation, le
nombre de clics et de survols de souris sur une page et sur des liens, le scrolling,
etc.
3. Des indicateurs externes marquant lintrt. Ces indicateurs dcrivent les conditions
physiques et motionnelles qui caractrisent un utilisateur lors de son interaction.
Ils peuvent tre mesurs par exemple par loculomtrie10 (eye-tracking).
Lenjeu quant la collecte des traces dusage est de dnir des heuristiques an de
dterminer quelles actions ou quelles traces retent une apprciation positive ou bien
ngative. Par exemple, laction de suppression dun item dun panier (sur un site decommerce) peut tre interprte comme un avis ngatif. De mme, le critre de temps de
consultation peut tre aussi considr. Or, le problme qui se pose est de dterminer sil
sagit rellement dune consultation de litem. Il est possible en eet que litem soit actif
pendant une certaine dure, alors que lutilisateur ne le consulte pas rellement.
Par ailleurs, la dmarche de collecte des donnes explicites ou implicites (les traces
10
Technique de suivi et denregistrement du mouvement oculaire sur un site Web par exemple, pour
dtecter les zones du site les plus vises par lutilisateur
26
1.3.
Techniques de recommandation
dusage) dans le cadre dun systme de recommandation doit veiller la prservation de

la vie prive et des donnes personnelles des utilisateurs. En outre, quel que soit le type de
donnes collectes par le systme, cette dmarche doit prendre en considration la gestion
de laccroissement du volume de donnes dans le temps.
Dans cette section, nous avons prsent les dirents types de donnes exploitables
par les systmes de recommandation, en discutant leurs avantages et leurs inconvnients.
Nous pouvons dduire partir de ces discussions que la mise en place dun systme
de recommandation de type proactif ou ractif, exploitant des observations directes ou
indirectes, requiert une rexion approfondie a priori sur la collecte des donnes, avec ou
sans la sollicitation directe de lutilisateur.
Aprs avoir prsent la typologie des donnes exploites en entre par les systmes
de recommandation, dans la section suivante il est question de dcrire les principales
techniques de recommandation.
1.3
Il existe une large varit de techniques de recommandation. A travers les travaux

de recherche, direntes tentatives de classication des approches ou des techniques ont
t ralises. La classication de ces approches dpend notamment du type de donnes
exploites et de la mthode dapprentissage utilise par le systme de recommandation.
Dans cette section, en distinguant la technique base sur le contenu du FC bas sur
la mmoire ou sur un modle [Anand et Mobasher, 2005] [Su et Khoshgoftaar, 2009],
nous prsentons les principales techniques de recommandation avec leurs apports et leurs
limites.
1.3.1
Technique base sur le contenu
La technique de recommandation base sur le contenu repose sur lhypothse que des
items ayant des contenus similaires seront apprcis pareillement [Schafer et al., 2007].
Pour la proposition de recommandations aux utilisateurs, cette technique est fonde sur
lanalyse des similarits de contenu entre les items prcdemment consults par les utilisateurs et ceux qui nont pas t encore consults [Burke, 2002].
Ainsi, an de recommander par exemple des lms un utilisateur, le systme analyse les
corrlations entre ces lms et les lms consults antrieurement par cet utilisateur. Ces
corrlations sont values en considrant des attributs comme le titre et le genre. De ce
fait, parmi ces lms, ceux qui seront recommands lutilisateur, sont les plus similaires
(en terme dattribut) aux lms consults par cet utilisateur [Adomavicius et Tuzhilin,
2005].
27

Parmi les premiers systmes de recommandation bass sur le contenu, nous pouvons
citer : NewsWeeder [Lang, 1995], Letizia [Lieberman, 1995] et InfoFinder [Krulwich et
Burkey, 1996], etc. [Pazzani et Billsus, 2007] prsente une synthse de ces systmes de
recommandation en sintressant en particulier la reprsentation du contenu et aux
algorithmes utiliss pour la construction des prols utilisateurs.
La technique de recommandation base sur le contenu peut tre applique la recommandation de pages Web, de lms, darticles actualits, de restaurants, etc. Si nous
prenons lexemple dun systme de recommandation darticles scientiques bas sur le
contenu, lorsquun utilisateur a tendance consulter souvent des articles portant sur le
domaine de la gntique, le systme lui proposera des recommandations lies la gntique. En eet, ces articles disposent de mots-cls communs tels que : ADN, gne ou
protine.
Il est signaler que ces mots-cls sont gnralement soit extraits sur la base dune indexation automatique, soit attribus manuellement.
Pour ce qui est des systmes de recommandation de lms ou de restaurants, le contenu
est plutt structur et rprsent par des mtadonnes dnies au pralable et valables
pour tous les items [Pazzani et Billsus, 2007].
Dans le cadre de la technique base sur le contenu, la mesure TF-IDF (Term FrequencyInverse Document Frequency) [Salton, 1989] reprsente la mesure la plus populaire pour
lanalyse du contenu. Il sagit dune mesure statistique qui permet dvaluer limportance
dun mot dans un document ou dans un item faisant partie dune collection ou dun corpus [Pazzani et Billsus, 2007].
Le principe de cette mesure est que les mots-cls paraissant dans beaucoup ditems ne
permettent pas de distinguer un item pertinent dun autre qui ne lest pas. Or, les motscls qui sont rares et communs quelques items dnissent plus la similarit de contenu
ainsi que la pertinence dun item par rapport un autre.
La technique base sur le contenu a pour avantage de pouvoir gnrer des recommandations en dpit dune situation de dmarrage froid. Le dmarrage froid se traduit
notamment par lintroduction dun nouvel item au systme de recommandation. Lorsque
ce systme exploite le ltrage collaboratif, il ne sera pas capable dincorporer ce nouvel item aux recommandations, puisque les notes relatives cet item ne sont pas encore
disponibles. Ainsi, grce lanalyse de contenu, cet item peut tre intgr aux recommandations proposes un utilisateur actif.
Nanmoins, la technique base sur le contenu prsente quelques limites, notamment :
Le manque de diversit et la surspcialisation des recommandations. En eet, les
items recommands sont toujours similaires et identiques (en terme de contenu) aux
items prcdemment consults par lutilisateur. Les autres items, ayant un contenu
non similaire, ne sont jamais intgrs aux listes de recommandation, alors quils
pourraient intresser lutilisateur.
La reprsentation des items est toujours limite aux descriptions ou aux attributs
28
1.3.
qui leur sont associs. Par consquent, an davoir un ensemble susant dattributs,
il est ncessaire soit de prtraiter le contenu pour permettre une extraction automatique dattributs, soit dattribuer les descriptions manuellement [Shardanand et
Maes, 1995]. Dans les deux cas, lextraction dattributs demeure une opration fastidieuse surtout lorsquil sagit ditems multimdia tels que : les images, les documents
audio et vido, etc. De ce fait, certains aspects pertinents du contenu peuvent tre
ngligs, ce qui peut avoir un impact sur la qualit des recommandations.
Dans les sections suivantes, nous nous intressons aux approches qui font abstraction
du contenu. Ces approches, bases sur le FC, exploitent notamment les apprciations
(explicites et/ou implicites) ainsi que les traces dusage des utilisateurs dans le cadre des
recommandations.
Ces approches reposent en eet sur lhypothse que les utilisateurs qui partageaient les
mmes gots dans le pass (en attribuant des notes similaires, en achetant les mmes
articles ou en visitant les mmes items), vont trs probablement avoir les mmes gots
dans le futur [Goldberg et al., 2001].
1.3.2
Mthodes bases sur la mmoire
Lapproche base sur la mmoire exploite les apprciations des utilisateurs sur les items
(sous forme de notes par exemple), an de gnrer les prdictions [Sarwar et al., 2001].
Cette approche applique principalement des techniques statistiques dans le but didentier
des utilisateurs voisins ayant, sur un mme ensemble ditems, des apprciations similaires
celles de lutilisateur actif. Une fois les voisins identis, lapproche base sur la mmoire
utilise dirents algorithmes an de combiner les apprciations des voisins et gnrer des
recommandations lutilisateur actif [McLaughlin et Herlocker, 2004].
Dans ce contexte, la technique la plus utilise et la plus populaire est le Filtrage Collaboratif (FC) bas sur la mmoire [Goldberg et al., 1992]. Le FC bas sur la mmoire
recherche les k plus proches voisins (k Nearest Neighbors kNN) [Resnick et al., 1994],
i.e. les k voisins les plus similaires lutilisateur actif, dans le but de gnrer des recommandations ables. Ces voisins sont identis partir dune valuation de la similarit
des apprciations sur les items communs lutilisateur actif et les autres utilisateurs.
Dans un systme de FC bas sur la mmoire, tel que dcrit dans la gure 1.3, les donnes sont reprsentes sous forme dune matrice Utilisateur x Item (dont un exemple est
prsent dans le tableau 1.2), o les lignes reprsentent les utilisateurs U = {u1 , ...um } et
les colonnes constituent les items I = {i1 , ...ij }. Les utilisateurs fournissent leurs opinions
concernant les items sous forme de notes v. Pour un utilisateur actif ua (par exemple Jean)
nayant pas exprim son avis concernant un item ik (le lm Les visiteurs), le systme
recherche les utilisateurs voisins les plus proches nots Ua (parmi Rose, Ryan et Hlne
ayant not le lm Les visiteurs et qui ont dj co-not le lm Pulp Fiction avec Jean) et
utilisent leurs opinions pour prdire la note manquante v(ua , ik ) (v(Jean , Les visiteurs)).
29

Ainsi, nous pouvons distinguer deux phases essentielles en FC bas sur la mmoire : la
phase didentication du voisinage et la phase de calcul des prdictions. Les sous-sections
qui suivent dcrivent chacune de ces deux phases.
Fig. 1.3 Matrice Utilisateur x Item
Tab. 1.2 Exemple de matrice Utilisateur x Item

Pulp Fiction Star Gate Les visiteurs Scream
Jean
1
5
?
3
Rose
4
2
4
?
Eric
3
?
?
5
Ryan
4
?
5
?
Hlne
2
?
4
1
Identification du voisinage
Plusieurs mesures ont t exploites dans le cadre du FC bas sur la mmoire dans le
but dvaluer les similarits dapprciations entre utilisateurs et identier les utilisateurs
voisins (les plus proches). Parmi ces mesures nous pouvons citer : le coecient de corrlation de Pearson [Herlocker et al., 1999], la mesure base sur le cosinus [Sarwar et al.,
2000b], la corrlation de Spearman [Resnick et al., 1994], Mean squared dierence (qui
reprsente une mesure de dissimilarit) [Shardanand et Maes, 1995], etc.
Les mesures les plus populaires sont le coecient de corrlation de Pearson et la mesure
base sur le cosinus. Cette popularit est lie leur contribution la performance des
systmes de recommandation [Anand et Mobasher, 2005].
Nous dcrirons ces deux mesures ci-dessous. Notons que CorrP (ua , ub ) et Cos(ua , ub ) dsignent les similarits calcules respectivement avec le coecient de corrlation de Pearson
et la mesure base sur le cosinus, entre deux utilisateurs ua et ub . Ia et Ib reprsentent
respectivement lensemble des items nots par ua et ub . v(ua ) reprsente la moyenne de
notes de ua et v(ua , i) dsigne la note de ua sur litem i. Ic dsigne les items co-nots
(nots en commun) entre lutilisateur actif ua et lutilisateur ub .
30
1.3.
Le coefficient de corrlation de Pearson : cette mesure est prsente dans lquation

(1.1). Lorsque CorrP (ua , ub ) vaut 1, cela signie que les utilisateurs ua et ub sont
fortement corrls. Or, si CorrP (ua , ub ) vaut 1, cela implique que ua et ub ont des
apprciations totalement opposes. Quand cette corrlation vaut 0, aucune relation
nexiste entre les deux utilisateurs.
P
v(ua ))(v(ub , i) v(ub ))

P
2
2
iIc (v(ua , i) v(ua ))
iIc (v(ub , i) v(ub ))
CorrP (ua , ub ) = qP
iIc (v(ua , i)
(1.1)
La mesure base sur le cosinus : cette mesure est trs frquemment utilise dans le
domaine de la recherche dinformation. Dans ce contexte, elle consiste valuer la
similarit entre deux documents reprsents par des vecteurs de frquences de mots,
en calculant le cosinus de langle form par ces deux vecteurs [Salton et McGill,
1983].
En FC, cette mesure peut tre adapte pour lvaluation de la similarit entre deux
utilisateurs ua et ub en calculant le cosinus de langle entre les vecteurs correspondant
ces deux utilisateurs sur la base de lquation (1.2) [Breese et al., 1998], en prenant
en considration les items co-nots Ic . La valeur calcule par la mesure cosinus est
comprise entre 0 et 1.
P
v(ua , i) v(ub , i)
P
2
2
i Ia v(ua , i )
i Ib v(ub , i )
Cos(ua , ub ) = qP
iIc
(1.2)
Linconvnient des deux mesures Pearson et cosinus, est que le calcul des similarits
devient non able voire impossible, lorsque le systme dispose de peu ditems conots entre utilisateurs. An de pallier ce problme, certaines extensions ont t
proposes notamment par [Breese et al., 1998], telle que La note par dfaut
consistant attribuer une valeur par dfaut une note manquante. Mais lenjeu
ce niveau est de savoir quelle valeur par dfaut choisir (apprciation positive,
ngative ou bien neutre) et dvaluer son impact sur le calcul des similarits.
Par ailleurs, en vue damliorer la performance des systmes de recommandation
exploitant le FC bas sur la mmoire, [Breese et al., 1998] ont propos dutiliser :
Lamplication de cas permettant de transformer les similarits en ampliant
les valeurs proches de 1 et en pnalisant celles qui sont proches de 0, dans le
but dattribuer un poids important aux voisins fortement similaires lutilisateur
actif.
La frquence inverse utilisateur inspire de la mthode IDF (Inverse Document
Frequency), prsente dans la section 1.3.1. Lhypothse est que les items apprcis par un grand nombre dutilisateurs sont moins pertinents pour le calcul des
similarits compars ceux qui sont apprcis par un nombre restreint dutilisateurs. Ainsi, chaque note est transforme en la multipliant par la frquence inverse
utilisateur qui est quivalente log nni , n tant le nombre total des utilisateurs et
k
nik le nombre dutilisateurs ayant not ik .
31

Calcul des prdictions
Cette deuxime phase, tout comme la premire, est dune importance cruciale dans
la mesure o lobjectif de tout systme de FC est le calcul des prdictions pour gnrer des recommandations pertinentes un utilisateur actif. La mthode la plus utilise
pour le calcul de ces prdictions est la somme pondre [Herlocker et al., 1999]. Suivant
lquation (1.3), cette mthode considre les plus proches voisins Ua (corrls avec lutilisateur actif) ayant dj not litem ik , pour calculer la prdiction de la note de ua sur
ik note P red(ua , ik ). Sim(ua , ub ) dsigne la valeur de similarit entre ua et un voisin ub
(ub Ua ) et peut tre instancie par les similarits calcules partir du coecient de
Pearson (CorrP (ua , ub )) ou bien partir de la mesure base sur le cosinus (Cos(ua , ub )).
P red(ua , ik ) = v(ua ) +
ub Ua
Sim(ua , ub ) (v(ub , ik ) v(ub ))

P
ub Ua Sim(ua , ub )
(1.3)
Le choix des plus proches voisins Ua est dterminant dans la mesure o la performance
du systme dpend de la qualit des voisins impliqus lors de la gnration des prdictions.
Direntes stratgies peuvent tre prises en compte pour la slection de ces voisins :
La dtermination dun seuil de similarit [Breese et al., 1998] [Shardanand et Maes,
1995] : il sagit de slectionner les plus proches voisins qui sont corrls avec lutilisateur actif partir dun seuil de similarit prtabli.
La slection de la taille du meilleur voisinage [Herlocker et al., 1999] : cette stratgie
permet de slectionner les voisins les plus proches (20, 50 ou 100 meilleurs voisins
par exemple).
La dtermination dun seuil pour les items co-nots [Viappiani et al., 2006] : cette
stratgie consiste ltrer les plus proches voisins en fonction du nombre ditems
co-nots avec lutilisateur actif.
Au niveau des trois stratgies, les seuils choisis ne doivent pas avoir des valeurs extrmes (ni trop leves, ni trop faibles). En eet, par exemple, si la valeur du seuil de
similarit est trop faible, cela peut engendrer de mauvaises prdictions quand lutilisateur actif est corrl avec de nombreux utilisateurs. De la mme faon, si le seuil est trs
lev, cela peut aecter la qualit des prdictions et la couverture (la capacit du systme
gnrer des prdictions), quand lutilisateur actif est faiblement corrl avec les autres
utilisateurs. En eet, dans ce cas, le systme ne dispose que de peu de voisins pour pouvoir
gnrer les prdictions.
Une fois les prdictions calcules, le systme de FC recommande lutilisateur actif
les items ayant les valeurs de prdiction les plus leves.
32
1.3.
Par ailleurs, lapproche base sur la mmoire peut tre centre sur litem. Cette approche a t propose par [Sarwar et al., 2001]. Le principe de cette approche consiste
analyser la matrice Utilisateur x Item pour identier des relations entre les items et
utiliser ces relations an de calculer les prdictions. Lhypothse est que lutilisateur serait
intress par des items, similaires aux items quil a apprcis auparavant (i.e. similaires
en termes de notes attribues par cet utilisateur).
Pour [Sarwar et al., 2001], dans ce processus, il nest pas ncessaire didentier les voisinages pour les utilisateurs. Par consquent, un tel systme a tendance calculer plus
rapidement les recommandations et permettre ainsi le passage lchelle. Les auteurs supposent en eet que le nombre ditems est gnralement moins important que le nombre
dutilisateurs.
Cette hypothse peut tre valable pour les applications en e-commerce, o le nombre potentiel des utilisateurs augmente rgulirement, compar au nombre de produits proposs.
Or, dans dautres contextes, comme dans un portail Extranet (lExtranet du Crdit Agricole par exemple), ce nest pas vraiment le cas. En eet, le nombre dutilisateurs reste
relativement stable par rapport au nombre ditems accessibles qui est de plus en plus
croissant.
Lapproche base sur la mmoire a pour avantage la simplicit de limplmentation
et de lintgration des nouvelles donnes dans le systme. Cependant, cette approche a
linconvnient dtre trs dpendante de la quantit de notes des utilisateurs. En eet, si
les donnes savrent rares, il est dicile didentier des voisins ables ( partir des items
co-nots) et par consquent la performance du systme dcrot.
De plus, dans une situation de dmarrage froid, cette approche est incapable de tenir
compte des nouveaux utilisateurs et/ou items, rcemment introduits au systme. En eet,
lapproche base sur la mmoire ncessite la disponibilit des apprciations concernant ces
utilisateurs et/ou ces items pour pouvoir les intgrer parmi les recommandations.
En outre, lapproche base sur la mmoire reste limite dans la mesure o elle ne permet
pas le passage lchelle. En eet, quand le nombre dutilisateurs et ditems prsents dans
le systme devient important, la gnration des recommandations requiert un temps de
traitement trs lev.
1.3.3
Mthodes bases sur un modle
Les mthodes bases sur un modle ont t intgres aux systmes de recommandation
pour remdier aux problmes des mthodes bases sur la mmoire, dont notamment : la
non robustesse au manque de donnes ainsi que le non passage lchelle [Sarwar et al.,
2000b] [Su et Khoshgoftaar, 2009]. Pour faire face ces deux problmes, les mthodes
bases sur un modle utilisent notamment les techniques de rduction de dimensionnalit
ou le clustering dans le but dcarter les utilisateurs ou les items non reprsentatifs.
Ainsi lespace de reprsentation utilisateur-item est plus rduit et le taux de donnes
manquantes est moins important compar lespace de reprsentation original. Les voisins
peuvent ainsi tre calculs dans cet espace rduit, ce qui permet de garantir le passage
33

lchelle.
Dans le cadre des mthodes bases sur un modle, le processus de FC consiste
construire des modles (gnralement en hors ligne o-line) en exploitant les donnes
collectes sur lutilisateur et/ou sur litem. Les modles construits sont par la suite utiliss
pour gnrer les prdictions qui sont proposes lutilisateur actif lors de son interaction
avec le systme.
Le processus de construction du modle est bas sur les techniques dapprentissage automatique, telles que : le clustering, les rseaux baysiens, les arbres de dcision, etc. Ces
techniques vont tre explicites dans ce qui suit.
Clustering
Un cluster est une collection dobjets qui sont similaires entre eux et dissimilaires aux
objets appartenant aux autres clusters [Han et Kamber, 2001]. Dans le cadre du FC,
le clustering a pour objectif de crer des clusters homognes dutilisateurs ou ditems.
Les prdictions sont par la suite calcules en prenant en considration les opinions des
utilisateurs (en FC centr sur lutilisateur) ou les notes des items (en FC centr sur litem)
faisant partie des mmes clusters.
Les mthodes de clustering les plus exploites sont les mthodes de partitionnement
dont k-means [MacQueen, 1967] est la plus populaire.
Dans le cas dun clustering dutilisateurs [Kim et al., 2002], k-means consiste crer k
clusters telle que la distance entre utilisateurs intracluster est faible alors que la distance
intercluster est forte. En dautres termes, chaque cluster cr doit comprendre des utilisateurs ayant des apprciations similaires.
Lalgorithme (1) [Han et Kamber, 2001] prsente les tapes dun clustering k-means appliqu aux utilisateurs. Cet algorithme consiste choisir alatoirement des k centrodes (des
points situs au centre) partir de lespace de reprsentation (i.e. matrice Utilisateur x
Item). Par la suite, chaque utilisateur est aect un cluster, tel que la distance entre
cet utilisateur et le centrode du cluster est faible. Dans une tape suivante, en prenant en
compte les utilisateurs qui viennent dtre aects aux clusters, la position du centrode de
chaque cluster est recalcule. Aprs la dcouverte des nouveaux centrodes, les distances
sont nouveau rvalues an de retrouver le cluster auquel chaque utilisateur devrait
appartenir. Cette opration est itre jusqu ce que les centrodes deviennent stables et
ne changent plus.
Pour illustrer ces tapes, la gure 1.4 [Han et Kamber, 2001] prsente un exemple
permettant la gnration de trois clusters (k = 3) base sur k-means.
Au dbut du processus de clustering, trois utilisateurs reprsentant les centrodes (reprsents par le symbole +) sont slectionns arbitrairement an de construire trois clusters.
Ainsi, dans la phase (a) chaque utilisateur est aect au cluster le plus proche. La phase
(b) reprsente ltape de recalcul des positions des centrodes ainsi que la raectation
34
1.3.
Algorithm 1 Algorithme de partitionnement k-means

1: Input : k : le nombre de clusters et M : matrice Utilisateur x Item
2: Output : k clusters
3:
4:
5:
6:
7:
8:
Choisir alatoirement k centrodes initiaux de clusters

repeat
Raecter chaque utilisateur au cluster auquel il est le plus similaire
Recalculer les distances des utilisateurs dans chaque cluster
Mettre jour les centrodes
until Stabilit des centrodes
des utilisateurs aux clusters les plus proches (les direntes lignes pointilles dterminant
les trois clusters, changent au fur et mesure du recalcul des positions des centrodes).
La phase (c) reprsente la n du processus du clustering, les lignes pleines retent les
clusters dnitifs obtenus suite la stabilit des centrodes.
Fig. 1.4 Clustering k-means
Lalgorithme k-means a lavantage dtre ecient et son implmentation demeure facile [Su et Khoshgoftaar, 2009]. De plus, il permet le passage lchelle dans la mesure
o il peut tre appliqu de larges corpus. Notons que la complexit de cet algorithme
est O(nkt), n tant le nombre total dutilisateurs, k le nombre de clusters et t le nombre
ditrations.
Toutefois, le choix alatoire des centrodes au dbut du processus du clustering k-means
ainsi que la dtermination de leur nombre reste encore problmatique. [Castagnos, 2008]
a tudi ce problme et a propos damliorer le choix des centres initiaux dans le cadre
dun clustering k-means, en garantissant la convergence de lalgorithme lorsque k = 2.
Par ailleurs, la mthode k-means demeure sensible aux donnes aberrantes (outliers).
Cette sensibilit dcoule du fait quun objet ou un utilisateur ayant une valeur extrmement dirente des autres (un outlier) peut altrer la distribution de donnes [Wang et
Shao, 2004]. En eet, lorsquun outlier est trs loin du centrode dun cluster, la position
du ce centrode va tre dplace. Par consquent, la distribution de donnes ne va plus
tre homogne.
35

PAM (Partitioning Around Medods) est un algorithme de la famille des mthodes
de partitionnement. Cest une mthode de clustering de type k-medode qui a t propose an de rduire la sensibilit aux donnes aberrantes et de remdier au problme de
recouvrement des clusters [Han et Kamber, 2001].
Cette mthode de partitionnement a pour objectif de crer un ensemble de clusters tel
que chaque cluster ait un point reprsentatif (un utilisateur central) appel mdode.
Lalgorithme (2) dcrit les tapes du clustering PAM [Han et Kamber, 2001].
Au dbut du processus, les utilisateurs reprsentatifs (mdodes) umed de chaque cluster
sont choisis alatoirement, comme dans k-means. Par la suite, an didentier les mdodes
eectifs, la mthode PAM repose sur la minimisation des dissimilarits entre chaque utilisateur up et lutilisateur reprsentatif du cluster umed .
Lalgorithme PAM itre jusqu ce que que les mdodes deviennent stables, i.e., jusqu
ce que les umed ne changent plus. Durant cette itration, la qualit du clustering est value en utilisant une fonction qui calcule le cot total S. Ce cot mesure lerreur en cas
de permutation dun mdode intial umed avec un autre mdode urandom . Si S est ngative, umed est remplace eectivement par urandom . Autrement, umed est considre comme
acceptable et devient stable.
Algorithm 2 Algorithme de partitionnement PAM
1: Input : k : le nombre de clusters et M : matrice Utilisateur x Item
2: Output : k clusters
3:
4:
5:
6:
7:
8:
9:
10:
11:
Choisir alatoirement k utilisateurs comme tant les mdodes initiaux de clusters

repeat
Aecter chaque utilisateur un cluster tel que la dissimilarit entre cet utilisateur
et le mdode est faible
Slectionner alatoirement un utilisateur non-reprsentatif (non-mdode) urandom
Calculer le cot total, S, de permutation dun utilisateur reprsentatif umed avec
urandom
if S < 0 then
Remplacer umed par urandom pour former les nouveaux mdodes
end if
until Stabilit des mdodes
Comme nous lavons prcis ci-dessus, lintrt de lalgorithme PAM compar kmeans, rside dans son insensibilit aux donnes aberrantes [Kaufman et Rousseuw, 1990]
[Wang et Shao, 2004]. Cette insensibilit est d au principe mme de lalgorithme. En
eet, au lieu de considrer une valeur situe au centre des utilisateurs comme tant le
point de rfrence dans un cluster (comme dans k-means), PAM dsigne des utilisateurs
rels reprsentatifs des clusters (mdodes) parmi les autres utilisateurs. Un mdode
constitue lobjet ou lutilisateur le plus central du cluster. Ceci est assur en permutant
systmatiquement un mdode et un autre utilisateur choisi alatoirement an de vrier
si la qualit du clustering dcrot [Tury, 2007].
Nanmoins, lalgorithme PAM reste inappropri pour de larges corpus. Il requiert en eet,
un temps de traitement plus important que lalgorithme k-means. En eet, la complexit
36
1.3.
de cet algorithme est O(tk(n k)2 ). De plus, comme k-means, la mthode PAM ncessite
galement de dnir k qui est le nombre de clusters gnrer.
Dans le cadre des systmes de recommandation, la mthode de partitionnement kmeans a t largement applique aux utilisateurs et/ou aux items, en vue de rduire
lespace de recherche et le temps de calcul des recommandations, de permettre le passage
lchelle et de pallier le manque de donnes [Tang et McCalla, 2003] [Xue et al., 2005] [Jiang
et al., 2006]. Or, notre connaissance, la mthode PAM a t moins utilise par les
systmes de recommandation [Wang et al., 2008].
Par ailleurs, pour ces mmes perspectives, dautres algorithmes de clustering ont t
intgrs aux systmes de recommandation, notamment : ROCK [Conner et Herlocker,
1999], Gibbs Sampling [Breese et al., 1998], etc.
Toutefois, lune des limites du clustering est le risque de perte dinformation cruciale
lors de la cration des clusters. Par exemple, suite un clustering, deux utilisateurs
proches peuvent ne pas avoir t aects au mme cluster, ce qui peut se rprcuter sur
la performance du systme de recommandations.
Modles probabilistes
Les modles probabilistes utiliss dans le cadre du FC visent reprsenter le calcul des
prdictions sous forme de distributions de probabilit [Schafer et al., 2007]. Ces modles
valuent en gnral la probabilit quun utilisateur ua attribue une note v un item ik ,
note P r(v(ua , ik )) [Breese et al., 1998]. La note v est comprise entre vmin et vmax qui
reprsentent respectivement la valeur minimale et maximale correspondant lchelle de
note. ix dsigne un item appartenant Iua qui constitue lensemble des items nots par
ua .
P red(ua , ik ) =
vX
max
v=vmin
P r(v(ua , ik ) = v|v(ua , ix ), ix Iua ) v
(1.4)
Les modles probabilistes appliqus au FC intgrent notamment les rseaux baysiens.

[Breese et al., 1998] sont parmi les premiers avoir propos des mthodes probabilistes
pour le FC bas sur les rseaux baysiens et exploitant les arbres de dcision. Le FC est
ainsi peru comme un rseau baysien o chaque item reprsente un nud. Les tats de
chaque nud correspondent aux valeurs possibles de note. Ces valeurs comprennent aussi
ltat pas de note correspondant une note manquante. Ainsi, pour prdire ces notes
manquantes, un algorithme dapprentissage de rseaux baysiens est appliqu. Dans les
rseaux rsultant de cet apprentissage, chaque item dispose dun item parent travers un
arbre de dcision qui dnit les probabilits conditionnelles quun item soit apprci ou
pas par lutilisateur.
[Breese et al., 1998] montrent que les rseaux baysiens exploitant les arbres de dcision
37

amliorent la prcision des items recommands, compars au FC bas sur lapproche
mmoire.
La gure 1.5 prsente par [Breese et al., 1998] est un exemple dun arbre de dcision
qui reprsente les probabilits estimes (reprsentes par des barres), quun utilisateur
regarde ou pas la srie Melrose Place, sachant que les nuds parents sont les sries
Beverly Hills 90210 et Friends. Par exemple, nous pouvons observer que les utilisateurs
nayant pas regard Beverly Hills 90210, ne vont trs probablement pas regarder Melrose
Place.
Fig. 1.5 Exemple darbre de dcision prsent par [Breese et al.,1998]
Il existe dautres approches probabilistes, appliques notamment pour la rduction

de la dimensionnalit [Schafer et al., 2007]. Ainsi, une variable dite cache P r(z|ua ) est
utilise. Cette variable reprsente la probabilit quun utilisateur ua appartienne une
classe cache z. Lquation (1.5) permet de calculer la probabilit quun utilisateur ua
attribue une note v un item ik .
P r(v|ua , ik ) =
P r(v|ik , z)P r(z|ua )
(1.5)
Ainsi, la prdiction de v est calcule sur la base de lquation (1.6).
P red(v|ua , ik ) =
X
v
(v
P r(v|z, ik )P r(z, ua ))
(1.6)
Pour lestimation des classes z, lalgorithme Expectation-Maximization peut tre

appliqu dans le cadre de lanalyse smantique latente (Latent Semantic Analysis) [Hofmann, 2004].
Par ailleurs, dans le cadre des modles probabilistes, dautres techniques peuvent tre galement exploites dans un processus de recommandation, notamment : la dcomposition
38
1.3.
en valeurs singulires (SVD Singular Value Decomposition) et lanalyse en composantes

principales (PCA Principal Component Analysis) [Sarwar et al., 2000b] [Goldberg et al.,
2001].
Les modles probabilistes permettent de pallier le problme de manque de donnes et
damliorer la qualit des recommandations [Breese et al., 1998]. Nanmoins, la construction des rseaux baysiens demeure coteuse et donc inapproprie pour un grand volume
de donnes.
La sous-section suivante est consacre la prsentation des techniques issues du Web
Usage Mining. Ces techniques font partie des mthodes bases sur un modle, mais au
vu de leur importance vis--vis de nos travaux de recherche, nous avons choisi de leur
consacrer une sous-section part.
1.3.4
Techniques issues du Web Usage Mining
Le Web Usage Mining (WUM) consiste en lanalyse du comportement de lutilisateur

en se basant sur lobservation et lanalyse de ses activits de navigation et de ses changes
interactifs (ses usages) [Srivastava et al., 2000]. La nalit des techniques du WUM est de
pouvoir dcouvrir des comportements communs dusage entre utilisateurs an de gnrer
des prdictions sur les futurs comportements de ces utilisateurs lors de leurs prochaines
navigations.
Pour une analyse eciente des usages, une collecte de traces dusage est ncessaire.
Les traces dusage reprsentent une suite dactions eectues par un utilisateur, elles sont
dduites de lensemble des clics eectus par cet utilisateur (cf. section 1.2).
Le WUM est une approche qui occupe une place de plus en plus prpondrante dans
plusieurs domaines dont les applications sont relatives notamment aux portails dinformation, au e-commerce/e-marketing, au e-learning et lIHM (Interaction Homme-Machine),
etc. Sur un portail dinformation, le WUM permet de prdire quel article sera lu ; sur un
site de vente en ligne, il permet de savoir quel produit sera achet ; et sur un site e-learning,
le WUM permet de dcouvrir par exemple quelles suites dactions mnent la russite
ou lchec dun exercice [Cheype, 2006]. De plus, le WUM peut tre galement utilis
pour amliorer la structure dun site Web en mettant en vidence des liens hypertextes
qui devraient relier des pages Web.
Dans lobjectif de gnrer des prdictions, le WUM exploite notamment les techniques
dapprentissage automatique pour la dcouverte des motifs dusage [Srivastava et al.,
2000]. Ces motifs permettent de prdire les futurs comportements navigationnels de ces
utilisateurs en se basant sur lanalyse de leurs traces dusage. Ainsi, contrairement aux
mthodes de recommandation prsentes dans les sections prcdentes, les donnes de
notes ne sont pas ncessaires dans le cadre des techniques du WUM.
39

Les sous-sections suivantes prsentent quelques mthodes et algorithmes utiliss dans ce
cadre.
Rgles dassociation
Initialement, les techniques de dcouverte de rgles dassociation ont t dveloppes
pour lanalyse des bases de donnes transactionnelles [Agrawal et Srikant, 1994]. Par la
suite, ces techniques ont t intgres dans dautres domaines, notamment dans le cadre
du WUM [Srivastava et al., 2000].
Au niveau dune base de donnes transactionnelle, les techniques de dcouverte de rgles
dassociation permettent la dcouverte de corrlations entre items. Ces corrlations sont
identies travers lexploration de probabilits estimant que si un certain nombre ditems
sont prsents, dautres items sont galement potentiellement prsents dans la mme transaction [Wang et Shao, 2004].
La dcouverte de rgles dassociation dans une base de donnes transactionnelle repose
sur deux tapes essentielles :
La dcouverte ditemsets frquents. Un itemset dsigne un ensemble ditems qui
apparaissent dans une mme transaction. Cette dcouverte est base sur le support
qui dtermine la frquence minimum dapparition de ces itemsets dans la base de
donnes.
La dcouverte des rgles dassociation partir des itemsets frquents en se basant sur
la conance. La conance value le degr dimplication dune rgle dassociation.
Si la conance est leve, la rgle est able.
Considrons un ensemble de transactions T intgrant un ensemble ditemsets I =
{I1 , I2 , ...In }. Le support dun itemset Ii I est dnie par lquation (1.7). |T | reprsente
le cardinal de T .
(Ii ) =
|t T : Ii t|
|T |
(1.7)
Une rgle dassociation r est exprime sous la forme X Y (r , r ) [Agrawal et al.,

1993] [Anand et Mobasher, 2005]. X et Y reprsentent des itemsets. r = (X Y ) est
le support de X Y , il reprsente la probabilit que X et Y se trouvent ensemble dans
une transaction.
r est la conance de la rgle r, telle que dnie par lquation (1.8). Cette quation
calcule la probabilit que Y apparaisse dans une transaction tant donn que X est dj
apparu dans cette mme transaction.
40
1.3.
r =
(X Y )
(X)
(1.8)
Dans le cadre du WUM, la dcouverte des rgles dassociation est dun intrt considrable. Par exemple, pour un Extranet dentreprise ou un portail dinformation, les rgles
dassociation permettent dobserver que les utilisateurs consultant un item i1 , consultent
souvent un item i2 . Cette rgle aura la forme de i1 i2 .
Les rgles dassociation ont t largement utilises par les systmes de recommandation [Krulwich, 1997] [Sarwar et al., 2000a] [Fu et al., 2000] [Lin et al., 2002] [Nakagawa
et Mobasher, 2003] [Wang et Shao, 2004]. Toutefois, cette technique prsente quelques
limites. En eet, quand le systme manque de donnes, les rgles dassociation et les recommandations ne peuvent pas tre calcules. De plus, le processus de calcul de rgles
requiert un temps de calcul lev et devient non-performant quand la taille de donnes
est importante.
Motifs squentiels
La recherche de motifs squentiels, introduite par [Agrawal et Srikant, 1995], peut
tre considre comme une variation des rgles dassociation. En eet, elle repose sur le
principe dordre des lments ou de temporalit dans le but de dcouvrir des squences
frquentes ordonnes dans le temps [Gery et Haddad, 2003]. A la dirence des rgles
dassociation, elle pose plus de contraintes.
Un exemple de motif squentiel est que les utilisateurs ont tendance consulter dans
lordre, sur un portail dinformation, les articles : Volcan dIslande, puis Suspension des
vols en Europe et enn Prvisions mtorologiques.
A linstar des rgles dassociation, la recherche de motifs squentiels a t applique
dabord aux bases de donnes transactionnelles dans le cadre des stratgies marketing [Han
et Kamber, 2001]. Ainsi, il tait possible didentier par exemple que les clients qui ont
achet lappareil photo numrique Samsung, vont probablement acheter plus tard une
imprimante HP.
Par la suite, dautres domaines dapplications se sont intresss ltude des squences
de donnes, telles que :
Le Web mining qui comprend le WUM et le Web Structure Mining (WSM).
Dans le domaine du WSM [Srivastava et al., 2000], ltude des squences vise
analyser la structure de sites Web dans lobjectif didentier les liens hypertextes et
les pages Web les plus populaires (au travers des usages) et den faciliter laccs.
Dans le WUM, ltude des squences de navigation permet notamment laide la
navigation sur le Web [Baumgarten et al., 2000], [Mobasher et al., 2001], [Nakagawa
et Mobasher, 2003], [Gery et Haddad, 2003].
41

Lanalyse des squences biologiques (squences ADN ou de protines) : tude de
lalignement de squences an de dtecter dventuelles anomalies ou disfonctionnements gntiques [Brazma et al., 1998].
La dtection dintrusions sur des bases de donnes : mise en place de systmes de
dtection de transactions malveillantes grce aux motifs squentiels [Hu et Panda,
2004].
Etant donn un ensemble de squences sur lesquelles les motifs squentiels seront
appris, chaque squence s est reprsente par une suite dvnements qui se sont produits
lun aprs lautre. En considrant un support minimum, lanalyse de motifs squentiels
permet de retrouver toutes les squences frquentes dont la frquence doccurences parmi
lensemble des squences, est suprieur au support minimum [Agrawal et Srikant, 1995].
Lorsquun client ralise par exemple des achats, ces derniers constituent des vnements
et vont reprsenter une squence pour ce client. Un client achte dabord des items en
s1 , puis en s2 , etc. Le nombre ditems dans une squence reprsente la longueur de la
squence [Han et Kamber, 2001].
Le tableau 1.3 est un exemple dune base de donnes transactionnelle trie par client et
par date de transaction. Si nous considrons un support de 25%, h(i3 )(i9 )i et h(i3 )(i4 i7 )i
sont les squences permettant de satisfaire le support dni et reprsentent les motifs
squentiels. En eet le motif h(i3 )(i9 )i est prsent chez les deux clients Jean et Ryan et le
motif h(i3 )(i4 i7 )i est prsent chez Rose et Ryan. Mme si Rose a achet litem i6 en mme
temps que les items i4 et i7 , h(i4 i7 )i reprsente un motif puisquil est une sous-squence
de h(i3 )(i4 i7 )i.
Il est signaler que ces motifs sont inter-transactions, alors que les rgles dassociation
sont intra-transactions (i.e. elles sont extraites dune mme transaction).
Tab. 1.3 Exemple de
Client Id
Jean
Jean
Rose
Rose
Rose
Eric
Ryan
Ryan
Ryan
Hlne
base de donnes transactionnelle

Date
Items Id
25 Mai
i3
30 Mai
i9
10 Mai
i1 ,i2
15 Mai
i3
20 Mai
i4 ,i6 ,i7
25 Mai
i3 ,i5 ,i7
25 Mai
i3
30 Mai
i4 ,i7
25 Juin
i9
12 Mai
i9
Dans le cadre du WUM, lanalyse des motifs squentiels peut mettre en vidence
des motifs squentiels de type contigu (ferm) ou bien non contigu (ouvert) [Anand et
Mobasher, 2005]. Les motifs contigus sont une forme restrictive des motifs squentiels. En
42
1.3.
eet, la particularit des motifs contigus est que les items contenus dans le motif squentiel
doivent tre adjacents suivant lordre de la squence. Par exemple un motif squentiel
contigu hi4 i5 i6 i est satisfait par la squence {i4 , i5 , i6 } et non pas par {i4 , i5 , i8 , i6 } qui
reprsente plutt un motif squentiel ouvert, tant donn que i8 apparat entre i5 et i6 .
Lutilisation des motifs squentiels pour la recommandation de pages Web est dun
grand intrt. Cependant, cette technique savre limite lorsquil est question de traiter
un grand volume de traces dusage et de gnrer des motifs en temps rel.
Par ailleurs, il existe dautres techniques permettant la dcouverte des motifs squentiels, telle que :
La technique LCS (Longuest Common Subsequences) : Cest une technique issue de
la programmation dynamique. Elle permet dextraire un cas particulier de motifs
squentiels. En eet, cette technique vise identier la plus longue sous-squence
commune deux squences donnes. Dans le cadre des systmes de recommandation, [Jalali et al., 2008] ont propos une architecture de classication des motifs
squentiels, en se basant sur la dcouverte de LCS. Ces motifs permettent de prdire
les futures activits de navigation des utilisateurs. Dans [Banerjee et Ghosh, 2001],
un algorithme bas sur la technique LCS est utilis pour le clustering dutilisateurs
en exploitant les traces dusage. Cette approche de clustering prend en compte les
similarits entre les chemins de navigation, bases sur les LCS, ainsi que la dure
de consultation des items contenus dans ces LCS.
Les modles de Markov : cette approche vise mettre en vidence des liens squentiels entre les items consults durant les activits de navigation des utilisateurs. En
estimant les probabilits conditionnelles de transition entre items, les dpendances
squentielles de comportement de navigation sont modlises sur la base des modles de Markov [Eirinaki et al., 2005]. Plusieurs travaux de recherche ont intgr
les modles de Markov dans le processus de recommandation notamment : [Zimdars
et al., 2001], [Shani et al., 2005], [Liu et al., 2007], [Bonnin et al., 2009] et [Verma
et al., 2009].
Dirents algorithmes ont t proposs pour la recherche de motifs squentiels depuis
leur mergence en 1994, notamment : GSP [Srikant et Agrawal, 1996], FreeSpan [Han
et al., 2000], SPADE [Zaki, 2001], SPAM [Ayres et al., 2002], etc.
Tous ces algorithmes ont t intgrs dans diverses applications. Dans le domaine du
WUM, de nombreux travaux de recherche ont eu un engouement pour les motifs squentiels, notamment : [Baumgarten et al., 2000], [Gaul et Schmidt-Thieme, 2001], [Mobasher
et al., 2001], [Nakagawa et Mobasher, 2003], [Gery et Haddad, 2003].
Les techniques issues du WUM prsentes ci-dessus, ont pour avantage danalyser
les usages et de prdire les futurs comportements navigationnels des utilisateurs sans
lutilisation des notes (requises notamment dans lapproche base sur la mmoire). Or,
comme pour les autres approches prsentes prcdemment, les algorithmes dextraction
43

de motifs squentiels ou de rgles dassociation traitent les donnes sans prendre en compte
leur volution dynamique dans le temps. Le passage lchelle, loptimisation du temps de
calcul et la gnration de motifs en temps rel demeurent encore des enjeux de taille. De
plus, dans le cadre de ces techniques, seul le critre de consultation ditems est considr
(pour la recommandation de pages Web par exemple). En eet, deux utilisateurs ayant
visit les mmes items, auront les mmes recommandations, alors quils peuvent avoir des
gots dirents.
1.3.5
Techniques hybrides
Les direntes techniques exploites par les systmes de recommandation ont chacune
leurs apports mais aussi leurs limites. Le tableau 1.4 prsente une synthse comparant les
avantages et les inconvnients des techniques de recommandation qui ont t prsentes
dans cet tat de lart.
Nous pouvons observer partir de ce tableau que le FC bas sur un modle peut tre
performant, cependant cette performance reste un compromis entre amlioration de la
qualit des recommandations et construction coteuse de modles.
Quant au FC bas sur la mmoire, bien quil soit able et simple implmenter, il demeure
peu performant surtout lorsque le systme manque de donnes, telles que les notes.
La technique base sur le contenu permet de remdier ce problme de manque de
donnes. Toutefois, les recommandations quelle gnre sont trs spcialises et manquent
de diversit (i.e. les items recommands un mme utilisateur ont un contenu similaire).
Ainsi, le choix dune technique de recommandation reste un compromis entre performance,
facilit dimplmentation et complexit.
De ce fait, an de combler les faiblesses dune technique par une autre, plusieurs
travaux de recherche ont propos de combiner ou dhybrider des techniques de recommandation qui sont potentiellement complmentaires.
Le systme de recommandation hybride le plus courant consiste combiner les techniques bases sur le contenu avec le FC bas sur la mmoire [Balabanovi et Shoham,
1997], [Pazzani, 1999], [Claypool et al., 1999], [Schein et al., 2002]. Il existe direntes
possibilits de combinaison, [Adomavicius et Tuzhilin, 2005] les ont classi en quatre
catgories :
Implmenter sparment le FC bas sur la mmoire et les mthodes bases sur le
contenu et combiner les prdictions par la suite en se basant sur une combinaison
linaire des notes prdites.
Incorporer certaines caractristiques issues du contenu dans le cadre du FC bas
sur la mmoire. De ce fait, au lieu de calculer les similarits sur la base des items
co-nots comme en FC, les similarits entre utilisateurs sont values en se basant
sur la corrlation du contenu des items consults [Balabanovi et Shoham, 1997].
44
1.3.
Catgorie
Tab. 1.4 Synthse comparative des techniques de recommandation

Exemples
dalgo- Avantages
Inconvnients
rithmes utiliss
Technique
base
Analyse de simi- Amlioration de la Manque de diversit
sur le contenu
larit de contenu
qualit des recommandes recommandations
(TF/IDF)
dations
Ncessit dindexation
Clustering
Rduction du prode contenus (extrac Arbres de dcision
blme de manque de
tion dattributs reprdonnes
sentatifs)
Problme dindexation
de documents multimdia
FC bas sur la mmoire
FC exploitant lap- Implmentation simple Dpendance aux donproche kNN (base Intgration facile de
nes de notes
sur lutilisateur ou
nouvelles donnes
Dtrioration de la
sur litem)
Prcision des recomqualit de recomman Utilisation des memandations
dations cause du
sures Pearson ou comanque de donnes
sinus
Problme de passage
lchelle
FC bas sur un mo Clustering

Amlioration de la
dle
Approches probabiqualit des recommanlistes (rseaux baydations
siens)
Rduction du pro Mthodes de rducblme de manque de
tion de dimensiondonnes
nalit (SVD, PCA) Prdiction des futurs
WUM (rgles dascomportements de nasociation,
motifs
vigation
squentiels, modles
de Markov)
Construction coteuse
de modles
Risque de perte dinformation pertinente
d la rduction de
dimensionnalit
Problme de calcul
des rgles ou de motifs
quand le systme
manque de donnes
Pas de considration
du prol utilisateur
(pour les modles du
WUM)
45

Cette stratgie de combinaison permet de pallier certains problmes de manque de
donnes, ds par exemple un faible nombre ditems co-nots entre utilisateurs.
Incorporer certaines caractristiques issues du FC bas sur la mmoire dans le cadre
dune approche base sur le contenu. Il sagit de crer par exemple une vue collaborative des prols utilisateurs qui sont reprsents par des vecteurs de termes extraits
du contenu des items [Soboro et Nicholas, 1999].
Construire un modle gnral uniant les caractristiques issues la fois du contenu
ainsi que du FC bas sur la mmoire. [Popescul et al., 2001] proposent en eet une
mthode probabiliste an dunier ces caractristiques en se basant sur lanalyse
smantique latente.
[Burke, 2002] analyse galement les direntes stratgies de combinaison de techniques de recommandation dune manire gnrale. Il prsente ainsi direntes mthodes
dhybridation, dont notamment :
La mthode pondre : les notes calcules par les direntes techniques de recommandation sont combines et pondrs an de gnrer une seule recommandation.
Lintrt de cette mthode est que la combinaison est simple raliser et permet
dajuster lhybridation en fonction des performances.
La mthode switching : le systme change chaque fois de technique de recommandation selon les performances atteintes dans le but de ne conserver que les
meilleures prdictions. Propos par [Billsus et al., 2000], le systme DailyLearner
utilise cette mthode dans le cadre dune hybridation entre contenu et FC bas sur
la mmoire. Ce systme applique dabord la mthode base sur le contenu. Lorsque
cette dernire gnre des recommandations de faible qualit, le systme fait appel
la technique du FC.
La mthode switching introduit une complexit supplmentaire au processus de
recommandation. En eet, le critre permettant le choix dune technique doit tre
dtermin, ce qui requiert un autre niveau de paramtrage sur le systme.
La mthode mixte : les recommandations issues de direntes techniques sont toutes
prsentes simultanment aux utilisateurs. Le problme qui peut ressortir quant
lutilisation de cette mthode est la dicult de calculer les scores pour ordonner
une liste de recommandation, lorsque toutes les techniques recommandent les mmes
items mais avec des notes direntes.
Les dirents travaux qui sintressent lhybridation de techniques de recommandation ont dmontr empiriquement que cette hybridation permet damliorer la prcision
des recommandations compare par exemple au FC bas sur la mmoire ou la technique
base sur le contenu [Balabanovi et Shoham, 1997] [Pazzani, 1999] [Melville et al., 2002].
Les systmes hybrides permettent en outre de remdier certains problmes tels que le
manque de donnes.
46
1.4. Verrous scientifiques

Toutefois, lhybridation rajoute encore plus de complexit au processus de recommandation [Su et Khoshgoftaar, 2009]. En eet, elle requiert direntes sources de donnes et
met en application plusieurs techniques la fois. Elle ncessite ainsi des paramtrages
supplmentaires lis la combinaison de direntes mthodes. Par consquent, les calculs
requis pour cette hybridation deviennent coteux.
Aprs avoir prsent les principales techniques utilises par les systmes de recommandation, dans la section suivante il est question de discuter les verrous scientiques
auxquels nous nous intressons dans cette thse.
1.4
Verrous scientifiques
Malgr le succs des systmes de recommandation, certains points demeurent encore

problmatiques, notamment : le manque de donnes, le dmarrage froid, la slection
de voisins ables, la robustesse et la prcision des recommandations. Cette section vise
expliciter ces points problmatiques en soulignant les propositions qui ont t eectues
dans les travaux de recherche avec leurs avantages et leurs inconvnients.
1.4.1
Manque de donnes
Dans le cadre dune approche de recommandation fonde sur le FC (bas sur la mmoire), lidentication des apprciations des utilisateurs est lun des piliers de base du
processus de recommandation. Elle permet en eet de modliser les utilisateurs dans le
but de prdire les futurs gots dun utilisateur actif en se basant sur les apprciations
connues dun groupe dutilisateurs.
Ces apprciations sont soit renseignes explicitement par les utilisateurs eux-mmes
ou bien induites par le systme sur la base de lanalyse des interactions de ces utilisateurs
avec le systme.
Or, dans les deux cas, souvent les donnes relatives aux apprciations des utilisateurs
manquent et savrent insusantes pour le bon fonctionnement du systme de recommandation [Sarwar et al., 2000b]. En eet, la quantit de donnes ou de notes disponible
demeure toujours insusante pour pouvoir prdire correctement les notes manquantes.
Par consquent, en raison de ce manque de donnes, la modlisation des utilisateurs devient complexe. Les modles utilisateurs deviennent ainsi peu ables, parce quils ont t
construits en se basant sur un volume limit de donnes.
En outre, dans le cadre du FC bas sur la mmoire, quand la matrice Utilisateur x Item
est trs creuse11 , le systme est incapable didentier un nombre signicatif de voisins en
11
Par exemple, sur la base de Movielens, environ 94% de la matrice de notes est vide
47

sappuyant sur les items co-nots, ce qui se rprcute sur la qualit des recommandations
proposes lutilisateur actif et sur la performance de la totalit du systme.
Pour les approches de recommandation bases sur le WUM, elles ont lavantage de ne
pas requrir de notes puisquelles exploitent les donnes dusage. Toutefois, ces approches
font face galement au problme de manque de donnes. En eet, une masse importante
de donnes (traces dusage) est ncessaire an de pouvoir dcouvrir des motifs ables et
prdire ecacement les futurs comportements de navigation.
Plusieurs travaux de recherche ont tudi le problme de manque de donnes dans le
cadre du FC, en examinant lintrt dexploiter certaines techniques telles que les mthodes bases sur le contenu et les mthodes bases sur un modle (le clustering, SVD,
etc.) an de remdier ce problme.
Comme nous lavions dcrit prcdemment (cf. sections 1.3.1 et 1.3.5), devant lindisponibilit des donnes de notes, le contenu peut tre exploit en vue dvaluer les
similarits entre items et eectuer les recommandations. Dans ce contexte, la technique
base sur le contenu peut tre hybride avec le FC bas sur la mmoire [Balabanovi et
Shoham, 1997] [Pazzani, 1999] [Melville et al., 2002] et/ou avec une technique base sur
un modle telle que naive Bayes [Xiaoyuan et al., 2007].
Dans le cadre des mthodes bases sur un modle et pour remdier au manque de
donnes, le clustering (cf. section 1.3.3) a t largement utilis. Parmi ces travaux, le
clustering a t appliqu soit aux utilisateurs ou bien aux items ou bien aux deux, an
de gnrer des clusters dutilisateurs ou ditems similaires dans le but de prdire les notes
manquantes. Dirents algorithmes de clustering ont t utiliss dans cette optique, notamment : k-means [Ungar et Foster, 1998] [Xue et al., 2005], Gibbs Sampling [Breese
et al., 1998], ROCK [Conner et Herlocker, 1999], etc.
En outre, les techniques de rduction de dimensionnalit ont t intgres galement
au processus de FC pour faire face au problme de manque de donnes [Sarwar et al.,
2000b] [Zhang et al., 2005] [Gong et al., 2009]. La rduction de dimensionnalit vise
reprsenter les donnes dans un espace ayant une dimension plus rduite que celle du
dpart.
SVD constitue une technique de rduction de dimensionnalit, qui consiste en la factorisation dune matrice Utilisateur x Item [Sarwar et al., 2000b] [Goldberg et al., 2001] [Zhang
et al., 2005] [Gong et al., 2009].
Outre son apport face au manque de donnes, lutilisation de la technique SVD par les sysmes de recommandation permet dune part de produire une reprsentation de plus faible
dimension de lespace original Utilisateur x Item et de calculer les similarits utilisateurutilisateur au niveau de cet espace rduit. Dautre part, elle met en vidence les relations
latentes entre utilisateurs et items permettant le calcul des notes manquantes [Sarwar
et al., 2000b].
Toutefois, la complexit de SVD en temps et en mmoire est trs importante, ce qui rend
lapprentissage coteux et inappropri pour de grandes matrices.
48

Les techniques cites ci-dessus parviennent traiter le problme de manque de donnes, toutefois elles prsentent quelques limites.
La technique base sur le contenu permet de calculer les recommandations concernant
des items peu nots dans le systme. Cependant, cette technique engendre un manque de
diversit du contenu des recommandations.
En ce qui concerne les techniques de clustering et de SVD, elles permettent notamment
de condenser lespace de reprsentation de donnes en supprimant les utilisateurs ou les
items non reprsentatifs. Cependant, le risque li cette suppression est la perte dinformation potentielle (concernant par exemple des voisins ables), susceptible dentraner
une dgradation de la performance du systme de recommandation.
1.4.2
Dmarrage froid
Le problme de dmarrage froid se traduit par la dicult de gnrer des recommandations concernant de nouveaux items ou de nouveaux utilisateurs qui viennent dtre
introduits au systme de recommandation. Dni comme le problme de systemic bootstrapping par [Rashid et al., 2008], le dmarrage froid peut concerner tous les types
donnes (concernant les utilisateurs et les items). Ce problme se produit lorsquil sagit
par exemple dun nouveau service cr et pour lequel aucune donne nest encore disponible [Schein et al., 2002]. Ainsi, le nouveau systme de recommandation en question ne
peut recommander aucun item, aucun utilisateur.
Nouveaux utilisateurs
Proposer des recommandations un nouvel utilisateur, rcemment introduit au systme, constitue un enjeu pour les systmes de recommandations. Dans le cadre du FC,
tant que le systme na aucune connaissance sur les apprciations de ce nouvel utilisateur,
sa modlisation reste complexe et le systme de recommandation ne sera pas capable de
lui proposer des recommandations personnalises.
Dans ce contexte, llicitation ( travers la sollicitation de notes explicites, de critiques ou
dinformations dmographiques) peut se prsenter comme une solution. Or, cette sollicitation directe peut entraner labandon de lutilisateur tel que dcrit dans la section 1.2.
Un autre moyen daborder le problme de nouveaut de lutilisateur, est de lui proposer
des recommandations arbitraires ds sa premire utilisation du systme. Cependant, cette
stratgie risque doccasionner une insatisfaction chez lutilisateur, au vu de la faible qualit des recommandations.
[Rashid et al., 2008] prsentent dautres stratgies pour faire face au problme de nouveaut de lutilisateur. Ces stratgies exploitent la popularit des items et lentropie consistant valuer la dispersion des avis des utilisateurs sur un item.
Par ailleurs, les prols dmographiques des utilisateurs (cf. section 1.2) reprsentent aussi
un moyen de remdier au manque de donnes. En eet, linformation dmographique peut
tre exploite en vue de construire les modles utilisateurs. Ainsi, deux utilisateurs appartenant au mme segment dmographique, sont considrs comme similaires [Pazzani,
49

1999] [Vozalis et Margaritis, 2006]. En sappuyant sur le principe du FC, ces similarits
permettent didentier les voisins dont les apprciations sont considres pour le calcul
des recommandations. Or, mme si des utilisateurs appartiennent un mme segment
dmographique, ils ne partagent pas ncessairement les mmes gots.
Nouveaux items
Recommander de nouveaux items constitue galement un enjeu de taille pour les
systmes de recommandation. Ce problme est connu sous le nom de latence. En eet,
quand un nouvel item est intgr au systme, les prfrences des utilisateurs par rapport
cet item ne sont pas encore disponibles. Par consquent, le nouvel item ne sera pas
impliqu dans le cadre des recommandations. Le problme de latence a, en particulier, plus
dun impact sur les systmes qui incorporent de nouveaux items rgulirement, comme les
systmes recommandant les articles dactualit [Sollenborn et Funk, 2002] [Burke, 2002].
Pour pallier ce problme de latence, une stratgie consiste slectionner alatoirement
les nouveaux items et proposer lutilisateur actif dy attribuer des apprciations. Cependant, tel que discut prcdemment, cette stratgie pourrait occasionner une lassitude
chez lutilisateur qui risque dabandonner le systme.
Une solution alternative consiste exploiter la technique base sur le contenu [Lang,
1995] [Krulwich et Burkey, 1996] [Billsus et Pazzani, 2000]. Cette technique est utilise
tant que les notes sur un item ne sont pas susamment disponibles. Quand un nouvel
item est introduit, la technique base sur le contenu value la similarit de son contenu
avec les items disponibles an de limpliquer au processus de recommandation. Nanmoins, lutilisation de la technique base sur le contenu engendre un manque de diversit
des recommandations, ce qui entrave la performance du systme de recommandation (cf.
section 1.3.1).
Une nouvelle technique de ltrage (base sur le contenu) exploitant les ontologies, a t
suggre galement comme une solution au problme de latence. Cette technique a t
notamment utilise par le systme Entree (qui recommande des restaurants) [Burke, 2002]
et le systme Quickstep-Foxtrot (qui recommande des papiers scientiques) [Middleton
et al., 2004]. Les mthodes dapprentissage utilisent les ontologies mises en place dans le
cadre de ces systmes, an de classier et de catgoriser les items et gnrer les modles
utilisateurs. Or, la limite de cette technique est la ncessit de la construction pralable
dune ontologie relative au domaine de connaissance.
Les travaux de recherche prsents dans cette section ont propos direntes approches
dans le but de faire face au problme de dmarrage froid pour de nouveaux utilisateurs
ou de nouveaux items. Ces approches exploitent par exemple llicitation, le FC exploitant
linformation dmographique, la technique base sur le contenu ou sur les ontologies.
Malgr leurs intrts, ces approches prsentent quelques limites lies notamment au manque
de diversit des recommandations ou la dtrioration de la qualit des recommandations
(en raison de lutilisation de linformation dmographique par exemple).
50
1.4.3
Slection de voisins fiables
Dans le cadre du processus de FC bas sur la mmoire (centr sur lutilisateur), lapproche kNN permet de retrouver les k voisins les plus proches dun utilisateur actif dans
le but dutiliser leurs avis pour gnrer des recommandations pertinentes cet utilisateur
actif. Ces k plus proches voisins sont considrs comme tant les voisins les plus informatifs. Ils ont en eet des apprciations similaires vis--vis de lutilisateur actif, au vu de
leurs opinions concernant des items nots ou consults en commun antrieurement.
Lidentication de ces voisins dans une approche kNN peut notamment reposer sur
des stratgies telles que la dtermination dun seuil de similarit ou la dtermination dun
seuil ditems co-nots (cf. section 1.3.2). Or, la dtermination de ce type de seuil reste
problmatique. En eet, avec lintgration de nouveaux utilisateurs et ditems, pour tre
plus able, le systme de recommandation rinitialise le calcul des voisinages. Par consquent, lensemble des k voisins les plus proches varie et son choix nest jamais dnitif. De
ce fait, ces seuils doivent tre adapts au fur et mesure de la rinitialisation du systme,
tout en vitant de xer des valeurs extrmes pour que le pouvoir prdictif du systme ne
soit pas faible et pour que le bruit ne soit pas engendr cause de voisins peu pertinents.
La limite dune telle approche est quelle demeure dpendante des items nots en
commun an dvaluer le degr de similarit entre utilisateurs et de dterminer les plus
proches voisins. En labsence de ces items co-nots, aucune modlisation dutilisateurs
nest possible et aucun voisinage able ne peut tre slectionn.
Dans cette optique, dautres mthodes permettant didentier des similarits entre utilisateurs ont t proposes. Il sagit dexploiter par exemple les associations transitives
an dtablir des liens entre utilisateurs ou entre utilisateurs et items. [Papagelis et al.,
2005] et [Golbeck, 2009] exploitent le principe dinfrence an dexplorer les associations
entre utilisateurs dans lobjectif didentier des voisins potentiellement ables, susceptibles damliorer la qualit des recommandations. Nanmoins, considrant que les systmes de recommandation sont dynamiques et que la phase de calcul du voisinage requiert
un temps de calcul important, lapplication de ce type dassociation devrait se baser sur
des stratgies permettant de limiter par exemple le nombre dutilisateurs concerns, an
de permettre le passage lchelle.
Par ailleurs, la notion de conance a galement t tudie comme un moyen de dtermination de voisins ables dans le cadre des systmes de recommandation. [Massa et
Bhattacharjee, 2004] [ODonovan et Smyth, 2005] [Papagelis et al., 2005] [Golbeck, 2009]
proposent en eet de considrer la conance en prenant notamment en compte la capacit
antcdente dun voisin fournir ou contribuer des recommandations pertinentes. Par
exemple, en utilisant des mesures de conance, le systme propos par [ODonovan et
Smyth, 2005] peut spcier un utilisateur actif ua que le systme vous recommande la
voiture Toyota Verso, cette recommandation vous a t gnre par les utilisateurs uc , ud
et ue , ces utilisateurs ont dj recommand la Toyota Verso n fois dans le pass, et ces
recommandations ont t ables r fois.
51

Toutefois, une telle dmarche de recommandation va lencontre du respect de la vie
prive. En eet, pour appuyer la notion de conance, ce systme de recommandation se
permet dannoncer quel utilisateur a recommand tel ou tel item et combien de fois son
avis a t utilis dans le pass dans le cadre des recommandations.
De plus, les systmes de recommandation bass sur la conance requirent un retour
dexprience des utilisateurs vis--vis des items recommands. En eet, les utilisateurs
doivent exprimer directement leurs retours suite la rception des recommandations et
ce en valuant chacun des items recommands. Ce processus sinscrit dans llicitation
et pourrait provoquer un agacement chez lutilisateur (cf. section 1.2). Autrement, des
heuristiques pour valuer lintrt vis--vis dune recommandation, devraient tre dnies
(par exemple la dure de consultation, la lecture dune vido, la commande dun produit,
etc.).
La slection des plus proches voisins est primordiale dans la mesure o la qualit des
prdictions peut tre inuence par la abilit des voisins. Lexploitation de lapproche
kNN ou du principe de conance permettent de slectionner des voisins pertinents, mais
requirent respectivement la disponibilit des items co-nots ou le retour de lutilisateur.
Lutilisation des infrences pour identier des voisins potentiellement ables est une solution prometteuse, mais reste peu approprie pour un grand volume de donnes.
1.4.4
Robustesse
La robustesse constitue un challenge pour toutes les applications en ligne. Devant la

dicult dvaluer la conance des utilisateurs utilisant les systmes de recommandation,
ces derniers demeurent vulnrables aux manipulations et aux donnes bruites. En eet,
il ny pas de garantie que les donnes intgres aux systmes de recommandation retent
les relles apprciations des utilisateurs.
[OMahony et al., 2006] distinguent deux catgories de donnes bruites :
Le bruit naturel : ce bruit relve du fait que lexpression des apprciations est souvent
perue par les utilisateurs comme un processus fastidieux, ce qui peut inuencer la
qualit des opinions attribues par ces utilisateurs.
Le bruit malicieux : ce bruit provient de linsertion dinformation biaise de la part
de certains utilisateurs malveillants. Une de leurs motivations par exemple est de
promouvoir leur produit ou leur article en forant le systme de recommandation
gnrer des notes leves pour ceux-ci et en faire un push, au dtriment dautres
items (concurrents) prsents dans le systme. De plus, le bruit malicieux peut aussi
bien consister endommager la totalit du systme.
[Lam et Riedl, 2004] valuent limpact des attaques et des donnes bruites sur lecacit du systme. Cette valuation est eectue en termes de vulnrabilit dalgorithmes
52

utiliss et de capacit prdictive du systme de recommandation. En outre, [Lam et Riedl,
2004] proposent des mesures de dtection dattaques et tudient les proprits des items
attaqus.
Pour remdier au problme des donnes bruites et garantir la stabilit du systme, [OMahony et al., 2006] dnissent des mthodes permettant de dtecter le bruit en exploitant
une thorie de dtection du signal et montrent la abilit de ces mthodes pour la garantie
de la robustesse du systme contre direntes stratgies dattaques. [Mehta et al., 2007]
tudient lintrt de certaines mthodes statistiques, telles que les techniques de factorisation de matrice, pour la stabilit du systme de recommandation, malgr la prsence
de bruit. Par ailleurs, [ODonovan et Smyth, 2005] montrent limportance des modles de
conance pour amliorer la robustesse des systmes de recommandation. Lutilisation des
modles de conance ont ainsi un double avantage. Ils contribuent dune part la slection de voisins ables, ils permettent dautre part de garantir la stabilit des systmes de
recommandation.
1.4.5
Prcision des recommandations
Lvaluation des systmes de recommandation constitue une tape cl dans un processus de recommandation dans la mesure o elle rete la performance de lintgralit du
systme. Pour tout systme de recommandation, prdire ecacement les futures apprciations contribue la satisfaction des besoins des utilisateurs et leur dlisation.
Lvaluation des systmes de recommandation peut prendre en compte dirents critres, savoir : la prcision, la couverture, la satisfaction de lutilisateur, la robustesse, le
temps de calcul, la nouveaut et la diversit des recommandations, etc. [Anand et Mobasher, 2005].
La plupart des travaux de recherche portant sur les systmes de recommandation, valuent
la performance de leurs algorithmes en sappuyant notamment sur le critre de prcision
des prdictions. La prcision permet en eet dvaluer la capacit du systme recommander des items que lutilisateur apprcie rellement.
A travers les algorithmes proposs par les travaux cits dans ce chapitre, lamlioration
de la prcision tait souvent un enjeu majeur. La performance de ces algorithmes tait
mesure en eet selon le degr de prcision des recommandations compare des techniques de recommandation standards.
Il est signaler que la qualit et la prcision des recommandations est troitement lie
la disponibilit des donnes sur les apprciations. En eet, quand ces donnes sont rares,
le systme ne peut gnrer des prdictions prcises. En outre, cette qualit de recommandation dpend galement de la abilit de lalgorithme utilis pour lapprentissage des
modles utilisateurs.
Les mesures utilises pour valuer la prcision des systmes de recommandation vont
53

tre dtailles dans le chapitre suivant.
Conclusion
Dans ce chapitre, nous avons dcrit la typologie des donnes susceptibles dtre exploites dans le cadre des systmes de recommandation. De plus, nous avons prsent un
tat de lart relatif aux principales techniques de recommandation, savoir : la technique
base sur le contenu, le FC bas sur la mmoire ou sur un modle, les techniques du WUM
ainsi que les techniques hybrides. A travers les travaux de recherche cits notamment dans
ce chapitre, il savre que chaque technique a des apports mais galement des limites. Le
choix dune technique ou dune autre est lie la problmatique traite, au contexte applicatif ainsi qu la disponibilit des donnes lentre du systme.
Aprs avoir prsent les principales questions de recherche auxquelles nous nous intressons, nous allons dcrire dans le chapitre suivant lapproche gnrique que nous proposons,
notre contexte applicatif ainsi que la mthodologie exprimentale utilise en vue dvaluer
la abilit des modles de recommandation proposs travers cette thse.
54
Chapitre 2
Schma gnrique, contexte applicatif
et mthodologie exprimentale
2.1
Schma gnrique de la recommandation
Rappelons que notre travail de recherche consiste proposer de nouvelles approches de

recommandation sinscrivant dans le cadre dun processus de personnalisation sur le Web.
Lobjectif de ces approches est damliorer laccs des utilisateurs aux items au niveau des
systmes de recherche dinformation, tels que les portails et les Extranets documentaires
dentreprise.
La gure 2.1 dcrit le schma gnrique de la recommandation auquel nous nous
intressons dans le cadre de cette thse. A partir de lanalyse des interactions entre les
utilisateurs et les items, lobjectif de ce schma consiste construire des modles ou des
prols utilisateurs.
Ces interactions peuvent tre extraites de lensemble des actions eectues sur un item
par un utilisateur donn, telles que :
une consultation ditem,
une valuation ditem au travers de lattribution de note ou dapprciation,
une action relative la navigation travers des items (cf. section 1.2, chapitre 1,
partie 1).
La construction des modles utilisateurs repose notamment sur lanalyse des actions
de cet utilisateur quant aux items consults auparavant, an de gnrer les prdictions
des futures opinions de cet utilisateur concernant des items quil na pas encore consults.
Il sagit de connatre les besoins de lutilisateur en exploitant ses actions antrieures dans
le but de prdire ses futurs apprciations.
55
Chapitre 2. Schma gnrique, contexte applicatif et mthodologie exprimentale

Fig. 2.1 Schma gnrique de la recommandation
Une fois les prdictions gnres, une liste ditems jugs pertinents, trie gnralement
par ordre dimportance (i.e. un classement ditems selon un ordre de pertinence estim
par le systme), est propose automatiquement lutilisateur qui choisit daccepter ou
non de consulter les items recommands.
Ainsi, lenjeu de ce schma de recommandation est danticiper les besoins et de garantir
la dlisation des utilisateurs ces systmes grce la satisfaction de leurs attentes.
Dans les sections qui suivent, nous prsenterons dune part le contexte dapplication
lie nos travaux de recherche. Dautre part, la mthodologie dvaluation sera dcrite
en prsentant la fois les corpus de donnes exploits, les mtriques dvaluation utilises
pour lvaluation des approches de recommandation que nous avons proposes ainsi que
le modle de recommandation de ltat de lart qui nous a servi comme banc dessai
(benchmark).
2.2
Contexte applicatif
Cette thse sinscrit dans le cadre du projet PERCAL entre le Crdit Agricole S.A, en
particulier avec le Ple Innovation et lquipe de recherche KIWI12 du LORIA.
Le Crdit Agricole reprsente un des leaders de la banque de proximit en France qui
compte plus que 7000 agences dans son rseau (regroupes en 39 caisses rgionales) et
plus de 20 millions de clients en intgrant Le Crdit Lyonnais (LCL) et ses liales internationales. A lorigine, le Crdit Agricole proposait des services nanciers dans le domaine
de lagriculture, ces services se sont tendus par la suite divers acteurs conomiques
incluant les particuliers, les professionnels et les entreprises.
12
56
http ://kiwi.loria.fr
2.2. Contexte applicatif

Le Crdit Agricole S.A constitue lorgane central du Groupe Crdit Agricole. Il est
charg notamment dassurer le dveloppement et la coordination des stratgies mtiers
en proposant les produits et les services commercialiser et en fdrant les moyens et
les comptences incluant notamment le dveloppement dune plate-forme informatique
commune. De plus, le Crdit Agricole S.A. a un rle de gouvernance sur les technologies
et linnovation.
Le Ple Innovation relve de la Direction IIG (Informatique Industrielle du Groupe) du
Crdit Agricole S.A. Ce Ple est charg de ltude, de lexprimentation et de la dnition
des modalits de mise en uvre des technologies au sein du Groupe Crdit Agricole. Ses
missions consistent :
assurer la veille technologique en valuant de nouveaux produits et en proposant
des solutions techniques concernant les projets du Groupe Crdit Agricole,
assister la mise en place de nouvelles technologies,
assurer le respect des standards et des normes concernant les nouvelles technologies
introduites au Groupe Crdit Agricole.
Le projet PERCAL sinscrit dans les perspectives du Ple Innovation du Crdit Agricole S.A. Lobjectif de ce projet consiste en eet, proposer de nouvelles techniques
de recommandation permettant de personnaliser laccs linformation, en prenant en
compte le contexte dun portail Extranet dentreprise.
Ce portail, dont lextrait est prsent dans la gure 2.2, met notamment la disposition des utilisateurs du Groupe Crdit Agricole des informations en matire de veille
technologique (nouveaux produits, nouvelles normes, nouvelles solutions technologiques,
etc.) [Bertrand-Pierron, 2006]. En outre, il oriente ces utilisateurs vers les dirents sites
du Groupe. Ce portail est potentiellement accessible par ces trois catgories dutilisateurs :
1100 utilisateurs qui sauthentient actuellement sur le portail,
6000 10000 informaticiens du Groupe Crdit Agricole pouvant accder galement
au portail,
jusqu 150000 utilisateurs (reprsentant lensemble des employs du Groupe Crdit
Agricole) pouvant consulter le portail.
Le portail Extranet est gr par loutil JCMS 13 dont larchitecture fonctionnelle et
technique sont prsentes respectivement dans les gures 2.3 et 2.4. Bas sur Java et
XML, cet outil intgre des fonctions de gestion de contenu, de gestion documentaire et de
workow, de gestion despaces collaboratifs et de rseau social. Suivant les rles attribus
aux utilisateurs, JCMS permet :
la cration, ldition et la suppression de contenus,
13
http ://www.jalios.com
57

Fig. 2.2 Extrait du portail Extranet du Crdit Agricole (S.A)
la gestion de versions de documents,

lindexation de contenus,
la gestion des rles, des droits daccs et des circuits de validation,
la gestion de la prsentation graphique,
la navigation et la recherche,
le dveloppement dchanges et de conversations travers des outils de rseaux
sociaux.
Les items accessibles sur le portail Extranet du Crdit Agricole sont trs varis, ils
peuvent inclure : des articles dactualit, des rapports techniques, des FAQ, des sondages,
des blogs, des livres, etc. Leur nombre est en constante croissance. De ce fait, partir
des questions de recherche souleves (cf. section 1.4 du chapitre prcdent) et en prenant
en compte ce portail Extranet, lobjectif de notre travail de recherche est de proposer de
nouvelles approches de recommandation permettant doptimiser lusage des ressources de
lExtranet par les utilisateurs du Groupe Crdit Agricole. En eet, lenjeu est de pouvoir
mettre en place des outils de personnalisation et de recommandation collaboratifs, sappuyant sur les usages, capables de mettre la disposition des utilisateurs des informations
pertinentes adaptes leurs prols.
Dans le but de valider les approches de recommandation proposes travers cette
thse, nous avons exploit des corpus de donnes dusage rel et de notes explicites. Ces
corpus vont tre dcrits dans la section suivante.
58
2.3. Donnes exploites

Fig. 2.3 Architecture fonctionnelle de JCMS
Fig. 2.4 Architecture technique de JCMS
2.3
2.3.1
Donnes exploites
Corpus dusage
Les traces dusage permettent de dcrire lensemble des activits de navigation eectues par un utilisateur sur un site Web donn.
Le WCA14 avait publi un projet portant sur les dnitions des termes relatifs aux informations contenues dans les traces dusage. Ils concernent notamment les notions dutili14
World Wide Web Comittee web usage characterization Activity : http ://www.w3.org/wca
59

Tab. 2.1 Principaux types de traces dusage
Action
Description
Commander
Acheter un item
Evaluer
Noter un item
Utilisation rpte
Consulter un item dune manire rptitive
Enregistrer/Imprimer
Enregistrer ou imprimer un item
Supprimer
Supprimer un item
Rfrer
Faire rfrence un item
Marquer
Ajouter aux favoris
Examiner/lire
Consulter la totalit de litem
Considrer (Temps)
Consulter le rsum
Rechercher
Rechercher un item
sateur, de page (item), de clickstream et de session.
Un utilisateur est dni comme tant un individu accdant un chier partir dun ou
de plusieurs serveurs Web travers son navigateur. Une page est reprsente par tout chier contribuant lachage dune vue sur le navigateur en un seul moment. Cette page
comprend des frames, des graphiques, des scripts, etc. Un clickstream est un ensemble
de sries squentielles de requtes de pages. Une session utilisateur est reprsente par les
clickstreams eectus sur des pages durant une session, i.e. le moment o lutilisateur a
commenc la visite des pages Web et le moment o il a quitt le site Web en question.
Par ailleurs, [Nichols, 1997] a prsent un classement des traces dusage dont les principaux types sont dcrits dans le tableau 2.1. Ces traces concernent en particulier les sites
de-commerce. Nous soulignons ce niveau limportance dutiliser des actions telles que
la commande ou la note dun item an destimer lintrt port sur cet item.
Dune manire gnrale, partir de la navigation, chaque activit ou demande dafchage de page Web ou ditem de la part dun utilisateur, gnre une requte (http).
Les informations relatives aux requtes sont stockes automatiquement dans le chier log
du serveur Web. Ce chier log constitue ainsi une importante source dinformation dans
la mesure o il permet de reprsenter le comportement navigationnel de lutilisateur et
dinfrer ses apprciations dune manire implicite (contrairement la faon explicite
o lutilisateur intervient directement pour fournir des informations sur ses apprciations
vis--vis ditems).
Les chiers logs peuvent tre stocks sous dirents formats tels que Common Log
Format (CLF) ou Extended CLF (ECLF) 15 . Le format le plus courant est le CLF
[Srivastava et al., 2000]. Selon ce format, six informations sont stockes, savoir :
le nom ou ladresse IP de la machine,
le nom et le login HTTP de lutilisateur,
15
60
http ://www.w3.org/TR/WD-logfile.html

la date de la requte (date, heure, cart GMT),
la mthode utilise dans la requte (GET, POST, etc.) et le nom ou lidentiant de
la ressource Web demande,
le statut de la requte,
la taille du chier envoy.
Le format ECLF reprsente une version plus complte du CLF. Il contient en plus le
nom et la version du navigateur Web, le systme dexploitation et ladresse de la page o
se positionnait lutilisateur au moment de lenvoi de la requte.
Le nom ou lidentiant unique de lutilisateur nest pas souvent une information disponible partir dun chier log, surtout lorsquil concerne un site Web accessible aux
utilisateurs sans authentication. En eet, les protocoles de communication ne peuvent
pas identier un ordinateur via ladresse IP. En outre, les serveurs proxy peuvent regrouper plusieurs utilisateurs ou ordinateurs sous la mme adresse IP. De plus, souvent ces
adresses IP sont dynamiques et sont rgulirement renouvelles.
An de remdier ce problme didentication de lutilisateur, les cookies peuvent
tre utiliss. Nanmoins, le recours aux cookies demeure problmatique16 dans la mesure
o il pourrait tre lencontre du respect de la vie prive et des donnes personnelles
[Cooley et al., 1999]. En outre, les cookies ne sont pas ables vu que plusieurs utilisateurs
peuvent utiliser un mme ordinateur. Il devient ainsi complexe didentier un utilisateur
unique.
En ce qui concerne notre contexte applicatif li au portail Extranet du Crdit Agricole,
le problme didentication de lutilisateur travers les chiers logs, nest pas soulev. En
eet, les utilisateurs ne peuvent accder ce portail Extranet sans tre authenti (section
2.2).
Ces logs sont stockes sous forme de chiers XML tel que prsent dans la gure 2.5. Ces
chiers sont gnrs partir de log4j qui est une API de journalisation trs populaire
dans le monde Java.
Les principales balises contenues dans ces chiers log sous format XML sont dcrites
dans le tableau 2.2. De ce fait, nous pouvons extraire partir de ces chiers des informations concernant notamment : lutilisateur (balise mid), litem (balise id) et la session
(balise sessionId).
Estimation des notes

Comme nous lavions indiqu prcdemment, nous avons choisi dexploiter lapproche
par analyse des usages dans le cadre de nos modles de recommandation. Les modles
16
la CNIL(http ://www.cnil.fr) met en particulier en garde contre lutilisation des cookies, pour le
profilage systmatique des utilisateurs, leur insu
61

Fig. 2.5 Extrait du chier log en format XML
Tab. 2.2 Description des principales balises du chier log du Crdit Agricole
Balise
Description
ip
LIP de lutilisateur
port
Le port de lutilisateur
startDate / endDate Le temps de dbut et de n de consultation de litem
method
GET ou POST du protocole HTTP
referer
LURL source du clic
mid
Identiant de lutilisateur authenti sur JCMS
id
Identiant de litem
type
Type de litem consult (Faq, News, Brves...)
pub
Identiant de la publication parente
name
Nom de la page
sessionId
Identiant de la session
port
Numro du port
locale
La langue utilise
userAgent
Le navigateur de lutilisateur
proposs travers cette thse, dont la description sera dtaille dans la deuxime et la
troisime partie de ce manuscrit, sont collaboratifs, centrs sur lutilisateur et sinscrivent
dans le cadre des approches proactives de recommandation (c.f. section 1.2).
Dans la phase de prdiction, nous avons exploit la fonction de prdiction du FC bas
sur la mmoire, an de gnrer des valeurs numriques de prdiction, en se basant sur
les notes implicites des voisins identis a priori. Le choix de calculer ces valeurs relve
notamment du besoin de comparer la performance de nos approches au FC bas sur la
mmoire, utilis largement par la communaut scientique. De ce fait, pour calculer ces
notes implicites, nous avons exploit les traces dusage.
Lintrt dutiliser les traces dusage pour estimer les apprciations ou les notes implicites a t dj examin dans quelques travaux de recherche.
[Chan, 1999] exploite en eet les traces dusage an destimer lintrt que porte un utilisateur sur un item ou une page Web donne. Chan a propos cet eet la formule
(2.1) Page Interest Estimator pour estimer une apprciation en prenant en compte les
62

indicateurs suivants :
la frquence ou le nombre de visites dune page Web (Frq(Page)),

lajout aux favoris dune page Web (IsBookmark(Page)),
la dure de consultation dune page Web (Dur(Page)),
la rcence de visite dune page Web (Rec(Page)),
les liens visits sur une page Web (LinkPerc(Page)).
Interest(P age) =
(2.1)
F rq(P age) (1 + IsBookmark(P age) + Dur(P age) + Rec(P age) + LinkP erc(P age)
Dans le cadre de notre travail de recherche, nous nous sommes inspirs de ltude
de [Chan, 1999] pour estimer les apprciations partir des traces contenues dans les chiers logs du Crdit Agricole, concernant les items accessibles sur le portail Extranet.
Il est signaler quau dpart, nous avions opt pour les indicateurs souligns par [Chan,
1999] tels que : lajout aux favoris dun item, la frquence de consultation dun item et
la dure de consultation dun item. Nous avions choisi en outre dexploiter dautres indicateurs tels que : lenvoi dun item un ami et limpression dun item. Toutefois, les
informations se rapportant certains indicateurs (comme lajout aux favoris, lenvoi ou
limpression dun item) ne pouvaient pas tre disponibles vu que les utilisateurs nexploitent pas ces fonctionnalits au niveau du portail Extranet. De ce fait, nous avons
retenu les indicateurs de frquence de visite et de dure de visite dun item.
Notons que nous navons pas pris en compte le critre de rcence parce que nous considrons que le fait de consulter un item plus rcemment quun autre peut tre li notamment
la date de premire publication de cet item. En eet, comme la rcence de visite dun
item (selon [Chan, 1999]) est value notamment en fonction de la date actuelle, les items
visits dont la publication est rcente auront un plus grand poids au dtriment des items
publis et visits prcdemment. Or, ces derniers peuvent tre plus pertinents pour lutilisateur.
Le corpus de donnes que nous avons exploit et qui inclut ces chiers logs, comprend
748 utilisateurs et 3856 items. Ces donnes ont t collectes durant les annes 2007 et
2008. Depuis lanne 2008, le corpus a augment en incluant de nouvelles donnes (chiers
logs de navigation), mais pour des raisons de stabilisation dchantillon, nous avons gard
le corpus initial.
Comme dans un processus de WUM, la premire tape consiste prtraiter les traces
dusage [Cooley et al., 1999] [Han et Kamber, 2001] et parser les chiers logs en XML,
an deectuer un nettoyage de donnes (en supprimant les entres dans les logs qui ne
sont pas ncessaires lanalyse dusage) et de reprer :
lidentiant de lutilisateur,
63
lidentiant
lidentiant
le temps de
le temps de
de litem visit,
de la session,
dbut et de n de session,
visite dun item.
Dans une deuxime tape, pour lestimation des notes implicites, nous avons pris en
compte les indicateurs prciss ci-dessus.
La frquence correspond au nombre de fois o lutilisateur a consult un item. Elle est
calcule sur la base de lquation (2.2). En considrant un utilisateur actif ua , la frquence
de visite dun item ik est le ratio entre le nombre de visites de ik (N(ua ,ik ) ) et le nombre
moyen de visites de tous les items I (N(ua ,I) ).
F requency(ua ,ik ) =
N(ua ,ik )
N(ua ,I)
(2.2)
En ce qui concerne la dure, elle est calcule comme le ratio entre la dure totale de
visite de ik (Drt(ua ,ik ) ) et la dure totale de visites de tous les items I (Drt(ua ,I) ), selon
lquation (2.3). La dure de visite dun item a t calcule partir des informations
fournies par les balises startDate et endDate contenues dans les chiers logs. La dure
maximale de visite dun item a t xe par un timeout an dviter une situation
o lutilisateur ne consulte pas rellement litem mme sil a envoy une requte pour
lachage de cet item.
Duration(ua ,ik ) =
Drt(ua ,ik )
Drt(ua ,I)
(2.3)
Une fois les frquences et les dures calcules pour chaque item, nous avons utilis
lquation (2.4) propose par [Castagnos, 2008] an de pouvoir calculer et normaliser les
notes selon lchelle choisie [1 5]. Il sagit de lchelle de note la plus utilise par les
systmes de recommandation exploitant les notes numriques.
Dans lquation (2.4) fT ransf(ua ,ik ) dsigne la fonction de transformation de la note de ua
sur ik . vmin et vmax sont respectivement les notes minimum et maximum correspondant
lchelle de note, i.e. 1 et 5. p(c) reprsente le poids attribu au critre (frquence et dure
dans notre cas), c(ua , ik ) est la valeur du critre et cmax reprsente la valeur maximum du
critre.
fT ransf(ua ,ik ) = vmin + (
p(c) c(ua , ik ) vmax vmin

P
)
cmax
c p(c)
(2.4)
Aprs la normalisation des valeurs, une matrice de notes implicites est gnre, telles
que les lignes reprsentent les utilisateurs et les colonnes reprsentent les items. Les notes
64

implicites obtenues suite lapplication de cette normalisation ont t valides parce
quelles correspondent lchelle de notes retenue [1 5] et leur rpartition sur cette
chelle rete les dirents degrs dapprciation des utilisateurs concernant les items.
Pour les besoins dvaluation, le corpus de donnes exploitant cette matrice a t
rparti en deux corpus : un corpus dapprentissage et un corpus de test qui comprennent
respectivement 80% et 20% de donnes. Cette rpartition a t eectue en prenant en
considration lordre des sessions dans les chiers logs (i.e. pour un utilisateur donn, ses
premires sessions font partie du corpus dapprentissage alors que les sessions les plus
rcentes se retrouvent dans le corpus test).
Pour le corpus dapprentissage, la matrice de note utilise a un niveau de notes manquantes (sparsity) de 96%. Il est calcul comme tant le rapport entre le nombre dentres
vides et le nombre total des entres dans la matrice (taille de la matrice) (cf. quation
2.5).
N iveauSparsity =
2.3.2
N ombreEntreesV ides
T ailleM atrice
(2.5)
Corpus de notes explicites
Dans le but dvaluer la qualit des recommandations produites par nos approches,
nous avons eu recours galement au corpus de donnes de notes explicites Movielens
propos par le laboratoire de recherche Grouplens17 .
Le corpus utilis comprend 100.000 notes attribues par 943 utilisateurs sur 1682 lms.
Les valeurs de notes sont des entiers qui correspondent lchelle [1 5]. Dans ce corpus,
chaque utilisateur a au moins not 20 items.
80% de ce corpus constitue les donnes dapprentissage et 20% reprsente les donnes de
test. Chaque ligne du corpus reprsente une note dun utilisateur sur un lm en indiquant
le timestamp de cette action.
Le tableau 2.3 prsente des exemples de lignes de notes provenant du corpus Movielens.
Dans ces lignes les informations sont prsentes sous la forme suivante : utilisateur id |
item id | note | timestamp.
Tab. 2.3 Exemple de notes du corpus Movielens
Identifiant de lutilisateur Identifiant de litem Note attribue
196
242
3
184
302
4
22
177
1
17
Timestamp
881250949
891717742
878887116
http ://www.grouplens.org
65

Le niveau de manque de donnes (sparsity) correspondant la matrice de notes
Movielens est quivalent environ 94%.
Lutilit du corpus Movielens reste indniable. En eet, il intgre dune part des donnes de notes explicites relles des utilisateurs, attribus travers la plate-forme de recommandation Movielens18 (permettant de gnrer des recommandations personnalises
de lms). Dautre part, il est largement exploit par la communaut scientique, do
lintrt de son utilisation pour exprimenter et valider les approches de recommandation
proposes en les comparant aux travaux de recherche existants.
Toutefois, linconvnient de lutilisation de ce corpus est quil ne reprsente pas rellement
un corpus de traces dusage. En eet, les consultations ditems contenues dans ce corpus
ne constituent pas de relles squences de navigation des utilisateurs. Il sagit dune suite
ditems nots successivemennt par les utilisateurs sur la plate-forme Movielens.
2.4
valuation des recommandations
An dvaluer la performance des systmes de recommandation et de valider les approches de recommandation que nous proposons par rapport des approches de ltat de
lart, direntes mtriques dvaluation sont utilises dans la cadre des exprimentations.
Le choix de telle ou telle mtrique dpend notamment de la problmatique de dpart, des
objectifs escompts et de la nature de lexprimentation mener.
[Paris et al., 2009] proposent une mthode dvaluation qui prend en considration les diffrents acteurs dans le cadre dune activit de recherche dinformation dont notamment
lutilisateur, le systme de recherche dinformation et le fournisseur du contenu informationnel.
Dans le contexte des systmes de recommandation, [Herlocker et al., 2004] ont tudi les
direntes stratgies dvaluation du point de vue utilisateur, prdictions, types de corpus utiliss, etc. Dune manire gnrale, les direntes mtriques dvaluation valuent
la prcision, la couverture, la satisfaction de lutilisateur, la robustesse et le passage
lchelle.
Le critre le plus valu dans le cadre des systmes de recommandation est la prcision.
La prcision mesure la performance du systme de recommandation en valuant la qualit
des prdictions compares aux apprciations relles. Les mesures de prcision peuvent tre
soit statistiques, soit des mesures permettant laide la dcision.
18
66
http ://www.movielens.org
2.4. valuation des recommandations
2.4.1
Mesures statistiques de prcision
MAE
Les mesures statistiques de prcision consistent valuer la dirence existant entre
les notes prdites et les notes rellement attribues par les utilisateurs. La mesure de
prcision la plus populaire pour lvaluation des systmes de recommandation est la MAE
(Mean Absolute Error). Selon lquation (2.6), la MAE calcule, pour chaque paire <noteprdiction>, la moyenne derreur absolue entre les notes prdites P red(ua , i) et les notes
relles des utilisateurs v(ua , i). n reprsente le nombre ditems prdits prsents dans le
corpus test.
Plus la valeur de MAE est faible, plus les prdictions sont prcises et le systme de
recommandation est performant.
M AE =
Pn
i=1
|v(ua , i) P red(ua , i)|

n
(2.6)
La MAE a t frquemment utilise pour lvaluation des systmes de recommandation et du FC [Shardanand et Maes, 1995] [Herlocker et al., 1999]. Lavantage de la MAE
est quelle est simple utiliser, facile interprter et quelle est largement utilise par la
communaut scientique, ce qui permet de positionner les approches de recommandation
proposes par rapport aux travaux de recherche existants.
Nanmoins, pour lvaluation de systmes de recommandation proposant des listes ordonnes de recommandation (listes TopN), la mesure MAE peut ne pas tre approprie [McLaughlin et Herlocker, 2004].
Il existe dautres mesures statistiques de prcision valuant les prdictions numriques,
notamment : Root Mean Squared Error, Mean Squared Error qui attribuent un poids
plus important aux prdictions dont lerreur est leve, par rapport aux prdictions prcises (i.e. ces deux mesures pnalisent plus que la MAE les sytmes de recommandation
gnrant des prdictions dont le taux de prcision est faible).
HMAE
Les systmes de recommandations ont pour objectif de calculer les prdictions des
notes manquantes concernant le maximum de paires <utilisateur-item>. Une fois ces
prdictions calcules, les items ne sont pas tous recommands par la suite aux utilisateurs.
En eet, seuls les items ayant les valeurs de prdiction les plus leves sont proposes.
Dans ce cas, lerreur concernant les items ayant de faibles valeurs de prdiction nest pas
utile quant lvaluation de la performance des systmes de recommandation, tandis que
lerreur relative aux items ayant des notes prdites leves est dune grande importance
67

en terme dvaluation.
La HMAE permet en eet dvaluer les faux positifs qui reprsentent les items jugs
pertinents par le systme, alors quils ne le sont pas rellement (en comparaison avec le
corpus test par exemple). Avec la dtection des faux positifs, le systme ne risque pas
dtre pnalis suite une recommandation ditem non pertinent susceptible dengendrer
une insatisfaction chez lutilisateur.
An dvaluer la capacit dun systme de recommandation proposer des items pertinents aux utilisateurs actifs, la HMAE (High MAE) [Baltrunas et Ricci, 2007] peut tre
utilise. Selon lquation (2.7), la HMAE est similaire la MAE, mais elle a la particularit
de considrer uniquement les prdictions leves. Dans le cadre de nos exprimentations,
nous avons pris en compte les notes P red (ua , i) [4 5] comme tant les notes leves.
m reprsente ici le nombre ditems prdits avec des valeurs leves.
Plus la valeur de HMAE est faible, plus le systme de recommandation est performant.
HM AE =
Pm
i=1
|v(ua , i) P red (ua , i)|

m
(2.7)
La HMAE nexploite pas les items ayant des valeurs de prdictions faibles, mais qui
ont des valeurs relles leves dans le corpus test. Son avantage est sa capacit valuer la
prcision des recommandations, juges pertinentes, qui sont eectivement suggres aux
utilisateurs.
2.4.2
Mesures permettant laide la dcision
Les mesures permettant laide la dcision consistent valuer jusqu quel point le
systme de recommandation peut recommander des items potentiellement pertinents pour
lutilisateur [Adomavicius et Tuzhilin, 2005] (les items susceptibles dtre trs apprcis).
En dautres termes, ces mesures valuent la pertinence des recommandations en calculant,
dans une liste de recommandation, la proportion ditems qui sont eectivement utiles et
pertinents pour lutilisateur actif.
Pour les besoins dvaluation en terme daide la dcision, les apprciations ou les
notes des utilisateurs doivent tre transformes dans le cadre dune chelle binaire (Aime
ou Aime pas) an de distinguer les items pertinents de ceux qui ne le sont pas, pour un
utilisateur donn.
Ainsi, dans le cadre de nos exprimentations, un item est considr comme pertinent
lorsquil dispose des valeurs les plus leves, cest--dire des valeurs entre 4 et 5 sur
lchelle choisie [1 5]. Nous considrons que les notes de 1 3 correspondent des items
non pertinents pour lutilisateur.
Les mesures permettant laide la dcision sont principalement issues du domaine de
68
2.4. valuation des recommandations

la recherche dinformation. Elles incluent notamment : la prcision, le rappel et la mesure
F1 [Herlocker et al., 2004].
Prcision
La prcision value si un item slectionn par un utilisateur est rellement peru comme
tant pertinent par ce mme utilisateur [Anand et Mobasher, 2005]. Un item slectionn
reprsente un item qui est propos par le systme de recommandation lutilisateur
actif et qui est contenu en mme temps dans le corpus test. Le tableau 2.4 [Herlocker
et al., 2004] prsente les catgories ditems rpartis selon lintersection entre les listes de
recommandation et les apprciations relles des utilisateurs.
A partir de ce tableau, la prcision est calcule sur la base de lquation (2.8) comme
tant le rapport entre le nombre ditems pertinents slectionns Nps et le nombre ditems
slectionns par un utilisateur actif Ns .
P =
Nps
Ns
(2.8)
La prcision gnrale du systme de recommandation correspond ainsi la moyenne

des prcisions calcules pour chaque utilisateur actif. Plus cette prcision est leve, plus
le systme de recommandation est performant.
Tab. 2.4 Catgories ditems bases sur lintersection entre listes de recommandation et
prfrences relles
Slectionn (s) Non Slectionn (ns) Total
Pertinent (p)
Nps
Npns
Np
Non Pertinent (np)
Nnps
Nnpns
Nnp
Total
Ns
Nns
N
Rappel
Le rappel mesure la probabilit quun item pertinent soit slectionn par lutilisateur
actif. Il est calcul sur la base de lquation (2.9) comme tant le ratio entre le nombre
ditems pertinents slectionns par lutilisateur Nps et le nombre total ditems pertinents
disponibles Np [Herlocker et al., 2004].
R=
Nps
Np
(2.9)
69

Comme pour la prcision, le rappel relatif la totalit du systme est valu comme
tant la moyenne des rappels calculs individuellement.
Il existe une mesure combinant la prcision et le rappel [Sarwar et al., 2000a]. Il sagit
de la mesure F1. Elle reprsente la moyenne harmonique entre la prcision et le rappel,
suivant lquation (2.10). La valeur de F1 varie de 0 1. Lorsque les scores de prcision et
de rappel sont quivalents, la qualit des recommandations est considre comme parfaite.
F1 =
2.4.3
2P R
P +R
(2.10)
Couverture
La couverture mesure la capacit du systme fournir des recommandations. En FC

bas sur la mmoire, la couverture peut tre value par rapport la capacit du systme
de recommandation gnrer des prdictions pour toutes les notes manquantes au niveau
de la matrice de notes Utilisateur x Item. Elle peut tre galement value en prenant
en considration uniquement les prdictions contenues dans le corpus test19 .
En eet, dans certains cas, le systme de recommandation exploitant le FC, peut tre
incapable de calculer les recommandations. Cette incapacit peut notamment tre engendre par le manque de donnes. En eet, faute de notes provenant des voisins, le systme
aura des dicults calculer certaines prdictions.
Ainsi, un systme de recommandation ne peut tre performant que lorsquil est susceptible de calculer un nombre susant de prdictions concernant un maximum dutilisateurs.
Autrement dit, le systme doit pouvoir rpondre aux attentes des dirents utilisateurs
actifs prsents dans le systme.
2.4.4
Temps de calcul
La performance dun systme de recommandation peut tre galement value en

terme de temps de calcul. Il sagit dun temps de calcul rel qui permet dvaluer le temps
requis pour lexcution des algorithmes et lobtention des rsultats escompts.
Il va de soi que la mesure du temps de calcul est dpendante des spcications matrielles
de la machine utilise pour lexcution de ces calculs, ainsi que des programmes et applications lancs simultanment sur cette machine au moment des calculs.
En ce qui concerne nos exprimentations, elles ont t ralises sur un PC DELL avec
Windows Server 2003, ayant 2 Go de RAM et un processeur de 3,4 GHz (Pentium IV).
19
Lintrt de cette valuation dcoule du fait que la qualit des recommandations est mesure galement
sur le corpus test
70
2.5. Benchmark
2.5
Benchmark
La validation des approches et des algorithmes de recommandation proposs dans le

cadre de cette thse repose sur lvaluation de la performance de ces approches compare
des modles de ltat de lart. Nous avons ainsi choisi de comparer nos approches au
principal modle de ltat de lart qui est le FC que nous allons appeler dans la suite de
cette thse Filtrage Collaboratif Standard (FCS) (cf. section 1.3.2).
Le FCS est une mthode de recommandation base sur la mmoire, exploitant les donnes
de notes an de prdire les futures apprciations des utilisateurs.
Pour identier les plus proches voisins, le FCS utilise le coecient de corrlation de
Pearson an dvaluer les similarits entre utilisateurs. Les voisins identis sont par la
suite impliqus au calcul des prdictions en se basant sur la somme pondre.
Il est signaler quau moment de la prdiction, les mmes paramtres ont t appliqus
la fois nos approches et au FCS an de permettre leur comparaison. Ces paramtres
concernent le seuil de similarit et le nombre ditems co-nots entre un utilisateur actif et
ses voisins, permettant le choix des voisins les plus proches.
Dans ce chapitre, nous avons prsent le schma gnrique de la recommandation, tel
que nous le percevons. Nous avons galement dcrit le contexte applicatif ainsi que la
mthodologie exprimentale incluant les corpus et les mtriques dvaluation utiliss pour
valuer la performance des modles que nous avons proposs.
La partie suivante est consacre la prsentation de lapproche collaborative comportementale de recommandation, qui reprsente lune des contributions majeures de cette
thse.
71
72
Deuxime partie
Approche collaborative
comportementale de recommandation
73
Chapitre 1
Vers un Filtrage Collaboratif
Comportemental
Parmi les verrous qui entravent la performance des systmes de recommandation, nous
pouvons citer : le manque de donnes (de notes explicites) ainsi que la prcision des recommandations (cf. section 1.4, chapitre 1, partie 1). Dans la perspective de lever ce verrou
et damliorer la performance des systmes de recommandation, nous avons propos un
nouveau modle de recommandation qui repose sur un filtrage collaboratif comportemental
centr sur lutilisateur. Ce modle est appell Behavioral Network Collaborative Filtering
(BNCF) [Esslimani et al., 2008b] [Esslimani et al., 2008a].
Selon la classication des approches de recommandation de [Anand et Mobasher, 2005],
ce modle sinscrit dans le cadre des approches proactives de recommandation qui privilgient la dduction des apprciations. Ainsi, contrairement aux approches ractives, le
retour de lutilisateur et le recours llicitation nest pas ncessaire.
Ce modle consiste observer le comportement navigationnel de lutilisateur et analyser
ses traces dusage dans le but de modliser cet utilisateur. La construction dun modle
utilisateur dans le cadre du BNCF repose sur lanalyse du comportement an de prdire
les gots de lutilisateur et destimer lintrt quil porte chaque item.
Le concept de comportement englobe gnralement dirents aspects se rapportant
lagissement et aux ractions dun utilisateur dans une situation donne. Ce comportement peut tre notamment reprsent par les mouvements, les actions ou les expressions
verbales de cet utilisateur.
Dans le contexte des systmes dinformation sur le Web (portail dentreprise par exemple),
nous entendons par comportement, lensemble des actions lies la navigation de lutilisateur travers un site Web. Ces actions peuvent tre observes partir de (cf. section
1.2 du chapitre 1, partie 1) :
une consultation de page Web ou ditem,
une manipulation ditem : des actions de copier/coller, denregistrement ou dim75
Chapitre 1. Vers un Filtrage Collaboratif Comportemental

pression, dajout aux favoris, denvoi par mail, etc.
indicateurs externes comme loculomtrie (eye-tracking),
indicateurs de navigation : frquence et dure de visite ditem.
Dans le cadre du BNCF, nous considrons comme traces dusage, les actions de consultation dun item (en phase dapprentissage) ainsi que les indicateurs de navigation (en
phase de prdiction). Nous supposons en eet que lanalyse de ces traces est susceptible
de mettre en vidence des similarits de comportement navigationnel entre utilisateurs.
Le BNCF est ainsi capable dexploiter ces similarits en vue de recommander des items
un utilisateur actif, adapts ses besoins.
Le modle BNCF est inspir la fois des approches prdictives issues du WUM (Web
Usage Mining), ainsi que des approches de recommandation bases sur la mmoire tel que
le Filtrage Collaboratif Standard (FCS) [Goldberg et al., 1992]. Lobjectif du BNCF est
de tirer prot des avantages des deux approches du WUM et du FCS, tout en remdiant
aux limites quelles prsentent.
En eet, les modles bass sur le WUM [Anand et Mobasher, 2005] exploitent les traces
dusage dans le but deectuer les prdictions, grce notamment la dcouverte des motifs
dusage. Or, ces modles requirent une masse importante de donnes ou de traces an
de pouvoir extraire des motifs pertinents et de gnrer des prdictions ables.
En outre, lutilisateur nest pas considr pendant le processus de prdiction. Par exemple,
nous supposons quun modle (standard) de WUM extrait le motif frquent not hi8 i5 i2 i,
signiant que parmi toutes les traces dusage analyses, la consultation de litem i2 est
frquemment produite aprs la squence {i8 , i5 } (i.e. la consultation de i8 puis de i5 ). Peu
importe lutilisateur qui aura ralis la squence {i8 , i5 } pendant une session de navigation
sur un site Web, litem i2 sera recommand.
Quant au FCS, malgr son succs, certaines questions de recherche restent souleves,
dont notamment le manque de donnes explicites (les notes des utilisateurs). Par consquent, un systme de recommandation exploitant exclusivement ces donnes, peut tre
incapable de gnrer des prdictions adquates sil ne retrouve pas susamment de notes
disponibles dans le systme permettant lidentication des voisins.
A cet eet, lexploitation du comportement dans un processus de recommandation permet
dviter le problme de raret des donnes de notes explicites. En eet, dans le cas dune
navigation sur le Web, la quantit de traces est potentiellement suprieure la quantit
de notes explicites pouvant tre disponible.
En outre, lexploitation du comportement permet de rduire le processus dlicitation. En
eet, la sollicitation directe de lutilisateur nest pas requise. A partir du comportement
de navigation, le systme est capable dvaluer les apprciations potentielles des utilisateurs vis--vis ditems et mme de mesurer les similarits entre utilisateurs, tel que nous
le proposons ici.
La gure 1.1 dcrit les direntes phases du processus de recommandation correspondant au BNCF et au FCS. Le BNCF comprend deux phases majeures : une phase
76
Fig. 1.1 FC comportemental BNCF
dapprentissage des modles utilisateurs (PHASE I) inspire du WUM et une phase de

gnration des prdictions (PHASE II) inspire du FCS.
Dans la phase dapprentissage, partir des traces dusage (les consultations ditems), le
BNCF identie les squences de navigation des utilisateurs. Ces squences sont par la
suite analyses an dextraire les motifs dusage. Ces motifs sont exploits en vue dvaluer les similarits de comportement et de gnrer une matrice de similarit Utilisateur x
77

Utilisateur. Ainsi, la particularit du modle BNCF rside dans lexploitation des motifs
dans le but dvaluer les similarits entre utilisateurs et non pas pour prdire directement
comme dans le WUM.
La deuxime phase (PHASE II) reprsente la phase de prdiction. Elle vise identier
les plus proches voisins partir de la matrice de similarit gnre et utilise leurs apprciations extraites de la matrice de notes Utilisateur x Item (notes estimes partir des
traces dusage) an de calculer les prdictions pour chaque utilisateur actif.
Le modle FCS inclut galement deux phases. La premire phase (PHASE I) permet de
calculer les similarits de note entre utilisateurs en exploitant la matrice de note Utilisateur x Item. Dans la deuxime phase du FCS (PHASE II), il sagit dexploiter ces
similarits an de calculer les prdictions en utilisant les apprciations des voisins.
Le dernier volet de la gure 1.1 correspond lhybridation des prdictions gnres par le
BNCF et le FCS. Cette hybridation consiste tudier limpact de chaque modle sur la
performance du systme de recommandation et valuer leur ventuelle complmentarit.
Ces phases vont tre dcrites en dtails dans ce qui suit.
1.1
Extraction des motifs dusage et calcul des similarits de comportement
La premire phase du BNCF consiste en lextraction des motifs dusage qui vont tre
exploits an de calculer les similarits de comportement navigationnel entre les paires
dutilisateurs.
Dans le cadre du BNCF, nous supposons que plus la longueur dun motif commun deux
utilisateurs est leve, plus ils ont un comportement similaire. Nous entendons ici par
motif, une squence frquente, contenant une suite ordonne ditems et qui est commune
deux utilisateurs (cf. section 1.3.4, chapitre 1, partie 1).
Lalgorithme 3 prsente le processus dextraction de la longueur maximale de motifs
communs. Ainsi, pour toute paire dutilisateurs h ua ,ub i, cet algorithme exploite en entre les squences de navigation contenues dans leurs sessions, notes respectivement Sua
et Sub , dans lobjectif dextraire leurs motifs communs (i ) et de calculer les longueurs
correspondant ces motifs L(i ). Chaque longueur correspond au nombre ditems contenus dans un motif commun. Lalgorithme permet de calculer les longueurs de motifs pour
chaque paire dutilisateurs h ua ,ub i et den dduire la longueur maximale des motifs Lmax
(Lmax (ua , ub ) = M ax(L(i ))) communs ua et ub .
A la dirence des motifs utiliss dans le domaine du WUM, dans notre modle nous
ne spcions pas de support minimum dterminant un seuil pour la slection des motifs
(par exemple 20%, 30% ou 50%). En eet, lextraction de motifs dans le cadre du BNCF
est eectue par paire dutilisateurs, ce qui implique que le support correspondant est in78
1.1. Extraction des motifs dusage et calcul des similarits de comportement

tuitivement gal 100%, i.e. le motif doit tre ncessairement prsent parmi les squences
des deux utilisateurs la fois pour quil soit extrait.
Algorithm 3 Extraction de la longueur maximale de motifs
1: Input : Items ordonns par sessions pour les utilisateurs ua et ub
2: Output : Longueur maximale de motifs communs
3: Sua = { S1ua , S2ua , ...Sjua }, Sub = { S1ub , S2ub , ...Sub }
4: et sont deux squences telles que : Sua et Sub , [1, ..., j] et
[1, ..., ], = { i1 , i2 , ...in }, = { i1 , i2 , ...in }
5: L() = ||
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
for each <ua ,ub > (ua 6= ub ) do

for each session de Sua do
for each session de Sub do
if entiers ent1 <ent2 <ent3 ...<entn Tel que i1 = i1 , i2 = i2 ,....in = in
then
return L(i )
end if
end for
end for
return M ax(L(i ))
end for
An dvaluer les similarits entre utilisateurs, nous avons propos la nouvelle quation
(1.1), permettant de calculer la similarit de navigation ou de comportement entre deux
utilisateurs donns. Cette quation prend en considration les critres suivants :
les motifs communs entre ces deux utilisateurs,
la longueur maximale de leurs motifs communs,
les tailles maximales de leurs sessions.
SimN av(ua , ub ) =
Lmax (ua , ub )
min(SessM ax(ua ), SessM ax(ub ))
(1.1)
Lequation (1.1) calcule la similarit SimN av(ua , ub ) entre les utilisateurs ua et ub

comme tant le ratio entre la longueur maximale de leurs motifs communs Lmax (ua , ub )
et le minimum des tailles maximales des sessions de ua et ub notes respectivement
SessM ax(ua ) et SessM ax(ub ). Notons que la valeur de SimN av(ua , ub ) est normalise entre 0 et 1. Ainsi, plus la taille de Lmax est proche des tailles de sessions des deux
utilisateurs, plus SimN av(ua , ub ) tend vers 1 signiant que ua et ub ont des comportements trs similaires.
Il est signaler que dans le but damliorer le traitement requis pour lextraction des
motifs dusage et pour lvaluation des similarits, nous avons videmment rduit les
paires concernes par le calcul des similarits, en considrant les relations symtriques
79

Tab. 1.1 Squences ditems de u1 et u2
Utilisateur u1
Utilisateur u2
Sessions de u1
Items
Sessions de u2
Items
S1u1
i1 i5 i14 i9
S1u2
i12 i1 i5 i8
S2u1
i2 i10
S2u2
i20 i25 i15
S3u1
i8 i20 i13
S3u2
i7 i18 i2 i19
(SimN av(ua , ub ) = SimN av(ub , ua )).

Au niveau de lquation (1.1), nous avons utilis le minimum des tailles maximales de
session dans le dnominateur an dviter de pnaliser un nouvel utilisateur qui a ralis
peu de sessions de faible taille et tout utilisateur qui dispose de sessions courtes. En effet, si nous considrons le maximum ou la moyenne des sessions au dnominateur au lieu
du minimum, un utilisateur ayant ralis uniquement des sessions courtes (en consultant
par exemple un ou deux items par session) sera toujours faiblement similaire aux autres
utilisateurs disposant de sessions de taille importante.
Cette nouvelle quation met ainsi laccent sur lapport des motifs dusage pour valuer
les similarits de comportement navigationnel entre utilisateurs.
An dillustrer ce processus, nous proposons lexemple du tableau 1.1 qui prsente
les squences ditems consults par les utilisateurs u1 et u2 par session. En utilisant ces
sessions, nous retrouvons que u1 et u2 ont les motifs communs suivants :
motifs de longueur 1 (L = 1) : h i1 i h i5 i h i8 i h i20 i h i2 i (les items i14 , i9 , i10 ,
i13 tant consults uniquement par u1 et non pas par u2 . De mme, les items i7 , i18 ,
i19 , i25 , i15 , i12 sont consults uniquement par u2 ),
motifs de longueur 2 (L = 2) : h i1 i5 i,
motifs de longueur 3 (L = 3) : .
Ainsi, pour u1 et u2 , la longueur maximale Lmax (u1 , u2 ) de leurs motifs communs est
2 correspondant au motif h i1 i5 i et le min(SessM ax(u1 ), SessM ax(u2 )) vaut 4. Alors, la
similarit entre u1 et u2 est quivalente 0.5.
En outre, en guise dexemple de calcul des similarits par le modle BNCF compar au FCS entre deux utilisateurs u3 et u4 (notes respectivement SimN av(u3 , u4 ) et
SimN ote(u3 , u4 )), nous considrons le tableau 1.2 reprsentant les items consults ou
nots par ces deux utilisateurs. Notons que, pour des raisons de simplicit, ce tableau
prsente uniquement une session par utilisateur.
Nous pouvons remarquer que u3 et u4 ont not en commun les items i3 et i5 (Ic = {i3 , i5 }),
qui reprsentent en mme temps leur motif commun le plus long (hi3 i5 i). Ainsi, la longueur maximale correspondante est 2 (Lmax (u3 , u4 ) = 2).
Les tailles maximales des sessions de u3 et u4 (S1u3 et S1u4 ) sont quivalentes respectivement 5 et 6. Nous retiendrons 5 comme tant le minimum des tailles maximales de
leurs sessions. Alors, nous pouvons calculer les similarits ainsi :
80
1.2. Gnration des prdictions

Tab. 1.2 Items consults par les utilisateurs u3 et u4
Utilisateurs Session
Items
Notes
Moyenne de note
u3
S1u3
i1 i3 i5 i10 i13
14425
3
u4
S1u4
i3 i5 i18 i16 i30 i2 4 4 2 2 1 5
3
SimN av(u3 , u4 ) =
SimN ote(u3 , u4 ) =
=
2
5
= 0.4
P
iIc (v(u3 ,i)v(u3 ))(v(u4 ,i)v(u4 ))
qP
iIc (v(u3 ,i)v(u3 ))
(43)(43)+(43)(43)
((43)2 +(43)2 )((43)2 +(43)2 )
iIc (v(u4 ,i)v(u4 ))
=1
Lcart entre SimN av(u3 , u4 ) et SimN ote(u3 , u4 ) est d dune part la dirence
de donnes utilises sparment par le BNCF et le FCS, dautre part, la technique
permettant lvaluation des similarits entre utilisateurs. A partir de cet exemple, nous
constatons que u3 et u4 sont considrablement similaires en terme de notes. Or, en terme
de comportement navigationnel, ces utilisateurs ne sont pas trs similaires.
Cette phase (PHASE I) du BNCF, dcrite dans cette section, permet de gnrer une
matrice de similarit de comportement Utilisateur x Utilisateur. Les voisins peuvent
ainsi tre identis et intgrs, dans une tape suivante, au calcul des prdictions.
1.2
Gnration des prdictions
Une fois les similarits calcules entre utilisateurs, la deuxime phase (PHASE II) du
BNCF exploite la matrice de similarit gnre an didentier les voisins. Les apprciations de ces voisins (rcupres partir de la matrice de notes) sont par la suite considres
lors du calcul des prdictions.
Ces prdictions sont gnres sur la base de la somme pondre (cf. section 1.3.2, chapitre
1, partie 1), prsente dans lquation (1.2). Cette quation est en eet la plus utilise par
les systmes de recommandation exploitant notamment le FCS.
SimN av(ua , ub ) reprsente la valeur de similarit comportementale. Seuls les voisins qui
sont corrls avec lutilisateur actif ua (nots Ua ) et ayant dj not litem ik sont considrs lors du calcul des prdictions.
P red(ua , ik ) = v(ua ) +
ub Ua
SimN av(ua , ub ) (v(ub , ik ) v(ub ))

P
ub Ua SimN av(ua , ub )
(1.2)
Dans le but dvaluer la performance de notre nouveau modle BNCF compar au

FCS, dtudier leur ventuelle complmentarit et dexaminer la capacit du BNCF
81

amliorer la prcision des recommandations, nous avons galement choisi de combiner les
prdictions provenant de chacun de ces deux modles (BNCF et FCS) dans le cadre dun
systme de recommandation hybride.
Comme nous lavons dcrit dans ltat de lart, les systmes de recommandation hybrides
combinent deux ou plusieurs techniques an de combler les faiblesses dune technique par
une autre.
Le dernier volet de la gure 1.1 reprsente ltape dhybridation des prdictions. Ces
prdictions sont combines sur la base de lquation (1.3) selon une mthode pondre
dhybridation [Burke, 2002]. P redComb(ua , ik ) reprsente la prdiction combine partir des prdictions du BNCF et du FCS notes respectivement P redBN CF (ua , ik ) et
P redF CS(ua , ik ), pour un utilisateur actif ua concernant un item ik . [0 1] dsigne
le paramtre de combinaison linaire des prdictions. Il reprsente le poids de chaque
modle.
P redComb(ua , ik ) = P redBN CF (ua , ik ) + (1 ) P redF CS(ua , ik )
(1.3)
Il est rappeler que pour le calcul des P redF CS(ua , ik ), la similarit de note entre
utilisateurs est utilise. Cette similarit est calcule avec le coecient de Pearson.
De ce fait, la principale divergence entre les modles BNCF et FCS rside dans la phase
dapprentissage permettant le calcul des similarits.
1.3
Evaluation de la qualit des prdictions
En vue dvaluer la qualit des prdictions gnres par le BNCF et le FCS, nous avons
utilis le corpus Movielens ainsi que le corpus du Crdit Agricole dcrits dans la section
2.3.2 du chapitre prcdent.
Le corpus Movielens comprend 100.000 notes explicites attribus par 943 utilisateurs
sur 1682 items (lms). Ce corpus ne contient pas de donnes relles dusage et la notion
de session nest pas vraiment explicite. Il sagit dune suite ditems, qui ont t nots par
les utilisateurs du systme Movielens, selon des dates donnes (timestamp).
A cet eet, pour ladapter nos besoins, nous avons considr quune session correspond,
dans ce corpus, une valeur spcique de timestamp. Or, la limite de la considration de
ces timestamp est que les sessions correspondantes sont parfois trs courtes. Il est signaler
que pour obtenir des motifs ables et retant mieux la similarit du comportement entre
utilisateurs dans le cadre du BNCF, nous navons pas considr les sessions de taille 1
(i.e. des sessions o lutilisateur a not un seul item).
Concernant lordre squentiel des items, nous avons considr lordre des items tels quils
gurent dans le chier qui comprend le corpus dapprentissage.
82
1.3. Evaluation de la qualit des prdictions

Le corpus du Crdit Agricole constitue un corpus dusage rel incluant les chiers logs
qui correspondent aux activits de navigation de 748 utilisateurs pouvant consulter plus
de 3000 items sur le portail Extranet.
Nous avons extrait principalement les informations se rapportant aux identiants dutilisateurs (il sagit didentiants anonymes), les squences ditems consults, les identiants
de sessions et le temps de dbut et de n de session (cf. section 2.3.1, chapitre 2, partie
1).
Pour valuer la prcision des prdictions gnres (PHASE II), nous avons utilis les
mtriques dvaluation MAE et HMAE (cf. section 2.4 du chapitre prcdent).
En outre, lobjectif de cette exprimentation consiste valuer galement la robustesse et
la stabilit de notre systme de recommandation en prsence de notes non valides. Ainsi,
dans lexprimentation, nous avons modi les entres en inversant en particulier les notes
ayant les valeurs de 4 et 5 dans le corpus test. Le but est danalyser la stabilit du BNCF et
du FCS en calculant la HMAE sur ce nouveau corpus. Il sagit en eet dvaluer jusqu
quel point le systme de recommandation peut tre stable au niveau des prdictions
gnres et en particulier pour celles qui sont quivalentes 4 et 5, correspondant aux
items qui seront recommands lutilisateur actif.
1.3.1
Rsultats
Dans lobjectif danalyser la performance de notre modle, nous avons dabord compar
la prcision des prdictions gnres par le systme de recommandation en considrant
que vaut soit 0 ou bien 1. Il sagit dune valuation spare de chacun des modles
BNCF et FCS, au niveau de la qualit des prdictions en termes de MAE, de HMAE et
de robustesse.
Pour la slection des plus proches voisins au niveau des deux modles tudis, sur les
deux corpus expriments, nous avons appliqu les stratgies suivantes (cf. section 1.3.2
du chapitre 1, partie 1) :
Un seuil de similarit minimum entre un utilisateur actif et les voisins, not .
La dnition dun nombre minimum ditems co-nots (pour le FCS) ou co-visits
(pour le BNCF) entre un utilisateur actif et ses voisins. Pour toutes les exprimentations, nous avons test dabord direntes valeurs du nombre ditems co-nots/covisits. Nous avons dduit que 20 permet de raliser les meilleurs rsultats de MAE
(stratgie conrme en eet par [Viappiani et al., 2006]). De ce fait, nous avons
retenu ce nombre en tant que paramtre de slection des plus proches voisins.
Ainsi, tous les utilisateurs ayant co-not ou co-visit un minimum de 20 items avec
lutilisateur actif et ayant une similarit suprieure avec cet utilisateur, sont considrs
83

comme les plus proches voisins de cet utilisateur actif.
La gure 1.2 prsente les pourcentages de voisins rpartis selon les intervalles de similarits calculs sur le corpus Movielens, par les modles BNCF et FCS. Les pourcentages
prsents dans la gure 1.2 ont t calculs par rapport au nombre total de voisins obtenu
aprs lapplication des deux stratgies prsentes ci-dessus.
En observant cette distribution, nous remarquons que la plus grande proportion de voisins calculs par le BNCF sur ce corpus (environ 90% du nombre total de voisins) ont
des similarits entre 0.2 et 0.4. Pour le FCS, la rpartition de ces voisins est relativement
similaire celle du BNCF, la plupart des voisins (environ 84% du nombre total des plus
proches voisins identis par le FCS) ont des similarits entre 0 et 0.4. Notons que lorsque
la similarit surpasse le seuil de 0.4 et tend vers 1, le nombre de voisins devient trs faible
voire nul au niveau des deux modles.
Fig. 1.2 Distribution des pourcentages des plus proches voisins identis sur le corpus
Movielens par le BNCF et le FCS
La gure 1.3 prsente la distribution de voisins calculs avec les modles BNCF et FCS
sur le corpus du Crdit Agricole. Au niveau de la distribution des valeurs de similarits
dans la gure 1.3, nous remarquons que, compar au FCS, le BNCF a en moyenne des
valeurs de similarit plus faibles. De plus, il a galement un cart type plus petit. En eet,
dans le cas du FCS, il est plus facile dobtenir de grandes valeurs de similarits si les deux
utilisateurs ont des notes similaires sur 20 items co-nots. Or, dans le cas du BNCF une
grande valeur de similarit suppose que les motifs communs deux utilisateurs ont une
longueur proche du minimum des tailles maximales des sessions ralises par ces deux
utilisateurs (cf. quation (1.1)).
Notons que sur le corpus Movielens (cf. gure 1.2), les voisins identis par le FCS ont
des valeurs de similarit plus faibles que sur le corpus du Crdit Agricole. Il semblerait en
eet que sur Movielens, trs peu de voisins ont des notes similaires sur 20 items co-nots
avec les autres utilisateurs.
84

Fig. 1.3 Distribution des pourcentages des plus proches voisins identis sur le corpus
Crdit Agricole par le BNCF et le FCS
En prenant en considration ces distributions, nous avons fait le choix dvaluer les
modles BNCF et FCS sur les corpus Movielens et Crdit Agricole selon dirents seuils
variant de 0 0.4. En eet, quand dpasse la valeur de 0.4, le systme ne peut pas
retrouver susamment de voisins pour le BNCF et le FCS sur le corpus Movielens (cf.
gure 1.2). De mme, dans la gure 1.3, si nous xons le seuil une valeur suprieure
0.4 sur le corpus du Crdit Agricole, le systme va ngliger une grande proportion de
voisins pour le BNCF, ce qui risque de dgrader la prcision des prdictions et le pouvoir
prdictif du BNCF. Sur le mme corpus, le FCS parvient avoir des voisins au del du
seuil 0.4. Cependant, nous avons constat que plus ce seuil augmente plus la couverture
est faible. Ainsi, les seuils ont t choisis (de 0 0.4) dans le but dvaluer la performance
des modles BNCF et FCS sur un nombre signicatif de prdictions.
Rsultats du BNCF et du FCS (sans hybridation)

MAE
Nous avons utilis la MAE an dvaluer lcart entre les prdictions et les notes relles
(contenues dans le corpus test). Le tableau 1.3 prsente les rsultats de la MAE concernant
les prdictions calcules sparment par le BNCF et le FCS sur le corpus Movielens, selon
la valeur du paramtre qui a t appliqu pour le choix des plus proches voisins.
Nous observons dabord que les deux modles BNCF et FCS voluent pareillement au
fur et mesure que la valeur du seuil augmente. En outre, partir des rsultats du
tableau 1.3, si nous considrons les rsultats en MAE lorsque le seuil est x 0.1, nous
constatons que le BNCF gnre des prdictions moins prcises denviron 2%, compar aux
85

prdictions du FCS.
Notons que lorsque = 1 (en cas du BNCF) et = 0, nous obtenons la mme MAE
compar = 0.1, parce que nous disposons pratiquement des mmes plus proches voisins
la base. En eet, trs peu de voisins ont des valeurs de similarits infrieures 0.1 pour
le BNCF (cf. gure 1.2).
Concernant le FCS, approximativement une mme prcision est atteinte lorsque les valeurs
du seuil sont situs entre 0 et 0.3. Dans ce cas, ce nest pas ncessairement d aux mmes
voisins qui sont impliqus. En eet, si le seuil augmente pour le FCS, un nombre non
ngligeable de voisins nest pas pris en compte, lors du calcul des prdictions. Ainsi, le
rsultat similaire en MAE pour le FCS peut tre expliqu par le fait que le poids associ
ces voisins na pas eu beaucoup dimpact sur les prdictions.
Seuil
0
0.1
0.2
0.3
0.4
Tab. 1.3 MAE selon la valeur du paramtre : corpus Movielens

FC Comportemental (BNCF) = 1 FC Standard (FCS) = 0
0.757
0.741
0.757
0.740
0.760
0.740
0.776
0.744
0.802
0.763
Le tableau 1.4 prsente les rsultats de prcision en MAE selon la valeur du seuil
pour les modles BNCF et FCS, en utilisant le corpus du Crdit Agricole.
Nous remarquons que la meilleure prcision en MAE, pour les modles BNCF et FCS,
est atteinte lorsque le seuil est x 0.2. Notons que le FCS parvient gnrer des
prdictions plus prcises denviron 3% compares aux prdictions calcules par le BNCF,
en considrant ce mme seuil.
De plus, comme pour le corpus Movielens, lorsque les seuils 0 et 0.1 sont utiliss par le
BNCF et par le FCS, le rsultat de la MAE reste similaire puisque les voisins impliqus
au calcul des prdictions sont approximativement les mmes. En eet, peu de voisins ont
des similarits infrieures 0.1 sur ce corpus (cf. gure 1.3).
Lorsque le seuil est quivalent 0.4, la prcision en MAE a tendance se dgrader respectivement pour les modles FCS et BNCF.
Il est signaler que pour le modle FCS, suivant la distribution des voisins prsente dans
la gure 1.3, certains voisins peuvent disposer de similarits au del du seuil 0.4. Nous
avons ainsi valu la performance du FCS en prenant en compte dautres seuils allant
jusqu 0.9. Il sest avr que la prcision en MAE sest dgrade et la couverture tend
tre trs faible (perte denviron 80% de la capacit prdictive du systme). En outre,
cause de cette grande baisse de couverture, les rsultats deviennent dicilement interprtables et peuvent ne pas tre signicatifs puisque peu de prdictions sont considres lors
de lvaluation de la performance du FCS.
Si nous considrons les rsultats en MAE obtenus sur les deux corpus, nous constatons que les rsultats restent homognes, notamment au niveau de la performance du
86

Tab. 1.4 MAE selon la valeur du paramtre : corpus Crdit Agricole
Seuil FC Comportemental (BNCF) = 1 FC Standard (FCS) = 0
0
0.799
0.772
0.1
0.799
0.772
0.2
0.789
0.763
0.3
0.790
0.774
0.4
0.847
0.779
FCS. Toutefois, lutilisation du BNCF demeure avantageuse puisquil ne ncessite pas les
donnes de notes en phase dapprentissage, comme en FCS, an dvaluer les similarits
entre utilisateurs. Daprs les rsultats, il semble en eet que les motifs dusage exploits
par le BNCF reprsentent des indicateurs aussi informatifs que les notes explicites et permettent dviter des cas o ces notes ne peuvent pas tre ables. Il sagit notamment des
cas o les utilisateurs peuvent ne pas avoir la mme faon de noter les items (i.e. mme sil
sagit dune mme apprciation positive, certains utilisateurs attribuent des notes levs
et dautres non (cf. section 1.2, chapitre 1, partie 1)).
HMAE
Lutilisation de la HMAE permet dvaluer la performance du systme de recommandation concernant la gnration de prdictions ayant des valeurs leves. Ces prdictions
reprsentent en eet les items qui sont rellement recommands lutilisateur actif.
Le tableau 1.5 compare les rsultats du BNCF et du FCS en terme de HMAE, sur le
corpus Movielens.
Les rsultats montrent que le BNCF atteint sa meilleure performance lorsque est quivalent 0.2. Ainsi, les meilleurs voisins pour le BNCF sont choisis partir de ce seuil et
ont une capacit prdire correctement les items pour les utilisateurs actifs. Or, lorsque
le seuil est x 0.3 ou 0.4, le nombre de voisins impliqus est rduit (cf. gure 1.2).
Il savre ainsi que la rduction des voisins engendre une dterioration de la prcision en
HMAE, pour le BNCF et le FCS. Notons que, comme pour la MAE, avec lutilisation des
seuils 0 et 0.1 pour le BNCF, nous obtenons les mmes rsultats en HMAE en raison de
limplication des mmes voisins pour calculer les prdictions.
En outre, lorsque est x 0, le FCS savre plus performant que le BNCF. Ce rsultat
induit que la stratgie daugmentation du seuil pour la slection de voisins pertinents,
nest pas approprie dans le cadre du FCS.
Tab. 1.5 HMAE selon la valeur du paramtre : corpus Movielens
0
0.443
0.416
0.1
0.443
0.444
0.2
0.436
0.461
0.3
0.500
0.512
0.4
0.626
0.555
87

Le tableau 1.6 prsente les rsultats en HMAE, selon direntes valeurs du seuil ,
obtenus sur le corpus du Crdit Agricole. Nous observons dabord que, contrairement au
corpus Movielens, le BNCF contribue une meilleure performance en terme de HMAE,
compare celle du FCS, quel que soit la valeur du seuil . Cette performance du BNCF
est lie notamment lutilisation du corpus dusage rel du Crdit Agricole permettant
dextraire des motifs ables et didentier ecacement les voisins.
De plus, nous constatons que la prcision du FCS est plus inuence par laugmentation
de , dans la mesure o la HMAE correspondant au FCS se dtriore plus quen BNCF,
au fur et mesure que augmente.
Notons que les voisins ayant des valeurs de similarit entre 0 et 0.3 prdisent de la mme
faon les items pour le modle BNCF, puisquune mme HMAE est atteinte.
Comme pour lvaluation en MAE, nous avons test la performance du modle FCS
en HMAE au del du seuil 0.4 considrant la distribution des voisins prsente dans la
gure 1.3. Nous avons constat que la HMAE se dgrade au fur et mesure que le seuil
augmente jusqu 0.9. Rappelons que lapplication de cette stratgie de slection de voisins
se rpercute galement sur la couverture. En eet, sur le corpus Crdit Agricole, le systme
de recommandation fond sur le FCS gnre peu de prdictions lorsque est suprieur
0.4. De ce fait, nous avons choisi deectuer lvaluation en robustesse prsente dans la
section suivante, en considrant le seuil entre 0 et 0.4.
Tab. 1.6 HMAE selon la valeur du paramtre : corpus Crdit Agricole

0
0.501
0.545
0.1
0.501
0.545
0.2
0.501
0.541
0.3
0.502
0.571
0.4
0.528
0.588
Robustesse
Dans lobjectif dvaluer la robustesse du systme de recommandation, nous avons
examin la performance des modles BNCF et FCS en terme de HMAE en utilisant le
nouveau corpus de test, contenant les entres errones. Notons que nous avons maintenu
les mmes stratgies pour la slection des plus proches voisins pour le BNCF et le FCS.
Les tableaux 1.7 et 1.8 prsentent les rsultats en HMAE selon direntes valeurs du seuil
, en utilisant respectivement le corpus Movielens et le corpus du Crdit Agricole.
Les rsultats du tableau 1.7 montrent que le BNCF est relativement robuste malgr
la prsence de donnes errones dans le corpus. Compar aux rsultats du tableau 1.5,
nous constatons que le BNCF garde la mme volution. En outre, le BNCF savre plus
stable que le FCS, si nous comparons en particulier les rsultats en cas de = 0 dans les
deux tableaux 1.5 et 1.7. En eet, la HMAE relative au BNCF augmente denviron 18%,
le FCS reste moins robuste vu que la HMAE correspondante augmente denviron 24%.
88

Tab. 1.7 Robustesse value en HMAE selon la valeur du paramtre : corpus Movielens
0
0.542
0.546
0.1
0.542
0.547
0.2
0.544
0.551
0.3
0.542
0.554
0.4
0.536
0.559
Tab. 1.8 Robustesse value en HMAE selon la valeur du paramtre : corpus Crdit
Agricole
0
0.498
0.454
0.1
0.498
0.454
0.2
0.498
0.458
0.3
0.499
0.428
0.4
0.471
0.411
A partir du tableau 1.8, contrairement au corpus Movielens, nous constatons que,
compar au BNCF (lorsque le seuil est x 0.4) et compar aux rsultats en HMAE du
tableau 1.6, le FCS contribue une meilleure robustesse du systme de recommandation.
En outre, nous observons que laugmentation du seuil de similarit na pas beaucoup
deet sur la robustesse et la stabilit du BNCF. En eet, des valeurs similaires de HMAE
ont t atteintes, en particulier lorsque est x entre 0 et 0.3.
Sur le corpus Movielens, le BNCF est moins sensible aux donnes bruites, ce qui
garantit la abilit et la qualit des prdictions et la non vulnrabilit du systme de
recommandation. Sur le corpus du Crdit Agricole, malgr la meilleure performance du
FCS, la robustesse du BNCF reste gnralement assez stable.
Nous pouvons dduire de cette exprimentation que la robustesse demeure inuence
par la nature du corpus.
Rsultats dhybridation du BNCF et du FCS

Dans cette section, nous nous intressons lvaluation de la performance du systme
de recommandation hybride combinant les prdictions du BNCF et du FCS. Cette valuation a t eectue en termes de MAE et de HMAE en utilisant les corpus de Movielens
et du Crdit Agricole.
Nous avons utilis dirents poids reprsents par le paramtre . Nous avons galement
pris en compte les stratgies utilises dans les tests prcdents pour la slection des plus
proches voisins, en xant le nombre minimum des items co-nots ou co-visits 20 et le
89

seuil 0.2 en considrant les rsultats atteints avec ce seuil (cf. tableaux 1.3, 1.4, 1.5 et
1.6).
La gure 1.4 prsente les rsultats de cette exprimentation en termes de MAE et de
HMAE sur le corpus Movielens. Nous observons dune part que la combinaison pondre
des prdictions contribue dune manire gnrale une lgre amlioration de la performance en terme de MAE. En eet, compare aux rsultats du tableau 1.3 (o 0.74 tait
le meilleur taux de MAE atteint), en cas dhybridation le meilleur rsultat de MAE est
denviron 0.73.
De plus, si nous comparons les rsultats en MAE et en HMAE dans la gure 1.4, nous
pouvons observer que la MAE atteint de meilleurs scores de prcision lorsque le FCS est
plus impliqu dans le calcul de la prdiction nale (par exemple lorsque = 0.1). Or,
nous obtenons gnralement la meilleure prcision en HMAE, lorsque le BNCF a la pondration la plus importante (par exemple lorsque = 0.9). A cet eet, le BNCF reste
plus adquat pour la proposition de recommandations potentiellement pertinentes un
utilisateur actif.
Fig. 1.4 Rsultats en MAE et en HMAE sur le corpus Movielens
La gure 1.5 prsente les rsultats dhybridation du BNCF et du FCS en termes de

MAE et de HMAE sur le corpus du Crdit Agricole. Nous remarquons que lvolution
des rsultats pour le corpus du Crdit Agricole est peu prs similaire lvolution des
rsultats en cas dutilisation du corpus Movielens en particulier pour la MAE (cf. gure
1.4). En eet, lorsque le FCS a le poids le plus important (i.e. tend vers 0), les prdictions calcules par le systme de recommandation hybride sont plus prcises en terme de
MAE. Or, la meilleure HMAE est atteinte lorsque le BNCF a le poids le plus important
(i.e. tend vers 1) dans le calcul de la prdiction nale.
Ainsi, comme pour Movielens, limportante implication du BNCF au niveau des prdictions combines, permet de gnrer des recommandations appropries aux utilisateurs
actifs.
90

Fig. 1.5 Rsultats en MAE et en HMAE sur le corpus Crdit Agricole
En outre, nous avons ralis un autre test an dvaluer la stabilit du systme de

recommandation hybride sur les corpus du Crdit Agricole et de Movielens, en considrant
le corpus de test contenant les donnes errones lors de lvaluation.
Considrant les rsultats dhybridation du BNCF et du FCS, prsents dans les gures
ci-dessus, nous avons slectionn en particulier les prdictions combines lorsque la valeur
d est xe 0.9 suivant lquation (1.3) (lorsque 6= 0 et 6= 1). Il sagit en eet du
meilleur rsultat obtenu en terme de HMAE, sur les deux corpus, concernant le systme
de recommandation hybride (0.401 pour Movielens et 0.505 pour le Crdit Agricole).
Le tableau 1.9 prsente les rsultats dvaluation de la robustesse du systme hybride,
en cas dutilisation des deux corpus. Le rsultat de la HMAE a atteint une prcision de
0.494 pour le Crdit Agricole et 0.548 pour Movielens. Compar aux rsultats des tableaux 1.7 et 1.8, en particulier lorsque vaut 0.2, nous constatons que la robustesse
demeure approximativement stable au niveau des deux corpus. Ce rsultat conrme ainsi
que les donnes errones nont pas deet sur la robustesse du systme de recommandation hybride, en particulier pour le BNCF qui dispose dun poids important dans cette
exprimentation.
Tab. 1.9 Robustesse des prdictions combines : corpus Crdit Agricole et Movielens
Crdit Agricole Movielens
Robustesse (HMAE)
0.494
0.548
91
1.3.2
Discussion
Le modle BNCF a t propos an de modliser les utilisateurs sur la base de lanalyse du comportement navigationnel. Ainsi, des utilisateurs ayant en commun des motifs
dusage, sont considrs comme similaires et partagent potentiellement les mmes apprciations. Lexploitation des motifs dusage dans le cadre du BNCF, permet de faire face
au problme de raret de donnes de notes explicites et de rduire llicitation.
En eet, le BNCF ne requiert pas de donnes de notes dans la phase dapprentissage tel
quen FCS. De plus, le BNCF prend en considration les traces dusage, non pas pour
prdire directement comme dans le WUM, mais pour valuer les similarits entre utilisateurs.
Les direntes exprimentations prsentes dans ce chapitre, avaient pour objectif
dvaluer limpact du BNCF (compar au FCS) sur la performance du systme de recommandation en termes de MAE, de HMAE et de robustesse, en utilisant deux corpus
dirents (corpus du Crdit Agricole et de Movielens).
Si nous comparons les rsultats obtenus sur les deux corpus, nous constatons que les
rsultats restent globalement homognes, en particulier en termes de MAE, de robustesse
et de lhybridation des prdictions.
Au niveau du corpus du Crdit Agricole, le BNCF contribue une meilleure prcision
en HMAE, en considrant lvaluation du BNCF spar (cf. tableau 1.6) et de lhybridation
des prdictions avec une pondration importante pour le BNCF (cf. gure 1.5).
Quant au FCS, en utilisant le mme corpus, ses meilleures performances ont t obtenues
en termes de MAE (cf. tableau 1.4) et de robustesse (cf. tableau 1.8).
Lorsque les modles sont expriments sur le corpus Movielens, le FCS parvient
gnrer des prdictions prcises en termes de MAE et de HMAE. Or, en exploitant ce
corpus, le BNCF savre plus robuste et moins vulnrable face aux donnes bruites, en
considrant lvolution de la HMAE correspondant au BNCF et au FCS prsente dans
les tableaux 1.5 et 1.7.
Il savre ainsi que le BNCF demeure globalement plus performant en cas dhybridation des prdictions (avec une importante pondration pour le BNCF) pour les deux
corpus et en terme de HMAE en cas dutilisation du corpus dusage. En eet, ce corpus
dusage permet au BNCF didentier des motifs ables permettant de retrouver des voisins pertinents contribuant une meilleure prcision en HMAE.
La robustesse et la stabilit du systme de recommandation exploitant le BNCF ou le
FCS, est trs inuence par la nature du corpus utilis.
Nous pouvons dduire des rsultats de ces exprimentations que les traces dusage sont
une source dinformation able permettant au systme de recommandation de modliser
ecacement les utilisateurs et de gnrer des prdictions potentiellement pertinentes.
92

Ainsi, il serait judicieux dans les prochaines exprimentations dvaluer la performance
des modles exploitant les motifs dusage, sur le corpus du Crdit Agricole puisquil intgre
des traces dusage relles, contrairement Movielens.
En outre, partir des rsultats prsents dans ce chapitre, le BNCF savre plus appropri
pour la recommandation ditems dans le cas de la navigation sur le Web en sappuyant sur
lanalyse de donnes implicites (des usages) telle que les donnes dusage de lExtranet
du Crdit Agricole. Or, pour la recommandation ditems sur des applications de type
e-commerce, le modle FCS peut tre performant condition que les donnes de notes
explicites soient susamment disponibles dans le systme.
Au niveau de lhybridation des prdictions prsente dans ce chapitre, au del de son
apport pour lvaluation de limpact des deux modles sur la performance du systme de
recommandation, lintrt de cette hybridation serait lamlioration du pouvoir prdictif
du systme de recommandation.
En eet, le BNCF et le FCS peuvent gnrer des recommandations pour direntes paires
< utilisateur, item >, puisquils utilisent au moment de la prdiction des voisinages diffrents. Il sagit de voisinages calculs soit partir des similarits de motifs dusage ou
bien partir des similarits de notes. Bien que cette hybridation requiert des calculs plus
importants et des paramtrages supplmentaires, elle a lavantage de produire potentiellement des recommandations, en cas dincapacit de lun des deux modles BNCF ou FCS
les gnrer.
Dans le but damliorer cette phase dhybridation, une stratgie consisterait par exemple
automatiser le processus de combinaison des prdictions en fonction des donnes disponibles et du contexte dutilisation du systme de recommandation.
Il est signaler quen collaboration avec la socit Sailendra S.A.S20 , le modle BNCF
a t intgr au niveau de la plate forme CASA du Crdit Agricole contenant les outils
applicatifs du portail Extranet du Groupe. Les gures 1.6 et 1.7 reprsentent des aperus
des recommandations sur ce portail.
La gure 1.6 est un aperu du menu de personnalisation des recommandations propos
aux utilisateurs du portail Extranet. Les utilisateurs peuvent notamment paramtrer le
nombre de recommandations acher.
La gure 1.7 est un aperu de la liste (TopN) de recommandations propose un utilisateur, trie par ordre de pertinence (ordre estim par le systme). Notons que lutilisateur
a la possibilit dexprimer son avis concernant les recommandations proposes par le systme.
Le BNCF est actuellement test au niveau du site Extranet du service de veille stratgique
avant dtre dploy au niveau de tout le portail. Ainsi, aprs cette phase de dploiement,
il serait pertinent davoir les retours des utilisateurs du Crdit Agricole suite aux recommandations proposes par notre systme de recommandation. En eet, ces retours vont
nous permettre dvaluer directement la qualit des recommandations ainsi que le degr
de satisfaction des utilisateurs.
20
http ://www.sailendra.fr/
93

Fig. 1.6 Aperu du menu de personnalisation des recommandations par les utilisateurs
du portail Extranet du Crdit Agricole
Par ailleurs, au del du contexte applicatif, en vue de rduire lespace de recherche des
voisins, il serait judicieux dtudier lintrt des mthodes de clustering, notamment pour
la limitation du nombre de paires dutilisateurs impliques lors du calcul des similarits.
Dans le chapitre suivant, il est question en eet dexaminer lapport du clustering dans le
cadre du BNCF. Ce chapitre est ddi la description de cette contribution.
94
Fig. 1.7 Aperu des recommandations gnres par le BNCF au niveau du portail
Extranet du Crdit Agricole
95
96
Chapitre 2
Clustering en Filtrage Collaboratif
Comportemental
Les exprimentations du chapitre prcdent pour lvaluation du modle BNCF nous
mnent aborder les enjeux suivants : lamlioration de la prcision des recommandations
et la rduction de lespace de recherche pour lidentication de voisins dans un but de passage lchelle. Cest dans cette optique que nous avons propos une nouvelle approche
de recommandation nomme BNCF-PAM Clustering on Similarities (BNCF-PCS) [Esslimani et al., 2009a]. Pour atteindre les objectifs cits ci-dessus, cette nouvelle approche
exploite notamment un clustering dutilisateurs.
Le clustering est une technique permettant de grouper des objets en clusters, tel que
les objets appartenant au mme cluster sont similaires. Dans le contexte des systmes de
recommandation, le clustering peut tre appliqu aux utilisateurs ou bien aux items [Ungar
et Foster, 1998]. Lavantage dutiliser le clustering dans un processus de recommandation
est de permettre la fois de rduire lespace de recherche pour lidentication des voisins
et de pallier les problmes de manque de donnes et de passage lchelle [Sarwar et al.,
2002], [Tang et McCalla, 2003], [Xue et al., 2005], [Jiang et al., 2006].
Les mthodes de clustering les plus exploites par les systmes de recommandation sont
les mthodes de partitionnement dont k-means [MacQueen, 1967] est la plus populaire.
Cette mthode a lavantage dtre eciente et permet le passage lchelle. Toutefois, la
mthode k-means demeure peu robuste. Ce manque de robustesse est d sa sensibilit
aux donnes aberrantes (outliers) [Wang et Shao, 2004] (cf. section 1.3.3, chapitre 1,
partie 1).
De ce fait, nous avons choisi dexploiter la mthode de clustering PAM (Partitioning
Around Medoid) qui est une mthode de type k-medode [Han et Kamber, 2001]. Habituellement, le clustering peut tre exploit dans le cadre du Filtrage Collaboratif Standard
97
Chapitre 2. Clustering en Filtrage Collaboratif Comportemental

(FCS)21 an de gnrer des clusters en fonction des similarits de notes entre utilisateurs
sur leurs items co-nots. Le clustering PAM (appliqu dans le cadre du BNCF-PCS) a
pour particularit de gnrer des clusters dutilisateurs en sappuyant sur les similarits
de voisins et non pas sur les similarits de notes. Ainsi, les utilisateurs sont regroups
en des clusters homognes suivant le principe des voisinages communs, ce qui permet de
considrer galement les items non co-nots.
Notons que PAM a lavantage dtre plus robuste que k-means dans la mesure o elle permet de rduire la sensibilit aux donnes aberrantes [Han et Kamber, 2001] (cf. section
1.3.3, chapitre 1, partie 1).
De plus, comme le BNCF, le BNCF-PCS exploite les traces dusage an de gnrer une
matrice de notes implicites. Dans le BNCF-PCS, cette matrice est exploite dune part
an de slectionner des sous-squences positives pour chaque utilisateur. Dautre part,
elle est utilise lors du calcul des prdictions. Ces sous-squences positives comprennent
uniquement les items positivement apprcis par les utilisateurs. Lobjectif est dvaluer
les similarits de comportement entre utilisateurs en se basant sur ces sous-squences.
En eet, nous supposons quun motif commun incluant des items apprcis positivement
peut tre rvlateur dune forte similarit entre utilisateurs. En outre, lutilisation de ces
sous-squences positives va permettre de rduire lespace de recherche lors de lextraction
des motifs requis pour lvaluation des similarits.
Ainsi, la particularit du BNCF-PCS, compar au BNCF, rside dans lintgration
dune tape de clustering dutilisateurs et dans la considration des squences positives
pour lvaluation des similarits entre utilisateurs au niveau des clusters crs. Comme
nous lavons indiqu ci-dessus, lenjeu de lintgration de ces tapes est de rduire lespace de recherche pour lidentication de voisins pertinents susceptibles de promouvoir la
qualit des recommandations.
Le schma dcrivant le modle BNCF-PCS est prsent dans la section suivante.
2.1
Schma du modle BNCF-PCS
Le BNCF-PCS est constitu des mmes phases que celles du BNCF dcrites dans la
gure 1.1 du chapitre prcdent. Il inclut en outre, de nouvelles tapes correspondant en
particulier la PHASE I qui reprsente la phase dapprentissage.
La gure 2.1 dcrit le schma du modle BNCF-PCS. Ce schma reprend galement les
tapes qui sinscrivent dans le cadre du BNCF, du FCS et du FCS bas sur le clustering
(indiqu ci-dessus).
Le FCS exploite directement la matrice de note Utilisateur x Item contenant les
notes estimes partir des traces dusage dans le but didentier les voisins et de calculer
21
98
nous lappellerons le FCS bas sur le clustering
2.1. Schma du modle BNCF-PCS

Fig. 2.1 Schma global dcrivant le BNCF-PCS
les prdictions. Le FCS bas sur le clustering utilise cette mme matrice an de gnrer
des clusters dutilisateurs selon les similarits de note et calculer les prdictions partir
de ces clusters.
Le BNCF, comme nous lavons dcrit dans le chapitre prcdent, exploite les squences de
navigation (extraites des traces dusage) en vue de calculer les similarits de comportement
entre utilisateurs. Ces similarits sont par la suite exploites pour le calcul des prdictions.
99

Le BNCF-PCS exploite, quant lui, une matrice de similarit de note Utilisateur x
Utilisateur, calcule partir des similarits de notes, dans le but de crer des clusters
dutilisateurs.
En parallle, le BNCF-PCS slectionne les sous-squences positives partir des squences
dutilisateurs. Ces sous-squences intgrent uniquement les items apprcis positivement
par les utilisateurs. Ces apprciations sont extraites de la matrice de notes estimes
partir des traces dusage.
Le BNCF-PCS calcule par la suite les similarits de comportement entre utilisateurs au
sein de chaque cluster cr en se basant sur les sous-squences positives.
Dans la deuxime phase du BNCF-PCS (PHASE II), les plus proches voisins sont identis
et leurs apprciations sont combines pour le calcul des prdictions.
Les sections qui suivent dcrivent davantage le processus de recommandation dans le
cadre du BNCF-PCS.
2.2
Gnration des clusters
Nous avons choisi dintgrer le clustering an de permettre de rduire lespace de recherche des voisins et de promouvoir la qualit des recommandations.
Le modle FCS bas sur le clustering utilise la matrice Utilisateur x Item pour la gnration de clusters. Ainsi, les clusters sont crs en considrant les items co-nots entre
utilisateurs.
Dans le cadre du BNCF-PCS, nous avons fait le choix dexploiter une matrice Utilisateur
x Utilisateur (une matrice de similarit de note entre utilisateurs) pour la cration de
clusters. Pour la gnration de cette matrice de similarit entre utilisateurs, comme dans
le FCS, le coecient de corrlation de Pearson [Herlocker et al., 1999] a t utilis an
dvaluer les similarits de notes entre chaque paire dutilisateurs h ua ,ub i en se basant
sur les items consults en commun.
Notons que ces notes ont t estimes en exploitant les traces dusage des utilisateurs,
comme nous lavions prsent prcdemment (section 2.3.1, chapitre 2, partie 1). A partir
de la matrice de similarit entre utilisateurs, les clusters sont construits sur la base des
similarits de voisins, plutt que des notes. Cette dmarche utilise pour le clustering
a ainsi lavantage de prendre galement en compte des items non co-nots, vu que les
similarits entre utilisateurs sont exploites.
En vue dillustrer cette dmarche de clustering, nous proposons lexemple trs simple
de la matrice de notes du tableau 2.1 qui reprsente cinq utilisateurs pouvant noter cinq
items.
A partir des notes quils ont attribu aux items, nous valuons les similarits de notes
entre ces utilisateurs (en utilisant le coecient de Pearson). Le tableau 2.2 reprsente la
matrice de similarit rsultant de cette valuation.
Par exemple, en considrant les items nots en commun, lutilisateur u1 et u3 sont corrls.
100
2.2. Gnration des clusters

Tab. 2.1
i1
u1 x
u2 x
u3
u4 x
u5
Matrice de note
i2 i3 i4 i5
x
x
x
x
x
Tab. 2.2 Matrice de similarit de note

u1 u2 u3 u4 u 5
u1
x x
u2 x
x x
u3 x
u4
x
u5
x
Bien videmment, cest la valeur de note (estime) de u1 et u3 sur litem co-not i3 , qui
dtermine le degr de corrlation entre ces deux utilisateurs. Plus leur note sur litem i3
est similaire, plus ils sont corrls, i.e. la valeur de similarit est proche de 1.
La matrice de similarit de notes va constituer, dans une tape suivante, les donnes
dentre de lalgorithme de clustering PAM. La gure 2.2 dcrit le processus du clustering
PAM. Considrant que k, reprsentant le nombre de clusters crer, est quivalent 2,
au dbut du processus deux mdodes umed et umed (par exemple les utilisateurs u3 et u4 )
sont choisis alatoirement (cf. gure 2.2 (1)). Ces mdodes vont reprsenter les centres
ou les mdodes initiaux de chaque cluster. Par la suite, en calculant les dissimilarits (ou
le cot de permutation) entre chacun de ces mdodes et les autres utilisateurs (cf. gure
2.2 (2)), lalgorithme PAM identie les mdodes eectifs (par exemple les utilisateurs u1
et u2 ).
Il est noter que cette opration itre jusqu ce que que les mdodes deviennent stables,
i.e., jusqu ce que les umed et umed ne changent plus (cf. section 1.3.3 du chapitre 1,
partie 1).
A la n du processus, nous obtenons deux clusters homognes dont chacun comprend
le groupe dutilisateurs les plus similaires en terme de voisins (cf. gure 2.2 (3)). Selon
lexemple prsent, les deux clusters obtenus sont : C1 = {u1 , u3 } et C2 = {u2 , u4 , u5 }.
Nous pouvons constater par exemple que dans le cluster C2 , les utilisateurs partagent en
eet des voisins communs, ce qui justie leur appartenance au mme cluster.
101
Fig. 2.2 Clustering dutilisateurs avec PAM
2.3
Calcul des similarits de comportement et gnration des prdictions
Les similarits de comportement entre toute paire dutilisateurs h ua ,ub i sont values
au niveau de chaque cluster cr dans ltape prcdente. Cette valuation repose sur
lalgorithme dextraction de motifs du BNCF et exploite lquation (1.1) prsente dans
le chapitre prcdent (p. 77) pour lvaluation des similarits.
De plus, dans lobjectif de rduire davantage lespace de recherche des voisins et damliorer la qualit des prdictions, nous avons propos de procder une slection de soussquences positives qui comprennent uniquement les items positivement apprcis de la
part des utilisateurs.
Si nous considrons une squence dun utilisateur ua , est une sous-squence positive
de ( ) lorsque tous les items contenus dans = {i1 , i2 ...., in }, ont des notes positives de ua . Par exemple, sur une chelle de note [1 5], nous pouvons considrer quune
note v est positive lorsque v >= 4.
Ainsi, pour toute paire dutilisateurs h ua ,ub i appartenant un mme cluster, en
prenant en considration les sous-squences positives de ua et ub parmi leurs squences de
navigation, les motifs dusage communs ces deux utilisateurs sont extraits an dvaluer
les similarits de comportement SimN av(ua , ub ).
Ds la gnration de la matrice de similarit de comportement, comme dans le BNCF,
la formule de prdiction base sur la somme pondre (cf. quation (1.2) p. 79) est employe en vue de calculer les prdictions. Cette tape correspond la PHASE II du
modle BNCF-PCS (cf. gure 2.1).
Pour le calcul des prdictions, nous prenons en considration les plus proches voisins Ua
(prsents dans le mme cluster que ua ) ayant dj not litem et qui sont corrls avec ua .
102
2.4. Evaluation
2.4
Evaluation
Pour lvaluation de la performance du BNCF-PCS, nous avons exploit le corpus

dusage du Crdit Agricole utilis dans les exprimentations du chapitre prcdent. Ce
corpus comprend les traces dusage correspondant aux activits de navigation des utilisateurs sur le portail Extranet.
Pour nos exprimentations, en considrant le nombre total dutilisateurs prsents dans
le corpus et aprs avoir test dirents nombres de clusters gnrer, nous avons choisi
de gnrer 10 clusters an dobtenir des classes susamment denses, homognes et reprsentatifs et viter de dgrader la performance du systme de recommandation cause
dun ventuel manque de voisins au niveau des clusters.
Dans cette exprimentation, les dirents modles ont t valus en terme de prcision
en utilisant les mtriques MAE et HMAE ainsi quen terme de temps de calcul.
2.4.1
Modles expriments
La prcision des recommandations proposes par le BNCF-PCS a t compare direntes variantes des modles BNCF et FCS. Lobjectif de cette valuation est dexaminer
limpact du clustering dutilisateurs (algorithme PAM ou k-means) ainsi que linuence
de la nature de la matrice utilise pour le clustering (matrice de note ou matrice de similarit). En outre, nous avons valu limpact de lexploitation des sous-squences positives
sur le temps de calcul des similarits de comportement.
Notons que durant le calcul des prdictions pour le BNCF et le FCS, en considrant les
rsultats de lexprimentation sur le corpus du Crdit Agricole (cf. section 1.3 du chapitre
prcdent, tableaux 1.4 et 1.6 ), nous avons x le minimum ditems co-nots 20 et le
seuil 0.2.
2.4.2
Rsultats
MAE
Dans cette section, nous prsentons les rsultats dvaluation en terme de MAE. Dans
cette valuation, il tait question dexaminer dabord limpact du clustering exploitant
une matrice de notes dans le cadre du BNCF et du FCS. Par la suite, lobjectif tait
dvaluer le BNCF-PCS en examinant limpact de lalgorithme de clustering exploitant
une matrice de similarit.
103

Le tableau 2.3 prsente les rsultats en terme de MAE avec lapplication ou non dun
clustering dutilisateurs exploitant la matrice de note, dans le cadre du BNCF ou du FCS.
Il est signaler que les sous-squences positives ne sont pas utilises dans ce cadre.
En observant les rsultats de ce tableau, nous pouvons dabord remarquer que sans lapplication du clustering, la prcision est lgrement plus faible dans le cas du BNCF, compar
au FCS (cf. section 1.3.1 du chapitre prcdent).
Nous remarquons en outre que lapplication du clustering dutilisateurs au FCS partir
de la matrice de note (correspondant au FCS bas sur le clustering dans la gure 2.1),
engendre une dgradation de la prcision des recommandantions. Ceci peut dcouler du
fait que le clustering appliqu dans ce cas repose uniquement sur les items co-nots pour
grouper les utilisateurs en clusters, ce qui risque de ngliger certains voisins pertinents.
Ces rsultats conrment ltat de lart. En eet, ltude ralise par [Sarwar et al., 2002]
a montr que, malgr son intrt pour le passage lchelle dans le cadre du FCS, le clustering dutilisateurs (bas sur k-means et exploitant une matrice de notes) a un impact
sur la performance du systme de recommandation dans la mesure o la prcision des
prdictions tend tre faible.
En outre, partir du tableau 2.3, nous constatons que le clustering PAM mne la plus
faible prcision (baisse de 5% de prcision compare la prcision du FCS sans clustering).
Dans le cas du BNCF, lutilisation du clustering PAM partir dune matrice de notes
entrane galement une dgradation de la prcision, ce qui est similaire aux rsultats du
FCS.
Tab. 2.3 Rsultats en MAE avec et sans clustering (utilisation dune matrice de note
en cas de clustering)
FCS BNCF
Sans clustering
0.763
0.789
Avec clustering k-means 0.782
0.797
Avec clustering PAM
0.799
0.825
Le modle BNCF-PCS applique un clustering exploitant une matrice de similarit.
Par la suite, les sous-squences positives des utilisateurs appartenant aux mmes clusters
crs, sont considres en vue dvaluer les similarits de comportement.
Dans le but dexaminer la performance du clustering utilis par le BNCF-PCS, nous
prsentons dans le tableau 2.4, les rsultats en MAE en cas dapplication de lalgorithme
PAM, compar lalgorithme k-means.
Tab. 2.4 Rsultats en MAE : utilisation dune matrice de similarit pour le clustering
BNCF-PCS
Avec clustering PAM
0.674
Selon les rsultats du tableau 2.4, nous constatons que lapplication du clustering
exploitant une matrice de similarit dutilisateurs contribue une amlioration de la
104
2.4. Evaluation
MAE, quel que soit lalgorithme de clustering utilis, compare aux rsultats du tableau
2.3 relatifs au BNCF. De plus, dans le cas dun clustering PAM (BNCF-PCS), la prcision
atteint mme une amlioration de 15%, par rapport un clustering exploitant une matrice
de note.
Rappelons quici le clustering a t appliqu une matrice de similarit, ce qui permet de
gnrer des clusters, non pas uniquement en fonction de la manire dont les utilisateurs
ont co-not les items, mais galement suivant les similarits de voisins que ces utilisateurs
ont en commun. En outre, cette dmarche de clustering ne considre pas seulement les
items co-nots, mais lensemble des items nots par les utilisateurs. Il semblerait que dans
cette exprimentation, la considration des voisinages communs lors du clustering PAM,
contribue lamlioration de la performance du systme.
De plus, lors de lvaluation des similarits, le BNCF-PCS exploite linformation relative
aux items positivement apprcis par les utilisateurs, contenus dans les sous-squences
positives. Les rsultats du tableau 2.4 conrment galement que cette stratgie permet
damliorer le calcul des voisinages et lidentication des plus proches voisins, ce qui mne
une meilleure qualit des recommandations en terme de MAE.
Nous pouvons ainsi dduire que lamlioration de la prcision des prdictions (en MAE)
rsulte de lapplication de lalgorithme PAM sur une matrice de similarit et de lutilisation des sous-squences positives des utilisateurs pour lvaluation des similarits de
comportement.
HMAE
Comme dans le chapitre prcdent, nous nous intressons ici lvaluation de la HMAE
du BNCF-PCS tout en comparant les mmes variantes utilises ci-dessus, i.e. avec ou
sans clustering, utilisation dune matrice de note ou bien dune matrice de similarit. Les
rsultats en HMAE sont prsents dans les tableaux 2.5 et 2.6.
A partir du tableau 2.5, nous observons que lorsque le clustering exploite la matrice
de note, les valeurs de la HMAE augmentent pour les deux modles BNCF et FCS. Or,
sans lutilisation du clustering, le BNCF atteint une meilleure performance (amlioration
denviron 7%) en HMAE, compar au FCS (cf. section 1.3.1 du chapitre prcdent).
Tab. 2.5 Rsultats en HMAE avec ou sans clustering (utilisation dune matrice de note
en cas de clustering)
FCS BNCF
Sans clustering
0.541 0.501
Avec clustering k-means 1.285 1.272
Avec clustering PAM
1.168 1.159
Le tableau 2.6 prsente les rsultats en HMAE, en cas dapplication du clustering exploitant une matrice de similarit, dans le cadre du BNCF-PCS.
105

Lorsque cette matrice est utilise, la HMAE baisse considrablement pour les deux algorithmes de clustering k-means et PAM, compare la HMAE obtenue lorsque le clustering
exploite une matrice de notes (cf. tableau 2.5).
Bien quil ny a pas damlioration de rsultats de la HMAE, compar la variante sans
clustering, rappelons quune amlioration importante est obtenue au niveau de la MAE
et, comme nous le prciserons dans ce qui suit, le temps de calcul des voisinages a t
rduit.
Tab. 2.6 Rsultats en HMAE : utilisation dune matrice de similarit pour le clustering
BNCF-PCS
Avec clustering PAM
0.603
Temps de calcul
Dans cette section, nous nous intressons lvaluation du temps de calcul requis
pour la phase de calcul des similarits de comportement, avec ou sans clustering et avec
la slection ou non des sous-squences positives.
Les rsultats de cette valuation ont montr que les modles nintgrant pas le clustering, requirent en moyenne un temps de calcul plus lev, en vue dvaluer les similarits
de comportement. Ce temps de calcul rsulte du fait que les similarits ont t values
entre toutes les paires dutilisateurs contenues dans le corpus dapprentissage. Or, avec
lapplication du clustering, ces similarits sont calcules uniquement au sein des clusters,
ce qui se rpercute sur le nombre dutilisateurs concerns par lvaluation, qui tend bien
videmment la baisse.
Par ailleurs, partir de ces rsultats, nous remarquons galement que la slection des
sous-squences positives contribue une importante rduction du temps de calcul. En
eet, ce temps dcrot denviron 8% sans lutilisation du clustering et de 16% 30% avec
lapplication du clustering. Cela peut tre expliqu par le fait que le nombre de squences
considres lors de lextraction des motifs dusage a t rduit.
Pour le BNCF-PCS, lapplication du clustering et lutilisation des sous-squences positives reste bnque en terme de temps de calcul ainsi quen terme de prcision des
recommandations.
2.4.3
Discussion
Nous avons propos le modle BNCF-PCS en vue de rduire lespace de recherche pour
lidentication de voisins et damliorer la performance du systme de recommandation.
106
2.4. Evaluation
Pour la rduction de lespace de recherche, le BNCF-PCS applique lalgorithme de clustering PAM. La particularit de ce clustering rside dans lutilisation dune matrice de
similarit Utilisateur x Utilisateur plutt quune matrice de note Utilisateur x Item,
an de crer des clusters. Ainsi, dans le cadre du BNCF-PCS, les utilisateurs sont groups
en dirents clusters homognes, selon les similarits de leurs voisins.
Lavantage dune telle dmarche de clustering est la considration ditems supplmentaires
et non pas uniquement des items co-nots par les utilisateurs. En eet, tant donn que
les similarits exploites pour le clustering reposent sur les voisinages communs, tous les
items consults par les utilisateurs ayant des voisins en commun sont considrs.
Le BNCF-PCS a t valu en termes de MAE et de HMAE et compar dautres
modles de FCS, en vue dexaminer linuence de la matrice utilise lors du clustering
ainsi que limpact de lalgorithme de clustering utilis.
Les rsultats montrent lintrt dappliquer le clustering PAM (exploitant une matrice de
similarit) et dutiliser les sous-squences positives pour valuer les similarits de comportement. En eet, une importante amlioration en terme de MAE a t atteinte (cf.
tableau 2.4).
Toutefois, avec la slection des sous-squences positives, le systme risque de ne pas
tenir compte dinformations pertinentes relatives aux squences utilisateurs, en vue de
dtecter des motifs dusage ables. En eet, des sous-squences incluant les items non
apprcis peuvent galement rvler certaines corrlations de comportement entre utilisateurs.
Par ailleurs, lapplication du clustering (sur une matrice de similarit) risque de ngliger certaines informations pertinentes pendant le processus de rduction de lespace de
recherche. En eet, les utilisateurs sont groups en clusters selon les similarits de voisins. De ce fait, deux utilisateurs ua et ub qui sont faiblement similaires avec leur voisin
commun uc , ne vont pas appartenir au mme cluster. Nanmoins, lutilisateur ub peut apporter une importante contribution la gnration de prdictions lutilisateur actif ua ,
surtout lorsque le systme ne retrouve pas dautres voisins ua . Par consquent, une telle
perte dinformation est susceptible dengendrer une diminution de la capacit prdictive
du systme de recommandation.
Cest dans ce contexte que nous avons propos dtendre notre approche de recommandation, en intgrant dautres techniques permettant de faire face ce problme de perte
dinformation. En eet, nous souhaitons amliorer le processus didentication des voisins, notamment par la dcouverte de nouveaux liens entre utilisateurs qui peuvent tre
interprts comme tant des similarits. Ces nouveaux liens reprsentent une solution
prometteuse face au problme de manque de donnes.
107
108
Troisime partie
Approche sociale de recommandation
109
Chapitre 1
Prdiction de lien dans les rseaux
comportementaux
Dans lobjectif de pallier le manque de donnes, didentier des voisins ables et de
promouvoir la performance des systmes de recommandation, nous avons propos une
nouvelle approche sociale de recommandation.
En eet, dans le cadre du FCS (Filtrage Collaboratif Standard), les voisins sont identis
sur la base des similarits entre un utilisateur actif et les autres utilisateurs. Lvaluation de ces similarits repose sur le calcul des corrlations de leurs apprciations vis--vis
ditems co-nots dans le pass. Or, linconvnient de cette approche est quelle exploite
uniquement les apprciations communes, i.e. les liens directs entre utilisateurs, an de
calculer les prdictions. En eet, si deux utilisateurs ne partagent aucune de ces apprciations communes, aucun lien ne peut tre tabli entre eux (ce lien est mme considr
comme nul).
Ce problme mane notamment du manque de donnes. En eet, lorsque le volume des
donnes de notes est limit, lidentication des voisins savre complexe, ce qui entrane
une diminution de la capacit prdictive et de la qualit des prdictions produites par le
systme de recommandation.
Dans la partie prcdente, nous avons dj fait une premire proposition pour pallier
le problme de manque de donnes. Lapproche de recommandation prsente dans ce
chapitre vise galement remdier ce problme. En eet, lobjectif de cette nouvelle
approche est dexplorer de nouveaux liens entre des utilisateurs nayant pas eu ncessairement des apprciations communes antrieurement. Cest dans cette optique que nous
nous sommes inspirs des approches issues de lanalyse des rseaux sociaux, permettant
notamment de prdire les liens entre utilisateurs, do lappellation dapproche sociale de
recommandation.
Les rseaux sociaux reprsentent une structure sociale entre des acteurs, souvent des
individus ou des organisations, permettant dindiquer les connexions existantes entre eux,
111
Chapitre 1. Prdiction de lien dans les rseaux comportementaux

au travers de divers liens sociaux tels que lamiti, la collaboration professionnelle ou bien
lchange dinformation [Jamali et Abolhassani, 2006].
Avec lvolution accrue du Web et notamment du Web social, lanalyse des rseaux sociaux est de plus en plus prpondrante. Elle permet en eet danalyser les interactions,
dexaminer leur volution et de comprendre les ux sociaux. En vue danalyser lvolution de ces interactions, diverses techniques peuvent tre utilises, dont notamment la
prdiction de lien [Liben-Nowell et Kleinberg, 2003]. Lobjectif de la prdiction de lien
consiste prdire les futures interactions entre les acteurs, i.e. les futurs liens qui vont
potentiellement apparatre dans un rseau social.
Du point de vue modlisation de relations entre acteurs ou utilisateurs, les mthodes de
prdiction de lien et les systmes de recommandation convergent vers une mme question
de recherche : comment identier de nouveaux liens ou relations entre des utilisateurs qui
ne sont pas relis (connects) ?
Dans ce contexte, nous avons propos le modle D-BNCF Densied-Behavioral Network based Collaborative Filtering [Esslimani et al., 2009b] [Esslimani et al., 2009c] [Esslimani et al., 2010a]. En se basant sur les similarits comportementales calcules par le
BNCF, le modle D-BNCF modlise les liens entre utilisateurs au travers dun rseau
comportemental. Ainsi, deux utilisateurs similaires sont relis dans ce rseau.
D-BNCF exploite par la suite les mthodes de prdiction de lien, notamment les associations transitives, en vue de dcouvrir de nouveaux liens reliant les utilisateurs. Notre choix
dintgrer les mthodes de prdiction de lien dans le cadre du D-BNCF, a t appuy par
leur succs dans le contexte des rseaux sociaux [Liben-Nowell et Kleinberg, 2003].
Dans le domaine des rseaux sociaux, les associations transitives signient que les amis
de mes amis, sont mes amis. La transposition de cette proprit dans un rseau comportemental implique que les utilisateurs qui se comportent comme ceux qui se comportent
comme moi, se comportent comme moi.
Lapplication des mthodes de prdiction de lien, intgrant la transitivit, permet de complter et de densier le rseau comportemental par de nouveaux liens. Ces nouveaux liens
sont interprts comme des relations entre utilisateurs. Ainsi, de nouveaux voisins sont
identis et intgrs au calcul des recommandations.
1.1
1.1.1
Prdiction de lien
Dans le domaine des rseaux sociaux
Au vu du succs et de la popularit croissante des rseaux sociaux, lanalyse de ces

derniers a sucit lintrt dinnombrables travaux de recherche [Barabsi et al., 2002],
[Liben-Nowell et Kleinberg, 2003], [Mislove et al., 2007], [Crandall et al., 2008]. La plupart
de ces travaux visent analyser les structures des rseaux sociaux an de reprsenter les
112
1.1. Prdiction de lien

interactions et les inuences entre les acteurs.
La prdiction de lien constitue lun des problmes majeurs dans le domaine de lanalyse des rseaux sociaux. Elle consiste analyser lvolution dun rseau en prdisant les
futurs liens qui seront rajouts et en infrant les interactions futures entre les nuds de
ce rseau.
La prdiction de lien a t tudie dans dirents types de rseaux sociaux tels que les
rseaux scientiques de co-auteurs [Newman, 2001], [Barabsi et al., 2002], les rseaux
dinteractions biologiques [Yamanishi et al., 2005], [Ohn et al., 2003], les rseaux de communication via les forums ou par e-mail [Lim et al., 2003], etc.
Les mthodes de prdiction de lien peuvent reposer sur des approches danalyse topologique ou bien danalyse dattributs [Cooke, 2006].
Les approches danalyse topologique utilisent uniquement le rseau (reprsent par un
graphe) an dinfrer les futures interactions (deux personnes ayant des amis en commun,
ont tendance interagir). Une tude comparative de cette classe de mthodes est prsente dans [Liben-Nowell et Kleinberg, 2003].
Les approches danalyse dattributs nintgrent pas de thorie de graphe, mais considrent
plutt le contenu des interactions entre les nuds (les personnes) ou leurs attributs. A
titre dexemple, ces approches peuvent considrer le contenu des communications entre
les personnes en vue de rechercher les intrts quils ont en commun (deux personnes qui
discutent de la plonge sous-marine et de lalgbre ont tendance partager les mmes
centres dintrts et peuvent ainsi tre relis).
Par ailleurs, [Bartal et al., 2009] montrent lintrt de prdire les liens en combinant ces
deux classes de mthodes dans le cadre dun rseau de collaboration scientique. Il sagit
des mthodes de prdiction de lien exploitant les approches topologiques et des mthodes
issues des approches danalyse dattributs bases sur lanalyse de contenu. Les critres
de collaboration scientique (co-authoring de publications scientiques) et de similarit
des thmatiques de recherche sont considrs pour la prdiction de lien.
1.1.2
Dans le domaine des systmes de recommandation
Dans le domaine des systmes de recommandation, les mthodes de prdiction de lien

peuvent tre utilises pour prdire de nouveaux liens (entre utilisateurs et/ou items) et
gnrer les recommandations. [Huang et al., 2002] proposent un systme de recommandation bas sur un graphe bi-partite dans le contexte des bibliothques lectroniques. Les
items (les livres) et les utilisateurs reprsentent les nuds, les arcs reliant les utilisateurs
aux items reprsentent les transactions. Des associations dites de haut-degr (exploitant
lalgorithme Hopeld issu du domaine des rseaux de neurones [Hopeld, 1982]) ont t
appliques an de rechercher des liens pouvant relier des nuds non connects (reprsentant les utilisateurs et les items).
[Papagelis et al., 2005] exploitent une mthode de prdiction de lien fonde sur la
113

transitivit, en vue de remdier au problme de manque de donnes. Un modle exploitant
les infrences de conance est propos, dans le but daugmenter les voisinages requis pour
la gnration des recommandations. Dans la mme optique, [Huang et al., 2005] exploitent
les mthodes de prdiction de lien bases sur les voisins et sur les chemins dans le but
danalyser les interactions utilisateur-item reprsentes travers un graphe bi-partite.
Par ailleurs, [Kautz et al., 1997] [Zheng et al., 2007] intgrent linformation sociale
dans le cadre du FCS. Les consommateurs ou les utilisateurs reprsentent les nuds et les
relations sociales reprsentent les liens. Dans le but didentier les voisins, [Zheng et al.,
2007] appliquent une mthode de prdiction de lien fonde sur le calcul des distances (les
plus courts chemins) entre utilisateurs au niveau du rseau social. Les nouveaux liens
sociaux dcouverts sont utiliss pour calculer les prdictions.
A la dirence des travaux prsents ici, dans le cadre du D-BNCF nous proposons
dexploiter les mthodes de prdiction de lien dans un rseau comportemental. Ce rseau
comprend un seul type de nud reprsentant les utilisateurs. Les liens reliant ces utilisateurs reposent sur linformation comportementale plutt que linformation sociale ou
transactionnelle considre souvent par la plupart des tudes, notamment celles prsentes ici.
Lobjectif de lapplication des mthodes de prdiction de lien est didentier de nouveaux
liens entre utilisateurs. Ces nouveaux liens seront intgrs dans le processus de recommandation an de pallier le problme de manque de donnes et damliorer la prcision
des prdictions.
Le point commun entre le D-BNCF et les travaux cits ci-dessus, rside dans la considration du principe dassociations transitives pour la dcouverte de nouveaux liens.
1.2
Modle D-BNCF
La gure 1.1 prsente le modle D-BNCF en comparaison au BNCF et au FC Standard

(FCS). Pour rappel, le FCS et le BNCF visent identier les liens ou les voisins directs en
exploitant respectivement les similarits de notes et de comportement entre utilisateurs
(PHASE I). Ces similarits sont utilises par la suite pour lidentication des plus proches
voisins dont les apprciations sont combines pour le calcul des prdictions (PHASE II).
Quant au D-BNCF, il exploite la dmarche utilise par le BNCF consistant lvaluation
des similarits comportementales partir des motifs dusage communs. Ces similarits
permettent de modliser les liens entre utilisateurs travers un rseau comportemental.
Le D-BNCF inclut une tape supplmentaire permettant de densier ce rseau comportemental grce lintgration de nouveaux liens (voisins) identis par les mthodes de
prdiction de lien. Ces liens sont impliqus par la suite dans le calcul des prdictions
(PHASE II).
Les dirents mchanismes utiliss par le D-BNCF vont tre explicits dans les soussections suivantes.
114
1.2. Modle D-BNCF

Fig. 1.1 Schma dcrivant le modle D-BNCF
1.2.1
Modlisation du rseau comportemental
Dans le cadre du D-BNCF, nous exploitons un rseau dutilisateurs. A la dirence des

rseaux sociaux qui reposent sur les liens sociaux, ce rseau utilise linformation comportementale pour tablir des liens entre des utilisateurs ayant des motifs dusage en commun.
Le D-BNCF exploite la dmarche du BNCF (en phase dapprentissage) permettant dvaluer les similarits de comportement entre les paires dutilisateurs sur la base des motifs
115

dusage communs, en vue de construire un rseau comportemental. Ce rseau est modlis
travers un graphe o les nuds reprsentent les utilisateurs, les arcs reprsentent les
liens entre eux et les similarits de comportement reprsentent les poids des arcs.
1.2.2
Densification du rseau comportemental
En vue de densier le rseau comportemental construit, nous exploitons les mthodes

de prdiction de lien topologiques bases sur les voisinages des nuds et sur les chemins
[Liben-Nowell et Kleinberg, 2003] [Adamic et Adar, 2003] [Newman, 2001].
Nous navons pas choisi dappliquer au D-BNCF lapproche danalyse dattribut (ou de
contenu) parce quelle risque de ne pas prdire certains liens entre utilisateurs, en raison
de la non similarit des contenus des items pralablement visits (e.g. si deux utilisateurs
consultent des items ayant un contenu dirent, cette approche ntablit pas de lien entre
eux). Par consquent, le nombre de liens prdits par lapproche danalyse dattribut risque
dtre faible.
En outre, dans le cadre du D-BNCF exploitant les mthodes de prdiction de lien
topologiques, les liens entre deux utilisateurs sont calculs, non pas en considrant uniquement les items consults ou nots en commun, mais potentiellement tous les items
que ces utilisateurs ont dj consult. Notons que les liens calculs ne dpendent pas que
de ces deux utilisateurs, mais dautres informations obtenues partir du rseau ou du
graphe.
Ce principe de calcul de liens rejoint la dmarche de clustering (exploitant une matrice de
similarit) propose dans le chapitre prcdent, dans la mesure o elle consiste prendre
en compte les autres utilisateurs nayant pas ncessairement des items en commun avec
lutilisateur actif.
Les mthodes de prdiction de lien que nous avons utilises dans le cadre du D-BNCF
sont prsentes dans ce qui suit.
Mthodes bases sur le voisinage

Attachement prfrentiel : [Barabsi et al., 2002] et [Newman, 2001] considrent
quil existe une forte probabilit que des nuds se connectent, si ces nuds, appells
galement hubs, sont dj connects un nombre lev de nuds travers le
rseau. Cette ide rejoint le principe du rich-get-richer 22 .
Selon [Liben-Nowell et Kleinberg, 2003], lattachement prfrentiel peut tre mesur
comme tant la probabilit de connexion entre deux nuds ua et ub base sur le
produit du nombre de leurs voisins.
22
A lorigine, ce principe a t utilis dans le domaine de lconomie pour critiquer le capitalisme et en

particulier le fait que les personnes riches ont tendance senrichir plus. Il a t repris par la suite par
Barabsi en 1999 qui a constat que ce principe est valable galement pour prdire lvolution des liens
hypertextes entre les pages Web [Barabsi et Albert, 1999]
116
1.2. Modle D-BNCF

Lattachement prfrentiel a toutefois linconvnient dobtenir des valeurs de similarits leves concernant les utilisateurs hyperconnects, au dtriment des utilisateurs
peu connects dans le rseau. Cet inconvnient relve du fait que les relations entre
utilisateurs dpendent uniquement de leur connectivit. Or, notre but est de trouver
de nouveaux voisins aux nuds qui en ont peu.
En outre, une autre limite de cette mthode est la cration de plusieurs liens entre
les nuds (ayant des nuds voisins) et la maximisation de la connectivit du rseau.
Donc cette mthode savre peu approprie dans notre cas.

Nous considrons (ua ) qui reprsente les voisins de lutilisateur ua et (ua ) le
nombre de voisins de ua . Lattachement prfrentiel entre ua et ub est calcul comme
suit :

1
Sim(ua , ub ) = ((ua ) (ub ) )
(1.1)
reprsente ici un facteur de normalisation.
Voisins communs Common neighbors : mesure la similarit entre deux utilisateurs ua et ub en fonction du nombre de leurs voisins communs. Voisins communs
entre ua et ub est calcul ainsi :

1
Sim(ua , ub ) = ((ua ) (ub ) )
(1.2)
reprsente galement ici un facteur de normalisation.

Cette mthode considre que plus les utilisateurs partagent des voisins en commun,
plus ils sont corrls [Liben-Nowell et Kleinberg, 2003]. Or, comme pour lattachement prfrentiel, linconvnient de cette mthode est sa tendance attribuer des
similarits leves aux utilisateurs ayant de nombreux voisins. De ce fait, la similarit entre les utilisateurs disposant de peu de voisins tend tre faible, voire nulle,
alors que notre objectif initial consiste crer des liens, en particulier pour cette
catgorie dutilisateurs.
Coefficient Jaccard : il sagit dune amlioration de la mthode voisins communs,
puisquelle value la similarit comme tant le rapport entre les voisins communs de
ua et ub et le nombre total de leurs voisins [Liben-Nowell et Kleinberg, 2003]. Selon
lquation (1.3), plus ua et ub ont des voisins communs, parmi lensemble de leurs
voisins, plus ils sont corrls.
Compar aux deux mthodes prcdentes, Jaccard a lavantage de ne pas augmenter
linuence des utilisateurs disposant dun grand nombre de voisins.

(ua ) (u )
b

(1.3)
Sim(ua , ub ) =
(ua ) (u )
b
Adamic/Adar : lorigine, [Adamic et Adar, 2003] ont propos une mthode an

dvaluer la probabilit quun utilisateur ua soit connect ub , en prenant en compte
117

les items que ces deux utilisateurs ont en commun. La particularit de cette mthode
est que les items qui sont partags par peu dutilisateurs, ont un poids plus important que les items dont les occurences sont leves (i.e. les items qui sont communs
plusieurs paires dutilisateurs).
Selon lquation (1.4), au lieu de considrer les items, nous considrons les voisins que ua et ub ont en commun. La frquence de chaque voisin commun uc , not
f requency(uc ), est calcule parmi toutes les paires dutilisateurs.
Lavantage de cette mthode est quelle met en vidence limportance des voisins
communs qui sont rares.
Sim(ua , ub ) =
uc (ua ) (ub )
1
log [f requency(uc )]
(1.4)
Outre les mthodes prsentes ci-dessus, nous avons propos une nouvelle mthode
de prdiction de lien, fonde sur le voisinage, appele ETL (Enhanced Transitive Link). Il sagit dune amlioration de la mthode Jaccard. Cette mthode,
reprsente par lquation (1.5), calcule le lien entre deux utilisateurs en considrant
les plus proches voisins que deux utilisateurs ua et ub ont en commun,
nots

E(ua ) E(u ) , par rapport leurs voisins communs, nots (ua ) (u ) .
b
b
Pour slctionner les plus proches voisins communs ua et ub , nous avons propos de
calculer pour chaque utilisateur, la valeur mdiane de similarit, parmi lensemble
de ses voisins. Ainsi, les plus proches voisins de chaque utilisateur sont dtermins
en fonction de cette valeur mdiane de similarit.

E(ua ) E(u )
b

(1.5)
Sim(ua , ub ) =
(ua ) (ub )
Lors de lapplication des mthodes fondes sur le voisinage, une seule itration est
permise an dexplorer de nouveaux liens travers le rseau comportemental. Les
liens originaux sont ainsi remplacs par les nouveaux liens calculs, qui sont intgrs
par la suite pour gnrer les prdictions.
Mthodes bases sur les chemins

Distance de graphe (graph distance) : dans le but de comparer les mthodes
prcdentes appartenant la famille de mthode de prdiction bases sur le voisinage,
la famille de mthode bases sur les chemins [Cooke, 2006], nous avons utilis la mthode
distance de graphe pour identier les nouveaux liens travers le rseau comportemental.
Cette mthode calcule le plus court chemin entre les utilisateurs ua et ub . Dans notre
modle, nous avons calcul les plus courts chemins en prenant en compte les similarits
de comportement comme tant les poids des arcs.
Nous avons transform les similarits entre les utilisateurs ua et ub , notes Sim(ua , ub ),
en valeurs de distance d(ua , ub ) selon lquation (1.6).
118
1.2. Modle D-BNCF
d(ua , ub ) = 1 Sim(ua , ub )
(1.6)
A la n du processus, lorsque les nouveaux liens sont dcouverts (les plus courts chemins entre utilisateurs), ces valeurs sont nouveau transformes en similarits Sim (ua , ub )
(suivant lintervalle [0, 1]) en utilisant lquation (1.7). dmax reprsente la distance maximale dun plus court chemin identi parmi toutes les paires dutilisateurs. Lobjectif de
lutilisation de cette quation consiste normaliser les valeurs de distances.
Ainsi, les nouveaux liens calculs sont considrs pour la gnration des prdictions.
Sim (ua , ub ) = 1
d(ua , ub )
dmax
(1.7)
Les gures 1.2 et 1.3 permettent dillustrer lapplication de cette mthode. Lors de
la recherche des plus courts chemins entre les paires dutilisateurs travers le rseau
comportemental, nous distinguons deux types de paires :
1. une paire dutilisateurs qui ne sont pas connects directement,
2. une paire dutilisateurs qui sont dj connects travers un lien direct.
La gure 1.2 est une illustration du premier type de paire. Dans cet exemple, ue et
uh ne sont pas connects directement dans le rseau comportemental. Les similarits sont
transformes en distance pour que les chemins les plus courts soient calculs travers le
rseau comportemental (volet (II)). Grce la transitivit, un nouveau lien est identi
entre ue et uh tel que : d(ue , uh ) = d(ue , uf ) + d(uf , uh ) = 0.5 + 0.7 = 1.2 (volet (III)).
Dans cet exemple, nous avons considr que dmax = 1.5. Ainsi la similarit est calcule en
e ,uh )
= 1 1.2
utilisant lquation (1.7) : Sim (ue , uh ) = 1 d(u
= 0.2 (volet (IV)).
dmax
1.5
Fig. 1.2 Calcul du plus court chemin entre ue et uh
119

Lapplication de la mthode distance de graphe sur le deuxime type de paire, permet
dexplorer de nouveaux liens potentiellement forts entre deux utilisateurs relis, au vu des
liens forts reliant les voisins intermdiaires.
La gure 1.3 est une illustration de ce cas. Ainsi, en considrant les deux utilisateurs
ue et uf tel que Sim(ue , uf ) = 0.3, lors du calcul des plus courts chemins travers le
rseau comportemental, toutes les similarits sont transformes en distance : d(ue , uf ) =
1 Sim(ue , uf ) = 1 0.3 = 0.7 (volet (II)). Par la suite, de nouveaux liens sont identis
grce la transitivit. Ici, nous dcouvrons un deuxime chemin ou lien entre ue et uf
travers lutilisateur uc . Une nouvelle distance peut tre ainsi calcule en prenant en
compte ce nouveau lien (volet (III)) :
d (ue , uf ) = d(ue , uc ) + d(uc , uf ) = 0.1 + 0.2 = 0.3
Alors la nouvelle similarit est calcule en utilisant d (ue , uf ) comme valeur de distance
dans lquation (1.7). Dans cet exemple, nous avons considr galement que dmax = 1.5,
d (ue ,uf )
= 0.8 (volet (IV)). Ainsi,
de ce fait, la similarit Sim (ue , uf ) = 1 dmax
= 1 0.3
1.5
en prenant en compte cette nouvelle similarit calcule, le nouveau lien remplace lancien
lien qui reliait les deux utilisateurs.
Fig. 1.3 Calcul du plus court chemin entre ue et uf
Dans le cadre des mthodes fondes sur les chemins, nous avons suggr une variation de la mthode distance de graphe, en considrant le critre du nombre de nuds
intermdiaires prsents au niveau du plus court chemin entre deux paires de nuds ou
dutilisateurs dans le rseau comportemental. Ainsi, les poids des arcs, dnis par les similarits de comportement, ne sont pas considrs. Plus le nombre de nuds intermdiaires
est faible, plus le chemin est able.
Dans le but de calculer le nouveau lien entre deux utilisateurs ua et ub , nous utilisons
des valeurs boolennes an de dterminer la prsence dun lien ou non. Deux utilisateurs
similaires sont ainsi relis par un arc dont le poids vaut 1, sinon ce poids vaut 0 (i.e. le lien
est inexistant). Autrement dit, le rseau comportemental est reprsent par un graphe non
valu. Aprs le calcul des plus courts chemins, nous dduisons les valeurs de similarits en
utilisant lquation (1.7). Ici, d est reprsent par le nombre de nuds intermdiaires et
dmax dsigne le nombre maximal de nuds reliant un utilisateur avec lun de ses voisins.
120
1.2. Modle D-BNCF

Lapplication des mthodes de prdiction de lien mne lidentication de nouveaux
liens entre utilisateurs, au niveau du rseau comportemental. La plupart des mthodes
prsentes ci-dessus ( lexception de lattachement prfrentiel ) applique le principe de
transitivit lors de lexploration des nouveaux liens.
La gure 1.4 prsente un exemple didentication de voisins par le D-BNCF grce
lexploitation des mthodes de prdiction de lien. Pour des raisons de simplication, les
valeurs numriques nont pas t fournies dans les matrices.
Sur cette gure, si nous comparons la matrice du BNCF aux matrices D-BNCF, nous observons que lapplication des mthodes de prdiction de lien mne une augmentation du
nombre de voisins. Notons que les matrices relatives D-BNCF-AttachementPrfrentiel
et D-BNCF-DistanceDeGraphe sont pleines. Ce rsultat dcoule du fait quun lien entre
deux utilisateurs est cr lorsquun utilisateur a au moins un voisin.
Fig. 1.4 Exemple comparant les voisins identis par D-BNCF (selon les mthodes de
prdiction de lien)
En comparant les matrices D-BNCF, nous observons que dans certains cas, des liens
sont dcouverts par toutes les mthodes, tel que le lien entre u1 et u4 . Dans dautres cas,
selon la mthode utilise, les nouveaux liens peuvent tre rajouts ou pas. En eet, si nous
comparons les matrices D-BNCF-Adamic/Adar et D-BNCF-Jaccard, nous remarquons
que D-BNCF-Jaccard a identi un nouveau lien entre u2 et u3 , alors que D-BNCFAdamic/Adar na pas identi ce lien. En eet, le voisin commun u1 de la paire de nuds
hu2 , u3 i nest pas frquent parmi les autres paires de nuds.
La gure 1.5 prsente la matrice D-BNCF-Adamic/Adar sous forme de graphe. Les
lignes pleines reprsentent les liens directs calculs par le BNCF et les lignes pointilles
121

reprsentent les nouveaux liens dcouverts par le D-BNCF-Adamic/Adar.
Nous observons dabord que lutilisateur u1 a deux voisins directs u2 et u3 . Lapplication
de la mthode Adamic/Adar a contribu laugmentation du voisinage par deux nouveaux
voisins u4 et u5 .
Ainsi, bien que ces deux utilisateurs ne soient pas similaires en terme de navigation ou
de comportement (i.e. ils nont pas consult susamment ditems en commun dans le
pass), un lien potentiellement fort entre eux est susceptible dtre dcouvert grce la
forte similarit de leurs voisins intermdiaires.
Fig. 1.5 Identication de nouveaux voisins par D-BNCF-Adamic/Adar
Les direntes mthodes prsentes dans cette section permettent didentier de nouveaux voisins potentiels pour tous les utilisateurs actifs. Ces voisins sont par la suite
impliqus dans le calcul des prdictions dans lobjectif de remdier au manque de donnes
et damliorer la performance du systme de recommandation.
1.2.3
Gnration des prdictions
Une fois les nouveaux liens entre un utilisateur actif ua et les autres utilisateurs sont
identis (PHASE I), les prdictions sont calcules (PHASE II) en se basant sur lquation
de la somme pondre utilise dans les chapitres prcdents, an de calculer les prdictions
pour chaque utilisateur actif.
Nous slectionnons les plus proches voisins Ua (directs et non directs) dans le rseau
comportemental, ayant dj not litem prdire ik .
Les items qui seront recommands lutilisateur actif sont les items disposant des valeurs
de prdictions les plus leves.
1.3
Evaluation du modle
En vue dvaluer la performance du D-BNCF, nous avons utilis le mme corpus

dusage du Crdit Agricole expriment dans les chapitres prcdents. Ce corpus inclut
122
1.3. Evaluation du modle

les traces de navigation des utilisateurs du Groupe Crdit Agricole. Dans le cadre de cette
valuation, nous avons utilis les mtriques MAE et HMAE an dvaluer la prcision des
recommandations.
1.3.1
Modles expriments
Lobjectif de cette valuation consiste tudier limpact de chaque mthode de prdiction de lien sur la performance du systme de recommandation.
Les modles D-BNCF sont nots ainsi :
D-BNCF-VoisinsCommuns,
D-BNCF-AttachementPrfrentiel,
D-BNCF-Jaccard,
D-BNCF-Adamic/Adar,
D-BNCF-ETL(Enhanced Transtitive Link),
D-BNCF-DistanceDeGraphe-Valu (en considrant les similarits en tant que poids
des arcs),
D-BNCF-DistanceDeGraphe-NonValu (les poids des arcs ne sont pas considrs,
cest le nombre de nuds sparant deux utilisateurs qui dtermine le plus court
chemin).
En outre, nous avons compar la performance des modles D-BNCF au :
BNCF : il reprsente le rseau comportemental sans aucun nouveau lien. Seuls les
voisins directs sont impliqus au calcul des prdictions.
FCS.
Par ailleurs, dans lobjectif dexaminer si les modles D-BNCF peuvent tre complmentaires, nous avons propos un autre modle combinant les similarits calcules par les
deux modles D-BNCF les plus performants.
1.3.2
Rsultats
MAE
Le tableau 1.1 prsente les rsultats en MAE relatifs aux modles D-BNCF compars
au BNCF ainsi quau FCS. En observant les rsultats du tableau 1.1, nous remarquons
quen cas dapplication de la mthode distance de graphe (D-BNCF-DistanceDeGrapheValu/D-BNCF-DistanceDeGraphe-NonValu) exploitant soit un graphe (rseau comportemental) valu ou bien non valu, lutilisation de nouveaux liens contribue une lgre
123

amlioration, compare au BNCF exploitant uniquement les liens directs.
Or, la prcision en MAE se dtriore lorsque les mthodes dAttachement prfrentiel, de
voisins communs, de Jaccard, dAdamic/Adar et dETL (Enhanced Transtitive Link) sont
appliques au rseau comportemental.
Tab. 1.1 Rsultats en MAE
Modles de recommandation
FCS
BNCF
D-BNCF-VoisinsCommuns
D-BNCF-AttachementPrfrentiel
D-BNCF-Jaccard
D-BNCF-Adamic/Adar
D-BNCF-ETL
D-BNCF-DistanceDeGraphe-Valu
D-BNCF-DistanceDeGraphe-NonValu
MAE
0.763
0.789
1.074
1.011
0.858
0.882
0.847
0.782
0.780
En outre, nous constatons quavec lapplication des mthodes Jaccard, Adamic/Adar,

ETL et distance de graphe, nous obtenons une meilleure prcision que les mthodes Common neighbors et Attachement prfrentiel. La performance de ces mthodes rsulte de la
technique utilise pour la dcouverte de nouveaux liens. En eet, lAttachement prfrentiel a pour limite de crer un rseau hyper-connect. Par consquent, de nombreux voisins
(mme ceux qui ne sont pas rellement similaires aux utilisateurs actifs) sont intgrs au
calcul des prdictions.
En ce qui concerne la mthode voisins communs, elle a comme inconvnient dattribuer des
valeurs de similarits leves entre les utilisateurs ayant beaucoup de voisins, au dtriment
de ceux ayant un nombre faible de voisins.
De plus, en cas dapplication du D-BNCF-Jaccard, les utilisateurs sont considrs
comme similaires lorsquils partagent une importante proportion de voisins communs
parmi tous leurs voisins. Cette mthode savre ainsi plus performante, parmi les autres
mthodes cites plus haut. La mthode ETL, qui constitue une amlioration de la mthode
Jaccard (en considrant spciquement les voisins communs les plus proches), mne une
lgre amlioration de la qualit des recommandations, compare Jaccard, en terme de
MAE.
En ce qui concerne le D-BNCF-Adamic/Adar, sa performance est lie particulirement au
fait que les voisins communs rares ont un poids plus important que les voisins frquents.
Si deux utilisateurs ont en commun des voisins rares, ils tendent tre trs similaires.
HMAE
Les rsultats en HMAE relatifs cette exprimentation sont prsents dans le tableau
1.2.
124

Si nous observons les rsultats des modles D-BNCF, nous pouvons signaler dabord que
lapplication des mthodes de prdiction de lien contribue une importante amlioration
de la prcision des recommandations en terme de HMAE.
Compar au FCS, lutilisation des mthodes de prdiction de lien amliore la HMAE
denviron 33%. De plus, lutilisation des mthodes Jaccard, Adamic/Adar ou distance
de graphe (valu et non valu), mne une meilleure prcision de 24%, 27% et 7% respectivement, compar au BNCF. Cependant, lutilisation de lAttachement prfrentiel
et de lETL diminue faiblement la prcision du BNCF en terme de HMAE. La mthode
de voisins communs, quant elle, bien quelle engendre un taux derreur plus lev au
niveau des recommandations compare aux autres mthodes, reste tout de mme plus
performante que le modle FCS.
Notons que Jaccard, Adamic/Adar et distance de graphe contribuent de meilleures
performances en HMAE, compars aux mthodes dattachement prfrentiel et de voisins
communs. Ces performances conrment la abilit des mthodes Jaccard, Adamic/Adar
et distance de graphe pour lvaluation des similarits entre les paires dutilisateurs
travers le rseau comportemental.
Tab. 1.2 Rsultats en HMAE
Modles de recommandation
HMAE
FCS
0.541
BNCF
0.501
D-BNCF-VoisinsCommuns
0.536
D-BNCF-AttachementPrfrentiel
0.505
D-BNCF-Jaccard
0.380
D-BNCF-Adamic/Adar
0.364
D-BNCF-ETL
0.515
D-BNCF-DistanceDeGraphe-Valu
0.468
D-BNCF-DistanceDeGraphe-NonValu
0.471
Dans le but dvaluer la complmentarit entre des modles D-BNCF en terme de
prdiction et en prenant en considration les rsultats des modles D-BNCF prsents ici,
nous avons choisi dvaluer en outre, un autre modle combinant les similarits issues de
deux modles D-BNCF. Ces deux modles exploitent direntes mthodes de prdiction
de lien. Les rsultats de cette valuation sont prsents dans ce qui suit.
1.3.3
D-BNCF Combin
En tenant compte des performances des modles D-BNCF dcrites ci-dessus, nous
avons slectionn les modles D-BNCF exploitant les mthodes Jaccard et Adamic/Adar,
vu leur performance en terme de HMAE.
Bien que Jaccard et Adamic/Adar appartiennent la mme famille de mthodes de prdiction de lien, savoir les mthodes fondes sur le voisinage des nuds, ces mthodes
125

mesurent diremment les liens entre utilisateurs. Jaccard considre le critre des voisins
communs et Adamic/Adar prend en compte les voisins communs rares. A cet eet, la
combinaison des similarits provenant de ces modles reste cohrente et potentiellement
complmentaire. La combinaison des similarits rsultant de ces deux mthodes est ainsi
susceptible damliorer la qualit des recommandations.
Notons que si une paire de nuds ua et ub est corrle au niveau des deux modles
D-BNCF-Jaccard et D-BNCF-Adamic/Adar, nous retenons la moyenne des valeurs de
similarit calcules par chacun de ces deux modles.
Les rsultats relatifs lexprimentation du D-BNCF combin correspondent 0.870
en terme de MAE et 0.355 en HMAE. Ainsi, au niveau de la MAE, aucune amlioration de la prcision nest atteinte. Or, en terme de HMAE, le modle combin a permis
datteindre une meilleure prcision compare tous les modles tudis ici. Ce modle
amliore la prcision de 3%, compar au meilleur score de prcision obtenu auparavant
parmi tous les modles. De plus, au niveau de la HMAE, le modle combin contribue
une amlioration de 34% compar au FCS et de 29% compar au BNCF. Ces rsultats conrment la complmentarit entre les mthodes Jaccard et Adamic/Adar et la
pertinence de leur combinaison.
1.3.4
Discussion
Nous avons prsent ici le modle de recommandation D-BNCF que nous avons propos. Le D-BNCF exploite un rseau comportemental (construit partir des similarits de
comportement entre utilisateurs) ainsi que les mthodes de prdiction de lien permettant
de densier ce rseau. Lobjectif du D-BNCF consiste dcouvrir de nouveaux liens entre
utilisateurs. Ces nouveaux liens sont impliqus dans le processus de recommandation an
de pallier le manque de donnes et damliorer la qualit des recommandations.
Lvaluation des modles D-BNCF montre limpact des mthodes de prdiction de lien
Jaccard et Adamic/Adar, en particulier en terme de HMAE. La performance de ces deux
mthodes est lie la faon dont les nouveaux liens sont identis, considrant les voisins
communs et les voisins communs rares, plutt que plusieurs voisins intermdiaires telle
que dans la mthode distance de graphe.
La faible prcision des recommandations produites par le D-BNCF-AttachementPrfrentiel
et D-BNCF-VoisinsCommuns tait prvisible. En eet, ces deux mthodes engendrent respectivement une hyperconnectivit du rseau comportemental ainsi que laugmentation
de limpact des utilisateurs disposant de nombreux voisins.
En ce qui concerne la mthode de prdiction que nous avons propose ETL (Enhanced
Transitive Link), la performance ralise reste modeste. Les rsultats obtenus au niveau
de la prcision des recommandations sont notamment ds la stratgie de slection des
plus proches voisins communs.
En vue dexaminer cette question et dans la perspective damliorer la prcision des re126

commandations, nous avons ralis une autre exprimentation du D-BNCF-ETL, en considrant une autre stratgie pour la dcouverte de nouveaux liens entre utilisateurs. Cette
stratgie consiste slectionner les TopN voisins communs les plus proches partir de la
valeur mdiane de similarit, calcule pour le voisinage de chaque utilisateur. Nous avons
considr ces TopN, tel que N = 60%, N = 40% ou N = 20% des meilleurs voisins.
Les meilleurs rsultats relatifs cette exprimentation correspondent au choix du T opN 40%
pour la slection des plus proches voisins communs. Le rsultat obtenu pour cette exprimentation correspond 0.849 en terme de MAE et 0.347 en HMAE. Ainsi, en prenant
en compte les autres exprimentations relatives aux modles D-BNCF, nous pouvons dduire que la performance de la mthode ETL est trs sensible aux stratgies de slection
des voisins communs les plus proches.
En outre, au niveau de la mthode distance de graphe, nous avons montr que la
considration du nombre de nuds, sparant deux utilisateurs sur le chemin le plus court
peut tre aussi able que la considration des poids de similarits comportementales. En
eet, les rsultats de lexprimentation soulignent limportance de cette mthode pour
prdire ecacement les liens entre utilisateurs.
De plus, lvaluation du D-BNCF combin, prsente ci-dessus, met en vidence limportance de combiner les similarits calcules par les modles D-BNCF-Jaccard et DBNCF-Adamic/Adar. Cette combinaison savre en eet complmentaire, considrant que
ces deux modles exploitent deux mthodes direntes pour valuer les similarits entre
utilisateurs.
Par ailleurs, comme pour les rseaux sociaux, les rseaux comportementaux sont dynamiques et ont tendance voluer rapidement par lajout de nouveaux nuds. Ainsi,
pour rsoudre la question dvolution des rseaux comportementaux, une stratgie diffrente (que celle prsente ici) doit tre applique pour lexploitation des mthodes de
prdiction de lien. En eet, le processus de dcouverte de nouveaux liens dans le cadre de
larges rseaux, peut tre limit par exemple un sous-ensemble de nuds (utilisateurs),
tels que les nuds ne disposant pas dun nombre susant de voisins.
En outre, une question qui reste galement rsoudre est le dmarrage froid. En
eet, en cas dintroduction dun nouvel item au systme, cet item ne disposant pas encore
dapprciations de la part des utilisateurs, ne peut tre intgr dans le processus de recommandation. Dans cette perspective, nous avons propos un modle qui repose sur les
leaders comportementaux pour la recommandation de la nouveaut. Ce modle est dcrit
dans le chapitre suivant.
127
128
Chapitre 2
Leaders comportementaux pour la
recommandation de la nouveaut
Dans les chapitres prcdents, nous nous sommes intresss ltude des problmes de
manque de donnes et de la qualit des recommandations. Dans le cadre des systmes de
recommandation fonds sur le FCS, une autre question de recherche qui demeure souleve
est le dmarrage froid concernant les items, appelle aussi problme de latence [Sollenborn et Funk, 2002]. En eet, un item rcemment intgr un systme de recommandation, ntant pas encore consult ou not par un utilisateur, ne peut tre recommand aux
utilisateurs actifs.
En vue de rsoudre ce problme de latence, la solution la plus communment utilise
consiste exploiter la technique base sur le contenu (cf. section 1.4.2, chapitre 1, partie
1). Lorsquun nouvel item est intgr, le systme value sa similarit avec les autres items
disponibles en terme de contenu. Ainsi, ce nouvel item pourra tre recommand un
utilisateur ayant apprci dans le pass des items ayant un contenu similaire ce nouvel
item.
La technique base sur le contenu constitue un moyen damorage et permet de recommander un nouvel item ds son intgration dans le systme. Or, sur le long terme, lutilisation
de cette technique peut ne pas tre approprie. En eet, la technique base sur le contenu
a pour inconvnient dengendrer une surspcialisation des recommandations (i.e. toutes
les recommandations sont lies un mme domaine). De plus, cette technique pose des
problmes lorsquil sagit ditems qui ne sont pas des donnes textuelles.
Dans ce chapitre, nous prsentons le modle que nous avons propos dans le but
dattnuer ou de rduire le temps de latence. Ce modle repose sur lidentication de
leaders comportementaux dans le contexte des rseaux comportementaux [Esslimani et al.,
2010b] et des systmes de recommandation [Esslimani et al., 2010c].
Dans le domaine des rseaux sociaux, un leader est une personne qui inuence ses
amis ou ses collaborateurs par ses ides et ses opinions. Ici, nous considrons quun leader
129
Chapitre 2. Leaders comportementaux pour la recommandation de la nouveaut

comportemental est un utilisateur fortement connect des utilisateurs ayant un comportement similaire et qui prdit ablement les apprciations de ces utilisateurs. A notre
sens, en connaissant leurs opinions sur les nouveaux items, ces leaders reprsentent les
utilisateurs quun systme de recommandation doit cibler an de prdire les apprciations
des autres utilisateurs du rseau concernant ces items.
Dans les sections qui suivent, nous prsenterons dabord quelques travaux de recherche
ayant trait au leadership et la dtection de leaders et dinuenceurs. Par la suite, nous
dcrirons lalgorithme propos pour la dtection de leaders comportementaux ainsi que
les rsultats de son valuation.
2.1
Dtection des leaders et des influenceurs
Le leadership et la propagation de linuence ont fait lobjet de nombreuses tudes lies

au domaine du marketing, des sciences sociales et de lanalyse des rseaux sociaux [Goyal
et al., 2008]. Ces tudes visent comprendre comment les communauts mergent, quelles
sont leurs proprits, comment elles voluent, quels sont les rles des membres de ces
communauts et comment les inuenceurs ou les leaders dopinion peuvent tre dtects
travers ces communauts.
Katz et Lazarsfeld [Katz et Lazarsfeld, 1955] ont dni les leaders dopinion comme les
individus qui sont susceptibles dinuencer les autres personnes appartenant leur environnement immdiat. Les premires tudes de linuence et du leadership ont mis laccent
sur lanalyse de la propagation des innovations mdicales et technologiques [Coleman et al.,
1966]. Plus rcemment, [Valente, 1995] a examin galement cette question en proposant
des modles de diusion de linnovation dans le cadre de rseaux.
Dans le domaine du marketing (marketing viral), la propagation de linuence est
souvent lie au phnomne du bouche--oreille et son eet sur le succs de nouveaux
produits [Domingos et Richardson, 2001].
Le challenge le plus important en marketing est comment trouver un petit segment de
la population (inuenceurs ou leaders) capable dinuencer les autres segments, par leurs
opinions positives ou ngatives concernant des produits ou des services [Watts et Dodds,
2007]. Keller et Berry [Keller et Berry, 2003] conrment limportance des inuenceurs
dans la mesure o ils orientent les dcisions dune communaut et prdisent les futures
tendances de marchs. Selon leur tude, un amricain sur dix dit aux neuf autres comment
voter, o manger et quoi acheter.
Avec le dveloppement de lInternet, les leaders et les inuenceurs nutilisent pas uniquement le bouche--oreille traditionnel, ils peuvent propager leurs opinions travers des
changes interactifs sur les blogs, les forums, les wikis et les direntes plate-formes de
rseaux sociaux. En eet, de nos jours, les rseaux sociaux deviennent le media le plus
important pour la propagation dinformations, dinnovations et dopinions.
130
2.1. Dtection des leaders et des influenceurs

De nombreuses tudes rcentes se sont intresses lanalyse des interactions et des inuences entre entits et lvaluation de limpact des leaders dans les rseaux sociaux. Par
exemple, [Kempe et al., 2003] ont tudi les algorithmes dapproximation pour la maximisation dinuence dans les rseaux de co-auteurs. [Agarwal et al., 2008] sintressent
lidentication des blogueurs inuenceurs actifs et non actifs permettant dorienter les
tendances et daecter les intrts de groupes dans le contexte des blogs. [Goyal et al.,
2008] proposent une approche danalyse de motifs an de dcouvrir les leaders et dvaluer
leur inuence sur le rseau social. Des actions telles que le tagging, lattribution de note,
lachat ou lenvoi dun message sur un blog, sont considres lors de la dcouverte des
motifs frquents. [Goyal et al., 2008] considrent en eet que dans un rseau social, un
leader peut guider les tendances de ralisation dactions. Ainsi, les amis sont tents de
raliser les mmes actions que celles eectues par le leader.
Par ailleurs, dautres tudes ont t ddies ltude de limpact de la structure de
rseau sur la propagation dinformations et dopinions. [Barabsi et al., 2002] [Newman,
2003] mettent notamment en vidence le rle des nuds hyperconnects dans un rseau
social (appels galement hubs), pour la diusion dinformation et pour lvolution de
la collaboration dans ce rseau. [Gladwell, 2000] conrme galement que les nuds trs
connects ont une inuence considrable sur leurs voisins. Keller et Berry [Keller et Berry,
2003] montrent aussi que les utilisateurs ayant une inuence sur les autres, disposent
relativement dun nombre lev de liens sociaux.
A notre connaissance, dans le contexte des systmes de recommandation et du FCS,
la dtection de leaders a t examine dans peu dtudes. Parmi ces tudes, nous pouvons
citer le travail de [Cheon et Lee, 2005], dont lobjectif consiste rsoudre le problme
de dmarrage froid li un nouvel utilisateur. [Cheon et Lee, 2005] proposent ainsi
un systme de recommandation permettant de slectionner les leaders dopinion. An de
dtecter ces leaders, ce systme utilise des infrences exploitant une mthode issue du
marketing nomme RFM (Recency, Frequency, Monetary). Par la suite, les topN items
apprcis par les leaders identis sont proposs un nouvel utilisateur.
[OReilly, 2005] a dni direntes mtriques permettant de mesurer linuence des utilisateurs sur les systmes de recommandation exploitant les notes. Ils proposent notamment
une mtrique qui mesure linuence en supprimant les notes de certains utilisateurs lors
du calcul des prdictions an dobserver leet de cette suppression sur les rsultats des
recommandations. Si la dirence est importante, lutilisateur est dtect comme tant
inuenceur.
Ce qui distingue le modle propos ici des travaux cits ci-dessus est que la dtection
de leaders nest pas une n en soi, mais elle va nous servir attnuer le problme de
latence ou de nouveaut des items. De plus, an de dterminer les leaders les plus ables,
notre approche repose sur deux critres. Le premier critre est li aux approches utilises
dans le domaine de lanalyse des rseaux sociaux. Le deuxime critre consiste analyser
la capacit prdictive dun utilisateur ou dun leader potentiel en exploitant les liens
comportementaux. Notre approche va tre dcrite dans la section suivante.
131
2.2
Dtection des leaders comportementaux
Les systmes de recommandation fonds sur le Filtrage Collaboratif Standard (FCS)

requirent un volume considrable de donnes de notes an dvaluer les similarits entre
utilisateurs et calculer les recommandations. Lorsquun item est nouveau, les notes relatives cet item ne sont pas encore disponibles. Par consquent, le systme ne peut
incorporer cet item dans les listes de recommandation. De plus, si ce nouvel item est peu
not par les utilisateurs, il y a peu de chance ce quil soit recommand.
Dans le but de rduire le temps de latence, nous proposons didentier les leaders dans
le cadre dun rseau comportemental. Les apprciations de ces leaders sont par la suite
propages au travers de ce rseau comportemental en vue de prdire les avis des autres
utilisateurs sur les nouveaux items et ventuellement leur recommander ces items.
Contrairement au FCS, notre systme de recommandation ne ncessite pas plusieurs
notes concernant les nouveaux items an de les incorporer parmi les recommandations.
Seule linformation parvenant des leaders concernant ces items sut.
En outre, dans les rseaux sociaux, la dtection de leaders repose sur lanalyse des liens
sociaux travers le rseau. Ici, nous considrons lanalyse des liens comportementaux
dans lobjectif didentier les leaders. Pour la construction du rseau comportemental,
nous avons utilis la mme modlisation que celle dcrite prcdemment.
En sappuyant notamment sur les tudes de [Gladwell, 2000], [Barabsi et al., 2002],
[Newman, 2003] et [Keller et Berry, 2003] mentionnes prcdemment, nous dnissons un
leader comportemental comme tant un utilisateur, qui nest pas seulement hyperconnect
dans le rseau comportemental, mais qui dispose galement dun important potentiel de
prdiction des futures apprciations des autres utilisateurs.
Nous supposons en eet quun leader comportemental peut propager ses apprciations
dans le rseau. Nous proposons de propager ces apprciations en utilisant un facteur
dattnuation. Ce facteur est li directement la similarit entre utilisateurs (les poids
des liens). En eet, quand les utilisateurs sont trs similaires, nous considrons quil existe
une grande probabilit quils aient des apprciations semblables concernant les items.
En outre, dans une approche classique de FC les items recommands par les systmes
de recommandation aux utilisateurs actifs sont les items apprcis par leurs voisins. Ainsi,
de la mme faon, nous supposons quun leader comportemental peut propager (recommander) les items quil apprcie. De ce fait, il a t ncessaire de dcomposer lensemble
des apprciations des utilisateurs (leaders potentiels) selon une chelle binaire : aime ou
aime pas un item. Selon lchelle [1 5] par exemple, nous considrons que les notes 4
et 5 correspondent aux items apprcis, tandis que les notes 1, 2 et 3 correspondent aux
items non apprcis.
Lalgorithme 4 reprsente lalgorithme que nous proposons pour la dtection des leaders comportementaux. Cet algorithme utilise en entre le graphe modlisant le rseau
comportemental, o les nuds reprsentent les utilisateurs et les arcs sont les liens les
132
2.2. Dtection des leaders comportementaux

reliant. Notre algorithme inclut deux tapes majeures. Dans chaque tape, des sousensembles distincts ditems nots Itr et Its sont considrs. Itr correspond aux items utiliss (dans la phase dapprentissage) pour valuer les similarits de comportement et pour
construire le rseau comportemental. Its reprsente le sous-ensemble des nouveaux items
exploits pour la validation des leaders comportementaux eectifs (la phase de test).
Algorithm 4 Dtection de leaders comportementaux
1: function SelectionnerLeadersPotentiels
2:
for chaque nud ua dans le graphe G do
3:
Evaluer Degr de centralit D(ua )
not |(ua ) |
D(ua ) = |(ua ) |
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
end for
Trier les degrs D de tous les nuds N dans un ordre descendant
return TopN leaders potentiels UP L ayant un degr de centralit lev
end function
function DetecterLeaders
for chaque leader potentiel upl UP L do
Slectionner les items apprcis Iprf (upl ) Its
Slectionner les nuds voisins
for chaque voisin slectionn ua do
for chaque item ij Iprf (upl ) do
Propager les apprciations apr(upl , ij ) ua tel que :
papr(ua , ij ) = (ua ,upl ) apr(upl , ij )
15:
16:
17:
18:
19:
20:
21:
22:
(2.1)
(2.2)
Evaluer la prcision de chaque papr(ua , ij ) papr(ua , ij ) est pertinent

ou non pour ua
end for
Evaluer la prcision de toutes les apprciations propages ua
end for
Evaluer la prcision du leader potentiel upl comme la moyenne des prcisions
p calcules parmi tous ses voisins
Pm
p
P (upl ) = ua =1
(2.3)
m
end for
return TopN leaders comportementaux eectifs UL ayant les meilleurs ratios de
prcision
end function
Dans la premire tape de lalgorithme (fonction SlectionnerLeadersPotentiels),

pour chaque nud ua dans le graphe, la connectivit ou le degr de centralit est calcul
comme tant le nombre de liens (voisins) incidents ua . Par la suite, les TopN leaders
133

potentiels UP L sont slectionns en prenant en considration leur forte connectivit dans
le rseau comportemental.
Dans la deuxime tape de lalgorithme (fonction DtecterLeaders), pour chaque
leader potentiel upl UP L , les items apprcis sont identis Iprf (upl ) Its . Par la
suite, selon lquation (2.2), les apprciations du leader potentiel apr(upl , ij ) concernant
les items ij (ij Iprf (upl )) sont propages aux voisins directs tel quune apprciation
propage, note papr(upl , ij ), dun leader upl un nud voisin ua concernant litem ij , est
pondre par le coecient (ua ,upl ) . Les poids varient de 0 1 selon la similarit entre
upl et ua .
Une fois les apprciations propages un voisin ua , elles sont values en terme de
prcision (cf. section 2.4.2, chapitre 2, partie 1). Par la suite, pour chaque leader potentiel, nous valuons la prcision P (upl ) en utilisant lquation (2.3). Cette prcision est
quivalente la moyenne des prcisions calcules parmi tous ses voisins ua . Notons que
m dsigne, dans lquation (2.3), le nombre de voisins de upl .
Ainsi, les ratios de prcision obtenus permettent de mettre en vidence les leaders comportementaux eectifs. Plus le ratio de prcision est lev, plus le leader est able.
An dillustrer le processus de propagation, nous prsentons lexemple de la gure
2.1 qui reprsente la propagation dapprciation concernant des articles dactualit.
Considrant son importante connectivit dans le rseau comportemental (D(Rose) = 5),
Rose est un leader comportemental potentiel parmi les autres utilisateurs. Lorsque Rose
propage son apprciation sur larticle Web 2.0 applications, les valeurs de similarit
de Rose avec les autres utilisateurs sont considres. A cet eet, Marc, Eric et Sonia
vont recevoir une recommandation de cet article, puisque SimN av(Rose, Eric) = 1.0,
SimN av(Rose, M arc) = 1.0 et SimN av(Rose, Sonia) = 0.8. Toutefois, Adam et John
reoivent une apprciation ngative concernant le mme article, au vu de leur faible similarit avec Rose (SimN av(Rose, Adam) = 0.15 et SimN av(Rose, John) = 0.08). Ainsi,
larticle Web 2.0 applications ne sera pas recommand aux utilisateurs Adam et John.
Fig. 2.1 Propagation de lapprciation dun leader comportemental potentiel
134
2.3. Evaluation des recommandations de leaders

De ce fait, lorsque le systme de recommandation a besoin de gnrer des recommandations concernant les nouveaux items, les leaders comportementaux dtects par notre
algorithme sont considrs. En eet, comme ces leaders reprsentent les nuds ou les
points dentre dans le rseau comportemental, le systme de recommandation recommande ces nouveaux items ces leaders. Ainsi, si ces leaders attribuent des avis positifs
quant aux nouveaux items, ils font un push de leurs apprciations leurs voisins en
utilisant lquation (2.2).
2.3
Evaluation des recommandations de leaders
Dans lobjectif dvaluer la performance de lapproche prsente ici, nous avons exploit
le corpus dusage du Crdit Agricole qui a t galement utilis dans les exprimentations
prcdentes.
An de valider la qualit des apprciations propages par les leaders potentiels travers
le rseau, nous avons extrait ces apprciations du corpus test nomm Its . Comme nous
lavons mentionn auparavant, nous considrons uniquement les apprciations positives
de ces leaders (seuls les items quils apprcient, nots 4 et 5).
De plus, les poids sont utiliss dans ltape de propagation comme un facteur dattnuation. Ces poids varient de 0 1. A titre dexemple, lorsque les valeurs de similarits
appartiennent lintervalle ]0.8 1.0], le poids correspondant vaut 1.0. Notons que lattribution des poids , prsente dans la gure 2.2, repose sur la distribution des similarits
entre utilisateurs relative au corpus tudi ici.
Fig. 2.2 Pondration selon les similarits
2.3.1
Rsultats
Dans cette exprimentation, nous avons valu la prcision des apprciations propages
de chaque leader potentiel en utilisant lquation (2.3).
135

Les gures 2.3 et 2.4 prsentent les distributions du nombre de leaders comportementaux
potentiels en fonction de la prcision, en prenant en considration respectivement 10% et
20% des TopN leaders potentiels lors de la propagation.
Les TopN10 et TopN20 correspondent respectivement 53 et 101 leaders potentiels
parmi tous les utilisateurs dans le corpus tudi (748 utilisateurs). Le choix des TopN10
et TopN20 est li au fait que notre objectif est didentier un petit segment dutilisateurs
(leaders) capables de prdire ecacement les apprciations des voisins.
Notons que pour environ 53% des TopN10 leaders et 49% des TopN20 leaders, la prcision
ne peut tre value au vu des raisons suivantes :
Les items recommands par les leaders comportementaux potentiels nont pas t
encore consults par leurs voisins. Ainsi, nous ne pouvons pas dterminer si les
leaders potentiels sont ables ou non.
Les leaders comportementaux potentiels ne disposent pas dapprciations positives
(dans le corpus test Its ). Par consquent, ils ne peuvent pas eectuer de propagation
envers leurs voisins.
Il est signaler que dans les rsultats prsents ici, cette catgorie de leaders nest pas
considre.
Fig. 2.3 Distribution des TopN10 leaders comportementaux potentiels selon le pourcentage de prcision
Si nous observons les rsultats des gures 2.3 et 2.4, nous remarquons que les distributions de prcision ont une volution similaire pour les TopN10 et TopN20 leaders
potentiels. Lorsque les TopN10 leaders comportementaux sont impliqus, nous observons
que 80% de ces leaders ont plus de 60% de prcision, 60% ont une prcision de plus de
80% et 40% ont atteint 100% de prcision.
En ce qui concerne les TopN20 leaders comportementaux, nous observons que, de la mme
faon, environ 80% de leaders propagent ecacement les recommandations, puisque la prcision correspondante est suprieure 60%, 53% ont une prcision suprieure 80% et
37% ont une prcision qui slve 100%.
136

Fig. 2.4 Distribution des TopN20 leaders comportementaux potentiels selon le pourcentage de prcision
Avec lutilisation des TopN10 ou des TopN20, une importante proportion de leaders
comportementaux potentiels obtient une grande prcision relative aux apprciations propages. Nous considrons que les leaders ayant atteint plus de 80% de prcision, constituent les nuds reprsentatifs parmi tous les nuds dans le rseau comportemental. En
eet, ils prdisent ecacement les apprciations des autres utilisateurs.
En outre, dans cette exprimentation nous avons compar la performance de notre
modle la performance du FCS (Filtrage Collaboratif Standard), en terme de prcision
(cf. section 2.4.2, chapitre 2, partie 1). Le tableau 2.1 prsente les moyennes de prcision
correspondant notre modle Recommandations fondes sur les leaders ainsi quau FCS.
Ces prcisions ont t calcules sur les mmes paires < utilisateur, item > en utilisant
deux ensembles dirents R1 et R2 . Ces ensembles reprsentent respectivement les paires
prdites < utilisateur, item >, considres lors de la propagation par les TopN10 et les
TopN20 leaders.
En observant les rsultats du tableau 2.1, nous remarquons quau niveau des items recommands par les leaders (contenus dans R1 et R2 ), notre modle mne une meilleure
performance compar au FCS. En eet, lorsque nous considrons les ensembles R1 et
R2 , environ 77% de prcision est atteinte. Cependant, le FCS est moins performant puisquil parvient uniquement 51% et 43% de prcision, en considrant respectivement
R1 et R2 . Ces rsultats conrment ainsi la abilit des leaders comportementaux pour la
recommandation ditems pertinents aux autres utilisateurs.
Tab. 2.1 Moyenne de prcision des recommandations fondes sur les leaders compare
au FCS
Modle de recommandation
R1
R2
Recommandations fondes sur les leaders 77% 76%
FC Standard (FCS)
51% 43%
137
2.3.2
Discussion
Dans ce chapitre, nous avons prsent le modle de recommandation qui a t propos

en vue de rduire le temps de latence. Habituellement, les travaux de recherche traitant
du problme de latence exploitent la technique base sur le contenu. Or, la considration
uniquement du contenu des items dans le cadre des recommandations prsente quelques
limites, dont le manque de diversit des recommandations gnres par le systme.
Notre modle vise attnuer ce problme de latence par lidentication de leaders dans le
cadre dun rseau comportemental. Dans ce rseau, les utilisateurs sont connects quand
ils ont des comportements de navigation semblables.
A la dirence des tudes relatives la dtection de leaders cites dans la section
2.1, notre modle utilise dune part la structure topologique du rseau comportemental
an de dterminer des leaders potentiels. Dautre part, ce modle repose sur la capacit
propager des avis ou des recommandations pertinentes pour lidentication de leaders
ables.
Les rsultats prsents ici montrent lintrt de notre modle pour la dtection de leaders ables dans le contexte des rseaux comportementaux. En eet, en plus de leur forte
connectivit dans ces rseaux, ces leaders ont une importante potentialit de prdiction
au vu de limportante prcision des apprciations propages aux autres utilisateurs. Ils
reprsentent ainsi le point dentre dans le rseau comportemental pour la recommandation de la nouveaut, ce qui permet dattnuer le problme de latence.
De plus, notre modle contribue lamlioration de la qualit des recommandations. En
eet, compar au FCS et en prenant en compte lensemble des items recommands par
les leaders, notre modle gnre des recommandations dont la prcision est leve.
Nanmoins, en considrant les prdictions gnres par ces leaders dans cette exprimentation, notre modle fait face au problme de couverture. En eet, seuls les TopN leaders
comportementaux sont impliqus la gnration des recommandations. De ce fait, si le
nombre de ces TopN leaders est restreint (comme nous lavons choisi dans notre exprimentation), lenjeu serait de trouver le compromis entre lamlioration de la prcision des
prdictions et laugmentation de la couverture.
De plus, au niveau de la fonction de propagation des apprciations, lattribution des
poids est adapte ici au corpus du Crdit Agricole et aux valeurs de similarits calcules
dans le cadre de ce corpus. De ce fait, il serait judicieux dopter pour une fonction de
propagation o le poids est automatiquement adaptatif selon les distributions des valeurs
de similarits entre utilisateurs. En eet, nous pouvons avoir un cas par exemple, o
tous les leaders comportementaux potentiels sont trs connects aux autres utilisateurs,
mais dont les valeurs de similarit avec leurs voisins ne sont pas trs levs. De ce fait,
lapplication des poids comme nous lavons prcis dans cette exprimentation, nest
pas approprie. Ainsi, le poids devrait tre dynamiquement ajust et adapt aux valeurs
de similarits calcules selon le corpus utilis.
138

En outre, dans cette exprimentation, nous avons choisi de slectionner les TopN10
et les TopN20 correspondant aux leaders potentiels, an deectuer la propagation dapprciations. Ce choix relve du fait que notre modle vise retrouver un petit segment
dutilisateurs reprsentatifs parmi lensemble dutilisateurs, capables de prdire ecacement les apprciations des voisins. De plus, il sagit de slectionner les leaders potentiels
dont la prcision peut tre value (i.e. les leaders disposant ditems positivement apprcis dans le corpus test).
Par ailleurs, il serait intressant dtudier la qualit des nouveaux items recommands
par les leaders. En eet, lexprimentation prsente ici nous a permis dvaluer la qualit
des apprciations propages an de dterminer les leaders ables, ce qui signie que nous
disposions dj (dans le corpus) des avis de ces leaders concernant ces items.
Une exprimentation complmentaire consistera ainsi valuer si tous les nouveaux items
introduits au systme de recommandation du portail Extranet du Crdit Agricole, ont
t correctement recommands par les leaders aux autres utilisateurs. En dautres termes,
il sagit dvaluer le retour des utilisateurs de lExtranet par rapport la pertinence des
nouveaux items qui leur sont recommands.
139
140
Lexpansion de lInternet et du nombre dapplications bases sur le Web tels que les
portails dentreprise, est associe une prolifration dinformation ou ditems dont le
volume ne cesse de crotre. Devant cette profusion et cette surcharge ditems, lutilisateur
peine reprer linformation pertinente qui correspond le plus ses besoins. Dans ce
contexte, les systmes de recommandation ont t dvelopps en vue de faciliter laccs
ces items pertinents. Leur objectif est danticiper les besoins de lutilisateur en lui
fournissant des recommandations ditems jugs pertinents par rapport ses gots.
Il existe une varit de techniques de recommandation parmi lesquelles le Filtrage
Collaboratif (FC), qui constitue la technique la plus populaire. Le principe du FC consiste
retrouver des utilisateurs ayant des gots similaires ceux dun utilisateur actif (ses
voisins) et utiliser leurs avis dans le but de lui recommander des items susceptibles de
lintresser.
La dernire dcennie a t marque par un large dploiement des systmes de recommandation exploitant notamment le FC, dans dirents champs dapplication intgrant
les sites de e-commerce (e.g. Amazon), les sites de recrutement (e.g. JobFinder), les sites
de musique (e.g. LastFM), etc.
Malgr cet engouement pour les systmes de recommandation, certaines questions restent
encore souleves. Lune de ces questions est lie au manque de donnes, notamment le
manque de notes explicites attribues par des utilisateurs aux items. En eet, un systme fond sur le FC exploite ces notes an dvaluer les similarits entre utilisateurs en
exploitant les items co-nots. Ces similarits permettent didentier les voisins dont les
apprciations sont combines pour calculer les recommandations. Or, si ces notes savrent
insusantes, le systme sera incapable didentier un nombre signicatif de voisins ables.
Un autre enjeu pour les systmes de recommandation est de rsoudre le problme de
dmarrage froid concernant la nouveaut dun utilisateur et/ou dun item. En labsence
des notes de la part de cet utilisateur et/ou sur cet item, il devient impossible pour le
processus de ltrage de les intgrer dans les recommandations.
En outre, la prcision des recommandations est un d majeur pour tout systme
de recommandation dans la mesure o la pertinence des items recommands permet de
141
contribuer la satisfaction des attentes de lutilisateur et sa dlisation au service en
question.
A partir de ces questions de recherche et en prenant en compte le contexte dun portail
Extranet dentreprise, nous avons propos dans cette thse de nouvelles approches de
recommandation sappuyant sur lobservation du comportement et sur lanalyse des usages
des utilisateurs. Lobjectif est damliorer lusage des items accessibles sur ce portail,
auprs des utilisateurs du Groupe Crdit Agricole.
Nous avons propos un nouveau modle comportemental de recommandation nomm
BNCF, inspir du Web Usage Mining et du FC. Ce modle vise modliser les utilisateurs
en analysant le comportement de navigation partir des traces dusage. Nous considrons
en eet que deux utilisateurs ayant des motifs dusage communs sont similaires.
Les similarits de comportement sont values sur la base dune mesure que nous avons
propose, qui tient notamment compte de la longueur maximale de motifs dusage communs entre utilisateurs. Ces similarits sont par la suite exploites an didentier les
voisins et gnrer des prdictions.
Lvaluation de la performance du systme de recommandation montre que le BNCF
contribue une amlioration de la prcision au niveau des items rellement recommands
par le systme. Nous pouvons dduire que les traces dusage sont une source dinformation
able permettant au systme de recommandation de modliser ecacement les utilisateurs
(sans faire appel aux donnes de notes) et de gnrer des prdictions pertinentes.
Dans lobjectif damliorer davantage la performance du BNCF et de rduire lespace
de recherche des voisins, nous avons propos une extension du BNCF travers le modle BNCF-PCS qui intgre une phase de clustering dutilisateurs. Ce clustering a pour
particularit de gnrer des clusters en considrant les similarits de voisins. Lavantage
dune telle dmarche de clustering est la considration ditems supplmentaires (tous les
items consults par les utilisateurs) et non pas uniquement des items co-nots par les
utilisateurs.
Les similarits de comportement navigationnel sont par la suite calcules dans chaque
cluster gnr en prenant en compte uniquement les squences positives de navigation des
utilisateurs (i.e. les squences ditems positivement apprcis).
Lvaluation de ce modle a permis de souligner une amlioration importante de la prcision des recommandations, ainsi quune rduction du temps de calcul des similarits grce
lexploitation des clusters et lutilisation des squences positives.
Nanmoins, malgr la contribution de cette dmarche de clustering la performance du
systme de recommandation, elle risque de ngliger certaines informations pertinentes
pendant le processus de rduction de lespace de recherche. En eet, si un utilisateur na
pas beaucoup de voisins communs avec les autres utilisateurs, le systme trouvera des
dicults lui retrouver des voisins ables et lui gnrer des recommandations pertinentes.
Ce constat nous a men une autre rexion visant remdier ce problme de perte
dinformation ainsi quau problme de manque de donnes.
Il sagit damliorer le processus didentication des voisins, notamment par la recherche
142
de nouveaux liens entre utilisateurs. Cest dans cette optique que nous nous sommes inspirs des approches issues de lanalyse des rseaux sociaux pour prdire les liens pouvant
relier les utilisateurs.
Ainsi, dans le cadre du modle propos D-BNCF, nous avons exploit linformation comportementale an de modliser les liens entre utilisateurs travers un rseau comportemental. Nous avons propos dappliquer par la suite des mthodes de prdiction de
lien et des associations transitives an de densier le rseau construit et dcouvrir de
nouveaux voisins pour chaque utilisateur. Ces voisins sont impliqus dans le calcul des
recommandations dans le but damliorer la qualit des recommandations ainsi que la
capacit prdictive du systme.
Lexprimentation met en vidence lintrt dutiliser les nouveaux liens dcouverts par
certaines mthodes de prdiction de lien. En eet, ces mthodes ont contribu une
meilleure prcision des recommandations.
En outre, nous nous sommes intresss la question de dmarrage froid lie en particulier la nouveaut dun item (i.e. problme de latence). Nous avons ainsi propos un
modle qui repose sur lidentication de leaders comportementaux pour la recommandation de la nouveaut. Nous considrons quun leader comportemental est un utilisateur
connect un grand nombre dutilisateurs ayant un comportement similaire et qui prdit
ablement les apprciations de ces utilisateurs.
Dans le but de dtecter les leaders, notre modle mesure dabord la connectivit des utilisateurs pour dterminer des leaders potentiels. Par la suite, ce modle value leur capacit
propager des recommandations pertinentes dans le but de dterminer les leaders les plus
ables.
Ainsi, en connaissant au pralable leurs opinions sur les nouveaux items, ces leaders constituent les utilisateurs reprsentatifs du rseau que le systme doit cibler pour prdire les
avis des autres utilisateurs sur ces nouveaux items.
Lvaluation de ce modle a montr lavantage de la propagation des avis des leaders pour
la recommandation de la nouveaut. En eet, en prenant en compte lensemble des items
recommands par les leaders, notre modle parvient amliorer la qualit des recommandations.
Par ailleurs, en collaboration avec la socit Sailendra S.A.S23 , les algorithmes dvelopps autour du ltrage collaboratif comportemental (BNCF) ont t intgrs au niveau
de la plate forme CASA du portail Extranet du Groupe Crdit Agricole (cf. section 1.3.2,
chapitre 1, partie 2). Actuellement, ces algorithmes sont dploys et tests au niveau du
site Extranet du Ple Innovation avant dtre fonctionnels au niveau de tout le Groupe
Crdit Agricole. Il est question dintgrer galement par la suite les autres modles proposs dans le cadre de cette thse.
23
http ://www.sailendra.fr/
143
Perspectives
Notre travail de recherche ouvre des perspectives court terme et moyen et long
terme.
A court terme
Nous souhaitons avoir un retour dexprience de la part des utilisateurs du
Groupe Crdit Agricole S.A concernant les recommandations qui leur sont proposes.
Ces retours vont nous permettre dvaluer directement lintrt de nos modles pour
la recommandation ditems pertinents et dvaluer la satisfaction des utilisateurs. Ces
retours peuvent mme tre exploits par le systme de recommandation en
vue daffiner les profils utilisateurs.
Lun des objectifs que nous nous sommes xs aussi pour les travaux futurs court
terme est dlaborer un modle de recommandation qui ne requiert pas de notes
pendant tout le processus de recommandation. En eet, dans les modles que nous
avons proposs dans cette thse, mmes si les notes ntaient pas exploites en phase
dapprentissage, elles taient souvent ncessaires dans la phase de prdiction.
Nous pouvons ainsi soit prendre en compte dautres critres permettant de dterminer
lapprciation dun item dans la phase de prdiction ou bien de considrer uniquement
laction de consulter ou pas un item dans cette mme phase.
En outre, nous prvoyons dtudier galement lintrt des liens sociaux pour les
systmes de recommandation (i.e. les liens issus des relations sociales telle que la
collaboration professionnelle ou lamiti dans le cadre des plates-formes du Web social)
et dexaminer jusqu quel point ils peuvent tre complmentaires avec les liens
comportementaux. Il sagit dvaluer limpact de cette combinaison sur le choix des
voisins et sur la performance du systme de recommandation dune manire gnrale.
A moyen et long terme
Dans le cadre de nos perspectives de recherche moyen et long terme, nous envisageons dtudier davantage lapport du leadership dans le cadre des systmes de
recommandation. En eet, notre connaissance peu dtudes sont consacres lidentication de leaders dans ce cadre.
Nous souhaitons ainsi exploiter les techniques issues de lanalyse de rseaux sociaux bases sur des approches topologiques ainsi que la technique danalyse
de contenu. Il sagit dexaminer notamment si lhybridation des deux types de techniques permet la dcouverte de leaders pertinents. Les leaders peuvent ainsi tre dtects
en fonction de leur connectivit dans le rseau (construit par exemple sur la base de linformation comportementale) mais aussi sur la base de lanalyse du contenu des changes
( travers des forums par exemple) quils peuvent avoir avec les autres utilisateurs du
rseau.
Par ailleurs, il semble prometteur dtudier lapplicabilit des techniques de sondage
144
dopinion dans le contexte des systmes de recommandation. En eet lobjectif

des techniques de sondage consiste interroger un chantillon reprsentatif dune population an de dterminer lopinion publique relative tel ou tel sujet. Il est question de
sintresser en particulier aux critres utiliss pour le choix de cet chantillon que nous
pouvons considrer comme groupe de leaders dans notre contexte.
De plus, nous prvoyons dtudier dans nos travaux futurs la possibilit dapplication du principe de combinaison de ressorts (principe des sries parallles)
dans le cadre dun rseau dutilisateurs pour la recherche des liens qui les relient. Ce
rseau peut tre construit sur la base de linformation comportementale ou bien sur un
autre type dinformation. Lobjectif de lapplication du principe des sries parallles est
de rechercher tous les chemins pouvant relier deux nuds donns travers ce rseau. Autrement dit, il sagit dexaminer jusqu quel point ce principe peut tre considr comme
une mthode de prdiction de lien dans un rseau dutilisateurs, permettant la dcouverte
de nouveaux voisins et remdiant au manque de donnes.
Poursuivre ltude du problme de passage lchelle fait partie galement
de nos perspectives de recherche moyen et long terme. Nous souhaitons ainsi limiter
le nombre ditems et/ou dutilisateurs an de rduire lespace de recherche de voisins
dans le cadre du systme de recommandation. Selon le contexte du portail Extranet du
Crdit Agricole, le nombre dutilisateurs (internes) reste relativement stable. Or, si nous
considrons une dimension plus importante lie un autre contexte (par exemple les
sites de e-commerce caractriss par un nombre lev dutilisateurs), lutilisation des
techniques de rduction de dimensionnalit peut tre envisage ce niveau,
notamment les techniques de SVD.
En outre, nous souhaitons aussi aborder le problme du contexte utilisateur. Le
contexte est li lenvironnement dinteraction de lutilisateur avec le systme (contexte
professionnel ou personnel par exemple). Lenjeu est de dvelopper des services de personnalisation proposant lutilisateur tout moment et sur le bon support, des recommandations adaptes son contexte spcique, ce qui est susceptible damliorer sa satisfaction
et sa dlisation.
Ltude de lvolution des gots dans le temps sinscrit galement dans le cadre
de nos perspectives de recherche. En eet, les apprciations des utilisateurs ont tendance
voluer dans le temps. Ainsi, notre objectif est de proposer un systme de recommandation capable de dtecter le changement du comportement de lutilisateur et dadapter
dynamiquement les recommandations en fonction des nouveaux besoins de cet utilisateur.
145
146
Table des figures
1.1
Exemple de notes : Site dAmazon . . . . . . . . . . . . . . . . . . . . . . . 24
1.2
Exemple de tags sur le site LastFM . . . . . . . . . . . . . . . . . . . . . . 25
1.3
Matrice Utilisateur x Item . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4
Clustering k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.5
Exemple darbre de dcision prsent par [Breese et al.,1998] . . . . . . . . 38
2.1
Schma gnrique de la recommandation . . . . . . . . . . . . . . . . . . . 56
2.2
Extrait du portail Extranet du Crdit Agricole (S.A) . . . . . . . . . . . . 58
2.3
Architecture fonctionnelle de JCMS . . . . . . . . . . . . . . . . . . . . . . 59
2.4
Architecture technique de JCMS . . . . . . . . . . . . . . . . . . . . . . . . 59
2.5
Extrait du chier log en format XML
1.1
FC comportemental BNCF . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.2
Distribution des pourcentages des plus proches voisins identis sur le corpus Movielens par le BNCF et le FCS . . . . . . . . . . . . . . . . . . . . 84
1.3
Distribution des pourcentages des plus proches voisins identis sur le corpus Crdit Agricole par le BNCF et le FCS . . . . . . . . . . . . . . . . . 85
1.4
Rsultats en MAE et en HMAE sur le corpus Movielens
1.5
Rsultats en MAE et en HMAE sur le corpus Crdit Agricole

147
. . . . . . . . . . . . . . . . . . . . 62
. . . . . . . . . . 90
. . . . . . . 91
Table des figures
148
1.6
Aperu du menu de personnalisation des recommandations par les utilisateurs du portail Extranet du Crdit Agricole . . . . . . . . . . . . . . . . 94
1.7
Aperu des recommandations gnres par le BNCF au niveau du portail

Extranet du Crdit Agricole . . . . . . . . . . . . . . . . . . . . . . . . . . 95
2.1
Schma global dcrivant le BNCF-PCS . . . . . . . . . . . . . . . . . . . . 99
2.2
Clustering dutilisateurs avec PAM . . . . . . . . . . . . . . . . . . . . . . 102
1.1
Schma dcrivant le modle D-BNCF . . . . . . . . . . . . . . . . . . . . . 115
1.2
Calcul du plus court chemin entre ue et uh . . . . . . . . . . . . . . . . . . 119
1.3
Calcul du plus court chemin entre ue et uf . . . . . . . . . . . . . . . . . . 120
1.4
Exemple comparant les voisins identis par D-BNCF (selon les mthodes
de prdiction de lien) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
1.5
Identication de nouveaux voisins par D-BNCF-Adamic/Adar . . . . . . . 122
2.1
Propagation de lapprciation dun leader comportemental potentiel . . . . 134
2.2
Pondration selon les similarits . . . . . . . . . . . . . . . . . . . . . . . . 135
2.3
Distribution des TopN10 leaders comportementaux potentiels selon le pourcentage de prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
2.4
Distribution des TopN20 leaders comportementaux potentiels selon le pourcentage de prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Liste des tableaux
1.1
Les chelles de notes les plus communes . . . . . . . . . . . . . . . . . . . . 24
1.2
Exemple de matrice Utilisateur x Item . . . . . . . . . . . . . . . . . . . 30
1.3
Exemple de base de donnes transactionnelle . . . . . . . . . . . . . . . . . 42
1.4
Synthse comparative des techniques de recommandation . . . . . . . . . . 45
2.1
Principaux types de traces dusage . . . . . . . . . . . . . . . . . . . . . . 60
2.2
Description des principales balises du chier log du Crdit Agricole . . . . 62
2.3
Exemple de notes du corpus Movielens . . . . . . . . . . . . . . . . . . . . 65
2.4
Catgories ditems bases sur lintersection entre listes de recommandation

et prfrences relles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
1.1
Squences ditems de u1 et u2 . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.2
Items consults par les utilisateurs u3 et u4 . . . . . . . . . . . . . . . . . . 81
1.3
MAE selon la valeur du paramtre : corpus Movielens . . . . . . . . . . . 86
1.4
MAE selon la valeur du paramtre : corpus Crdit Agricole . . . . . . . . 87
1.5
HMAE selon la valeur du paramtre : corpus Movielens . . . . . . . . . . 87
1.6
HMAE selon la valeur du paramtre : corpus Crdit Agricole . . . . . . . 88
1.7
Robustesse value en HMAE selon la valeur du paramtre : corpus Movielens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

149
Liste des tableaux
150
1.8
Robustesse value en HMAE selon la valeur du paramtre : corpus Crdit

Agricole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
1.9
Robustesse des prdictions combines : corpus Crdit Agricole et Movielens 91
2.1
Matrice de note
2.2
Matrice de similarit de note
2.3
Rsultats en MAE avec et sans clustering (utilisation dune matrice de note

en cas de clustering) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
2.4
Rsultats en MAE : utilisation dune matrice de similarit pour le clustering104
2.5
Rsultats en HMAE avec ou sans clustering (utilisation dune matrice de

note en cas de clustering) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
2.6
Rsultats en HMAE : utilisation dune matrice de similarit pour le clustering106
1.1
Rsultats en MAE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
1.2
Rsultats en HMAE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
2.1
Moyenne de prcision des recommandations fondes sur les leaders compare au FCS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
. . . . . . . . . . . . . . . . . . . . . . . . . 101
Bibliographie
[Abhinandan et al., 2007] Abhinandan, S. D. ; Mayur, D. ; Ashutosh, G. et Shyam,
R. (2007). Google news personalization : scalable online collaborative ltering. In
Proceedings of the 16th international conference on World Wide Web. ACM.
[Adamic et Adar, 2003] Adamic, L. et Adar, E. (2003). Friends and neighbors on the
web. Social networks, 25(3):211230.
[Adomavicius et Tuzhilin, 2005] Adomavicius, G. et Tuzhilin, A. (2005). Toward the
next generation of recommender systems : A survey of the state-of-the-art. IEEE
transactions on knowledge and data engineering, 17(6):734749.
[Agarwal et al., 2008] Agarwal, N. ; Liu, H. ; Tang, L. et Yu, P. (2008). Identifying
the inuential bloggers in a community. In Proceedings of the international conference
on Web search and web data mining (WSDM08), pages 207218, New York, NY, USA.
ACM.
[Aggarwal et al., 1999] Aggarwal, C. ; Wolf, J. ; Wu, K. et Yu, P. (1999). Horting
hatches an egg : A new graph-theoretic approach to collaborative ltering. In Proceedings of the ACM KDD Conference. ACM.
[Agrawal et al., 1993] Agrawal, R. ; Imieliski, T. et Swami, A. (1993). Mining association rules between sets of items in large databases. In Proceedings of the 1993
ACM SIGMOD international conference on Management of data (SIGMOD93), pages
207216, New York, NY, USA. ACM.
[Agrawal et Srikant, 1994] Agrawal, R. et Srikant, R. (1994). Fast algorithms for
mining association rules. In Proceedings of VLDB Conference, pages 487499.
[Agrawal et Srikant, 1995] Agrawal, R. et Srikant, R. (1995). Mining sequential patterns. In Proceedings of the 11th International Conference on Data Engineering, pages
314.
[Aha et al., 2000] Aha, D. ; Breslow, L. et Muoz-Avila, H. (2000). Conversational
case-based reasoning. Applied Intelligence, (14):932.
[Anand et Mobasher, 2005] Anand, S. et Mobasher, B. (2005). Intelligent techniques
for web personalization. Lecture Notes in Artificial Intelligence, 3169:136.
[Ayres et al., 2002] Ayres, J. ; Flannick, J. ; Gehrke, J. et Yiu, T. (2002). Sequential pattern mining using a bitmap representation. In Proceedings of the eighth ACM
SIGKDD international conference on Knowledge discovery and data mining (KDD02),
pages 429435, New York, NY, USA. ACM.
151
Bibliographie
[Balabanovi et Shoham, 1997] Balabanovi, M. et Shoham, Y. (1997). Fab : contentbased, collaborative recommendation. Commun. ACM, 40(3):6672.
[Baltrunas et Ricci, 2007] Baltrunas, L. et Ricci, F. (2007). Dynamic item weighting
and selection for collaborative ltering. In Web mining 2.0 Workshop, ECML-PKDD
2007. Springer-Verlag.
[Banerjee et Ghosh, 2001] Banerjee, A. et Ghosh, J. (2001). Clickstream clustering
using weighted longest common subsequences. In Proceedings of the Web Mining Workshop at the 1st SIAM Conference on Data Mining.
[Barabsi et Albert, 1999] Barabsi, A. et Albert, R. (1999). Emergence of scaling in
random networks. Science, 286(5439):509.
[Barabsi et al., 2002] Barabsi, A. L. ; Jeong, H. ; Neda, Z. ; Ravasz, E. ; Schubert,
A. et Vicsek, T. (2002). Evolution of the social network of scientic collaboration.
Physica A, 311(3-4):590614.
[Bartal et al., 2009] Bartal, A. ; Sasson, E. et Ravid, G. (2009). Predicting links in social networks using text mining and sna. In Proceedings of the International Conference
on Advances in Social Networks Analysis and Mining (ASONAM). IEEE.
[Basilico et Hofmann, 2004] Basilico, J. et Hofmann, T. (2004). A joint framework for
collaborative and content ltering. In Proceedings of the 27th annual international ACM
SIGIR conference on Research and development in information retrieval (SIGIR04),
pages 550551, New York, USA. ACM.
[Baumgarten et al., 2000] Baumgarten, M. ; Buchner, A. ; Anand, S. ; Mulvenna,
M. et Hughes, J. (2000). User-driven navigation pattern discovery from internet data,
chapitre Web Usage Analysis and User Proling, pages 7491. Lecture Notes in Computer Science. Springer-Verlag.
[Bell et al., 2007] Bell, R. ; Yehuda, K. et Volinsky, K. (2007).
neighborhood-based collaborative ltering. In KDDCup07.
Improved
[Bertrand-Pierron, 2006] Bertrand-Pierron, Y. (2006). Transfert de technologies sur

le ltrage collaboratif : intgration des techniques de ltrage collaboratif sur un portail
de gestion de contenu. Mmoire de D.E.A., UHP University Nancy 1.
[Billsus et al., 2002] Billsus, D. ; Brunk, C. ; Evans, C. ; Gladish, B. et Pazzani,
M. (2002). Adaptive interfaces for ubiquitous web access. Communications of ACM,
45(5):3438.
[Billsus et Pazzani, 2000] Billsus, D. et Pazzani, M. (2000). User modeling for adaptive
news access. User-Modeling and User-Adapted Interaction, 10(2-3):147180.
[Billsus et al., 2000] Billsus, D. ; Pazzani, M. et Chen, J. (2000). A learning agent for
wireless news access. In Proceedings of the 5th international conference on Intelligent
user interfaces (IUI00), pages 3336, New York, NY, USA. ACM.
[Bodendorf et Kaiser, 2009] Bodendorf, F. et Kaiser, C. (2009). Detecting opinion
leaders and trends in online social networks. In Proceedings of the 2nd ACM workshop
on Social web search and mining (SWSM09), pages 6568, New York, USA. ACM.
152
[Bonnin et al., 2009] Bonnin, G. ; Brun, A. et Boyer, A. (2009). A low-order markov

model integrating long-distance histories for collaborative recommender systems. In
Proceedings of the 13th international conference on Intelligent user interfaces (IUI09),
[Brazma et al., 1998] Brazma, A. ; Jonassen, I. ; Eidhammer, I. et Gilbert, D.
(1998). Approaches to the automatic discovery of patterns in biosequences. Journal of
Computational Biology, 5(2):277304.
[Breese et al., 1998] Breese, J. ; Heckerman, D. et Kadie, C. (1998). Empirical analysis of predictive algorithms for collaborative ltering. In Proceedings of the 14th
Conference on Uncertainty in Artificial Intelligence, pages 4352. Morgan Kaufmann.
[Brin et Page, 1998] Brin, S. et Page, L. (1998). The anatomy of a large-scale hypertextual web search engine. In Computer networks and ISDN systems, pages 107117.
Elsevier Science Publishers B.V.
[Burke, 2000] Burke, R. (2000). Knowledge-based recommender systems. Encyclopedia
of Library and Information Systems, 69(32).
[Burke, 2002] Burke, R. (2002). Hybrid recommender systems : Survey and experiments.
User Modeling and User-Adapted Interaction, 12(4):331370.
[Burke et al., 1997] Burke, R. ; Hammond, K. et Young, B. (1997). The ndme approach to assisted browsing. IEEE Expert : Intelligent Systems and Their Applications,
12(4):3240.
[Castagnos, 2008] Castagnos, S. (2008). Modlisation de comportements et apprentissage stochastique non supervis de stratgies dinteractions sociales au sein de systmes
temps rel de recherche et daccs linformation. Thse de doctorat, Universit Nancy
2, France.
[Chan, 1999] Chan, P. (1999). A non-invasive learning approach to building user proles.
Web Usage Analysis and User Profiling.
[Chen et al., 2009] Chen, J. ; Zaiane, O. R. et Goebel, R. (2009). Local community
identication in social networks. In Proceedings of the International Conference on
Advances in Social Networks Analysis and Mining (ASONAM). IEEE.
[Chen et al., 1996] Chen, M. ; Hun, J. et Yu, P. (1996). Data mining : An overview
from database perspective. IEEE Transactions on Knowledge and Data Engineering,
8:866883.
[Cheon et Lee, 2005] Cheon, H. et Lee, H. (2005). Opinion Leader Based Filtering,
volume 3815/2005 de Lecture Notes in Computer Science. Springer Berlin/Heidelberg.
[Cheype, 2006] Cheype, A. (2006). Recherche de motifs squentiels pour guider linterprtation des traces dapprentissage. In Actes des 1res Rencontres Jeunes Chercheurs
en EIAH (RJC-EIAH2006), pages 123130.
[Claypool et al., 1999] Claypool, M. ; Gokhale, A. ; Miranda, T. ; Murnikov, P. ;
Netes, D. et Sartin, M. (1999). Combining content-based and collaborative lters in
an online newspaper. In Proceedings of ACM SIGIR 99 Workshop on Recommender
Systems : Algorithms and Evaluation.
153
Bibliographie
[Claypool et al., 2001] Claypool, M. ; Le, P. ; Waseda, M. et Brown, D. (2001). Implicit interest indicators. In Proceedings of ACM Intelligent User Interfaces Conference.
[Coleman et al., 1966] Coleman, J. ; Menzel, H. et Katz, E. (1966). Medical Innovations : A Diffusion Study. Bobbs-Merrill Co.
[Conner et Herlocker, 1999] Conner, M. et Herlocker, J. (1999). Clustering items for
collaborative ltering. In Proceedings of the ACM SIGIR Workshop on Recommender
Systems.
[Cooke, 2006] Cooke, R. (2006). Link prediction and link detection in sequences of large
social networks using temporal and local metrics. Thse de doctorat, University of cape
Town.
[Cooley et al., 1999] Cooley, R. ; Mobasher, B. et Srivastava, J. (1999). Data preparation for mining world wide web browsing patterns. Journal of Knowledge and
Information Systems, 1(1):532.
[Cosley et al., 2002] Cosley, D. ; Lawrence, S. et Pennock, D. (2002). Referee : An
open framework for practical testing of recommender systems using researchindex. In
Proceedings of the 28th international conference on Very Large Data Bases, page 46.
VLDB Endowment.
[Crandall et al., 2008] Crandall, D. ; Cosley, D. ; Huttenlocher, D. ; Kleinberg,
J. et Suri, S. (2008). Feedback eects between similarity and social inuence in online
communities. In Proceedings of the 14th ACM SIGKDD international conference on
Knowledge discovery and data mining. ACM.
[Domingos et Richardson, 2001] Domingos, P. et Richardson, M. (2001). Mining the
network value of customers. In Proceedings of the seventh ACM SIGKDD international
conference on Knowledge discovery and data mining (KDD01), pages 5766, New York,
NY, USA. ACM.
[Doyle et Cunningham, 2000] Doyle, M. et Cunningham, P. (2000). A dynamic approach to reducing dialog in on-line decision guides. In Proceedings of the 5th European
Workshop on Advances in Case-Based Reasoning (EWCBR00), pages 4960, London,
UK. Springer-Verlag.
[Eirinaki et al., 2005] Eirinaki, M. ; Vazirgiannis, M. et Kapogiannis, D. (2005).
Web path recommendations based on page ranking and markov models. In Proceedings of the 7th annual ACM international workshop on Web information and data
management. ACM Press.
[Esslimani et al., 2008a] Esslimani ; Brun, A. et Boyer, A. (2008a). Behavioral similarities for collaborative recommendations. Journal of Digital Information Management,
6(6):442448.
[Esslimani et al., 2008b] Esslimani, I. ; Brun, A. et Boyer, A. (2008b). Enhancing collaborative ltering by frequent usage patterns. In Proceedings of the First IEEE International Conference on the Applications of Digital Information and Web Technologies
(ICADIWT 2008). Workshop on Recommender Systems and Personalized Retrieval,
pages 180185.
154
[Esslimani et al., 2009a] Esslimani, I. ; Brun, A. et Boyer, A. (2009a). A collaborative

ltering approach combining clustering and navigational based correlations. In Proceedings of the 5th International Conference on Web Information Systems and Technologies
(WEBIST 2009), pages 364369. INSTICC.
[Esslimani et al., 2009b] Esslimani, I. ; Brun, A. et Boyer, A. (2009b). From social
networks to behavioral networks in recommender systems. In Proceedings of The 2009
International Conference on Advances in Social Networks Analysis and Mining (ASONAM), pages 143148. IEEE Computer society.
[Esslimani et al., 2009c] Esslimani, I. ; Brun, A. et Boyer, A. (2009c). Vers lexploitation de la transitivit dans les rseaux comportementaux pour les systmes de recommandations. In 7me colloque du chapitre franais de lISKO sur lIntelligence
collective et lorganisation des connaissances.
[Esslimani et al., 2010a] Esslimani, I. ; Brun, A. et Boyer, A. (2010a). Densifying a
behavioral recommender system by social networks link prediction methods. The Social
Network Analysis and Mining Journal.
[Esslimani et al., 2010b] Esslimani, I. ; Brun, A. et Boyer, A. (2010b). Detecting leaders in behavioral networks. In Proceedings of The 2010 International Conference on
Advances in Social Networks Analysis and Mining (ASONAM). IEEE Computer society.
[Esslimani et al., 2010c] Esslimani, I. ; Brun, A. et Boyer, A. (2010c). Detecting leaders to alleviate latency in recommender systems. In Proceedings of the EC-WEB 2010
Conference, pages 229240. Springer-Verlag.
[Freyne et al., 2007] Freyne, J. ; Farzan, R. et Coyle, M. (2007). Toward the exploitation of social access patterns for recommendation. In Proceedings of the 2007 ACM
conference on Recommender systems. ACM.
[Fu et al., 2000] Fu, X. ; Budzik, J. et Hammond, K. (2000). Mining navigation history
for recommendation. In Proceedings of the 5th international conference on Intelligent
User Interfaces (IUI00), pages 106112. ACM.
[Gaul et Schmidt-Thieme, 2001] Gaul, G. et Schmidt-Thieme, L. (2001). Frequent
substructures in web usage data : A unied approach. In Proceedings of Web Mining
Workshop, First SIAM International Conference on Data Mining 2001 (ICDM).
[George et Merugu, 2005] George, T. et Merugu, S. (2005). A scalable collaborative
ltering framework based on co-clustering. In Proceedings of the Fifth IEEE International Conference on Data Mining. IEEE Computer Society.
[Gery et Haddad, 2003] Gery, M. et Haddad, H. (2003). Evaluation of web usage mining approaches for users next request prediction. In Proceedings of the 5th ACM
international workshop on Web information and data management. ACM Press.
[Gladwell, 2000] Gladwell, M. (2000). The Tipping Point : How Little Things Can
Make a Big Difference. Little Brown, New York.
[Golbeck, 2009] Golbeck, J. (2009). Trust and nuanced prole similarity in online social
networks. ACM Transactions on the WEB (TWEB), 3(4):133.
155
Bibliographie
[Goldberg et al., 1992] Goldberg, D. ; Nichols, D. ; Oki, B. et Terry, D. (1992).
Using collaborative ltering to weave an information tapestry. Communications of the
ACM, 35(12):6170.
[Goldberg et al., 2001] Goldberg, K. ; Roeder, T. ; Gupta, D. et Perkins, C. (2001).
Eigentaste : A constant time collaborative ltering algorithm. Information Retrieval,
4(2):133151.
[Gong et al., 2009] Gong, S. ; Ye, H. et Dai, Y. (2009). Combining singular value decomposition and item-based recommender in collaborative ltering. In Proceedings of
the 2009 Second International Workshop on Knowledge Discovery and Data Mining
(WKDD09), pages 769772, Washington, DC, USA. IEEE Computer Society.
[Good et al., 1999] Good, N. ; Schafer, J. ; Konstan, J. ; Borchers, A. ; Sarwar,
B. ; Herlocker, J. et Riedl, J. (1999). Combining collaborative ltering with
personal agents for better recommendations. In Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications
of artificial intelligence conference innovative applications of artificial intelligence
(AAAI99/IAAI99), pages 439446, Menlo Park, CA, USA. American Association for
Articial Intelligence.
[Goyal et al., 2008] Goyal, A. ; Bonchi, F. et Lakshmanan, L. (2008). Discovering
leaders from community actions. In Proceeding of the 17th ACM conference on Information and knowledge management (CIKM08), pages 499508, New York, NY, USA.
ACM.
[Grcar, 2004] Grcar, M. (2004). User proling : Collaborative ltering. In Proceedings
of the conference on data mining and warehouses (SIKDD 2004) at multiconference IS
2004.
[Han et Kamber, 2001] Han, J. et Kamber, M. (2001). Data Mining : Concepts and
Techniques. Morgan Kaufmann, San Francisco, California, USA.
[Han et al., 2000] Han, J. ; Pei, J. ; Mortazavi-Asl, B. ; Chen, Q. ; Dayal, U. et Hsu,
M. (2000). Freespan : frequent pattern-projected sequential pattern mining. In Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery
and data mining (KDD00), pages 355359, New York, NY, USA. ACM.
[Hao et al., 2007] Hao, M. ; King, I. et Lyu, M. R. (2007). Eective missing data prediction for collaborative ltering. In Proceedings of the 30th annual international ACM
SIGIR conference on Research and development in information retrieval. ACM.
[Herlocker et al., 1999] Herlocker, J. ; Konstan, J. ; Borchers, A. et Riedl, J.
(1999). An algorithmic framework for performing collaborative ltering. In Proceedings
of the 22nd annual international ACM SIGIR conference on Research and development
in information retrieval.
[Herlocker et al., 2004] Herlocker, J. ; Konstan, J. ; Terveen, L. et Riedl, J. (2004).
Evaluating collaborative ltering recommender systems. ACM Trans. Inf. Syst., 22(1):
553.
[Hofmann, 2003] Hofmann, T. (2003). Gaussian latent semantic models for collaborative
ltering. In Proceedings of the 26th Annual International ACM SIGIR Conference.
156
[Hofmann, 2004] Hofmann, T. (2004). Latent semantic models for collaborative ltering.
ACM Transactions on Information Systems (TOIS), 22(1):89115.
[Hopeld, 1982] Hopfield, J. (1982). Neural network and physical system with emergent
collective computational abilities. Nat.Acad.Sci, 79:25542558.
[Hu et Panda, 2004] Hu, Y. et Panda, B. (2004). A data mining approach for database
intrusion detection. In Proceedings of the 2004 ACM symposium on Applied computing
(SAC04), pages 711716, New York, NY, USA. ACM.
[Huang et al., 2004] Huang, Z. ; Chen, H. et Zeng, D. (2004). Applying associative
retrieval techniques to alleviate the sparsity problem in collaborative ltering. ACM
Transactions on Information Systems (TOIS), 22(1):116142.
[Huang et al., 2002] Huang, Z. ; Chung, W. ; Ong, T. et Chen, H. (2002). A graphbased recommender system for digital library. In Proceedings of the 2nd ACM/IEEE-CS
joint conference on Digital libraries. ACM.
[Huang et al., 2005] Huang, Z. ; Li, X. et Chen, H. (2005). Link prediction approach
to collaborative ltering. In Proceedings of the 5th ACM/IEEE-CS joint conference on
Digital libraries. ACM.
[Huang et Zeng, 2005] Huang, Z. et Zeng, D. (2005). Why does collaborative ltering
work ? a recommendation model validation and selection by analyzing bipartite random
graphs. In Proceedings of Workshop of information Technologies and Systems.
[Jalali et al., 2008] Jalali, M. ; Mustapha, N. ; Sulaiman, N. et Mamat, A. (2008). A
web usage mining approach based on lcs algorithm in online predicting recommendation
systems. In Proceedings of 12th conference of information visualisation.
[Jamali et Abolhassani, 2006] Jamali, M. et Abolhassani, H. (2006). Dierent aspects
of social network analysis. In Proceedings of the 2006 IEEE/WIC/ACM International
Conference on Web Intelligence.
[Jschke et al., 2007] Jschke, R. ; Marinho, L. ; Hotho, A. ; Schmidt-Thieme, L.
et Stumme, G. (2007). Tag recommendations in folksonomies. Knowledge Discovery
in Databases (PKDD 2007), pages 506514.
[Jiang et al., 2006] Jiang, X. ; Song, W. et Feng, W. (2006). Optimizing collaborative
ltering by interpolating the individual and group behaviors. In APWeb.
[Katz et Lazarsfeld, 1955] Katz, E. et Lazarsfeld, P. (1955). Personal Influence : the
Part Played by People in the Flow of Mass Communications. Free Press.
[Kaufman et Rousseuw, 1990] Kaufman, L. et Rousseuw, P. (1990). Finding Groups
in Data : An Introduction to Cluster Analysis. John Wiley and Sons, New York.
[Kautz et al., 1997] Kautz, H. ; Selman, B. et Shah, M. (1997). Referralweb : Combining social networks and collaborative ltering. Communications of the ACM, 30(3).
[Keller et Berry, 2003] Keller, E. et Berry, J. (2003). The influentials. Simon and
Schuster Ed.
[Kempe et al., 2003] Kempe, D. ; Kleinberg, J. et Tardos, E. (2003). Maximizing
the spread of inuence through a social network. In Proceedings of the ninth ACM
SIGKDD international conference on Knowledge discovery and data mining (KDD03),
157
Bibliographie
[Kim et al., 2002] Kim, T.-H. ; Ryu, Y.-S. ; Park, S.-I. et Yang, S.-B. (2002). An improved recommendation algorithm in collaborative ltering. E-Commerce and Web
Technologies, pages 517529.
[Krulwich, 1997] Krulwich, B. (1997). Lifestyle nder : Intelligent user proling using
large-scale demographic data. AI Magazine, (18):3745.
[Krulwich et Burkey, 1996] Krulwich, B. et Burkey, C. (1996). Learning user information interests through extraction of semantically signicant phrases. In Proceedings
of the AAAI Spring Symposium on Machine Learning in Information Access. Stanford,
CA.
[Lam et Riedl, 2004] Lam, S. et Riedl, J. (2004). Shilling recommender systems for fun
and prot. In Proceedings of the 13th international conference on World Wide Web
(WWW04), pages 393402, New York, NY, USA. ACM.
[Lang, 1995] Lang, K. (1995). Newsweeder : Learning to lter netnews. In Proceedings
of the 12th International Conference on Machine Learning (ICML95), pages 331339.
[Liben-Nowell et Kleinberg, 2003] Liben-Nowell, D. et Kleinberg, J. (2003). The
link prediction problem for social networks. In Proceedings of the 12th international
conference on Information and knowledge management. ACM.
[Lieberman, 1995] Lieberman, H. (1995). Letizia : An agent that assists web browsing.
In International Joint Conference on Artificial Intelligence, pages 924929.
[Lim et al., 2003] Lim, M. ; Negnvitsky, M. et Hartnett, J. (2003). Articial intelligence applications for analysis of e-mail communication activities. In Proceedings of
the International Conference On Artificial Intelligence In Science And Technology.
[Lin et al., 2002] Lin, W. ; Alvarez, S. et Ruiz, C. (2002). Ecient adaptive-support
association rule mining for recommender systems. Data Mining and Knowledge Discovery, 6(1):83105.
[Linden et al., 2003] Linden, G. ; Smith, B. et York, J. (2003). Amazon.com recommendations : Item-to-item collaborative ltering. IEEE Internet computing, 7(1):7680.
[Littlestone et Warmuth, 1994] Littlestone, N. et Warmuth, M. K. (1994). The
weighted majority algorithm. Inf. Comput., 108(2):212261.
[Liu et al., 2007] Liu, Y. ; Huang, X. et An, A. (2007). Personalized recommendation
with adaptive mixture of markov models. Journal of American Society for Information
Science and Technology, 58(12):18511870.
[MacQueen, 1967] MacQueen, J. (1967). Some methods for classication and analysis
of multivariate observations. In Proceedings of the 5th Symposium on Math, Statistics
and Probability, pages 281297.
[Massa et Bhattacharjee, 2004] Massa, P. et Bhattacharjee, B. (2004). Using trust in
recommender systems : an experimental analysis. In Proceedings of 2nd International
Conference on Trust Managment.
[McGinty et Smyth, 2005] McGinty, L. et Smyth, B. (2005). Intelligent techniques for
web personalization, volume 3169/2005 de Lecture Notes in Computer Science, chapitre
Improving the performance of recommender systems that use critiquing, pages 114132.
Springer Berlin / Heidelberg.
158
[McLaughlin et Herlocker, 2004] McLaughlin, M. et Herlocker, J. (2004). A collaborative ltering algorithm and evaluation metric that accurately model the user
experience. In Proceedings of the 27th annual international ACM SIGIR conference on
Research and development in information retrieval (SIGIR04), pages 329336, New
York, NY, USA. ACM.
[McNee et al., 2002] McNee, S. ; Albert, I. ; Cosley, D. ; Gopalkrishnan, P. ; Lam,
S. ; Rashid, A. ; Konstan, J. et Riedl, J. (2002). On the recommending of citations
for research papers. In Proceedings of the 2002 ACM conference on Computer supported
cooperative work, page 125. ACM.
[Mehta et al., 2007] Mehta, B. ; Hofmann, T. et Nejdl, W. (2007). Robust collaborative ltering. In Proceedings of the 2007 ACM conference on Recommender systems
(RecSys07), pages 4956, New York, NY, USA. ACM.
[Melville et al., 2002] Melville, P. ; Mooney, R. et Nagarajan, R. (2002). Contentboosted collaborative ltering for improved recommendations. In Proceedings of the
Eighteenth national conference on Artificial intelligence, pages 187192, Menlo Park,
CA, USA. American Association for Articial Intelligence.
[Middleton et al., 2004] Middleton, S. ; Shadbolt, N. et Roure, D. D. (2004). Ontological user proling in recommender systems. ACM Transactions on Information
Systems (TOIS), 22(1):5488.
[Mislove et al., 2007] Mislove, A. ; Marcon, M. ; Gummadi, K. P. ; Druschel, P. et
Bhattacharjee, B. (2007). Measurement and analysis of online social networks. In
Proceedings of the 7th ACM SIGCOMM conference on Internet measurement. ACM.
[Mladenic, 1999] Mladenic, D. (1999). Text-learning and related intelligent agents : A
survey. IEEE Intelligent Systems, 14(4):4454.
[Mobasher et al., 2001] Mobasher, B. ; Dai, H. ; Luo, T. et Nakagawa, M. (2001).
Improving the eectiveness of collaborative ltering on anonymous web usage data. In
Proceedings of the IJCAI 2001 Workshop on Intelligent Techniques for Web Personalization (ITWP01).
[Nakagawa et Mobasher, 2003] Nakagawa, M. et Mobasher, B. (2003). A hybrid web
personalization model based on site connectivity. In Proceedings of WebKDD Workshop
at KDD2003, pages 5970.
[Newman, 2001] Newman, M. (2001). Clustering and preferential attachment in growing
networks. Physical Review Letters, 64(025102).
[Newman, 2003] Newman, M. (2003). The structure and function of complex networks.
SIAM Review, 45:167256.
[Nguyen et al., 2006] Nguyen, A. ; Denos, N. et Berrut, C. (2006). Exploitation des
donnes disponibles froid pour amliorer le dmarrage froid dans les systmes de
ltrage dinformation. In Actes du XXIV Congrs dINFORSID, pages 8195.
[Nichols, 1997] Nichols, D. (1997). Implicit rating and ltering. In Proceedings of the
Fifth DELOS Workshop on Filtering and Collaborative Filtering, pages 3136. ERCIM.
[ODonovan et Smyth, 2005] ODonovan, J. et Smyth, B. (2005). Trust in recommender systems. In Proceedings of the 10th international conference on Intelligent user
interfaces (IUI05), pages 167174, New York, NY, USA. ACM.
159
Bibliographie
[Ohn et al., 2003] Ohn, J. H. ; Kim, J. et Kim, J. H. (2003). Social network analysis
of gene expression data. In Proceedings of AMIA symposium : Biomedical and health
informatics. AMIA.
[OMahony et al., 2006] OMahony, M. ; Hurley, N. et Silvestre, G. (2006). Detecting noise in recommender system databases. In Proceedings of the 11th international
conference on Intelligent user interfaces (IUI06), pages 109115, New York, NY, USA.
ACM.
[OReilly, 2005] OReilly, T. (2005). What is web 2.0. design patterns and business
models for the next generation of software. In Proceedings of Web 2.0 Conference.
[Papagelis et al., 2005] Papagelis, M. ; Plexousakis, D. et Kutsuras, T. (2005). Alleviating the sparsity problem of collaborative ltering using trust inferences. In iTrust.
Springer-Verlag Berlin Heidelberg.
[Paris et al., 2009] Paris, C. ; Colineau, N. ; Thomas, P. et Wilkinson, R. (2009).
Stakeholders and their respective costs-benets in ir evaluation. In SIGIR 2009 Workshop on the Future of IR Evaluation.
[Park et al., 2006] Park, S. ; Pennock, D. ; Madani, O. ; Good, N. et DeCoste, D.
(2006). Nave lterbots for robust cold-start recommendations. In Proceedings of the
12th ACM SIGKDD international conference on Knowledge discovery and data mining
(KDD06), pages 699705, New York, NY, USA. ACM.
[Pass et al., 2006] Pass, G. ; Chowdhury, A. et Torgeson, C. (2006). A picture of
search. In Proceedings of the 1st international conference on Scalable information systems.
[Pazzani et Billsus, 2007] Pazzani, M. et Billsus, D. (2007). The Adaptive Web, volume
4321/2007 de Lecture Notes in Computer Science, chapitre Content-Based Recommendation Systems, pages 325341. Springer Berlin / Heidelberg.
[Pazzani, 1999] Pazzani, M. J. (1999). A framework for collaborative, content-based and
demographic ltering. Artificial Intelligence Revue, 13(5-6):393408.
[Pessiot et al., 2006] Pessiot, J. ; Vinh, T. ; Usunier, N. ; Amini, M. et Gallinari, P.
(2006). Factorisation en matrices non-ngatives pour le ltrage collaboratif. In Actes
de CORIA 2006.
[Popescul et al., 2001] Popescul, A. ; Ungar, L. ; Pennock, D. M. et Lawrence, S.
(2001). Probabilistic models for unied collaborative and content-based recommendation in sparse-data environments. In Proceedings of the 17th Conference in Uncertainty
in Artificial Intelligence (UAI01), pages 437444, San Francisco, CA, USA. Morgan
Kaufmann Publishers Inc.
[Rafter et al., 2000] Rafter, R. ; Bradley, K. et Smyth, B. (2000). Adaptive Hypermedia and Adaptive Web-Based Systems, volume 892/2000 de Computer Science, chapitre
Automated Collaborative Filtering Applications for Online Recruitment Services, pages
363368. Springer Berlin Heidelberg.
[Rashid et al., 2008] Rashid, A. ; Karypis, G. et Riedl, J. (2008). Learning preferences
of new users in recommender systems : an information theoretic approach. SIGKDD
Explor. Newsl., 10(2):90100.
160
[Resnick et al., 1994] Resnick, P. ; Iacovou, N. ; Suchak, M. ; Bergstrom, P. et

Riedl, J. (1994). Grouplens : An open architecture for collaborative ltering of netnews. In Proceedings of the ACM conference on computer-supported cooperative work.
[Resnick et Varian, 1997] Resnick, P. et Varian, H. (1997). Recommender systems.
Communications of ACM, 40(3):5658.
[Salton, 1989] Salton, G. (1989). Automatic text processing : the transformation, analysis, and retrieval of information by computer. Addison-Wesley Longman Publishing
Co., Inc., Boston, MA, USA.
[Salton et McGill, 1983] Salton, G. et McGill, M. (1983). Introduction to modern
information retrieval. McGraw-Hill, New York.
[Sarwar et al., 2001] Sarwar, B. ; Karypis, G. ; Konstan, J. et Reidl, J. (2001). Itembased collaborative ltering recommendation algorithms. In Proceedings of the 10th
international conference on World Wide Web (WWW01), pages 285295, New York,
NY, USA. ACM.
[Sarwar et al., 2000a] Sarwar, B. ; Karypis, G. ; Konstan, J. et Riedl, J. (2000a).
Analysis of recommendation algorithms for e-commerce. In Proceedings of the 2nd
ACM conference on Electronic commerce (EC00), pages 158167, New York, NY, USA.
ACM.
[Sarwar et al., 2000b] Sarwar, B. ; Karypis, G. ; Konstan, J. et Riedl, J. (2000b).
Application of dimensionality reduction in recommender system - a case study. In
ACM WebKDD 2000 Web Mining for ECommerce Workshop.
[Sarwar et al., 2002] Sarwar, B. ; Karypis, G. ; Konstan, J. et Riedl, J. (2002). Recommender systems for large-scale e-commerce : Scalable neighborhood formation using
clustering. In Proceedings of the Fifth International Conference on Computer and Information Technology, pages 158167.
[Sarwar et al., 1998] Sarwar, B. ; Konstan, J. ; Borchers, A. ; Herlocker, J. ; Miller, B. et Riedl, J. (1998). Using ltering agents to improve prediction quality in
the grouplens research collaborative ltering system. In Proceedings of the 1998 ACM
conference on Computer supported cooperative work (CSCW98), pages 345354, New
York, NY, USA. ACM.
[Schafer et al., 2007] Schafer, J. ; Frankowski, D. ; Herlocker, J. et Sen, S. (2007).
Collaborative ltering recommender systems. pages 291324.
[Schein et al., 2002] Schein, A. ; Popescul, A. ; Ungar, L. H. et Pennock, D. M.
(2002). Methods and metrics for cold-start recommendations. In Proceedings of the
25th annual international ACM SIGIR conference on Research and development in
information retrieval (SIGIR02), pages 253260, New York, USA. ACM.
[Shani et al., 2005] Shani, G. ; Heckerman, D. et Brafman, R. (2005). An mdp-based
recommender system. The Journal of Machine Learning Research, 6:12651295.
[Shardanand et Maes, 1995] Shardanand, U. et Maes, P. (1995). Social information
ltering : algorithms for automating word of mouth. In Proceedings of the SIGCHI
conference on Human factors in computing systems (CHI95), pages 210217, New
York, NY, USA. ACM Press/Addison-Wesley Publishing Co.
161
Bibliographie
[Shimazu, 2001] Shimazu, H. (2001). Expertclerk : navigating shoppers buying process
with the combination of asking and proposing. In Proceedings of the 17th international
joint conference on Artificial intelligence (IJCAI01), pages 14431448, San Francisco,
CA, USA. Morgan Kaufmann Publishers Inc.
[Smyth, 2007] Smyth, B. (2007). Case-based recommendation. The adaptive web : methods and strategies of web personalization, pages 342376.
[Smyth et Cotter, 2000] Smyth, B. et Cotter, P. (2000). A personalized tv listings
service for the digital tv age. Knowledge-Based Systems, (13):5359.
[Soboro et Nicholas, 1999] Soboroff, I. et Nicholas, C. (1999). Combining content
and collaboration in text ltering. In Proceedings of the IJCAI-99, Workshop on Machine Learning for Information Filtering.
[Sollenborn et Funk, 2002] Sollenborn, M. et Funk, P. (2002). Category-based ltering and user stereotype cases to reduce the latency problem in recommender systems.
In Proceedings of the 6th European Conference on Advances in Case-Based Reasoning
(ECCBR02), pages 395420, London, UK. Springer-Verlag.
[Srikant et Agrawal, 1996] Srikant, R. et Agrawal, R. (1996). Mining sequential patterns : Generalizations and performance improvements. In Proceedings of the 5th International Conference on Extending Database Technology (EDBT96), pages 317, London, UK. Springer-Verlag.
[Srivastava et al., 2000] Srivastava, J. ; Cooley, R. ; Deshpande, M. et Tan, P.-N.
(2000). Web usage mining : discovery and applications of usage patterns from web
data. SIGKDD Explorations, 1(2):1223.
[Su et Khoshgoftaar, 2009] Su, X. et Khoshgoftaar, T. (2009). A survey of collaborative ltering techniques. Advances in Artificial Intelligence, Janvier 2009:120.
[Svensson et al., 2005] Svensson, M. ; Hk, K. et Cster, R. (2005). Designing and
evaluating kalas : A social navigation system for food recipes. ACM Transactions on
Computer-Human Interactions (TOCHI), 12(3):374400.
[Tamine-Lechani et Calabretto, 2008] Tamine-Lechani, L. et Calabretto, S. (2008).
Recherche dinformation : tat des lieux et perspectives, chapitre Recherche dinformation contextuelle et Web, pages 201224.
[Tang et McCalla, 2003] Tang, T. et McCalla, G. (2003). Mining implicit ratings for
focused collaborative ltering for paper recommendations. In 9th International Conference on User Modeling (UM 2003), Workshop on User and Group Models for Webbased Adaptive Collaborative Environments.
[Tran, 2006] Tran, T. (2006). Designing recommender systems for e-commerce : an
integration approach. In Proceedings of the 8th international conference on Electronic
commerce (ICEC06), pages 512518, New York, NY, USA. ACM.
[Tury, 2007] Tuffry, S. (2007). Data mining et statistique dcisionnelle : lintelligence des donnes. Editions Ophrys.
[Ungar et Foster, 1998] Ungar, L. et Foster, D. (1998). Clustering methods for collaborative ltering. In Proceedings of the AAAI Workshop on Recommendation Systems,
pages 112125.
162
[Valente, 1995] Valente, T. (1995). Network models of the diffusion of innovations.

Hampton Press.
[Verma et al., 2009] Verma, S. ; Patel, S. et Abhari, A. (2009). Adaptive web navigation. In Proceedings of the 2009 Spring Simulation Multiconference (SpringSim09),
pages 14, San Diego, CA, USA. Society for Computer Simulation International.
[Viappiani et al., 2006] Viappiani, P. ; Faltings, B. et Pu, P. (2006). Preference-based
search using example-critiquing with suggestions. Journal of artificial intelligence Research, 27:465503.
[Vozalis et Margaritis, 2006] Vozalis, M. et Margaritis, K. (2006). On the enhancement of collaborative ltering by demographic data. Web Intelligence and Agent
Systems : An International Journal (WIAS), 4(2):117138.
[Wagner et Fischer, 1974] Wagner, R. et Fischer, M. (1974). The string-to-string correction problem. Journal of the ACM (JACM), 21:168173.
[Wang et Shao, 2004] Wang, F.-H. et Shao, H.-M. (2004). Eective personalized recommendation based on time-framed navigation clustering and association mining.
27(3):365377.
[Wang et al., 2008] Wang, Y. ; Dai, W. et Yuan, Y. (2008). Website browsing aid : A
navigation graph-based recommendation system. Decision Support Systems, 45(3):387
400.
[Watts et Dodds, 2007] Watts, D. et Dodds, P. (2007). Inuentials, networks, and public opinion formation. Journal of Consumer Research, 34(4):441458.
[Webster et Vassileva, 2007] Webster, A. et Vassileva, J. (2007). Push-poll recommender system : Supporting word of mouth. User Modeling 2007, pages 278287.
[Xiaoyuan et al., 2007] Xiaoyuan, S. ; Russell, G. ; Taghi, M. et Xingquan, Z.
(2007). Hybrid collaborative ltering algorithms using a mixture of experts. In Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence. IEEE.
[Xue et al., 2005] Xue, G. ; Lin, C. et Yang, Q. (2005). Scalable collaborative ltering
using cluster-based smoothing. In Proceedings of the 28th annual international ACM
SIGIR conference on Research and development in information retrieval.
[Yamanishi et al., 2005] Yamanishi, Y. ; Vert, J.-P. et Kanehisa, M. (2005). Supervised enzyme network inference from the integration of genomic data and chemical
information. Bioinformatics, 21(1):468477.
[Zaki, 2001] Zaki, M. (2001). Spade : An ecient algorithm for mining frequent sequences. Machine Learning, 42(1-2):3160.
[Zhang et al., 2005] Zhang, S. ; Wang, W. ; Ford, J. ; Makedon, F. et Pearlman, J.
(2005). Using singular value decomposition approximation for collaborative ltering. In
Proceedings of the Seventh IEEE International Conference on E-Commerce Technology
(CEC05), pages 257264, Washington, DC, USA. IEEE Computer Society.
[Zheng et al., 2007] Zheng, R. ; Provost, F. et Ghose, A. (2007). Social network collaborative ltering. IOMS : Information Systems Working Papers, CeDER-07-04.
163
Bibliographie
[Ziegler et al., 2005] Ziegler, C. ; McNee, S. ; Konstan, J. et Lausen, G. (2005). Improving recommendation lists through topic diversication. In Proceedings of the 14th
international conference on World Wide Web (WWW05), pages 2232, New York, NY,
USA. ACM.
[Zimdars et al., 2001] Zimdars, A. ; Chickering, D. et Meek, C. (2001). Using temporal data for making recommendations. In Proceedings of the 17th Conference in Uncertainty in Artificial Intelligence (UAI01), pages 580588, San Francisco, CA, USA.
Morgan Kaufmann Publishers Inc.
164
Rsum
Internet met la disposition des utilisateurs une large varit ditems dont le volume
est sans cesse croissant. Devant cette surcharge ditems, lutilisateur peine reprer les
items qui correspondent ses besoins. Cest dans ce contexte que les systmes de recommandation se sont dvelopps, dans la mesure o ils permettent de faciliter laccs aux
items susceptibles dintresser lutilisateur. Nanmoins, malgr le succs des systmes de
recommandation, certaines questions de recherche restent souleves telles que : le manque
de donnes, lidentication de voisins ables, la prcision des recommandations et la recommandation de la nouveaut. En vue de rpondre ces questions, nous avons propos
travers cette thse une nouvelle approche de recommandation inspire du web usage mining et du ltrage collaboratif. Cette approche repose sur lobservation du comportement
de lutilisateur et sur lanalyse de ses usages en vue de gnrer des recommandations. En
outre, nous nous sommes inspirs des techniques utilises dans le domaine de lanalyse
des rseaux sociaux an de prdire les liens travers un rseau dutilisateurs construit sur
la base des similarits de comportement. Lobjectif est de pallier le manque de donnes
et damliorer lidentication de voisins ables. De plus, dans la perspective dattnuer le
problme de dmarrage froid (concernant les nouveaux items), nous avons propos une
approche de recommandation qui repose sur la dtection de leaders pour la recommandation de la nouveaut.
Mots-cls : systmes de recommandation, ltrage collaboratif, analyse des usages,
prdiction de lien, rseau comportemental, leadership
Abstract
The development of internet engendred an important proliferation of items. Thus,
users are often overwhelmed and unable to detect the items corresponding to their needs.
Therefore, the need of tools for automatic personalization of information becomes heightened. Recommender systems are widely used for this purpose thanks to their ability to
guide users towards relevant items. Despite the success of recommender systems in many
application areas, some research questions still remain. Some of these questions concern
sparsity, selection of reliable neighbors, precision of recommendations and cold start problem. In this PhD thesis we explored these issues and proposed some solutions. We suggested a new approach inspired from web usage mining and collaborative ltering. This
approach observes users behavior and exploits usage analysis to generate recommendations. In addition, we applied link prediction methods, from social network analysis area,
in order to predict new links in a behavioral network. The objective is to overcome sparsity and to improve neighbor selection. Moreover, with the perspective of alleviating the
cold start problem (for new items), we proposed a recommendation approach based on
leader detection. These leaders can propagate their appreciations towards their neighbors
and predict accurately their future preferences.
Keywords : recommender systems, collaborative ltering, usage analysis, link prediction, behavioral network, leadership
165

Approche Comportementale de Recommandation

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Approche Comportementale de Recommandation

Uploaded by

Copyright:

Available Formats

Vers une approche comportementale de recommandation

: apport de lanalyse des usages dans un processus de

To cite this version:

HAL Id: tel-00581436

HAL is a multi-disciplinary open access

Larchive ouverte pluridisciplinaire HAL, est

Vers une approche comportementale de

Pr. Cecile Paris, CSIRO ICT Centre, Australie

Pr. Monique Grandbastien, UHP-Nancy 1

Pr. Anne Boyer, Universite Nancy 2

Laboratoire Lorrain de Recherche en Informatique et ses Applications UMR 7503

Mis en page avec la classe thloria.

Je ddie cette thse la mmoire de mon pre.

Table des matires

Table des matires

Technique base sur le contenu . . . . . . . . . . . . . . . . . . 27

Mthodes bases sur la mmoire

Mthodes bases sur un modle . . . . . . . . . . . . . . . . . . 33

Techniques issues du Web Usage Mining . . . . . . . . . . . . . 39

Slection de voisins ables . . . . . . . . . . . . . . . . . . . . . 51

Prcision des recommandations . . . . . . . . . . . . . . . . . . 53

Schma gnrique de la recommandation . . . . . . . . . . . . . . . . . 55

Corpus de notes explicites . . . . . . . . . . . . . . . . . . . . . 65

valuation des recommandations . . . . . . . . . . . . . . . . . . . . . 66

Mesures statistiques de prcision . . . . . . . . . . . . . . . . . 67

Mesures permettant laide la dcision . . . . . . . . . . . . . . 68

Approche collaborative comportementale de recomman-

Extraction des motifs dusage et calcul des similarits de comportement 78

Gnration des prdictions . . . . . . . . . . . . . . . . . . . . . . . . . 81

Evaluation de la qualit des prdictions . . . . . . . . . . . . . . . . . . 82

Table des matires

Schma du modle BNCF-PCS . . . . . . . . . . . . . . . . . . . . . . 98

Gnration des clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Calcul des similarits de comportement et gnration des prdictions . 102

Modles expriments . . . . . . . . . . . . . . . . . . . . . . . 103

Approche sociale de recommandation

Prdiction de lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

Dans le domaine des rseaux sociaux . . . . . . . . . . . . . . . 112

Dans le domaine des systmes de recommandation . . . . . . . 113

Modle D-BNCF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

Modlisation du rseau comportemental . . . . . . . . . . . . . 115

Densication du rseau comportemental . . . . . . . . . . . . . 116

Gnration des prdictions . . . . . . . . . . . . . . . . . . . . . 122

Evaluation du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

Modles expriments . . . . . . . . . . . . . . . . . . . . . . . 123

D-BNCF Combin . . . . . . . . . . . . . . . . . . . . . . . . . 125

Dtection des leaders et des inuenceurs . . . . . . . . . . . . . . . . . 130

Dtection des leaders comportementaux . . . . . . . . . . . . . . . . . 132

Evaluation des recommandations de leaders . . . . . . . . . . . . . . . 135

Table des figures

Liste des tableaux

Table des matires

Internet est un rseau numrique mettant la disposition des utilisateurs, notamment

Comme nous lavons indiqu prcdemment, les systmes de recommandation visent

Les contributions de cette thse comprennent :

Dans ce manuscrit, nous prsenterons dans la premire partie le contexte gnral en

Les systmes de recommandation ont t utiliss an de faire face au problme de

Chapitre 1. Etat de lart

Chapitre 1. Etat de lart

3. des attributs dmographiques concernant lutilisateur, tels que : lge, le sexe, la

Chapitre 1. Etat de lart

dusage) dans le cadre dun systme de recommandation doit veiller la prservation de

Il existe une large varit de techniques de recommandation. A travers les travaux