You are on page 1of 41

CNAM PARIS

Examen probatoire en Informatique Session de janvier 2004

LAHAYE Philippe

Sujet n° 97 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents)

Président de jury : Professeur TREVES

Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents)

Probatoire session janvier 2004

SOMMAIRE
INTRODUCTION................................................................................................................................ 1 1. Méthodes de recherche de données à travers le Web ................................................................ 1 1.1. Formats et accès aux données réparties : Internet et le Web ............................................. 2 1.1.1. Ressources disponibles sur Internet .......................................................................... 2 1.1.2. Web visible ............................................................................................................... 3 1.1.3. Web invisible............................................................................................................. 4 1.2. Moteurs de recherche........................................................................................................ 4 1.3. Annuaires.......................................................................................................................... 6 1.4. Portails thématiques et annuaires sélectifs......................................................................... 7 1.4.1. Portails thématiques.................................................................................................. 7 1.4.2. Annuaires sélectifs .................................................................................................... 8 1.5. Recherche fédérée ............................................................................................................ 9 1.6. Visualisation et navigation ................................................................................................. 9 1.7. Formulation d’une recherche : opérateurs de requêtes et recherches avancées............... 10 1.7.1. Opérateurs de requêtes........................................................................................... 10 1.7.2. Paramètres de recherche avancée.......................................................................... 11 1.8. Conclusion ...................................................................................................................... 11 2. Les agents intelligents.............................................................................................................. 12 2.1. Introduction à l’intelligence artificielle et aux agents ......................................................... 13 2.1.1. Définitions des agents intelligents............................................................................ 13 2.1.2. L’intelligence artificielle............................................................................................ 14 2.2. Approche descendante.................................................................................................... 15 2.2.1. Systèmes d’inférence .............................................................................................. 15 2.2.2. Systèmes experts.................................................................................................... 17 2.2.3. Traitement du langage naturel................................................................................. 18 2.2.4. Perspectives ........................................................................................................... 19 2.3. Approche ascendante : réseaux de neurones .................................................................. 19 2.4. Propriétés et architecture d’un agent intelligent ................................................................ 20 2.4.1. Propriétés générales ............................................................................................... 20 2.4.2. Architecture d’un agent intelligent............................................................................ 21 2.5. Conclusion ...................................................................................................................... 23 3. Contribution des agents intelligents à la recherche de données sur le Web .............................. 24 3.1. Analyse et traitement syntaxique pour la recherche d’information..................................... 25 3.1.1. Formulation et traitement de la requête ................................................................... 25 3.1.2. Recherche multilingue............................................................................................. 26 3.1.3. Lemmatisation......................................................................................................... 26 3.2. Analyse sémantique ........................................................................................................ 26 3.2.1. Extraction des mots clé et des index........................................................................ 27 3.2.2. Catégorisation......................................................................................................... 27 3.3. Veille informative ............................................................................................................. 28 3.4. Filtrage et agrégation des informations ............................................................................ 29 3.4.1. Critères de sélection des résultats d’une recherche ................................................. 29 3.4.2. Filtrage collaboratif .................................................................................................. 29 3.4.3. Calcul de la pertinence des résultats ....................................................................... 30 3.4.4. Agrégation .............................................................................................................. 30 3.5. Agents de commerce électronique................................................................................... 30 3.5.1. Les agents acheteurs .............................................................................................. 31 3.5.2. Les agents vendeurs ............................................................................................... 31 3.5.3. Les agents acheteurs et vendeurs, des systèmes multi-agents intelligents ?............ 32 3.6. Limites de l’apport des agents intelligents et de l’intelligence artificielle ............................ 32 3.7. La réponse du Web sémantique ...................................................................................... 33 CONCLUSION GENERALE ............................................................................................................. 34 ANNEXE : Eléments abstraits de l’architecture d’un agent intelligent de la FIPA............................... 36 BIBLIOGRAPHIE ............................................................................................................................. 39

Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents)

Probatoire session janvier 2004

INTRODUCTION
Internet et le Web représentent une avancée majeure dans la communication interpersonnelle. Ils permettent en théorie un accès à l’information universel. Toutes les sources de données sont potentiellement intégrables à la toile mondiale. De fait, le nombre de documents et d’applications accessibles à travers le Web est aujourd’hui très important, seulement dix ans environ après leur mise en œuvre à grande échelle. Ils continuent à ce jour à croître. Face à cela, il semble possible d’accéder à toutes données désirées. C’est à ce niveau que le Web manque encore à ses promesses, même s’il le permet plus qu’auparavant avec les moyens dont disposait un individu moyen. L’articulation entre une question, un problème à résoudre ou encore une requête et l’obtention des réponses est complexe et représente un chemin à parcourir assez long dans la plupart des cas. Accéder à des données sur le Web nécessite donc un apprentissage. Cela nécessite ensuite un travail, parfois non négligeable, pour l’opérateur humain. Comme le titre de ce rapport le mentionne, accéder à des données réparties à travers le Web nécessite une ou plusieurs méthodes de recherche. Pour la plupart des recherches, ces méthodes présentent des avantages et des inconvénients. Dans la majorité des cas, les réponses obtenues en utilisant ces méthodes de recherches génèrent soit des résultats incomplets (d’autres réponses existent mais ne sont pas mentionnées), soit des résultats trop nombreux (pertinence faible de la réponse par rapport à la question) ou encore des résultats faux (« bruit ») et souvent les trois ensemble. La problématique de la recherche d’informations sur le Web en est à ce stade aujourd’hui et l’objectif d’amélioration des outils de recherche est bien de diminuer l’importance des inconvénients susmentionnés. Cependant, en l’état, les méthodes de recherche actuelles sont indispensables et offre le meilleur service pour accéder aux données réparties sur le Web. La première partie de ce rapport aborde donc ces méthodes de recherche et à travers elles, les outils correspondants. Afin de pallier les inconvénients de ces méthodes de recherche (apprentissage, charge de travail non négligeable, réponses approximatives et non exhaustives), une démarche a été de développer des agents intelligents pour assister l’utilisateur dans sa tâche de recherche. L’agent intelligent est avant tout un programme informatique qui permet d’automatiser des tâches dévolues autrement à l’utilisateur : c’est pourquoi le terme d’agent logiciel lui est parfois préféré. Cependant, dans certains cas, l’agent intelligent répond réellement aux critères exigés pour parler d’intelligence artificielle. L’agent intelligent peut ainsi, dans d’autres cas, se substituer à l’utilisateur pour apprendre (élargir ses connaissances), réfléchir, communiquer avec d’autres agents et prendre des décisions. Nous verrons donc dans la deuxième partie en quoi peut consister un agent intelligent. Nous approfondirons dans la troisième partie de ce rapport ce qu’apportent les agents intelligents et l’intelligence artificielle à la recherche d’informations afin d’accéder à des données réparties à travers le Web. Cet apport améliore le travail de recherche d’information sans toutefois donner des résultats parfaits. Nous verrons donc quelles peuvent être certaines des limites auxquelles font face les agents intelligents aujourd’hui dans la recherche et l’accès aux informations et quelle est la réponse de ces nouvelles limites apportée par les promoteurs du Web, à savoir le World Wide Web Consortium (W3C), à travers le « Web sémantique ».

1. Méthodes de recherche de données à travers le Web
Le Web recouvre une multitude de possibilités. S’agissant avant tout d’une norme et d’une architecture de communication et de transport de données informatiques, Internet permet d’accéder à des informations et des applications aussi diverses que la technologie informatique le permet. Ainsi des applications et des documents accessibles auparavant avec d’autres protocoles de communication, soit d’autres terminaux (matériel et / ou logiciel) particuliers, le sont aujourd’hui avec un navigateur utilisant les protocoles TCP / IP (Transport Control Protocol / Internet Protocol). Aussi rechercher des données réparties sur le Web peut se faire à partir de plusieurs types d’outils que nous allons décrire dans cette section. Il nous faut cependant préciser au préalable quelles sont
Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 1

les ressources qui sont accessibles, comment y accéder et quelles sont celles qui sont interrogeables avant de voir comment les interroger. Les derniers chapitres de cette section dédiée aux méthodes de recherche sur Internet précisent comment peut être formulée une recherche dans une requête transmise aux outils de recherche.

1.1. Formats et accès aux données réparties : Internet et le Web
Quand on parle d’Internet et du Web, il est difficile d’en préciser les contours exacts. Pour donner une idée de « l’immensité » que cela représente, on peut citer quelques chiffres qui au moment où on les inscrit ne sont déjà plus à jour, tant est encore rapide la progression de cet ensemble. En juillet 2000, le nombre de pages Web était d’environ de 2,1 milliards1. Le nombre de pages rajoutées en 24 heures y était estimé à 4,5 millions. Ces chiffres concernent le Web visible tel qu’il est défini ci-dessous. Si on rajoute le Web dit invisible, on doit rajouter 550 milliards de documents [1], ceci n’étant qu’une approche de la complexité de cet ensemble. On doit ajouter à cela le fait que les formats des données réparties à travers le Web n’est pas homogène. Ce chapitre a donc pour objectif de donner un aperçu de la manière dont sont réparties les données à travers le Web.

1.1.1. Ressources disponibles sur Internet
Toutes les ressources dites « immatérielles » peuvent théoriquement se retrouver sur Internet. Autrement dit, toutes les ressources numériques sont accessibles à travers Internet. Concrètement, il s’agit en premier lieu des informations de tout types. Ces informations peuvent être dites non ou faiblement structurées : il s’agit de documents au format HTML2 (Hyper Text Markup Language) qui ont fait la popularité du Web mais aussi de documents sous d’autres formats texte, notamment le format PDF3 (Portable Document File). A l’inverse, les informations peuvent être fortement structurées si elles proviennent d’une base de données et répondent alors à un modèle de données précis. Cependant, la gamme des ressources peut aller du document au logiciel en passant par la voix, le son (musiques), l’image (photographies) et la vidéo (films). Un utilisateur peut être amené à rechercher ce type de ressources, ou encore de données, sur Internet. L’ensemble des médias accessibles par Internet est défini officiellement par l’IANA (Internet 4 Assigned Numbers Authority) dans la liste des types MIME . De plus, avec Internet, les couches applicatives sont nombreuses. Il ne s’agit pas seulement du protocole HTTP (Hyper Text Transfer Protocol [RFC2616]) qui permet aux utilisateurs de naviguer avec leur logiciel de navigation sur le Web et d’interroger les serveurs Web en utilisant notamment les liens hypertextes et qui d’une manière ou d’une autre est l’un des plus familiers des internautes. Cela concerne aussi les autres protocoles et applications que sont, entre autres, le courrier électronique, les forums de discussions ou news groups, les listes de diffusion ou mailing-lists, le transfert de fichier et Telnet. Une ressource peut donc être accessible à travers différents différents types et méthodes d’accès5. Nous allons donc établir une première distinction entre Internet et le Web. Le Web est l’ensemble des informations accessibles à partir du protocole HTTP sur Internet. Internet, lui est plus large, et est un
Les statistiques d’une des sources citées dans le livre de Béatrice Foenix-Riou énumèrent le nombre de pages des sites Web à plus de 6 milliards aujourd’hui (Cyveillance – Press Resource Center - Quick stats : http://www.cyveillance.com/web/newsroom/stats.htm ). 2 Plus d’informations et les spécifications du langage HTML peuvent être obtenues à partir la page web à l’URL suivante : http://www.w3.org/MarkUp/ (HyperText Markup Language (HTML) Home Page). Le World Wide Web Consortium (W3C) est le créateur et l’agence de maintenance du langage. 3 PDF est principalement soutenu par la société ADOBE (http://www.adobe.com) avec le logiciel Acrobate Reader qui permet de les visualiser. 4 MIME - Internet Media Types : liste maintenue par l’IANA (http://www.iana.org) et disponible à l’URL http://www.isi.edu/innotes/iana/assignments/media-types/media-types 5 Uniform Resource Identifier (URI) SCHEMES / Official IANA Registry of URI Schemes / IANA / mise à jour du 2003-08-29 / accessible à l’URL http://www.iana.org/assignments/uri-schemes Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 2
1

Des documents (IN) pointent vers ces documents. Les fils de la toile sont les liens hypertextes qui relient les documents entre eux et qui sont contenus dans le corps des documents. Sridhar Rajagopalan. de commerce électronique). pas encore reconnues par leurs pairs). San Jose. les méthodes que nous mentionnerons dans ce rapport fonctionnent pour accéder à des données sur le Web. il reste deux catégories de documents : ceux qui ne sont pas connectés au cœur du réseau (Tendrils) et enfin ceux qui sont entièrement « déconnecté » des autres pages (aucun lien ne pointe vers eux et ils ne contiennent pas de liens hypertextes). 1. Ravi Kumar. Web visible Le Web est parfois représenté comme une toile d’araignée. L’outil et la méthode utilisée pour trouver une ou plusieurs ressource dépendra donc aussi du type d’accès et du format de celle(s) ci. Le Web est constitué d’une partie centrale de nœuds ultra connectés (SCC) vers lesquels pointent de nombreux document et qui se pointent entre eux. Une typologie de la répartition des pages du Web visible peut être établie en fonction des liens hypertextes qui sont aussi assimilés à des pointeurs et de leur connectivité (voir Figure 1).final/ Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 3 6 . Raymie Stata. Les nœuds ultra connectés pointent vers des « culs de sac » (OUT) dans le sens où ils pointent vers des documents ou sites Web qui en retour ne pointent pas vers des ressources externes (sites d’entreprises.com/cs/k53/www9. Dans cette typologie.2. mais en retour ne sont pointés par aucun document (pages personnelles. Prabhakar Raghavan.réseau de ressources informatiques accessibles avec plusieurs types d’applications. Farzin Maghoul. / 2000 / Accessible à l‘URL http://almaden. Andrew Tomkins. Le Web visible est composé des documents accessibles par n’importe quel utilisateur (documents publics). Janet Wiener / IBM Almaden Research Center. La plupart du temps. pages de création récente. CA. Figure 1 : « Connectivité du Web »6 Source : Graph structure in the web / Andrei Broder. L’utilisation d’un type de média et d’une application pour y accéder a souvent un sens qui peut être utilisé pour rechercher une donnée sur Internet.ibm.1.

2). les fichiers sonores.2 et 1. Par contre. Excel. les données peuvent avoir différents formats dont certains ne sont pas reconnus par les moteurs de recherche. Web invisible Parallèlement au Web visible. Cette tâche ne peut être accomplie par les « robots » qu’utilisent les moteurs de recherche et qui eux parcourent le site en en fonction de leur organisation hiérarchique (structure arborescente). Nous avons donc partitionné le Web en Web visible et invisible. PowerPoint) ou les animations (Macromedia Flash) ne sont pas non plus indexés. Nous avons déjà vu dans les sections 1. Si ces types de médias ne sont pas pris en compte par les moteurs de recherche. aux moteurs de recherche et pas forcément à tous les opérateurs humains. De même.2. comme nous l’avons vu. les documents au format PDF ne sont parfois pas indexés par certains moteurs de recherche et le plus souvent les fichiers de type MS Office (Word.1. cela impacte la navigation (cf. Cela est intéressant car le moteur de recherche a effectué un travail de recensement des pages Web disponibles. c’est à dire au site Web interne d’une organisation. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 4 . section 1.1. Il faut s’identifier aussi pour accéder à un intranet. Moteurs de recherche Une des premières méthodes de recherche de données réparties à travers le Web qui s’offre à l’internaute consiste à utiliser un moteur de recherche. section 1. pas aux annuaires. Les pages « déconnectées » ne sont pas prises en compte par les moteurs de recherche [1] (cf. Ces requêtes sont établies à partir de formulaires qu’il faut remplir. Il faut aussi tenir compte des sites Web qui ne veulent pas être indexés par des moteurs de recherche et qui pour cela le mentionnent explicitement dans un fichier "robot. On n’accède pas aux documents non connectés par la poursuite de liens hypertextes. comme nous l’avons vu déjà. n’importe quel utilisateur humain pourra accéder aux pages de ces sites Web s’ils sont abonnés ou en ont les droits. Toutes les pages des sites de commerce électronique ne peuvent donc pas être indexées par des moteurs de recherche classiques. Cette caractéristique s’applique en fait. Le Web visible se définit aussi par son contraire : le Web invisible. ils peuvent par contre être accédés par les utilisateurs qui possèdent les applications associées.Cette typologie de la répartition des documents sur le Web est importante car cela détermine la capacité des outils de recherche à prendre en compte les documents. L’identification peut être liée à un abonnement (payant ou non) auprès de l’organisation qui fournit ces pages. composé de sites en accès libre offrant des pages reliées entre elles. c’est en fait parce que les utilisateurs accèdent aux données en les recherchant souvent à partir d’un moteur de recherche. Ainsi.3 quelles sont les pages Web disponibles.1. 1.txt" qui est placé dans le répertoire racine du site Web. On trouve aussi dans ce Web invisible les pages pour lesquels il faut s’identifier avant d’y accéder. Enfin. et à travers eux.6) et l’accès aux données non connectées à partir d’un lien hypertexte. Ce dernier est constitué en premier lieu par des pages dynamiques générées à partir de requêtes transmises à des bases de données.3. 1. images et vidéos ne peuvent pas être indexés automatiquement. on trouve des données accessibles sur le Web invisible. La plupart des banques de données professionnelles sont payantes et ne sont pas de fait indexées par les moteurs de recherche. Si le Web peut être conçu comme invisible. De même.

utilisation de caractère de troncature . ou pour recenser plusieurs sites concernant un domaine particulier. prise en compte de l’ordre des mots ou non. Ces informations sur le document sont le plus souvent des méta données (données sur le document). chap. il est ainsi possible de recueillir les pages indexées par le moteur qui pointent vers l’URL donnée en paramètre dans le champ de saisie de la recherche. Si toutes ces fonctionnalités se retrouvent dans l’un ou l’autre des moteurs de recherche interrogeables en ligne. recherche sur 9 10 mot entier ou sur partie de mot. Avec certains moteurs de recherche. 7 8 9 Gatherer. ou enfin pour avoir des informations complémentaires à un produit. 7. va lui fournir la liste des documents contenant les termes de la requête. règles de lemmatisation. Le gestionnaire de requête offre des fonctionnalités permettant de spécifier des requêtes relativement complexes : opérateur de requêtes (cf. Cette option est liée à l’opérateur « like: » ou « related: ». pp 229-237]. thésaurus comprenant les règles d’expansion des requêtes. Cette option (« related: ») est liée au fait que les pages publiées sur le Web peuvent contenir des informations sur le document qui sont contenues dans son entête et non affichées à l’écran. 11 Stop words en anglais. paramètres de recherche multilingue. recherche sur des mots isolés ou sur des expressions composées de plusieurs mots. présentés sous une forme plus ou moins laconique [2. et en extrait certains composants textuels. Peuvent être 11 12 précisés notamment la liste de « mots stop » . Le « collecteur »7 recherche les documents sur un domaine. et en exploitant l’index.1. qui va traiter les requêtes émises par les utilisateurs. C’est pourquoi dans les fichiers HTML. en anglais. Certaines options et paramètres du fonctionnement dépendent du moteur de recherche. les moteurs de recherche proposent des fonctionnalités avancées qui utilisent en partie l’intelligence artificielle. Dans cet index figure tous les mots des textes extraits. Il communique ces informations extraites des différents documents à un « distributeur8 ». en anglais. Joker. nécessitant aujourd’hui une expertise propre.7 « Formulation d’une recherche : opérateurs de requêtes »). 10 Casse : majuscule. à l’exception de ce ceux figurant dans un grand nombre de documents différents et n’ayant dès lors aucun pouvoir discriminant utile.2 de ce rapport. Broker. sujet approchants… Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 5 . Il s’agit là d’un domaine à part entière. sur la base de critères déterminés par des algorithmes s’appliquant aux mots clés ou au sujet liés aux pages Web. insensibilité à la casse . Enfin. tolérance aux fautes d’orthographe. voir page 27. chaque moteur de recherche a son fonctionnement propre. Ces fonctionnalités seront développées en particulier dans la section 3. Ainsi les pages peuvent contenir des attributs descriptifs tels que le titre. Le distributeur comporte aussi un gestionnaire de requêtes. des sites ayant une offre concurrente à un site donné. section 1.Fonctionnalités d’un moteur de recherche Un moteur de recherche est en général constitué de deux grands modules fonctionnels. Fonctions avancées d’un moteur de recherche Une des premières fonctions avancées est la fonction « link: ». Les opérateurs de requêtes ne sont pas les mêmes pour chacun et sont plus ou moins nombreux (voir section 1. l’auteur. Celui ci construit un index « plein texte » des documents collectés. Cette fonction peut être utilisée pour identifier. minuscule. Souvent le caractère ‘?’ ou ‘%’.7. autrement dit le titre est une méta donnée qui n’est pas repris dans une balise <META>. la description et les mots clés. elles se retrouvent dans les meta-tags (balises <META>). Il en est de même avec les paramètres de fonctionnement retenus pour chaque moteur : les règles utilisées ne sont pas les mêmes pour chacun. Cette option donne les références d’autres pages que le moteur identifie comme similaires. 12 prise en compte des synonymes par exemple.1). L’exception provient de la balise <TITLE> qui reprend le titre du document dans son entête (entre les balises <HEAD>) . C’est comme si on utilisait des liens hypertextes inverses. par exemple. voire acceptation de fautes d’orthographe dans un terme de requête : peuvent être trouvés les mots de l’index ne différant de ceux de la requête que par une ou deux lettres. Quelques moteurs de recherche offrent sur leurs pages de résultats l’option « Related pages » (ou pages similaires) en face de chaque page sélectionnée.

proposés par leur éditeur le plus souvent. une partie du Web invisible pour les moteurs est indexé et accessible à partir des annuaires (cf. De même. elles peuvent servir à des requêtes paramétrées sur une ou plusieurs des méta données. le moteur de recherche le plus important aujourd’hui annonce recenser 1. Par exemple. à la différence des moteurs de recherche qui tentent d’indexer toutes les pages du Web. l’utilisateur peut de cette manière rechercher un document dont l’auteur est ‘Jean Dupont’ ou encore un mot contenu uniquement dans le titre du document. Probatoire session janvier 2004 p 6 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . De même. Certains « robots » tentent donc de déduire ces informations en se basant sur un certain nombre de règles qu’utilise ensuite un agent intelligent en appliquant une analyse sémantique du document (voir section 3. rappelons que les moteurs de recherche ne recensent que le Web visible et que chacun pris isolément. Et c’est là une notion importante dans une méthode de recherche. eux. De plus. Annuaires A l’inverse des moteurs de recherche qui se basent sur un travail effectué par des programmes informatiques. ces balises ne sont le plus souvent pas renseignées. L’utilisateur peut ainsi parcourir des catégories hiérarchisées. les annuaires recensent une partie de l’information contenue dans le Web à partir d’un travail d’indexation réalisé par des opérateurs humains. Les cyber-documentalistes parcourent le Web afin de recenser et décrire les nouveaux sites. c’est à dire la génération de résultats ne correspondant pas à la requête [2]. Les autres fonctionnalités avancées peuvent être le traitement de la requête en langage naturel. Limitations des moteurs de recherche La principale limitation des moteurs de recherche « plein texte » est que l’indexation et la recherche se font sur des entités purement lexicales. 1. nommés cyberdocumentalistes. section 1. le système peut tenter de catégoriser (classifier) automatiquement ces documents. le titre et le descriptif du site Web. l’utilisateur peut utiliser une zone de saisie de formulaire pour lancer une recherche par mot clé qui va s’effectuer sur les catégories.Ces méta données sont dans certains cas indexées d’une manière particulière par les moteurs de recherche. Google. les annuaires sont des catalogues du Web dans lesquels les sites sont classés par catégorie. catégoriser est une des bases de la recherche d’informations. ce qui est beaucoup plus réducteur et pertinent que de rechercher un document contenant les mots ‘Jean Dupont’ ou le mot recherché dans le texte. Ainsi. la recherche multilingue. on tente de déterminer le titre. L’utilisateur arrive ainsi à trouver des sites Web identiques en parcourant la classification de différentes manières. Les annuaires sont l’objet d’une méthode complémentaire de recherche de données réparties à travers le Web.3.1. les annuaires. 13 Bruit : résultat non pertinent par rapport à la requête. Dans le même ordre d’idée. ce qui est très important à noter. Alternativement. parfois appelés robots.3). le filtrage des résultats de la requête. Une des conséquences est la génération d’un « taux de 13 bruit » souvent très important dans la réponse. les annuaires proposent des catégorisations multiples : une ou plusieurs catégorisations thématiques et une catégorisation géographique. Ainsi.3 milliards d’URL mais il n’indexe la page en texte intégral que dans la moitié des cas seulement [1]. les mots clés et une description du document. ne s’attachent qu’à décrire et répertorier les sites Web. n’en indexe qu’une partie. Malheureusement. Autrement dit. Le plus souvent. Ces méta données synthétisées automatiquement ne sont malheureusement pas justes dans de nombreux cas et une recherche sur ces méta données peut s’avérer inutile.2). plusieurs centaines chaque jour. Les sites Web sont ainsi indexés avec leur titre et un très bref descriptif dans des rubriques et sous-rubriques.

introduisons une nouvelle notion à propos des outils de recherche : le portail.4. Une illustration est l’utilisation de vocabulaire contrôlé pour indexer une ressource. on aura globalement surtout des réponses sur les disques informatiques. Le problème de l’homonymie peut être en partie écarté dans les annuaires en lançant une recherche à l’intérieur d’une catégorie. Ces fonctionnalités. Enfin. Ils offrent donc simultanément l’accès à un moteur de recherche et à un ou plusieurs annuaires. la tolérance aux fautes d’orthographe. une recherche sur le mot « disque » ne donne pas les mêmes résultats selon que l’on se trouve dans la rubrique informatique du catalogue ou à sa racine. L’utilisation de guillemet « force » la recherche uniquement sur la chaîne de caractères entre les guillemets et non sur chacun des mots contenus dans la chaîne. afin d’attirer le maximum d’internautes. téléchargement de logiciels. Ce proverbe pourrait s’appliquer aux annuaires et aux moteurs de recherche généralistes qui ont parmi leurs objectifs principaux l’exhaustivité. Selon leur paramétrage. non plus la référence de 21 catégories et 682 sites comme dans le premier cas. car cela n’est pas possible et parfois pas souhaité. la classification est une technique documentaire qui nécessite l’observation de certains principes pour être correcte. petites annonces. on trouvera des réponses concernant toutes les personnes ayant pour nom Balzac et dans les autres. des services (boîte à lettre de courrier électronique. Dans le premier cas. De cette manière. c’est à dire que certaines réponses que l’on sait correspondre à la requête n’apparaissent pas. p 38]. mais 132 catégories et 3697 sites [1. est dû parfois à la synonymie ou à l’homonymie. « Qui trop embrasse. ce qui a une signification dans les opérateurs de requête ) concernent des rubriques intitulées « e-commerce ». météorologie.4. mal étreint ». On assiste donc aussi à un phénomène de « silence » sur les annuaires. Par ailleurs. on pourra ne pas trouver les documents qui ont simplement été indexé avec comme sujet « Balzac ». Portails thématiques et annuaires sélectifs Tout d’abord.Cependant les annuaires présentent des défauts même s’ils sont organisés par des opérateurs humains plutôt que par une machine. Le silence ou le bruit entourant les résultats d’une recherche de données. ils proposent souvent aussi : des informations sélectionnées (actualités. De même. Si on lance ensuite une recherche avec le mot ecommerce. ils feront appel à des fonctionnalités déjà énoncées dans la section précédente sur les moteurs de recherche : à savoir l’utilisation de listes de « mots stop ». ne doivent être utilisés pour indexer que des mots contrôlés à partir de 14 dictionnaires ou encore de schémas de classification. des plate-formes de commerce électronique. Dans le premier cas. n’apparaissent que les résultats concernant un mot clé ne correspondant qu’à un thème précis. le Web n’est pas indexé de manière complète. entre autre. 1. on a la qualité de ses défauts ou inversement on a les défauts de ses qualités s’applique dans ce cas. aussi apparaître des réponses concernant la musique. si elles permettent d’étendre les termes d’une requête. dans le second on verra. Un autre exemple montrant les difficultés d’une recherche sur un annuaire ou un moteur de recherche est le suivant. souffrent moins de ces défauts que nous venons juste de présenter. Un exemple classique d’indexation souvent mal contrôlé concerne les personnes : ainsi des documents parlant d’Honoré de Balzac ou de ses œuvres ne seront pas retrouvés de la même manière si l’on utilise « Balzac ». Des réponses obtenues à partir des termes de la requête en anglais « electronic 15 commerce » (avec des guillemets. 1. « De Balzac. Probatoire session janvier 2004 p 7 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . Théoriquement. Honoré » ou « Honoré de Balzac ». de règles d’expansion des requêtes. Le principe. …). Les portails thématiques et les annuaires sélectifs. génèrent en contrepartie des réponses non souhaitées (bruit). Par exemple. on obtient. de règles de lemmatisation. Les portails offrent donc à la fois les fonctions d’annuaires et de moteur : le même outil peut servir de point de départ à toutes les recherches. Il s’agit en fait de site Web dédiés à la recherche et à l’accès aux informations sur le Web. Portails thématiques 14 15 Un synonyme de schéma que l’on utilise souvent indifféremment est le mot « modèle ».1. à l’inverse. traduction).

D’autres méthodes sont possibles pour améliorer ou complémenter les méthodes et les outils de recherche de données vus jusqu’à maintenant. Cette approche par domaine peut être verticale. 1. La description des sites. 16 Des références de thésaurus sont : .nlm.[LCSH] Library of Congress Subject Headings . on peut dire aussi que ces annuaires et portails thématiques peuvent être appelés « guide des guides » (« méta annuaire ») lorsqu’ils répertorient les outils de recherche d’informations. par thème ou non. Par exemple.).[MeSH] Medical Subject Headings : http://www. Annuaires sélectifs Un autre outil mis en place par des professionnels de l’information (bibliothécaires ou documentalistes) pour un autre public (celui de l’enseignement : universitaires. des articles de la presse spécialisée. chercheurs.getty. On peut trouver d’autres méta données que celles concernant le titre. comme des journaux électroniques avec archives ou des banques de données. un forum de discussion pour les utilisateurs.[UDC] Universal Decimal Classification : http://www. Nous donnons en conclusion (cf. Le portail vertical.edu/research/tools/vocabulary/tgn/ . l’auteur et la description comme particulièrement la méta donnée couverture géographique ou encore spatiale ou bien encore la langue. est plus détaillée que dans les annuaires généralistes. Une des caractéristiques des portails thématiques ou des annuaires sélectifs est qu’il s’adresse à un public particulier. Le fait que le nombre de sites référencés soit faible par rapport aux annuaires généralistes non sélectifs est compensé par la richesse des sites retenus. L’utilisation de schémas de classification 16 et autres thésaurus professionnels y est plus systématique . est construit le plus souvent autour d’un annuaire thématique.nih. …) ou horizontale.Les portails thématiques sont construits sur le même principe que les portails généralistes mais avec une approche thématique. Il est souvent fait par des professionnels (experts du domaine) au service de professionnels ou en tout cas d’un public « éclairé ». c’est à dire par secteur d’activité (comme l’automobile. Le champ d’investigation va donc être plus limité par définition mais aussi par choix. un annuaire des fournisseurs. Le fait que ces outils soient le fait de professionnels de la documentation ajoute aussi une valeur liée à l’utilisation des techniques éprouvées de la documentation.4. Compte tenu de leurs critères de sélection.[TGN] Getty Thesaurus of Geographic Names : http://www. la finance. c’est à dire une approche par domaine.html .gov/mesh/meshhome. Pour finir. Il s’agit principalement de permettre de trouver plus rapidement une information plus pertinente et épurée. ces outils recensent de nombreuses ressources appartenant au Web invisible. section 1. plus restreint et le plus souvent professionnel.8). enseignants) est l’annuaire sélectif. autre appellation du portail thématique. entre autre parce qu’ils sont moins nombreux.org/ Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 8 . c’est à dire par sujet ou thème utilisé par tous ou plusieurs secteurs d’activité (comme le knowledge management. etc. la veille technologique. un site spécialisé sur les logiciels avec un annuaire des sites du domaine. l’apport des annuaires sélectifs par rapport aux annuaires classiques. d’où l’intérêt des portails ou annuaires thématiques. Le nom de ce type d’annuaire porte sa définition : les informations sélectionnées (les sites principalement) sont triées sur le volet avec une approche qualitative marquée. peut ainsi s’enrichir de rubriques offrant les comparatifs de produits réalisés par des laboratoires de test.2.udcc. Le travail de l’expert ajoute une valeur ajoutée à la recherche d’information brute.

La technique consistant à interroger plusieurs interfaces de recherche est utilisée aussi par les outils de comparaison de prix dans le domaine du commerce électronique. pas dans tous les domaines. De même. ne peuvent indexer l’intégralité du Web. On ne peut donc pas utiliser les opérateurs de requêtes avancés proposés par les moteurs et annuaires. En fait. on peut effectuer une recherche simultanément sur plusieurs moteurs de recherche et annuaires.6.4 et 3. Ces aspects seront repris et développés dans les sections 3. Ces méta moteurs sont parfois assimilés à des agents intelligents. La navigation consiste à suivre des liens hypertextes inclus dans les pages Web. les méta moteurs ont pour avantage de pallier des insuffisances des moteurs de recherche. titre « Limitations des moteurs de recherche » page 6). parce qu’une recherche peut ne pas être parfaitement exprimée par un opérateur et qu’un texte et une référence dans celui ci peut avoir un sens recherché et qui n’est pas pris en compte par des outils comme les moteurs de recherche. Les méta moteurs les plus sophistiqués envoient une même requête à différents moteurs et annuaires (que l’on peut choisir dans une liste). 1. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 9 . un outil de recherche classique ne tient pas ou peu (techniques de personnalisation) compte du profil de l’utilisateur et de ses connaissances préalables. puis dédoublonnent les résultats. thème…) et offre la possibilité de vérifier la validité des liens. les méta moteurs peuvent utiliser les interfaces de recherches proposés par les annuaires sélectifs et les portails thématique et profiter de la qualité des sélections de ces sites en les additionnant à un objectif d’exhaustivité. De même. portant par exemple sur deux termes reliés par « AND ». Il faut pour cela utiliser ce que l’on appelle un méta moteur qui n’a donc pas d’index propre. qui. seuls des outils professionnels proposent cette dernière possibilité. ce type d’outil est surtout adapté aux recherches basiques. Seul l’utilisateur sait ce qu’il cherche et ce à quoi il veut accéder. mais souffrent néanmoins de certaines faiblesses. Cependant. Visualisation et navigation Après avoir vu des outils puissants au regard de la masse des données réparties à travers le Web et du travail considérable d’indexation opéré. C’est d’ailleurs un des principaux avantages offert par le Web et ce qui a fait en partie son succès. les classent (par pertinence. Au contraire. La première est liée au fait que le méta moteur ne rapatrie qu’un nombre limité de résultats de chaque recherche sur chaque moteur (en général les 10 à 50 premiers de la liste des résultats). Dans le même ordre d’idée. Ils permettent ainsi un gain de temps indiscutable. Le méta moteur de comparaison va ainsi interroger le catalogue de plusieurs sites de vente en ligne et rapatrier le résultat dans une sorte de catalogue agrégé. Il s’agit là toutefois d’une méthode qui peut être utilisée et qu’on ne peut pas ne pas mentionner.5. notamment dans le sens où ils sont capables de traduire la requête dans le langage utilisé par le moteur de recherche interrogé et d’homogénéiser les jeux de résultat retournés par les moteurs en les agrégeant. utiliser la visualisation et la navigation dans les pages Web comme méthode de recherche de données réparties à travers le Web peut paraître trivial. la navigation peut être une méthode de recherche efficace. à un prix qui les écarte des utilisateurs particuliers et des petites entreprises. et encore. Recherche fédérée En complément d’une recherche sur un ou plusieurs moteurs de recherche. La seconde et principale limitation est que les opérateurs sont réduits au plus petit dénominateur commun des opérateurs des moteurs de recherche interrogés. Les méta moteurs permettent de transmettre une même requête à plusieurs outils de manière séquentielle ou parallélisée. Ce sont des outils disponibles sur le Web (on line) ou que l’on peut installer sur son ordinateur (off line).1.5. Le dernier moyen restant à l’utilisateur pour approfondir une recherche de données réparties sur le Web est d’utiliser ses propres moyens et son intelligence en utilisant les propriétés de visualisation et de navigation offertes par les navigateurs Web.4. nous l’avons vu (cf.

Malgré cela. . dont XLink18. un peu de réflexion et d’organisation préalable à une recherche de données peuvent certainement améliorer encore l’efficacité. De plus.org/XML/ XML Linking Language (XLink) Version 1. il faut tenter de caractériser les données que l’on cherche en identifiant : . Opérateurs de requêtes Cette section a été synthétisée à partir des pages d’aide aux utilisateurs de trois moteurs de recherche20. section 1. chap.fr/intl/fr/help. La navigation dans les documents hypertextes est donc bien une méthode de recherche pour accéder à des données réparties.1). Cette méthode de recherche basée sur la navigation peut être aussi appelée exploration dynamique. il faut bien accéder à un document pour pouvoir en extraire l’information recherchée et valider les résultats proposés par un outil de recherche. Voir http://www. . et la navigation à partir d’un site Web de référence peut être très riche d’informations. Une fois. ainsi que leurs paramètres de recherche avancée qui précisent les ressources recherchées (cf.les thèmes et les ressources de la requête correspondante. Hypermedia/ Time-based Structuring Language 20 Sources : .0 : W3C Recommendation 27 June 2001. Enfin.Pages d’aide de Google à partir de l’URL : http://www.w3. 1.7.Pages d’aide de Voilà à partir de l’URL : http://aide. La possibilité 19 d’accéder à des ressources grâce à des liens a déjà été illustrée aussi avec la norme HyTime . Pour cela.html . les nouvelles générations de documents publié sur le Web utilisant le langage XML17 (eXtended Markup Language) et ses normes ou protocoles associés.org/TR/xlink/ HyTime . Les opérateurs portent sur des mots pris isolément ou sur des chaînes de mots (dites chaînes de caractère). L’utilisation de liens associés aux méta données des documents publiés sur le Web sont aussi une source de navigation potentielle dans des navigateurs spécialisés [2. c’est à dire la lecture d’un texte mais aussi la visualisation des images et des illustrations. il est déjà possible d’enrichir la connotation d’un lien hypertexte (balise <a> en langage HTML) en rajoutant une information concernant son type (attribut « type »). permettent d’étendre les fonctionnalités des liens hypertextes et d’enrichir la navigation. 3. c’est à dire les domaines couverts. Par ailleurs. Cela est rarement utilisé et permettrait cependant d’enrichir le sens et les propriétés d’un lien hypertexte.La visualisation.quels peuvent être les homonymes (pour les exclure) ou les synonymes (pour les inclure) de ces données.voila.w3. Elle pourrait l’être encore plus si ces documents et les applications de navigation exploitaient l’ensemble des possibilités récentes offertes par le langage XML et l’utilisation étendue des méta données.1.fr/Recherche/ .1. cette préparation effectuée. section 1.7. Pourtant. d’une recherche de données.altavista.3). 1. une recherche est aussi un processus récursif : l’obtention de premiers résultats amène à préciser et / ou élargir la recherche de données. Les chaînes de caractères pour pouvoir être prises en compte sont exprimées entre des guillemets (" "). pp 99-100]. http://www.com/help/search/default 18 19 17 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 10 . on peut utiliser les opérateurs de requêtes offerts par les moteurs de recherche. les liens hypertextes peuvent être considérablement enrichis dans le sens où on peut leur ajouter beaucoup de sens. Formulation d’une recherche : opérateurs de requêtes et recherches avancées La puissance et l’efficacité des outils que nous avons présentés font que les méthodes de recherche de données réparties à travers le Web peuvent s’assimiler à l’utilisation de ces outils. notamment en terme de temps. Techniquement.les paramètres permettant de restreindre au maximum le champ couvert et explicitant au maximum la recherche et les termes qu’elle contiendra. Information technology.Pages d’aide d’Alta Vista à partir de l’URL : http://www.ISO/IEC 10744-1992 (E). Un exemple d’exploration dynamique à partir d’une méta donnée est le parcours des classifications offertes par les annuaires (cf.google.

On utilise des parenthèses « () » pour regrouper des expressions booléennes complexes. L’opérateur ET est souvent implicite. les options de recherche peuvent porter sur les méta données « description » et « keyword ». OU (signe . Paramètres de recherche avancée La recherche avancée consiste à appliquer des critères de filtrage aux requêtes de recherche. vidéo. basse et bassin. . Il y a des opérateurs de troncature. Enfin. N'importe quelle lettre ou groupe de lettres peut prendre la place de l'astérisque. les recherches avancées permettent parfois un affinage de la recherche.le filtrage par dates ou périodes. Par exemple. L'astérisque peut être un joker.ou OR) et SAUF (NOT. AND NOT. francophone. Ils peuvent permettre notamment de traiter en partie l’homonymie en excluant à priori certains résultats (NOT) et la synonymie (OU). Il s’agit principalement de la possibilité de restreindre une nouvelle requête aux résultats trouvés lors d’une précédente requête. .8. ou AND). De même. domaine Internet… Le filtrage peut être aussi parfois thématique : il s’agit du choix du domaine fonctionnel de recherche. Ces filtrages sont : . Les autres opérateurs de requêtes sont des fonctions dont la syntaxe peut varier entre les différents moteurs de recherche. Il est nécessaire de saisir au moins trois lettres avant *.2).le filtrage linguistique (par langue). . On doit noter aussi la possibilité du filtrage du contenu (" filtre parental ") qui permet d'éliminer les ressources catégorisées "Adulte". c’est parfois le OU. Il existe des opérateurs de proximité disponibles : l'opérateur NEAR.le filtrage par types de ressources : images. Nous avons vu les fonctions « link: » et « related » dans la sous-section initulée « Fonctions avancées » page 5. « moi*s » trouvera de documents contenant mois et moins. conçus pour répondre à des questions différentes.7. on peut dire que les annuaires doivent être utilisés lorsque Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 11 . Il n’y a pas de méthodes pré-définie englobante où alors celle-ci serait un peu lourde à réaliser par un opérateur humain. . audio…. Ces fonctionnalités sont présentées dans la section suivante (1. chaque outil à ses avantages et ses défauts en fonction de la recherche de l’utilisateur. Journaux…. En fait..2. Annuaires et moteurs de recherche sont des outils de recherche bien distincts. La syntaxe n’est pas fondamentale et revient à utiliser les formulaires de recherche avancée dans les moteurs de recherche. « Bas* » récupérera les documents avec bas. L'opérateur de recherche permet parfois de préciser la distance entre les mots. URL. régional). . 1.le filtrage géographique (Web mondial.le filtrage des applications Internet : Web. Les opérateurs peuvent être mis entre parenthèses pour indiquer l’ordre d’exécution des opérations. Messagerie.7. Par exemple : bibliothèque NEAR numérique .le filtrage des champs de requête : titre.).le filtrage par types de formats.Les principaux opérateurs de recherche sont les opérateurs booléens ET (signe +. C'est utile lorsque l’utilisateur n'est pas sûr de l'orthographe. 1. On parle souvent de joker. Pour simplifier. bibliothèque NEAR/3 numérique (bibliothèque à une distance de 3 mots de numérique) [3]. On peut aussi placer * au milieu du mot. Conclusion A chaque recherche d’accès à des données réparties à travers le Web correspond une ou plusieurs méthodes. . forums Usenet. Cette possibilité d’affinage d’une requête montre bien qu’une recherche est souvent un processus récursif.

ou pour avoir une idée de l’offre disponible sur le Web sur un sujet particulier. la recherche sera plus performante si on utilise un annuaire classique ou un annuaire sélectif. La méthode. Encore faut-il que tous les utilisateurs d’un même domaine de recherche respectent cette procédure générale. Notamment. l’utilisation d’un annuaire sélectif ou d’un portail spécialisé permettra d’obtenir rapidement une réponse pertinente. il est alors bien plus rapide de faire appel à un méta moteur qui collectera les différentes réponses. dictionnaires.3). les capacités des machines Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 12 . Ainsi si l’on recherche des informations sur les champignons. à proprement parler. section 1. Cet annuaire peut être décentralisé comme dans de nombreux cas avec le « peer-to-peer » ou avec les annuaires UDDI (Universal Description Discovery and Integration). L’utilisation des agents intelligents. Ce n’est pas forcément possible dans tous les cas. bute aussi très certainement sur cela. objet de notre chapitre suivant. Les ressources sont publiées puis les outils de recherche sont mis en œuvre en posant la question « comment fait-on pour les retrouver et y accéder ? ». consiste donc à savoir et exprimer de manière non ambiguë sa recherche d’informations. l’utilisation des méta moteurs pour effectuer une recherche fédérée prend tout son sens pour des recherches ponctuelles. 2.2). Plutôt que d’interroger successivement les différents moteurs. « méta données » dans la section « Fonctions avancées » page 5 puis « vocabulaire contrôlé. L’efficacité de la recherche sur Internet bute aujourd’hui sur ce point. Les moteurs de recherche en revanche. pour identifier les sites des entreprises dans un domaine donné. au sens large du terme. schémas de catégorisation » dans la section 1. mais on n’y accède alors pas directement via le protocole HTTP. pour lesquels les moteurs généralistes obtiennent peu de réponses. Selon le type de question. Une première démarche peut être aussi de trouver les outils de recherche : l’utilisation de méta annuaires (répertoire des outils de recherche et des portails thématiques) peut être alors utile. De même. mais ils inventent et construisent des machines pour ce faire. pour résoudre ces mêmes problèmes. Mais si l’on souhaite en revanche identifier quelques sites de référence sur un sujet. L’utilisateur peut élargir ou préciser sa recherche en fonction des résultats obtenus aux premières requêtes. notamment lorsqu’il s’agit de répondre à des questions simples (un ou deux mots). nul doute qu’une recherche dans les annuaires généralistes sera bien adaptée. c’est dans des moteurs de recherche qu’il faudra lancer sa recherche. même en langage naturel. on pourra identifier des sites spécialisés sur la question dans des annuaires. par exemple. Les Hommes ne peuvent pas voler. ces outils orientent l’utilisateur dans sa recherche de manière récursive. de découverte et d’exploration. Ces outils sont déjà très puissant et peuvent aider à exprimer une recherche d’informations qui souvent est suffisamment large pour être difficilement exprimable. notamment en phase d’apprentissage. Cela est difficile si l’utilisateur n’est pas sûr de la présence ou non des données sur le Web. Dans certains cas. Les agents intelligents Les machines. Pour retrouver. On a vu par ailleurs la différence entre annuaires sélectifs ou non (cf. le site Web d’une société. L’ensemble de ces outils répond à une démarche de recherche de l’information a posteriori. Enfin. permettront d’identifier les pages d’un site Web concernant un sujet très spécifique. sont inventées et réalisées par les Hommes afin de les décharger de tâches aliénantes et afin de réaliser des tâches qu’ils ne peuvent eux même exécuter de par leurs caractéristiques physiques notamment. Mais si l’on veut tout savoir sur la coucoumelle (nom usuel d’une espèce d’amanite). si l’on désire accéder à des ressources de type spécialisé comme les fichiers multimédias ou exécutables : on ne peut s’adresser qu’à un annuaire thématique.4. Les résultats des recherches des utilisateurs sont meilleurs dans un système dans lequel les documents sont systématiquement indexés et référencés à priori selon une procédure générale en se posant la même question (cf. général ou spécialisé.le thème de la question est susceptible de faire l’objet d’un site ou d’une grosse rubrique d’un site Web ou lorsqu’on souhaite localiser le site Web d’une organisation (entreprise) particulière. Nous avons dit déjà qu’une méthode de recherche sur le Web s’assimile souvent à l’utilisation d’un outil.

laissant espérer la réalisation de tâches autrement impossibles. Un agent intelligent contient un ou plusieurs des éléments suivants [4]: . à quel domaine d’activité ils appartiennent. Face aux nombres de définitions existantes des agents intelligents. pour le compte desquels elle agit.un système d'acquisition de connaissances.un moteur d'inférence. des fonctions automatiques de traitement. Sinon. lui permettant d’effectuer des déductions plus ou moins complexes. Nous verrons donc différentes définitions qui sont données aux agents intelligents. L'association française de normalisation (AFNOR22) pour sa part les définit ainsi : « Objet utilisant les techniques de l'intelligence artificielle : il adapte son comportement à son environnement et en mémorisant ses expériences. de contrôle.1. Un dictionnaire américain le qualifie « d'entité autorisée à agir pour le compte de quelqu'un » (« An entity authorized to act on another's behalf ») [4]. la Communication prend une part majeure dans la problématique de l’accès aux données réparties sur le Web. Stan Franklin et Art Graesser de « l'Institut for 21 Intelligent Systems » de l'université de Memphis en recensent une bonne douzaine au sein de la communauté scientifique [4]. au cours du temps. de mémorisation ou de transfert d'information » [4]. un agent intelligent est le produit d’une discipline reconnue qui est l’intelligence artificielle (IA).une base de connaissance prédéfinie.un mécanisme d'apprentissage. et c’est ce qui nous intéresse le plus dans ce rapport.htm AFNOR : http://www. Nous avons vu. S’agissant d’informations. Les définitions les plus restrictives proviennent des milieux de l'intelligence artificielle. Il n'y a pas cependant d'accord sur une définition précise. les capacités des ordinateurs sont les seules à même de permettre un accès universel. Un dictionnaire généraliste qualifie un agent de « personne chargée des affaires et des intérêts d'un individu. se comporte comme un sous-système capable d'apprentissage : il enrichit le système qui l'utilise en ajoutant.1). . Vu le volume des ressources concernées (cf. Un agent23 est une entité physique ou virtuelle qui [5]: 21 22 23 IIS – Institut for Intelligent Systems / University of Menphis – USA : http://mnemosyne. quelles sont les différentes formes qu’ils prennent et enfin quelles en sont les caractéristiques communes. que les méthodes et les outils de recherche de données réparties à travers le Web sont parfois insuffisants et ne permettent pas d’y accéder. . Introduction à l’intelligence artificielle et aux agents 2. pour le sujet qui nous concerne. Ce chapitre vise à présenter les notions essentielles permettant de comprendre ce que sont et ce que peuvent réaliser les agents intelligents.csl. ce qui est certainement une des finalités du Web. d'un groupe ou d'un pays. La tentation est grande donc de chercher à concevoir des machines pour chaque « chose » que l’Homme ne sait pas faire ou fait difficilement.fr D’après Jacques Ferber / Les systèmes multi-agents / InterEditions Probatoire session janvier 2004 p 13 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . . Définitions des agents intelligents Un agent intelligent est en premier lieu un agent.1.afnor. » (dictionnaire Robert). Ces notions nous permettront de voir et mieux aborder dans le chapitre suivant (section 3) quelles sont les contributions que les agents intelligents peuvent apporter à la recherche de données réparties à travers le Web.edu/iis/index.dépassent celles des Hommes et accroissent leur capacité d’action.memphis. l'habitude a été prise de définir un agent plutôt par ses propriétés. L’ordinateur exécute des tâches que l’Homme peut souvent réaliser mais qui l’aliènent et réalise des calculs qui dépassent les capacités humaines grâce à sa rapidité et sa puissance de calcul et qui ne pourraient se faire autrement. Les opérateurs humains qui s’attachent à la résolution de ce problème de non-accès aux données réparties mettent aux points des outils nommés par eux « agents intelligents ». section 1.1. 2.psyc.

dans sa globalité. [7]. voir celle de la Vie. Déterminer ce qu’est exactement l’intelligence est déjà un exercice polémique. Aussi certains programmes informatiques qui font des traitements automatiques font déjà preuve d’une certaine intelligence. Nous développerons plus en détail ces propriétés dans la section 2. On développe donc des « chatbots » ou encore robots conversationnels pour approfondir ce domaine.est capable de percevoir son environnement et de s'adapter à ses modifications.1. La conscience est pourtant une des formes les plus importantes de l’intelligence et limite certainement la progression de la discipline qu’est l’intelligence artificielle. utilisant les réseaux de neurones.ne dispose que d'une représentation partielle de son environnement. là encore. .peut éventuellement se reproduire. Cependant. Les logiciels savent aussi communiquer. et encore moins la reproduire. c’est à dire d’une intelligence développée à la manière de la machine. même si cette communication peut paraître rudimentaire. Les systèmes. . Ils communiquent entre eux (en utilisant des protocoles de communication) et avec les utilisateurs (via les Interfaces Homme-Machine .IHM).possède des compétences et offre des services. là aussi. pour le moment. 2. sont très différentes des Hommes et du monde vivant en général. généralement pourvues de capacités plus faibles. On peut distinguer une IA forte et une IA faible. L’intelligence artificielle Sources : [6].est capable d'agir dans son environnement. philosophes) ne peuvent la décrire complètement. on peut voir l’intelligence comme une liste de fonctions. .est doué d'autonomie et est mu par un ensemble de tendances (objectifs individuels). La capacité d’apprentissage est au cœur de l’intelligence artificielle. voir inutile. certainement différente de la manière de la nature. Dire en quoi consiste l’intelligence artificielle par rapport à l’intelligence humaine. et consécutivement. Toutefois. car rigoureusement pré-établie.4. . l’est encore plus. On accepte communément que tous les mécanismes d’intelligence artificielle contemporains obéissent à une IA faible. L’intelligence est aussi liée au langage. les machines sont encore aujourd’hui loin de nous. avant cela il est nécessaire d’aborder en quoi consiste l’intelligence artificielle dont sont dérivés les agents intelligents. L’intelligence est très liée tout d’abord à la connaissance. reconnaître en est une seconde intimement liée. petit à petit. Le but de l’intelligence artificielle est de dépasser les limites de l’Homme. Connaître est une fonction. Pour dépasser ce débat entre intelligence artificielle et intelligence naturelle.. Ce sont deux fonctions de l’intelligence humaine. de manière isolée.peut communiquer avec d'autres agents. On reconnaîtra aux agents logiciels une réelle intelligence lorsqu’ils répondront d’une manière telle que nous ne saurons pas la différencier de la manière d’un autre humain. Raisonner est certainement une des plus hautes fonctions de l’intelligence. mais dont le résultat est identique. aussi faire des machines et des programmes qui agissent comme un Homme est illusoire. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 14 .possède des ressources propres. . il s’agit d’intelligence artificielle. psychologues. et de ce point de vue. à la capacité d’apprendre. Quand une fonction de l’intelligence est reproduite par une machine et un programme. En cela. La conscience. avec les sciences cognitives.2. Le test de Turing vise à déterminer cette intelligence. les machines. elles commencent à produire des raisonnements qui assistent les Hommes dans leurs opérations (systèmes d’inférences et systèmes experts). C’est aussi le domaine du Traitement Automatisé du Langage Naturel (TALN) qui est une des voies de développement important de l’intelligence artificielle. On développe aussi des programmes de traduction automatisée des langues (TAL). . est un phénomène mystérieux encore et les personnes s’attachant à en expliquer les contours (neurologues. les machines commencent à pouvoir imiter la nature. Mais. de reconnaissance visuelle ou vocale en sont les témoins. La perception de l’environnement est liée à l’intelligence. L’ordinateur sait déjà calculer et mémoriser. .

Les programmes informatiques utilisent des instructions conditionnelles comme « SI…ALORS ». Si on complexifie les programmes informatiques.2. C’est pourquoi l’approche descendante. développer des systèmes experts et de résolution de problèmes. Ces moteurs appliquent des règles à des faits et des données pour déduire de nouveaux faits ou données. pour faire « mieux » que les Hommes. Approche descendante Avec la déduction programmée et l’aide à la décision. cancane comme un canard et ressemble à un canard. construire des robots capables d’effectuer des actions dans des conditions surhumaines (astronautique par exemple) . 24 Définition du mot inférence – Dictionnaire Robert . 4. alors que cela me suggère-t-il ? ».1976 Probatoire session janvier 2004 p 15 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . qui va du général vers le particulier. cela et encore cela. 3. mais nettement moins pour des tâches d’apprentissage flexibles. alors c’est probablement un canard ».1.2. qui permettent à l’ordinateur de traiter différentes parties d’un programme en fonction de ses entrées. Inférer peut être illustré de manière générale dans les termes suivants : « si je sais ceci. Un des problèmes les plus délicats de l’IA est de programmer l’intentionnalité qui sous-tend les actions des humains. c’est à dire dans ce qu’ils peuvent recevoir comme informations. ils se contentent d’être des assistants dans l’exécution de tâches complexes et / ou lourdes. mais si celles si sont prévues. 2. Pour l’instant. voir se reprogrammer. Dans cette expression. Ils peuvent porter le nom de moteur d’inférence. Avec des instructions conditionnelles. Les programmes informatiques peuvent réaliser cette opération. ou encore approche déductive. Les robots seront vraiment intelligents lorsqu’ils sauront eux-même se programmer. La difficulté consiste à ne permettre aux agents intelligents de ne retenir que ce qui est significatif dans ce qu’ils peuvent « percevoir ». A titre d’exemple. disons : « si cela marche comme un canard. c’est à dire en effectuant des actions qui correspondent à un ou plusieurs objectifs assignés et ceci de manière efficace. basés sur l’expérimentation et l’observation avec l’approche ascendante répondent aux objectifs 1 et 2. La rétroaction avec des utilisateurs humains est donc nécessaire aujourd’hui pour permettre aux agents existants de pouvoir continuer à fonctionner intelligemment. les systèmes descendants sont très performants pour des tâches de raisonnement logique (pour les jeux entre autres). convient à la déduction et l’aide à la décision.L’intelligence doit permettre aux logiciels agents de faire preuve d’autonomie et de pouvoir prendre des décisions seuls. 2. basée sur la logique. L’intelligence artificielle vise ainsi aujourd’hui à : 1. un programme répond intelligemment à différentes entrées. développer des systèmes de reconnaissances de formes . les faits que l’on connaît sont : . développer des agents conversationnels et des programmes de traduction automatique des langues . Systèmes d’inférence Source : [8] Introduction à l’inférence L’inférence est une opération logique par laquelle on admet une proposition en vertu de sa liaison avec d’autres propositions déjà tenues pour vraies24. 2.marche comme un canard. Les agents intelligents au service de l’accès aux données réparties à travers le Web répondent aux objectifs 3 et 4 et font plus partie de l’approche descendante de l’intelligence artificielle. Les systèmes inductifs. on peut attendre des comportements complexes en sortie.

Cela implique à la fois une connaissance et une logique parfaites (totales). Cela induit une nuance qui peut être traduite par le fait que la probabilité que cela ne soit pas un canard est faible. . En appliquant la logique conditionnelle algébrique en cascade. cela signifie que la l’inférence ne peut pas être à 100% vraie. si nous regardons l’expression en y incluant le mot « probablement ». cela signifie que notre conclusion est soit vraie ou fausse. Un programme peut alors détecter des informations tacites à travers des traitements d’inférence.2. à partir de données ou de méta données qui sont. Systèmes de raisonnement Comme mentionné en introduction de cette section 2. « canard ». Inférer permet à un programme informatique de reconnaître des ensembles sans que ceux ci lui soient présentés de manière explicite et comprise à priori par lui. consistaient en des séries de règles de logique simple qui pouvaient être appliquées. elles. nous introduisons le concept de « OU ALORS SI » ("Else If"). à nous humains. Ce sont ce que les logiciens appellent des antécédents et ce qu’un programme informatique appellerait intrants (inputs). Notons à ce stade. Ces premiers systèmes. Il peut traiter alors des données sous-entendues mais pas formellement prévues. peut aussi permettre à un ordinateur de reconnaître et de traiter l’entité (un ensemble de données et de faits) à laquelle il est confronté sans que celle ci soit identifiée formellement dans une variable prédéfinie et connue de lui. Cela peut être exprimé en pseudo-code comme suit : SI ET ET ALORS objetx objetx objetx objetx (marche comme un canard) (cancane comme un canard) (ressemble à un canard) EST ["un canard"] Maintenant. L’inférence « c’est probablement un canard » appelle un commentaire supplémentaire. ou autrement dit à 100% vrai ou 100% faux.. Cela peut être exprimé en pseudo-code ainsi : SI ET ET ALORS objetx objetx objetx objetx (marche comme un canard) (cancane comme un canard) (ressemble à un canard) EST PROBABLEMENT ["un canard"] Une des manières dont nous raisonnons avec les assertions que nous pouvons faire. de savoir que nous sommes en face d’un canard sans qu’il soit besoin qu’il soit étiqueté. explicites. les premiers « systèmes de raisonnement » étaient basés sur des conditions de logique algébrique simple du type : Si A alors B Cela pourrait être traduit par « A implique B » . c’est à dire identifié de manière formelle. L’inférence. Si nous omettons de dire « probablement ».ressemble à un canard. prenant la forme : Si A alors B Ou Si C alors D Ou Si … Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 16 . comme avec l’expression au sujet du canard. qui nous permet. Ils sont admis. par cela on peut aussi traduire que si A est vrai alors B est aussi vrai. si toutes les conditions antécédentes sont vraies alors nous pouvons statuer que la conséquence est aussi à 100% vraie. qu’inférer permet à un programme de détecter des données qui sont implicites. souvent écrit en LISP ou en PROLOG.cancane comme un canard. En logique classique. est d’inclure la possibilité d’erreur ou celle d’incomplétude (en absence d’information supplémentaire et discriminante). au lieu de la pondérer avec la règle simpliste qui consiste à dire que toutes les assertions sont à 100% vraie ou fausse.

mais s’appuient sur des probabilités avec les risques d’erreur que cela comporte. avec toutes ses conséquences possibles. chacune des conditions ("SI") agit de manière isolée en fonction de la place qu’occupe le bloc conditionnel dans le programme. cette approche. une des conséquences peut être aussi une rétractation et les informations liées sont retirées de la base d’assertion. Si la condition "Si A alors B" (l’antécédent) est vraie alors la règle est activée (« fired »). Lorsqu’une règle est activée. S’il est possible de choisir cette approche dans les systèmes d’inférence. apportant ou non sa contribution à la solution. Actuellement. Les systèmes experts utilisent parfois la logique floue pour effectuer leurs traitements. Cet espace d’assertion est visible par toutes les règles de la base de connaissance et est automatiquement examiné par le moteur de recherche alors qu’il itère à travers les règles pendant les étapes de l’inférence. L’accroissement des capacités des ordinateurs (vitesses de traitements et capacités de stockage) permet d’augmenter les bases de connaissance et l’efficacité des programmes SE. c’est uniquement dans le cas de problèmes simples (par opposition à complexes). les engins itèrent à travers toutes les règles à chaque cycle d’inférence. Si le résultat des traitements contenus dans un bloc conditionnel n’est pas enregistré dans une variable globale ou traité par les blocs de traitement suivant. C’est à dire qu’ils n’utilisent pas forcément des valeurs discrètes comme les valeurs booléennes de vrai ou faux (voir sous-chapitre intitulé « Introduction à l’inférence » page 15) pour fabriquer leur assertion. Quand le programme est exécuté. Le système de raisonnement classique atteint une conclusion et est capable de l’oublier immédiatement après [8].Cette forme de logique peut être mise en œuvre dans les langages de programmation par les opérateurs de traitement "Switch" ou "Case". De cette manière. les capacités déductives de l’intelligence artificielle descendante sont souvent appliquées au sein de systèmes experts (SE). Une des manières dont le système expert obtient ses réponses est de continuer à itérer à travers les règles dans la base de connaissance jusqu’à ce qu’aucune nouvelle assertion ne puisse être faite.2. l’information conséquente est placée dans une base d’assertion. Une des manières complémentaires d’arriver aux réponses est aussi d’interagir avec l’utilisateur en lui posant des questions complémentaires afin de restreindre le champ des possibilités ou en demandant des confirmations. Le système expert diffère de ce point de vue car les règles sont stockées dans une base de connaissance. Dans l’approche précédente. Cela rend les valeurs (ou contenus) des assertions de la base d’assertion issues des cycles précédents disponibles pour chaque règle lorsque le moteur itère dans un nouveau cycle. 2. En effet. L’espace d’assertion est la mémoire (active) collective de la base de connaissance. en tenant compte évidemment des restrictions de temps imparti au traitement (time-out). Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 17 . ce résultat est oublié. c’est à dire quand ses antécédents ou conditions sont vraies. alors elle peut produire une assertion. Quand une règle est activée. ou tout du moins des propositions de solutions. essentiellement dédiés à l’analyse de base de données. A la fin de la session du système de raisonnement. bien que compacte et rapide à exécuter. ou autrement dit de la complexité du programme associé. le résultat est classiquement oublié de toute façon. Systèmes experts Les déclarations d’inférence et les mécanismes utilisés dans les systèmes experts diffèrent de ceux utilisés dans les systèmes de raisonnement vus préalablement. Le moteur d’un système expert est capable d’examiner n’importe quelle règle. le moteur itère à travers toutes les règles. Dans les systèmes experts.2. est difficile à maintenir dans des cas de problèmes réels à cause de la complexité de la structure du graphe conséquent. L’avantage est d’étendre les possibilités de déduction du système et d’arriver à des solutions.

Le processus est le suivant. Il est attendu en effet que l’IA permette la communication entre humain et machine de manière naturelle pour l’humain. Il s’agit de desambigüer les mots. C’est d’ailleurs pourquoi les moteurs de recherche se sont vus affectés le terme de robots ou encore d’agents et que certains considèrent que les moteurs de recherche sont des agents intelligents. Des traitements complémentaires permettent d’améliorer ces traitements.3) et du filtrage des mots fonctionnels (mots stop) [10]. Il faut dire que le langage humain est plus complexe que le langage formel sur lequel est basé le TALN. section 1. les traduisent dans n’importe quel autre langage et puissent aussi en générer. Ces traitements permettent par exemple de classer des documents par mots clés ou par catégorie.2. section 3. La traduction automatisée des langues (TAL) est aussi une application. Le personnel de l’assistance par téléphone utilise de plus en plus des systèmes experts pour traiter plus efficacement les problèmes des clients.3. jusqu’à ce qu’il soit possible d’identifier la fonction de chaque mot. 2. de regrouper les mots en terme ou d’analyser des documents afin de les indexer. au contexte de la communication et traiter aussi les problèmes d’ambiguïté du langage : synonymie et homonymie. aux anaphores.La base de connaissance est le fondement du système expert. Il s’agit de la lemmatisation (cf. et chaque expression en petites parties. la traduction automatique du langage est utilisée par les moteurs de recherche pour les recherches d’informations multilingues. Enfin.2 de ce rapport.2). Ces traitements sont par ailleurs utilisés par les moteurs de recherche (cf. Tout accroissement de ces bases de connaissances améliore et accroît les capacités des systèmes experts. Les applications du traitement du langage naturel sont les programmes conversationnels : en y associant la reconnaissance et la synthèse vocale. Le traitement du langage naturel pour communiquer [7] [9] On espère ainsi que les ordinateurs comprennent les phrases. c’est un modèle de représentation sur lequel un langage formel peut être construit. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 18 . Une approche de ces traitements sera développée dans la section 3. et de « donner » un sens à la phrase. Traitement du langage naturel Le traitement automatisé du langage naturel (TALN) est une fin en soi dans les domaines d’application de l’intelligence artificielle. On utilise alors une grammaire logique où l’analyse syntaxique est réduite à l’inférence logique. Il faut aussi pouvoir traiter par exemple les notions propres aux métonymies. Chaque phrase peut être décomposée en expressions. aux litotes. Les résultats restent toutefois approximatifs. On essaie donc par ailleurs d’effectuer des traitements d’analyse sémantique. Le TALN est basé sur la grammaire. on approche la communication de type humaine.1. La grammaire spécifie la structure des messages . Les systèmes experts sont utilisés actuellement comme outils d’aide à l’identification des espèces végétales et animales ou comme outil de diagnostic de maladies en médecine. Le traitement du langage naturel pour d’autres applications Certains traitements du langage naturel limités sont nécessaires pour la recherche d’information. C’est d’ailleurs pourquoi on classe le TALN dans l’approche descendante de l’IA. voir insuffisants dans certains cas. aux métaphores.

Une approche complémentaire parfois utilisée est de réduire l’apprentissage des réseaux de neurones en le substituant à un apprentissage non dirigé en autoorganisation. Les réseaux de neurones électroniques sont des circuits pré-établis mais sans objectifs définis à priori. Mais les systèmes « ouverts » . l’appareil apprit à les distinguer. ce qui explique par exemple. De plus. ces dernières que nous allons maintenant aborder. et notamment les approches descendantes et ascendantes. L’inférence est un des mécanismes qui permet d’élargir les connaissances des agents intelligents. Une des marges de progrès est donc de coupler les différentes approches et disciplines de l’intelligence artificielle. De nombreux chercheurs pensent que la seule façon de construire une véritable forme d’intelligence est de permettre à un système d’appréhender et d’expérimenter le monde par lui-même. L’apprentissage du réseau de neurones permet d’affecter un poids (coefficient) aux circuits établis et corrige les erreurs possibles lorsque l’appareil passe de formes simples (canoniques) à des formes plus complexes que l’on peut trouver dans la nature et qu’il reconnaît mal. Approche ascendante : réseaux de neurones L’approche de l’intelligence artificielle est incomplète si nous ne faisons pas mention de l’approche ascendante à travers son application majeure que sont les réseaux de neurones. Aujourd’hui les réseaux de neurones disposent de trois couches de neurones afin d’augmenter leurs capacités d’adaptation. et les signaux issus de cette cellule étaient transmis à un petit réseau de neurones artificiels. Un des buts de l’IA est donc d’appliquer les résultats de la science cognitive afin que les agents intelligents puissent apprendre de manière autonome. considéré comme une gigantesque base de données mais non structurées. ils peuvent. Cette formule peut trouver des relations dans de grandes quantités d’informations que Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 19 . des chercheurs s’en servent pour des systèmes de reconnaissance de visages et de véhicules . Les réseaux de neurones résultent d’une approche visant à imiter le fonctionnement du cerveau humain et s’adossent donc sur la neurologie et par extension la biologie. Ce mécanisme s’appelle la rétropropagation. Le perceptron était connecté à la sortie d’une cellule photosensible.3. Le résultat de l’apprentissage des réseaux de neurones peut être formalisé par un algorithme. pourquoi les robots conversationnels n’interagissent pas très bien avec les humains pour le moment. section 2. Après avoir exposé le Perceptron à des exemples de lettres de l’alphabet. retourner des erreurs en affaiblissant le poids de circuits.4. s’inspire du mécanisme de la vision humaine.les situations du monde réel – ne peuvent être formalisés.2. contrairement à ce qui existe dans la nature. Le Perceptron. et par restriction l’intelligence humaine (cf. De plus. Le traitement automatisé du langage naturel est un des moyens dont ils disposent pour exploiter les sources d’informations écrites. L’approche ascendante s’appuie sur l’expérimentation. Les réseaux de neurones peuvent fonctionner de manière distribuée et en parallèle. notamment sur le Web. L’excitation de certains des circuits lors d’opérations particulières (stimulations) reçoivent une signification précisée lors de l’apprentissage de la machine. dans lesquels toute connaissance est prédéfinie. Ils peuvent exister en tant que composant matériel autonome ou être simulés de manière logicielle.2. Perspectives Les systèmes fermés. Des astronomes emploient ces réseaux pour classifier les galaxies lointaines . une machine inventée par Franck Rosenblatt. des financiers utilisent des réseaux neuronaux qui repèrent la tendance du marché comme outil d’aide à la décision d’investissement [7]. Grossièrement. on peut nuancer les réponses d’un réseau neuronal en utilisant la logique floue (voir aussi « logique floue » page 17). L’intelligence artificielle est aussi conçue comme étant l’imitation de ce qu’est l’intelligence naturelle. on peut dire que les neurones biologiques établissent des circuits similaires à des circuits électroniques.2). La science cognitive est une science qui vise à établir et maîtriser les processus en jeu dans l’acquisition de connaissances et de compétences. Les réseaux de neurones à base de rétropropagation sont très utilisés pour la reconnaissance de formes.1. quand il s’agit de documents écrits. 2. peuvent être interprétés avec les règles de la logique.

1. Les travaux de Searle sur le langage et sa mise en oeuvre par des machines sont une des références en IA. notamment les réseaux sans fil. Ses propriétés se définissent complètement s’il est amené à travailler en coopération avec d’autres agents. à réagir à leur environnement L’agent doit être capable de s’adapter à son environnement et aux évolutions de celui-ci. Les agents ont donc un comportement générique qui doit pouvoir être reproduit sur tout type de plate-forme et à travers tout type de réseau. dont il est capable. L’architecture des agents est conçue pour que ceux-ci puissent être mis en œuvre et communiquer à partir de n’importe quel type de machine. 2. Un agent doit non seulement interagir avec un humain à travers les interfaces HommeMachine (IHM) classiques mais aussi avec d’autres agents. sont suffisamment riches pour disposer d’une autonomie propre. Propriétés et architecture d’un agent intelligent Les propriétés des agents se conçoivent notamment dans le cadre d’un système multi-agents. Voyons comment un agent intelligent met en œuvre les principes que nous venons d’aborder jusqu’à maintenant en parlant d’intelligence artificielle en décrivant ses propriétés. L’architecture prend en compte la gestion de multiples méthodes de transport des messages.4.R. sans que l’utilisateur ait le moindre contrôle sur cellesci. Speech Acts. et intégrer les nouvelles demandes ou suggestions de l’opérateur humain. Capacité à communiquer et à coopérer L’agent doit donc pouvoir échanger des informations plus ou moins complexes avec d’autres agents. 1969).l’on ne pourrait jamais identifier. Capacité à raisonner. qui peut être composé d’autres agents. Autonomie L’agent doit pouvoir prendre des initiatives et agir sans intervention de l’utilisateur final. du Web en général ou des utilisateurs. La mobilité Les agents doivent pouvoir être multi-plates-formes et multi-architectures et être aptes à se déplacer sur le réseau où ils accomplissent des tâches.4. Le réseau bayésien est un type de réseau à auto-organisation. Les réseaux bayésiens déduisent des modèles à partir de situations où une grande partie de l’information manque. 2. 25 Les actes de communication font référence aux travaux de John Searle. Les « actes de communication25 » avec d’autres agents. L’interopérabilité est au cœur de la définition des agents intelligents logiciels. Cette autonomie est acquise grâce à l’interaction avec d’autres agents qui lui permettent de confirmer ou infirmer des hypothèses par exemple. avec des serveurs. Cette adaptation doit s’appuyer sur une analyse permanente de cet environnement extérieur. J. la gestion de multiples méthodes d’encodage des messages et la localisation des agents et de leurs services via des répertoires (annuaires) de services. Cambridge University Press. Probatoire session janvier 2004 p 20 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) .. synthétisés dans son ouvrage « Speech acts » en 1969 (Searle. Propriétés générales Les promoteurs de la notion d’agent intelligent s’accordent pour dire qu’au minimum quatre caractéristiques sont nécessaires pour les définir et marquer leur différence avec d’autres outils de recherche [1] [4].

Les ontologies représentent un champ de recherche bien établi en philosophie et intelligence artificielle… 27 FIPA – Foundation for Intelligent Physical Agents : http://www. autrement dit qui va agir en son nom. Ils peuvent être mis en œuvre en tant qu’agents ou comme logiciels accessibles via l’invocation de méthode en utilisant des API telles que celles fournies par Java. Un agent fournissant un service est plus contraint dans son comportement qu’un agent à vocation générale. un agent est un programme (processus) informatique qui réalise la fonctionnalité de communication autonome d’une application . Pour la FIPA27. l’architecture abstraite de la FIPA définit un modèle (schéma) de service général qui comprend un service de répertoire de services (servicedirectory-service). Architecture d’un agent intelligent La communication (de messages) est au cœur de l’intelligence développée par les agents. Ces membres peuvent être humains ou des agents artificiels. En général. Ce langage peut s’appuyer sur une ou 26 plusieurs ontologies . le répertoire de service et le répertoire d’agent (message-transport-services. ou ce premier fournit des pointeurs (références) vers d’autres services qui décriront ces services. Agents et services Les agents communiquent en échangeant des messages qui représentent des actes de communications et qui sont encodés dans une langue (de communication) d’agent (ACL . qui formalisent la connaissance et le sens du contenu du message de manière explicite. L’interopérabilité vient renforcer les capacités de communication des agents. En plus du nombre des services standard incluant les services de répertoire d’agent (agent-directory-services) et les services de transport de message (message-transport-services).4. C++ ou IDL. Démarrage d’un agent Au démarrage. Ces éléments sont repris dans un tableau en annexe page 36.1).1. Pour cela un ensemble d’éléments d’architecture et leurs relations est spécifié. L’architecture abstraite de la FIPA est volontairement neutre sur la manière dont les services doivent être présentés. Les services fournissent des services aux agents. les agents (de service) doivent préserver la sémantique du service. En particulier.2. agent-directory-services et service-directory-services). 26 Définition : Une ontologie établit une terminologie commune.agentcommunication-language28).org 28 Chaque mot entre paranthèses et en police de caractères « courier new 10 points » font references aux elements de l’architecture abstraite des agents de la FIPA repris en annexe page 36. Cela implique que ces agents ne doivent pas avoir le degré d’autonomie normalement attribué aux agents. plus un consensus sur son interprétation entre des membres d’une communauté de communication. section 2. Une des composantes majeure de la communication est le langage. le service initial fournit suffisamment d’entrées pour décrire tous les services disponibles avec l’agent. D’autres agents peuvent chercher les entrées de répertoire d’agent pour trouver et sélectionner des agents avec lesquels ils désirent interagir. un agent doit être enregistré dans un service initial (service-root) auprès d’un répertoire de service (service-directory-service) qui fournit en retour un ensemble d’adresses (service-locators) pour les services de base du cycle de vie d’un agent tels que le transport de message. L’architecture abstraite [11] d’un agent définie par la FIPA spécifie comment deux agents peuvent se localiser et communiquer l’un avec l’autre en s’enregistrant (auprès d’un répertoire d’agent) et en échangeant des messages.2. Les services de répertoire d’agent (agent-directory-service) Le rôle de base d’un service de répertoire d’agent (agent-directory-service) est de fournir un endroit où les agents (agent) enregistrent leur description dans une entrée de répertoire d’agent (agent-directory-entries). Ils ne peuvent pas par exemple arbitrairement refuser de fournir le service.fipa. On retrouve la définition d’un agent (cf. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 21 .

Les expressions du contenu d’un message peuvent s’appuyer sur des ontologies référencées dans un enregistrement spécifique aux ontologies33 (ontology). Voir : FIPA ACL Message Structure Specification / standard / 2002-12-03 / FIPA TC Communication / accessible à l’URL http://www. Services de répertoire de service (service-directory-service) Le rôle de base d’un service de répertoire de service est de fournir des moyens cohérents par lesquels des agents ou des services peuvent découvrir des services (service). Un agent s’enregistre auprès d’un répertoire d’agent en construisant son entrée et en la proposant à un service de répertoire d’agent.org/specs/fipa00010/ 31 SL – Semantic Language. une signature de service (service-signature) et une adresse de service (service-adress).Une entrée de répertoire d’agent est un enregistrement constitué de deux éléments : le nom de l’agent (agent-name) et son emplacement (adresse – agent-locator). comme FIPA ACL.fipa. Concrètement. un répertoire de service offre un emplacement où les services peuvent enregistrer leurs descriptions en tant qu’entrée de répertoire de service (service-directory-entry). Le type de service indique la catégorie de service. comme pour les agents. une adresse spécifique au transport (transport-specific-adress) et zéro ou plusieurs propriétés spécifiques au transport (transport-specific-property). L’appel de service est constitué d’un ou plusieurs enregistrements contenant les éléments suivants : un type de signature (signature-type). Les trois aspects fondamentaux de la communication de messages entre agents sont : la structure du message. Les agents peuvent utiliser le service de répertoire d’agent pour localiser un agent avec lequel ils désirent communiquer. Le contenu du message (content) est exprimé dans un langage de contenu (content-language) comme KIF30.fipa. Le service de répertoire de services est analogue mais aussi différent des services de répertoire d’agent. chacune d’elle étant une structure auto-descriptive contenant un type de transport (transport-type). les restrictions d’utilisation de l’agent. les agents communiquent entre eux en envoyant des messages (message).org/specs/fipa00008/ Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 22 29 . La structure de transport est utilisée pour communiquer avec l’agent.org/specs/fipa00061/SC00061G.html 30 KIF – Knowledge Interchange Format. En plus. L’emplacement de l’agent est défini par une ou plusieurs descriptions de transport (transportdescription). La structure d’un message29 correspond à un enregistrement et est écrit en langue (de communication) d’agent (agent-communication-language). etc. Le nom de service doit être unique. L’appel de service est une structure typée qui peut être utilisée par les services ou les agents pour accéder au service. chaque service de répertoire de service doit fournir au démarrage des agents un service initial (service-root) qui prend la forme d’un ensemble d’appel de service (service-locator) incluant au moins un service de répertoire de service (pointant sur lui-même).fipa. Voir FIPA KIF Content Language Specification à l’URL http://www. Voir FIPA SL Content Language Specification à l’URL http://www. l’entrée de répertoire d’agent peut contenir d’autres attributs descriptifs comme les services offerts par l’agent. Par ailleurs. la représentation du message et le transport du message. De même. des agents et des services peuvent interroger un répertoire de service pour localiser des services appropriés à leurs besoins. Les entrées d’un répertoire de service sont des descriptions de services consistant en un enregistrement contenant un nom de service (service-name). un appel (emplacement) de service (service-locator) et un ensemble d’attributs de services optionnels (service-attributes). Le nom de l’agent doit être unique.. Le premier sert à la découverte de services alors que le second est dédié à la découverte d’agents. le coût associé à l’utilisation de l’agent. un type de service (service-type). SL31 ou RDF32. Messages d’agent Dans les systèmes d’agents de la FIPA.

Cela montre l’importance de la communication dans la définition pratique d’un agent intelligent.html 34 FIPA Communicative Act Library Specification / Standard / 2002-12-06 / FIPA TC Communication / accessible à l’URL http://www.org/specs/fipa00011/ 33 FIPA Ontology Service Specification / Experimental / 2001-08-10 / FIPA Architecture Board / accessible à l’URL http://www. De la même manière.org/ Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 23 . Le cas de zéro (aucun) récepteurs permet la diffusion à tous (broadcasting) de message comme nécessaire dans les réseaux sans-fil.fipa. voir impossible autrement.2. Les messages sont contenus dans des messages de transport (transport-message) quand les messages sont envoyés d’un agent à un autre.org/repository/managementspecs.php3 36 FIPA Agent communication language specifications : http://www. Les agents intelligents offrent des avantages significatifs s’ils font partie d’un système multi-agent afin de maximiser leurs capacités de communication et d’adaptation. Leurs connaissances peuvent être formalisées et partageables grâce aux ontologies. Les systèmes d’inférences (sections 2.fipa. la confirmation d’une proposition incertaine et la contradiction34. Des agents qui peuvent théoriquement interagir n’ont aucune raison de le faire au regard de leurs objectifs 32 RDF – Resource Description Framework. le langage sémantique31 permet aux agents d’utiliser une grammaire formelle leur permettant d’exprimer des actions relatives à leurs connaissances.5. ils sont dédiés à des tâches avec des objectifs différents pour chacun d’eux. exprimés avec les valeurs de la variable agent-name. Les actes de communication primitifs sont l’assertion informative. la demande directive. mentionnons le fait que les agents ont été mis en oeuvre à grande échelle dans une expérimentation visant à mettre en réseau plusieurs systèmes agents. Si les agents intelligents ont des fonctionnements similaires qui font qu’ils appartiennent au même type d’application.org/repository/aclspecs. L’intelligence des agents se situe particulièrement au niveau des messages. Les messages peuvent récursivement contenir d’autres messages.agentcities. Aujourd’hui les techniques multiagents opèrent dans des projets d’informatiques distribuées. L’enveloppe (Envelope) dans les messages de transport sert à préciser des informations permettant de garantir la validité du message (toute modification du message pendant la transmission peut être identifiable) et son encryptage (sécurité). une plateforme agent doit au moins mettre en œuvre les spécifications de langue de communication d’agent 36 37 (ACL) et celles de la gestion des agents . La langue ACL peut exprimer jusqu’à 22 actes de communication différents.html 38 Agentcities Web : http://www. coûteuses.org/repository/ips. établissement de communications et de relations d’affaire satisfaisant à des besoins d’entreprises et d’utilisateurs finaux). Il s’agit du projet Agentcities38 qui a démontré que les agents intelligents répondaient à leurs objectifs (découverte dynamique des agents entre eux. En guise de perspectives.2) des agents en sont les exemples les plus aboutis. Chaque message a un émetteur et zéro ou plusieurs récepteurs..fipa.org/specs/fipa00037/SC00037J.2) et les capacités de communications (section 2. 2.html . Voir FIPA RDF Content Language Specification à l’URL http://www. Conclusion L’aperçu que nous venons d’opérer à propos des agents intelligents dans cette section montre que les agents intelligents offrent de réelles perspectives pour réaliser des tâches difficiles. Pour être considérée comme conforme aux spécifications d’un agent intelligent de la FIPA. Les messages de transports sont spécifiques de chaque transport (transport) utilisé et spécifié dans l’entrée de l’agent dans le répertoire d’agent (agent-locator). 37 FIPA Agent Management Specifications : http://www. La communication inter-agents est une suite de messages.fipa.Le message contient aussi les noms de l’expéditeur et du destinataire. repris sous le vocable de « grid computing ».2.fipa.fipa.html 35 Voir FIPA Interaction protocol specifications / http://www. Ces specifications reprennent les spécifications mentionnées dans les notes de bas de page n° 27 à 33 de ce document.org/specs/fipa00086/XC00086D.1 et 2. Les interactions pré-établies font l’objet de protocoles d’interactions35.4.

3).propres. il faut construire ces ontologies. notamment parce qu’ils ne communiquent pas selon un mode ouvert. il faut que les traductions existent. Ou inversement. les agents ont été mis au point de manière expérimentale. Contribution des agents intelligents à la recherche de données sur le Web [4] Le terme "agents" est utilisé pour caractériser toute une gamme de logiciels aux technologies nonissues de l'intelligence artificielle mais se référant à l'appellation d'agents au nom de la définition usuelle d'un agent. c'est à dire une entité autorisée à agir à la place de quelqu'un et agissant en son nom (cf. ces répertoires de services. le traitement des résultats de recherche pour leur présentation (filtrage et agrégation). Toutefois pratiquement. section 1. Il faut aussi noter que des humains. Ces "agents" ont pour objectif d'automatiser des tâches répétitives et pénibles.2. Ne parlons pas de la recherche d’information multilingue tant le nombre de langues humaines utilisées est important. ce qui signifie que leur utilisation ne sera pas forcement gratuite. section « Définitions » page 13). il en existe plusieurs entre d’autres langues. les agents intelligents qui auraient les mêmes objectifs doivent par ailleurs faire un travail de rapprochement pour harmoniser leur connaissance. ne le sont parfois pas (dans les cas d’ignorance par exemple). est-ce que tous les agents sont conformes aux spécifications de la FIPA ? Si non. peuvent-ils interopérer avec ceux qui sont conformes ? Il faut aussi que les langues de communication d’agent (ACL) qui sont donc des langages formels se rapprochent des langues humaines. assez nouvelles pour certaines. ces répertoires d’agents. Cependant. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 24 . L’architecture des agents intelligents est telle qu’elle permet théoriquement ce rapprochement. lorsque les ontologies.1.2. Si la capacité de communication des agents peut permettre d’entrevoir une meilleure intelligence à l’avenir. surtout au regard du domaine d’application qu’est le Web (cf. les langages sont différents. les tentatives des agents intelligents pour indexer le Web et permettre un accès et des recherches rapides et efficaces aux données resteront approximatives. Ces fonctionnalités. Dans le même ordre d’idée. si parfois il n’existe pas de dictionnaire de traduction entre certaines langues. Nous avons vu que la principale limitation des agents intelligents tenait au fait que le langage qu’ils utilisent est plus simple (section 2. Le temps permettra certainement de mieux harmoniser les données « humaines » et celles nécessaires aux machines. Ensuite. acceptons aussi leurs faiblesses : ils ne peuvent pas tout faire simultanément. Or la plupart du temps. Il n'en reste pas moins que ces agents "pas si intelligents" peuvent intégrer peu à peu des technologies issues de l'intelligence artificielle. S’ils passent dans le domaine économique. elles peuvent se regrouper sous des fonctionnalités plus précises qui sont le traitement syntaxique et / ou sémantique du langage naturel. ensuite maintenir. Comme nous le verrons dans ce chapitre. Seules des tentatives sur des domaines restreints peuvent laisser espérer des chances de succès. il faudra certainement des moyens pour pouvoir faire appel à leurs services. Ils ne sont cependant pas encore passés dans le domaine économique. Cependant les perspectives théoriques des agents intelligents restent assez fantastiques. Il faut des services de traduction. Pratiquement cela repose sur une architecture matérielle et logicielle lourde qu’il faut développer et mettre en œuvre. Peut-être aussi que les agents ne sont pas encore assez nombreux pour pouvoir valoriser leur effort collectivement. Tant que ce rapprochement entre les données « humaines » du Web et celles des machines ne sera pas effectué. prouvant le bien fondé de leur conception. De plus. d’où éventuellement un manque de laison entre elles. ce qui rajoute un biais supplémentaire. Or le langage utilisé le plus souvent pour publier les données sur le Web est le langage courant et les documents ne sont le plus souvent pas structurés formellement et de manière harmonisée. mais séparément. la veille informative. De plus. n’ont jamais été mises en œuvre conjointement dans une même famille d’outil. s’ils sont capables d’être intelligent.4).1 et section 2. 3. nous ne pouvons cependant pas y voir là de véritables "agents intelligents". L’ensemble des fonctionnalités que nous allons aborder dans la section 3 sont regroupées sous le vocable et terme composé général « recherche d’informations » (RI) dans la littérature sur le sujet. notamment celles du traitement du langage naturel et des systèmes experts.

à savoir l’opérateur « OU » ou alors elle fait l’objet d’une connaissance à priori et paramétrée. 3. L’agent dispose pour cela d’une base de connaissance. est prometteur pour la RI. L’exception concerne la lemmatisation qui est un traitement syntaxique pouvant s’appliquer à la fois à la requête et au contenu des documents pour leur indexation. Si ces outils de recherche étaient conçus comme de véritables agents au sens de la FIPA (cf. qui cependant. et par généralisation du domaine de la fouille de donnée (« data mining ») pour l’aide à la décision. Ces outils sont donc décevants de prime abord et nécessitent un « apprentissage » tel qu’il s’avère rebutant pour les utilisateurs [4] [5]. Toutefois. Formulation et traitement de la requête Nous avons vu dans la partie 1. Cette base de connaissance est établie au départ grâce à différents dictionnaires et thésaurus. Le travail que peut proposer un agent intelligent dans la formulation et le traitement de la requête est donc de traiter une requête en langage naturel et de la transmettre au(x) service(s) de recherche qui en l’état actuel ne sait (savent) traiter les requêtes qu’avec des mots clés associés avec des opérateurs booléens et des fonctions avancées. Les traitements syntaxiques (cf. Analyse et traitement syntaxique pour la recherche d’information [10] La recherche d’information peut se découper en deux parties (cf. là encore. Les questions sont donc posées en langage naturel. C’est à dire que l’agent. L'agent est censé découvrir les termes qui font sens dans cet ensemble de phrases. Seules quelques bases thématiques permettent de traduire de manière satisfaisante les requêtes des utilisateurs portant sur le domaine. Contrairement aux moteurs de recherche indiquant uniquement les documents où apparaît le mot recherché (qu’il soit du domaine de recherche ou non – homonymie) et non ses synonymes [4]. section « Messages d’agent » page 22). que le mot relatif à l’objet soit absent ou non du texte. Le logiciel décompose la phrase en concepts et les traite. la traduction ne concerne que les éléments reconnus par tous les outils de recherche. soit par l’éditeur du logiciel agent. section « Le traitement du langage naturel pour communiquer » page 18) qui pourraient être opérés au préalable en vue d’enrichir l’analyse sémantique relèvent du domaine fonctionnel de la fouille de texte (« text mining »). Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 25 . De même. saurait comment traduire la requête sans en avoir les éléments au préalable. après consultation du service dans le répertoire de service et « prise de contact ».1. L'avantage théorique est de permettre au logiciel de ne retrouver que les documents parlant véritablement de l’objet recherché et seulement de lui.3. ils sauraient décrire leur service de telle sorte qu’ils puissent être interopérés par l’agent de recherche de l’utilisateur. L’analyse syntaxique est le plus souvent couplée à une analyse sémantique.7 comment doivent être formulées les requêtes associées à une recherche d’informations pour que les outils de recherche puissent les traiter. section « Fonctionnalités d’un moteur de recherche » page 5) : une partie concerne la formulation et le traitement de la recherche. Une des principales difficultés est de traduire la requête en mots clés et opérateurs de requêtes qui soient compatible avec la syntaxe attendue par chaque outil de recherche lors d’une recherche fédérée (cf. l’enrichissement de leurs connaissances ne se fait pour le moment qu’à travers l’interaction avec l’utilisateur ou l’importation de dictionnaires supplémentaires édités par d’autres humains. Ces agents peuvent améliorer leur base de connaissance au fur et à mesure de leurs expériences.1.2. Actuellement. ces bases de connaissance sont insuffisantes pour être généralistes. Ceux-ci seront abordés principalement dans la section 3. soit par l’utilisateur.5). Or pour le moment.1. Nous n’aborderons pas ce domaine. les décomposer en concepts et effectuer les recherches à partir de cela. Le traitement syntaxique est opéré parfois au niveau de la formulation de la requête d’informations dans certains outils et pour la recherche multilingue. les traitements les plus courants des ressources informatives sont les traitements sémantiques des documents en vue de leur indexation. l’autre est le traitement des ressources informatives. section 1. notamment avec le développement de l’utilisation de XML17 avec Internet.

Certains outils de lemmatisation automatisée [13]proposent même de gérer des règles d’expansions . . Cela est par ailleurs très lourd. Celle ci permet : . . La lemmatisation augmente les chances de trouver des informations à partir de mot clés pour des recherches autrement infructueuses. du type "entrée de dictionnaire". Analyse sémantique Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 26 . Elles peuvent être regroupées sous le terme de règles de transformation morphologique [14]. La lemmatisation utilise les règles de grammaires d’une langue. peut être ramené à une unité lexicale qui peut ensuite être utilisée pour d’autres traitements. la lemmatisation automatisée donne des résultats satisfaisant dans de nombreux cas. quel qu’il soit. Il faut donc pour valider intégralement la lemmatisation une phase de révision manuelle [12]. Cela élargit ainsi une recherche d’information.2. un mot rencontré dans un texte.1. notamment l’indexation des mots d’un texte pour la construction d’un index [13]. avec leurs listes d’exceptions. Cela ne constitue pas une véritable lemmatisation [2. Elle améliore globalement la recherche d’information [10] mais cela génère cependant parfois du « bruit ». 3. mais génère aussi des erreurs dans d’autres. il se peut que le texte d’origine contienne une ou plusieurs fautes d’orthographes. nombre…) d'un texte sont classées sous une adresse lexicale. Aussi.3. pour infléchir les termes rencontrés dans un texte écrit dans cette langue.1. Il est très difficile de disposer de règles exhaustives couvrant l’ensemble des cas de flexion des substantifs.4). mais cela a l’inconvénient de générer en retour une augmentation du taux de bruit.2.4.de lever les ambiguïtés dans les cas où plusieurs lemmes sont possibles Des approches de la lemmatisation consiste à utiliser des caractères de troncatures (cf. Ainsi la lemmatisation peut être automatisée. Le programme de recherche multilingue va donc récupérer les mots clés issus d’une requête dans la langue de l’utilisateur pour la traduire dans les langues désirées (et possibles) à partir des dictionnaires de traduction dont il dispose. La lemmatisation automatisée ne doit donc pour être juste n’utiliser que des règles sûres et éprouvées et laisser celles qui donnent parfois de mauvais résultats. genre. page 230]. c’est à dire principalement des relations entre des mots permettant de les ramener à une seule unité lexicale et par exemple de gérer la synonymie.de vérifier pour chaque forme la pertinence du lemme proposé . 1. De plus. 3. surtout si le système (de recherche d’information) doit indexer des documents en différentes langues. Recherche multilingue La recherche multilingue est basée sur les mêmes techniques que le traitement de la requête vu cidessus.de définir un nouveau lemme pour les formes inconnues du système (parfois du dictionnaire) . Lemmatisation La lemmatisation est l'opération par laquelle les formes fléchies (conjugaison. Il est utile de disposer d’un dictionnaire pour savoir si la forme fléchie obtenue (le lemme) à partir des règles fait partie d’un dictionnaire. Dès lors. Les résultats obtenus à partir de chaque processus doivent être agrégés par la suite pour présenter les résultats de manière synthétique (voir section 3.3.2). appelée le lemme [12]. Chaque traduction fait l’objet d’une requête et l’ensemble des requêtes issues de la traduction sont transmises aux services de recherche en faisant l’objet de processus parallèles. Ces règles sont nombreuses et complexes et nécessitent des traitements assez lourds.

Extraction des mots clé et des index L'idée d'utiliser des mots comme des représentants de concepts est assez naturelle. La première approche est donc basée sur la fréquence d’occurrence des unités linguistiques. Par ailleurs. on se réfère au fait qu'un terme distingue bien un document des autres documents. Les traitements qui visent à réduire l’ambiguïté des mots comme index des documents sont aussi ceux qui permettent leur catégorisation automatique. un terme qui a une valeur de discrimination élevée doit apparaître seulement pour un petit nombre de documents. il s’agit de repérer le contexte d’un document en relevant la présence conjointe de plusieurs unités linguistiques (mots) qui est alors significative. la. il est nécessaire que le traitement pour la reconnaissance des représentants soit assez simple. et ils sont des sens très imprécis. soit un dictionnaire de termes composés. En effet. Ainsi. et de créer une représentation interne en utilisant ces concepts. De plus.2. le concept de « recherche d'information ». Cette analyse n'est pas disponible pour la RI. Globalement. Cependant. Les méthodes de regroupement en terme composé utilisent soit une analyse syntaxique et / ou statistique. car les mots « recherche » et « information » sont très courants en français. les mots sont des unités linguistiques qui sont les plus faciles à reconnaître. En combinant les deux méthodes. on peut ainsi filtrer et affecter une pondération aux unités linguistiques représentant les concepts d’un document. ou des doublets de mots (groupes de deux mots). Étant donné le grand nombre de documents à traiter (cf. qui complète la première.L'objectif de l'analyse et de l'indexation est de d'abord trouver des concepts les plus importants dans le document. Catégorisation Les mots clé issus de l’indexation des unités linguistiques à partir de l’analyse statistique des mots d’un texte peuvent parfois être ambigus à cause notamment de l’homonymie [10].2. des termes (éventuellement composés). La deuxième méthode. on cherche plutôt des représentants des concepts. On admet généralement qu'un mot qui apparaît souvent dans un texte représente un concept important.2. Probatoire session janvier 2004 p 27 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . la première approche consiste à choisir les mots représentants selon leur fréquence d'occurrence. perd beaucoup de sens.1). La lemmatisation peut être utilisée préalablement pour traiter les unités linguistiques. alors il est considéré important pour le document. Ces représentants peuvent être de forme différente: des mots simples. Ainsi. 3. Un terme qui apparaît dans tous les documents n'est pas discriminant. concrètement. et qui sont assez porteuses de sens. de même que le 39 regroupement de mots en terme composé . Pour trouver des concepts. une fois représenté par les mots « recherche » et « information ». et l'analyse est très complexe. est basée sur la valeur de discrimination d’un mot pour identifier des documents. On ne retiendra éventuellement comme mot clé d’un document que ceux qui disposent d’une fréquence d’occurrence et d’une valeur de discrimination élevée (filtrage) et on évaluera la pertinence des résultats retournés à une requête sur les mêmes critères appliqués au mot clé contenu dans la requête. Un bon mot clé est celui qui apparaît fréquemment dans un document qui le traite et peu dans les autres documents. en pratique. un. les représentants trouvés doivent permettre de décrire le contenu (la sémantique) du document et de la requête de façon assez précise. il est nécessaire de procéder une analyse sémantique pour déterminer ce qui est un concept dans un texte. Ce sont ces unités qu'on utilise le plus souvent dans les systèmes actuels [10]. …) et les prépositions que l’on reprend dans une liste de mots « stop » (anti-dictionnaire) qui par ailleurs apparaissent très souvent. C'est-à-dire. La façon la plus simple consiste à définir un seuil sur la fréquence: si la fréquence d'occurrence d'un mot dépasse ce seuil. 3. section 1. Par "discrimination".1. 39 « Recherche d’information » est un exemple de terme composé. on exclue les mots vides de sens comme les articles (le. L’extraction de mots clé et d’index des documents est basée sur une analyse statistique. L'objectif ici est de trouver les mots qui représentent le mieux le contenu d'un document. Les techniques existantes sont souvent restreintes à un domaine très spécialisé.

Les règles peuvent évoluer pour permettre d’associer un contexte à un mot clé et finalement catégoriser un document. à utiliser les mots de la définition pour voir s’ils sont présents dans le document et valider ou non la catégorisation. il est nécessaire de disposer de bases de connaissances (dictionnaires. L’utilisation d’un dictionnaire consiste à prendre la définition du mot indexé. système expert). L’agent peut effectuer une comparaison des pages et n’alerter l’utilisateur des changements déterminés comme important par lui.5). Une validation manuelle de la catégorisation automatique est alors nécessaire. Par exemple. Toute nouvelle dépêche dans une rubrique est alors signalée à l’utilisateur. Ce type d’abonnement est valable pour la plupart des systèmes de gestion de contenu qui peuvent avertir les utilisateurs des nouveaux documents ou des mises à jour de documents dans une rubrique.3. Ces bases sont fonctionnelles pour des petits ensembles spécialisés. Il faut remarquer que ce taux dépend fortement du dictionnaire utilisé et des mots soumis au test. Les logiciels capables d’effectuer la mise à jour d’une recherche sont souvent appelés agents de veille. Dans ce cas. Cependant. Mais ce taux de réussite n’est pas assez fiable. à la manière de la logique floue. Ainsi. Ici la lemmatisation est utile pour rapprocher les mots de la définition et les autres mots contenus dans le texte analysé. ce qui est très important. L’intérêt principal de ce type d’agent est le gain de temps qu’il permet à l’utilisateur [1]. On peut avoir un taux de réussite de 50-70% pour la détermination de sens.Plusieurs méthodes sont utilisées selon les cas : l’utilisation d’un système expert. les systèmes experts « apprennent » et peuvent s’enrichir. Il est alors possible de savoir quels sont les sites et les pages Web qui mentionnent votre site et ses pages. Dans le même ordre d’idée. Dans tous les cas. l’alerte s’effectue si le nombre de mots différents entre les deux versions est supérieur à un seuil fixé par l’utilisateur. par exemple. il est très difficile d'avoir un ensemble de règles qui a une couverture raisonnable. sur un site d’annonces. on peut associer à la catégorisation automatique un pourcentage de fiabilité. certains types d’agent permettent aussi de tenir au courant l’utilisateur des mises à jour survenues sur une page Web. Veille informative Trois types de veille informative sont possibles. Le logiciel se charge alors d’interroger le ou les moteurs de recherche à une fréquence prédéterminée et peut signaler à l’utilisateur les nouveaux résultats obtenus. La seconde est relative à la surveillance d’un site ou d’une page Web. Le danger est qu'on peut se tromper dans 30-50% des cas. Avec le système expert. à la base de l’amélioration des résultats aux recherches de données générales réparties à travers le Web. Enfin la dernière concerne les abonnements. d’un dictionnaire ou d’un thésaurus. La première concerne la mise à jour des résultats d’une recherche. Il s’agit en fait d’enregistrer une recherche comme devant être mise à jour. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 28 . Ces alertes sont alors basées sur le choix d’une catégorie ou d’une rubrique. Mais tous les types de paramètre existent pour les abonnements. il est possible d’être tenu au courant des nouvelles annonces correspondant aux critères de recherche de l’utilisateur. section 1. thésaurus. Dans ce domaine. les paramètres sur lesquels s’effectue la mise à jour sont les mots clés de la requête de recherche. Les agents de veille sont le plus souvent associé à des logiciels de recherche fédérée (cf. Les éléments d’informations réunis dans ce rapport montrent que l’amélioration des bases de connaissance semble. à l’heure actuelle. Les règles établies manuellement ne peuvent couvrir qu'une petite partie des mots ambigus et ne seront utilisables que pour des documents d’un domaine. D’une autre manière. comme on peut imaginer. 3. Ces services sont particulièrement développés sur les sites d’informations proposant des « news ». La veille informative consiste par ailleurs à s’abonner à des services d’alerte. les agents peuvent tenir au courant l’utilisateur des nouveaux liens qui pointent vers un site.

Cependant. autrement dit sur la personnalisation.4. Filtrage collaboratif Le filtrage collaboratif fonctionne d’une toute autre manière. Le filtrage s’effectue de manière générale sur les méta données des documents. Une autre manière d’apprendre les comportements des utilisateurs est de demander leur appréciation sur les ressources proposées lors d’une recherche ou visitées lors d’une navigation et de les classer en fonction de leur profil. Pour les mots clés. nous avons abordé dans cette troisième section les traitements nécessaires à apporter aux documents pour pouvoir effectuer des requêtes afin de les récupérer. périodiquement. Les comportements des utilisateurs doivent donc être suivis. Le filtrage collaboratif s’appuie sur les statistiques et la probabilité.En résumé. La seconde est de connaître l’utilisateur et de le classer dans un profil. 3. L’agent fournit en retour les informations supplémentaires qu’il a recueillies entre deux interrogations. cela peut donner une suggestion de mots clés supplémentaires à ceux déjà donnés par l’utilisateur. Nous allons voir maintenant quels traitements supplémentaires peuvent être opérés afin d’affiner les résultats et les présenter. cela fonctionne d’autant mieux que l’utilisateur définit lui-même son profil dans un cadre fourni par l’outil mettant en œuvre le filtrage collaboratif. cela donne par exemple. Il s’agit là d’une méthode de recherche d’information très importante pour les recherches d’informations ciblées. nous pouvons dire que le filtrage collaboratif vise à faire bénéficier à l’utilisateur de l’expérience des autres utilisateurs. Ces traitements sont réalisés de manière générale par les moteurs de recherche de manière automatisée ou par des opérateurs humains assistés par ordinateur.7. Pour les recherches avancées.4.2) ou renseignées par les cyber-documentalistes (voir section 1.1. Le filtrage collaboratif est basé sur la notion de profil de l’utilisateur. Mais cela outrepasse notre propos. Le filtrage permet de ne récupérer que les documents répondant à des propriétés attendues. Une des difficultés du filtrage collaboratif est l’établissement des « profils utilisateurs ».2. Critères de sélection des résultats d’une recherche Il s’agit de restreindre les résultats d’une recherche avec un ou plusieurs critères. De manière générale. auprès des services paramétrés par le logiciel et / ou l’utilisateur. le logiciel peut alors anticiper les phases suivantes en amenant directement l’utilisateur à la phase finale ou alors suggérer de manière plus ou moins marquée les étapes suivantes [15]. nous pouvons dire que les agents de veille se chargent d’effectuer des requêtes enregistrées par un utilisateur. Appliqué aux outils de recherche. 3.4. Les critères sont listés dans la section 1. 3. on peut suggérer des critères de filtrage consécutif à une recherche. Les méta données sont déduites de l’analyse opérée par les outils de recherche (voir section intitulée « Fonctions avancées » page 5 dans la section 1.3).2 intitulée « Paramètres de recherche avancée ». le travail réalisé par ces agents n’est pas reconnu comme relevant de celui des agents intelligents [1]. des suggestions de catégories visitées par les utilisateurs ayant cherché dans la même catégorie que celle dans laquelle l’utilisateur cherche. S’il ne s’agit pas à proprement parler là encore d’intelligence Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 29 . Filtrage et agrégation des informations Jusqu’à ce point. En résumé. les comportements des utilisateurs sont enregistrés en fonction de leur profil. Lorsqu’un utilisateur (classé dans un profil) commence à répéter un comportement connu. De manière générale.

4. 3. Une opération supplémentaire indispensable consiste à dédoublonner les résultats identiques. on peut parler dans le cas du filtrage collaboratif d’intelligence collective. La plupart du temps. Le coefficient de pertinence peut aussi être utilisé pour classer les résultats agrégés d’une recherche fédérée. On parle aussi de catalogue agrégé. le consommateur a de plus en plus de mal à choisir le produit Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 30 . section 3. Si le mot clé se situe par exemple dans le titre du document. Elle prend tout son sens pour les recherches fédérées. l’agent de recherche ne retient que les premiers résultats de chaque liste retournée. ce qui est coûteux [4]. si celui-ci a été opéré automatiquement (cf.2. par pertinence. Ce coefficient de pondération peut être calculé aussi sur la base de la fréquence d’occurrence du mot clé et de sa valeur de discrimination (cf. 3.4. par titre. le coefficient de pertinence peut tenir compte du pourcentage de fiabilité du classement. 3. section 3. Certains méta moteurs proposent aussi un résumé de la ressource résultante. Ensuite. Certains moteurs de recherche utilisent un vote implicite en attribuant un coefficient de pondération à une ressource en fonction du nombre de liens sur le Web qui pointent vers elle. Agents de commerce électronique La problématique est très semblable à celle de la recherche d’informations. estimant à juste titre que ce sont souvent les plus pertinents [1]. l’agent de recherche peut effectuer d’autres traitements complémentaires.artificielle. de même que s’il prend le temps d’évaluer les ressources que l’outil lui propose.1). la pertinence des résultats d’une recherche se déduit de la présence du mot clé dans une ou plusieurs méta données de la ressources. L’agrégation consiste d’abord à sélectionner les résultats issus de chaque outil interrogé. Calcul de la pertinence des résultats Le calcul de la pertinence des résultats peut s’établir. notamment les recherches multilingues. De même.2... Enfin. Agrégation L’agrégation consiste à présenter les résultats correspondant à une recherche.5. L’utilisateur a le plus souvent l’option de choisir comment les résultats sont triés : par date. Face à une offre internationale. L’agrégation.3. parmi lesquels on peut trouver le classement des documents identifiés par thème. comme nous venons de le voir ci-dessus. Un lien hypertexte permet d’accéder à la ressource. éparpillée et pléthorique. Les moteurs de recherche présentent leurs résultats triés par ordre de pertinence. L’évaluation des ressources proposées peut servir aussi comme critère de pertinence pour le classement des résultats d’une recherche. dans lesquelles les résultats proviennent de différents outils de recherche et peuvent être hétérogènes. soit une sorte de vote explicite.2). particulièrement sous forme de catalogue. est aussi une fonction clé des agents de commerce électronique dont un des rôles principaux est d’agréger la liste des produits recherchés. Toutefois. si le mot clé correspond à la catégorie dans laquelle sont classées les ressources résultantes. en fonction d’une notation attribuée par les utilisateurs aux résultats retournés à une recherche. il y a plus de chance que ce dernier soit un résultat plus pertinent de la recherche que celui où le mot clé se situe dans le corps du texte. par URL.4. ce système ne fonctionne correctement que si l’utilisateur prend le soin de renseigner et préciser son profil et ses préférences personnelles.

5. achat dès qu'un modèle est en solde).. par exemple grâce à des tableaux comparatifs des offres présentées selon différents critères (prix. Des systèmes capables de constituer des clientèles potentielles et d'analyser leurs attentes commencent à apparaître sur des sites de grandes entreprises. Les agents vendeurs Si les agents les plus spectaculaires sont ceux qui s'adressent aux consommateurs. ce dernier abandonnera en cours à cause de la difficulté à localiser les sites désirés ou à cause de la lenteur de transmission des données. Nous détaillons ci-après leur fonctionnement respectif [5].. valider et confronter une offre commerciale. il n'en reste pas moins que les plus utiles aux directeurs marketing et commerciaux seront ceux capables d'analyser la demande globale pour adapter leur offre aux besoins du marché. Le client dispose alors de possibilités d’action impossibles actuellement. Les agents acheteurs Ils sont contrôlés par les clients et ont pour but de faciliter le processus d’achat. facilité de paiement.). de prendre connaissance de son prix. Dans le meilleur des cas. Les outils classiques (moteurs et répertoires de recherche) se montrent vite inefficaces pour trouver. Un agent vendeur ayant un produit à commercialiser va traverser le réseau à la recherche des clients intéressés par ce produit.l'identification des distributeurs: localisation d’un distributeur précis. Lorsque l’agent vendeur rencontre un agent client intéressé par ce type de produits..). Tous ceux qui ont fait l’expérience de rechercher un article sur le Web (par exemple. avis des autres consommateurs). Il est nécessaire d’identifier les sites Web marchands spécialisés dans la littérature. Les clients peuvent se faire enregistrer comme demandeurs d’un produit ou d’un service déterminé. une transaction est alors négociée entre les deux agents. Ces systèmes demandent au consommateur de décrire son profil afin de mieux le servir. un rendezvous. Ce pourra être un billet d’avion. Il traitera les informations collectées. ces derniers se trouvent face à une demande très éparpillée et sont obligés de la connaître de mieux en mieux s’ils veulent satisfaire des besoins toujours plus spécifiques. Ils renseignent l'utilisateur sur : . Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 31 . On distingue deux catégories d'agents pour le commerce électronique : les agents acheteurs et les agents vendeurs.2. au service. un livre) dans le but de comparer les offres ont mesuré la difficulté et la longueur de l’opération. cela prendra plusieurs dizaines de minutes à l’utilisateur. pour en proposer la liste comparative. La recherche d’informations commerciales est donc affaire de chance et de persévérance. comme pour tout autre recherche. voire effectuer les transactions. aux avis des autres consommateurs. Ce profil s’enrichit progressivement après chaque transaction et après chaque demande d’informations. priorité au rapport qualité/prix. un emploi. 3. et de réitérer la démarche sur tous les sites suivants. en établissant une présélection automatique d’articles en fonction des préférences du consommateur (par exemple. voire passer automatiquement la commande. La transaction peut d’ailleurs se faire aussi bien dans l’autre sens. et permet d’obtenir une offre réellement personnalisée et adaptée aux besoins de chaque client. . Les agents vendeurs présentent les biens et les services aux clients (qu'ils considèrent comme des agents) et peuvent même être programmés pour négocier. Les agents acheteurs sont capables de se connecter sur divers services de vente à distance et ramener les informations de description et de prix de tous les articles d’un type déterminé. liste intégrale ou sélective de distributeurs (en fonction des services qu’ils offrent: garantie. En effet.1.5. identifier et vérifier l’intérêt d’une offre commerciale est extrêmement difficile sur le réseau des réseaux.à acheter. 3. services. de déterminer si le titre recherché y est référencé. dans le pire des cas. En effet. Il pourra réaliser la transaction au coup par coup ou de façon automatique (achat répétitif d’un panier de produits/alimentation.la disponibilité d’un produit en menant une recherche par marque ou par catégorie (produit et accessoires) ..

Limites de l’apport des agents intelligents et de l’intelligence artificielle « J’ai interrogé mon agent qui s’appelle « Docteur Sait-tout » et lui ai demandé où j’ai bien pu laisser mon portefeuille que je ne retrouve pas depuis maintenant 48 heures. il n’existe pas d’agents acheteurs qui communiquent avec des agents vendeurs pour effectuer des transactions. Intelligence Artificielle » produit par Stanley Kubrick et réalisé par Steven Spielberg et paru en 2002.4) que de l’I.3) et l’agrégation (section 3. . mais insuffisants dans de nombreux cas et pouvant donc être améliorés. Les autres techniques relèvent plus des EAI (Enterprise Application Integration) pour les recherches fédérées. il n’existe pas de systèmes multi-agents. la veille informative (section 3.com/b/a/co_1798_kelbest_referencement_de_marchands_sur_kelkoo.4. Les agents acheteurs et vendeurs. qu'ils apprennent au fil des transactions à mieux connaître leurs clients. comme ceux que proposent la FIPA. Le filtrage collaboratif (section 3. on parle pour ces applications d’agents de veille. 3.calculer des recommandations sur l’évolution de l’offre commerciale grâce à des statistiques sur la demande globale des consommateurs.Les différentes fonctions assurées par les agents vendeurs sont : . Pourtant. notamment mon agent nommé « organiseur » pour savoir ce que j’avais bien pu faire avant ce moment.5). un rapport sur les ventes de produits artisanaux à base de pailles et autres fibres végétales dans l’Union Européenne pour le premier semestre de cette année ».6.enregistrement des demandes successives de l'acheteur afin d'enrichir. déjà appréciables. L’analyse sémantique peut parfois s’appuyer sur des systèmes experts ou des systèmes de raisonnements (section 3.1 et 3. de faire évoluer son profil . Pour le moment. voir une utopie. de vive voix si nécessaire s’il faut interroger un humain… Par ailleurs. . il e xiste des sites fédérateurs agrégeant l’offre des 40 vendeurs mais la technologie qu’ils utilisent a peu à voir avec les agents intelligents . il s’agit bien là de l’objectif final que l’on assigne aux agents intelligents. Cependant.3. tient principalement aux techniques de traitement automatisé du langage naturel : analyse syntaxique et sémantique (sections 3. il doit me remettre à 18 H 00 ce soir au plus tard. où j’avais été et avec qui. Cette Référencement sur Kelkoo : marchands. Pour le moment. inscrivez-vous ! / http://fr. sur le Web. Ceci est largement de la science fiction.enregistrement du profil et des préférences de l’acheteur . 3. qu’ils mènent des opérations au nom de l’utilisateur. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 32 40 41 .2) pour la catégorisation automatique des ressources.A.2.2).. Toutefois. agents sociables].4. Leurs applications permettent bien d’accéder à des données qui sont réparties à travers le Web. texte de la note de bas de page n° 38 page 23).1). d'affiner. l’intelligence que l’on apporte aux données réparties à travers le Web afin d’en permettre la recherche et la récupération.4. pour pouvoir prendre les contacts nécessaires et les interroger. Il m’a répondu qu’il ne pouvait pas me donner de réponse satisfaisante immédiatement mais qu’il allait interroger ses collègues.2) s’appuie sur des bases de connaissances qui s’enrichissent grâce à des mécanismes d’apprentissage permettant l’utilisation de systèmes d’inférence qui peuvent guider l’utilisateur dans sa recherche mais ils sont peu mis en œuvre dans le monde des affaires [4.kelkoo.I. Par contre. des systèmes multiagents intelligents ? Le dénominateur commun de tous ces agents est qu’ils ont un certain degré d’autonomie. Ces traitements visent à produire des méta données propices au filtrage et à la sélection des informations réparties à travers le Web (section 3.html 41 Clin d’œil au chapitre 20 intitulé « Dr Sait-tout » du film « A.5. Les agents de commerce électronique en sont encore au domaine expérimental (section 3. Ces systèmes donnent tout d’abord des résultats issus de recherche fiables jusqu’à un certain niveau. sinon à titre expérimental (cf.

ne permettant pas d’amener les systèmes à maturité tout en donnant dans le même temps des résultats décevant par définition.w3.org/TR/REC-rdf-syntax 45 RDF Vocabulary Description Language 1. à travers l’utilisation des schémas45 RDF qui peuvent s’intégrer et ne s’excluent pas mutuellement grâce à l’utilisation du concept d’espace de nom (« namespace »). associé à une syntaxe. chap. RDF44 est un modèle.w3c. elles peuvent améliorer significativement la gestion de contenu dans des domaines spécialisés. retenons certains éléments fondateurs. Latest Version: http://www. thésaurus.org W3C Semantic Web : http://www.W3. W3C Recommendation 22 February 1999. Toutefois. dont le but est de permettre à une communauté d’utilisateurs de partager les mêmes méta données pour des ressources partagées. Un des gros avantages de RDF est son extensibilité. Il a été conçu initialement par le W3C pour permettre de structurer l’information accessible sur le Web et de l’indexer efficacement [2. Le W3C42 offre une architecture pour répondre à cet enjeu : il s’agit du Web sémantique43. pour fiabiliser et augmenter l’efficacité de l’utilisation des mots clés et des catégories pour la recherche d’informations (section 3. Par contre. Il faut donc au préalable fiabiliser les méta données des ressources présentes et accessibles à travers le Web. décevantes pour la recherche multilingue et la traduction. RDF est par ailleurs un des modèles de base et de syntaxe sur laquelle le Web sémantique se construit avec l’ajout de couches (« layers ») au-dessus de RDF comme OIL (Ontology Inference 43 W3C – World Wide Web Consortium : http://www. W3C Working Draft 05 September 2003.0: RDF Schema. à maintenir et s’avèrent insuffisantes dans le cas de recherches généralistes et. Enfin. taxonomies. ces agents nécessitent la collaboration avec l’utilisateur qui doit au démarrage du système donner beaucoup de renseignements. On peut résumer en disant que les bases de connaissance peuvent se présenter sous forme d’ontologies.7. dans quelques cas.org/TR/rdf-schema/ 44 42 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 33 . La réponse du Web sémantique Nous avons vu au cours de ce rapport qu’une large part de l’intelligence pour la recherche d’information peut reposer sur des bases de connaissance : pour les systèmes experts et autres moteurs d’inférence (section 2. section 2. surtout pour des recherches généralistes. rappelons enfin que les agents ne peuvent donner leur pleine puissance que dans des systèmes multi-agents (cf. Dans le même ordre d’idée. Les agents intelligents ne posent donc pas de limites intrinsèques mais ces dernières relèvent du manque de méta données de qualité et interopérables. comme support des messages de la communication inter-agents (section intitulée « Messages d’agent » page 22).2). 3. Elles ne sont pour le moment pas interopérables dans les cas les plus nombreux (systèmes propriétaires ou pas de correspondances). Ce n’est pas le lieu d’aborder la nature de ces langages. bases de connaissance). L’enjeu est d’accroître les capacités informatives du Web en permettant de déduire des informations qui ne sont pas explicitement formulées mais qui sont déductibles grâce à l’inférence. Cette architecture est bâtie sur le standard RDF (Resource Description Framework) et sur le Langage d’Ontologie du Web OWL. C’est un enjeu considérable au regard de la quantité des données disponibles à travers le Web et de la mise en œuvre progressive de XML comme langage pivot pour ces mêmes données. RDF n’est pas particulièrement conçu pour permettre de stocker les méta données de documents mais plutôt pour permettre leur échange et leur traitement par des opérateurs humains ou artificiels. c’est à dire s’il y a suffisamment de systèmes agents interopérables.w3. Ces ontologies sont lourdes à produire. Les ontologies font partie de l’ensemble (classe) des méta données.org/2001/sw Resource Description Framework (RDF) Model and Syntax Specification. Notons que RDF peut servir de langage de contenu (« content language ») pour les agents de la FIPA (voir « Messages d’agent » page 22). Newest Version: http://www.5) ayant une taille critique. Cette interaction semble avoir découragé beaucoup d’utilisateurs.intelligence nécessite toutefois l’utilisation d’ontologies (dictionnaires.2).2. 7].

mais au prix parfois d’un travail non négligeable de la part de l’utilisateur. moteurs de recherche. de manière générale. thématiques ou généralistes) et donnent des résultats satisfaisants dans la majorité des cas. elles font référence à l’espace de nom (domaine nominal ou « namespace » en anglais) des schémas RDF des méta données de Dublin Core.1. Dans les cas restant. Lorsque les méta données d’un document sont exprimées en RDF en concordance avec le DCMI. Rechercher des données accessibles à travers Internet pour d’autres protocoles et d’autres formats relève sensiblement de la même problématique. afin d’accroître l’efficacité de l’indexation des ressources disponibles à travers le Web.1). Les agents de veille ne sont pas véritablement des agents intelligents mais facilitent déjà beaucoup la tâche de l’utilisateur. Probatoire session janvier 2004 p 34 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . Le Web sémantique propose ainsi une organisation permettant de « desambigüer » les informations sur les ressources et accroître l’interopérabilité entre les données. L’utilisateur doit aussi respecter une période d’apprentissage de la machine avant qu’elle ne puisse donner des résultats tangibles. Ils constituent une des hypothèses majeure pour accroître sa capacité d’action. méta moteurs. Elles doivent correspondre à des ontologies compatibles avec les capacités de traitement et d’utilisation des agents intelligents. mais pas pour des utilisations généralistes. notamment pour faire le tri entre les données pertinentes et celles qui ne le sont pas. Les méta données du DCMI (Dublin Core Metadata Initiative) sont exprimées de manière normative avec la syntaxe RDF47. Conjointement avec RDF. mais rajoute une dimension à la complexité de l’opération et qui n’est pas traitée par les outils de recherche que nous avons étudiés dans la première section. Le langage d’ontologie du Web OWL est une révision des langages DAML + OIL. CONCLUSION GENERALE Nous avons couvert les principales méthodes de recherche pour accéder à des données réparties à travers le Web. Il ouvre la porte au fonctionnement des agents intelligents pour accroître l’accès aux données des utilisateurs finaux. Les méthodes de recherche s’assimilent à l’utilisation de ces outils (annuaires.US Department of Defence. Les traitements nécessaires pour utiliser ces méthodes ont été décrits. Les outils de recherche utilisent déjà des fonctionnalités de traitement automatisé du langage naturel qui est une des approches de l’intelligence artificielle. rappelons le. Mais pour cela. OIL est utilisé pour définir des ontologies et DAML ajoute un petit nombre de caractéristiques au schéma RDF afin de rendre plus facile la définition de nouveaux langages permettant la communication entre agents intelligents. avec le mot attribut. De nombreux éléments de conclusion ont été abordés dans les conclusions relatives à chaque section principale. Toutes les personnes désirant coopérer en échangeant de l’information ont là les moyens de le faire efficacement en résolvant les problèmes classiques auxquels elles peuvent être confrontées. il faut développer des ontologies et des services de traduction entre elles pour les ontologies concurrentes [16]. et parmi elle surtout celles des propriétés48. 46 47 48 DARPA : Defence Advanced Research Projects Agency . les éditeurs doivent prendre le soin d’éditer et de renseigner les méta données des documents qu’ils mettent à la disposition de leurs lecteurs. l’initiative de Dublin Core vise à résoudre les problèmes d’ambiguïté sur la dénomination des ressources.Layer) et DAML (DARPA46 Agent Markup Language). On atteint des résultats dans des domaines spécialisés. Les agents intelligents constituent un moyen pour décharger l’utilisateur dans le premier cas et pour révéler l’accès aux données dans le second cas. Les agents intelligents nécessitent toutefois d’être mis en œuvre à une échelle suffisante (critique) dans des systèmes multi-agents pour pouvoir rendre les services que l’utilisateur peut exiger d’eux. DCMI term declarations represented in RDF schema language : http://dublincore. Certains agents peuvent guider l’utilisateur dans son travail de recherche et d’achat. sélectifs.org/schemas/rdfs/ Synonyme dans notre contexte de méta données. Nous n’avons tenu compte pour ce rapport. Ces méta données doivent être interopérables et non ambiguës. que des données accessibles à travers le protocole HTTP dans des formats compatibles avec celui ci (section 1. la recherche peut rester sans réponse. De même.

et pour que les agents dits intelligents passent du stade expérimental au stade économique. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 35 .Un travail conséquent attend donc les utilisateurs de l’Internet s’ils veulent que naisse la deuxième génération du Web : le Web Sémantique.

fipa.actionstatus org. A language used to express the content of a communication between agents.agent Presence Mandatory Agent Mandatory Agent-attribute Agentcommunicationlanguage org. FIPA Strings.fipa.agentlocator org.service. That part of a transport-message containing information about how to send the message to the intended recipient(s). A computational process that implements the autonomous.transportmessage.standard . which is the basis of communication between independently designed and developed agents. communicating functionality of an application. A language with a precisely defined syntax semantics and pragmatics.standard .agent.service.conte nt org.ANNEXE : Eléments abstraits de l’architecture d’un agent intelligent de la FIPA Element Action-status Description A status indication delivered by a service showing the success or failure of an action.standard .standard . A composite entity containing the name.service. non-forgeable token that uniquely identifies an agent. Content is that part of a message (communicative act) that represents the domain dependent component of the communication. May also include additional information about the message encoding.encodingservice. agent-locator.conte nt-language org.agentattribute org.fipa. Fully Qualified Name (FQN) org.agentcommunicationlanguage org. A service that encodes a message to and from a payload. Mandatory Mandatory Agent-name Content An opaque. A way of representing an abstract syntax in a particular concrete syntax. A set of properties associated with an agent by inclusion in its agentdirectory-entry.message. Examples of possible representations are XML.message.agentdirectoryservice.encodin g-service org. Mandatory Mandatory Contentlanguage Encodingrepresentation Mandatory Mandatory Encoding-service Mandatory Envelope Mandatory Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 36 .standard .fipa.standard .fipa.standard .agentdirectory-service org.fipa.fipa.standard .standard .fipa.fipa.envelo pe Optional Mandatory Agent-directoryentry Mandatory Agent-directoryservice Agent-locator A service providing a shared information repository in which agent-directoryentries may be stored and queried An agent-locator consists of the set of transport-descriptions used to communicate with an agent.service.standard .standard .fipa.agentdirectory-entry org.agent-name org.service. and agent-attributes of an agent.messag e-transportservice. encryption. and serialized Java objects. etc.encoding -representation org.fipa.fipa.standard .fipa.standard .

service.servicename org.servicelocationdescription org.fipa. Service-locationdescription Service-locator Service-root Service-signature A identifier that describes the binding signature for a service.fipa.standard .servicedirectory-service org.servicetype org.service.standard .standard .messag e-transportservice org.message.ontolo gy Mandatory Optional Payload Service Service-address Service-attributes Service-directoryentry Service-directoryservice Service-name A directory service for registering and discovering services. A set of service-directory-entries.fipa. A key-value-tuple containing a signaturetype a service-signature and serviceaddress.fipa.standard .fipa.servicetype Mandatory Mandatory Mandatory Optional Mandatory Mandatory Mandatory Mandatory Mandatory Mandatory Mandatory Mandatory Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 37 .fipa. as well as symbols referring to relationships that may be evident in the domain. and service-type of a service. A service-locator consists of the set of service-location-descriptions used to access a service. A message is expressed in an agent-communication-language.payloa d org. A set of properties associated with a service by inclusion in its servicedirectory-entry.standard .service.fipa.fipa.standard .serviceroot org.service.service.servicelocator org.standard .standard .servicedirectory-entry org.fipa. Service-type org.standard .standard . A service that supports the sending and receiving of transport-messages between agents. An ontology includes a vocabulary of symbols referring to objects in the subject domain.fipa.standard .transportmessage.standard .explanat ion org.service.standard . A service provided for agents and other services.service.service.service org.standard . servicedirectoryservice.fipa.service.serviceaddress org.fipa.standard .standard .fipa. A unique identifier of a particular service. A unit of communication between two agents. A message encoded in a manner suitable for inclusion in a transportmessage.Element Explanation Description An encoding of the reason for a particular action-status. A service-type specific string containing transport addressing information.service.service.message Presence Optional Mandatory Messagetransport-service Ontology org.fipa. A set of symbols together with an associated interpretation that may be shared by a community of agents or software. and encoded in an encodingrepresentation.fipa. A key-value tuple describing the type of a service. A composite entity containing the service-name. service-locator.serviceattributes org.fipa.service. Message Fully Qualified Name (FQN) org.

messag e-transportservice.messag e-transportservice.service.standard .signatur e-type org.messag e-transportservice.Element Signature-type Description A key-value tuple describing the type of service-signature.transport -description org.service.fipa.fipa. The object conveyed from agent to agent.message -transportservice.transportmessage Presence Mandatory Mandatory Mandatory Transportspecific-address Transportspecific-property A transport-specific-property is a property associated with a transporttype. og.transport -specificproperty org.transport -type Mandatory Optional Mandatory Source : [11] Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 38 .fipa.fipa.service.standard .fipa.service. a transport-specificaddress and zero or more transportspecific-properties.fipa.messag e-transportservice. Transport-type A transport-type describes the type of transport associated with a transportspecific-address.standard.standard .fipa. It contains the transportdescription for the sender and receiver or receivers. A transport-description is a self describing structure containing a transport-type.transport org.standard . together with a payload containing the message.transport -specificaddress org. A transport address specific to a given transport-type Transport Transportdescription Transportmessage Fully Qualified Name (FQN) org. A transport is a particular data delivery service supported by a given messagetransport-service.standard .standard . service.service.

iro.rjcw. Jay Cousins.ac.Canada / Automne 2003 / accessible à l’URL http://www.freeserve. Robert Worden.htm 15 Everything You Need to Know About Personalization : Personalization Techniques / Chris Payne / WDVL – Web Developer’s Virtual Library / 2000-11-22 / http://www.uk 14 Lemmat : Un lemmatiseur d'adjectifs en français / Mickael Faivre-Macon / Devoir de Maîtrise de Traitement Automatique des Langues / soumis pour approbation.pdf 12 La lemmatisation / Accessible à l’URL http://tpg.freeserve.free.htm 13 Lemmatisation : what is it ? / extrait de l’aide du logiciel « concordance » / R.fltr. Daniel RiversMoore. Mark Birbeck.umontreal.Watt / Accessible à l’URL http://www.com/Authoring/ASP/Personalization/techniques.com/Athens/Oracle/6296/lemmaitr.htm / Pour plus d’informations : voir l’URL http://www.ucl.pdf 10 Recherche d'Information / Semaine 2 : Analyse et Indexation des documents et des requêtes et semaine 11 : Traitements de la langue naturelle pour la RI / Support de cours IFT6255 .co.w3. de la télématique et de la télévision / 1999-09-30 / accessible à l’URL http://memoireonline.html 5 Les agents intelligents / Ludovic BLIN / DESS 226 Gestion des télécommunications.fr/urfist/Supports/ApprofMoteurs/ApprofMoteurs_InterrogAvance.Institut National des Techniques de la Documentation Paris / 1999-03 / accessible à partir de l’URL http://www.wdvl. portails thématiques / Béatrice FOENIX-RIOU / Editions TEC&DOC / Copyright © 2001 / ISBN : 2-7430-0450-9 2 XML : langage et applications / Alain Michard / Eyrolles / 1999 / ISBN 2-212-09052-8 3 Comparaison des moteurs : Syntaxe de saisie et fonctions de recherche / Remarques sur les fonctionnalités de recherche et présentation du TP / Marie-Laure Malingre et Alexandre Serres / URFIST / Université Rennes 2 / février 2003 / http://www.Canada / accessibles à partir de l’URL http://www. non corrigé / INALCO / dernière mise à jour de la page le 25 janvier 1998 / accessible à l’URL http://www. Josh Lubbel.org/TR/2003/PR-webont-req-20031215/#usecaseagent Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 39 .umontreal.htm 4 Agents et recherche d'informations sur Internet / Pierre-Alain LE CHEVILLER / Mémoire de fin d’études 1997 / INTD .BIBLIOGRAPHIE 1 Recherche et veille sur le Web visible et invisible : agents intelligents. interfaces des grands serveurs.5 intitulé “Agents and services” / Editor: Jeff Heflin (Lehigh University) / W3C Proposed Recommendation 15 December 2003 / Version accessible à l’URL http://www.uk/manual/hs2330.html 16 OWL Web Ontology Language Use Cases and Requirements / Chapitre 2. David Dodds.Hiver 2002 / Jian-Yun NIE / Département d'informatique et de recherche opérationnelle (DIRO) / Université de Montréal . Ann Wrightson/ Collection « Programmer to programmer »/ Wrox Team / Wrox Press / 08-2001 / 600 pages / ISBN: 1-861004-51-6 9 Language : chapter 22 / Support de cours / Intelligence artificielle : introduction / Jian-Yun NIE / Département d'informatique et de recherche opérationnelle (DIRO) / Université de Montréal .co. Andrew Watt.fr/agents.org/specs/fipa00001/SC00001L.ca/~nie/IFT6330/Russell/chapter22.iro.com/Paris/Lights/6277/agents1.geocities.J.ca/~nie/IFT6255/ 11 FIPA Abstract Architecture Specification / norme FIPA du 2002-12-03 / Architecture Technical Committee / FIPA – Foundation for Intelligent Physical Agents / accessible à l’URL http://www.C. annuaires sélectifs.rjcw.htm 6 Les agents intelligents : essai sur la rationalité des calculs / Introduction / SALLANTIN Jean / collection Informatique / Editions HERMES / Date de parution: 1997-10 / ISBN : 2-86601-643-2 7 L’intelligence artificielle : un guide d’initiation au futur de l’informatique et de la robotique / Jacques CHALLONER / Collection Focus Sciences / Editions PEARSON Education France / Copyright © 2003 / ISBN : 2-7440-1600-4 8 Professional XML Meta Data / Chapitre 15 : inferencing systems – pages 509-514 / Kal Ahmed.geocities.fipa. Danny Ayers.uhb. Miloslav Nic.be/lemmatisation.