CNAM PARIS

Examen probatoire en Informatique Session de janvier 2004

LAHAYE Philippe

Sujet n° 97 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents)

Président de jury : Professeur TREVES

Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents)

Probatoire session janvier 2004

SOMMAIRE
INTRODUCTION................................................................................................................................ 1 1. Méthodes de recherche de données à travers le Web ................................................................ 1 1.1. Formats et accès aux données réparties : Internet et le Web ............................................. 2 1.1.1. Ressources disponibles sur Internet .......................................................................... 2 1.1.2. Web visible ............................................................................................................... 3 1.1.3. Web invisible............................................................................................................. 4 1.2. Moteurs de recherche........................................................................................................ 4 1.3. Annuaires.......................................................................................................................... 6 1.4. Portails thématiques et annuaires sélectifs......................................................................... 7 1.4.1. Portails thématiques.................................................................................................. 7 1.4.2. Annuaires sélectifs .................................................................................................... 8 1.5. Recherche fédérée ............................................................................................................ 9 1.6. Visualisation et navigation ................................................................................................. 9 1.7. Formulation d’une recherche : opérateurs de requêtes et recherches avancées............... 10 1.7.1. Opérateurs de requêtes........................................................................................... 10 1.7.2. Paramètres de recherche avancée.......................................................................... 11 1.8. Conclusion ...................................................................................................................... 11 2. Les agents intelligents.............................................................................................................. 12 2.1. Introduction à l’intelligence artificielle et aux agents ......................................................... 13 2.1.1. Définitions des agents intelligents............................................................................ 13 2.1.2. L’intelligence artificielle............................................................................................ 14 2.2. Approche descendante.................................................................................................... 15 2.2.1. Systèmes d’inférence .............................................................................................. 15 2.2.2. Systèmes experts.................................................................................................... 17 2.2.3. Traitement du langage naturel................................................................................. 18 2.2.4. Perspectives ........................................................................................................... 19 2.3. Approche ascendante : réseaux de neurones .................................................................. 19 2.4. Propriétés et architecture d’un agent intelligent ................................................................ 20 2.4.1. Propriétés générales ............................................................................................... 20 2.4.2. Architecture d’un agent intelligent............................................................................ 21 2.5. Conclusion ...................................................................................................................... 23 3. Contribution des agents intelligents à la recherche de données sur le Web .............................. 24 3.1. Analyse et traitement syntaxique pour la recherche d’information..................................... 25 3.1.1. Formulation et traitement de la requête ................................................................... 25 3.1.2. Recherche multilingue............................................................................................. 26 3.1.3. Lemmatisation......................................................................................................... 26 3.2. Analyse sémantique ........................................................................................................ 26 3.2.1. Extraction des mots clé et des index........................................................................ 27 3.2.2. Catégorisation......................................................................................................... 27 3.3. Veille informative ............................................................................................................. 28 3.4. Filtrage et agrégation des informations ............................................................................ 29 3.4.1. Critères de sélection des résultats d’une recherche ................................................. 29 3.4.2. Filtrage collaboratif .................................................................................................. 29 3.4.3. Calcul de la pertinence des résultats ....................................................................... 30 3.4.4. Agrégation .............................................................................................................. 30 3.5. Agents de commerce électronique................................................................................... 30 3.5.1. Les agents acheteurs .............................................................................................. 31 3.5.2. Les agents vendeurs ............................................................................................... 31 3.5.3. Les agents acheteurs et vendeurs, des systèmes multi-agents intelligents ?............ 32 3.6. Limites de l’apport des agents intelligents et de l’intelligence artificielle ............................ 32 3.7. La réponse du Web sémantique ...................................................................................... 33 CONCLUSION GENERALE ............................................................................................................. 34 ANNEXE : Eléments abstraits de l’architecture d’un agent intelligent de la FIPA............................... 36 BIBLIOGRAPHIE ............................................................................................................................. 39

Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents)

Probatoire session janvier 2004

INTRODUCTION
Internet et le Web représentent une avancée majeure dans la communication interpersonnelle. Ils permettent en théorie un accès à l’information universel. Toutes les sources de données sont potentiellement intégrables à la toile mondiale. De fait, le nombre de documents et d’applications accessibles à travers le Web est aujourd’hui très important, seulement dix ans environ après leur mise en œuvre à grande échelle. Ils continuent à ce jour à croître. Face à cela, il semble possible d’accéder à toutes données désirées. C’est à ce niveau que le Web manque encore à ses promesses, même s’il le permet plus qu’auparavant avec les moyens dont disposait un individu moyen. L’articulation entre une question, un problème à résoudre ou encore une requête et l’obtention des réponses est complexe et représente un chemin à parcourir assez long dans la plupart des cas. Accéder à des données sur le Web nécessite donc un apprentissage. Cela nécessite ensuite un travail, parfois non négligeable, pour l’opérateur humain. Comme le titre de ce rapport le mentionne, accéder à des données réparties à travers le Web nécessite une ou plusieurs méthodes de recherche. Pour la plupart des recherches, ces méthodes présentent des avantages et des inconvénients. Dans la majorité des cas, les réponses obtenues en utilisant ces méthodes de recherches génèrent soit des résultats incomplets (d’autres réponses existent mais ne sont pas mentionnées), soit des résultats trop nombreux (pertinence faible de la réponse par rapport à la question) ou encore des résultats faux (« bruit ») et souvent les trois ensemble. La problématique de la recherche d’informations sur le Web en est à ce stade aujourd’hui et l’objectif d’amélioration des outils de recherche est bien de diminuer l’importance des inconvénients susmentionnés. Cependant, en l’état, les méthodes de recherche actuelles sont indispensables et offre le meilleur service pour accéder aux données réparties sur le Web. La première partie de ce rapport aborde donc ces méthodes de recherche et à travers elles, les outils correspondants. Afin de pallier les inconvénients de ces méthodes de recherche (apprentissage, charge de travail non négligeable, réponses approximatives et non exhaustives), une démarche a été de développer des agents intelligents pour assister l’utilisateur dans sa tâche de recherche. L’agent intelligent est avant tout un programme informatique qui permet d’automatiser des tâches dévolues autrement à l’utilisateur : c’est pourquoi le terme d’agent logiciel lui est parfois préféré. Cependant, dans certains cas, l’agent intelligent répond réellement aux critères exigés pour parler d’intelligence artificielle. L’agent intelligent peut ainsi, dans d’autres cas, se substituer à l’utilisateur pour apprendre (élargir ses connaissances), réfléchir, communiquer avec d’autres agents et prendre des décisions. Nous verrons donc dans la deuxième partie en quoi peut consister un agent intelligent. Nous approfondirons dans la troisième partie de ce rapport ce qu’apportent les agents intelligents et l’intelligence artificielle à la recherche d’informations afin d’accéder à des données réparties à travers le Web. Cet apport améliore le travail de recherche d’information sans toutefois donner des résultats parfaits. Nous verrons donc quelles peuvent être certaines des limites auxquelles font face les agents intelligents aujourd’hui dans la recherche et l’accès aux informations et quelle est la réponse de ces nouvelles limites apportée par les promoteurs du Web, à savoir le World Wide Web Consortium (W3C), à travers le « Web sémantique ».

1. Méthodes de recherche de données à travers le Web
Le Web recouvre une multitude de possibilités. S’agissant avant tout d’une norme et d’une architecture de communication et de transport de données informatiques, Internet permet d’accéder à des informations et des applications aussi diverses que la technologie informatique le permet. Ainsi des applications et des documents accessibles auparavant avec d’autres protocoles de communication, soit d’autres terminaux (matériel et / ou logiciel) particuliers, le sont aujourd’hui avec un navigateur utilisant les protocoles TCP / IP (Transport Control Protocol / Internet Protocol). Aussi rechercher des données réparties sur le Web peut se faire à partir de plusieurs types d’outils que nous allons décrire dans cette section. Il nous faut cependant préciser au préalable quelles sont
Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 1

les ressources qui sont accessibles, comment y accéder et quelles sont celles qui sont interrogeables avant de voir comment les interroger. Les derniers chapitres de cette section dédiée aux méthodes de recherche sur Internet précisent comment peut être formulée une recherche dans une requête transmise aux outils de recherche.

1.1. Formats et accès aux données réparties : Internet et le Web
Quand on parle d’Internet et du Web, il est difficile d’en préciser les contours exacts. Pour donner une idée de « l’immensité » que cela représente, on peut citer quelques chiffres qui au moment où on les inscrit ne sont déjà plus à jour, tant est encore rapide la progression de cet ensemble. En juillet 2000, le nombre de pages Web était d’environ de 2,1 milliards1. Le nombre de pages rajoutées en 24 heures y était estimé à 4,5 millions. Ces chiffres concernent le Web visible tel qu’il est défini ci-dessous. Si on rajoute le Web dit invisible, on doit rajouter 550 milliards de documents [1], ceci n’étant qu’une approche de la complexité de cet ensemble. On doit ajouter à cela le fait que les formats des données réparties à travers le Web n’est pas homogène. Ce chapitre a donc pour objectif de donner un aperçu de la manière dont sont réparties les données à travers le Web.

1.1.1. Ressources disponibles sur Internet
Toutes les ressources dites « immatérielles » peuvent théoriquement se retrouver sur Internet. Autrement dit, toutes les ressources numériques sont accessibles à travers Internet. Concrètement, il s’agit en premier lieu des informations de tout types. Ces informations peuvent être dites non ou faiblement structurées : il s’agit de documents au format HTML2 (Hyper Text Markup Language) qui ont fait la popularité du Web mais aussi de documents sous d’autres formats texte, notamment le format PDF3 (Portable Document File). A l’inverse, les informations peuvent être fortement structurées si elles proviennent d’une base de données et répondent alors à un modèle de données précis. Cependant, la gamme des ressources peut aller du document au logiciel en passant par la voix, le son (musiques), l’image (photographies) et la vidéo (films). Un utilisateur peut être amené à rechercher ce type de ressources, ou encore de données, sur Internet. L’ensemble des médias accessibles par Internet est défini officiellement par l’IANA (Internet 4 Assigned Numbers Authority) dans la liste des types MIME . De plus, avec Internet, les couches applicatives sont nombreuses. Il ne s’agit pas seulement du protocole HTTP (Hyper Text Transfer Protocol [RFC2616]) qui permet aux utilisateurs de naviguer avec leur logiciel de navigation sur le Web et d’interroger les serveurs Web en utilisant notamment les liens hypertextes et qui d’une manière ou d’une autre est l’un des plus familiers des internautes. Cela concerne aussi les autres protocoles et applications que sont, entre autres, le courrier électronique, les forums de discussions ou news groups, les listes de diffusion ou mailing-lists, le transfert de fichier et Telnet. Une ressource peut donc être accessible à travers différents différents types et méthodes d’accès5. Nous allons donc établir une première distinction entre Internet et le Web. Le Web est l’ensemble des informations accessibles à partir du protocole HTTP sur Internet. Internet, lui est plus large, et est un
Les statistiques d’une des sources citées dans le livre de Béatrice Foenix-Riou énumèrent le nombre de pages des sites Web à plus de 6 milliards aujourd’hui (Cyveillance – Press Resource Center - Quick stats : http://www.cyveillance.com/web/newsroom/stats.htm ). 2 Plus d’informations et les spécifications du langage HTML peuvent être obtenues à partir la page web à l’URL suivante : http://www.w3.org/MarkUp/ (HyperText Markup Language (HTML) Home Page). Le World Wide Web Consortium (W3C) est le créateur et l’agence de maintenance du langage. 3 PDF est principalement soutenu par la société ADOBE (http://www.adobe.com) avec le logiciel Acrobate Reader qui permet de les visualiser. 4 MIME - Internet Media Types : liste maintenue par l’IANA (http://www.iana.org) et disponible à l’URL http://www.isi.edu/innotes/iana/assignments/media-types/media-types 5 Uniform Resource Identifier (URI) SCHEMES / Official IANA Registry of URI Schemes / IANA / mise à jour du 2003-08-29 / accessible à l’URL http://www.iana.org/assignments/uri-schemes Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 2
1

final/ Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 3 6 . les méthodes que nous mentionnerons dans ce rapport fonctionnent pour accéder à des données sur le Web. Prabhakar Raghavan. il reste deux catégories de documents : ceux qui ne sont pas connectés au cœur du réseau (Tendrils) et enfin ceux qui sont entièrement « déconnecté » des autres pages (aucun lien ne pointe vers eux et ils ne contiennent pas de liens hypertextes).com/cs/k53/www9. Raymie Stata. Andrew Tomkins. Web visible Le Web est parfois représenté comme une toile d’araignée. Figure 1 : « Connectivité du Web »6 Source : Graph structure in the web / Andrei Broder. Le Web est constitué d’une partie centrale de nœuds ultra connectés (SCC) vers lesquels pointent de nombreux document et qui se pointent entre eux.2. Ravi Kumar. Sridhar Rajagopalan.réseau de ressources informatiques accessibles avec plusieurs types d’applications. Le Web visible est composé des documents accessibles par n’importe quel utilisateur (documents publics). pages de création récente. mais en retour ne sont pointés par aucun document (pages personnelles. L’outil et la méthode utilisée pour trouver une ou plusieurs ressource dépendra donc aussi du type d’accès et du format de celle(s) ci.1. Dans cette typologie. CA. Janet Wiener / IBM Almaden Research Center. Les fils de la toile sont les liens hypertextes qui relient les documents entre eux et qui sont contenus dans le corps des documents. La plupart du temps. de commerce électronique). 1. Des documents (IN) pointent vers ces documents. Les nœuds ultra connectés pointent vers des « culs de sac » (OUT) dans le sens où ils pointent vers des documents ou sites Web qui en retour ne pointent pas vers des ressources externes (sites d’entreprises. Farzin Maghoul. Une typologie de la répartition des pages du Web visible peut être établie en fonction des liens hypertextes qui sont aussi assimilés à des pointeurs et de leur connectivité (voir Figure 1). / 2000 / Accessible à l‘URL http://almaden. L’utilisation d’un type de média et d’une application pour y accéder a souvent un sens qui peut être utilisé pour rechercher une donnée sur Internet. pas encore reconnues par leurs pairs). San Jose.ibm.

Il faut s’identifier aussi pour accéder à un intranet. Par contre. aux moteurs de recherche et pas forcément à tous les opérateurs humains. 1. Cela est intéressant car le moteur de recherche a effectué un travail de recensement des pages Web disponibles. La plupart des banques de données professionnelles sont payantes et ne sont pas de fait indexées par les moteurs de recherche. Nous avons donc partitionné le Web en Web visible et invisible. les données peuvent avoir différents formats dont certains ne sont pas reconnus par les moteurs de recherche. Excel. on trouve des données accessibles sur le Web invisible.Cette typologie de la répartition des documents sur le Web est importante car cela détermine la capacité des outils de recherche à prendre en compte les documents. les fichiers sonores. Les pages « déconnectées » ne sont pas prises en compte par les moteurs de recherche [1] (cf. De même. images et vidéos ne peuvent pas être indexés automatiquement. comme nous l’avons vu déjà. Si le Web peut être conçu comme invisible. Moteurs de recherche Une des premières méthodes de recherche de données réparties à travers le Web qui s’offre à l’internaute consiste à utiliser un moteur de recherche. On n’accède pas aux documents non connectés par la poursuite de liens hypertextes.2). c’est en fait parce que les utilisateurs accèdent aux données en les recherchant souvent à partir d’un moteur de recherche. section 1. cela impacte la navigation (cf.3. Le Web visible se définit aussi par son contraire : le Web invisible.6) et l’accès aux données non connectées à partir d’un lien hypertexte. comme nous l’avons vu. Toutes les pages des sites de commerce électronique ne peuvent donc pas être indexées par des moteurs de recherche classiques.1. PowerPoint) ou les animations (Macromedia Flash) ne sont pas non plus indexés. Ainsi. les documents au format PDF ne sont parfois pas indexés par certains moteurs de recherche et le plus souvent les fichiers de type MS Office (Word.2 et 1.3 quelles sont les pages Web disponibles. Enfin.1. Cette tâche ne peut être accomplie par les « robots » qu’utilisent les moteurs de recherche et qui eux parcourent le site en en fonction de leur organisation hiérarchique (structure arborescente).txt" qui est placé dans le répertoire racine du site Web. c’est à dire au site Web interne d’une organisation. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 4 . Si ces types de médias ne sont pas pris en compte par les moteurs de recherche. Il faut aussi tenir compte des sites Web qui ne veulent pas être indexés par des moteurs de recherche et qui pour cela le mentionnent explicitement dans un fichier "robot.2. Web invisible Parallèlement au Web visible. Ce dernier est constitué en premier lieu par des pages dynamiques générées à partir de requêtes transmises à des bases de données. L’identification peut être liée à un abonnement (payant ou non) auprès de l’organisation qui fournit ces pages. et à travers eux.1. ils peuvent par contre être accédés par les utilisateurs qui possèdent les applications associées. Cette caractéristique s’applique en fait. De même. On trouve aussi dans ce Web invisible les pages pour lesquels il faut s’identifier avant d’y accéder. Nous avons déjà vu dans les sections 1. section 1. n’importe quel utilisateur humain pourra accéder aux pages de ces sites Web s’ils sont abonnés ou en ont les droits. pas aux annuaires. composé de sites en accès libre offrant des pages reliées entre elles. Ces requêtes sont établies à partir de formulaires qu’il faut remplir. 1.

7. pp 229-237]. Cette option est liée à l’opérateur « like: » ou « related: ». Le distributeur comporte aussi un gestionnaire de requêtes. paramètres de recherche multilingue. C’est pourquoi dans les fichiers HTML. 10 Casse : majuscule. tolérance aux fautes d’orthographe. présentés sous une forme plus ou moins laconique [2. ou pour recenser plusieurs sites concernant un domaine particulier. en anglais. va lui fournir la liste des documents contenant les termes de la requête. Quelques moteurs de recherche offrent sur leurs pages de résultats l’option « Related pages » (ou pages similaires) en face de chaque page sélectionnée. et en extrait certains composants textuels. prise en compte de l’ordre des mots ou non. voire acceptation de fautes d’orthographe dans un terme de requête : peuvent être trouvés les mots de l’index ne différant de ceux de la requête que par une ou deux lettres. les moteurs de recherche proposent des fonctionnalités avancées qui utilisent en partie l’intelligence artificielle. chaque moteur de recherche a son fonctionnement propre.2 de ce rapport. Ces informations sur le document sont le plus souvent des méta données (données sur le document). L’exception provient de la balise <TITLE> qui reprend le titre du document dans son entête (entre les balises <HEAD>) . qui va traiter les requêtes émises par les utilisateurs. Joker. Cette fonction peut être utilisée pour identifier. thésaurus comprenant les règles d’expansion des requêtes. Celui ci construit un index « plein texte » des documents collectés. nécessitant aujourd’hui une expertise propre. 7 8 9 Gatherer. par exemple. Cette option donne les références d’autres pages que le moteur identifie comme similaires. chap. Il s’agit là d’un domaine à part entière. sujet approchants… Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 5 . et en exploitant l’index. Fonctions avancées d’un moteur de recherche Une des premières fonctions avancées est la fonction « link: ». voir page 27. 12 prise en compte des synonymes par exemple. Peuvent être 11 12 précisés notamment la liste de « mots stop » . en anglais. minuscule. Ainsi les pages peuvent contenir des attributs descriptifs tels que le titre. des sites ayant une offre concurrente à un site donné. Cette option (« related: ») est liée au fait que les pages publiées sur le Web peuvent contenir des informations sur le document qui sont contenues dans son entête et non affichées à l’écran. Il en est de même avec les paramètres de fonctionnement retenus pour chaque moteur : les règles utilisées ne sont pas les mêmes pour chacun. Le gestionnaire de requête offre des fonctionnalités permettant de spécifier des requêtes relativement complexes : opérateur de requêtes (cf. il est ainsi possible de recueillir les pages indexées par le moteur qui pointent vers l’URL donnée en paramètre dans le champ de saisie de la recherche. la description et les mots clés. Certaines options et paramètres du fonctionnement dépendent du moteur de recherche. l’auteur. Si toutes ces fonctionnalités se retrouvent dans l’un ou l’autre des moteurs de recherche interrogeables en ligne. C’est comme si on utilisait des liens hypertextes inverses. utilisation de caractère de troncature .1.7. recherche sur 9 10 mot entier ou sur partie de mot. insensibilité à la casse . Il communique ces informations extraites des différents documents à un « distributeur8 ».Fonctionnalités d’un moteur de recherche Un moteur de recherche est en général constitué de deux grands modules fonctionnels. Avec certains moteurs de recherche. Enfin. Souvent le caractère ‘?’ ou ‘%’. ou enfin pour avoir des informations complémentaires à un produit. autrement dit le titre est une méta donnée qui n’est pas repris dans une balise <META>. 11 Stop words en anglais. Le « collecteur »7 recherche les documents sur un domaine. recherche sur des mots isolés ou sur des expressions composées de plusieurs mots. à l’exception de ce ceux figurant dans un grand nombre de documents différents et n’ayant dès lors aucun pouvoir discriminant utile. Dans cet index figure tous les mots des textes extraits. règles de lemmatisation. Ces fonctionnalités seront développées en particulier dans la section 3.7 « Formulation d’une recherche : opérateurs de requêtes »). sur la base de critères déterminés par des algorithmes s’appliquant aux mots clés ou au sujet liés aux pages Web. Les opérateurs de requêtes ne sont pas les mêmes pour chacun et sont plus ou moins nombreux (voir section 1. Broker. elles se retrouvent dans les meta-tags (balises <META>). section 1.1).

le moteur de recherche le plus important aujourd’hui annonce recenser 1. L’utilisateur peut ainsi parcourir des catégories hiérarchisées. Annuaires A l’inverse des moteurs de recherche qui se basent sur un travail effectué par des programmes informatiques. une partie du Web invisible pour les moteurs est indexé et accessible à partir des annuaires (cf. nommés cyberdocumentalistes.3).3 milliards d’URL mais il n’indexe la page en texte intégral que dans la moitié des cas seulement [1]. catégoriser est une des bases de la recherche d’informations. le système peut tenter de catégoriser (classifier) automatiquement ces documents. à la différence des moteurs de recherche qui tentent d’indexer toutes les pages du Web. les annuaires. proposés par leur éditeur le plus souvent. Google. 1. De même. l’utilisateur peut de cette manière rechercher un document dont l’auteur est ‘Jean Dupont’ ou encore un mot contenu uniquement dans le titre du document. c’est à dire la génération de résultats ne correspondant pas à la requête [2]. Ainsi. Les cyber-documentalistes parcourent le Web afin de recenser et décrire les nouveaux sites. Alternativement. Probatoire session janvier 2004 p 6 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . n’en indexe qu’une partie.Ces méta données sont dans certains cas indexées d’une manière particulière par les moteurs de recherche.1. parfois appelés robots. l’utilisateur peut utiliser une zone de saisie de formulaire pour lancer une recherche par mot clé qui va s’effectuer sur les catégories. Les annuaires sont l’objet d’une méthode complémentaire de recherche de données réparties à travers le Web.2). Par exemple. la recherche multilingue. ne s’attachent qu’à décrire et répertorier les sites Web. Les autres fonctionnalités avancées peuvent être le traitement de la requête en langage naturel. Autrement dit. le filtrage des résultats de la requête.3. on tente de déterminer le titre. De plus. eux. ce qui est très important à noter. section 1. Et c’est là une notion importante dans une méthode de recherche. ce qui est beaucoup plus réducteur et pertinent que de rechercher un document contenant les mots ‘Jean Dupont’ ou le mot recherché dans le texte. Limitations des moteurs de recherche La principale limitation des moteurs de recherche « plein texte » est que l’indexation et la recherche se font sur des entités purement lexicales. les annuaires proposent des catégorisations multiples : une ou plusieurs catégorisations thématiques et une catégorisation géographique. ces balises ne sont le plus souvent pas renseignées. Ces méta données synthétisées automatiquement ne sont malheureusement pas justes dans de nombreux cas et une recherche sur ces méta données peut s’avérer inutile. Malheureusement. De même. 13 Bruit : résultat non pertinent par rapport à la requête. Une des conséquences est la génération d’un « taux de 13 bruit » souvent très important dans la réponse. Les sites Web sont ainsi indexés avec leur titre et un très bref descriptif dans des rubriques et sous-rubriques. les mots clés et une description du document. les annuaires sont des catalogues du Web dans lesquels les sites sont classés par catégorie. Le plus souvent. elles peuvent servir à des requêtes paramétrées sur une ou plusieurs des méta données. le titre et le descriptif du site Web. Ainsi. Dans le même ordre d’idée. plusieurs centaines chaque jour. les annuaires recensent une partie de l’information contenue dans le Web à partir d’un travail d’indexation réalisé par des opérateurs humains. L’utilisateur arrive ainsi à trouver des sites Web identiques en parcourant la classification de différentes manières. rappelons que les moteurs de recherche ne recensent que le Web visible et que chacun pris isolément. Certains « robots » tentent donc de déduire ces informations en se basant sur un certain nombre de règles qu’utilise ensuite un agent intelligent en appliquant une analyse sémantique du document (voir section 3.

Portails thématiques 14 15 Un synonyme de schéma que l’on utilise souvent indifféremment est le mot « modèle ». on a la qualité de ses défauts ou inversement on a les défauts de ses qualités s’applique dans ce cas. Selon leur paramétrage. 1. Dans le premier cas. la tolérance aux fautes d’orthographe. Un exemple classique d’indexation souvent mal contrôlé concerne les personnes : ainsi des documents parlant d’Honoré de Balzac ou de ses œuvres ne seront pas retrouvés de la même manière si l’on utilise « Balzac ». petites annonces.4. Des réponses obtenues à partir des termes de la requête en anglais « electronic 15 commerce » (avec des guillemets. …). la classification est une technique documentaire qui nécessite l’observation de certains principes pour être correcte. ils proposent souvent aussi : des informations sélectionnées (actualités. traduction). on pourra ne pas trouver les documents qui ont simplement été indexé avec comme sujet « Balzac ». De même. introduisons une nouvelle notion à propos des outils de recherche : le portail. Par exemple. si elles permettent d’étendre les termes d’une requête. on aura globalement surtout des réponses sur les disques informatiques. météorologie. une recherche sur le mot « disque » ne donne pas les mêmes résultats selon que l’on se trouve dans la rubrique informatique du catalogue ou à sa racine. souffrent moins de ces défauts que nous venons juste de présenter. p 38]. Dans le premier cas. car cela n’est pas possible et parfois pas souhaité. est dû parfois à la synonymie ou à l’homonymie. Théoriquement. on obtient. L’utilisation de guillemet « force » la recherche uniquement sur la chaîne de caractères entre les guillemets et non sur chacun des mots contenus dans la chaîne.4. Honoré » ou « Honoré de Balzac ». De cette manière. Ce proverbe pourrait s’appliquer aux annuaires et aux moteurs de recherche généralistes qui ont parmi leurs objectifs principaux l’exhaustivité. 1. « De Balzac. Ils offrent donc simultanément l’accès à un moteur de recherche et à un ou plusieurs annuaires. Les portails thématiques et les annuaires sélectifs. Le problème de l’homonymie peut être en partie écarté dans les annuaires en lançant une recherche à l’intérieur d’une catégorie. Enfin. on trouvera des réponses concernant toutes les personnes ayant pour nom Balzac et dans les autres. n’apparaissent que les résultats concernant un mot clé ne correspondant qu’à un thème précis. Le silence ou le bruit entourant les résultats d’une recherche de données. On assiste donc aussi à un phénomène de « silence » sur les annuaires. afin d’attirer le maximum d’internautes. Il s’agit en fait de site Web dédiés à la recherche et à l’accès aux informations sur le Web. Si on lance ensuite une recherche avec le mot ecommerce. Ces fonctionnalités. Par ailleurs. c’est à dire que certaines réponses que l’on sait correspondre à la requête n’apparaissent pas. non plus la référence de 21 catégories et 682 sites comme dans le premier cas. génèrent en contrepartie des réponses non souhaitées (bruit). des services (boîte à lettre de courrier électronique. Portails thématiques et annuaires sélectifs Tout d’abord. des plate-formes de commerce électronique. ce qui a une signification dans les opérateurs de requête ) concernent des rubriques intitulées « e-commerce ». aussi apparaître des réponses concernant la musique. ne doivent être utilisés pour indexer que des mots contrôlés à partir de 14 dictionnaires ou encore de schémas de classification. Le principe. entre autre. de règles d’expansion des requêtes. mal étreint ». le Web n’est pas indexé de manière complète. mais 132 catégories et 3697 sites [1. Probatoire session janvier 2004 p 7 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . Une illustration est l’utilisation de vocabulaire contrôlé pour indexer une ressource. Les portails offrent donc à la fois les fonctions d’annuaires et de moteur : le même outil peut servir de point de départ à toutes les recherches. Un autre exemple montrant les difficultés d’une recherche sur un annuaire ou un moteur de recherche est le suivant. dans le second on verra. ils feront appel à des fonctionnalités déjà énoncées dans la section précédente sur les moteurs de recherche : à savoir l’utilisation de listes de « mots stop ».Cependant les annuaires présentent des défauts même s’ils sont organisés par des opérateurs humains plutôt que par une machine.1. à l’inverse. téléchargement de logiciels. « Qui trop embrasse. de règles de lemmatisation.

la veille technologique. On peut trouver d’autres méta données que celles concernant le titre. peut ainsi s’enrichir de rubriques offrant les comparatifs de produits réalisés par des laboratoires de test. Le nom de ce type d’annuaire porte sa définition : les informations sélectionnées (les sites principalement) sont triées sur le volet avec une approche qualitative marquée. l’apport des annuaires sélectifs par rapport aux annuaires classiques. etc.gov/mesh/meshhome. ces outils recensent de nombreuses ressources appartenant au Web invisible. 1. des articles de la presse spécialisée. 16 Des références de thésaurus sont : . l’auteur et la description comme particulièrement la méta donnée couverture géographique ou encore spatiale ou bien encore la langue. Nous donnons en conclusion (cf. est construit le plus souvent autour d’un annuaire thématique. D’autres méthodes sont possibles pour améliorer ou complémenter les méthodes et les outils de recherche de données vus jusqu’à maintenant. Le champ d’investigation va donc être plus limité par définition mais aussi par choix.html . on peut dire aussi que ces annuaires et portails thématiques peuvent être appelés « guide des guides » (« méta annuaire ») lorsqu’ils répertorient les outils de recherche d’informations. c’est à dire par secteur d’activité (comme l’automobile. Compte tenu de leurs critères de sélection.nlm. Le travail de l’expert ajoute une valeur ajoutée à la recherche d’information brute. chercheurs. Pour finir. un forum de discussion pour les utilisateurs.[TGN] Getty Thesaurus of Geographic Names : http://www. …) ou horizontale. Le portail vertical.[MeSH] Medical Subject Headings : http://www. Le fait que ces outils soient le fait de professionnels de la documentation ajoute aussi une valeur liée à l’utilisation des techniques éprouvées de la documentation. Il s’agit principalement de permettre de trouver plus rapidement une information plus pertinente et épurée. plus restreint et le plus souvent professionnel.[LCSH] Library of Congress Subject Headings . La description des sites.getty. Une des caractéristiques des portails thématiques ou des annuaires sélectifs est qu’il s’adresse à un public particulier. L’utilisation de schémas de classification 16 et autres thésaurus professionnels y est plus systématique .org/ Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 8 . d’où l’intérêt des portails ou annuaires thématiques.4. entre autre parce qu’ils sont moins nombreux. c’est à dire par sujet ou thème utilisé par tous ou plusieurs secteurs d’activité (comme le knowledge management.nih. comme des journaux électroniques avec archives ou des banques de données.[UDC] Universal Decimal Classification : http://www. section 1.2.udcc. Par exemple. par thème ou non. un site spécialisé sur les logiciels avec un annuaire des sites du domaine. Le fait que le nombre de sites référencés soit faible par rapport aux annuaires généralistes non sélectifs est compensé par la richesse des sites retenus. Cette approche par domaine peut être verticale. est plus détaillée que dans les annuaires généralistes. un annuaire des fournisseurs.). c’est à dire une approche par domaine.edu/research/tools/vocabulary/tgn/ . autre appellation du portail thématique. enseignants) est l’annuaire sélectif. la finance. Il est souvent fait par des professionnels (experts du domaine) au service de professionnels ou en tout cas d’un public « éclairé ».8). Annuaires sélectifs Un autre outil mis en place par des professionnels de l’information (bibliothécaires ou documentalistes) pour un autre public (celui de l’enseignement : universitaires.Les portails thématiques sont construits sur le même principe que les portails généralistes mais avec une approche thématique.

Ces méta moteurs sont parfois assimilés à des agents intelligents. utiliser la visualisation et la navigation dans les pages Web comme méthode de recherche de données réparties à travers le Web peut paraître trivial. La technique consistant à interroger plusieurs interfaces de recherche est utilisée aussi par les outils de comparaison de prix dans le domaine du commerce électronique. titre « Limitations des moteurs de recherche » page 6).4 et 3. à un prix qui les écarte des utilisateurs particuliers et des petites entreprises. notamment dans le sens où ils sont capables de traduire la requête dans le langage utilisé par le moteur de recherche interrogé et d’homogénéiser les jeux de résultat retournés par les moteurs en les agrégeant. La seconde et principale limitation est que les opérateurs sont réduits au plus petit dénominateur commun des opérateurs des moteurs de recherche interrogés. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 9 . De même. thème…) et offre la possibilité de vérifier la validité des liens. portant par exemple sur deux termes reliés par « AND ». On ne peut donc pas utiliser les opérateurs de requêtes avancés proposés par les moteurs et annuaires. Visualisation et navigation Après avoir vu des outils puissants au regard de la masse des données réparties à travers le Web et du travail considérable d’indexation opéré. Il faut pour cela utiliser ce que l’on appelle un méta moteur qui n’a donc pas d’index propre. on peut effectuer une recherche simultanément sur plusieurs moteurs de recherche et annuaires. Seul l’utilisateur sait ce qu’il cherche et ce à quoi il veut accéder.1. ce type d’outil est surtout adapté aux recherches basiques. En fait. puis dédoublonnent les résultats. Ce sont des outils disponibles sur le Web (on line) ou que l’on peut installer sur son ordinateur (off line). 1. Recherche fédérée En complément d’une recherche sur un ou plusieurs moteurs de recherche. Le méta moteur de comparaison va ainsi interroger le catalogue de plusieurs sites de vente en ligne et rapatrier le résultat dans une sorte de catalogue agrégé.5. Cependant. nous l’avons vu (cf. seuls des outils professionnels proposent cette dernière possibilité. un outil de recherche classique ne tient pas ou peu (techniques de personnalisation) compte du profil de l’utilisateur et de ses connaissances préalables. Au contraire. Ils permettent ainsi un gain de temps indiscutable. les méta moteurs ont pour avantage de pallier des insuffisances des moteurs de recherche. Ces aspects seront repris et développés dans les sections 3. parce qu’une recherche peut ne pas être parfaitement exprimée par un opérateur et qu’un texte et une référence dans celui ci peut avoir un sens recherché et qui n’est pas pris en compte par des outils comme les moteurs de recherche.6. mais souffrent néanmoins de certaines faiblesses. les classent (par pertinence. les méta moteurs peuvent utiliser les interfaces de recherches proposés par les annuaires sélectifs et les portails thématique et profiter de la qualité des sélections de ces sites en les additionnant à un objectif d’exhaustivité. Les méta moteurs permettent de transmettre une même requête à plusieurs outils de manière séquentielle ou parallélisée. De même. ne peuvent indexer l’intégralité du Web.5. la navigation peut être une méthode de recherche efficace. pas dans tous les domaines. La première est liée au fait que le méta moteur ne rapatrie qu’un nombre limité de résultats de chaque recherche sur chaque moteur (en général les 10 à 50 premiers de la liste des résultats).4. Le dernier moyen restant à l’utilisateur pour approfondir une recherche de données réparties sur le Web est d’utiliser ses propres moyens et son intelligence en utilisant les propriétés de visualisation et de navigation offertes par les navigateurs Web. C’est d’ailleurs un des principaux avantages offert par le Web et ce qui a fait en partie son succès. et encore. qui. Dans le même ordre d’idée. Les méta moteurs les plus sophistiqués envoient une même requête à différents moteurs et annuaires (que l’on peut choisir dans une liste). Il s’agit là toutefois d’une méthode qui peut être utilisée et qu’on ne peut pas ne pas mentionner. La navigation consiste à suivre des liens hypertextes inclus dans les pages Web.

permettent d’étendre les fonctionnalités des liens hypertextes et d’enrichir la navigation.les thèmes et les ressources de la requête correspondante. les liens hypertextes peuvent être considérablement enrichis dans le sens où on peut leur ajouter beaucoup de sens. ainsi que leurs paramètres de recherche avancée qui précisent les ressources recherchées (cf.7. chap. Pour cela.w3. cette préparation effectuée. il faut bien accéder à un document pour pouvoir en extraire l’information recherchée et valider les résultats proposés par un outil de recherche. Pourtant.w3. Cette méthode de recherche basée sur la navigation peut être aussi appelée exploration dynamique. Les opérateurs portent sur des mots pris isolément ou sur des chaînes de mots (dites chaînes de caractère). Opérateurs de requêtes Cette section a été synthétisée à partir des pages d’aide aux utilisateurs de trois moteurs de recherche20. 3. les nouvelles générations de documents publié sur le Web utilisant le langage XML17 (eXtended Markup Language) et ses normes ou protocoles associés. 1. un peu de réflexion et d’organisation préalable à une recherche de données peuvent certainement améliorer encore l’efficacité.La visualisation. Voir http://www.3). c’est à dire les domaines couverts. Par ailleurs. Information technology. 1. section 1.org/XML/ XML Linking Language (XLink) Version 1.Pages d’aide d’Alta Vista à partir de l’URL : http://www.org/TR/xlink/ HyTime .Pages d’aide de Google à partir de l’URL : http://www. dont XLink18.voila. . il faut tenter de caractériser les données que l’on cherche en identifiant : . Un exemple d’exploration dynamique à partir d’une méta donnée est le parcours des classifications offertes par les annuaires (cf.google.altavista. Cela est rarement utilisé et permettrait cependant d’enrichir le sens et les propriétés d’un lien hypertexte.les paramètres permettant de restreindre au maximum le champ couvert et explicitant au maximum la recherche et les termes qu’elle contiendra.1.1.html .1). La navigation dans les documents hypertextes est donc bien une méthode de recherche pour accéder à des données réparties. Les chaînes de caractères pour pouvoir être prises en compte sont exprimées entre des guillemets (" ").com/help/search/default 18 19 17 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 10 . Hypermedia/ Time-based Structuring Language 20 Sources : . il est déjà possible d’enrichir la connotation d’un lien hypertexte (balise <a> en langage HTML) en rajoutant une information concernant son type (attribut « type »). Formulation d’une recherche : opérateurs de requêtes et recherches avancées La puissance et l’efficacité des outils que nous avons présentés font que les méthodes de recherche de données réparties à travers le Web peuvent s’assimiler à l’utilisation de ces outils. .0 : W3C Recommendation 27 June 2001. Techniquement.fr/Recherche/ .fr/intl/fr/help. section 1. Une fois. Elle pourrait l’être encore plus si ces documents et les applications de navigation exploitaient l’ensemble des possibilités récentes offertes par le langage XML et l’utilisation étendue des méta données. Enfin.ISO/IEC 10744-1992 (E). Malgré cela. et la navigation à partir d’un site Web de référence peut être très riche d’informations.quels peuvent être les homonymes (pour les exclure) ou les synonymes (pour les inclure) de ces données. pp 99-100]. http://www. une recherche est aussi un processus récursif : l’obtention de premiers résultats amène à préciser et / ou élargir la recherche de données.7. c’est à dire la lecture d’un texte mais aussi la visualisation des images et des illustrations. De plus.Pages d’aide de Voilà à partir de l’URL : http://aide. on peut utiliser les opérateurs de requêtes offerts par les moteurs de recherche. L’utilisation de liens associés aux méta données des documents publiés sur le Web sont aussi une source de navigation potentielle dans des navigateurs spécialisés [2. d’une recherche de données. La possibilité 19 d’accéder à des ressources grâce à des liens a déjà été illustrée aussi avec la norme HyTime . notamment en terme de temps.

ou AND). Nous avons vu les fonctions « link: » et « related » dans la sous-section initulée « Fonctions avancées » page 5. La syntaxe n’est pas fondamentale et revient à utiliser les formulaires de recherche avancée dans les moteurs de recherche. chaque outil à ses avantages et ses défauts en fonction de la recherche de l’utilisateur. « Bas* » récupérera les documents avec bas. En fait. Journaux….le filtrage géographique (Web mondial.2. . Il s’agit principalement de la possibilité de restreindre une nouvelle requête aux résultats trouvés lors d’une précédente requête. Il y a des opérateurs de troncature.le filtrage par types de ressources : images.. . basse et bassin. Messagerie. L'opérateur de recherche permet parfois de préciser la distance entre les mots. Pour simplifier. forums Usenet. francophone. C'est utile lorsque l’utilisateur n'est pas sûr de l'orthographe.le filtrage des champs de requête : titre. Il existe des opérateurs de proximité disponibles : l'opérateur NEAR.).7. On utilise des parenthèses « () » pour regrouper des expressions booléennes complexes. On parle souvent de joker. conçus pour répondre à des questions différentes. Il est nécessaire de saisir au moins trois lettres avant *. audio…. On doit noter aussi la possibilité du filtrage du contenu (" filtre parental ") qui permet d'éliminer les ressources catégorisées "Adulte". 1. domaine Internet… Le filtrage peut être aussi parfois thématique : il s’agit du choix du domaine fonctionnel de recherche. Il n’y a pas de méthodes pré-définie englobante où alors celle-ci serait un peu lourde à réaliser par un opérateur humain. vidéo. Cette possibilité d’affinage d’une requête montre bien qu’une recherche est souvent un processus récursif. . Paramètres de recherche avancée La recherche avancée consiste à appliquer des critères de filtrage aux requêtes de recherche. L'astérisque peut être un joker.le filtrage par dates ou périodes.le filtrage linguistique (par langue). . les options de recherche peuvent porter sur les méta données « description » et « keyword ». . régional). Ces filtrages sont : . N'importe quelle lettre ou groupe de lettres peut prendre la place de l'astérisque. On peut aussi placer * au milieu du mot. bibliothèque NEAR/3 numérique (bibliothèque à une distance de 3 mots de numérique) [3].ou OR) et SAUF (NOT. Annuaires et moteurs de recherche sont des outils de recherche bien distincts. URL.2). AND NOT. Enfin.le filtrage par types de formats.Les principaux opérateurs de recherche sont les opérateurs booléens ET (signe +.7. Ces fonctionnalités sont présentées dans la section suivante (1. Par exemple : bibliothèque NEAR numérique . Conclusion A chaque recherche d’accès à des données réparties à travers le Web correspond une ou plusieurs méthodes. OU (signe . c’est parfois le OU. on peut dire que les annuaires doivent être utilisés lorsque Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 11 . De même. Par exemple.8. « moi*s » trouvera de documents contenant mois et moins. 1. . Les opérateurs peuvent être mis entre parenthèses pour indiquer l’ordre d’exécution des opérations.le filtrage des applications Internet : Web. L’opérateur ET est souvent implicite. Les autres opérateurs de requêtes sont des fonctions dont la syntaxe peut varier entre les différents moteurs de recherche. Ils peuvent permettre notamment de traiter en partie l’homonymie en excluant à priori certains résultats (NOT) et la synonymie (OU). les recherches avancées permettent parfois un affinage de la recherche.

notamment en phase d’apprentissage. pour résoudre ces mêmes problèmes. on pourra identifier des sites spécialisés sur la question dans des annuaires. il est alors bien plus rapide de faire appel à un méta moteur qui collectera les différentes réponses. même en langage naturel. dictionnaires. Cet annuaire peut être décentralisé comme dans de nombreux cas avec le « peer-to-peer » ou avec les annuaires UDDI (Universal Description Discovery and Integration).3). le site Web d’une société. Mais si l’on veut tout savoir sur la coucoumelle (nom usuel d’une espèce d’amanite). Notamment. permettront d’identifier les pages d’un site Web concernant un sujet très spécifique. bute aussi très certainement sur cela.le thème de la question est susceptible de faire l’objet d’un site ou d’une grosse rubrique d’un site Web ou lorsqu’on souhaite localiser le site Web d’une organisation (entreprise) particulière. L’efficacité de la recherche sur Internet bute aujourd’hui sur ce point. si l’on désire accéder à des ressources de type spécialisé comme les fichiers multimédias ou exécutables : on ne peut s’adresser qu’à un annuaire thématique. Ce n’est pas forcément possible dans tous les cas. la recherche sera plus performante si on utilise un annuaire classique ou un annuaire sélectif. Pour retrouver. nul doute qu’une recherche dans les annuaires généralistes sera bien adaptée. Ces outils sont déjà très puissant et peuvent aider à exprimer une recherche d’informations qui souvent est suffisamment large pour être difficilement exprimable. section 1. Une première démarche peut être aussi de trouver les outils de recherche : l’utilisation de méta annuaires (répertoire des outils de recherche et des portails thématiques) peut être alors utile. Les moteurs de recherche en revanche. L’ensemble de ces outils répond à une démarche de recherche de l’information a posteriori. L’utilisation des agents intelligents. mais on n’y accède alors pas directement via le protocole HTTP. schémas de catégorisation » dans la section 1.2). consiste donc à savoir et exprimer de manière non ambiguë sa recherche d’informations.4. notamment lorsqu’il s’agit de répondre à des questions simples (un ou deux mots). « méta données » dans la section « Fonctions avancées » page 5 puis « vocabulaire contrôlé. Cela est difficile si l’utilisateur n’est pas sûr de la présence ou non des données sur le Web. L’utilisateur peut élargir ou préciser sa recherche en fonction des résultats obtenus aux premières requêtes. Enfin. Selon le type de question. Mais si l’on souhaite en revanche identifier quelques sites de référence sur un sujet. Encore faut-il que tous les utilisateurs d’un même domaine de recherche respectent cette procédure générale. On a vu par ailleurs la différence entre annuaires sélectifs ou non (cf. général ou spécialisé. La méthode. ou pour avoir une idée de l’offre disponible sur le Web sur un sujet particulier. l’utilisation des méta moteurs pour effectuer une recherche fédérée prend tout son sens pour des recherches ponctuelles. Plutôt que d’interroger successivement les différents moteurs. Ainsi si l’on recherche des informations sur les champignons. c’est dans des moteurs de recherche qu’il faudra lancer sa recherche. les capacités des machines Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 12 . objet de notre chapitre suivant. Nous avons dit déjà qu’une méthode de recherche sur le Web s’assimile souvent à l’utilisation d’un outil. l’utilisation d’un annuaire sélectif ou d’un portail spécialisé permettra d’obtenir rapidement une réponse pertinente. Les ressources sont publiées puis les outils de recherche sont mis en œuvre en posant la question « comment fait-on pour les retrouver et y accéder ? ». pour lesquels les moteurs généralistes obtiennent peu de réponses. Dans certains cas. De même. 2. par exemple. sont inventées et réalisées par les Hommes afin de les décharger de tâches aliénantes et afin de réaliser des tâches qu’ils ne peuvent eux même exécuter de par leurs caractéristiques physiques notamment. ces outils orientent l’utilisateur dans sa recherche de manière récursive. Les Hommes ne peuvent pas voler. Les agents intelligents Les machines. de découverte et d’exploration. au sens large du terme. pour identifier les sites des entreprises dans un domaine donné. mais ils inventent et construisent des machines pour ce faire. Les résultats des recherches des utilisateurs sont meilleurs dans un système dans lequel les documents sont systématiquement indexés et référencés à priori selon une procédure générale en se posant la même question (cf. à proprement parler.

à quel domaine d’activité ils appartiennent.afnor. S’agissant d’informations. des fonctions automatiques de traitement.1. pour le compte desquels elle agit. Un agent23 est une entité physique ou virtuelle qui [5]: 21 22 23 IIS – Institut for Intelligent Systems / University of Menphis – USA : http://mnemosyne. que les méthodes et les outils de recherche de données réparties à travers le Web sont parfois insuffisants et ne permettent pas d’y accéder. d'un groupe ou d'un pays. Stan Franklin et Art Graesser de « l'Institut for 21 Intelligent Systems » de l'université de Memphis en recensent une bonne douzaine au sein de la communauté scientifique [4]. au cours du temps. de contrôle. La tentation est grande donc de chercher à concevoir des machines pour chaque « chose » que l’Homme ne sait pas faire ou fait difficilement. la Communication prend une part majeure dans la problématique de l’accès aux données réparties sur le Web. Les opérateurs humains qui s’attachent à la résolution de ce problème de non-accès aux données réparties mettent aux points des outils nommés par eux « agents intelligents ».fr D’après Jacques Ferber / Les systèmes multi-agents / InterEditions Probatoire session janvier 2004 p 13 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) .un mécanisme d'apprentissage. Introduction à l’intelligence artificielle et aux agents 2. lui permettant d’effectuer des déductions plus ou moins complexes. Ces notions nous permettront de voir et mieux aborder dans le chapitre suivant (section 3) quelles sont les contributions que les agents intelligents peuvent apporter à la recherche de données réparties à travers le Web.psyc. Un dictionnaire généraliste qualifie un agent de « personne chargée des affaires et des intérêts d'un individu. Ce chapitre vise à présenter les notions essentielles permettant de comprendre ce que sont et ce que peuvent réaliser les agents intelligents.memphis.1.dépassent celles des Hommes et accroissent leur capacité d’action. section 1. . pour le sujet qui nous concerne. se comporte comme un sous-système capable d'apprentissage : il enrichit le système qui l'utilise en ajoutant. ce qui est certainement une des finalités du Web. Les définitions les plus restrictives proviennent des milieux de l'intelligence artificielle. Face aux nombres de définitions existantes des agents intelligents. 2.une base de connaissance prédéfinie. . . et c’est ce qui nous intéresse le plus dans ce rapport. quelles sont les différentes formes qu’ils prennent et enfin quelles en sont les caractéristiques communes. Un dictionnaire américain le qualifie « d'entité autorisée à agir pour le compte de quelqu'un » (« An entity authorized to act on another's behalf ») [4]. laissant espérer la réalisation de tâches autrement impossibles. Nous avons vu.edu/iis/index.csl. L'association française de normalisation (AFNOR22) pour sa part les définit ainsi : « Objet utilisant les techniques de l'intelligence artificielle : il adapte son comportement à son environnement et en mémorisant ses expériences. Définitions des agents intelligents Un agent intelligent est en premier lieu un agent. les capacités des ordinateurs sont les seules à même de permettre un accès universel. Vu le volume des ressources concernées (cf.un système d'acquisition de connaissances. un agent intelligent est le produit d’une discipline reconnue qui est l’intelligence artificielle (IA). Sinon. Nous verrons donc différentes définitions qui sont données aux agents intelligents. l'habitude a été prise de définir un agent plutôt par ses propriétés.un moteur d'inférence. Un agent intelligent contient un ou plusieurs des éléments suivants [4]: . L’ordinateur exécute des tâches que l’Homme peut souvent réaliser mais qui l’aliènent et réalise des calculs qui dépassent les capacités humaines grâce à sa rapidité et sa puissance de calcul et qui ne pourraient se faire autrement.htm AFNOR : http://www.1).1. Il n'y a pas cependant d'accord sur une définition précise. » (dictionnaire Robert). de mémorisation ou de transfert d'information » [4].

c’est à dire d’une intelligence développée à la manière de la machine. les machines. avant cela il est nécessaire d’aborder en quoi consiste l’intelligence artificielle dont sont dérivés les agents intelligents. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 14 . on peut voir l’intelligence comme une liste de fonctions. reconnaître en est une seconde intimement liée. .est capable de percevoir son environnement et de s'adapter à ses modifications. [7]. 2.peut communiquer avec d'autres agents. Dire en quoi consiste l’intelligence artificielle par rapport à l’intelligence humaine.est capable d'agir dans son environnement.. L’ordinateur sait déjà calculer et mémoriser. C’est aussi le domaine du Traitement Automatisé du Langage Naturel (TALN) qui est une des voies de développement important de l’intelligence artificielle. L’intelligence artificielle Sources : [6].possède des ressources propres.1. elles commencent à produire des raisonnements qui assistent les Hommes dans leurs opérations (systèmes d’inférences et systèmes experts). mais dont le résultat est identique. . car rigoureusement pré-établie. et consécutivement. de reconnaissance visuelle ou vocale en sont les témoins. généralement pourvues de capacités plus faibles. Les logiciels savent aussi communiquer.4. de manière isolée. On accepte communément que tous les mécanismes d’intelligence artificielle contemporains obéissent à une IA faible. philosophes) ne peuvent la décrire complètement. Aussi certains programmes informatiques qui font des traitements automatiques font déjà preuve d’une certaine intelligence. On développe donc des « chatbots » ou encore robots conversationnels pour approfondir ce domaine. petit à petit. . Ce sont deux fonctions de l’intelligence humaine. Cependant. certainement différente de la manière de la nature. il s’agit d’intelligence artificielle. à la capacité d’apprendre. Mais.ne dispose que d'une représentation partielle de son environnement. Pour dépasser ce débat entre intelligence artificielle et intelligence naturelle. voir celle de la Vie. et de ce point de vue. aussi faire des machines et des programmes qui agissent comme un Homme est illusoire. Le test de Turing vise à déterminer cette intelligence. dans sa globalité. . On reconnaîtra aux agents logiciels une réelle intelligence lorsqu’ils répondront d’une manière telle que nous ne saurons pas la différencier de la manière d’un autre humain. On développe aussi des programmes de traduction automatisée des langues (TAL). voir inutile. Raisonner est certainement une des plus hautes fonctions de l’intelligence. Ils communiquent entre eux (en utilisant des protocoles de communication) et avec les utilisateurs (via les Interfaces Homme-Machine .IHM). là aussi.possède des compétences et offre des services. La perception de l’environnement est liée à l’intelligence.est doué d'autonomie et est mu par un ensemble de tendances (objectifs individuels). . l’est encore plus. psychologues. . les machines sont encore aujourd’hui loin de nous. Les systèmes. pour le moment. sont très différentes des Hommes et du monde vivant en général. . L’intelligence est très liée tout d’abord à la connaissance. Le but de l’intelligence artificielle est de dépasser les limites de l’Homme. Toutefois. même si cette communication peut paraître rudimentaire. utilisant les réseaux de neurones. La capacité d’apprentissage est au cœur de l’intelligence artificielle. les machines commencent à pouvoir imiter la nature. Connaître est une fonction. et encore moins la reproduire. La conscience.2. La conscience est pourtant une des formes les plus importantes de l’intelligence et limite certainement la progression de la discipline qu’est l’intelligence artificielle. est un phénomène mystérieux encore et les personnes s’attachant à en expliquer les contours (neurologues. là encore. Nous développerons plus en détail ces propriétés dans la section 2. L’intelligence est aussi liée au langage. En cela. avec les sciences cognitives. Quand une fonction de l’intelligence est reproduite par une machine et un programme. Déterminer ce qu’est exactement l’intelligence est déjà un exercice polémique.peut éventuellement se reproduire. On peut distinguer une IA forte et une IA faible.

alors que cela me suggère-t-il ? ». Les programmes informatiques utilisent des instructions conditionnelles comme « SI…ALORS ». C’est pourquoi l’approche descendante. les faits que l’on connaît sont : .1976 Probatoire session janvier 2004 p 15 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . c’est à dire en effectuant des actions qui correspondent à un ou plusieurs objectifs assignés et ceci de manière efficace. 4. L’intelligence artificielle vise ainsi aujourd’hui à : 1. cela et encore cela.L’intelligence doit permettre aux logiciels agents de faire preuve d’autonomie et de pouvoir prendre des décisions seuls.1. 2. mais si celles si sont prévues.2. A titre d’exemple. convient à la déduction et l’aide à la décision. 2. développer des systèmes de reconnaissances de formes . Approche descendante Avec la déduction programmée et l’aide à la décision. les systèmes descendants sont très performants pour des tâches de raisonnement logique (pour les jeux entre autres). développer des agents conversationnels et des programmes de traduction automatique des langues . ou encore approche déductive. Un des problèmes les plus délicats de l’IA est de programmer l’intentionnalité qui sous-tend les actions des humains. 24 Définition du mot inférence – Dictionnaire Robert . développer des systèmes experts et de résolution de problèmes. Ils peuvent porter le nom de moteur d’inférence. Les robots seront vraiment intelligents lorsqu’ils sauront eux-même se programmer. disons : « si cela marche comme un canard. Dans cette expression. basés sur l’expérimentation et l’observation avec l’approche ascendante répondent aux objectifs 1 et 2. alors c’est probablement un canard ». mais nettement moins pour des tâches d’apprentissage flexibles. Les agents intelligents au service de l’accès aux données réparties à travers le Web répondent aux objectifs 3 et 4 et font plus partie de l’approche descendante de l’intelligence artificielle. qui va du général vers le particulier. Pour l’instant. Inférer peut être illustré de manière générale dans les termes suivants : « si je sais ceci. La rétroaction avec des utilisateurs humains est donc nécessaire aujourd’hui pour permettre aux agents existants de pouvoir continuer à fonctionner intelligemment. Ces moteurs appliquent des règles à des faits et des données pour déduire de nouveaux faits ou données. 3. ils se contentent d’être des assistants dans l’exécution de tâches complexes et / ou lourdes. on peut attendre des comportements complexes en sortie. pour faire « mieux » que les Hommes. La difficulté consiste à ne permettre aux agents intelligents de ne retenir que ce qui est significatif dans ce qu’ils peuvent « percevoir ». c’est à dire dans ce qu’ils peuvent recevoir comme informations. qui permettent à l’ordinateur de traiter différentes parties d’un programme en fonction de ses entrées. voir se reprogrammer. 2. un programme répond intelligemment à différentes entrées. cancane comme un canard et ressemble à un canard.2. Avec des instructions conditionnelles. Les programmes informatiques peuvent réaliser cette opération. basée sur la logique. Les systèmes inductifs. Systèmes d’inférence Source : [8] Introduction à l’inférence L’inférence est une opération logique par laquelle on admet une proposition en vertu de sa liaison avec d’autres propositions déjà tenues pour vraies24.marche comme un canard. construire des robots capables d’effectuer des actions dans des conditions surhumaines (astronautique par exemple) . Si on complexifie les programmes informatiques.

c’est à dire identifié de manière formelle. Notons à ce stade. à partir de données ou de méta données qui sont. au lieu de la pondérer avec la règle simpliste qui consiste à dire que toutes les assertions sont à 100% vraie ou fausse.. par cela on peut aussi traduire que si A est vrai alors B est aussi vrai. peut aussi permettre à un ordinateur de reconnaître et de traiter l’entité (un ensemble de données et de faits) à laquelle il est confronté sans que celle ci soit identifiée formellement dans une variable prédéfinie et connue de lui. comme avec l’expression au sujet du canard. Inférer permet à un programme informatique de reconnaître des ensembles sans que ceux ci lui soient présentés de manière explicite et comprise à priori par lui. Ce sont ce que les logiciens appellent des antécédents et ce qu’un programme informatique appellerait intrants (inputs). si toutes les conditions antécédentes sont vraies alors nous pouvons statuer que la conséquence est aussi à 100% vraie. souvent écrit en LISP ou en PROLOG. consistaient en des séries de règles de logique simple qui pouvaient être appliquées. qui nous permet. cela signifie que la l’inférence ne peut pas être à 100% vraie. nous introduisons le concept de « OU ALORS SI » ("Else If"). à nous humains. . Ces premiers systèmes.2. « canard ».cancane comme un canard. ou autrement dit à 100% vrai ou 100% faux. Si nous omettons de dire « probablement ». explicites. Cela induit une nuance qui peut être traduite par le fait que la probabilité que cela ne soit pas un canard est faible. Cela peut être exprimé en pseudo-code comme suit : SI ET ET ALORS objetx objetx objetx objetx (marche comme un canard) (cancane comme un canard) (ressemble à un canard) EST ["un canard"] Maintenant. En logique classique. est d’inclure la possibilité d’erreur ou celle d’incomplétude (en absence d’information supplémentaire et discriminante). qu’inférer permet à un programme de détecter des données qui sont implicites. Cela implique à la fois une connaissance et une logique parfaites (totales). prenant la forme : Si A alors B Ou Si C alors D Ou Si … Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 16 . L’inférence « c’est probablement un canard » appelle un commentaire supplémentaire. cela signifie que notre conclusion est soit vraie ou fausse. de savoir que nous sommes en face d’un canard sans qu’il soit besoin qu’il soit étiqueté. Cela peut être exprimé en pseudo-code ainsi : SI ET ET ALORS objetx objetx objetx objetx (marche comme un canard) (cancane comme un canard) (ressemble à un canard) EST PROBABLEMENT ["un canard"] Une des manières dont nous raisonnons avec les assertions que nous pouvons faire. En appliquant la logique conditionnelle algébrique en cascade. Systèmes de raisonnement Comme mentionné en introduction de cette section 2. si nous regardons l’expression en y incluant le mot « probablement ». Il peut traiter alors des données sous-entendues mais pas formellement prévues. Un programme peut alors détecter des informations tacites à travers des traitements d’inférence. les premiers « systèmes de raisonnement » étaient basés sur des conditions de logique algébrique simple du type : Si A alors B Cela pourrait être traduit par « A implique B » . L’inférence.ressemble à un canard. elles. Ils sont admis.

Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 17 . ou autrement dit de la complexité du programme associé. L’espace d’assertion est la mémoire (active) collective de la base de connaissance. Quand une règle est activée. Cela rend les valeurs (ou contenus) des assertions de la base d’assertion issues des cycles précédents disponibles pour chaque règle lorsque le moteur itère dans un nouveau cycle. Lorsqu’une règle est activée. Si la condition "Si A alors B" (l’antécédent) est vraie alors la règle est activée (« fired »). ce résultat est oublié. bien que compacte et rapide à exécuter. le résultat est classiquement oublié de toute façon. cette approche. Le moteur d’un système expert est capable d’examiner n’importe quelle règle. chacune des conditions ("SI") agit de manière isolée en fonction de la place qu’occupe le bloc conditionnel dans le programme. Systèmes experts Les déclarations d’inférence et les mécanismes utilisés dans les systèmes experts diffèrent de ceux utilisés dans les systèmes de raisonnement vus préalablement. Les systèmes experts utilisent parfois la logique floue pour effectuer leurs traitements. Une des manières dont le système expert obtient ses réponses est de continuer à itérer à travers les règles dans la base de connaissance jusqu’à ce qu’aucune nouvelle assertion ne puisse être faite. l’information conséquente est placée dans une base d’assertion. En effet. les engins itèrent à travers toutes les règles à chaque cycle d’inférence. De cette manière. Quand le programme est exécuté. avec toutes ses conséquences possibles. les capacités déductives de l’intelligence artificielle descendante sont souvent appliquées au sein de systèmes experts (SE). Actuellement. c’est à dire quand ses antécédents ou conditions sont vraies.2. A la fin de la session du système de raisonnement. Une des manières complémentaires d’arriver aux réponses est aussi d’interagir avec l’utilisateur en lui posant des questions complémentaires afin de restreindre le champ des possibilités ou en demandant des confirmations.2. mais s’appuient sur des probabilités avec les risques d’erreur que cela comporte. 2. S’il est possible de choisir cette approche dans les systèmes d’inférence. alors elle peut produire une assertion. L’accroissement des capacités des ordinateurs (vitesses de traitements et capacités de stockage) permet d’augmenter les bases de connaissance et l’efficacité des programmes SE. C’est à dire qu’ils n’utilisent pas forcément des valeurs discrètes comme les valeurs booléennes de vrai ou faux (voir sous-chapitre intitulé « Introduction à l’inférence » page 15) pour fabriquer leur assertion. Le système expert diffère de ce point de vue car les règles sont stockées dans une base de connaissance. le moteur itère à travers toutes les règles. Cet espace d’assertion est visible par toutes les règles de la base de connaissance et est automatiquement examiné par le moteur de recherche alors qu’il itère à travers les règles pendant les étapes de l’inférence. L’avantage est d’étendre les possibilités de déduction du système et d’arriver à des solutions. Si le résultat des traitements contenus dans un bloc conditionnel n’est pas enregistré dans une variable globale ou traité par les blocs de traitement suivant. une des conséquences peut être aussi une rétractation et les informations liées sont retirées de la base d’assertion. apportant ou non sa contribution à la solution.Cette forme de logique peut être mise en œuvre dans les langages de programmation par les opérateurs de traitement "Switch" ou "Case". ou tout du moins des propositions de solutions. essentiellement dédiés à l’analyse de base de données. en tenant compte évidemment des restrictions de temps imparti au traitement (time-out). Dans les systèmes experts. est difficile à maintenir dans des cas de problèmes réels à cause de la complexité de la structure du graphe conséquent. Dans l’approche précédente. Le système de raisonnement classique atteint une conclusion et est capable de l’oublier immédiatement après [8]. c’est uniquement dans le cas de problèmes simples (par opposition à complexes).

Les applications du traitement du langage naturel sont les programmes conversationnels : en y associant la reconnaissance et la synthèse vocale. Il faut aussi pouvoir traiter par exemple les notions propres aux métonymies. C’est d’ailleurs pourquoi les moteurs de recherche se sont vus affectés le terme de robots ou encore d’agents et que certains considèrent que les moteurs de recherche sont des agents intelligents. Enfin.3) et du filtrage des mots fonctionnels (mots stop) [10]. Les systèmes experts sont utilisés actuellement comme outils d’aide à l’identification des espèces végétales et animales ou comme outil de diagnostic de maladies en médecine. Ces traitements permettent par exemple de classer des documents par mots clés ou par catégorie. au contexte de la communication et traiter aussi les problèmes d’ambiguïté du langage : synonymie et homonymie. Le traitement du langage naturel pour d’autres applications Certains traitements du langage naturel limités sont nécessaires pour la recherche d’information. Il faut dire que le langage humain est plus complexe que le langage formel sur lequel est basé le TALN. on approche la communication de type humaine. La traduction automatisée des langues (TAL) est aussi une application. aux litotes. Les résultats restent toutefois approximatifs.2). Ces traitements sont par ailleurs utilisés par les moteurs de recherche (cf. C’est d’ailleurs pourquoi on classe le TALN dans l’approche descendante de l’IA. aux métaphores. aux anaphores. Le traitement du langage naturel pour communiquer [7] [9] On espère ainsi que les ordinateurs comprennent les phrases. c’est un modèle de représentation sur lequel un langage formel peut être construit. section 3. Chaque phrase peut être décomposée en expressions. Des traitements complémentaires permettent d’améliorer ces traitements. 2. et chaque expression en petites parties. Une approche de ces traitements sera développée dans la section 3. voir insuffisants dans certains cas. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 18 . Il s’agit de la lemmatisation (cf. On utilise alors une grammaire logique où l’analyse syntaxique est réduite à l’inférence logique.2. jusqu’à ce qu’il soit possible d’identifier la fonction de chaque mot.2 de ce rapport. La grammaire spécifie la structure des messages . et de « donner » un sens à la phrase. section 1.1. Le TALN est basé sur la grammaire.La base de connaissance est le fondement du système expert. la traduction automatique du langage est utilisée par les moteurs de recherche pour les recherches d’informations multilingues. de regrouper les mots en terme ou d’analyser des documents afin de les indexer. Le personnel de l’assistance par téléphone utilise de plus en plus des systèmes experts pour traiter plus efficacement les problèmes des clients. les traduisent dans n’importe quel autre langage et puissent aussi en générer. Tout accroissement de ces bases de connaissances améliore et accroît les capacités des systèmes experts. Traitement du langage naturel Le traitement automatisé du langage naturel (TALN) est une fin en soi dans les domaines d’application de l’intelligence artificielle. Il est attendu en effet que l’IA permette la communication entre humain et machine de manière naturelle pour l’humain. On essaie donc par ailleurs d’effectuer des traitements d’analyse sémantique.3. Le processus est le suivant. Il s’agit de desambigüer les mots.

De plus. quand il s’agit de documents écrits. peuvent être interprétés avec les règles de la logique. Le Perceptron. Le résultat de l’apprentissage des réseaux de neurones peut être formalisé par un algorithme. Cette formule peut trouver des relations dans de grandes quantités d’informations que Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 19 . et par restriction l’intelligence humaine (cf. Ce mécanisme s’appelle la rétropropagation. Les réseaux de neurones à base de rétropropagation sont très utilisés pour la reconnaissance de formes. contrairement à ce qui existe dans la nature.les situations du monde réel – ne peuvent être formalisés. L’intelligence artificielle est aussi conçue comme étant l’imitation de ce qu’est l’intelligence naturelle. Un des buts de l’IA est donc d’appliquer les résultats de la science cognitive afin que les agents intelligents puissent apprendre de manière autonome. La science cognitive est une science qui vise à établir et maîtriser les processus en jeu dans l’acquisition de connaissances et de compétences. 2. L’inférence est un des mécanismes qui permet d’élargir les connaissances des agents intelligents.3. notamment sur le Web. dans lesquels toute connaissance est prédéfinie. des financiers utilisent des réseaux neuronaux qui repèrent la tendance du marché comme outil d’aide à la décision d’investissement [7]. L’approche ascendante s’appuie sur l’expérimentation. Des astronomes emploient ces réseaux pour classifier les galaxies lointaines . ce qui explique par exemple. et les signaux issus de cette cellule étaient transmis à un petit réseau de neurones artificiels. Après avoir exposé le Perceptron à des exemples de lettres de l’alphabet. Les réseaux de neurones résultent d’une approche visant à imiter le fonctionnement du cerveau humain et s’adossent donc sur la neurologie et par extension la biologie. une machine inventée par Franck Rosenblatt. considéré comme une gigantesque base de données mais non structurées. Le traitement automatisé du langage naturel est un des moyens dont ils disposent pour exploiter les sources d’informations écrites. on peut nuancer les réponses d’un réseau neuronal en utilisant la logique floue (voir aussi « logique floue » page 17). on peut dire que les neurones biologiques établissent des circuits similaires à des circuits électroniques. ces dernières que nous allons maintenant aborder. des chercheurs s’en servent pour des systèmes de reconnaissance de visages et de véhicules . Mais les systèmes « ouverts » . L’apprentissage du réseau de neurones permet d’affecter un poids (coefficient) aux circuits établis et corrige les erreurs possibles lorsque l’appareil passe de formes simples (canoniques) à des formes plus complexes que l’on peut trouver dans la nature et qu’il reconnaît mal.1. s’inspire du mécanisme de la vision humaine. ils peuvent. Les réseaux de neurones peuvent fonctionner de manière distribuée et en parallèle. L’excitation de certains des circuits lors d’opérations particulières (stimulations) reçoivent une signification précisée lors de l’apprentissage de la machine.2). retourner des erreurs en affaiblissant le poids de circuits. Une des marges de progrès est donc de coupler les différentes approches et disciplines de l’intelligence artificielle. Approche ascendante : réseaux de neurones L’approche de l’intelligence artificielle est incomplète si nous ne faisons pas mention de l’approche ascendante à travers son application majeure que sont les réseaux de neurones.4. pourquoi les robots conversationnels n’interagissent pas très bien avec les humains pour le moment. Ils peuvent exister en tant que composant matériel autonome ou être simulés de manière logicielle. l’appareil apprit à les distinguer. section 2. Grossièrement. Le perceptron était connecté à la sortie d’une cellule photosensible. De nombreux chercheurs pensent que la seule façon de construire une véritable forme d’intelligence est de permettre à un système d’appréhender et d’expérimenter le monde par lui-même. Une approche complémentaire parfois utilisée est de réduire l’apprentissage des réseaux de neurones en le substituant à un apprentissage non dirigé en autoorganisation.2. Les réseaux de neurones électroniques sont des circuits pré-établis mais sans objectifs définis à priori. et notamment les approches descendantes et ascendantes.2. Perspectives Les systèmes fermés. De plus. Aujourd’hui les réseaux de neurones disposent de trois couches de neurones afin d’augmenter leurs capacités d’adaptation.

Le réseau bayésien est un type de réseau à auto-organisation. Voyons comment un agent intelligent met en œuvre les principes que nous venons d’aborder jusqu’à maintenant en parlant d’intelligence artificielle en décrivant ses propriétés. et intégrer les nouvelles demandes ou suggestions de l’opérateur humain. Probatoire session janvier 2004 p 20 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . qui peut être composé d’autres agents. avec des serveurs. la gestion de multiples méthodes d’encodage des messages et la localisation des agents et de leurs services via des répertoires (annuaires) de services. Propriétés générales Les promoteurs de la notion d’agent intelligent s’accordent pour dire qu’au minimum quatre caractéristiques sont nécessaires pour les définir et marquer leur différence avec d’autres outils de recherche [1] [4]. Cette adaptation doit s’appuyer sur une analyse permanente de cet environnement extérieur. Capacité à raisonner. à réagir à leur environnement L’agent doit être capable de s’adapter à son environnement et aux évolutions de celui-ci.4. Les réseaux bayésiens déduisent des modèles à partir de situations où une grande partie de l’information manque. L’interopérabilité est au cœur de la définition des agents intelligents logiciels. sont suffisamment riches pour disposer d’une autonomie propre. notamment les réseaux sans fil. Les travaux de Searle sur le langage et sa mise en oeuvre par des machines sont une des références en IA. Les agents ont donc un comportement générique qui doit pouvoir être reproduit sur tout type de plate-forme et à travers tout type de réseau. Propriétés et architecture d’un agent intelligent Les propriétés des agents se conçoivent notamment dans le cadre d’un système multi-agents. dont il est capable. 1969).. Cette autonomie est acquise grâce à l’interaction avec d’autres agents qui lui permettent de confirmer ou infirmer des hypothèses par exemple.4. 25 Les actes de communication font référence aux travaux de John Searle. L’architecture des agents est conçue pour que ceux-ci puissent être mis en œuvre et communiquer à partir de n’importe quel type de machine. Capacité à communiquer et à coopérer L’agent doit donc pouvoir échanger des informations plus ou moins complexes avec d’autres agents.l’on ne pourrait jamais identifier. Un agent doit non seulement interagir avec un humain à travers les interfaces HommeMachine (IHM) classiques mais aussi avec d’autres agents. du Web en général ou des utilisateurs. L’architecture prend en compte la gestion de multiples méthodes de transport des messages. Cambridge University Press. La mobilité Les agents doivent pouvoir être multi-plates-formes et multi-architectures et être aptes à se déplacer sur le réseau où ils accomplissent des tâches. Ses propriétés se définissent complètement s’il est amené à travailler en coopération avec d’autres agents.1.R. J. synthétisés dans son ouvrage « Speech acts » en 1969 (Searle. sans que l’utilisateur ait le moindre contrôle sur cellesci. Speech Acts. 2. Autonomie L’agent doit pouvoir prendre des initiatives et agir sans intervention de l’utilisateur final. Les « actes de communication25 » avec d’autres agents. 2.

Agents et services Les agents communiquent en échangeant des messages qui représentent des actes de communications et qui sont encodés dans une langue (de communication) d’agent (ACL . En plus du nombre des services standard incluant les services de répertoire d’agent (agent-directory-services) et les services de transport de message (message-transport-services). Ils ne peuvent pas par exemple arbitrairement refuser de fournir le service. qui formalisent la connaissance et le sens du contenu du message de manière explicite. Architecture d’un agent intelligent La communication (de messages) est au cœur de l’intelligence développée par les agents. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 21 .1). autrement dit qui va agir en son nom. L’architecture abstraite de la FIPA est volontairement neutre sur la manière dont les services doivent être présentés. un agent est un programme (processus) informatique qui réalise la fonctionnalité de communication autonome d’une application . Cela implique que ces agents ne doivent pas avoir le degré d’autonomie normalement attribué aux agents. En général.4. Les services de répertoire d’agent (agent-directory-service) Le rôle de base d’un service de répertoire d’agent (agent-directory-service) est de fournir un endroit où les agents (agent) enregistrent leur description dans une entrée de répertoire d’agent (agent-directory-entries). On retrouve la définition d’un agent (cf. 26 Définition : Une ontologie établit une terminologie commune. Ces membres peuvent être humains ou des agents artificiels.agentcommunication-language28).2. Ces éléments sont repris dans un tableau en annexe page 36. C++ ou IDL. Les ontologies représentent un champ de recherche bien établi en philosophie et intelligence artificielle… 27 FIPA – Foundation for Intelligent Physical Agents : http://www.org 28 Chaque mot entre paranthèses et en police de caractères « courier new 10 points » font references aux elements de l’architecture abstraite des agents de la FIPA repris en annexe page 36. agent-directory-services et service-directory-services). le répertoire de service et le répertoire d’agent (message-transport-services. plus un consensus sur son interprétation entre des membres d’une communauté de communication. un agent doit être enregistré dans un service initial (service-root) auprès d’un répertoire de service (service-directory-service) qui fournit en retour un ensemble d’adresses (service-locators) pour les services de base du cycle de vie d’un agent tels que le transport de message. L’interopérabilité vient renforcer les capacités de communication des agents. ou ce premier fournit des pointeurs (références) vers d’autres services qui décriront ces services. En particulier. Les services fournissent des services aux agents. Démarrage d’un agent Au démarrage.2. Un agent fournissant un service est plus contraint dans son comportement qu’un agent à vocation générale. Ce langage peut s’appuyer sur une ou 26 plusieurs ontologies .fipa. Pour la FIPA27. les agents (de service) doivent préserver la sémantique du service.1. Une des composantes majeure de la communication est le langage. Pour cela un ensemble d’éléments d’architecture et leurs relations est spécifié. le service initial fournit suffisamment d’entrées pour décrire tous les services disponibles avec l’agent. l’architecture abstraite de la FIPA définit un modèle (schéma) de service général qui comprend un service de répertoire de services (servicedirectory-service). Ils peuvent être mis en œuvre en tant qu’agents ou comme logiciels accessibles via l’invocation de méthode en utilisant des API telles que celles fournies par Java. L’architecture abstraite [11] d’un agent définie par la FIPA spécifie comment deux agents peuvent se localiser et communiquer l’un avec l’autre en s’enregistrant (auprès d’un répertoire d’agent) et en échangeant des messages. D’autres agents peuvent chercher les entrées de répertoire d’agent pour trouver et sélectionner des agents avec lesquels ils désirent interagir. section 2.

fipa. une adresse spécifique au transport (transport-specific-adress) et zéro ou plusieurs propriétés spécifiques au transport (transport-specific-property). des agents et des services peuvent interroger un répertoire de service pour localiser des services appropriés à leurs besoins. L’appel de service est constitué d’un ou plusieurs enregistrements contenant les éléments suivants : un type de signature (signature-type). etc. Les entrées d’un répertoire de service sont des descriptions de services consistant en un enregistrement contenant un nom de service (service-name). Voir : FIPA ACL Message Structure Specification / standard / 2002-12-03 / FIPA TC Communication / accessible à l’URL http://www. comme FIPA ACL. SL31 ou RDF32. L’emplacement de l’agent est défini par une ou plusieurs descriptions de transport (transportdescription). les restrictions d’utilisation de l’agent. Voir FIPA SL Content Language Specification à l’URL http://www. chaque service de répertoire de service doit fournir au démarrage des agents un service initial (service-root) qui prend la forme d’un ensemble d’appel de service (service-locator) incluant au moins un service de répertoire de service (pointant sur lui-même). La structure de transport est utilisée pour communiquer avec l’agent. un répertoire de service offre un emplacement où les services peuvent enregistrer leurs descriptions en tant qu’entrée de répertoire de service (service-directory-entry). comme pour les agents. une signature de service (service-signature) et une adresse de service (service-adress). chacune d’elle étant une structure auto-descriptive contenant un type de transport (transport-type). Les agents peuvent utiliser le service de répertoire d’agent pour localiser un agent avec lequel ils désirent communiquer. Les trois aspects fondamentaux de la communication de messages entre agents sont : la structure du message. L’appel de service est une structure typée qui peut être utilisée par les services ou les agents pour accéder au service. un type de service (service-type). Les expressions du contenu d’un message peuvent s’appuyer sur des ontologies référencées dans un enregistrement spécifique aux ontologies33 (ontology).html 30 KIF – Knowledge Interchange Format. De même. Le type de service indique la catégorie de service. un appel (emplacement) de service (service-locator) et un ensemble d’attributs de services optionnels (service-attributes). les agents communiquent entre eux en envoyant des messages (message). En plus.org/specs/fipa00061/SC00061G. La structure d’un message29 correspond à un enregistrement et est écrit en langue (de communication) d’agent (agent-communication-language).Une entrée de répertoire d’agent est un enregistrement constitué de deux éléments : le nom de l’agent (agent-name) et son emplacement (adresse – agent-locator)..fipa. Le service de répertoire de services est analogue mais aussi différent des services de répertoire d’agent. Le premier sert à la découverte de services alors que le second est dédié à la découverte d’agents. la représentation du message et le transport du message. Par ailleurs. le coût associé à l’utilisation de l’agent. Concrètement. Le nom de l’agent doit être unique. Le nom de service doit être unique. Le contenu du message (content) est exprimé dans un langage de contenu (content-language) comme KIF30. Messages d’agent Dans les systèmes d’agents de la FIPA.org/specs/fipa00010/ 31 SL – Semantic Language.fipa. Un agent s’enregistre auprès d’un répertoire d’agent en construisant son entrée et en la proposant à un service de répertoire d’agent. Services de répertoire de service (service-directory-service) Le rôle de base d’un service de répertoire de service est de fournir des moyens cohérents par lesquels des agents ou des services peuvent découvrir des services (service). Voir FIPA KIF Content Language Specification à l’URL http://www.org/specs/fipa00008/ Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 22 29 . l’entrée de répertoire d’agent peut contenir d’autres attributs descriptifs comme les services offerts par l’agent.

html . En guise de perspectives. Leurs connaissances peuvent être formalisées et partageables grâce aux ontologies.org/specs/fipa00037/SC00037J.org/ Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 23 . Si les agents intelligents ont des fonctionnements similaires qui font qu’ils appartiennent au même type d’application.org/repository/aclspecs. la confirmation d’une proposition incertaine et la contradiction34. Conclusion L’aperçu que nous venons d’opérer à propos des agents intelligents dans cette section montre que les agents intelligents offrent de réelles perspectives pour réaliser des tâches difficiles. Le cas de zéro (aucun) récepteurs permet la diffusion à tous (broadcasting) de message comme nécessaire dans les réseaux sans-fil. 2.org/specs/fipa00011/ 33 FIPA Ontology Service Specification / Experimental / 2001-08-10 / FIPA Architecture Board / accessible à l’URL http://www.2) des agents en sont les exemples les plus aboutis. 37 FIPA Agent Management Specifications : http://www. ils sont dédiés à des tâches avec des objectifs différents pour chacun d’eux.org/repository/managementspecs. Aujourd’hui les techniques multiagents opèrent dans des projets d’informatiques distribuées. coûteuses.html 34 FIPA Communicative Act Library Specification / Standard / 2002-12-06 / FIPA TC Communication / accessible à l’URL http://www. Les actes de communication primitifs sont l’assertion informative. la demande directive. L’enveloppe (Envelope) dans les messages de transport sert à préciser des informations permettant de garantir la validité du message (toute modification du message pendant la transmission peut être identifiable) et son encryptage (sécurité). Il s’agit du projet Agentcities38 qui a démontré que les agents intelligents répondaient à leurs objectifs (découverte dynamique des agents entre eux..Le message contient aussi les noms de l’expéditeur et du destinataire.html 38 Agentcities Web : http://www. le langage sémantique31 permet aux agents d’utiliser une grammaire formelle leur permettant d’exprimer des actions relatives à leurs connaissances. Pour être considérée comme conforme aux spécifications d’un agent intelligent de la FIPA.1 et 2. Des agents qui peuvent théoriquement interagir n’ont aucune raison de le faire au regard de leurs objectifs 32 RDF – Resource Description Framework. établissement de communications et de relations d’affaire satisfaisant à des besoins d’entreprises et d’utilisateurs finaux). Les interactions pré-établies font l’objet de protocoles d’interactions35.4. Cela montre l’importance de la communication dans la définition pratique d’un agent intelligent.fipa. Les agents intelligents offrent des avantages significatifs s’ils font partie d’un système multi-agent afin de maximiser leurs capacités de communication et d’adaptation. Voir FIPA RDF Content Language Specification à l’URL http://www.org/repository/ips.2) et les capacités de communications (section 2.2.2. Chaque message a un émetteur et zéro ou plusieurs récepteurs.5.org/specs/fipa00086/XC00086D.agentcities.fipa. La langue ACL peut exprimer jusqu’à 22 actes de communication différents.php3 36 FIPA Agent communication language specifications : http://www. Ces specifications reprennent les spécifications mentionnées dans les notes de bas de page n° 27 à 33 de ce document. Les messages peuvent récursivement contenir d’autres messages. repris sous le vocable de « grid computing ». La communication inter-agents est une suite de messages. exprimés avec les valeurs de la variable agent-name.fipa. une plateforme agent doit au moins mettre en œuvre les spécifications de langue de communication d’agent 36 37 (ACL) et celles de la gestion des agents .fipa. L’intelligence des agents se situe particulièrement au niveau des messages.html 35 Voir FIPA Interaction protocol specifications / http://www. Les messages sont contenus dans des messages de transport (transport-message) quand les messages sont envoyés d’un agent à un autre. Les systèmes d’inférences (sections 2. De la même manière.fipa. Les messages de transports sont spécifiques de chaque transport (transport) utilisé et spécifié dans l’entrée de l’agent dans le répertoire d’agent (agent-locator).fipa. mentionnons le fait que les agents ont été mis en oeuvre à grande échelle dans une expérimentation visant à mettre en réseau plusieurs systèmes agents. voir impossible autrement.

1 et section 2. Ne parlons pas de la recherche d’information multilingue tant le nombre de langues humaines utilisées est important. n’ont jamais été mises en œuvre conjointement dans une même famille d’outil. s’ils sont capables d’être intelligent.3). ce qui signifie que leur utilisation ne sera pas forcement gratuite. peuvent-ils interopérer avec ceux qui sont conformes ? Il faut aussi que les langues de communication d’agent (ACL) qui sont donc des langages formels se rapprochent des langues humaines. De plus. la veille informative. ensuite maintenir. L’architecture des agents intelligents est telle qu’elle permet théoriquement ce rapprochement. les tentatives des agents intelligents pour indexer le Web et permettre un accès et des recherches rapides et efficaces aux données resteront approximatives. ces répertoires d’agents.2. Le temps permettra certainement de mieux harmoniser les données « humaines » et celles nécessaires aux machines. il en existe plusieurs entre d’autres langues. acceptons aussi leurs faiblesses : ils ne peuvent pas tout faire simultanément. Il n'en reste pas moins que ces agents "pas si intelligents" peuvent intégrer peu à peu des technologies issues de l'intelligence artificielle. c'est à dire une entité autorisée à agir à la place de quelqu'un et agissant en son nom (cf. Cependant les perspectives théoriques des agents intelligents restent assez fantastiques. ce qui rajoute un biais supplémentaire. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 24 . Si la capacité de communication des agents peut permettre d’entrevoir une meilleure intelligence à l’avenir. est-ce que tous les agents sont conformes aux spécifications de la FIPA ? Si non. De plus. ces répertoires de services. il faut construire ces ontologies. Nous avons vu que la principale limitation des agents intelligents tenait au fait que le langage qu’ils utilisent est plus simple (section 2. Tant que ce rapprochement entre les données « humaines » du Web et celles des machines ne sera pas effectué. Or le langage utilisé le plus souvent pour publier les données sur le Web est le langage courant et les documents ne sont le plus souvent pas structurés formellement et de manière harmonisée. Toutefois pratiquement. Ensuite.propres. Ils ne sont cependant pas encore passés dans le domaine économique. L’ensemble des fonctionnalités que nous allons aborder dans la section 3 sont regroupées sous le vocable et terme composé général « recherche d’informations » (RI) dans la littérature sur le sujet.2. Cependant. Il faut des services de traduction. section « Définitions » page 13). les agents ont été mis au point de manière expérimentale. notamment parce qu’ils ne communiquent pas selon un mode ouvert. Ou inversement. elles peuvent se regrouper sous des fonctionnalités plus précises qui sont le traitement syntaxique et / ou sémantique du langage naturel. Il faut aussi noter que des humains. les langages sont différents. Pratiquement cela repose sur une architecture matérielle et logicielle lourde qu’il faut développer et mettre en œuvre.1. ne le sont parfois pas (dans les cas d’ignorance par exemple). Comme nous le verrons dans ce chapitre. nous ne pouvons cependant pas y voir là de véritables "agents intelligents". d’où éventuellement un manque de laison entre elles. assez nouvelles pour certaines. Ces "agents" ont pour objectif d'automatiser des tâches répétitives et pénibles. le traitement des résultats de recherche pour leur présentation (filtrage et agrégation).4). si parfois il n’existe pas de dictionnaire de traduction entre certaines langues. section 1. Ces fonctionnalités. lorsque les ontologies. les agents intelligents qui auraient les mêmes objectifs doivent par ailleurs faire un travail de rapprochement pour harmoniser leur connaissance. il faut que les traductions existent. 3. prouvant le bien fondé de leur conception. Seules des tentatives sur des domaines restreints peuvent laisser espérer des chances de succès. Contribution des agents intelligents à la recherche de données sur le Web [4] Le terme "agents" est utilisé pour caractériser toute une gamme de logiciels aux technologies nonissues de l'intelligence artificielle mais se référant à l'appellation d'agents au nom de la définition usuelle d'un agent. il faudra certainement des moyens pour pouvoir faire appel à leurs services. Or la plupart du temps. notamment celles du traitement du langage naturel et des systèmes experts. Dans le même ordre d’idée. S’ils passent dans le domaine économique. surtout au regard du domaine d’application qu’est le Web (cf. Peut-être aussi que les agents ne sont pas encore assez nombreux pour pouvoir valoriser leur effort collectivement. mais séparément.

Actuellement. Toutefois.2. soit par l’éditeur du logiciel agent. Le traitement syntaxique est opéré parfois au niveau de la formulation de la requête d’informations dans certains outils et pour la recherche multilingue. Seules quelques bases thématiques permettent de traduire de manière satisfaisante les requêtes des utilisateurs portant sur le domaine. la traduction ne concerne que les éléments reconnus par tous les outils de recherche. Contrairement aux moteurs de recherche indiquant uniquement les documents où apparaît le mot recherché (qu’il soit du domaine de recherche ou non – homonymie) et non ses synonymes [4]. après consultation du service dans le répertoire de service et « prise de contact ». L'avantage théorique est de permettre au logiciel de ne retrouver que les documents parlant véritablement de l’objet recherché et seulement de lui. Nous n’aborderons pas ce domaine. les traitements les plus courants des ressources informatives sont les traitements sémantiques des documents en vue de leur indexation. Le logiciel décompose la phrase en concepts et les traite. ils sauraient décrire leur service de telle sorte qu’ils puissent être interopérés par l’agent de recherche de l’utilisateur. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 25 . et par généralisation du domaine de la fouille de donnée (« data mining ») pour l’aide à la décision. notamment avec le développement de l’utilisation de XML17 avec Internet. Une des principales difficultés est de traduire la requête en mots clés et opérateurs de requêtes qui soient compatible avec la syntaxe attendue par chaque outil de recherche lors d’une recherche fédérée (cf.1. section 1. section « Le traitement du langage naturel pour communiquer » page 18) qui pourraient être opérés au préalable en vue d’enrichir l’analyse sémantique relèvent du domaine fonctionnel de la fouille de texte (« text mining »). section « Fonctionnalités d’un moteur de recherche » page 5) : une partie concerne la formulation et le traitement de la recherche. L'agent est censé découvrir les termes qui font sens dans cet ensemble de phrases. l’autre est le traitement des ressources informatives. Cette base de connaissance est établie au départ grâce à différents dictionnaires et thésaurus. Ceux-ci seront abordés principalement dans la section 3. Formulation et traitement de la requête Nous avons vu dans la partie 1. là encore. Ces agents peuvent améliorer leur base de connaissance au fur et à mesure de leurs expériences. à savoir l’opérateur « OU » ou alors elle fait l’objet d’une connaissance à priori et paramétrée.5).1.1.7 comment doivent être formulées les requêtes associées à une recherche d’informations pour que les outils de recherche puissent les traiter. que le mot relatif à l’objet soit absent ou non du texte. Or pour le moment. Analyse et traitement syntaxique pour la recherche d’information [10] La recherche d’information peut se découper en deux parties (cf. soit par l’utilisateur. 3. saurait comment traduire la requête sans en avoir les éléments au préalable. section « Messages d’agent » page 22). Ces outils sont donc décevants de prime abord et nécessitent un « apprentissage » tel qu’il s’avère rebutant pour les utilisateurs [4] [5]. qui cependant. est prometteur pour la RI. C’est à dire que l’agent. l’enrichissement de leurs connaissances ne se fait pour le moment qu’à travers l’interaction avec l’utilisateur ou l’importation de dictionnaires supplémentaires édités par d’autres humains. Les questions sont donc posées en langage naturel. Les traitements syntaxiques (cf. L’analyse syntaxique est le plus souvent couplée à une analyse sémantique. Le travail que peut proposer un agent intelligent dans la formulation et le traitement de la requête est donc de traiter une requête en langage naturel et de la transmettre au(x) service(s) de recherche qui en l’état actuel ne sait (savent) traiter les requêtes qu’avec des mots clés associés avec des opérateurs booléens et des fonctions avancées. L’agent dispose pour cela d’une base de connaissance. Si ces outils de recherche étaient conçus comme de véritables agents au sens de la FIPA (cf.3. ces bases de connaissance sont insuffisantes pour être généralistes. L’exception concerne la lemmatisation qui est un traitement syntaxique pouvant s’appliquer à la fois à la requête et au contenu des documents pour leur indexation. De même. les décomposer en concepts et effectuer les recherches à partir de cela.

3. . Analyse sémantique Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 26 . il se peut que le texte d’origine contienne une ou plusieurs fautes d’orthographes.de lever les ambiguïtés dans les cas où plusieurs lemmes sont possibles Des approches de la lemmatisation consiste à utiliser des caractères de troncatures (cf. Il est très difficile de disposer de règles exhaustives couvrant l’ensemble des cas de flexion des substantifs. Lemmatisation La lemmatisation est l'opération par laquelle les formes fléchies (conjugaison.2).2. Aussi. pour infléchir les termes rencontrés dans un texte écrit dans cette langue. du type "entrée de dictionnaire". Celle ci permet : . La lemmatisation automatisée ne doit donc pour être juste n’utiliser que des règles sûres et éprouvées et laisser celles qui donnent parfois de mauvais résultats. 3. quel qu’il soit. Cela est par ailleurs très lourd.4. Le programme de recherche multilingue va donc récupérer les mots clés issus d’une requête dans la langue de l’utilisateur pour la traduire dans les langues désirées (et possibles) à partir des dictionnaires de traduction dont il dispose. 1. un mot rencontré dans un texte. . appelée le lemme [12]. Ces règles sont nombreuses et complexes et nécessitent des traitements assez lourds. mais cela a l’inconvénient de générer en retour une augmentation du taux de bruit.de définir un nouveau lemme pour les formes inconnues du système (parfois du dictionnaire) . Il faut donc pour valider intégralement la lemmatisation une phase de révision manuelle [12]. Certains outils de lemmatisation automatisée [13]proposent même de gérer des règles d’expansions . La lemmatisation augmente les chances de trouver des informations à partir de mot clés pour des recherches autrement infructueuses.1.1.2. mais génère aussi des erreurs dans d’autres. Elle améliore globalement la recherche d’information [10] mais cela génère cependant parfois du « bruit ». c’est à dire principalement des relations entre des mots permettant de les ramener à une seule unité lexicale et par exemple de gérer la synonymie. Dès lors. avec leurs listes d’exceptions.3.de vérifier pour chaque forme la pertinence du lemme proposé . page 230]. 3. peut être ramené à une unité lexicale qui peut ensuite être utilisée pour d’autres traitements. notamment l’indexation des mots d’un texte pour la construction d’un index [13]. Chaque traduction fait l’objet d’une requête et l’ensemble des requêtes issues de la traduction sont transmises aux services de recherche en faisant l’objet de processus parallèles. De plus. la lemmatisation automatisée donne des résultats satisfaisant dans de nombreux cas. Il est utile de disposer d’un dictionnaire pour savoir si la forme fléchie obtenue (le lemme) à partir des règles fait partie d’un dictionnaire. genre. surtout si le système (de recherche d’information) doit indexer des documents en différentes langues. Les résultats obtenus à partir de chaque processus doivent être agrégés par la suite pour présenter les résultats de manière synthétique (voir section 3. nombre…) d'un texte sont classées sous une adresse lexicale.4). Cela ne constitue pas une véritable lemmatisation [2. Elles peuvent être regroupées sous le terme de règles de transformation morphologique [14]. Recherche multilingue La recherche multilingue est basée sur les mêmes techniques que le traitement de la requête vu cidessus. Ainsi la lemmatisation peut être automatisée. La lemmatisation utilise les règles de grammaires d’une langue. Cela élargit ainsi une recherche d’information.

est basée sur la valeur de discrimination d’un mot pour identifier des documents. il s’agit de repérer le contexte d’un document en relevant la présence conjointe de plusieurs unités linguistiques (mots) qui est alors significative. Cette analyse n'est pas disponible pour la RI. En effet. une fois représenté par les mots « recherche » et « information ». Ces représentants peuvent être de forme différente: des mots simples. Par "discrimination". Ce sont ces unités qu'on utilise le plus souvent dans les systèmes actuels [10]. La deuxième méthode. la. on se réfère au fait qu'un terme distingue bien un document des autres documents. le concept de « recherche d'information ». Ainsi. On admet généralement qu'un mot qui apparaît souvent dans un texte représente un concept important.1).1. Pour trouver des concepts. Les techniques existantes sont souvent restreintes à un domaine très spécialisé. Extraction des mots clé et des index L'idée d'utiliser des mots comme des représentants de concepts est assez naturelle. de même que le 39 regroupement de mots en terme composé . La première approche est donc basée sur la fréquence d’occurrence des unités linguistiques. alors il est considéré important pour le document. La lemmatisation peut être utilisée préalablement pour traiter les unités linguistiques. Les traitements qui visent à réduire l’ambiguïté des mots comme index des documents sont aussi ceux qui permettent leur catégorisation automatique. et de créer une représentation interne en utilisant ces concepts. De plus. concrètement. Étant donné le grand nombre de documents à traiter (cf. ou des doublets de mots (groupes de deux mots). un. 3. la première approche consiste à choisir les mots représentants selon leur fréquence d'occurrence. on exclue les mots vides de sens comme les articles (le. on cherche plutôt des représentants des concepts. car les mots « recherche » et « information » sont très courants en français. …) et les prépositions que l’on reprend dans une liste de mots « stop » (anti-dictionnaire) qui par ailleurs apparaissent très souvent. perd beaucoup de sens. En combinant les deux méthodes.2. 39 « Recherche d’information » est un exemple de terme composé. Probatoire session janvier 2004 p 27 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . les mots sont des unités linguistiques qui sont les plus faciles à reconnaître. Les méthodes de regroupement en terme composé utilisent soit une analyse syntaxique et / ou statistique. et ils sont des sens très imprécis.2. On ne retiendra éventuellement comme mot clé d’un document que ceux qui disposent d’une fréquence d’occurrence et d’une valeur de discrimination élevée (filtrage) et on évaluera la pertinence des résultats retournés à une requête sur les mêmes critères appliqués au mot clé contenu dans la requête. L’extraction de mots clé et d’index des documents est basée sur une analyse statistique. en pratique. qui complète la première. et l'analyse est très complexe. section 1. il est nécessaire de procéder une analyse sémantique pour déterminer ce qui est un concept dans un texte. un terme qui a une valeur de discrimination élevée doit apparaître seulement pour un petit nombre de documents.2. les représentants trouvés doivent permettre de décrire le contenu (la sémantique) du document et de la requête de façon assez précise. C'est-à-dire. Globalement. La façon la plus simple consiste à définir un seuil sur la fréquence: si la fréquence d'occurrence d'un mot dépasse ce seuil. des termes (éventuellement composés). Cependant. Catégorisation Les mots clé issus de l’indexation des unités linguistiques à partir de l’analyse statistique des mots d’un texte peuvent parfois être ambigus à cause notamment de l’homonymie [10]. 3.L'objectif de l'analyse et de l'indexation est de d'abord trouver des concepts les plus importants dans le document. Un bon mot clé est celui qui apparaît fréquemment dans un document qui le traite et peu dans les autres documents. Ainsi. soit un dictionnaire de termes composés. et qui sont assez porteuses de sens. L'objectif ici est de trouver les mots qui représentent le mieux le contenu d'un document. Un terme qui apparaît dans tous les documents n'est pas discriminant. on peut ainsi filtrer et affecter une pondération aux unités linguistiques représentant les concepts d’un document. Par ailleurs. il est nécessaire que le traitement pour la reconnaissance des représentants soit assez simple.

Ces alertes sont alors basées sur le choix d’une catégorie ou d’une rubrique. Dans le même ordre d’idée. sur un site d’annonces. à la base de l’amélioration des résultats aux recherches de données générales réparties à travers le Web. Les règles peuvent évoluer pour permettre d’associer un contexte à un mot clé et finalement catégoriser un document. à utiliser les mots de la définition pour voir s’ils sont présents dans le document et valider ou non la catégorisation. système expert). 3. Le logiciel se charge alors d’interroger le ou les moteurs de recherche à une fréquence prédéterminée et peut signaler à l’utilisateur les nouveaux résultats obtenus. Il faut remarquer que ce taux dépend fortement du dictionnaire utilisé et des mots soumis au test. L’intérêt principal de ce type d’agent est le gain de temps qu’il permet à l’utilisateur [1]. Ces bases sont fonctionnelles pour des petits ensembles spécialisés. certains types d’agent permettent aussi de tenir au courant l’utilisateur des mises à jour survenues sur une page Web. les systèmes experts « apprennent » et peuvent s’enrichir. D’une autre manière. Ainsi. Mais tous les types de paramètre existent pour les abonnements. on peut associer à la catégorisation automatique un pourcentage de fiabilité. il est très difficile d'avoir un ensemble de règles qui a une couverture raisonnable. Ce type d’abonnement est valable pour la plupart des systèmes de gestion de contenu qui peuvent avertir les utilisateurs des nouveaux documents ou des mises à jour de documents dans une rubrique. Il est alors possible de savoir quels sont les sites et les pages Web qui mentionnent votre site et ses pages. section 1. La veille informative consiste par ailleurs à s’abonner à des services d’alerte. par exemple. Toute nouvelle dépêche dans une rubrique est alors signalée à l’utilisateur. Les règles établies manuellement ne peuvent couvrir qu'une petite partie des mots ambigus et ne seront utilisables que pour des documents d’un domaine. il est nécessaire de disposer de bases de connaissances (dictionnaires. Dans tous les cas.5). comme on peut imaginer. La première concerne la mise à jour des résultats d’une recherche. L’agent peut effectuer une comparaison des pages et n’alerter l’utilisateur des changements déterminés comme important par lui. Enfin la dernière concerne les abonnements.3. Ces services sont particulièrement développés sur les sites d’informations proposant des « news ». Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 28 . les paramètres sur lesquels s’effectue la mise à jour sont les mots clés de la requête de recherche. Mais ce taux de réussite n’est pas assez fiable. Par exemple. Dans ce cas. L’utilisation d’un dictionnaire consiste à prendre la définition du mot indexé. Les logiciels capables d’effectuer la mise à jour d’une recherche sont souvent appelés agents de veille. d’un dictionnaire ou d’un thésaurus. il est possible d’être tenu au courant des nouvelles annonces correspondant aux critères de recherche de l’utilisateur. à l’heure actuelle. ce qui est très important. Le danger est qu'on peut se tromper dans 30-50% des cas. à la manière de la logique floue. Dans ce domaine. les agents peuvent tenir au courant l’utilisateur des nouveaux liens qui pointent vers un site. l’alerte s’effectue si le nombre de mots différents entre les deux versions est supérieur à un seuil fixé par l’utilisateur. Les éléments d’informations réunis dans ce rapport montrent que l’amélioration des bases de connaissance semble. thésaurus. Les agents de veille sont le plus souvent associé à des logiciels de recherche fédérée (cf. La seconde est relative à la surveillance d’un site ou d’une page Web. Veille informative Trois types de veille informative sont possibles. Ici la lemmatisation est utile pour rapprocher les mots de la définition et les autres mots contenus dans le texte analysé. Cependant. On peut avoir un taux de réussite de 50-70% pour la détermination de sens. Une validation manuelle de la catégorisation automatique est alors nécessaire. Il s’agit en fait d’enregistrer une recherche comme devant être mise à jour.Plusieurs méthodes sont utilisées selon les cas : l’utilisation d’un système expert. Avec le système expert.

le travail réalisé par ces agents n’est pas reconnu comme relevant de celui des agents intelligents [1]. Les méta données sont déduites de l’analyse opérée par les outils de recherche (voir section intitulée « Fonctions avancées » page 5 dans la section 1. Pour les recherches avancées.En résumé. nous pouvons dire que le filtrage collaboratif vise à faire bénéficier à l’utilisateur de l’expérience des autres utilisateurs. autrement dit sur la personnalisation. cela donne par exemple. le logiciel peut alors anticiper les phases suivantes en amenant directement l’utilisateur à la phase finale ou alors suggérer de manière plus ou moins marquée les étapes suivantes [15].2) ou renseignées par les cyber-documentalistes (voir section 1.4. on peut suggérer des critères de filtrage consécutif à une recherche. Filtrage collaboratif Le filtrage collaboratif fonctionne d’une toute autre manière. 3. 3.1. Nous allons voir maintenant quels traitements supplémentaires peuvent être opérés afin d’affiner les résultats et les présenter.2 intitulée « Paramètres de recherche avancée ». Les critères sont listés dans la section 1. Les comportements des utilisateurs doivent donc être suivis. Cependant. des suggestions de catégories visitées par les utilisateurs ayant cherché dans la même catégorie que celle dans laquelle l’utilisateur cherche. En résumé. Le filtrage collaboratif est basé sur la notion de profil de l’utilisateur. Appliqué aux outils de recherche. Filtrage et agrégation des informations Jusqu’à ce point.4. Le filtrage permet de ne récupérer que les documents répondant à des propriétés attendues.2. Critères de sélection des résultats d’une recherche Il s’agit de restreindre les résultats d’une recherche avec un ou plusieurs critères. Lorsqu’un utilisateur (classé dans un profil) commence à répéter un comportement connu. Une des difficultés du filtrage collaboratif est l’établissement des « profils utilisateurs ». Pour les mots clés. Il s’agit là d’une méthode de recherche d’information très importante pour les recherches d’informations ciblées. L’agent fournit en retour les informations supplémentaires qu’il a recueillies entre deux interrogations. les comportements des utilisateurs sont enregistrés en fonction de leur profil. Une autre manière d’apprendre les comportements des utilisateurs est de demander leur appréciation sur les ressources proposées lors d’une recherche ou visitées lors d’une navigation et de les classer en fonction de leur profil. nous avons abordé dans cette troisième section les traitements nécessaires à apporter aux documents pour pouvoir effectuer des requêtes afin de les récupérer. périodiquement. S’il ne s’agit pas à proprement parler là encore d’intelligence Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 29 . nous pouvons dire que les agents de veille se chargent d’effectuer des requêtes enregistrées par un utilisateur.4. La seconde est de connaître l’utilisateur et de le classer dans un profil. Le filtrage s’effectue de manière générale sur les méta données des documents. cela fonctionne d’autant mieux que l’utilisateur définit lui-même son profil dans un cadre fourni par l’outil mettant en œuvre le filtrage collaboratif. De manière générale. Le filtrage collaboratif s’appuie sur les statistiques et la probabilité. cela peut donner une suggestion de mots clés supplémentaires à ceux déjà donnés par l’utilisateur. Mais cela outrepasse notre propos. De manière générale. Ces traitements sont réalisés de manière générale par les moteurs de recherche de manière automatisée ou par des opérateurs humains assistés par ordinateur. 3.7. auprès des services paramétrés par le logiciel et / ou l’utilisateur.3).

. Elle prend tout son sens pour les recherches fédérées. L’agrégation consiste d’abord à sélectionner les résultats issus de chaque outil interrogé. De même.4. section 3. 3. Enfin. éparpillée et pléthorique. L’utilisateur a le plus souvent l’option de choisir comment les résultats sont triés : par date. si celui-ci a été opéré automatiquement (cf. Ensuite. le coefficient de pertinence peut tenir compte du pourcentage de fiabilité du classement. Les moteurs de recherche présentent leurs résultats triés par ordre de pertinence.1). On parle aussi de catalogue agrégé. Le coefficient de pertinence peut aussi être utilisé pour classer les résultats agrégés d’une recherche fédérée. par URL. le consommateur a de plus en plus de mal à choisir le produit Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 30 .4. Agents de commerce électronique La problématique est très semblable à celle de la recherche d’informations. section 3. L’évaluation des ressources proposées peut servir aussi comme critère de pertinence pour le classement des résultats d’une recherche. 3. particulièrement sous forme de catalogue. parmi lesquels on peut trouver le classement des documents identifiés par thème. si le mot clé correspond à la catégorie dans laquelle sont classées les ressources résultantes. est aussi une fonction clé des agents de commerce électronique dont un des rôles principaux est d’agréger la liste des produits recherchés. Calcul de la pertinence des résultats Le calcul de la pertinence des résultats peut s’établir. de même que s’il prend le temps d’évaluer les ressources que l’outil lui propose. ce qui est coûteux [4]. on peut parler dans le cas du filtrage collaboratif d’intelligence collective. Agrégation L’agrégation consiste à présenter les résultats correspondant à une recherche. Certains méta moteurs proposent aussi un résumé de la ressource résultante.artificielle. notamment les recherches multilingues. en fonction d’une notation attribuée par les utilisateurs aux résultats retournés à une recherche.2).4.. ce système ne fonctionne correctement que si l’utilisateur prend le soin de renseigner et préciser son profil et ses préférences personnelles. La plupart du temps.2. estimant à juste titre que ce sont souvent les plus pertinents [1].5. Certains moteurs de recherche utilisent un vote implicite en attribuant un coefficient de pondération à une ressource en fonction du nombre de liens sur le Web qui pointent vers elle. Une opération supplémentaire indispensable consiste à dédoublonner les résultats identiques. par pertinence. 3. Si le mot clé se situe par exemple dans le titre du document.3. par titre. L’agrégation. comme nous venons de le voir ci-dessus. soit une sorte de vote explicite. Face à une offre internationale. la pertinence des résultats d’une recherche se déduit de la présence du mot clé dans une ou plusieurs méta données de la ressources. l’agent de recherche peut effectuer d’autres traitements complémentaires. dans lesquelles les résultats proviennent de différents outils de recherche et peuvent être hétérogènes. l’agent de recherche ne retient que les premiers résultats de chaque liste retournée. Ce coefficient de pondération peut être calculé aussi sur la base de la fréquence d’occurrence du mot clé et de sa valeur de discrimination (cf. Un lien hypertexte permet d’accéder à la ressource.2. il y a plus de chance que ce dernier soit un résultat plus pertinent de la recherche que celui où le mot clé se situe dans le corps du texte. Toutefois.

1. par exemple grâce à des tableaux comparatifs des offres présentées selon différents critères (prix. identifier et vérifier l’intérêt d’une offre commerciale est extrêmement difficile sur le réseau des réseaux.. de déterminer si le titre recherché y est référencé. un livre) dans le but de comparer les offres ont mesuré la difficulté et la longueur de l’opération. cela prendra plusieurs dizaines de minutes à l’utilisateur. Les clients peuvent se faire enregistrer comme demandeurs d’un produit ou d’un service déterminé.. Lorsque l’agent vendeur rencontre un agent client intéressé par ce type de produits. voire effectuer les transactions.. ces derniers se trouvent face à une demande très éparpillée et sont obligés de la connaître de mieux en mieux s’ils veulent satisfaire des besoins toujours plus spécifiques. Ce profil s’enrichit progressivement après chaque transaction et après chaque demande d’informations. Il est nécessaire d’identifier les sites Web marchands spécialisés dans la littérature. En effet. . au service. achat dès qu'un modèle est en solde). Les outils classiques (moteurs et répertoires de recherche) se montrent vite inefficaces pour trouver. La recherche d’informations commerciales est donc affaire de chance et de persévérance. et de réitérer la démarche sur tous les sites suivants. valider et confronter une offre commerciale.). Ils renseignent l'utilisateur sur : .. liste intégrale ou sélective de distributeurs (en fonction des services qu’ils offrent: garantie. Dans le meilleur des cas. comme pour tout autre recherche. Le client dispose alors de possibilités d’action impossibles actuellement.5. Les agents vendeurs présentent les biens et les services aux clients (qu'ils considèrent comme des agents) et peuvent même être programmés pour négocier. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 31 . en établissant une présélection automatique d’articles en fonction des préférences du consommateur (par exemple. il n'en reste pas moins que les plus utiles aux directeurs marketing et commerciaux seront ceux capables d'analyser la demande globale pour adapter leur offre aux besoins du marché. 3. Nous détaillons ci-après leur fonctionnement respectif [5]. La transaction peut d’ailleurs se faire aussi bien dans l’autre sens. priorité au rapport qualité/prix. Ce pourra être un billet d’avion.l'identification des distributeurs: localisation d’un distributeur précis.à acheter. avis des autres consommateurs).2. Tous ceux qui ont fait l’expérience de rechercher un article sur le Web (par exemple. 3. facilité de paiement. Des systèmes capables de constituer des clientèles potentielles et d'analyser leurs attentes commencent à apparaître sur des sites de grandes entreprises. Ces systèmes demandent au consommateur de décrire son profil afin de mieux le servir. Il traitera les informations collectées. dans le pire des cas. ce dernier abandonnera en cours à cause de la difficulté à localiser les sites désirés ou à cause de la lenteur de transmission des données. et permet d’obtenir une offre réellement personnalisée et adaptée aux besoins de chaque client. En effet. voire passer automatiquement la commande. aux avis des autres consommateurs. Les agents vendeurs Si les agents les plus spectaculaires sont ceux qui s'adressent aux consommateurs. Un agent vendeur ayant un produit à commercialiser va traverser le réseau à la recherche des clients intéressés par ce produit. Les agents acheteurs Ils sont contrôlés par les clients et ont pour but de faciliter le processus d’achat. pour en proposer la liste comparative. un emploi. une transaction est alors négociée entre les deux agents. de prendre connaissance de son prix. un rendezvous.la disponibilité d’un produit en menant une recherche par marque ou par catégorie (produit et accessoires) . services.). On distingue deux catégories d'agents pour le commerce électronique : les agents acheteurs et les agents vendeurs.5. Les agents acheteurs sont capables de se connecter sur divers services de vente à distance et ramener les informations de description et de prix de tous les articles d’un type déterminé. Il pourra réaliser la transaction au coup par coup ou de façon automatique (achat répétitif d’un panier de produits/alimentation.

Ces systèmes donnent tout d’abord des résultats issus de recherche fiables jusqu’à un certain niveau. un rapport sur les ventes de produits artisanaux à base de pailles et autres fibres végétales dans l’Union Européenne pour le premier semestre de cette année ».enregistrement des demandes successives de l'acheteur afin d'enrichir. l’intelligence que l’on apporte aux données réparties à travers le Web afin d’en permettre la recherche et la récupération. Les agents de commerce électronique en sont encore au domaine expérimental (section 3.2) s’appuie sur des bases de connaissances qui s’enrichissent grâce à des mécanismes d’apprentissage permettant l’utilisation de systèmes d’inférence qui peuvent guider l’utilisateur dans sa recherche mais ils sont peu mis en œuvre dans le monde des affaires [4. voir une utopie.I. inscrivez-vous ! / http://fr. sur le Web. déjà appréciables. Leurs applications permettent bien d’accéder à des données qui sont réparties à travers le Web.2).6. la veille informative (section 3. Il m’a répondu qu’il ne pouvait pas me donner de réponse satisfaisante immédiatement mais qu’il allait interroger ses collègues. il n’existe pas d’agents acheteurs qui communiquent avec des agents vendeurs pour effectuer des transactions. tient principalement aux techniques de traitement automatisé du langage naturel : analyse syntaxique et sémantique (sections 3. agents sociables]. Pour le moment.4.4) que de l’I. texte de la note de bas de page n° 38 page 23). qu’ils mènent des opérations au nom de l’utilisateur.2) pour la catégorisation automatique des ressources.kelkoo. . Les autres techniques relèvent plus des EAI (Enterprise Application Integration) pour les recherches fédérées. Pour le moment.enregistrement du profil et des préférences de l’acheteur . il s’agit bien là de l’objectif final que l’on assigne aux agents intelligents.1 et 3.Les différentes fonctions assurées par les agents vendeurs sont : . Pourtant.3) et l’agrégation (section 3.A. notamment mon agent nommé « organiseur » pour savoir ce que j’avais bien pu faire avant ce moment.4. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 32 40 41 . comme ceux que proposent la FIPA. 3. des systèmes multiagents intelligents ? Le dénominateur commun de tous ces agents est qu’ils ont un certain degré d’autonomie. Ceci est largement de la science fiction.. d'affiner.2.html 41 Clin d’œil au chapitre 20 intitulé « Dr Sait-tout » du film « A. Limites de l’apport des agents intelligents et de l’intelligence artificielle « J’ai interrogé mon agent qui s’appelle « Docteur Sait-tout » et lui ai demandé où j’ai bien pu laisser mon portefeuille que je ne retrouve pas depuis maintenant 48 heures.5. 3. Cependant. Les agents acheteurs et vendeurs. Cette Référencement sur Kelkoo : marchands.com/b/a/co_1798_kelbest_referencement_de_marchands_sur_kelkoo. Intelligence Artificielle » produit par Stanley Kubrick et réalisé par Steven Spielberg et paru en 2002.calculer des recommandations sur l’évolution de l’offre commerciale grâce à des statistiques sur la demande globale des consommateurs. de faire évoluer son profil . Par contre.3. il n’existe pas de systèmes multi-agents.1). L’analyse sémantique peut parfois s’appuyer sur des systèmes experts ou des systèmes de raisonnements (section 3. Le filtrage collaboratif (section 3.5). mais insuffisants dans de nombreux cas et pouvant donc être améliorés. Ces traitements visent à produire des méta données propices au filtrage et à la sélection des informations réparties à travers le Web (section 3.4. pour pouvoir prendre les contacts nécessaires et les interroger. il e xiste des sites fédérateurs agrégeant l’offre des 40 vendeurs mais la technologie qu’ils utilisent a peu à voir avec les agents intelligents . qu'ils apprennent au fil des transactions à mieux connaître leurs clients. on parle pour ces applications d’agents de veille. de vive voix si nécessaire s’il faut interroger un humain… Par ailleurs. Toutefois. . il doit me remettre à 18 H 00 ce soir au plus tard. où j’avais été et avec qui. sinon à titre expérimental (cf.

décevantes pour la recherche multilingue et la traduction.W3.org/TR/rdf-schema/ 44 42 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 33 . dans quelques cas. Par contre. à maintenir et s’avèrent insuffisantes dans le cas de recherches généralistes et. RDF n’est pas particulièrement conçu pour permettre de stocker les méta données de documents mais plutôt pour permettre leur échange et leur traitement par des opérateurs humains ou artificiels. dont le but est de permettre à une communauté d’utilisateurs de partager les mêmes méta données pour des ressources partagées. L’enjeu est d’accroître les capacités informatives du Web en permettant de déduire des informations qui ne sont pas explicitement formulées mais qui sont déductibles grâce à l’inférence. Dans le même ordre d’idée. Ce n’est pas le lieu d’aborder la nature de ces langages. RDF44 est un modèle. Enfin. Ces ontologies sont lourdes à produire. Il a été conçu initialement par le W3C pour permettre de structurer l’information accessible sur le Web et de l’indexer efficacement [2. W3C Recommendation 22 February 1999. associé à une syntaxe.org/2001/sw Resource Description Framework (RDF) Model and Syntax Specification. Les agents intelligents ne posent donc pas de limites intrinsèques mais ces dernières relèvent du manque de méta données de qualité et interopérables. Latest Version: http://www. Cette interaction semble avoir découragé beaucoup d’utilisateurs. Toutefois. W3C Working Draft 05 September 2003.org/TR/REC-rdf-syntax 45 RDF Vocabulary Description Language 1. à travers l’utilisation des schémas45 RDF qui peuvent s’intégrer et ne s’excluent pas mutuellement grâce à l’utilisation du concept d’espace de nom (« namespace »). ces agents nécessitent la collaboration avec l’utilisateur qui doit au démarrage du système donner beaucoup de renseignements. Cette architecture est bâtie sur le standard RDF (Resource Description Framework) et sur le Langage d’Ontologie du Web OWL.intelligence nécessite toutefois l’utilisation d’ontologies (dictionnaires.2). taxonomies. comme support des messages de la communication inter-agents (section intitulée « Messages d’agent » page 22). surtout pour des recherches généralistes.org W3C Semantic Web : http://www. retenons certains éléments fondateurs. On peut résumer en disant que les bases de connaissance peuvent se présenter sous forme d’ontologies. C’est un enjeu considérable au regard de la quantité des données disponibles à travers le Web et de la mise en œuvre progressive de XML comme langage pivot pour ces mêmes données.5) ayant une taille critique.7. pour fiabiliser et augmenter l’efficacité de l’utilisation des mots clés et des catégories pour la recherche d’informations (section 3. Les ontologies font partie de l’ensemble (classe) des méta données. rappelons enfin que les agents ne peuvent donner leur pleine puissance que dans des systèmes multi-agents (cf. ne permettant pas d’amener les systèmes à maturité tout en donnant dans le même temps des résultats décevant par définition.w3.w3c. RDF est par ailleurs un des modèles de base et de syntaxe sur laquelle le Web sémantique se construit avec l’ajout de couches (« layers ») au-dessus de RDF comme OIL (Ontology Inference 43 W3C – World Wide Web Consortium : http://www.2).w3. c’est à dire s’il y a suffisamment de systèmes agents interopérables. 3. Un des gros avantages de RDF est son extensibilité.2. Elles ne sont pour le moment pas interopérables dans les cas les plus nombreux (systèmes propriétaires ou pas de correspondances).0: RDF Schema. thésaurus. elles peuvent améliorer significativement la gestion de contenu dans des domaines spécialisés. Notons que RDF peut servir de langage de contenu (« content language ») pour les agents de la FIPA (voir « Messages d’agent » page 22). 7]. section 2. Il faut donc au préalable fiabiliser les méta données des ressources présentes et accessibles à travers le Web. Le W3C42 offre une architecture pour répondre à cet enjeu : il s’agit du Web sémantique43. La réponse du Web sémantique Nous avons vu au cours de ce rapport qu’une large part de l’intelligence pour la recherche d’information peut reposer sur des bases de connaissance : pour les systèmes experts et autres moteurs d’inférence (section 2. Newest Version: http://www. bases de connaissance). chap.

Certains agents peuvent guider l’utilisateur dans son travail de recherche et d’achat. rappelons le. afin d’accroître l’efficacité de l’indexation des ressources disponibles à travers le Web. De même. Elles doivent correspondre à des ontologies compatibles avec les capacités de traitement et d’utilisation des agents intelligents. Le Web sémantique propose ainsi une organisation permettant de « desambigüer » les informations sur les ressources et accroître l’interopérabilité entre les données. les éditeurs doivent prendre le soin d’éditer et de renseigner les méta données des documents qu’ils mettent à la disposition de leurs lecteurs. Les traitements nécessaires pour utiliser ces méthodes ont été décrits. Ces méta données doivent être interopérables et non ambiguës. elles font référence à l’espace de nom (domaine nominal ou « namespace » en anglais) des schémas RDF des méta données de Dublin Core.US Department of Defence. DCMI term declarations represented in RDF schema language : http://dublincore. l’initiative de Dublin Core vise à résoudre les problèmes d’ambiguïté sur la dénomination des ressources. Le langage d’ontologie du Web OWL est une révision des langages DAML + OIL.1). CONCLUSION GENERALE Nous avons couvert les principales méthodes de recherche pour accéder à des données réparties à travers le Web. Toutes les personnes désirant coopérer en échangeant de l’information ont là les moyens de le faire efficacement en résolvant les problèmes classiques auxquels elles peuvent être confrontées. OIL est utilisé pour définir des ontologies et DAML ajoute un petit nombre de caractéristiques au schéma RDF afin de rendre plus facile la définition de nouveaux langages permettant la communication entre agents intelligents.Layer) et DAML (DARPA46 Agent Markup Language). Mais pour cela. thématiques ou généralistes) et donnent des résultats satisfaisants dans la majorité des cas. méta moteurs. Rechercher des données accessibles à travers Internet pour d’autres protocoles et d’autres formats relève sensiblement de la même problématique. il faut développer des ontologies et des services de traduction entre elles pour les ontologies concurrentes [16]. Les méthodes de recherche s’assimilent à l’utilisation de ces outils (annuaires. L’utilisateur doit aussi respecter une période d’apprentissage de la machine avant qu’elle ne puisse donner des résultats tangibles. Lorsque les méta données d’un document sont exprimées en RDF en concordance avec le DCMI. de manière générale. Il ouvre la porte au fonctionnement des agents intelligents pour accroître l’accès aux données des utilisateurs finaux. Les méta données du DCMI (Dublin Core Metadata Initiative) sont exprimées de manière normative avec la syntaxe RDF47. Ils constituent une des hypothèses majeure pour accroître sa capacité d’action. Les agents intelligents constituent un moyen pour décharger l’utilisateur dans le premier cas et pour révéler l’accès aux données dans le second cas. notamment pour faire le tri entre les données pertinentes et celles qui ne le sont pas. On atteint des résultats dans des domaines spécialisés. Les agents de veille ne sont pas véritablement des agents intelligents mais facilitent déjà beaucoup la tâche de l’utilisateur. la recherche peut rester sans réponse. Probatoire session janvier 2004 p 34 Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) . 46 47 48 DARPA : Defence Advanced Research Projects Agency . que des données accessibles à travers le protocole HTTP dans des formats compatibles avec celui ci (section 1.1. mais rajoute une dimension à la complexité de l’opération et qui n’est pas traitée par les outils de recherche que nous avons étudiés dans la première section. De nombreux éléments de conclusion ont été abordés dans les conclusions relatives à chaque section principale. Dans les cas restant. Les outils de recherche utilisent déjà des fonctionnalités de traitement automatisé du langage naturel qui est une des approches de l’intelligence artificielle. Les agents intelligents nécessitent toutefois d’être mis en œuvre à une échelle suffisante (critique) dans des systèmes multi-agents pour pouvoir rendre les services que l’utilisateur peut exiger d’eux. sélectifs.org/schemas/rdfs/ Synonyme dans notre contexte de méta données. mais pas pour des utilisations généralistes. Conjointement avec RDF. moteurs de recherche. et parmi elle surtout celles des propriétés48. mais au prix parfois d’un travail non négligeable de la part de l’utilisateur. Nous n’avons tenu compte pour ce rapport. avec le mot attribut.

et pour que les agents dits intelligents passent du stade expérimental au stade économique. Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 35 .Un travail conséquent attend donc les utilisateurs de l’Internet s’ils veulent que naisse la deuxième génération du Web : le Web Sémantique.

and agent-attributes of an agent. A way of representing an abstract syntax in a particular concrete syntax.fipa.agentdirectoryservice.fipa.standard . A set of properties associated with an agent by inclusion in its agentdirectory-entry.fipa.service.transportmessage. and serialized Java objects.fipa.fipa.standard .service.fipa.ANNEXE : Eléments abstraits de l’architecture d’un agent intelligent de la FIPA Element Action-status Description A status indication delivered by a service showing the success or failure of an action.standard .standard . Content is that part of a message (communicative act) that represents the domain dependent component of the communication. A computational process that implements the autonomous. A composite entity containing the name.standard . non-forgeable token that uniquely identifies an agent.standard .standard . Mandatory Mandatory Agent-name Content An opaque. May also include additional information about the message encoding.fipa.fipa.fipa.agentattribute org.agentdirectory-service org.actionstatus org.agent.message.agentcommunicationlanguage org.fipa. A language with a precisely defined syntax semantics and pragmatics.message.service.standard .envelo pe Optional Mandatory Agent-directoryentry Mandatory Agent-directoryservice Agent-locator A service providing a shared information repository in which agent-directoryentries may be stored and queried An agent-locator consists of the set of transport-descriptions used to communicate with an agent.agentdirectory-entry org.agentlocator org.standard .fipa. A service that encodes a message to and from a payload. agent-locator.encodingservice.fipa.conte nt org.encoding -representation org.service.standard . Examples of possible representations are XML. Fully Qualified Name (FQN) org. FIPA Strings.standard .agent-name org.encodin g-service org.agent Presence Mandatory Agent Mandatory Agent-attribute Agentcommunicationlanguage org. That part of a transport-message containing information about how to send the message to the intended recipient(s).standard .conte nt-language org.fipa.messag e-transportservice.standard . etc. which is the basis of communication between independently designed and developed agents.service. communicating functionality of an application. Mandatory Mandatory Contentlanguage Encodingrepresentation Mandatory Mandatory Encoding-service Mandatory Envelope Mandatory Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 36 . encryption. A language used to express the content of a communication between agents.

message Presence Optional Mandatory Messagetransport-service Ontology org.message.fipa. Service-locationdescription Service-locator Service-root Service-signature A identifier that describes the binding signature for a service.fipa.standard . A service-type specific string containing transport addressing information.service. service-locator. A key-value tuple describing the type of a service.serviceattributes org. A service that supports the sending and receiving of transport-messages between agents.standard .service. servicedirectoryservice.service.fipa.fipa.fipa. A key-value-tuple containing a signaturetype a service-signature and serviceaddress.Element Explanation Description An encoding of the reason for a particular action-status.service.fipa.messag e-transportservice org.service. A composite entity containing the service-name.service. and service-type of a service.standard .service.payloa d org.standard .standard .standard .servicetype Mandatory Mandatory Mandatory Optional Mandatory Mandatory Mandatory Mandatory Mandatory Mandatory Mandatory Mandatory Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 37 .fipa. A set of service-directory-entries. An ontology includes a vocabulary of symbols referring to objects in the subject domain. as well as symbols referring to relationships that may be evident in the domain.fipa. A message encoded in a manner suitable for inclusion in a transportmessage.servicelocationdescription org.fipa.service org. A message is expressed in an agent-communication-language.service.servicename org. Message Fully Qualified Name (FQN) org.standard .service.standard .standard .fipa.standard . A service-locator consists of the set of service-location-descriptions used to access a service.servicelocator org.standard . A service provided for agents and other services.standard . Service-type org.explanat ion org.standard .standard .fipa.fipa.service.service.servicetype org.ontolo gy Mandatory Optional Payload Service Service-address Service-attributes Service-directoryentry Service-directoryservice Service-name A directory service for registering and discovering services.fipa.fipa.servicedirectory-entry org. A unique identifier of a particular service.service.serviceroot org.standard .fipa.standard .servicedirectory-service org. and encoded in an encodingrepresentation. A unit of communication between two agents. A set of properties associated with a service by inclusion in its servicedirectory-entry. A set of symbols together with an associated interpretation that may be shared by a community of agents or software.fipa.serviceaddress org.transportmessage.

fipa.Element Signature-type Description A key-value tuple describing the type of service-signature.standard . The object conveyed from agent to agent.signatur e-type org.service.fipa.transportmessage Presence Mandatory Mandatory Mandatory Transportspecific-address Transportspecific-property A transport-specific-property is a property associated with a transporttype.messag e-transportservice.messag e-transportservice.fipa.message -transportservice.service.transport -description org. service. A transport-description is a self describing structure containing a transport-type. together with a payload containing the message.fipa.standard . og.standard .fipa. A transport address specific to a given transport-type Transport Transportdescription Transportmessage Fully Qualified Name (FQN) org.transport -specificproperty org. Transport-type A transport-type describes the type of transport associated with a transportspecific-address.standard .transport -type Mandatory Optional Mandatory Source : [11] Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 38 . It contains the transportdescription for the sender and receiver or receivers.service.fipa.standard .standard .standard.messag e-transportservice.transport -specificaddress org.transport org. A transport is a particular data delivery service supported by a given messagetransport-service.messag e-transportservice. a transport-specificaddress and zero or more transportspecific-properties.service.service.fipa.

rjcw.co. portails thématiques / Béatrice FOENIX-RIOU / Editions TEC&DOC / Copyright © 2001 / ISBN : 2-7430-0450-9 2 XML : langage et applications / Alain Michard / Eyrolles / 1999 / ISBN 2-212-09052-8 3 Comparaison des moteurs : Syntaxe de saisie et fonctions de recherche / Remarques sur les fonctionnalités de recherche et présentation du TP / Marie-Laure Malingre et Alexandre Serres / URFIST / Université Rennes 2 / février 2003 / http://www.com/Athens/Oracle/6296/lemmaitr.pdf 10 Recherche d'Information / Semaine 2 : Analyse et Indexation des documents et des requêtes et semaine 11 : Traitements de la langue naturelle pour la RI / Support de cours IFT6255 .C.com/Authoring/ASP/Personalization/techniques.BIBLIOGRAPHIE 1 Recherche et veille sur le Web visible et invisible : agents intelligents.Institut National des Techniques de la Documentation Paris / 1999-03 / accessible à partir de l’URL http://www.Hiver 2002 / Jian-Yun NIE / Département d'informatique et de recherche opérationnelle (DIRO) / Université de Montréal .uk 14 Lemmat : Un lemmatiseur d'adjectifs en français / Mickael Faivre-Macon / Devoir de Maîtrise de Traitement Automatique des Langues / soumis pour approbation. Danny Ayers.fltr.umontreal.geocities.uk/manual/hs2330.uhb.co.freeserve.5 intitulé “Agents and services” / Editor: Jeff Heflin (Lehigh University) / W3C Proposed Recommendation 15 December 2003 / Version accessible à l’URL http://www.fr/urfist/Supports/ApprofMoteurs/ApprofMoteurs_InterrogAvance.org/specs/fipa00001/SC00001L.geocities.ca/~nie/IFT6330/Russell/chapter22.htm / Pour plus d’informations : voir l’URL http://www.fipa.wdvl. Jay Cousins.Canada / accessibles à partir de l’URL http://www.w3.J.iro.umontreal.html 16 OWL Web Ontology Language Use Cases and Requirements / Chapitre 2. interfaces des grands serveurs.free.htm 13 Lemmatisation : what is it ? / extrait de l’aide du logiciel « concordance » / R. Andrew Watt.htm 15 Everything You Need to Know About Personalization : Personalization Techniques / Chris Payne / WDVL – Web Developer’s Virtual Library / 2000-11-22 / http://www.be/lemmatisation. Ann Wrightson/ Collection « Programmer to programmer »/ Wrox Team / Wrox Press / 08-2001 / 600 pages / ISBN: 1-861004-51-6 9 Language : chapter 22 / Support de cours / Intelligence artificielle : introduction / Jian-Yun NIE / Département d'informatique et de recherche opérationnelle (DIRO) / Université de Montréal .htm 4 Agents et recherche d'informations sur Internet / Pierre-Alain LE CHEVILLER / Mémoire de fin d’études 1997 / INTD .org/TR/2003/PR-webont-req-20031215/#usecaseagent Accès à des données réparties à travers le Web : méthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 39 .pdf 12 La lemmatisation / Accessible à l’URL http://tpg. annuaires sélectifs.fr/agents. Miloslav Nic.Watt / Accessible à l’URL http://www.freeserve.rjcw. Mark Birbeck. Josh Lubbel. David Dodds. de la télématique et de la télévision / 1999-09-30 / accessible à l’URL http://memoireonline. non corrigé / INALCO / dernière mise à jour de la page le 25 janvier 1998 / accessible à l’URL http://www.ac. Robert Worden.ca/~nie/IFT6255/ 11 FIPA Abstract Architecture Specification / norme FIPA du 2002-12-03 / Architecture Technical Committee / FIPA – Foundation for Intelligent Physical Agents / accessible à l’URL http://www.com/Paris/Lights/6277/agents1. Daniel RiversMoore.html 5 Les agents intelligents / Ludovic BLIN / DESS 226 Gestion des télécommunications.ucl.iro.Canada / Automne 2003 / accessible à l’URL http://www.htm 6 Les agents intelligents : essai sur la rationalité des calculs / Introduction / SALLANTIN Jean / collection Informatique / Editions HERMES / Date de parution: 1997-10 / ISBN : 2-86601-643-2 7 L’intelligence artificielle : un guide d’initiation au futur de l’informatique et de la robotique / Jacques CHALLONER / Collection Focus Sciences / Editions PEARSON Education France / Copyright © 2003 / ISBN : 2-7440-1600-4 8 Professional XML Meta Data / Chapitre 15 : inferencing systems – pages 509-514 / Kal Ahmed.