Sic 00000689

Manuscrit auteur, publi dans " X Colloque bilatral franco-roumain, CIFSIC Universit de Bucarest, 28 juin 3 juillet 2003, Bucarest
t : (2003)"
CIFSIC Bucarest 2003 Atelier D2 - Communication et complexit

Animation : C. LeBoeuf / N. Pelissier
Chercher faux et trouver juste, Serendipit et recherche dinformation

Olivier Ertzscheid Urfist - Universit des Sciences Sociales (Toulouse 1) Laboratoire Paragraphe - Universit Paris 8 Groupe "Ecritures hypertextuelles." 11 rue des Puits-Creuss - 31070 Toulouse Tl : 05.34.45.61.80 / Fax : 05.34.45.61.85 o.ertzscheid@voila.fr Gabriel Gallezot Urfist - Universit de Nice-sophia Antipolis LAMIC Ave Joseph Vallot 06108 Nice cedex 2 Tl : 04 92 07 67 26 / Fax :04 92 07 67 00 gallezot@unice.fr
Code de champ modifi Code de champ modifi
sic_00000689, version 1 - 13 Oct 2003
Rsum Merton dfinit la serendipit ainsi : "dcouverte par chance ou sagacit de rsultats que l'on ne cherchait pas". Lide mise en avant dans ce texte est de montrer comment dans un effort de matrise de l'entropie informationnelle, (2) l'essor des technologies intellectuelles de reprsentation et d'accs aux informations (3) fait chaque jour une place plus grande au phnomne de srendipit comme adjuvant prcieux de la recherche (4). Abstract Merton defines the serendipity as follows : the faculty or phenomenon of finding valuable or agreeable things not sought for . We propose to show how, in an effort to control informational entropy,(2) the rise of intellectual technologies for representation and access to information (3) makes each day a larger place to phenomenon of serendipidity as a precious additive of research (4). Mots cls : srendipit, recherche dinformation, technologies intellectuelles, entropie informationnelle Keywords : serendipity, information retrieval, informational entropy, intellectual technologies
1. Introduction
1.1 - Dfinition et origine de la srendipit
Le terme de serendipity apparat avec Walpole dans un conte oriental Voyages et aventures des trois princes de Serendip (Ceylan), o ceux-ci, ayant d'abord t forms avec soins, dans toutes les sciences, se tiraient toujours d'affaire grce leur talent exceptionnel pour remarquer, observer, dduire, toute occasion. 1. Ce terme apparat en sciences et se conceptualise avec Merton qui le dfinit ainsi : la dcouverte par chance ou sagacit de rsultats que l'on ne cherchait pas . La srendipit ( fortuit pour nos amis qubcois) est une problmatique qui na fait que rcemment son entre dans le champ des sciences de linformation francophones sous la plume de Perriault : Leffet serendip () consiste trouver par hasard et avec agilit une chose que lon ne cherche pas. On est alors conduit pratiquer linfrence abductive, construire un cadre thorique qui englobe grce un bricolage appropri des informations jusqualors disparates. [Perriault, 00]. Pour cerner ce concept et apprhender le phnomne nous indiquons ci-dessous quelques exemples clbres. Tout le monde a appris comment Christophe Colomb, cherchant la route occidentale des Indes dcouvrit en fait l'Amrique. Nombre d'autres dcouvertes tout aussi essentielles pour l'humanit ont partie lies avec la srendipit. En voici une liste non-exhaustive : le principe de champagnisation (Dom Prignon), la pasteurisation (L. Pasteur), la pnicilline (A. Fleming), les rayons X (W. Rntgen), la vulcanisation du caoutchouc (Ch. Goodyear). Citons galement d'autres dcouvertes moins "essentielles" comme le "post-it" (o comment rpondre la question : "que faire d'une colle qui ne colle pas ?"), le Caprice des dieux, le Coca-Cola, le Zyban et le Viagra
sic_00000689, version 1 - 13 Oct 2003
1.2 Rechercher ou Rechercher

Compte tenu du contexte francophone dans lequel nous prsentons ce texte, nous voulons d'abord introduire la distinction et le parallle entre le rechercher de la recherche dinformation (Information Retrieval en anglais, IR) et le rechercher de lpistm, la recherche (Research en anglais). Ce signifiant unique en franais introduit un signifi commun trouver linformation mais aussi des signifis distincts qui se trouvent quelque part dans les moyens et lobjectif. Pour lIR, les moyens ce sont des outils du traitement de linformation sur un corpus documentaire. Pour lpistm ce peut tre lempirisme ou des outils de traitement de linformation dont lobjet change et devient naturel . Lobjectif, pour lIR, cest de reprer et de ramener des infos pertinentes. Pour lpistm cest de dcouvrir, de produire de nouvelles connaissances. Enfin, pour tre complet signalons aussi dans notre domaine disciplinaire la recherche en IR qui dsigne notamment la modlisation et les tudes dusages informatiques dont lobjet est constitu par des corpus de texte, de connaissance.
1.3 - Complexit
Pour apprhender le champ de lIR et ses objectifs nous proposons de fouiller la mtaphore de laiguille dans la botte de foin qui, de faon triviale, signifie la difficult (limpossibilit) de trouver quelque chose. Chercher une aiguille dans une botte de foin peut sapprhender de diffrentes manires et ainsi correspondre plusieurs scnarios de recherche : trouver une aiguille connue dans une botte de foin connue trouver une aiguille connue dans une botte de foin inconnue trouver une aiguille inconnue dans une botte de foin inconnue trouver n'importe quelle aiguille dans une botte de foin trouver l'aiguille la plus pointue dans une botte de foin trouver la plupart des aiguilles contenues dans une botte de foin trouver toutes les aiguilles contenues dans une botte de foin pouvoir affirmer qu'il n'y a pas d'aiguille dans une botte de foin trouver des choses qui ressemblent des aiguilles dans une botte de foin connatre chaque nouvelle aiguille qui apparat dans la botte de foin trouver o sont les bottes de foin trouver des aiguilles et des bottes de foin, quelles qu'elles soient." [Koll, 00]
Source : www.granddictionnaire.com
Une vision plus globale est propose par [Toms 00], pour qui il existe trois grandes manires de chercher de l'information : - chercher de l'information sur un objet bien dfini ; - chercher de l'information sur un objet incompltement dcrit mais qui sera reconnaissable ds qu'un le rencontrera ; - trouver de l'information de manire fortuite. Ce troisime et dernier cas, fait cho l'une des dclinaisons non cites de l'aiguille et de la botte de foin : Mal chercher laiguille dans la botte de foin et la trouver quand mme . Lide mise en avant dans notre article est de montrer comment dans un effort de matrise de l'entropie informationnelle (2) l'essor des technologies intellectuelles de reprsentation et d'accs aux informations (3) fait chaque jour une place plus grande au phnomne de srendipit comme adjuvant prcieux de la recherche (4).
2. Matriser lentropie informationnelle ?

Apprhender la complexit dun phnomne ncessite le reprage et la gestion dun corpus de documents pertinent et volumineux pour extraire des informations et ensuite les transformer en nouvelles connaissances. Ce cycle de la production scientifique ce juxtapose avec le cycle du document. Ainsi, le bouclage dun cycle produit de nouvelles connaissances et consquemment de nouveaux documents. Les ides ne peuvent se former que sur des constructions cognitives antrieures prsentes sous forme dinformation dans les documents. Nous inscrivons donc la construction de connaissance dans un processus de transformation de l'information o : la connaissance est la formation des ides, l'information est la mise en forme des connaissances (in-formation) et l'information inscrite sur un support constitue un document. Litration de ce processus conduit une somme dinformations toujours plus importante que les chercheurs de toutes disciplines cherchent matriser. Internet accrot la rapidit de ce cycle et contribue plus encore lentropie informationnelle. [Gallezot, 02a]
sic_00000689, version 1 - 13 Oct 2003
Fig. 1 : le cycle de l'IST
Entropie et homognit.
Cette course la matrise de linformation continue alimenter la somme potentiellement disponible de documents, Internet contribuant dans une large mesure ce phnomne. Comme support il est celui qui assume et assure la plus grande partie de cette croissance exponentielle de linformation disponible sur les rseaux. Comme mode de diffusion et d'accs, Internet garantit cette masse d'information une homognit jusque-l jamais atteinte. Nombre de facteurs objectifs tendent tayer cette thse a priori surprenante de lhomognit de linformation sur les rseaux quand lhabitude veut que lon considre plutt comme essentiel le caractre htrogne de cette information. Reprcisons donc ce que nous entendons ici : la nature de linformation disponible sur les rseaux est effectivement profondment htrogne (validit scientifique, fracheur ditoriale, qualit graphique, etc.) Pourtant, cette htrognit sefface compltement du fait du niveau de relation entre units dinformation, qui, selon le niveau dchelle et de granularit auquel on se place (site web, systme d'information en ligne, web dans son ensemble), 2 permet daffirmer que tout est li tout . Nombre de facteurs objectifs viennent appuyer cette thse parmi lesquels les tudes qui ont tent de mesurer le diamtre du web : la dernire en date fait tat dun diamtre de dix-neuf liens [Barabasi, 99]. Cela signifie, que quelles que soient les units dinformation choisies (en loccurrence des pages web), elles se trouvent connectes par une chane dau plus dix-neuf liens. Au del de chiffres qui, du fait de la nature mme du web ne sauraient tre stabiliss, ces tudes ont surtout permis de construire une topologie de lespace informationnel tel quil se dploie sur les rseaux, en faisant merger certaines zones obscures (web invisible), dconnectes dautres zones mais tout aussi connectes entre elles, et en ce sens homognes. La recherche doutils capables de matriser linformation dans cet espace rticulaire constitue pour beaucoup un enjeu majeur. Sil est vident quil faille tendre vers une appropriation informationnelle exhaustive pour difier lpistm, la tche est incommensurable. Que reste-t-il au chercheur devant cette entropie informationnelle ? Se servir des outils adhoc pour reprer au mieux linformation pertinente, borner son rfrentiel documentaire, exprimenter, observer, valuer et produire ses rsultats laide de mthodologies prouves, de protocoles heuristiques passer des achoppements aux paradigmes scientifiques. Il existe un raccourci : la serendipit. Elle soffre et se rvle lors de dcouvertes informationnelles.
sic_00000689, version 1 - 13 Oct 2003
3. Dcouvertes informationnelles et technologies intellectuelles.

Les pratiques informatives sont multiples et constitues des usages diffrents de lensemble : reprage/collecte/traitement/diffusion de linformation. Les actions de cet ensemble sont ralises par un binme indissociable doutils et de mthodes : les technologies intellectuelles [Fayet-Scribe, 00]. Celles-ci permettent des dcouvertes informationnelles qui se transformeront, aprs un processus cratif, en connaissance. Ainsi nous distinguons la recherche dinformation de lpistm mais soulignons leur appartenance au mme processus. Le processus de cration conventionnel fonctionne sur le principe de divergence/convergence o la reconnaissance dun problme est introduite par une divergence pour converger vers une nouvelle solution. Le processus de cration par serendipit est le contraire : bien que la solution un problme soit attendue il y a divergence de parcours, lesquels conduisent un problme diffrent ou plus frquemment, la solution dun problme dont nous navions aucune connaissance [Figueirado, 01] (cf. infra, point 4.2.). Comment ds lors garder une emprise sur ce phnomne ? Si lon considre que les dcouvertes narrivent jamais par chance, il faut donc insister sur le rle de la prparation intellectuelle et/ou lintensit de lobservation et de la recherche [Van Andel, 92]. On peut aussi penser que lIR prenne en compte les phnomnes de serendipit en complment des requtes (querying) et de la navigation (browsing) pour stimuler la curiosit et encourager lexploration [Toms, 01]. Les outils qui permettent, le cross-matching, la clusterisation, la percolation sont des facilitateurs de serendipid. Ils proposent souvent des visuels qui donnent voir aux chercheurs. Nous retenons ainsi le vocable de
2
http://www.almaden.ibm.com/cs/k53/www9.final, Cette tude conjointe dAltavista, Compaq et IBM fait tat dune topologie du web en forme de nud papillon : le nud est constitu de pages hyperconnectes, la partie gauche comprend les pages qui permettent dy accder et la partie droite celles vers lesquelles pointe ce nud. Mme sil demeure, au vu de cette tude un certain nombre de pages dconnectees, cela ne fait que renforcer lhypothse dune connection optimale pour la partie sinon la plus dense, du moins la plus visible du web.
technologies procognitives employ par Licklider pour signifier limportance des outils de traitement de linformation qui servent la connaissance et passons ci-dessous en revue les techniques intellectuelles qui nous semblent favoriser la cration dlments stochastiques.
3.1 Naissance de la bibliologie.

Paul Otlet (1868-1944) peut tre considr lun des pres de la documentation et de la science de linformation. Il est le co-fondateur avec Henri La Fontaine, en 1895, de loffice international de bibliographie . Son Trait de documentation (1934) est la premire approche systmatique de ce que nous appelons aujourdhui la (les) science(s) de linformation. Cest le premier comprendre le problme que posera terme laugmentation considrable du nombre de livres et de documents, et proposer, pour y rpondre, la cration de la bibliologie, la fois comme science et comme technique gnrale pour la documentation. La plupart des ides qui fondent ce que l'on appellera lhypertexte/hypermdia sont dj explicitement prsentes chez Otlet, quil sagisse doffrir un accs automatis aux documents ou de relier chacun deux avec dautres, tout en conservant leur individualit, dans le cadre dun cerveau collectif .
3.2 Indexation associative : le MeMex.

[Bush 45] est unanimement reconnu comme le pionnier de lhypertexte/hypermdia sous sa forme actuelle. Il est tout comme Otlet confront lexplosion de la masse documentaire. Il imagine alors un systme automatis de microfiches, baptis MeMex (Memory Extender) lequel ne sera jamais effectivement ralis, mais contient dj la plupart des ides de lhypertexte. Celle-ci sont exposes dans larticle As we may think qui commence par ces mots : Consider a future device for individual use which is a sort of mechanized private file and library. . Lide de base est de reproduire le fonctionnement caractristique de lesprit humain en imaginant des machines capables de fonctionner par association et non plus selon le modle classique de lindexation. Human mind () operates by association. () Selection by association, rather than by indexing, may yet be mechanized. Son systme est dfini comme suit : A memex is a device in which an individual stores all his books, records and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory. La rvolution de lapproche de Bush peut se rsumer deux ides principales : il est possible de mcaniser le fonctionnement associatif de lesprit humain les parcours de navigation ( trails ) et daccs dans un tel environnement associatif sont des lments de construction du sens.
sic_00000689, version 1 - 13 Oct 2003
3.3 De Nelson Engelbart : l'avnement de l'hypertexte comme systme informatique et comme mode d'accs et d'organisation des connaissances.
Cest Ted Nelson, philosophe de formation, qui le premier forge le terme hypertexte dans un article ponyme donn lors de la confrence de la Fdration Mondiale de Documentation. Personnage contest, il nen demeure pas moins lun des visionnaires les plus actifs et il est lorigine de nombre de concepts aujourd'hui au cur de problmatiques importantes ( transpublishing pour les questions de droit d'auteur, versioning pour celles des archives ouvertes et des nouveaux modes de publication, etc.). Tous ces concepts prennent place dans le cadre de son projet XANADU (http://www.xanadu.net). Douglas Engelbart, chercheur au mythique SRI (Stanford Research Institute), est non seulement linventeur du systme actuel de fentrage et de la souris, mais galement le concepteur dun systme baptis Augment destin faciliter laugmentation des capacits de lintelligence humaine. By augmenting human intellect we mean increasing the capability of a man to approach a complex problem situation, to gain comprehension to suit his particular needs, and to derive solutions to problems. [Engelbart 62 p.1]. Augment peut tre considr comme le premier systme hypertextuel effectivement ralis : As part of the Augment Project, primarily designed for office automation, Engelbart () developed a system called NLS which had hypertext-like features. This system was used to store all research papers, memos and reports in a shared workspace that could be cross-referenced with each other. In 1968, he demonstrated NLS as a collaborative system among people spread geographically. [Balasubramanian 94]
3.4 Hypermdias gnrs

L'abondance de linformation ncessite un reprage accru et efficient des connaissances, qui explique lintrt pour les techniques de visualisation [Shneiderman, 97]. Lexploration informationnelle sinscrit dans cette dmarche. Plusieurs techniques peuvent bnficier de cette approche, de lanalyse statistique sur du texte la structuration et lorganisation de donnes dans des bases de connaissances (knowledge bases). Ce quil faut noter, cest la gnralisation de ce processus. Lextraction dinformation sur un seul type de donnes en vue dobtenir un rsultat prcis, ne suffit pas rendre compte de situations complexes. La globalisation dinformations sur un sujet et la visualisation sous forme graphique des rsultats dun traitement ralis par des techniques dinformation offrent des machines de vision [Virilio, 88] capables de gnrer de nouvelles connaissances, de nouveaux projets de recherche ou dautres lments de rflexion de crer. Ce sont des artefacts informationnels qui offrent une vision heuristique des rsultats de la recherche. Les formes nouvelles de documents, que lon peut qualifier de tertiaires, deviennent des adjuvants prpondrants et essentiels pour lire lensemble des documents disponibles. Ces construits sont la synthse de rsultats exprimentaux (un ensemble de donnes factuelles) et de conceptions thoriques ( travers la modlisation de la base de donnes et la gnration de liens). En revanche, les interprtations, les crations sont lies des perceptions, des appropriations personnelles des reprsentations. Cette apprhension repose sur la culture technique et informationnelle de chaque individu et sa capacit lintgrer dans son activit quotidienne, pour produire du sens sur les objets quil manipule [Gallezot, 02b]. Il ne sagit pas spcifiquement de naviguer ou dambuler, mais de fouiller les sdiments cognitifs accumuls depuis quelques annes la recherche dinformation. Les visualisations proposes mettent en lumire des liens qui nauraient pas pu tre peru autrement et peuvent faire sens auprs dun expert. Les hypermedias gnrs qui aident la lecture dinformation, ne relvent pas exactement dun choix, dune slection dinformation, mais dune composition alatoire dirige par des solidarits annotationnelles [Bachimont, 99]. Le renouvellement de ces hypermdias est li lajout de documents dans les entrepts dinformations. Un agrgat dinformations intgr dans un artefact informationnel, ntant pas connu a priori, la recherche dinformation a posteriori, peut retourner des documents auxquels le chercheur ne pensait pas. Plus encore, la mise en relation des units informationnelles peut permettre de dcouvrir des corrlations insouponnes soit par lecture directe dun rsultat, soit par inspection dun visuel. Le chercheur dtecte des faits de faon quasi fortuite. Cette rcriture alatoire et cette relecture fortuite relve de la srendipit.
sic_00000689, version 1 - 13 Oct 2003
3.5 Vers de nouvelles logiques implicites d'accs et de reprsentation des connaissances : le cas des moteurs de recherche.
Les moteurs de recherche, dans lutilisation quils font des liens comme principes de classification, ne sont pas de simples interfaces de recherche, au mme titre que celles que lon trouve sur des cdroms : ces dernires ne prennent exclusivement en compte que les mots (cls ou non) et les occurrences de ces mots. A linverse, faire le choix des liens comme principe de classement, de tri et dorganisation de linformation3, cest revendiquer clairement le choix de limmatriel ou tout le moins le choix de linformation comme mesure dune diffrence qui produit une autre diffrence [Bateson 77 p.231]. Quand nous consultons une page de rsultat de Google ou de tout autre moteur utilisant un algorithme semblable, nous ne disposons pas simplement du rsultat dun croisement combinatoire binaire entre des pages rpondant la requte et dautres ny rpondant pas ou moins (matching). Nous disposons dune vue sur le monde (watching) dont la neutralit est clairement absente. Derrire la liste de ces rsultats se donnent lire des principes de classification du savoir et dautres encore plus implicites dorganisation des connaissances. Cest ce rapport particulier entre la (re-)qute dun individu et la (re-)prsentation dune connaissance qui tait prsente dans les bibliothques de la Haute-Egypte, pour en tre vacue avec larrive des principes de classement alphabtiques. Une nouvelle logique se donne lire. Moins subjective que les principes classificatoires retenus par une lite minoritaire (clerg, etc.) elle nen est pas moins sujette caution. Les premires taient 4 douteuses mais lisibles, celles-ci le sont tout autant parce quillisibles , cest--dire invisibles : laffichage lisible dune liste de rsultats, est le rsultat de litration de principes non plus seulement
3
Comme ce fut le cas pour la rvolution entrane par l'algorithme PageRank du moteur Google (www.google.com) qui considra que la pertinence d'une page tait lie en priorit au nombre de pages la rfrenant (liens entrants) et non plus exclusivement des mesures d'occurrence linguistique. Ce critre (inspir de Garfield et de la bibliomtrie) est actuellement pris en compte par la plupart des outils de recherche. 4 pour les utilisateurs non spcialistes.
implicites (comme les plans de classement ou les langages documentaires utiliss dans les bibliothques) mais invisibles et surtout dynamiques, le classement de la liste rpondant la requte tant susceptible dvoluer en interaction avec le nombre et le type de requtes ainsi quen interaction avec le renforcement (ou leffacement) des liens pointant vers les pages prsentes dans la page de rsultat. Ainsi, mesure que se tissent, chaque instant de nouveaux liens entre les nouvelles entits (documentaires ou non) composant le rseau, mesure que ceux-ci najoutent pas simplement une complexit existante mais la reconfigurent chaque instant, et mesure que saffirment comme les plus efficaces des algorithmes de recherche, ceux systmatisant la part faite lobjectivation de phnomnes subjectifs (best practices, pages pivots et dautorit ) lhorizon qui se dessine pour la contribution des sciences de linformation lorganisation de la connaissance est dsormais celui point par [Carr et al. 99], qui indiquent, en conclusion de leur article : Le challenge est dsormais de construire des systmes capables dextraire ou dapprendre la smantique des connaissances implicites dans le mdia et de construire des associations entre ces reprsentations lies au mdia et la smantique, sans quil y ait pour cela besoin de lourdes entres manuelles de donnes. Rechercher et naviguer plus directement partir des concepts, plutt qu partir de leurs reprsentations varies, sera alors une ralit. Dans cette perspective l le rle fondamental des ontologies s'affirme chaque jour davantage (www.semantic-web.org).
4 La srendipit
4.1 Dfinition dans le contexte de lIR
Nous plaant du point de vue de l'IR dans des environnements distribus (Internet) nous dfinissons la srendipit comme la propagation dun style cognitif stable (mis en place au dbut de la session de navigation) dans un environnement diffrent mais contenant de linformation pertinente pour lusager dans le contexte initial de sa navigation et au vu de la tche quil stait assign. Constatant alors que cette procdure donne des rsultats permettant de satisfaire ses besoins de manire non prvue il va mettre en place de nouvelle stratgies de navigation lui permettant damorcer un nouveau cycle, soit en assignant un nouvel objet-cible sa recherche, soit en initiant un nouveau parcours permettant datteindre lobjet-cible initial.
Environnement 5 Environnement 4 Environnement 3 Environnement 1 Environnement 2
sic_00000689, version 1 - 13 Oct 2003
Lien hypertexte orientation Modles mentaux 1 ADAPTES Info. pertinente navigation Modles mentaux 1 Nouvel objet-cible ou nouveau parcours DESORIENTATION INADAPTES Info. non pertinente Modles mentaux 1 SERENDIPIDITE INADAPTES Info. pertinente
Temps de la session Lgende _______ : cycle 1 de recherche d'information _______ : cycle 2 de recherche d'information
Fig. 2 : Srendipit et cycle de l'IR .
4.2 Tentatives de sriation de la srendipit.

Une premire sriation de la srendipit peut tre observe partir des quatre quations de Figueiredo et Campos [Figueiredo, 01] (Cf. Fig 3). Les auteurs formalisent sous forme dquations (simplification) la serendipit en distinguant un problme (P), le contexte du problme (KP), la mtaphore (M), le contexte de la mtaphore (KM), la solution (S), le contexte de la solution (KS) et le gain de connaissance dans le processus de formulation du problme (KN). Ces quatre quations reposent en fait sur un dclencheur , la mtaphore comme moyen de provoquer la perspicacit : - mtaphore, - mtaphore inattendue - absence de mtaphore - mtaphore de lignorance Dans la premire quation la mtaphore inattendue inspire la solution. Dans la seconde quation la mtaphore inattendue conduit un nouveau problme puis une nouvelle solution. Dans la troisime quation, labsence de mtaphore impose un pragmatisme, un problme trouve cho un autre problme et propose ainsi une nouvelle solution. Dans la quatrime quation, la mtaphore de lignorance introduit lerreur dans le contexte de la description du problme, elle implique un nouveau problme, puis une nouvelle solution.
1. Pseudosrendipit, exemple dArchimede
2.srendipit avec Mthaphore, exemple de Rontgens (Xray)
sic_00000689, version 1 - 13 Oct 2003
3. Srendipit sans Mthaphore , exemple de 4.srendipt avec mtaphore de lignorance, exemple de Christophe Colomb la 2cv Citron
Fig 3 : les quations de la serendipit

De son ct, [Toms 00] propose de distinguer entre le raisonnement par analogie (favorisant la srendipit) et ce qu'elle nomme blind luck o seul le hasard est l'origine d'une dcouverte informationnelle. Ce type de srendipit peut se rencontrer dans le cas de gnrateurs alatoires de nuds (graphes) hypertextuels. Elle rappelle galement l'importance du "principe de Pasteur" selon lequel "le hasard ne favorise que les esprits prpars". Apparat ainsi l'ide qu'il est ncessaire d'amorcer le processus de srendipit, c'est dire de l'inclure dans un cycle initial de recherche. [Boursier & Van Andel, 92] proposent de qualifier ce que [Figueirado 01] ont mis en quation et parlent de srendipit positive pour dsigner l'"observation d'un fait non anticip suivi d'une abduction correcte", de srendipit ngative pour dsigner l'observation d'un fait ou accomplissement d'une tche sans interprtation juste (quation n4, C. Colomb) et enfin de pseudo-srendipit lorsque l'on cherche quelque chose qui avait dj t conceptualis mais qu'on le trouve par un autre chemin que celui initialement prvu (quation n1) La dernire tentative de sriation que nous avons repr vient du monde de l'intelligence conomique dont les problmatiques de veille garantissent le lien avec les sciences de l'information et de la communication. [Marti, 02] se focalise sur les aspects volontaristes ou proactifs de la srendipit et cite trois contextes possibles : - celui du groupe Bourbaki qui avait pris comme habitude d'inviter ses confrences de jeunes confrres en leur demandant d'intervenir sur des domaines o ils n'avaient aucune exprience, pariant ainsi sur leur fracheur d'esprit pour apporter ides neuves ; - celui de la technique du Pot de Miel quand par exemple IBM offre un accs gratuit des brevets (www.delphion.com) mais qu'il s'en sert pour reprer des tendances technologiques et observer le comportement et les requtes de ses concurrents (traage adresses IP) ;
- celui enfin du groupe 3M (leader de l'innovation), le plus proactif de tous, qui oblige ses scientifiques consacrer 15% de leur temps des axes de recherche en dehors de ceux dfinis par la R&D.
4.3. L'apport des modles de l'IR : vers une sriation plus globale. Ce paragraphe tente de mettre en avant une vue globale du processus de recherche d'information, du point de vue des diffrents types de srendipit qu'il autorise (ou interdit). Il existe 3 tats initiaux de l'IR, auxquels sont associs 3 processus, trois types de tches, qui font eux-mmes rfrence 3 grands types de modles. Etat initial Processus [ce que je cherche] Querying / Browsing Srendipit nulle [Je ne sais pas] [ce que je Searching cherche] Srendipit structurelle [Je sais] [que je ne sais pas ce Learning que je cherche] Srendipit associative [Je sais] Modles Computationnel Utilisateur Environnementaliste
Le premier cas reprsent dans ce tableau (Je sais ce que je cherche) repose sur l'ide que dans la majorit des dmarches de recherche d'information, l'utilisateur sait dj (partiellement) ce qu'il cherche. Il lui reste alors mettre en place une srie de requtes (querying) correspondant au modle computationnnel classique autoris par les systmes documentaires (boolens, langages documentaires, etc.). L'utilisateur est dans une logique de consultation et cherche savoir ce que peut lui apporter comme rsultats (matching) le systme d'information qu'il est en train d'utiliser (browsing). Cet utilisateur met en place un raisonnement de type hypothtico-dductif. La srendipit est alors quasi-nulle ou ne relve en tout cas d'aucune dmarche volontariste ou consciente. Le second cas (Je ne sais pas ce que je cherche) correspond l'objectif de l'IR selon [Belkin, 00], savoir : Helping people find what they don't know. Le processus alors appel est de type exploratoire (searching). L'utilisateur va, partir de ce qu'il sait, raisonner par infrence et abduction en fonction de son but ou de son profil . La srendipit qui se met ici en place est de type structurelle (cf. infra) Le dernier cas (Je sais que je ne sais pas ce que je cherche) est celui qui peut le plus bnficier du phnomne de srendipit. L'utilisateur ayant formalis et explicit qu'il ne sait pas ce qu'il cherche se met alors consciemment en situation d'adopter le comportement le plus simple, le plus intuitif et associatif possible, et ce quel que soit la complexit des systmes qu'il consultera. Nous sommes alors dans le cadre d'un authentique processus d'apprentissage priphrique tel que dfini par [Lave & Wenger, 91]. Dans ce processus, l'information qui sera prioritairement capte par l'utilisateur et servira de base aux associations qu'il chaffaudera pour aller au bout de sa qute, cette information donc, relve en premier lieu des proprits invariantes de l'environnement : de la mme manire que je peux utiliser un stylo comme un stylo si je veux crire, ou comme un marteau si je veux planter un clou, je peux utiliser la liste des 10 premiers rsultats d'un moteur de recherche de manire systmatique (et aller voir chacune des pages vers lesquelles ils pointent) ou de manire associative pour reprer alatoirement (dans le texte de description fourni pour chaque page par exemple) de nouveaux mots-cls, de nouveaux noms de personnes qui vont m'engager sur une autre 5 piste de recherche ou vont en l'tat constituer une rponse/solution ma question/problme . La srendipit est ici de type associative (cf. infra).
sic_00000689, version 1 - 13 Oct 2003
4.1.1
Srendipit structurelle.
Admettons pour lexemple, que nous nous trouvions dans une bibliothque, la recherche dune thse dj repre, pour construire un tat de lart sur une question donne. Non loin de la thse recherche, sur le mme rayonnage, figure une autre thse dont le titre est vocateur et dans laquelle, aprs lecture rapide, nous trouvons effectivement des informations intressantes. La srendipit ici luvre est de type structurelle : elle est lie une identification, un paralllisme
C'est ce type de processus qui est systmatis par la plupart des outils de recherche ayant fait le choix de reprsentations graphiques (Kartoo, Mapstan, etc ) pour optimiser l'instrumentalisation de ce type de srendipit.
formel, structurel (de fait on est dans le rayonnage des thses et non dans celui des journaux qui et t moins appropri pour lobjectif de notre recherche initiale). Admettons maintenant que nous effectuions la mme recherche, dans la mme bibliothque, mais cette fois en consultant lune des bases de donnes dont elle dispose : on utilisera alors les champs structurs de la base de donne pour exprimer notre requte (mots du titre, nom de lauteur, etc.). Selon la rgle de matching applicable tout type dinformation structure, lchelle du phnomne de srendipit se rduit considrablement, mme si elle reste possible (un mme auteur ayant pu rdiger deux thses diffrentes par exemple) et demeure de nature structurelle.
4.1.2
Srendipit associative.
sic_00000689, version 1 - 13 Oct 2003
Sur Internet, et plus gnralement dans tout systme distribu dinformation non-structure, ce phnomne change de nature et se donne lire avec une acuit dterminante dans les stratgies de navigation choisies par les utilisateurs. Si lon interroge un moteur de recherche en entrant une srie de mots-cls (qui peuvent tre les mmes que ceux utiliss pour linterrogation de la base de donne), deux cas se prsentent : - le moteur de recherche dispose, dans sa base de donne ou dans sa base dindex, dinformations prsentant un relatif niveau de structuration (cest par exemple le cas des annuaires de recherche si on les interroge en utilisant les catgories quils proposent) : le phnomne de srendipit structurelle reste oprant. Au vu du nombre de rsultats possibles, dans ce cas comme dans les deux premiers voqus (interrogation du rayonnage des thses ou dune base de donne), le facteur dterminant consiste limiter le silence (absence de rsultats) ; - le moteur de recherche ne dispose pas dinformation structure ce qui demeure le cas le plus frquent et les listes de rsultats quil prsente la requte de lutilisateur sont alors considrables. La srendipit se manifestant cette fois dans laffichage possible dun rsultat pertinent bien que ne correspondant pas aux termes exacts de la requte est alors de nature associative. Le facteur dterminant dans les stratgies de navigation qui seront alors mises en place par linternaute est celui qui lui permettra dviter le bruit et non plus le silence. Notons ici que le srendipit associative rsulte de la conjugaison de phnomnes smantiques, algorithmiques, individuels (usages) et techniques (rfrencement, balises 6 7 mta , spam ). On peut par ailleurs constater, avec la dernire gnration de moteurs de recherche que le facteur dterminant redevient celui du modle classique, cest--dire viter le 8 silence .
5. Conclusion
5.1. Srendipit et recherche d'information.
La srendipit dans le cadre d'un processus de recherche d'information peut-tre passagre (le temps que les modles mentaux adquats soient appels) ou devenir un mode privilgi daccs linformation dans le cadre dun processus de recherche ou de l'une de ses itrations. Elle se dcline sous deux formes exclusives (structurelle et associative) qui dpendent principalement de variables denvironnement (structur ou non). Cette srendipit a comme mrite mthodologique d'attester - sil en tait encore besoin - quil nest pas ncessairement plus facile de trouver de linformation dans un systme ordonn, structur et format que, comme cela semble tre le cas pour le web, dans un systme dinformation caractris par une forte entropie et ne disposant en tout cas daucun niveau de contrle unique9. Pour autant, il nous semble essentiel de se donner les moyens de penser la diffusion dinformation et la structuration de contenus numriques en des termes qui prendront en compte, la source, les sauts conceptuels et
En HTML, ces balises permettent aux auteurs de contrler lindexation de leurs documents. Le spam dsigne les pratiques frauduleuses qui permettent de fausser lindexation dun document (faux mots-cls ) Certaines pratiques sont ce titre tout fait clairantes du point de vue dune sociologie de la recherche dinformation, comme celle du GoogleWhacking (http://www.googlewhack.com) : Google tant le moteur de recherche le plus en vogue et celui disposant de la plus grande base dindex, cette pratique consiste formuler des requtes ne ramenant quune seule rponse. 9 Un protocole exprimental est actuellement en cours l'Universit de Toulouse 1, auprs d'tudiants en premire anne de DEUG de droit pour valuer les usages novices en recherche d'information. Le phnomne de srendipit peut ainsi tre "exprimentalement" observ.
7 8 6
autres ruptures darborescence dont se nourrit la srendipit. Les principales voies de recherche uvrant actuellement dans ce domaine sont celles du web smantique, des hypermdias d'apprentissage et bien entendu des approches thoriques de la recherche d'information (IR). Paralllement, une tude globale des scnarios de navigation disponibles sur le web [Ertzscheid 02] doit permettre didentifier quelques invariants qui, leur tour, constitueront un recours prcieux permettant d'aller dans le sens dune plus grande adquation entre les objectifs viss par lhypertexte, les habitus techniques sollicits et les styles cognitifs luvre chez lutilisateur.
5.2.
Recherche d'information et complexit
sic_00000689, version 1 - 13 Oct 2003
Au vu des quelques lments dcrits dans cet article (contexte rseau, diachronie des techniques de gestion de l'information, nouvelles approches de l'indexation et nouveaux biais, nouveaux comportements et nouvelles pratiques), il nous semble que le champ d'tude que constitue la recherche d'information doit tre dfini comme un processus d'apprentissage dynamique. C'est la lumire de ce processus que devient chaque jour plus perceptible le renouvellement des technologies intellectuelles de classement, de reprsentation et d'accs aux connaissances. Dans l'utilisation qui est faite des ontologies, dans les thmatiques qui mergent de domaines connexes l'InfoCom (ingnierie documentaire, ingnierie des connaissances, hypermdias pdagogiques, etc ), dans les perspectives ouvertes par le web smantique et la main mise sur le web de technologies agents de plus en plus sophistiques et transparentes, il semble clair que ce renouvellement des technologies intellectuelles passe par la combinaison - au sein de systmes d'informations (euxmmes de plus en plus complexes et distribus) - de modles formels hrits et de modles plus ouverts, c'est dire intgrant l'entropie comme partie intgrante du processus. Alors, au prix de la mise en uvre d'un cycle cohrent et reprable de gestion des connaissances, l'mergence peut tre prise en compte, de nouveaux lments d'information voir le jour et le processus de recherche bnficier de cet enrichissement constant en le dclinant sur plusieurs niveaux dpendant de l'acculturation de l'usager ces phnomnes. C'est, nous semble-t-il, ce prix que l'adquation ncessaire entre les mthodologies de recherche et le monde et/ou les objets qu'elles veulent cerner et dcrire demeurera prenne.
5.3.
Srendipit et hypertexte
Si l'hypertexte et plus globalement les hypermdias gnrs constituent un terrain d'observation et d'exprimentation privilgi pour l'tude de la srendipit c'est parce qu'ils sont l'unique moyen d'organisation et de classification des connaissances qui offre comme capacit inhrente la cration 10 de classifications latrales. [Balasubramanian 94] C'est cette dimension de latralit que tentent en permanence d'implmenter diffrents outils de recherche pour offrir des pistes d'accs des mondes des plus en plus complexes11.
5.4.
Srendipit et crativit
Apprhender dans leur complexit les phnomnes, les objets de recherches semble une tche 12 impossible. Pour sortir de la boucle rcursive ou graphe complexe le chercheur doit entreprendre diffrentes stratgies et opter pour les choix qui soffrent lui. La troisime voie est introduite par la srendipit. Elle est une approche socio-cognitive de la recherche dinformation et impose labduction comme heuristique. Pour tenter dexpliquer linfluence de la srendipit en matire de construction de connaissances, il semble que deux dimensions soient retenir : limportance du contexte et le transfert de comptences dans une situation nouvelle (mtaphore). Le contexte est notamment compos de la connaissance et des technologies intellectuelles qui la manipulent. Le transfert de comptences dans une situation nouvelle est li lappropriation dune culture technique et informationnelle, de savoirs par les chercheurs et leur capacit transposer, transfigurer des phnomnes, des problmes.
On parle de latralit en recherche documentaire propos de la reformulation de requtes. De Bono, "Lateral Thinking", Penguin Books, 1990 Voir notamment le mouvement init par les "Folders" de Northernlight, repris actuellement par des outils comme Vivissimo ou constituant le cur de technologie de socits (Exalead). 12 Morin E, La mthode
11 10
La srendipit se ralise alors par lappropriation individuelle du contexte socio-technique, une lecture spcifique, crative du rservoir cognitif et instrumental. Les chercheurs les plus en phase avec le contexte socio-technique favorisent ainsi leur perspicacit et la mise en uvre dartefacts informationnels qui permettent de faire apparatre des lments stochastiques. Lors dachoppements du processus de production scientifique ou de surcharge cognitive [Ertzscheid 03], quand il est impossible de rendre compte de phnomnes, un saut qualitatif doit tre ralis la srendipit guette.
6. Bibliographie
Bachimont B., Du texte lhypotexte les parcours de la mmoire documentaire , Technologie, Idologies, Pratiques, n spcial Mmoires collectives , 1999. Balasubramanian V., State of the Art on Hypermedia Issues And Applications. [en ligne] http://www.isg.sfu.ca/~duchier/misc/hypertext_review/, consult le 26/10/2001. Barabasi, A.-L, Jeong H., Albert R., The Diameter of the World Wide Web , pp.130-131 in Nature, 401, 1999. [en ligne] http://xxx.lanl.gov/PS_Cache/cond-mat/pdf/9907/9907038.pdf, consult le 05/07/2002. Bateson G., Vers une cologie de lesprit, T. 1. Paris, Seuil, 1977.
sic_00000689, version 1 - 13 Oct 2003
Belkin N., Helping People Find What They Don't Know, in Communications of the ACM, August 2000, Vol. 43, No. 8. Boursier & Van Andel, Serendipity : expect also the unexpected , creativity and innivation management, vol 3, p.20-32, 1992. Bush V., As We May Think. , pp. 101-108, in The Atlantic Monthly, vol.1, n176, Juillet 1945. [en ligne] http://www.isg.sfu.ca/~duchier/misc/vbush, consult le 07/02/1998. Carr L., Hall W., Lewis P.H., De Roure D., The significance of Linking. , in ACM Computing Surveys, vol. 31, n4, Dcembre 1999. [en ligne] http://www.cs.brown.edu/memex/ACM_HypertextTestbed/papers/20.html, consult le 22/03/2002. Engelbart D.C., Augmenting Human Intellect : a Conceptual Framework , Summary Report, AFOSR-3233, Stanford Research Institute (SRI), Contract AF49(638)-1024, SRI Project N 3578, Octobre 1962. [en ligne] http://www.histech.rwth-aachen.de/www/quellen/engelbart/ahi62index.html, consult le 03/03/2002. Ertzscheid O., Les enjeux cognitifs et stylistiques de lorganisation hypertextuelle, Thse en Sciences de linformation et de la communication, Universit de Toulouse 2, sous la dir. de FC Gaudard & J. Link-Pezet, 450 pages. [en ligne] http://www.ertzscheid.net, consult le 10/06/03. Ertzscheid O., "Syndrome d'Elpenor et srendipit : deux nouveaux paramtres pour l'analyse de la navigation hypermdia." in Actes du colloque H2PTM'03. Editions Herms, septembre 2003 Fayet-Scribe S. histoire de la documentation en France : Culture science et technologie de linformation, CNRS ditions, 2000. Figueirado A. Dias de, Campos J., "The Serendipity Equations". Proceedings of the Workshop Program at the Fourth International Conference on Case-Based Reasoning, ICCBR 2001, Technical Note AIC-01-003. Washington, DC: Naval Research Laboratory, Navy Center for Applied Research in Artificial Intelligence [en ligne] max.ipv.pt/pub/AdeFigueiredo01.pdf Gallezot G., La recherche in silico In : Chartron G. (dir.) Les chercheurs et la documentation lectronique : nouveaux services, nouveaux usages, Edition du cercle de la Librairie, Coll. Bibliothque, juillet 2002.
Gallezot G., "Exploration informationnelle et construction des connaissances en gnomique", Les Cahiers du numrique, Herms, vol.3, n3, novembre 2002. Kleinberg J. L. S., The structure of the web , Science, vol 294, 30 nov. 2001, p 1849-1850. Koll Matthew, Information Retrieval, bulletin de Jasis vol. 26, N2 Dec/jan 2000. <http://www.asis.org/Bulletin/Jan-00/track_3.html> Kolmayer Elisabeth, Peyrelong Marie-France, Partage de connaissances ou partage de documentts , Document numrique . vol 3(3/4):283-299. 01 dcembre 1999. et http://archivesic.ccsd.cnrs.fr/documents/archives0/00/00/01/00/index_fr.html Lave G., Wenger E., Situated Learning : Legitimate Peripheral Participation. New-York, Cambridge University Press, 1991. Marti Y.-M., "Dirigeants : quelle posture de combat ?" <http://www.Egideria.fr/posturecombat.html> Perriault J., Effet diligence, effet serendip et autres dfis pour les sciences de linformation. [en ligne] http://www.limsi.fr/WkG/PCD2000/textes/perriault.html, consult le 15/02/01. Shneiderman, B. Designing the User Interface: Strategies for Effective Human-Computer Interaction. Addison-Wesley Publishing Company, Reading, MA, 1997. Toms Elaine G. Serendipitous Information Retrieval < http://www.ercim.org/publication/wsproceedings/DelNoe01/3_Toms.pdf > Virilio, P., La machine de vision, Ed. Galile, Paris,1988.
sic_00000689, version 1 - 13 Oct 2003

Sic 00000689

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sic 00000689

Uploaded by

Copyright:

Available Formats

Manuscrit auteur, publi dans " X Colloque bilatral franco-roumain, CIFSIC Universit de Bucarest, 28 juin 3 juillet 2003, Bucarest

CIFSIC Bucarest 2003 Atelier D2 - Communication et complexit

Chercher faux et trouver juste, Serendipit et recherche dinformation

Code de champ modifi Code de champ modifi

sic_00000689, version 1 - 13 Oct 2003

sic_00000689, version 1 - 13 Oct 2003

1.2 Rechercher ou Rechercher

2. Matriser lentropie informationnelle ?

sic_00000689, version 1 - 13 Oct 2003

Fig. 1 : le cycle de l'IST

sic_00000689, version 1 - 13 Oct 2003

3. Dcouvertes informationnelles et technologies intellectuelles.

3.1 Naissance de la bibliologie.

3.2 Indexation associative : le MeMex.

sic_00000689, version 1 - 13 Oct 2003

3.4 Hypermdias gnrs

sic_00000689, version 1 - 13 Oct 2003

sic_00000689, version 1 - 13 Oct 2003

Fig. 2 : Srendipit et cycle de l'IR .

4.2 Tentatives de sriation de la srendipit.

1. Pseudosrendipit, exemple dArchimede

2.srendipit avec Mthaphore, exemple de Rontgens (Xray)

sic_00000689, version 1 - 13 Oct 2003

Fig 3 : les quations de la serendipit

sic_00000689, version 1 - 13 Oct 2003

sic_00000689, version 1 - 13 Oct 2003

Recherche d'information et complexit

sic_00000689, version 1 - 13 Oct 2003

sic_00000689, version 1 - 13 Oct 2003

sic_00000689, version 1 - 13 Oct 2003

You might also like