LA QUALITE DE L’INFORMATION SUR INTERNET

Présentation – IFU

 Quels sont les objectifs d’une bonne
recherche sur internet ?

 Qu’est-ce qu’une bonne recherche?  Disposer d’une information de
qualité ?

Objectifs d’une bonne maîtrise de la recherche sur internet

 Attention à l’information !  Trouver le bon outil de recherche  Etablir une bonne stratégie de recherche  Trouver la bonne combinaison de mots clés

L’INFORMATION SUR LE WEB : quel est votre niveau de confiance ?

Présentation – IFU

Pourquoi la qualité de l’information varie-t-elle?

 N’importe qui peut mettre de l’information en
ligne un «expert » comme un « plaisantin »

 De n’importe quel lieu géographique  On peut dire ce que l’on veut : vrai ou faux  On peut laisser l’information aussi longtemps
qu’on le souhaite

 Ou la faire disparaître sans avertissement

Ex d’une bibliothèque :

 L’auteur a vérifié son travail d’écriture  Le rédacteur l’a sélectionné en vue d’une   

possible publication Puis l’éditeur a décidé qu’il fallait le publier Peut-être qu’un préfacier l’a commenté Et le bibliothécaire a pensé qu’il était suffisamment intéressant pour le sélectionner

 Sur internet : aucune vérification

Sur internet : la technique du WWW – des 3 W

 Who  qui écrit l’information? Qui l’a publié? Est-ce     
une source fiable? Est-ce qu’on veut me convaincre? Me vendre quelque chose? M’informer? Me désinformer? Chercher : le nom de auteur – le nom de l’organisation qui publie « About Us »- un contact – une URL Where D’où provient l’information? Que sait-on de sa production? When Est-elle mise à jour?

Que trouve-t-on sur Internet?

 un panorama unique d’informations de toute
nature en un temps record.

 des bases de données et catalogues de 

bibliothèques http://www.cairn.info/accueil.php?PG=START

 des extraits de livres http://scholar.google.com/  des revues généralistes ou spécialisées , des
articles de journaux ;

 des rapports d’activités etc….

MAITRISER INTERNET Internet : qu’est-ce que c’est?

INTERNET Contraction de : Inter Network

l'interconnexion de multiples réseaux : « le réseau de réseaux » qui permet de relier des ordinateurs de toute taille

Des protocoles font fonctionner le réseau

 Protocole = série d'étapes à suivre pour permettre
une communication harmonieuse entre plusieurs ordinateurs.

 Internet désigne : ensemble de protocoles 
HTTP : (Hyper Texte Transfert Protocol) :
 pour consulter les pages web

regroupés sous le terme "TCP-IP" (Transmission Control Protocol/Internet Protocol)

 FTP (File Transfert Protocol)
 pour transférer des fichiers

 SMTP (Simple Mail Transfert Protocol)
 pour envoyer des mails

Protocoles (suite)

 POP
 pour recevoir des mails,

 IP (internet Protocol) :
 attribue une adresse lors de votre connexion à un serveur.

Lire une adresse URL (Uniform Resource Locator)

:

(de l’ordinateur)

document HTML situé sur le serveur du département de chimie de l'université Laval

Adresse

 Donne une connaissance intuitive sur sujet

 Que peut-on savoir?

 Attention : le nom d’un site peut-être
trompeur

 1. Whitehouse.org  2. Whitehouse.gov  3. Whitehouse.com

La structure de l’adresse URL (Uniform Resource Locator) Adresse d’un site ou d’une page

:

 http
 correspond au protocole de transmission des données

 www

 , correspond aux initiales du web (world wide web)  correspond au domaine de l’organisme, de la personne, du service, etc.

 Nom de domaine

 Extension ou initiales
 correspond à l’activité
 com : organisations à but commercial, .net : entreprises dans le domaine des réseaux, .org : organisations à but non lucratif;

 Correspond à la situation géographique
Suffixes pays .eu - .ca - .fr...

Les noms de domaine

 conçus pour simplifier l’utilisation de
l’internet
 plus facile de retenir et taper un nom de domaine
 ex : http://www.google.fr

 qu’une adresse IP
 http://216.239.59.104

LA RECHERCHE D’INFORMATION SUR INTERNET Comment accéder à l’information ?

Les outils de recherche

  

Les annuaires Les moteurs de recherche Les méta-moteurs

Qu'est-ce qu'un annuaire ?

Outil (pages jaunes) qui recense un certain nombre de sites au travers de fiches descriptives
 classés dans les catégories par des personnes, les surfeurs  catégories définies par des spécialistes, des documentalistes

regroupe les sites internet dans des catégories thématiques
 La recherche s'effectue en entonnoir : vous cliquez sur une

catégorie, puis une sous-catégorie... Ainsi de suite, jusqu'à atteindre le site qui vous intéresse.  La recherche sur un annuaire s ’effectue sur les mot-clés saisis dans les fiches descriptives des sites, et non pas dans les pages des sites en question

Qu'est-ce qu'un moteur de recherche ?

 Robots logiciels (crawlers ou spiders) qui 

scrutent le Web, de page en page Sauvegardent au fur et à mesure le contenu texte des pages rencontrées dans un "index" (collection plus ou moins grande de pages Web)
 "index" = plusieurs centaines de millions de pages  Ces robots sont des programmes informatiques fruits du travail commun de linguistes, statisticiens et informaticiens.  le "lot" de pages contenant le terme demandé identifié, le moteur classe les pages par ordre de pertinence, selon un ordre et un algorithme (basé sur certains critères de tri) qui lui est spécifique.

Ex de critères de tri pour le calcul de pertinence

 place du mot dans la page
(page contenant le mot demandé en haut du document sera mieux "notée" qu'une autre le présentant en bas de page)

 mise en exergue (gras, taille des caractères, etc.) ;  présence du mot demandé dans l'adresse de la page
(urbanisme-mag.tm.fr
ou

urbanisme.equipement.gouv.fr

 Indice de popularité du document
 nombre de liens "pointant" vers cette page sur le Web  nombre de clics (à chaque consultation d'un internaute, le moteur va noter sur quel lien il a cliqué et quel était le classement de ce lien. Il calcule ensuite combien de temps l'utilisateur met avant de revenir sur la page de résultats du moteur. S'il ne revient pas, il en "déduit" que le site proposé était a priori pertinent. Son adresse sera alors mieux classée dans les résultats suivants, lors d'une interrogation sur le même mot-clé.

Le délai de rafraîchissement d'un moteur

 Temps passé entre deux passages de son
robot pour sauvegarder une version plus récente d'une page.

 2 à 4 semaines pour la plupart des moteurs,
mais peut, temporairement, être beaucoup plus "élastique".

Annuaires / Moteurs Connaître leurs limites
Le référencement n'est pas exhaustif : il porte seulement sur les sites sélectionnés par les personnes. Le classement par catégories et la description de chaque site restent subjectives. L'actualisation des sites référencés ne se fait pas automatiquement, mais en fonction des disponibilités des personnes chargées de l'opération. Risques d’informations périmées. Délais de rafraîssement des index Critères de pertinence des résultats Syntaxe des moteurs de recherche (OU – ET – « … » etc)

Quels éléments de syntaxe à retenir ?

 Caractères minuscules sauf pour les sigles ?  Guillemets pour la recherche sur des expressions Inscrivez les opérateurs ET, AND, AND NOT, SAUF toujours en majuscules  Pas d’espace entre l’opérateur* et le mot ?  Si vous hésitez dans l’ordre des mots, saisissez en premier le terme le plus précis.  Sélectionnez la langue (n’hésitez pas à utiliser la version anglo-saxonne des outils de recherche)

Les méta-moteurs

 Outils qui, pour une même interrogation,
activent plusieurs moteurs de façon simultanée
 rapatrient les résultats,  Les synthétisent et  proposent un récapitulatif des réponses données.

 Limites et difficultés
 Syntaxe différentes aux différents moteurs  Restitution des résultats propres à chaque moteur  Quelle est la qualité de la synthèse du méta-moteur?  Risque de fragilisation du modèle des moteurs qui se financent sur la pub affichée (les méta moteurs ne donnent plus accès aux pages de pub des moteurs et ont leur propre pub…)

Tester

 http://outils.abondance.com/

Méta moteurs

 http://www.ariane6.com/  http://www.netoo.fr/  http://www.kartoo.com/
(visualisation cartographique)

 http://www.search.com/

LA RECHERCHE D’INFORMATION SUR INTERNET Méthodologie de recherche

Le plus utilisé : google

 « Pour » :
 Utile pour trouver des informations très précises  Peut fournir des informations quelque soit le sujet

 « Contre »
 Fournit trop de résultats – temps de recherche disproportionné  Peut fournir des informations peu pertinentes voir inappropriées

Durée de la recherche

 

En connaissant bien les outils de recherche et en appliquant les bonnes méthodologies, On doit savoir deux choses en une demiheure 1. Si l'info recherchée se trouve ou pas sur le Web. 2. Si elle s’y trouve : il faut avoir identifié les sources fiables d'information

Quelques conseils simples

Quatre étapes incontournables dans la recherche d’information sur le web : un bon choix de mots-clés descriptifs en rapport au thème traité ; un bon choix de l’outil de recherche adapté à l’information désirée ; une bonne connaissance de la syntaxe d’interrogation ; une bonne interprétation des résultats.

Les mots clés : Veiller à trouver les mots les plus appropriés

Trouvez les mots clés – posez-vous les bonnes questions et recherchez !

     

Quel est votre sujet précis de recherche ? Quels sont les 3 ou 4 mots clés ou concepts sur votre sujet ? Y a-t-il d’autres mots qui décrivent ces concepts ? Y a-t-il des mots spécifiques qui pourraient limiter votre recherche ? (limitation territoriale par ex) Comment pouvez-vous combiner les mots ensemble pour optimiser la recherche ? Les opérateurs AND – OR

Utilisez de préférence

 les annuaires pour :
 explorer un sujet, trouver des sites ressources dans un domaine, trouver des sites similaires

 les moteurs pour :
 trouver une information précise sur une personne, un organisme, un produit... effectuer des recherches complexes en utilisant la puissance de la syntaxe, repérer des sites récents non indexés encore par les annuaires

les méta moteurs pour
 débroussailler rapidement un sujet

LA RECHERCHE D’INFORMATION SUR INTERNET Et le web invisible ?
(deep web, hidden web)

Le web invisible

 Non accessible aux moteurs classiques – web
profond : car ne peut être exploré par les moteurs

 Les robots des moteurs se heurtent à des
obstacles et sont incapables d'indexer certains documents du web invisible

 Google, MSN/Live Search, Yahoo! Search
donnent accès à moins de 10% du web visible !!

Le web invisible

 certains documents sont trop volumineux pour être entièrement indexés (Les 7 millions de pages d’un site ne sont indexés par les moteurs conventionnels indexation varie entre 5 et 60 % selon les moteurs).  certaines pages sont interdites de référencement car l'auteur les protège (Le Monde interdit l’accès aux pages payantes)  l'accès à certaines pages est protégé par un mot de passe  Certains formats de fichiers ne sont reconnus par les moteurs de recherche

 Etude Bright Planet  Web invisible serait 260 fois plus vaste que le web visible.

les 60 sites les plus importants représentent à eux seuls plus de 40 fois le volume du web visible soit 550 milliards de pages.

Ce sont des sites scientifiques (NASA), des bases de donées (Lexis Nexis, Dialog), des sites universitaires (Berkeley), de médias et presse (USAToday), de commerce en ligne (e-bay), des sites internes de grosses

ACCES A UN REPERTORIE DE BASES DE DONNEES GRATUITES SUR iNTERNET

 http://dadi.univ-

lyon1.fr/index.php?page=search

Quatre catégories d’outils pour exploiter le web profond

    

Les portails (Sites fédérant de nombreuses ressources (articles, forums...) organisées autour d'un annuaire thématique). les bases de données et serveurs de banques de données ; les répertoires sélectifs (sites sélectionnés de manière qualitative et portails spécialisés) http://www.intute.ac.uk les moteurs de recherche ou méta-moteurs spécialisés (qui interrogent simultanément plusieurs outils tout en étant spécialisés dans une thématique) ; les bibliothèques en ligne.
 La plupart de ces outils sont gratuits : à peine 1,1 % des sites du web invisible proposent un contenu entièrement payant. (banques de données tels que Dialog, Factiva ou encore Lexis Nexis).