PEDAGOGIE : LES OUTILS DE RECHERCHE ?

 

 

 

Les annuaires et portails thématiques ?

Les moteurs et les Méta-moteurs ?

Les agents intelligents ?

Utiliser un Moteur de recherche : syntaxe ?

 

 

RETOUR au MENU ANNUAIRES

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

L'annuaire de recherche ou Portail thématique
L'annuaire est un site index, organisé en catégories et sous-catégories. La page d'accueil propose les catégories principales, rarement plus d'une douzaine.

La recherche sur un annuaire se fait uniquement sur la catégories, le titre et la description : aucune recherche n'est faîte plus en avant à l'intérieur des sites. Les annuaires sont donc surtout utilisés pour une recherche par marque, par titre, ou thème : 

en tapant 'chamois en Savoie', il y a peu de chance que vous obteniez une réponse pertinente.
Les sites y sont référencés avec les caractéristiques suivantes:

bullet

Catégories : une (parfois plus) qui se rapproche le plus du sujet du site inscrit

bullet

Le titre : généralement très court

bullet

Le descriptif : précisant la nature et le contenu du site

 

Les annuaires sont conçus et contrôlés par des documentalistes. Ce sont eux qui en agréent le nom, le contenu et les caractéristiques décrites. Ils ne prennent en compte qu'une seule adresse par site : inutile de soumettre toutes vos pages !
La plupart des annuaires sont tenus par des documentalistes salariés qui sont débordés et ne peuvent pas passer des heures sur un site : ils en rejettent par conséquent souvent. 

Par contre, chez Open Directory ce sont des passionnés bénévoles (du monde entier) qui gèrent les catégories de son annuaire. Résultat : nombre de sites inscrits sont pertinents et intéressants. Les annuaires de recherche les plus réputés sont Yahoo! [fr] et Open Directory.

Le moteur de recherche
Les moteurs de recherche fonctionnent différemment. Ils ne sont pas gérés (sauf hybrides) par des humains. Ce sont des programmes, appelés robots ou 'spiders', qui se chargent de trouver automatiquement les informations sur le net. 

Le moteur recherche dans une page complète avec un algorithme complexe. Il suit également les liens qui pointent vers d'autres pages (du site ou non : travail d'un autre robot appelé 'crawler'). Le moteur puise donc les informations dans l'ensemble des pages du site.
Le moteur de recherche est plutôt utilisé pour la recherche d'informations plus précises.
Moteur référent : Altavista [fr]  


Le méta-moteur de recherche

Le méta-moteur utilise les index de plusieurs moteurs pour effectuer sa recherche. 

Vous aurez ainsi davantage de réponses, les meilleurs donnent des résultats très pertinents.
En voici quelques-uns: MammaAriane

 

Les Agents intelligents :

 

 

Informations extraites de : Carlo Revelli: "Intelligence stratégique sur Internet" - Dunod

 

Comme leur nom l’indique, le but est simple : optimiser la recherche d’informations sur Internet. Ils sont d’une grande diversité et l’on peut distinguer diverses sous-catégories. 

Cependant, la lenteur de leur action est telle qu’on les utilise surtout pour des recherches complexes ou à chaque fois que l’on mise sur l’exhaustivité.

Meta-moteurs "on-line"
Ils ne constituent pas des agents à proprement parler puisqu’aucun logiciel client n’est installé et toutes les recherches sont réalisées en ligne à partir d’un site web (par exemple celui de MetaCrawler, SavvySearch ou de ProFusion). Comme nous l’avons dit, il s’agit d’une « race hybride » qui permet d’utiliser plusieurs outils simultanément (aussi bien des répertoires que des moteurs de recherche). En d’autres mots, en remplissant un seul formulaire, vous interrogez simultanément plusieurs outils de recherche sans devoir aller sur chacun des sites, ce qui implique d’importantes économies en terme de temps...

MetaCrawler (accès direct)

Meta-moteurs "off-line"
Le prolongement logique des métamoteurs "on-line" est incarné par des logiciels qui s’installent sur votre ordinateur et qui en principe pallient les inconvénients que nous venons de voir. Le principe de fonctionnement est exactement le même. Pour chaque requête, ils interrogent plusieurs outils de recherche et éliminent les doublons. Mais ce qui fait leur originalité, c’est que vous n’avez pas besoin de vous connecter directement à Internet pour les faire fonctionner. En effet, vous définissez d’abord « off-line » votre stratégie de recherche et ...
Commandez maintenant "Intelligence Stratégique sur Internet" pour avoir une description complète des outils, des méthodes et des applications concrètes.

Fiche Copernic
Fiche Inforia Quest
Fiche Matahari
Fiche WebFerret

Agents de recherche avancés
Certains agents de recherche présentent des fonctionnalités parfois très intéressantes. La fonction commune à tous les agents précédemment décrits consiste à interroger, à partir de mots-clefs choisis par l’utilisateur, uniquement les moteurs qui ont été sélectionnés. Cela dit, un certain nombre de sociétés ont développé des fonctions supplémentaires:
- Personnalisation par secteur d'activité.
- Veille, filtrage et archivage des résultats.
- Analyse linguistique des requêtes.
- Analyse des résultats.
Comme nous l’avons déjà souligné, il est souhaitable de bien maîtriser les différents moteurs de recherche avant de se décider à utiliser ces agents. Par ailleurs, si vous recherchez une personne, une société, un produit, un logiciel ou toute autre information, et que vous ne souhaitez pas utiliser manuellement chaque outil de recherche, utilisez quand même la méthodologie de recherche que nous avons décrit auparavant (cf. page 83)....
Commandez maintenant "Intelligence Stratégique sur Internet" pour avoir une description complète des outils, des méthodes et des applications concrètes.

Parfois, les agents de recherche que nous citons peuvent accomplir à la fois des tâches de recherche d’informations et de veille. Pour cette raison, certains apparaissent à la fois sous différentes rubriques.

 

Naturellement, sur le «réseau des réseaux» l'incertitude terminologique n'est pas des moindres. Il suffit de voir l'éventail folklorique des appellations utilisées : intelligent agents, search agents, software agents, internet agents, interface agents, web agents, personal agents, autonomous agents, bots, softbots, knowbots, userbots, robots, personal assistants, wizards, etc .

Quoi qu'il en soit, les «outils classiques» que nous avons étudiés auparavant (moteurs de recherche, répertoires, métamoteurs...) ne sont absolument plus suffisants à partir du moment où l'on souhaite mener des activités de veille sur Internet. Les outils traditionnels sont très utiles pour des recherches d'informations ponctuelles. En effet, leur réactivité immédiate les rend parfois plus intéressants que les agents de recherche qui, comme nous le verrons, sont très lents. Mais à partir du moment où les recherches deviennent plus complexes ou récurrentes, il faut envisager d'installer des agents plus ou moins intelligents...

Ayant défini l'environnement de travail qui nous intéresse (Internet et par conséquence aussi l'intranet) et la mission que nous souhaitons attribuer aux agents (intelligence stratégique), il est possible d'identifier différentes catégories. Cela dit, aussi bien les catégories que les agents qui les composent sont en perpétuelle évolution.

Chaque mois, plusieurs nouveaux agents sont introduits sur Internet. Au moment où vous lirez ces pages, de nombreux nouveaux agents auront vu le jour. Pour cette raison, nous avons créé un laboratoire de test sur notre site web dans lequel le lecteur pourra découvrir les dernières nouveautés et les tester directement en les téléchargeant. En effet, un agent fonctionne exactement comme un logiciel. Normalement, il faut identifier le site du revendeur sur Internet, télécharger l'agent, l'installer sur votre ordinateur et apprendre à l'utiliser.
Dans notre laboratoire, nous avons essayé de simplifier toutes ces démarches. À partir d'une adresse unique (http://www.agentland.com) , les meilleurs agents disponibles sur le marché sont étudiés, téléchargés et testés. Dans tous les cas, en annexe de cet ouvrage vous trouverez une sélection des principaux agents qui existent à l'heure actuelle.

 

Agents pour la recherche d'informations
Comme leur nom l'indique, le but est simple: optimiser la recherche d'informations sur Internet. Ils sont d'une grande diversité et on peut distinguer plusieurs sous-catégories.
Cependant, la lenteur de leur action est telle qu'on les utilise surtout pour des recherches complexes ou à chaque fois que l'on mise sur l'exhaustivité .

Les métamoteurs "on-line"
Nous avons déjà décrit ces outils (voir p. 65). Ils ne constituent pas des agents à proprement parler puisqu'aucun logiciel client n'est installé et toutes les recherches sont réalisées en ligne à partir d'un site web (par exemple celui de MetaCrawler, SavvySearch ou ProFusion). Comme nous l'avons dit, il s'agit d'une «race hybride» qui permet d'utiliser plusieurs outils simultanément (aussi bien des répertoires que des moteurs de recherche). En d'autres mots, en remplissant un seul formulaire, vous interrogez simultanément plusieurs outils de recherche sans devoir aller sur chacun des sites, ce qui implique d'importantes économies en terme de temps. Nous avons aussi vu qu'ils présentaient quelques inconvénients importants. D'une part, ils tendent à interroger par défaut des outils de nature très différente que l'on n'utilise pas souvent ensemble (par exemple Yahoo! avec AltaVista). D'autre part, ils ne permettent pas toujours d'utiliser les fonctions avancées de recherche (comme les opérateurs booléens). Nous en avions conclu que leur principal atout consiste à débroussailler très vite le terrain et qu'ils représentent un compromis très intéressant quand, en un minimum de temps, on souhaite interroger un nombre maximum d'outils.

Les métamoteurs "off-line"
Le prolongement logique des métamoteurs "on-line" est incarné par des logiciels qui s'installent sur votre ordinateur et qui en principe pallient les inconvénients que nous venons de voir. Le principe de fonctionnement est exactement le même. Pour chaque requête, ils interrogent plusieurs outils de recherche et éliminent les doublons. Mais ce qui fait leur originalité, c'est que vous n'avez pas besoin de vous connecter directement à Internet pour les faire fonctionner. En effet, vous définissez d'abord off-line1 votre stratégie de recherche en choisissant les mots clés appropriés et les outils que vous souhaitez utiliser pour chaque mission. Vous pouvez aussi définir l'heure et la périodicité de votre recherche ainsi que l'endroit où vous voulez que l'agent stocke le fruit de ses efforts. De cette manière, le moment venu, l'agent active spontanément une connexion sur Internet, interroge les outils de recherche avec les mots clés que vous lui avez donnés, fusionne les résultats en éliminant les doublons, les enregistre sur votre disque dur et enfin se déconnecte pour se reposer un peu...

Vous pouvez consulter alors son travail sans devoir vous connecter, ce qui permet de bénéficier d'une vitesse d'affichage quasi instantanée, tout étant enregistré sur votre ordinateur. On comprend vite les avantages de tels outils. D'abord, contrairement aux métamoteurs on-line ( MetaCrawler, Savvy-Search...), vous pouvez sélectionner librement les moteurs à utiliser parmi des listes de plus en plus exhaustives. Vous ne serez plus obligé de lancer AltaVista avec Yahoo!. Certains agents permettent de rajouter n'importe quel instrument de recherche même s'il n'est pas présent au sein de leur liste de choix. Ensuite, de plus en plus souvent, ils permettent d'utiliser des opérateurs complexes pour mener des recherches avancées (l'agent se charge automatiquement de convertir les opérateurs booléens pour chaque moteur de recherche). Cela dit, ils ne permettent pas de prendre en compte les «finesses» propres à chaque moteur.
Naturellement, eux aussi ont leurs limites. Comme les métamoteurs on-line, la quantité de «bruit» qu'ils rapatrient est parfois impressionnante. L'inconvénient ici est que toutes ces données non pertinentes risquent de saturer très vite votre ordinateur si vous ne pensez pas à faire le ménage régulièrement. Le «bruit» sera encore plus important si vous sélectionnez des outils de recherche dont vous ne connaissez pas les caractéristiques. Pour reprendre toujours le même exemple, quelqu'un qui ne connaît pas les spécificités d'AltaVista et de Yahoo! et décide avec un agent de les utiliser simultanément, risque d'obtenir beaucoup d'informations inutiles. Il faut donc bien connaître chaque répertoire et chaque moteur de recherche avant de l'utiliser au sein d'un agent. Il s'agit d'outils complémentaires et qui ne sont absolument pas concurrents. Un agent de recherche n'est qu'une «coquille vide» sans les différents instruments de recherche qu'il est censé interroger. Aussi, toujours pour éviter le risque d'enregistrer des pages inutiles, il est conseillé de choisir les mots clés avec beaucoup d'attention. Dans l'idéal, il faudrait tester l'efficacité de vos mots clés sur Internet avec un moteur comme HotBot ou AltaVista avant même de lancer un agent. Dans tous les cas, l'utilisation des agents doit être préparée et planifiée. Partir à l'aveuglette sera toujours décevant. Toutes les précautions méthodologiques que nous avons décrites pour mener efficacement des recherches sur Internet (voir p. 72) conservent toute leur valeur dans ce contexte.

Un autre inconvénient est leur lenteur de fonctionnement. Pour une recherche complexe, un agent peut mettre plusieurs heures pour accomplir son travail puisqu'il doit interroger plusieurs moteurs, éliminer les doublons, se connecter aux différents sites web, enregistrer tous les documents et éventuellement les traiter informatiquement. Si la recherche d'informations est ponctuelle ou très urgente, il vaut mieux ne pas envisager les agents de recherche mais utiliser directement les outils classiques.

Actuellement, on peut trouver de nombreux métamoteurs off-line sur le marché ( QueryN Metasearch, Web Ferret... ) 2. Quelques-uns sont décrits en annexe 3, vous trouverez les autres dans notre laboratoire de test sur le web.

Les agents de recherche avancés
Certains agents de recherche présentent des fonctionnalités parfois très intéressantes. La fonction commune à tous les agents précédemment décrits consiste à interroger, à partir de mots clés choisis par l'utilisateur, uniquement les moteurs qui ont été sélectionnés. Cela dit, un certain nombre de sociétés ont développé des fonctions supplémentaires.

- Personnalisation par secteur d'activité. Nous avons vu précédemment (voir p. 68) que les moteurs sectoriels sont des outils uniquement spécialisés dans un domaine précis (finance, assurance, éducation, littérature, etc.). Ce sont souvent des bases de données indépendantes très riches et qui ne peuvent pas être atteintes par les robots de recherche généralistes (il s'agit de ce que les spécialistes appellent The Invisible Web). Elles demeurent très utiles quand les outils traditionnels échouent. Cependant, leur éparpillement rend leur utilisation souvent assez longue et difficile. Pour cette raison, certains agents de recherche se sont spécialisés par secteur d'activité. Un des plus efficaces,WebSeeker, intègre plusieurs centaines de moteurs de recherche qu'il classe en de nombreuses catégories (art, automobile, business, ordinateurs, éducation, emploi, finance, loisirs, jeux, santé, maison, multimédia, etc.). Il permet également de créer des catégories personnalisées.
Citeline offre un agent très pointu dans le domaine de la santé4. Dans l'univers francophone, il faut signaler deux agents de recherche très efficaces: Copernic et Strategic Finder de DigiMind.

1 . C'est-à-dire déconnectés d'Internet. Nous utiliserons souvent les termes on-line et off-line pour indiquer si l'on est ou non connecté au réseau.
2 En général, ces différents agents de recherche peuvent être téléchargés à partir de la rubrique "search bots" d'un des sites de Tucows
3 . Parfois les agents de recherche que nous citons peuvent accomplir à la fois des tâches de recherche d'informations et de veille. Pour cette raison, certains d'entre eux apparaissent à la fois sous différentes rubriques.
4 . WebSeeker, Copernic, Strategic Finder et Citeline.