PEDAGOGIE
: LES OUTILS DE RECHERCHE ? |
Les
annuaires et
portails thématiques ?
Les
moteurs et les Méta-moteurs
?
Les
agents intelligents
?
Utiliser
un Moteur de recherche : syntaxe ?
L'annuaire de recherche
ou Portail thématique
L'annuaire est un site index, organisé en
catégories et sous-catégories. La page d'accueil propose les catégories principales,
rarement plus d'une douzaine.
La recherche sur un annuaire se fait uniquement sur la catégories, le
titre et la description : aucune recherche n'est faîte plus
en avant à l'intérieur des sites. Les annuaires sont donc surtout utilisés pour
une recherche par marque, par titre, ou thème :
en
tapant 'chamois en Savoie', il y a peu de
chance que vous obteniez une réponse pertinente.
Les sites y sont référencés avec les caractéristiques suivantes:
|
Catégories
: une (parfois plus) qui se rapproche le
plus du sujet du site inscrit |
|
Le
titre : généralement très court |
|
Le
descriptif : précisant la nature et le contenu du
site |
Les
annuaires sont conçus et contrôlés par des documentalistes. Ce
sont eux qui en agréent le nom, le contenu et les caractéristiques décrites.
Ils ne prennent en compte qu'une seule adresse par site : inutile de soumettre toutes vos
pages !
La plupart des annuaires sont tenus par des
documentalistes salariés qui sont débordés et ne peuvent pas passer
des heures sur un site : ils en rejettent par conséquent souvent.
Par
contre, chez Open
Directory ce sont des passionnés bénévoles (du monde
entier) qui gèrent les catégories de son
annuaire. Résultat : nombre de sites inscrits sont pertinents et
intéressants. Les annuaires de recherche les plus réputés sont
Yahoo!
[fr] et Open
Directory.
|
Le moteur de recherche
Les moteurs de recherche fonctionnent différemment. Ils ne sont pas gérés
(sauf hybrides) par des humains. Ce sont des programmes, appelés
robots ou 'spiders', qui se chargent de trouver automatiquement les
informations sur le net.
Le moteur recherche dans une page complète avec un algorithme
complexe. Il suit
également les liens qui pointent vers d'autres pages (du
site ou non : travail d'un autre
robot appelé 'crawler'). Le moteur puise donc les
informations dans l'ensemble des pages du site.
Le moteur de recherche est plutôt utilisé pour la recherche d'informations
plus précises.
Moteur référent : Altavista
[fr]
Le méta-moteur de recherche
Le méta-moteur utilise les
index de plusieurs moteurs pour effectuer sa recherche.
Vous aurez
ainsi davantage de réponses, les meilleurs donnent des résultats
très pertinents.
En voici quelques-uns: Mamma, Ariane
|
Les Agents
intelligents :
Informations
extraites de : Carlo Revelli: "Intelligence
stratégique sur Internet" - Dunod
Comme leur nom
l’indique, le but est simple : optimiser la recherche
d’informations sur Internet. Ils sont d’une grande
diversité et l’on peut distinguer diverses sous-catégories.
Cependant, la lenteur de leur action est telle qu’on les
utilise surtout pour des recherches complexes ou à chaque
fois que l’on mise sur l’exhaustivité.
Meta-moteurs
"on-line"
Ils ne constituent pas des agents à proprement parler
puisqu’aucun logiciel client n’est installé et
toutes les recherches sont réalisées en ligne à
partir d’un site web (par exemple celui de
MetaCrawler, SavvySearch ou de ProFusion). Comme nous
l’avons dit, il s’agit d’une « race hybride »
qui permet d’utiliser plusieurs outils simultanément
(aussi bien des répertoires que des moteurs de
recherche). En d’autres mots, en remplissant un seul
formulaire, vous interrogez simultanément plusieurs
outils de recherche sans devoir aller sur chacun des
sites, ce qui implique d’importantes économies en
terme de temps...
|
Meta-moteurs
"off-line"
Le prolongement logique des métamoteurs
"on-line" est incarné par des logiciels qui
s’installent sur votre ordinateur et qui en principe
pallient les inconvénients que nous venons de voir.
Le principe de fonctionnement est exactement le même.
Pour chaque requête, ils interrogent plusieurs outils
de recherche et éliminent les doublons. Mais ce qui
fait leur originalité, c’est que vous n’avez pas
besoin de vous connecter directement à Internet pour
les faire fonctionner. En effet, vous définissez
d’abord « off-line » votre stratégie de recherche
et ...
Commandez
maintenant "Intelligence Stratégique sur
Internet" pour avoir une description complète
des outils, des méthodes et des applications
concrètes.
|
Agents de recherche avancés
Certains agents de recherche présentent des
fonctionnalités parfois très intéressantes. La
fonction commune à tous les agents précédemment décrits
consiste à interroger, à partir de mots-clefs
choisis par l’utilisateur, uniquement les moteurs
qui ont été sélectionnés. Cela dit, un certain
nombre de sociétés ont développé des fonctions
supplémentaires:
- Personnalisation par secteur d'activité.
- Veille, filtrage et archivage des résultats.
- Analyse linguistique des requêtes.
- Analyse des résultats.
Comme nous l’avons déjà souligné, il est
souhaitable de bien maîtriser les différents moteurs
de recherche avant de se décider à utiliser ces
agents. Par ailleurs, si vous recherchez une personne,
une société, un produit, un logiciel ou toute autre
information, et que vous ne souhaitez pas utiliser
manuellement chaque outil de recherche, utilisez quand
même la méthodologie de recherche que nous avons décrit
auparavant (cf. page 83)....
Commandez maintenant "Intelligence Stratégique
sur Internet" pour avoir une description complète
des outils, des méthodes et des applications concrètes.
|
Parfois, les
agents de recherche que nous citons peuvent accomplir à la
fois des tâches de recherche d’informations et de veille.
Pour cette raison, certains apparaissent à la
fois sous différentes rubriques.
|
Naturellement, sur
le «réseau des réseaux» l'incertitude terminologique n'est
pas des moindres. Il suffit de voir l'éventail folklorique des
appellations utilisées : intelligent agents, search agents,
software agents, internet agents, interface agents, web agents,
personal agents, autonomous agents, bots, softbots, knowbots,
userbots, robots, personal assistants, wizards, etc .
Quoi qu'il en soit, les «outils classiques» que nous avons étudiés
auparavant (moteurs de recherche, répertoires, métamoteurs...)
ne sont absolument plus suffisants à partir du moment où l'on
souhaite mener des activités de veille sur Internet. Les outils
traditionnels sont très utiles pour des recherches
d'informations ponctuelles. En effet, leur réactivité immédiate
les rend parfois plus intéressants que les agents de recherche
qui, comme nous le verrons, sont très lents. Mais à partir du
moment où les recherches deviennent plus complexes ou récurrentes,
il faut envisager d'installer des agents plus ou moins
intelligents...
Ayant défini l'environnement de travail qui nous intéresse
(Internet et par conséquence aussi l'intranet) et la mission
que nous souhaitons attribuer aux agents (intelligence stratégique),
il est possible d'identifier différentes catégories. Cela dit,
aussi bien les catégories que les agents qui les composent sont
en perpétuelle évolution.
Chaque mois, plusieurs nouveaux agents sont introduits sur
Internet. Au moment où vous lirez ces pages, de nombreux
nouveaux agents auront vu le jour. Pour cette raison, nous avons
créé un laboratoire de test sur notre site web dans lequel le
lecteur pourra découvrir les dernières nouveautés et les
tester directement en les téléchargeant. En effet, un agent
fonctionne exactement comme un logiciel. Normalement, il faut
identifier le site du revendeur sur Internet, télécharger
l'agent, l'installer sur votre ordinateur et apprendre à
l'utiliser.
Dans notre laboratoire, nous avons essayé de simplifier toutes
ces démarches. À partir d'une adresse unique (http://www.agentland.com)
, les meilleurs agents disponibles sur le marché sont étudiés,
téléchargés et testés. Dans tous les cas, en annexe de cet
ouvrage vous trouverez une sélection des principaux agents
qui existent à l'heure actuelle.
|
Agents
pour la recherche d'informations
Comme leur nom l'indique, le but est simple: optimiser la
recherche d'informations sur Internet. Ils sont d'une grande
diversité et on peut distinguer plusieurs sous-catégories.
Cependant, la lenteur de leur action est telle qu'on les utilise
surtout pour des recherches complexes ou à chaque fois que l'on
mise sur l'exhaustivité .
Les métamoteurs
"on-line"
Nous avons déjà décrit ces outils (voir p. 65). Ils ne
constituent pas des agents à proprement parler puisqu'aucun
logiciel client n'est installé et toutes les recherches sont réalisées
en ligne à partir d'un site web (par exemple celui de MetaCrawler,
SavvySearch ou ProFusion). Comme nous l'avons dit, il s'agit d'une
«race hybride» qui permet d'utiliser plusieurs outils simultanément
(aussi bien des répertoires que des moteurs de recherche). En
d'autres mots, en remplissant un seul formulaire, vous interrogez
simultanément plusieurs outils de recherche sans devoir aller sur
chacun des sites, ce qui implique d'importantes économies en
terme de temps. Nous avons aussi vu qu'ils présentaient quelques
inconvénients importants. D'une part, ils tendent à interroger
par défaut des outils de nature très différente que l'on
n'utilise pas souvent ensemble (par exemple Yahoo! avec AltaVista).
D'autre part, ils ne permettent pas toujours d'utiliser les
fonctions avancées de recherche (comme les opérateurs booléens).
Nous en avions conclu que leur principal atout consiste à débroussailler
très vite le terrain et qu'ils représentent un compromis très
intéressant quand, en un minimum de temps, on souhaite interroger
un nombre maximum d'outils.
Les métamoteurs
"off-line"
Le prolongement logique des métamoteurs "on-line" est
incarné par des logiciels qui s'installent sur votre ordinateur
et qui en principe pallient les inconvénients que nous venons de
voir. Le principe de fonctionnement est exactement le même. Pour
chaque requête, ils interrogent plusieurs outils de recherche et
éliminent les doublons. Mais ce qui fait leur originalité, c'est
que vous n'avez pas besoin de vous connecter directement à
Internet pour les faire fonctionner. En effet, vous définissez
d'abord off-line1
votre stratégie de recherche en choisissant les mots clés
appropriés et les outils que vous souhaitez utiliser pour chaque
mission. Vous pouvez aussi définir l'heure et la périodicité de
votre recherche ainsi que l'endroit où vous voulez que l'agent
stocke le fruit de ses efforts. De cette manière, le moment venu,
l'agent active spontanément une connexion sur Internet, interroge
les outils de recherche avec les mots clés que vous lui avez donnés,
fusionne les résultats en éliminant les doublons, les enregistre
sur votre disque dur et enfin se déconnecte pour se reposer un
peu...
Vous pouvez consulter alors son travail sans devoir vous
connecter, ce qui permet de bénéficier d'une vitesse d'affichage
quasi instantanée, tout étant enregistré sur votre ordinateur.
On comprend vite les avantages de tels outils. D'abord,
contrairement aux métamoteurs on-line ( MetaCrawler,
Savvy-Search...), vous pouvez sélectionner librement les moteurs
à utiliser parmi des listes de plus en plus exhaustives. Vous ne
serez plus obligé de lancer AltaVista avec Yahoo!. Certains
agents permettent de rajouter n'importe quel instrument de
recherche même s'il n'est pas présent au sein de leur liste de
choix. Ensuite, de plus en plus souvent, ils permettent d'utiliser
des opérateurs complexes pour mener des recherches avancées
(l'agent se charge automatiquement de convertir les opérateurs
booléens pour chaque moteur de recherche). Cela dit, ils ne
permettent pas de prendre en compte les «finesses» propres à
chaque moteur.
Naturellement,
eux aussi ont leurs limites. Comme les métamoteurs on-line,
la quantité de «bruit» qu'ils rapatrient est parfois
impressionnante. L'inconvénient ici est que toutes ces données
non pertinentes risquent de saturer très vite votre ordinateur si
vous ne pensez pas à faire le ménage régulièrement. Le «bruit»
sera encore plus important si vous sélectionnez des outils de
recherche dont vous ne connaissez pas les caractéristiques. Pour
reprendre toujours le même exemple, quelqu'un qui ne connaît pas
les spécificités d'AltaVista et de Yahoo! et décide avec un
agent de les utiliser simultanément, risque d'obtenir beaucoup
d'informations inutiles. Il faut donc bien connaître chaque répertoire
et chaque moteur de recherche avant de l'utiliser au sein d'un
agent. Il s'agit d'outils complémentaires et qui ne sont
absolument pas concurrents. Un agent de recherche n'est qu'une «coquille
vide» sans les différents instruments de recherche qu'il est
censé interroger. Aussi, toujours pour éviter le risque
d'enregistrer des pages inutiles, il est conseillé de choisir les
mots clés avec beaucoup d'attention. Dans l'idéal, il faudrait
tester l'efficacité de vos mots clés sur Internet avec un moteur
comme HotBot ou AltaVista avant même de lancer un agent. Dans
tous les cas, l'utilisation des agents doit être préparée et
planifiée. Partir à l'aveuglette sera toujours décevant. Toutes
les précautions méthodologiques que nous avons décrites pour
mener efficacement des recherches sur Internet (voir p. 72)
conservent toute leur valeur dans ce contexte.
Un autre inconvénient est leur lenteur de fonctionnement. Pour
une recherche complexe, un agent peut mettre plusieurs heures pour
accomplir son travail puisqu'il doit interroger plusieurs moteurs,
éliminer les doublons, se connecter aux différents sites web,
enregistrer tous les documents et éventuellement les traiter
informatiquement. Si la recherche d'informations est ponctuelle ou
très urgente, il vaut mieux ne pas envisager les agents de
recherche mais utiliser directement les outils classiques.
Actuellement, on peut trouver de nombreux métamoteurs off-line
sur le marché ( QueryN Metasearch, Web Ferret... ) 2.
Quelques-uns sont décrits en annexe 3,
vous trouverez les autres dans notre laboratoire de test sur le
web.
Les agents de recherche avancés
Certains agents de recherche présentent des fonctionnalités
parfois très intéressantes. La fonction commune à tous les
agents précédemment décrits consiste à interroger, à partir
de mots clés choisis par l'utilisateur, uniquement les moteurs
qui ont été sélectionnés. Cela dit, un certain nombre de sociétés
ont développé des fonctions supplémentaires.
- Personnalisation par secteur d'activité. Nous avons vu
précédemment (voir p. 68) que les moteurs sectoriels sont des
outils uniquement spécialisés dans un domaine précis (finance,
assurance, éducation, littérature, etc.). Ce sont souvent des
bases de données indépendantes très riches et qui ne peuvent
pas être atteintes par les robots de recherche généralistes (il
s'agit de ce que les spécialistes appellent The Invisible Web).
Elles demeurent très utiles quand les outils traditionnels échouent.
Cependant, leur éparpillement rend leur utilisation souvent assez
longue et difficile. Pour cette raison, certains agents de
recherche se sont spécialisés par secteur d'activité. Un des
plus efficaces,WebSeeker, intègre plusieurs centaines de moteurs
de recherche qu'il classe en de nombreuses catégories (art,
automobile, business, ordinateurs, éducation, emploi, finance,
loisirs, jeux, santé, maison, multimédia, etc.). Il permet également
de créer des catégories personnalisées.
Citeline offre un agent très pointu dans le domaine de la santé4.
Dans l'univers francophone, il faut signaler deux agents de
recherche très efficaces: Copernic
et Strategic
Finder de DigiMind.
1 . C'est-à-dire
déconnectés d'Internet. Nous utiliserons souvent les termes
on-line et off-line pour indiquer si l'on est ou non connecté au
réseau.
2 En général,
ces différents agents de recherche peuvent être téléchargés
à partir de la rubrique "search bots" d'un des sites de
Tucows
3 . Parfois les agents de
recherche que nous citons peuvent accomplir à la fois des tâches
de recherche d'informations et de veille. Pour cette raison,
certains d'entre eux apparaissent à la fois sous différentes
rubriques.
4 . WebSeeker,
Copernic, Strategic
Finder et Citeline.
|
|