La face cachée des moteurs de recherche

Ils fouillent des milliards de pages Web et affichent leurs résultats en une fraction de seconde. Mais comment diable font-ils pour trouver une info aussi vite?

219011

Les moteurs de recherche fonctionnent-ils à la nitroglycérine? Qu’il s’agisse de Google, de Bing ou de Yahoo, force est de reconnaître qu’ils sont de plus en plus rapides et de plus en plus efficaces. "En une année, nous menons à bien plus de 20.000 expériences et lançons près de 500 améliorations", nous précise-t-on chez Google. Ainsi, ce dernier affiche déjà une kyrielle de résultats avant même que nous ne pressions sur la touche "Enter". À croire que les moteurs de recherche sont devenus télépathes… On décrypte? Bienvenue dans le monde obscur des index, des robots et des algorithmes!

Commençons par le commencement… Que se passe-t-il lorsqu’on tape un mot dans un moteur de recherche? Derrière ce clic anodin se cachent une armée de petits lutins qu’on appelle des robots ou des araignées. No panic, ces logiciels ne vous veulent que du bien… Après avoir pressé sur la touche "enter", ces processus informatiques parcourent une page Web, en extraient ses liens et les visitent ultérieurement. En suivant les pages, de liens en liens, ces robots sont ainsi capables de fouiller pratiquement tout le Web. Seuls les sites qui ne comportent aucun lien et qui ne sont pointés par aucun autre site restent dans l’ombre des moteurs de recherche.

Ensuite? Dès qu’une araignée a visité une page, elle va la sauvegarder dans de vastes data centers. Ces derniers enregistrent ainsi des milliards de pages Web. Mais comment font-ils pour scruter ces tonnes de sites en 0,5 seconde chrono? Via l’étape suivante qui consiste à extraire ces informations et à les indexer. Un index informatique, c’est un peu comme celui d’un livre, il recense les mots et l’endroit exact où ils sont situés. L’index indiquera par exemple que le mot "tablette" est utilisé sur les pages 2, 27, 45 et 59 d’un site Web, ce qui procure un gain de temps non négligeable lorsqu’un visiteur effectuera une requête ciblée sur ce terme. Mais les moteurs de recherche ne sont pas encore parfaits. Et comme ces robots ne sont que des processus informatiques, ils sont en général incapables de lire le contenu textuel inclus sur une image ou de reconnaître les mots d’une bande-son, par exemple. Sans compter que certaines pages indexées se révèlent plus pertinentes que d’autres… "Afin de classer ces résultats de manière optimale, explique un responsable de Google, notre algorithme va donc poser une série de questions et se demander si le mot-clé se trouve dans le titre ou dans l’URL de la page, par exemple. Avant d’évaluer la popularité de celle-ci. La page reçoit-elle de nombreux liens? Ces liens proviennent-ils de pages elles-mêmes populaires? Les sites qui font des liens vers cette page sont-ils dans la même langue? Sont-ils de confiance?"

Les moteurs de recherche ont également une botte secrète qui leur permet de fournir des résultats encore plus rapidement. Comme certaines requêtes sont extrêmement populaires (exemple: "Facebook", "iPhone", "YouTube"…), les moteurs préparent déjà la recherche et affichent les résultats sans nécessairement traquer l’info dans ces index. Plus fort encore? Pour gagner encore un peu plus de temps, de nombreux résultats peuvent apparaître directement sans qu’il soit nécessaire de consulter le moindre lien. Par exemple, si vous tapez un calcul mathématique, une conversion dollars-euros ou les termes "Météo Bruxelles", vous obtenez directement la réponse en dessous de la fenêtre du moteur de recherche. Autre astuce: la saisie semi-automatique. À mesure que vous tapez votre requête dans le champ de recherche, l’algorithme de saisie semi-automatique propose des termes similaires aux vôtres. Voilà pourquoi Google affiche déjà ses liens avant même que vous ne tapiez sur la touche "Enter".

Reste que certains résultats se révèlent pour le moins étranges, voire totalement scandaleux. Si vous tapez "Barack Obama" par exemple, l’algorithme de saisie semi-automatique vous propose "illuminati" en second choix ou "juif" pour François Hollande. Faites une autre recherche sur le terme "rue" et vous obtenez "d’Aerschot" parmi les premières propositions… En fait, ce mode de saisie semi-automatique se base bien entendu sur les requêtes des autres internautes. Et si le terme "d’Aerschot" vous est proposé, c’est parce qu’il est le plus tapé à la suite du mot "rue"…

De plus en plus rapides, intuitifs et intelligents, les moteurs de recherche comme nous les connaissons sont pourtant des espèces en voie d’extinction. Tous les spécialistes vous le diront: la tendance est à l’intégration de ces moteurs dans les réseaux sociaux comme Facebook, Twitter ou Linkedin. La fenêtre intégrée à Facebook permet d’ailleurs déjà de faire des recherches sur les sujets ou articles diffusés par ses contacts. Voilà une fonction à laquelle les moteurs traditionnels n’avaient pas encore pensé: vous proposer des résultats déjà validés par vos friends…

Sur le même sujet
Plus d'actualité