Comment fonctionne un moteur de recherche ?

Moteurs de recherche

Pour beaucoup de personnes, Google est Internet. C’est la page d’accueil par défaut et le premier port d’accès avant d’accéder à n’importe quel site. C’est sans doute l’invention la plus importante depuis Internet. Sans moteur de recherche, le contenu serait choisi à la main tout comme les journaux et les magazines. Et bien que les moteurs de recherche aient beaucoup changé depuis leurs débuts mais le principe de fonctionnement reste le même.

Savez-vous comment fonctionnent les moteurs de recherche ? Il existe trois étapes de base pour un moteur de recherche : le crawl, l’indexation et la récupération.

Le crawl

Le crawl est l’étape où commence l’acquisition de données sur un site web. Cela implique de numériser le site et d’obtenir une liste complète de tout ce qui s’y trouve, le titre de la page, les images, les mots clés qu’il contient et toutes les autres pages auxquelles qui sont liées. Les robots d’exploration modernes peuvent mettre en cache une copie de la page entière, ainsi que rechercher des informations supplémentaires telles que la mise en page, où se trouvent les blocs publicitaires, où sont les liens sur la page.

Comment un site Web est crawlé exactement ? Un robot d’exploration, aussi appelé spider, visite chaque page, comme vous ou moi mais très rapidement. Même dans les premiers jours, Google a signalé qu’ils lisaient quelques centaines de pages par seconde.

Le robot d’exploration ajoute tous les nouveaux liens qu’il a trouvés dans une liste d’endroits à explorer en plus de re-crawler les sites à nouveau pour voir si quelque chose a changé. C’est vraiment un processus sans fin.

Tout site lié à partir d’un autre site déjà indexé ou tout site demandé manuellement pour être indexé, sera finalement exploré. Certains sites plus fréquemment que d’autres et certains avec une plus grande profondeur. Si le site est énorme et que le contenu est caché à plusieurs clics de la page d’accueil, les robots de chenilles peuvent effectivement abandonner. Il existe des façons de demander aux moteurs de recherche de ne pas indexer un site, bien que ce soit rarement utilisé pour bloquer un site Web entier.

L’indexation

Cette étape est loin d’être simple : l’indexation est la procédure consistant à prendre toutes les données que le robot d’exploration a obtenues et à les placer dans une grande base de données. Essayez de faire une liste de tous les livres que vous possédez, de leur auteur et du nombre de pages. Classez en suite cette liste, ceci est votre index. Mais imaginez maintenant que ce n’est pas seulement une salle pleine de livres, mais toutes les bibliothèques du monde. C’est à peu près une petite version de ce que fait Google.

Toutes ces données sont stockées dans de vastes centres de données avec des milliers de serveurs.

Le classement et la distribution des résultats

La dernière étape est ce que vous voyez : vous tapez une requête de recherche et le moteur de recherche tente d’afficher les documents les plus pertinents qui correspondent à votre requête. C’est l’étape la plus compliquée, mais aussi la plus pertinente pour vous ou pour moi, en tant que développeurs et utilisateurs. C’est aussi le domaine dans lequel les moteurs de recherche se différencient. Certains fonctionnent avec des mots clés, certains vous permettent de poser une question et certains comprennent des fonctionnalités avancées comme la proximité des mots clés ou le filtrage selon l’âge du contenu.

L’algorithme de classement vérifie votre requête de recherche par rapport à des milliards de pages afin de déterminer la pertinence de chacune. Cette opération est si complexe que les entreprises surveillent étroitement leurs propres algorithmes de classement comme des secrets industriels brevetés. Pourquoi ? Un avantage concurrentiel tant qu’ils vous donnent les meilleurs résultats de recherche, ils peuvent rester sur le marché.

Une fois que la méthodologie interne de tout système est entièrement comprise, il y aura toujours ceux qui tentent de découvrir les facteurs de classement et les exploitent pour un gain monétaire.

L’exploitation de l’algorithme de classement a en fait été courante depuis le démarrage des moteurs de recherche, mais au cours des dernières années, Google a vraiment rendu cela difficile. À l’origine, les sites étaient classés selon le nombre de fois qu’un mot-clé était mentionné. Cela a conduit à un «bourrage de mots-clés» où les pages sont remplies principalement de mots-clés et non pas de sens.

Ensuite, le concept d’importance basée sur la liaison a été introduit, les sites plus populaires obtiendraient plus de liens, évidemment, mais cela a entraîné une prolifération de liens avec des techniques de spam sur tout le Web. Maintenant, chaque lien est déterminé pour avoir une valeur différente, selon l’autorité du site en question. Si une agence gouvernementale de haut niveau vous fait un lien, cela vaut bien plus qu’un lien sur un annuaire.

Aujourd’hui, la compréhension de l’algorithme exact est encore plus enveloppée de mystère que jamais et l’art sombre du SEO a été largement paralysé : le conseil consiste maintenant à se concentrer sur le meilleur contenu, avec une excellente expérience utilisateur.

©2023 La Com du Web – Gestion des cookiesMentions légales