Crawler

Mise à jour le

Un crawler, également appelé spider ou robot, est un software qui navigue automatiquement sur le web, généralement dans le but d’indexer le web.

Les moteurs de recherche comme Google et certains autres types de sites utilisent le web crawling pour mettre à jour leur contenu web ou les index de contenu web d’autres sites.

Les crawlers créent une copie des pages web pour être traitées par un moteur de recherche, qui indexe les pages téléchargées afin que les utilisateurs puissent effectuer des recherches plus efficaces.

Le nombre de pages Internet est extrêmement élevé ; même les plus grands crawlers ne peuvent pas faire un index complet.

C’est pourquoi les moteurs de recherche ont eu du mal à fournir des résultats de recherche pertinents dans les premières années du World Wide Web, avant 2000.

Aujourd’hui, les résultats pertinents sont fournis presque instantanément.

Les crawlers peuvent reconnaître les liens hypertextes et le code HTML.


Publié

dans

par

Étiquettes :