Passer au contenu principal

Googlebot




Googlebot est le robot d'exploration de Google, qui collecte des documents sur Internet et les fournit plus tard pour la recherche Google. Il collecte les documents via une procédure automatisée, qui fonctionne un peu comme un navigateur Web. Le bot envoie une requête et reçoit une réponse d'un serveur.

Si certains paramètres autorisent l'accès au Googlebot, il télécharge une seule page Web, qui peut être saisie via une URL, et la stocke initialement dans l'index Google. C'est ainsi que Googlebot explore l'Internet mondial à l'aide de ressources distribuées. La puissance de calcul de Googlebot est distribuée via un énorme système de centre de données, ce qui lui permet d'explorer des centaines de sites Web simultanément.

Informations générales

La technologie d'exploration de Google est simplement un algorithme qui fonctionne indépendamment. Il est basé sur le concept du WWW (World Wide Web). Internet peut être conçu comme un très grand réseau de sites Web, comprenant des nœuds, des liens, des hyperliens.

Mathématiquement, ce concept peut être décrit comme un graphique. Chaque nœud est accessible au moyen d'une adresse Web, l'URL. Les liens sur un site Web mènent à d'autres sous-pages ou à d'autres ressources avec une autre URL ou une autre adresse de domaine. Par conséquent, le robot fait la distinction entre les liens HREF (les connexions) et les liens SRC (les ressources). La vitesse et l'efficacité avec lesquelles un robot d'exploration peut rechercher le graphe entier sont décrites dans la théorie graphique.

Google utilise différentes techniques. D'une part, Google utilise le multi-threading, c'est-à-dire le traitement simultané de plusieurs processus d'exploration. En dehors de cela, Google travaille avec des robots d'exploration ciblés, qui se concentrent sur des sujets thématiques restreints, par exemple, la recherche sur le Web de certains types de liens, de sites Web ou de contenu. Google a un bot pour explorer les images, un pour la promotion commerciale dans les moteurs de recherche et un autre pour les appareils mobiles.

Application pratique

Les webmasters et les opérateurs Web ont différentes options pour fournir des informations sur leurs sites au robot d'exploration, voire pour les refuser. Chaque robot d'exploration est initialement étiqueté avec le terme «agent utilisateur». Le nom Googlebot dans les fichiers journaux du serveur est "Googlebot" avec l'adresse d'hôte "googlebot.com".[1]

Pour le moteur de recherche Bing, il s'agit de "BingBot" et l'adresse est "bing.com/bingbot.htm". Les fichiers journaux révèlent qui envoie les demandes au serveur. Les webmasters peuvent refuser l'accès à certains robots ou leur accorder l'accès. Cela se fait via le fichier Robots.txt, en utilisant l'attribut Disallow: ou avec certaines balises meta d'un document HTML. En ajoutant une balise Meta sur la page Web, le webmaster peut accorder au Googlebot un accès limité aux données de son site, si nécessaire. Cette balise meta pourrait ressembler à ceci:

 

Vous pouvez définir la fréquence à laquelle Googlebot doit explorer un site Web. Cela se fait normalement dans la console de recherche Google. Ceci est particulièrement recommandé lorsque le robot réduit les performances du serveur ou si le portail Web est mis à jour plusieurs fois et doit donc être analysé plusieurs fois. Il est nécessaire de connaître le nombre de pages d'un web qui vont être explorées, car il est essentiel de connaître le budget du crawl.

Pertinence pour le référencement

Il est particulièrement important de savoir comment Googlebot fonctionne pour l'optimisation des moteurs de recherche de sites Web, non seulement en théorie, mais surtout en la pratique. Il est recommandé de fournir une nouvelle URL au robot d'exploration (amorçage), c'est-à-dire de fournir au bot une adresse comme URL de départ. Étant donné que le bot trouvera du contenu et des liens supplémentaires sur d'autres sites Web via des liens, un lien HREF sur une ressource spécifique peut garantir que le bot recevra une nouvelle URL.

Vous cinglez essentiellement le WWW. Tôt ou tard, Googlebot trouvera l'adresse. Dans le même temps, il est recommandé de fournir des plans de site au bot. Cela lui donne des informations importantes sur la structure de votre site Web et en même temps il saura quelle URL suivre ensuite. Ceci est particulièrement utile lorsqu'un site Web a été relancé.

Étant donné que Googlebot peut lire différents types de contenu, pas seulement du texte ou des images, vous devez faire attention au développement Web. Google travaille depuis plusieurs années sur la lecture de contenu Flash, de pages Web dynamiques, de code JavaScript et Ajax et réussit déjà partiellement dans ces domaines.[2] Certaines méthodes telles que GET ou POST peuvent déjà être identifiées par Googlebot et certaines parties du contenu Flash peuvent également être lues.[3]

Liens web

R Marketing Numérique