Googlebot

Googlebot es el crawler de Google, que recopila documentos de Internet y los entrega más tarde para la búsqueda de Google. Recopila documentos por medio de de un procedimiento automatizado, que funciona de forma muy parecida a un navegador web. El bot envía una petición y recibe una respuesta de un servidor.

Si ciertos parámetros permiten el acceso al Googlebot, éste sube una sola página web, a la que se puede entrar por medio de de una URL y la almacena inicialmente en el índice de Google. Así es como Googlebot rastrea el Internet global usando recursos distribuidos. La potencia informática de Googlebot se distribuye por medio de de un enorme sistema de centros de datos, por lo que puede crawlear cientos de webs simultáneamente.

Información general

La tecnología de crawl de Google es simplemente un algoritmo que funciona de forma independiente. Se basa en el concepto de la WWW (world wide web). Internet puede ser concebido como una red muy grande de webs, incluyendo nodos, enlaces, hipervínculos.

Matemáticamente, este concepto puede describirse como un gráfico. Cada nodo es alcanzable por medio de de una dirección web, la URL. Los enlaces en una web conducen a otras subpáginas u otros recursos con otra URL o dirección de dominio. Por ende, el crawler distingue entre enlaces HREF (las conexiones) y enlaces SRC (los recursos). La rapidez y eficacia con la que un crawler puede buscar en todo el gráfico se describe en la teoría de gráficos.

Google trabaja con distintos técnicas. Por un lado, Google usa el multi-threading, es decir, el procesamiento simultáneo de varios procesos de crawl. A parte de esto, Google trabaja con crawlers focalizados, que se enfocan en temas temáticamente restringidos, por ejemplo, la búsqueda en la web de ciertos tipos de enlaces, sitios web o contenido. Google tiene un bot para crawlear imágenes, uno para promoción comercial en buscadores y otro para dispositivos móviles.

Aplicación práctica

Los webmasters y operadores web disponen distintos opciones para proporcionar información sobre sus sitios al crawler, o inclusive para negarla. Cada crawler se etiqueta inicialmente con el término «agente de usuario». El nombre de Googlebot en los archivos de registro del servidor es «Googlebot» con la dirección de host «googlebot.com».^[1]

Para el buscador Bing, es «BingBot» y la dirección es «bing.com/bingbot.htm». Los archivos de registro revelan quién envía las solicitudes al servidor. Los webmasters pueden negar el acceso a ciertos bots o concederles acceso. Esto se hace por medio de del archivo Robots.txt, utilizando el atributo Disallow: o con ciertas metaetiquetas de un documento HTML. Al añadir una metaetiqueta en la página web, el webmaster puede conceder al Googlebot un acceso limitado a la data de su sitio, según sea necesario. Esta metaetiqueta podría verse así:

<meta name = "Googlebot" content = "nofollow" />

Se puede definir la frecuencia con la que Googlebot debe crawlear una web. Esto se hace normalmente en la Consola de Búsqueda de Google. Esto es sobre todo recomendable cuando el crawler reduce el rendimiento del servidor o si el portal web se actualiza muchas veces y, de este modo, debe crawlearse muchas veces. Hace falta conocer el número de páginas de una web que van a ser crawleadas, puesto que es esencial saber el presupuesto del crawl.

Relevancia para el SEO

Es sobre todo importante saber cómo funciona Googlebot para la optimización de los motores de búsqueda de los sitios web, no sólo en teoría, sino especialmente en la práctica. Es recomendable proporcionar una nueva URL al crawler (seeding), es decir, proporcionar al bot una dirección como URL de inicio. Puesto que el bot encontrará contenido y enlaces adicionales en otros sitios web por medio de de enlaces, un link HREF sobre un recurso específico puede garantizar que el bot recibirá una nueva URL.

Tu básicamente envías un ping a la WWW. Tarde o temprano, Googlebot se encontrará con la dirección. Al mismo tiempo, se recomienda proporcionar sitemaps al bot. Esto le da información importante sobre la estructura de tu web y a la vez sabrá qué URL debe seguir a continuación. Esto es concretamente útil cuando se ha relanzado una web.

Puesto que Googlebot puede leer distintos tipos de contenido, no sólo texto o imágenes, deberías estar atento al desarrollo web. Google ha estado trabajando durante varios años en la lectura de contenido Flash, páginas web dinámicas, JavaScript y código Ajax y ya tiene un éxito parcial en estas áreas.^[2] Ciertos métodos como GET o POST ya pueden ser identificados por Googlebot y partes del contenido Flash además pueden ser leídos.^[3]