Saltar al contenido principal

Crawl Budget

El Crawl Budget o presupuesto de rastreo se establece como el número máximo de páginas que Google rastrea en un portal web.

Definición

El propio Google establece cuántas subpáginas rastrea por URL. Esto no es lo mismo para todos los sitios web, pero según Matt Cutts, se determina principalmente en base al PageRank de una página. Cuanto más alto sea el PageRank, mayor será el Crawl Budget. El presupuesto de rastreo además determina con qué frecuencia se rastrean las páginas más importantes de una web y con qué frecuencia se ejecuta un crawl en profundidad.

Diferenciación del presupuesto del índice

El término presupuesto índice (index budget) es distinto de un crawl budget. Determina cuántas URLs se pueden indexar. La diferencia se hace evidente cuando una web contiene varias páginas que devuelven un código de error 404. Cada página solicitada cuenta con el crawl budget, pero si no se puede indexar debido a un mensaje de error, el presupuesto de índice no se usa en su totalidad.

Problema

El crawl budget o presupuesto de rastreo plantea un obstáculo para webs más grandes con muchas subpáginas. Específicamente, no se rastrearán o crawlearán todas las subpáginas, sino sólo una parte de ellas. Por consiguiente, no todas las subpáginas pueden ser indexadas. Esto a su vez significa que los operadores del sitio pueden perder tráfico porque las páginas relevantes no fueron indexadas.

Importancia para el SEO

Existen toda una sección de optimización de motores de búsqueda dedicada específicamente a esta situación, con el objetivo de dirigir el Googlebot, de modo que los crawl budgets existentes se usan muy sabiamente y las páginas de alta calidad que son de particular importancia para el operador del portal web se indexan. Las páginas que son de menor importancia deben ser identificadas primero. En particular, esto incluiría páginas con contenido pobre o poca información, al mismo tiempo de páginas defectuosas que devuelven un código de error 404. Estas páginas deben excluirse del crawl para que el presupuesto de rastreo permanezca disponible para las páginas de mejor calidad. Después, las subpáginas importantes deben ser diseñadas de tal manera que sean crawleadas por las arañas como una prioridad. Las posibles acciones como parte de la optimización del crawl incluyen:

  • Implementación de una arquitectura de página plana en la que las rutas de subpágina son lo más cortas viable y sólo requieren unos pocos clics.
  • Enlaces internos de páginas con bastantes backlinks a páginas que se supone que deben ser crawleadas con mayor frecuencia.
  • Muy buenos enlaces internos de las páginas más importantes.
  • Exclusión de páginas sin importancia para el crawl mediante del archivo robots.txt (como páginas de inicio de sesión, formularios de contacto, imágenes).
  • Excluir la rastreabilidad o el crawling por medio de el uso de metadatos ( noindex, nofollow).
  • Ofrecer un mapa de sitio XML con una lista de URLs de las subpáginas más importantes.

Si el portfolio de páginas rastreadas e indexadas se mejora mediante de la optimización de crawl, además se puede mejorar el posicionamiento. Las páginas con una buena clasificación se rastrean con más frecuencia, lo que a su vez trae beneficios.

Una conferencia informativa sobre «Crawl Budget Best Practices» por Jan Hendrik Jacob Merlin en el SEOkomm 2015 se puede hallar aquí.

Enlaces Web