Saltar al contenido principal

Crawler

Un crawler, comúnmente conocido como rastreador, es un programa que analiza los documentos de los sitios web. Los motores de búsqueda cuentan con rastreadores muy potentes que navegan y analizan los sitios web y crean una base de datos con la información recolectada. El término crawler proviene del primer motor de búsqueda de Internet, el Web Crawler. Además se conoce como rastreador, araña o robot.

Funcionamiento

En principio un crawler es como un bibliotecario. Busca información en el portal web, la categoriza y la indexa antes de que venga analizada.

Las operaciones de este programa deben establecerse antes de que los crawler empiecen a repasar un portal web. El crawler procesa estas órdenes automáticamente y, de este modo, el tipo de información que obtiene el crawler depende exclusivamente de las normas que se le hayan establecido.

600x400-Crawler es-01.png

Uso

El objetivo principal del crawler es crear una base de datos. De esta manera, los crawlers son las herramientas de trabajo que usan los motores de búsqueda para extraer la información que necesitan para examinar los sitios web y establecer su posicionamiento en los SERPs. Los Focused Crawler se concentran, por ejemplo, en repasar sitios web y buscar información específica y relevante, dependiendo de las órdenes que se le hayan establecido.

Algunas de las apps de los crawlers son:

  • Comparación de precios en portales de productos
  • En el ámbito del “data mining” un crawler puede, por ejemplo, organizar los correos electrónicos y códigos postales de las empresas
  • Recopilación de datos relativos a las visitas de los sitios web e información sobre los enlaces externos, Backlink

Crawler vs. Scraper

Un crawler es básicamente un recolector de datos. A pesar de todo, scrapping es una técnica de Black Hat SEO que tiene como objetivo copiar datos, como el contenido, de un portal web para utilizarlos en otros sitios web.

Bloquear un crawler

Quien no quiera que ciertos crawlers analicen su portal web pueden bloquearlos con el archivo robots.txt. Esto no evita que el contenido sea indexado por los motores de búsqueda, para esto se deben usar las etiquetas Noindex o Etiqueta Rel=Canonical.

Enlaces web