Saltar al contenido principal

Scraping

El scraping es una práctica donde el contenido de las webs se extrae, copia y almacena manualmente o con la ayuda de software y, si hace falta, se reutiliza en una versión modificada en tu web. Si se usa positivamente, el web scraping ofrece la oportunidad de añadir más valor a una web con contenido de otros sitios web. A pesar de todo, si se usa indebidamente, el scraping viola los derechos de autor y se considera spam.

Técnicas

El scraping se puede hacer con distintos técnicas. Los más frecuentes se describen brevemente a continuación:

  • Utilizando la manipulación http, el contenido de webs estáticas o dinámicas puede ser copiado vía http-request.
  • Con el método de Data Mining o minería de datos, los distintos contenidos se identifican por las plantillas y scripts en los que están incrustados. El contenido se convierte usando un envoltorio y se pone a disposición de una web distinto. El envoltorio actúa como una especie de interfaz entre los dos sistemas.
  • Las herramientas de scraping realizan diversos tareas, tanto automatizadas como controladas manualmente. Desde el contenido copiado a las estructuras o funcionalidades copiadas.
  • Los analizadores HTML, tal como se usan en los navegadores, recuperan datos de otras webs y los convierten para otros fines.
  • La copia manual del contenido habitualmente se denomina scraping. Desde la simple copia de textos hasta la copia de snippets completos del código fuente. El scraping manual se usa habitualmente cuando los programas de scraping se bloquean, por ejemplo, con el archivo robots.txt.
  • El escaneo de microformatos además forma parte del scraping. Con el continuo avance del desarrollo de la web semántica, los microformatos son componentes populares de una web.

Apps comunes

El scraping se usa para muchos propósitos. Algunos ejemplos son:

  • Herramientas de análisis web: guarda el ranking en el buscador de Google y otros motores de búsqueda, y prepara los datos para sus clientes. En 2012, este tema fue muy debatido cuando Google bloqueó algunos servicios.
  • Servicios RSS: el contenido proporcionado mediante de los canales RSS se usa en otras web.
  • Datos meteorológicos: muchas webs, como los portales de viajes, usan los datos meteorológicos de los grandes sitios web meteorológicos para incrementar su propia funcionalidad.
  • Planes de conducción y de vuelo: por ejemplo, Google usa datos relevantes de los servicios de transporte público para complementar la función de itinerario de Google Maps.

Scraping como método de spam

En el contexto de la sindicación de contenidos, el contenido de las webs puede distribuirse a otros editores. A pesar de todo, el scraping habitualmente puede violar estas reglas. Existen webs que sólo disponen contenido que ha sido scrapeado de otras webs. Muy habitualmente se pueden hallar páginas que contienen información que ha sido copiada de forma directa de Wikipedia sin mostrar la fuente del contenido. Otro caso de spam scraping es que las tiendas online copian las descripciones de sus productos de competidores exitosos. Inclusive habitualmente el formato se mantiene igual.

Es esencial que los webmasters sepan si su contenido está siendo copiado por otras webs. Porque en el caso extremo, Google puede acusar al autor de scraping, lo que podría llevar a que el dominio que ha sufrido scraping vea reducido su posicionamiento de los SERPs. Las alertas se pueden configurar en el buscador de Google Analytics para supervisar si el contenido está siendo copiado por otros sitios web.

Google como scraper

Motores de búsqueda como Google usan el scraping para impulsar su propio contenido con información relevante de otras fuentes. En particular, Google usa métodos de scraping para OneBox o para hacer su Gráfico de Conocimiento. Google además hace scraping en la web para añadir entradas a Google Maps que todavía no han sido reclamadas por las empresas. Al mismo tiempo, Google recopila datos relevantes de webs que han puesto a disposición microformatos de su contenido para crear rich snippets.

Cómo prevenir el scraping

Existen varias medidas simples que los webmasters pueden usar para evitar que sus sitios web se vean afectados por el scraping:

  • Bloqueo de bots con robots.txt.
  • Insertarn de consultas captcha en el sitio.
  • Uso de CSS para mostrar números de teléfono o direcciones de email.
  • Reforzar las reglas del firewall para el servidor.

Enlaces Web