Passer au contenu principal

Grattage

le grattage Il s'agit d'une pratique où le contenu des sites Web est extrait, copié et stocké manuellement ou à l'aide d'un logiciel et, si nécessaire, il est réutilisé dans une version modifiée sur votre site Web. S'il est utilisé de manière positive, le web scraping offre la possibilité d'ajouter plus de valeur à un site Web avec du contenu provenant d'autres sites Web. Quoi qu'il en soit, en cas d'utilisation abusive, de grattage viole les droits d'auteur et il est considéré comme du spam.

Techniques

Le grattage peut être fait avec différentes techniques. Les plus courants sont brièvement décrits ci-dessous:

  • En utilisant le manipulation http, le contenu des sites Web statiques ou dynamiques peut être copié via http-request.
  • Avec la méthode de Exploration de données ou exploration de données, les différents contenus sont identifiés par les modèles et scripts dans lesquels ils sont intégrés. Le contenu est converti à l'aide d'un wrapper et mis à disposition sur un autre site Web. Le wrapper agit comme une sorte d'interface entre les deux systèmes.
  • Les outils de grattage exécutent diverses tâches, à la fois automatisées et contrôlées manuellement. Du contenu copié aux structures ou fonctionnalités copiées.
  • Analyseurs HTML, tel qu'utilisé dans les navigateurs, récupère les données d'autres sites Web et les convertit à d'autres fins.
  • La copie manuelle du contenu il est généralement appelé grattage. De la simple copie de textes à la copie d'extraits complets du code source. Le scraping manuel est couramment utilisé lorsque les programmes de scraping plantent, par exemple avec le fichier robots.txt.
  • Numérisation microformat cela fait également partie du grattage. Avec l'avancement continu du développement du web sémantique, les microformats sont des composants populaires d'un web.

Applications courantes

Le grattage est utilisé à de nombreuses fins. Quelques exemples sont:

  • Outils d'analyse Web: enregistrez le classement dans le moteur de recherche Google et d'autres moteurs de recherche, et préparez les données pour vos clients. En 2012, ce sujet a été vivement débattu lorsque Google a bloqué certains services.
  • Services RSS: le contenu fourni via les flux RSS est utilisé sur d'autres sites Web.
  • Données météorologiques: de nombreux sites Web, tels que les portails de voyage, utilisent les données météorologiques de grands sites Web météorologiques pour augmenter leurs propres fonctionnalités.
  • Plans de conduite et de vol: par exemple, Google utilise les données pertinentes des services de transports publics pour compléter la fonction d'itinéraire de Google Maps.

Scraping comme méthode de spam

Dans le contexte de syndication de contenu, le contenu des sites Web peut être distribué à d'autres éditeurs. Malgré tout, le grattage peut généralement violer ces règles. Certains sites Web ne contiennent que du contenu qui a été extrait d'autres sites Web. Très souvent, vous pouvez trouver des pages contenant des informations qui ont été copiées directement à partir de Wikipédia sans montrer la source du contenu. Un autre cas de raclage de spam est que les magasins en ligne copient les descriptions de leurs produits de concurrents prospères. Même le format reste généralement le même.

Il est essentiel que les webmasters sachent si leur contenu est copié par d'autres sites Web. Car dans le cas extrême, Google peut accuser l'auteur de grattage, ce qui pourrait conduire le domaine qui a été gratté à voir son classement dans les SERPs réduit. Les alertes peuvent être configurées dans le moteur de recherche Google Analytics pour contrôler si le contenu est copié par d'autres sites Web.

Google comme racleur

Les moteurs de recherche comme Google utilisent le scraping pour booster leur propre contenu avec des informations pertinentes provenant d'autres sources. En particulier, Google utilise des méthodes de scraping pour OneBox ou pour faire son Knowledge Graph. Google gratte également le Web pour ajouter des entrées à Google Maps qui n'ont pas encore été revendiquées par les entreprises. Dans le même temps, Google collecte des données pertinentes à partir de sites Web qui ont mis à disposition des microformats de leur contenu pour créer des extraits enrichis.

Comment éviter le grattage

Les webmasters peuvent utiliser plusieurs mesures simples pour éviter que leurs sites Web ne soient affectés par le grattage:

  • Blocage de robots avec robots.txt.
  • Ils inséreront des requêtes captcha sur le site.
  • Utilisation de CSS pour afficher des numéros de téléphone ou des adresses e-mail.
  • Appliquez les règles de pare-feu pour le serveur.

Liens web