Zum Hauptinhalt springen

Schaben




Das kratzen In der Regel wird der Inhalt der Websites manuell oder mithilfe von Software extrahiert, kopiert und gespeichert und bei Bedarf in einer geänderten Version auf Ihrer Website wiederverwendet. Bei positiver Verwendung bietet Web Scraping die Möglichkeit, einer Website mit Inhalten von anderen Websites mehr Wert zu verleihen. Unabhängig davon, wenn missbraucht, kratzen verstößt gegen das Urheberrecht und es wird als Spam betrachtet.

Techniken

Das Schaben kann mit verschiedenen Techniken erfolgen. Die häufigsten werden im Folgenden kurz beschrieben:

  • Verwendung der http-Manipulationkann der Inhalt von statischen oder dynamischen Webs per http-Anfrage kopiert werden.
  • Mit der Methode von Data Mining oder Data MiningDie verschiedenen Inhalte werden durch die Vorlagen und Skripte identifiziert, in die sie eingebettet sind. Der Inhalt wird mit einem Wrapper konvertiert und einer anderen Website zur Verfügung gestellt. Der Wrapper fungiert als eine Art Schnittstelle zwischen den beiden Systemen.
  • Schabewerkzeuge führen verschiedene Aufgaben aus, sowohl automatisiert als auch manuell gesteuert. Vom kopierten Inhalt zu kopierten Strukturen oder Funktionen.
  • HTML-ParserRufen Sie, wie in Browsern verwendet, Daten von anderen Websites ab und konvertieren Sie sie für andere Zwecke.
  • Die manuelle Kopie des Inhalts es wird normalerweise Schaben genannt. Von der einfachen Kopie von Texten bis zur Kopie vollständiger Ausschnitte des Quellcodes. Manuelles Scraping wird häufig verwendet, wenn Scraping-Programme abstürzen, z. B. mit der Datei robots.txt.
  • Scannen von Mikroformaten es ist auch Teil des Schabens. Mit der kontinuierlichen Weiterentwicklung des Semantic Web sind Mikroformate beliebte Bestandteile eines Web.

Gängige Apps

Das Schaben wird für viele Zwecke verwendet. Einige Beispiele sind:

  • Webanalyse-Tools: Speichern Sie das Ranking in der Google-Suchmaschine und anderen Suchmaschinen und bereiten Sie die Daten für Ihre Kunden vor. Im Jahr 2012 wurde dieses Thema heiß diskutiert, als Google einige Dienste blockierte.
  • RSS-Dienste: Inhalte, die über RSS-Feeds bereitgestellt werden, werden auf anderen Websites verwendet.
  • Meteorologische Daten: Viele Websites, wie z. B. Reiseportale, verwenden Wetterdaten von großen Wetterwebsites, um ihre eigene Funktionalität zu verbessern.
  • Fahr- und Flugpläne: Google verwendet beispielsweise relevante Daten aus öffentlichen Verkehrsdiensten, um die Reiseroutenfunktion von Google Maps zu ergänzen.

Scraping als Spam-Methode

Im Zusammenhang mit Content-Syndicationkann der Inhalt der Webseiten an andere Verlage verteilt werden. Trotz allem kann Kratzen in der Regel gegen diese Regeln verstoßen. Es gibt Websites, deren Inhalt nur von anderen Websites entfernt wurde. Sehr oft finden Sie Seiten mit Informationen, die direkt aus Wikipedia kopiert wurden, ohne die Quelle des Inhalts anzugeben. Ein weiterer Fall von Spam-Scraping besteht darin, dass Online-Shops die Beschreibungen ihrer Produkte von erfolgreichen Wettbewerbern kopieren. Auch das Format bleibt in der Regel gleich.

Es ist wichtig, dass Webmaster wissen, ob ihre Inhalte von anderen Websites kopiert werden. Denn im Extremfall kann Google den Autor des Scrapings beschuldigen, was dazu führen kann, dass die Domain, die abgekratzt wurde, ihr Ranking in den SERPs verringert. In der Google Analytics-Suchmaschine können Benachrichtigungen konfiguriert werden, um zu überwachen, ob Inhalte von anderen Websites kopiert werden.

Google als Schaber

Suchmaschinen wie Google verwenden Scraping, um ihren eigenen Inhalt mit relevanten Informationen aus anderen Quellen zu verbessern. Insbesondere verwendet Google Scraping-Methoden für OneBox oder zur Erstellung seines Wissensdiagramms. Google durchsucht auch das Web, um Einträge zu Google Maps hinzuzufügen, die noch nicht von Unternehmen beansprucht wurden. Gleichzeitig sammelt Google relevante Daten von Websites, die Mikroformate ihrer Inhalte zur Verfügung gestellt haben, um umfangreiche Snippets zu erstellen.

So verhindern Sie das Schaben

Es gibt mehrere einfache Maßnahmen, mit denen Webmaster verhindern können, dass ihre Websites durch Scraping beeinträchtigt werden:

  • Bot blockiert mit robots.txt.
  • Sie fügen Captcha-Abfragen auf der Site ein.
  • Verwendung von CSS zur Anzeige von Telefonnummern oder E-Mail-Adressen.
  • Erzwingen Sie Firewall-Regeln für den Server.

Web-Links