Die neuesten Beiträge
Web Scraping
Unter dem Begriff «Web Scraping» versteht man das Extrahieren von Daten aus Websites. Bei diesen Daten kann es sich um Text, Bilder, Kontaktinformationen oder andere Daten handeln, die auf einer Website zu finden sind. Einmal extrahiert, können sie in einer Datenbank zur späteren Verwendung gespeichert werden. So könnte ein Unternehmen beispielsweise Web Scraping nutzen, um Daten zu Preisen, Produktinformationen oder Kundenrezensionen von Websites der Konkurrenz zu sammeln, um ein besseres Verständnis des Marktes zu erlangen.
Web Scraping, d. h. der Einsatz automatisierter Tools zum Sammeln von Informationen von Websites, ist eine gängige Praxis, die von seriösen Unternehmen für eine Vielzahl von Zwecken genutzt werden kann.
Es gibt zahlreiche Gründe, warum sich Unternehmen für Web Scraping entscheiden. Einige häufige Anwendungsfälle sind Lead-Generierung, Preisvergleiche, Marktforschung und Datenerfassung.
- Lead-Generierung: Web Scraping kann verwendet werden, um Leads von Websites zu sammeln. Wenn Sie zum Beispiel ein B2B-Unternehmen sind, das Produkte an andere Unternehmen verkauft, können Sie Web Scraping nutzen, um die Namen und Kontaktinformationen potenzieller Kunden von Websites wie LinkedIn zu sammeln.
- Preisvergleich: Websites wie beispielsweise Kayak und Expedia nutzen Web Scraping, um Preisdaten von Flug- und Hotel-Websites zu sammeln. So können sie ihren Nutzern aktuelle Preisinformationen zur Verfügung stellen und die besten Angebote für ihre Kunden finden.
- Marktforschung: Unternehmen können Web Scraping nutzen, um Daten über den aktuellen Stand und Tendenzen ihres Marktsegments zu erhebem. Das können z.B. Preisinformationen, Produktangebote, saisonale Aktionen und sogar Kundenrezensionen sein. Auf dieser Grundlage können die Unternehmen fundierte Entscheidungen über ihre eigenen Produkte und Dienstleistungen treffen oder ihre Strategie planen.
- Datenerfassung: Viele Firmen nutzen Web Scraping auch, um Daten für interne Zwecke zu sammeln. Diese Daten können z.B. für Simulationen, maschinelle Lernmodelle oder die Ausbildung von Mitarbeitern verwendet werden. Nicht wenige Unternehmen sind gezwungen, Daten via Scraping aus den eigenen Webseiten herauszulesen, weil sie noch keine Schnittstellen definiert haben und Daten in hermetisch verschlossene Silos einsperren.
Um Daten aus öffentlich zugänglichen Internet-Quellen zu sammeln, kann man verschiedene technische Verfahren anwenden:
- Manuell: Seite mit dem gewünschten Inhalt aufrufen, alles auswählen, kopieren, in Texteditor einfügen und ... Ja, dann geht der Spass erst richtig los. Gehen Sie den Inhalt Abschnitt für Abschitt durch und löschen Sie alles, was überflüssig ist. Den Rest bringen Sie in eine strukturierte Form, zum Beispiel eine Tabelle. Es versteht sich wohl von selbst, dass dies für grössere Datenmengen kein praktikabler Weg ist.
- Eigene Scripts: Python, Nodejs, Java, PHP, Perl ... für die meisten Programmiersprachen gibt es Bibliotheken, die es ermöglichen mit geringem eigenen Aufwand Webseiten herunterzuladen und auszuwerten. In Python wird beispielsweise die Bibliothek « BeautifulSoup» verwendet, um HTML zu parsen und die relevanten Inhalte herauszuziehen.
- Scraping Tools: Octoparse ist ein leistungsstarkes Tool, mit dem Sie schnell und einfach Daten von jeder Website extrahieren können. Mit Octoparse können Sie Scraper so einrichten, dass sie automatisch nach einem Zeitplan laufen, so dass Sie immer über die aktuellsten Informationen verfügen.
- Scraping Dienstleister: Es gibt einige Firmen, die den gesamten Scraping-Prozess übernehmen können, so dass man nur festlegen muss, was für Daten man erhalten möchte, und der Dienstleister erledigt den Rest. Zu den bekanntesten Firmen dieser Art gehören Outscraper und Apify
Doch Vorsicht! Web Scraping ist nicht ganz so harmlos, wie es auf den ersten Blick erscheinen mag. Es ist eine Technik, die zum Guten, nämlich zum Ordnen von öffentlich zugänglicher Information, eingesetzt wird, aber sie kann unguten Zwecken dienen: Diebstahl geistigen Eigentums, unlauterer Wettbewerb, Stalking, ...
Obwohl Web Scraping nicht an und für sich illegal ist, muss man sich sehr genau überlegen, was man scrapt und wozu man es verwendet. Man ist gut beraten, sich von Dingen wie Texte, Bilder, Songs und Videos fernzuhalten, denn diese sind in den überwiegenden Fällen urheberrechtlich geschützt. Ein Absolutes no-go sind personenbezogene Daten, denn durch deren Einsammeln, Verarbeiten und Speichern verstösst man in praktisch allen Fällen gegen die DSGVO/GDPR und verwandte Datenschutzgesete.
Wie kann man sich selbst gegen Web Scraping durch Dritte schützen?
Man kann in den Nutzungsbedingungen der eigenen Website das Web Scraping ausdrücklich verbieten.
Man kann IP-Adressen, von denen verdächtige Abrufe kommen, sperren.
Man kann schützenswerte Inhalte hinter ein Login legen. Wer sich unautorisiert einloggt, macht sich damit automatisch strafbar, wer sich autorisiert einloggt, muss sich an die Nutzungsbedingungen halten.
Man kann Fallen stellen und Daten «vergiften», d.h. echte Daten mit Datenmüll vermischen, so dass das Scraping sinnlos wird.