Die neuesten Beiträge
Speisekarten als Datenquellen
Gastronomische Konkurrenzanalyse
Mit einem Bekannten, der ein italienisches Restaurant betreibt, hatte ich kürzlich eine Diskussion darüber, ob es sinnvoll sei, in einem Unternehmem wie dem seinen die Dienste eines Datenspezialisten in Anspruch zu nehmen. Er sagte zu mir: "Wozu Daten analysieren? Ich kenne alle meine Konkurrenten persönlich und weiss genau, wie sie ticken. Wir reden miteinander, und da bekommt man ja sehr vieles mit."
Ich hielt dagegen: "Eine solche persönliche Beziehung zu deinem Umfeld ist natürlich Gold wert. Aber hier in unserer Stadt gibt es noch 50 andere Restaurants wie deines, mit denen du aber keine engere Beziehungen unterhältst. Wie willst du da den Überblick behalten?"
Er überlegt kurz, dann sagte er: "OK, lass es uns doch einfach testen. Mach mir eine Konkurrenzanalyse aller vergleichbaren Betriebe und zeige mir dann etwas, das ich noch nicht weiss!"
Am nächste Tag wünschte ich mir, ich wäre nicht auf diese Challenge eingegangen. Ich fand relativ schnell die Websites der einschlägigen Restaurants. Aber, als ich dann deren Angebot analysieren wollte, wurde mir Angst und Bange. Neun von zehn Restaurants boten ihre Speisekarte als PDF-Dokument zum Download an. Das ist leicht zu verstehen: Man beauftragt jemand damit, die Karte zu designen, und bekommt dann das Ergebnis als AI oder PDF geliefert, weil die Druckerei genau das verlangt. Wenn man das PDF auch online zur Verfügung stellt, dann hat der prospektive Kunde den Vorteil, genau das zu sehen, was er im Restaurant am Tisch auch sehen würde.
PDF ist eine schwierige Datenquelle
Es gibt also gute Gründe, die Speisekarte eines Restaurants als PDF-Dokument zu erstellen. Doch für die Auswertung der darin enthaltenen Daten — Preise, spezielle Angebote, Auswahl an Gerichten etc. — eignet es sich nicht besonders gut und stellt den Datenspezialisten vor einge Herausforderungen.
PDF ist, so beschreibt es die Wikipedia, "eine vektorbasierte Seitenbeschreibungssprache", die eigeführt wurde, "damit Dokumente einfach und verlässlich präsentiert und weitergegeben werden können", sagt dazu der Erfinder, Adobe Inc.
PDF ist also nicht dafür konzipiert, Daten in strukturierter Form zu speichen, sondern um Dokumente, hauptsächlich Texte und Grafiken, sauber und geräteunabhängig darzustellen.
Man kann PDF in XML umwandeln, doch, obwohl XML exakt zu dem Zweck dient, Daten strukturiert zu speichern, nütz das nicht viel, denn das XML, das aus der Umwandlung hervorgeht, beschreibt weiterhin nur die Struktur einer Seite und nicht die Struktur der Daten, von denen die Seite handelt.
Es gibt Online-Dienste und Programmbibliotheken, die man in Anspruch nehmen kann, um Daten aus PDF zu extrahieren, doch sind diese entweder teuer oder aber nicht besonders hilfreich.
Unserer Erfahrung nach, führt es am schnellsten zum Ziel, wenn man den reinen Text aus dem PDF extrahiert und dann teilweise manuell, teilweise mit spezifisch für das zu analysierende Dokument geschriebenen Scripts in ein strukturiertes Format wie JSON, HTML oder XML überführt.
Das ist ein zum Teil sehr grosser Aufwand, der allerdings schon jetzt durch den Einsatz von künstlicher Intelligenz reduziert werden kann, denn diese ist hervorragend dazu geeignet, in Datenbergen Muster zu erkennen.
Die Umwandlung von PDF in strukturierte Datenformate ist Teil unseres Angebots Datenbereinigung.
Anmerkungen
Tools für die Extraktion von Plain Text aus PDF: Tabula (Java basiert, extrahiert Tabellen), pdftotext (Xpdf) und pdf2txt (Python Script, basierend auf pdfminer) sowie diverse Online-Tools, unter anderem der PDF to Word-Konverter von Adobe. Sehr nützlich fand ich auch den Dokumentenbetrachter Okular von KDE.
Die genannten Tools setzen voraus, dass das PDF bereits das Datenformat 'text' enthält. Das ist jedoch nicht immer der Fall. Da, wo der Text in Form eines Bildes in das Dokument aufgenommen wurde, können sie nichts ausrichten. In solchen Fällen muss OCR-Software eingesetzt werden, um den Text im Bild zu erkennen.
Wie viele Restaurants gibt es überhaupt? Die NZZ berichtete am 6. Sept 2023: «33 000 Restaurants gibt es in der Schweiz, allein in der Stadt Zürich sind es 1202 Lokale.» Link zum Artikel
Für Deutschland (Stand 2021) nennt Statista folgende Zahlen: «Aktuell gibt es in Deutschland rund 60.000 Restaurants, 34.000 Imbissstuben, über 27.400 Schankwirtschaften, Bars sowie Tanz- und Vergnügungslokale und etwa 10.000 Cafés.» Addiert sind das 131.400 Gastronomiebetriebe. Der deutsche Branchenverband DEHOGA setzt die Anzahl der umsatzsteuerpflichtigen Unternehmen im Gastgewerbe mit 186.597 an, darin eingeschlossen sind auch die Hotellerie und sonstige Beherbergungsbetriebe.