Reporting

Können korrekte Zahlen lügen?

00. Monat

Alles scheint im grünen Bereich zu sein, und doch steht das Unternehmen kurz vor einer ernsten Krise.

Weiterlesen
Karikatur: Ein Mann mit überlanger Nase präsentiert Erfolgszahlen
Geschäftszahlen

Lass uns spielen!

00. Monat

Kann man eine Pizzeria als Discrete Time State Machine simulieren? Oder, anders gesagt, aus einem drögen Dashboard ein realistisches Spiel machen?

Weiterlesen
Logo des Pizzeria Simulators

Die neuesten Beiträge

Wo finde ich bloss mein Keyword?

So bringt man Ordnung in grosse Textmengen

Kürzlich stand ich vor folgender Aufgabe: Ein Kunde wollte wissen, in welchen Zusammenhängen ein bestimmter Begriff in seinen gesammelten Dokumenten vorkommt. Es ging nicht darum, ob das Wort irgendwo auftaucht – das war klar –, sondern darum, was drumherum steht. In welchen Kontexten wird es verwendet? Gibt es Muster? Lassen sich Gruppen bilden?

Das Verzeichnis mit den Dokumenten umfasste mehrere hundert Dateien: Notizen im Textformat, Markdown-Dokumentationen und gecrawlte Webseiten als HTML. Alles von Hand durchzulesen, kam nicht in Frage. Alles unbesehen in ein Sprachmodell zu werfen, ebenso wenig – zu viel Überflüssiges, zu hohe Kosten, zu grosses Risiko, dass das Modell Wichtiges übersieht.

Was sich unserer Erfahrung nach bewährt hat, ist ein dreistufiges Vorgehen: Zuerst die Rohdaten mit einem Kommandozeilen-Werkzeug herausfiltern, dann von Hand das Brauchbare vom Unbrauchbaren trennen, und erst zum Schluss die KI ins Spiel bringen.

Schritt 1: Den Heuhaufen verkleinern

Was wir im ersten Schritt erstellen, ist im Grunde ein Stichwortverzeichnis für einen bestimmten Begriff – Fachleute sprechen von einer «Konkordanz». Wer Sachbücher nutzt, kennt das Prinzip: Im Anhang findet sich eine Liste, die zu jedem wichtigen Begriff die Seitenzahlen aufführt, auf denen er vorkommt. Genau das erzeugen wir hier, nur nicht für ein einzelnes Buch, sondern für einen ganzen Ordner voller Dokumente – und statt Seitenzahlen erhalten wir die Textstelle gleich mit dazu.

Das Unix-Werkzeug grep ist seit Jahrzehnten bewährt und erledigt diese Aufgabe in Sekundenschnelle: Es durchsucht beliebig viele Dateien nach einem Suchbegriff und gibt jede Zeile aus, in der dieser vorkommt.

Der Befehl, mit dem sich das bewerkstelligen lässt, sieht so aus:

`grep` -rin "KEYWORD" --include=\*.txt --include=\*.md
            --include=\*.html . > kontexte.txt
          

Was die einzelnen Optionen bedeuten:

-r durchsucht alle Unterordner
-i ignoriert Gross- und Kleinschreibung
-n gibt die Zeilennummer an, damit man später nachschlagen kann
--include=... beschränkt die Suche auf die gewünschten Dateitypen
> kontexte.txt schreibt das Ergebnis in eine neue Datei

Nach wenigen Sekunden hat man eine Datei mit allen Fundstellen. Bei meinem Kundenprojekt waren es über 400 Zeilen.

Schritt 2: Von Hand aussortieren

Wer nun denkt, man könne diese 400 Zeilen direkt der KI übergeben, irrt. Ein guter Teil davon ist Ballast: Navigationsmenüs aus HTML-Dateien, Fusszeilentexte, Code-Fragmente oder Treffer, bei denen das Keyword zwar vorkommt, aber keinerlei inhaltliche Aussage transportiert. Also öffnet man die Datei in einem Texteditor und geht sie zügig durch. Was offensichtlich nichts beiträgt, fliegt raus. Was echten inhaltlichen Kontext bietet, bleibt. Das kostet je nach Umfang zwischen zehn Minuten und einer Stunde, lohnt sich aber enorm: Je sauberer die Daten, die man der KI übergibt, desto brauchbarer das Ergebnis. Weniger irrelevantes Material bedeutet weniger Halluzination.

In unserem Fall blieben von den 400 Zeilen etwa 120 übrig.

Schritt 3: Die KI erkennt die Muster

Nun kommt das Sprachmodell zum Einsatz. Die bereinigte Liste wird mit einem präzisen Arbeitsauftrag übergeben. Der verwendete Prompt sah ungefähr so aus:

Ich habe eine Liste von Textpassagen, in denen das Keyword «XYZ» vorkommt. Trenne die Spreu vom Weizen und erstelle aus dem, was bleibt, eine gegliederte Übersicht.

  • Bilde thematische Gruppen (z.B. technologisch, wirtschaftlich, historisch).
  • Beschreibe pro Gruppe in zwei bis drei Sätzen, wie das Keyword dort verwendet wird.
  • Nenne pro Gruppe ein bis zwei Beispielsätze aus den Daten.

Das Ergebnis war eine klar gegliederte Zusammenfassung, die dem Kunden auf einen Blick zeigte, in welchen Bedeutungszusammenhängen sein Begriff existiert. Statt 120 ungeordneter Textfragmente hatte er nun fünf sauber benannte Kategorien mit je einer kurzen Erklärung und Belegen aus dem eigenen Material.

Warum diese Reihenfolge wichtig ist

Man könnte versucht sein, einen der drei Schritte zu überspringen. Doch jeder hat seine Berechtigung:

Ohne grep müsste man die Dateien einzeln öffnen und durchsuchen – bei mehreren hundert Dokumenten keine Option. Ohne das manuelle Aussortieren füttert man die KI mit Datenmüll und bekommt entsprechend unscharfe Ergebnisse zurück. Und ohne die KI müsste man die Kategorienbildung selbst vornehmen, was bei über hundert Fundstellen mühsam und fehleranfällig wäre.

Erst das Zusammenspiel der drei Schritte – maschinelle Geschwindigkeit, menschliches Urteilsvermögen, analytische Stärke der KI – führt effizient zum Ziel.

Dieses Vorgehen lässt sich im Übrigen auf viele ähnliche Aufgaben anwenden: Konkurrenzanalysen, Medienbeobachtung, Auswertung von Kundenfeedback oder die Sichtung interner Wissensbestände. Überall dort, wo grosse Textmengen nach bestimmten Begriffen durchforstet und die Ergebnisse strukturiert werden sollen, ist diese Pipeline einen Versuch wert.

Haben Sie einen Datenbestand, der darauf wartet, durchforstet zu werden? Gerne unterstützen wir Sie bei der Analyse. Werfen Sie einen Blick auf unser Angebot zur Datenbereinigung.