Digitalisierung

Post vom Anwalt

23. Januar

Nicht immer ist es eine Abmahnung, wenn dir ein eine Anwaltskanzlei einen Brief schickt.

Weiterlesen
Anwalt
Sicherheit

Crypto Scammer

24. Oktober

Sie geben sich meist als Frauen aus und versuchen, ihre Opfer zu vermeintlich lukrativen Investitionen zu verleiten.

Weiterlesen
Portrait einer Frau gegen Portrait eines Roboters

Die neuesten Beiträge

Sauber geordnet

Wie man durch Kategorienbildung die Informationsflut bändigt

Auf dem Marktplatz der künstlichen Intelligenz tummeln sich zurzeit etliche Grosse Sprachmodelle ( Large Language Models, LLM). Mit einigen davon arbeite ich regelmässig. Schon vor ChatGPT die Welt in Erstaunen versetzte, habe ich mit seinen Vorläufern experimentiert und aus eingegebenen Textfragmenten neue Texte generieren lassen.

So sind im Lauf der Zeit zahlreiche Texte entstanden, deren Urheber ein Algorithmus ist. Manche davon habe ich gelesen und beiseite gelegt, andere überarbeitet und viele liegen auf der Halde «zur späteren Verwendung».

Die Halde wächst, und inzwischen sind wir bei mehreren Hundert Textdateien im Format «Markdown» - ein Format, das die meisten Sprachmodelle als Ausgabeformat anbieten und das sich leicht in HTML, PDF oder andere Formate überführen lässt.

Diese Halde abzusuchen wird von Tag zu Tag schwieriger. Ich kann nicht jedesmal alle Dateinamen durchscrollen, um einen Text zu finden, an dessen Inhalt ich mich vage erinnere. Das muss anders, besser gehen!

Um Ordnung in diese unstrukturierte Ansammlung zu bringen, habe ich wieder ein LLM benutzt. Mein Prompt lautete: «Gruppiere untenstehende Liste von Titeln nach dem vermuteten Inhalt in Sachgruppen.»

  "Steuersysteme und Unternehmensgewinne",
  "Risikominimierende Refaktorierungsstrategie für Legacy-Anwendungen",
  "Innovationsförderung durch Regierungen",
  "Marktanalyse für ein neues Produkt",
  "Innovationsstrategie für einen Konzern",
  "Code-Review-Leitfaden für heterogene Entwicklerteams",
  "Politische Stabilität und Risikomanagement",
  "Steuerliche Aspekte internationaler Expansion",
...

Die vollständige Liste findet sich hier: prompts.md auf GitHub.

Antwort des LLMs:

Sachgruppen der Titel nach vermutetem Inhalt:

  1. Unternehmensstrategie & Geschäftsmodelle
  • Strategien für Unternehmenswachstum
  • Entwicklung eines Businessmodells
  • Geschäftsmodellinnovation durch Technologie
  • Analyse von Erfolgsfaktoren
  • Skalierung durch internationale Partnerschaften
  1. Technologie & Softwareentwicklung
  • Risikominimierende Refaktorierungsstrategie für Legacy-Anwendungen
  • ...

Das vollständige Resultat findet sich hier: prompts.md auf GitHub.

Der Gesamtumfang meiner bisher verarbeiteten Liste liegt bei mehr als 460, eingeteilt in 9 Haupt und 46 Untergruppen. Das vereinfacht die Suche ganz beträchtlich. Statt alles durchzusehen, muss ich nun nur noch entscheiden, in welcher Gruppe der gesuchte Inhalt vermutlich zu finden ist und dann die Titel dieser Gruppe durchgehen.

Um es noch weiter zu vereinfachen, habe ich für mein Intranet eine Seite erstellt, die zunächst die Hauptkategorien anzeigt. Durch Klick auf eine der Hauptkategorien wird die Liste der Unterkategorien geöffnet. Hier wiederholt sich der Vorgang: Klicke auf eine Unterkategorie, dann siehst du die Liste der zugehörigen Titel.

Mein Vorgehen in Sachen Ordnung kann man auch als Datenaggegation verstehen. Dadurch werde die Daten verdichtet und aus vielen Datenpunkte wenige gemacht. Bei numerischen Daten werden normalerweise Summe, Mittelwert, Minimum oder Maximum für die Aggregation herangezogen, bei kategorialen Daten wählt man die Anzahl (Count) der Datenpunkte pro Kategorie. Sind die Daten in einer Excel- oder Google Sheets-Tabelle abgelegt, übernimmt die Kreutabelle (Pivot Table) die Aufgabe der Aggregation.

Ein Beispiel, das für die Gruppierung der Daten drei verschiedene Sprachmodelle verwendet, kann hier betrachtet werden: Google Sheet: Datengruppierung