Was ist Clustering?

Und wozu dient es?


5. September 2023

Definition: Daten-Clustering ist eine Technik zur Gruppierung von Datenpunkten unter dem Aspekt einer Zusammengehörigkeit.

Es findet in verschiedenen Bereichen Anwendung, in denen es von Vorteil ist, Muster, Ähnlichkeiten oder natürliche Gruppierungen in Datensätzen zu erkennen. Einige der wichtigsten Bereiche, in denen Daten-Clustering angewandt wird, sind:

  • Marktsegmentierung: Der oft schwer überschaubare Markt für die Produkte eines Unternehmens lässt sich anhand von Merkmalen der Produkte und ihrer möglichen Käufer in Segmente einteilen, die mit spezifischen Angeboten, Promotionen und persönlichen Empfehlungen bearbeitet werden können.
  • Kundensegmentierung: Clustering wird nicht nur in der Verkaufsförderung, sondern auch in anderen Bereichen eingesetzt, um Kunden in Gruppen einzuteilen, zum Beispiel zur Risikobewertung, zur Vorhersage von Kundenabwanderung (Churn) und für den Kundenservice.
  • Soziale Netzwerkanalyse: Anhand von Clustern lassen sich Gemeinschaften oder Gruppen von Personen mit ähnlichen Interessen oder Verbindungen in sozialen Netzwerken identifizieren und so deren innere Strukturen und Einflussmuster verstehen.
  • Empfehlungssysteme: Eine der bekanntesten Anwendungen des Clustering sind automatisch generierte Empfehlungen, die auf der Analyse des Konsumverhaltens einer grossen Zahl von Kunden beruhen und dort aus dem gehäuften gemeinsamen Auftreten bestimmter Produkte den Schluss ziehen: Kunden, die A angeschaut, gelesen oder gekauft haben, interessieren sich auch für B.
  • Warenkorbanalyse: Im Detailhandel wird das Clustering eingesetzt, um Transaktionsdaten zu analysieren und Produktgruppen zu identifizieren, die häufig zusammen gekauft werden, um Erkenntnisse für das Cross-Selling und die Platzierung von Produkten zu gewinnen.
  • Anomalieerkennung: Nicht nur ehrliche Kunden zeigen typische Verhaltensmuster, sondern auch unehrliche. Daten-Clustering kann ungewöhnliche Muster oder Ausreisser in Datensätzen auffinden und so bei der Erkennung von Missbrauch, Betrug und Fehlverhalten in verschiedenen Branchen helfen.
  • Cybersicherheit: Die Auswertung von Clustern kann dazu dienen, verdächtige Verhaltensmuster oder Anomalien im Netzwerkverkehr zu erkennen, was die frühzeitige Identifizierung potenzieller Cyberbedrohungen oder betrügerischer Aktivitäten erleichtert.
  • Bild- und Objekterkennung: Ein weites Feld für das Clustering ist die automatische Analyse von Bildern. Mit geeigneten Algorithmen lassen sich Farben und Formen erkennen, Objekte identifizieren oder unzulässige Inhalte aufspüren. Die Verarbeitung grösserer Bildbestände wäre ohne automatisches Clustering in der Praxis kaum zu bewältigen.
  • Dokumenten-Clustering und Textanalyse: Ähnlich wie Bilder, allerdings mit anderen Herangehensweisen, lassen sich auch Texte und Dokumente automatisch auswerten und nach inhaltlichen Kriterien gruppieren und einteilen. Ebenso lässt sich bei einem gegebenen Text, zum Beispiel einem News-Artikel, herausfinden, wovon er handelt und ob er möglicherweise eine Falschnachricht (Fake News) verbreitet.
  • Fertigung und Qualitätskontrolle: Clustering kann eingesetzt werden, um Muster oder Fehler in Fertigungsprozessen zu erkennen und so die Qualitätskontrolle und Prozessoptimierung zu verbessern.
  • Raumbezogene Datenanalyse: In geografischen Informationssystemen (GIS) wird das Clustering zur Analyse räumlicher Daten eingesetzt. Von hoher praktischer Bedeutung ist dabei die Identifizierung von so genannten «Hotspots» wie Kriminalitätsschwerpunkte, Herde von Krankheitsausbrüchen oder die Verteilung von Ressourcen.
  • Umweltstudien: Clustering wird in der Umweltforschung eingesetzt, um Orte mit ähnlichen Umwelteigenschaften zu gruppieren und so Studien über Klimamuster und ökologische Trends zu unterstützen.
  • Analyse medizinischer und pflegerischer Daten: Clustering hilft bei der Erstellung von Patientenprofilen, der Identifizierung von Krankheitssubtypen, der Analyse medizinischer Bilder und der Zuweisung von Ressourcen im Gesundheitswesen.

Nur etwas für die Grossen?

Sind die Datenbstände leicht überschaubar, macht maschinelles Clustering kaum Sinn. Doch die untere Grenze liegt sehr tief. Schon bei einer dreistelligen Zahl an Datensätzen kann die manuelle Analyse so fehlerträchtig und zeitaufwändig sein, dass sich der Einsatz von Machine Learning lohnt.

Gibt es Tools?

Ja, es gibt zahlreiche Tools für das Clustering von Daten, aber keines, das alle denkbaren Anwendungsfälle abdeckt. Wir dürfen in der nächsten Zeit allerdings mit einer enormen Ausweitung der Möglichkeiten rechnen, ohne spezialisierte Tools arbeiten zu können. Die «grossen Sprachmodelle» (LLMs) sind nämlich in der Lage, bestimmte Klassifikationen sozusagen auf Zuruf auszuführen.

Einstieg finden

Besitzen Sie ein Smartphone oder speichern Sie Fotos bei Google, können Sie einen ersten Eindruck davon gewinnen, was die automatische Gruppierung von Fotos bereits leistet. Unter «Alben», «Erkunden» oder ähnlichen Menupunkten findet man automatisch erstellte Gruppierungen, im Web beispielsweise auf photos.google.com/explore


Weitere Themen


Zur Erinnerung: wir beraten Sie in Sachen