Daten sind kein Selbstzweck, sondern sie dienen dazu, ein Objekt oder einen Zustand zu beschreiben. Die Qualität von Daten entspricht ihrer Fähigkeit, eine korrekte und zutreffende Beschreibung zu liefern.
In unserer technisch-wissenschaftlich geprägten Welt sind Daten untrennbar mit ihrer maschinellen Verarbeitung durch Rechenmaschinen (Computer) verknüpft. Die Qualität von Daten misst sich darum auch an ihrer Eignung, eine sinnvolle und zweckmässige Verarbeitung durch Maschinen zu unterstützen.
Die folgende Beschreibung mag vielleicht zutreffend sein
Im Herzen eines riesigen, uralten Waldes, in dem hoch aufragende Bäume lange, unheimliche Schatten werfen und die Luft von einer unheimlichen Stille erfüllt ist, steht eine seltsame Behausung, deren Anwesenheit ebenso unerwartet wie beunruhigend erscheint.
doch zur maschinellen Datenverarbeitung ist eine andere Darstellung sinnvoll:
Typ: Haus Baumaterial: Lebkuchen Koordinaten: 46.674932, 10.182480
Qualitativ hochstehende Daten sind deshalb nicht nur sachlich korrekt, sondern auch klar strukturiert und standardisiert.
Im Geschäftsleben begegnet man häufig Fehlern wie den folgenden. Sie verursachen Umtriebe und Probleme.
Für menschliche Leser/Schreiber ist es hauptsächlich eine Frage des Stils und der Ästhetik, manchmal auch eine der verbindlichen Orthographie, welche von den ähnlich aussehenden Zeichen man wählt, doch für eine Datenverarbeitungsanlage gibt es zunächst einmal keinen Anlass anzunehmen, ä und ae seien dasselbe oder 2,– sei eine Zahl. Nur wenn es klare Regeln gibt, welche dieser Zeichen wie zusammengehören und welche von ihnen überhaupt verwendet werden, können Datenfehler aufgrund von Zeichenverwechslungen vermieden werden.
Fehler aufgrund von falsch encodierten Sonderzeichen oder Verwechslung von typographischen Zeichenvarianten sind ausserordentlich häufig und hartnäckig. Manchmal sind sie von blossem Auge kaum zu entdecken.
Unter Datenspezialisten ist die 1-10-100-Regel geläufig. Sie lautet:
Einen Datensatz überprüfen kostet 1 Dollar, ihn korrigieren kostet 10 Dollar, aber ihn zu ignorieren kostet 100 Dollar.
Nicht alle Fehler sind gleich. Manche treten häufig auf, manche selten; manche ziehen schwerwiegende Konsequenzen nach sich, andere sind kaum von Belang. Für den Zusammenhang zwischen Häufigkeit und Schwere von Fehlern kann man aus Sicht der Statistik verschiedene Modelle bilden.
Mit anderen Worten: Die Schwere eines Fehlers steht in umgekehrtem Verhältnis zur Häufigkeit seines Auftretens.
Sollte allerdings das Umgekehrte der Fall sein, haben Sie ein gewaltiges Problem!
Fehler, die mittelgrossen Aufwand verursachen, treten am häufigsten auf. Fehler, die einen kleineren oder grösseren Aufwand nach sich ziehen, sind je weiter sich ihre Auswirkungen vom Normalmass unterscheiden, um so seltener.
Diesen so genannten «stochastischen» oder «statistischen » Fehlern kann man durch geeignete Tests meist doch noch ein System abluchsen.
Es ist sehr wichtig, sich durch genaue Analysen der Art und Häufigkeit von auftretenden Fehlern ein Bild davon zu machen, mit welcher statistischen Verteilung zu rechnen ist.
Die Fehlerquote ist ein relatives Mass; sie gibt an, wieviele Fehler pro hundert oder tausend Datensätze anfallen.
Fehler lassen sich nach vielerlei Kriterien in Klassen einteilen.
Zur Berechnung des Aufwandes, der zur Fehlerkorrektur nötig ist, zieht man gerne die Kriterien «Auftreten» und «Auswirkungen» heran.
Aus ihrer Kombination ergibt sich eine Matrix:
| selten | häufig -------------------------- leicht | | -------------------------- schwer | |
Bei Bedarf lässt sich die Einteilung verfeinern, aber stets wird die Häufigkeit zur Schwere der Fehler in Beziehung gesetzt. Wenn beide Kriterien als Zahlen angegeben werden können, lässt sich aus der Fehlerquote (Häufigkeitsmass) und der Auswirkung (zum Beispiel Aufwand in Stunden) der Gesamtaufwand berechnen. Beisiel 5 Fehler pro 10'000 Datensätze * 5 Minuten Aufwand pro Fehler ergibt 25 Minuten Aufwand pro 10'000 Datensätze. Multipliziert mit der Gesamtzahl der Datensätze (1 Million) erhalten wir 2500 Minuten (~42 Stunden) Aufwand.
Auf./F.| Anz.| Aufwand 452 | 1 | 452 139 | 2 | 278 87 | 2 | 174 55 | 3 | 165 46 | 7 | 322 32 | 9 | 288 21 | 16 | 336 12 | 16 | 192 8 | 24 | 192 2 | 421 | 842 Total | 501 | 3241
Diese Zahlen wurden von einem KI-Modell zur Aufwandsabschätzung generiert. Das Modell beruhrt auf dem Clustering von Fehlern, die in einer Datenbank mit 5 Millionen Datensätzen angetroffen wurden. Aus den beobachteten Daten werden von dem Modell ähnlich verteilte Fehlerzahlen errechnet und nach 10, 100 oder 1000 Durchläufen des Modells wird ein Mittelwert erhoben, der dann als realistische Schätzung angesehen wird.
Die Modellrechnung, bei der zehnmal hintereinander 10 Fehlerklassen mit Zufallszahlen nach dem Pareto-Prinzip gefüllt wurden, wobei pro Durchlauf konstant 500 Fehler angenommen wurden, hat für die Aufwände ein Minimum von 54, ein Maximum von 250 und einen Durchschnitt von 141 Arbeitsstunden beziehungsweise 7 bis 32 Arbeitstage pro Quartal zur Fehlerbehebung ergeben, wobei der durchschnittliche Aufwand pro Fehlerbehebung bei höchstens einer halben Stunde lag.
Es ist klar, dass 32 Arbeitstage pro Quartal oder 10 Arbeitstage pro Monat einen Aufwand darstellt, den niemand leisten möchte, denn Zeit ist bekanntlich Geld, und Ausgaben für die Behebung von Fehlern sind Geld, das anderswo besser verwendet werden könnte.
Optimieren: Den unproduktiven Aufwand für die Fehlerbehebung reduziert man, indem man sowohl die Häufigkeit der Fehler als auch den Aufwand für die Behebung einzelner Fehlerklassen reduziert. Die beiden Massnahmen gehen Hand in Hand.
Einem Unternehmen, das seine geschäftsrelevanten Information in einer Datenbank verwaltet, werden folgende Massnahmen empfohlen:
Unter Einsatz von künstlicher Intelligenz beziehungsweise Machine Learning lassen sich auch in kleinen und mittelgrossen Unternehmen Prozesse kostengünstig automatisieren, und mindestens ein Teil der Überwachung der Datenqualität kann an die K.I. delegiert werden.
Gerne stehen wir Ihnen für weitere Auskünfte zur Verfügung.
Besuchen Sie unsere Website calyaconsult.ch
Zurück zu Wissen - Übersicht