Artikel

Datenqualität verstehen, bewerten und verbessern

Was ist Datenqualität? Eine Definition

Datenqualität ist ein Maß dafür, wie gut sich Daten in bestimmten Kontexten für bestimmte Zwecke eignen. Auf dieser Grundlage kann die Datenqualität für einen Verwendungszweck als hoch und für einen anderen als niedrig angesehen werden. Datenqualität gilt als hoch, wenn sie für den beabsichtigten Zweck geeignet ist.

Zu den allgemeinen Faktoren (auch als Dimensionen der Datenqualität bezeichnet), die zur Bestimmung der Datenqualität herangezogen werden, gehören Genauigkeit, Vollständigkeit, Konsistenz, Aktualität, Eindeutigkeit und Gültigkeit. Probleme, die die Datenqualität beeinträchtigen können, sind doppelte, unvollständige, inkonsistente, falsche, schlecht definierte und schlecht organisierte Daten sowie Daten, die keinen ausreichenden Sicherheitskontrollen unterzogen wurden.

Inwiefern Unternehmen Datenqualität priorisieren, hängt von ihrem Wert ab. Daten sind immer eine wertvolle Ressource und ihre Rolle in allen Aspekten der Geschäftstätigkeit eines Unternehmens nimmt weiter zu und gewinnt an Bedeutung.

Datenqualität ist entscheidend für Analysen, die in Unternehmen für Entscheidungen in allen Bereichen genutzt werden: von Finanzen und Compliance bis hin zu Vertrieb und Marketing.

Datenqualität ist ein entscheidender Faktor für Datenmanagement- und Data Governance-Programme. Diese Programme zielen darauf ab, die Datenqualität zu optimieren und zu schützen. Außerdem ist es ihre Aufgabe, Möglichkeiten zur Verbesserung zu finden und Risiken zu erkennen. Dies ist wichtig, da eine schlechte Datenqualität zu ungenauen Analysen, negativen Ergebnissen für ein Unternehmen und Compliance-Risiken führen kann.

Datenqualität vs. Datenintegrität vs. Datenprofilierung

Datenqualität

Datenintegrität

Datenprofilierung

Datenqualität misst, wie gut Daten ihren beabsichtigten Zweck erfüllen.

Durch Datenqualitätsmaßnahmen werden Fehler in den Datensätzen eines Unternehmens identifiziert und korrigiert.

Datenintegrität misst die Genauigkeit und Konsistenz von Daten über ihren gesamten Lebenszyklus hinweg, um die Datenqualität zu verfolgen.

Datenintegrität konzentriert sich auf die Erhaltung und den Schutz des ursprünglichen Zustands der Daten, während sie gespeichert, abgerufen und verarbeitet werden.

Datenprofilierung bezieht sich auf die Untersuchung, Analyse, Überprüfung und Zusammenfassung von Daten zur Bewertung der Datenqualität.

Zur Datenprofilierung gehört auch die Überprüfung von Quelldaten, um deren Struktur, Inhalt und Zusammenhänge zu verstehen.

Dimensionen der Datenqualität

Datenqualität bestimmt den Wert, die Daten für ein Unternehmen haben. Es gibt eine Reihe von Kennzahlen, die zur Bewertung der Datenqualität verwendet werden, um ihren Wert zu ermitteln und Bereiche mit Verbesserungspotenzial zu identifizieren. Im Folgenden werden sechs der am häufigsten verwendeten Dimensionen der Datenqualität vorgestellt.

Genauigkeit

Genauigkeit wird als wichtigster Maßstab für die Datenqualität angesehen und bezieht sich auf den Korrektheitsgrad, in dem Informationen (z. B. ein Ereignis oder ein Objekt) wiedergeben werden. Genauigkeit ist von größter Bedeutung, da sie sicherstellt, dass Funktionen, die auf diesen Informationen basieren, zuverlässig funktionieren und die erwarteten Ergebnisse liefern. Wenn beispielsweise das Eintrittsdatum oder die Position eines Mitarbeiters in einem Unternehmen korrekt erfasst wird, kann sich dies auf die Leistungen auswirken, auf die er Anspruch hat.

Die Genauigkeit von Daten kann auf folgende Weise gemessen werden:

  • Wie aktuell sind die Daten und gibt es Bedenken hinsichtlich veralteter Daten?
  • Wie lassen sich Datenwerte mit Standard- oder Referenzwerten aus einer zuverlässigen Quelle vergleichen?
  • Wie schneiden die Datenwerte im Vergleich zu einer physischen Messung oder physischen Beobachtungen ab?
  • Wie gut spiegelt eine Information die Realität wider?

Vollständigkeit

Die Vollständigkeitsdimension der Datenqualität misst den Prozentsatz der generierten Daten mit einer hohen Datenqualität. 100 Prozent sind ideal. Zu diesem Zeitpunkt erfüllt die Datenqualität alle Erwartungen an die Vollständigkeit, die zur Erreichung der festgelegten Ziele erforderlich ist.

„100 %“ ist etwas irreführend, da es für verschiedene Anwendungsfälle unterschiedliche Bedeutungen haben kann. In einigen Fällen sind beispielsweise nur Vor- und Nachname sowie eine Telefonnummer erforderlich (z. B. bei der Abgabe eines Produkts zur Wartung), während in anderen Fällen eine vollständige Erfassung der Kontaktdaten einer Person erforderlich ist, um eine bestimmte Funktion auszuführen (z. B. beim Versand eines Produkts).

Die Vollständigkeit der Datenqualität kann auf folgende Weise gemessen werden:

  • Fehlen bekannte Datensätze?
  • Erfüllen die Daten die Erwartungen und Anforderungen der Benutzer an Vollständigkeit?
  • Sind Daten gekürzt?
  • Wie viel Prozent der benötigten Werte fehlen in einem Datensatz?

Konsistenz

Die Konsistenzdimension der Datenqualität misst, wie genau die Daten in den verschiedenen Datensätzen demselben Format folgen. Beispiele hierfür sind:

  • Datumsangaben in Zahlen oder Wörtern, wie 1. Januar 1999 vs. 01.01.1999
  • Formatierung von Telefonnummern, wie die Verwendung von Bindestrichen oder Leerzeichen (z. B. 800-222-3333 oder 800 222 3333)
  • Verwendung von Großbuchstaben, wie Großschreibung im Satz und Großschreibung im Titel

Die Konsistenz der Datenqualität kann auf folgende Weise gemessen werden:

  • Sind alle Informationen in einem Datensatz in demselben Format?
  • Stimmen die an einem Ort gespeicherten Informationen mit vergleichbaren, anderswo gespeicherten Daten überein?

Aktualität

Aktualität im Zusammenhang mit Datenqualität ist die Zeitspanne zwischen der Erfassung einer Ereignisses im System und dem Zeitpunkt, zu dem die Daten verfügbar sind. Die Erwartungen und Anforderungen der Benutzer bestimmen die Beurteilung der Datenqualität.

Die Aktualität der Datenqualität kann auf folgende Weise gemessen werden:

  • Verzögert die Verfügbarkeit von Informationen Abläufe?
  • Stehen die Informationen zur Verfügung, wenn die Benutzer sie benötigen?
  • Wie groß ist die Verzögerung bei der Datenerfassung und der Verfügbarkeit von Informationen?

Einzigartigkeit

Duplikate wirken sich negativ auf die Datenqualität aus. Um eine hohe Datenqualität zu gewährleisten, sollte eine Information nur einmal in einer Datenbank enthalten sein.

Einzigartigkeit misst doppelte Datensätze, was auch denselben Datensatz mit leichten Variationen umfasst, wie Jonathan Smith, der als Jon Smith wiederholt wird. Die Einzigartigkeit sollte innerhalb eines Datensatzes und über alle anderen Datensätze hinweg gemessen werden, z. B. in Buchhaltungs- und Vertriebssystemen.

Die Einzigartigkeit der Datenqualität kann auf folgende Weise gemessen werden:

  • Sind Datenelemente in mehreren Feldern doppelt vorhanden?
  • Ist eine Einheit mehrfach mit derselben Identität vertreten?
  • Repräsentieren zwei Identitäten eine Einheit?
  • Ist dies der einzige Ort, an dem diese Information in einer Datenbank erscheint?

Gültigkeit

Die Gültigkeit in der Datenqualität bezieht sich darauf, wie genau – wenn überhaupt – die Informationen mit den verfügbaren Wertattributen übereinstimmen. Wenn Informationen die Gültigkeitsanforderungen nicht erfüllen, können sie vom System zurückgewiesen werden oder die Datenqualitätsstandards negativ beeinflussen. Um eine hohe Datenqualität zu erreichen, muss die Informationsgültigkeit mit vorgegebenen Werten oder Geschäftsregeln übereinstimmen.

Die Gültigkeitsdimension der Daten kann auf verschiedene Weise gemessen werden:

  • Sind die Informationen im von den Geschäftsregeln vorgegebenen Format, im richtigen Wertebereich (z. B. numerisch oder Datum) oder in der richtigen Ereignisabfolge?
  • Sind die Informationen in einem brauchbaren Format, wie TT.MM.JJ in einem System, das nur TT.MM.JJJJ akzeptiert?

Sicherstellung der Einhaltung der Dimensionen der Datenqualität

Es kann Folgendes unternommen werden, um hohe Bewertungen in diesen Dimensionen der Datenqualität sicherzustellen:

  • Beurteilen Sie, ob die Informationen der Realität entsprechen.
  • Überlegen Sie, wie sich die Daten in allen Ressourcen eines Unternehmens in Bezug auf die Dimensionen der Datenqualität verhalten (z. B. ein einheitliches Datenformat, das in verschiedenen Systemen verwendet wird, wie im Finanzwesen, im Vertrieb und im Kundensupport).
  • Identifizieren und aktualisieren Sie falsche Daten.
  • Nutzen Sie Datenmanagement-, Data Governance-Systeme und bewährte Verfahren.
  • Tests, um die Genauigkeit der Daten zu gewährleisten.

Darum ist Datenqualität wichtig

Eine schlechte Datenqualität hat eine Reihe von Problemen zur Folge, darunter:

  • Erhöhte Ausgaben im Zusammenhang mit der Korrektur von Datenfehlern
  • Bußgelder für unsachgemäße finanzielle oder regulatorische Berichte
  • Analysen, die die Entscheidungsfindung negativ beeinflussen
  • Höhere Kosten für die Datenverarbeitung
  • Reputationsschäden
  • Verpasste Verkaufschancen

Die Aufrechterhaltung einer hohen Datenqualität bringt viele Vorteile mit sich, darunter:

  • Vermeidung von Betriebsfehlern und Prozessausfällen, die die Betriebskosten erhöhen und die Einnahmen verringern können
  • Effektivere Kontaktaufnahme mit Kunden
  • Verbesserung der betrieblichen Effizienz und Produktivität
  • Datensätze liefern einen höheren Wert
  • Entlastung des Datenmanagementteams, damit sich diese auf produktivere Aufgaben konzentrieren können
  • Wettbewerbsvorteil
  • Verbesserung der internen Abläufe
  • Erhöhung der Genauigkeit der Analysen zur Verbesserung der Entscheidungsfindung
  • Informationen für Entscheidungen im gesamten Unternehmen (z. B. Marketing, Produktentwicklung, Vertrieb und Finanzen)
  • Reduzierung von Risiken und Kosten
  • Senkung der Kosten für die Identifizierung und Korrektur von fehlerhaften Daten in Systemen

Was ist Datenqualitätssicherung?

Datenqualitätssicherung ist eine Abfolge von Prozessen zur Verbesserung der Datenqualität. Um einen hohen Datenqualitätsstandard zu etablieren und aufrechtzuerhalten, werden Datensätze bereinigt und überprüft, um sicherzustellen, dass es keine Anomalien, Inkonsistenzen oder veraltete Informationen gibt.

Bei der Datenqualitätssicherung wird Datenprofilierung und Datenbereinigung eingesetzt, um die Datenqualität während des gesamten Lebenszyklus sicherzustellen.

Diese Schritte sollten vor und während der Datenerfassung durchgeführt werden und ein fortlaufender Prozess sein, um Verzerrungen, die durch Menschen oder externe Faktoren verursacht werden, zu identifizieren und zu beseitigen.

Die Datenqualitätssicherung erfolgt in sechs wichtigen Schritten.

Erster Schritt – Definieren Sie Kennzahlen für die Datenqualitätssicherung

Definieren Sie Datenqualitätsstandards, um Kennzahlen für die Datenqualitätssicherung bereitzustellen. Zu den häufig verwendeten Datenqualitätsstandards gehören:

  • Genauigkeit
  • Vollständigkeit
  • Verständlichkeit
  • Präzision
  • Relevanz
  • Aktualität
  • Vertrauenswürdigkeit
  • Gültigkeit

Beispiele für spezifische Datenqualitätsprüfungen sind:

  • Anwendung von Formatierungsprüfungen.
  • Überprüfung auf Pflichtfelder, Nullwerte und fehlende Werte.
  • Überprüfung, wie aktuell die Daten sind oder wann sie zuletzt aktualisiert wurden.
  • Identifizierung von Duplikaten oder Überschneidungen
  • Anwendung von Geschäftsregeln mit einer Reihe von Werten oder Standardwerten und einer bestimmten Gültigkeit.
  • Validierung von Zeilen-, Spalten-, Konformitäts- und Wertprüfungen.

Zweiter Schritt – Datenprofilierung zur Sicherung der Datenqualität

Führen Sie eine Datenprofilierung zur Datenqualitätssicherung durch, um Daten zu überprüfen, zu bereinigen und zu überwachen. Das Ziel ist, zu verstehen, wie die Daten strukturiert sind und ihren Inhalt und ihre Beziehungen zu verstehen, um die Datenqualitätsstandards einzuhalten.

  • Strukturermittlung
    Die Strukturermittlung im Rahmen der Datenprofilierung überprüft, ob die Daten konsistent und gemäß den Datenqualitätsstandards formatiert sind.
  • Inhaltsermittlung
    Bei der Inhaltsermittlung im Rahmen der Datenprofilierung wird jedes Element eines Datensatzes genau untersucht, um die Datenqualität zu überprüfen.
  • Beziehungsermittlung
    Um sicherzustellen, dass die Datenqualität in allen Datensätzen erhalten bleibt, identifiziert die Beziehungsermittlung Verbindungen zwischen den Datensätzen und bestätigt den Abgleich.

Dritter Schritt – Standards für die Datenqualitätssicherung festlegen

Die Standardisierung von Daten ist ein wichtiger Bestandteil der Datenqualitätssicherung. In diesem Schritt werden Richtlinien entwickelt, um interne und externe Datenqualitätsstandards durchzusetzen.

  • Externe Standards für die Datenqualitätssicherung
    Wenn Standards für häufig verwendete Datentypen formuliert werden, wird oft auf externe Standards zurückgegriffen, wie ISO-8601, einen weltweit akzeptierten Standard zur Darstellung der Tageszeit.
  • Interne Standards für die Datenqualitätssicherung
    Unternehmen müssen interne Standards für Informationen schaffen, die für ihre Unternehmen einzigartig sind, wie Berufsbezeichnungen oder Abrechnungscodes.

Vierter Schritt – Abgleich und Verknüpfung von Datensätzen zur Sicherstellung der Datenqualität

In diesem Schritt zur Datenqualitätssicherung geht es um den Abgleich und die Verknüpfung von Datensätzen in den verschiedenen Systemen, um herauszufinden, welches System die beste Datenqualität aufweist. Dieses wird dann als Muster verwendet. In diesem Schritt werden Duplikate und Fehler identifiziert, wie Sam Smith und Sma Smith, bei denen außer dem falsch geschriebenen Nachnamen alle anderen Informationen übereinstimmen. Dieser Schritt kann auch dazu verwendet werden, um mehrere Teildatensätze zusammenzuführen und einen Superdatensatz mit allen Informationen zu erstellen.

Fünfter Schritt – Überwachung der Datenqualität

Zur Sicherstellung einer konstanten Datenqualität ist ein kontinuierliches Monitoring erforderlich. Diese gewährleistet höchste Datenqualität und minimiert Duplikate, Fehler und Anomalien, welche Probleme verursachen können.

Sechster Schritt – Aufrechterhaltung der Datenqualität
Um die Datenqualität aufrechtzuerhalten, müssen Unternehmen nach der Durchführung der Schritte zur Datenqualitätssicherung Prozesse und Verfahren einführen, die sicherstellen, dass die Daten auch in Zukunft sauber bleiben.

Wie kann Datenqualität kontrolliert werden?

Eine Kontrolle der Datenqualität wird vor und nach der Datenqualitätssicherung durchgeführt. Sie beschränkt Eingaben so lange, bis die Kriterien der Datenqualitätssicherung (laut Dimensionen der Datenqualität) erfüllt sind.

Die im Rahmen der Datenqualitätssicherung gesammelten Informationen werden für Kontrollen der Datenqualität verwendet. Diese Kontrollen müssen absolviert sein, bevor Benutzer auf die Daten zugreifen können.

Die Implementierung einer Kontrolle der Datenqualität ist für Unternehmen von entscheidender Bedeutung, um Daten gemäß den für verschiedene Anwendungsfälle erforderlichen Standards effektiv zu pflegen. Abläufe zur Kontrolle der Datenqualität ermöglichen es Unternehmen:

  • Duplikate zu erkennen und zu entfernen.
  • Fehlende Pflichtinformationen zu melden.
  • Fehler zu identifizieren, die bei der Eingabe, Übertragung oder Speicherung von Informationen entstanden sind.

Zu den häufig verwendeten Methoden zur Kontrolle der Datenqualität gehören:

  • Erkennung von Anomalien
    Die Erkennung von Anomalien setzt fortschrittliche Analytik und maschinelles Lernen ein, um Unternehmen dabei zu helfen, schwer zu ermittelnde Probleme mit der Datenqualität zu erkennen. Sie nutzt strukturierte und unstrukturierte Daten, um Ausreißer und Anomalien zu identifizieren. Bei der Anomalieerkennung werden beispielsweise Mittelwerte verwendet, um potenzielle Fehler zu erkennen (z. B. das Alter einer Person ist 102, während der Mittelwert 35 ist).
  • Dateninspektion
    Die Dateninspektion unterstützt die Kontrolle der Datenqualität, indem sie Informationen auf Daten- oder Zeilenebene prüft, um problematische Informationen, wie Duplikate oder ungültige Daten, zu identifizieren und sie für eine weitere Prüfung oder zusätzliche Verarbeitung zu kennzeichnen. Dateninspektionssysteme nutzen Datenqualitätskriterien, um die Datenqualität zu beurteilen und unpassende Daten herauszufiltern. So wird verhindert, dass sie sich negativ auf nachgelagerte Prozesse und Anwendungen auswirken.
  • Datenüberwachung
    Die Datenüberwachung nutzt vorab festgelegte Regeln zur kontinuierlichen Bewertung der Datenqualität, um die Gültigkeit der Daten sicherzustellen oder Daten zu kennzeichnen, die nicht den Standards entsprechen oder bei denen Attribute fehlen.

Datenqualität wirkt sich auf alle Unternehmensabläufe aus

Jede Abteilung des Unternehmens generiert Daten, arbeitet mit ihnen und ist auf sie angewiesen. Deshalb ist die Sicherstellung der Datenqualität unerlässlich. Jedes Unternehmen kann eine hohe Datenqualität erreichen. Es muss nur die verfügbaren Tools nutzen und Richtlinien und Protokolle erstellen und durchsetzen. Der Aufwand und die Ausgaben, die für eine hohe Datenqualität erforderlich sind, werden sich auf jeden Fall bezahlt machen.

Date: 31. März 2025Reading time: 13 minutes
ComplianceProductivity