Einführung in die Datenqualität: Begriffe, Definitionen und Anwendungsbeispiele

May 8, 2025
12 min read
Loading the Elevenlabs Text to Speech AudioNative Player...

Der Prozess des Datenqualitätsmanagements besteht aus vielen Schritten. Tatsächlich müssen die Daten, die Sie für Ihr Unternehmen erwerben, richtig analysiert und aufbereitet werden, bevor sie für Business Intelligence oder andere Zwecke verwendet werden können. In diesem Artikel erfahren Sie, was Datenqualität ist, was Daten gut macht und wie Sie sich um das Datenqualitätsmanagement kümmern können.

Sie wissen noch nicht wirklich viel über Datenqualitätsmanagement, sind aber entschlossen, die Qualität Ihrer Geschäftseinblicke zu verbessern? Großartig! Du bist am richtigen Ort! In diesem Artikel erfahren Sie mehr über die Dimensionen der Datenqualität — kurz gesagt, wir beschreiben, wie Datensätze aussehen sollten, um als qualitativ hochwertig zu gelten. Wir geben Ihnen auch einige Hinweise, welche Tools für das Datenqualitätsmanagement Sie in Ihrem Unternehmen verwenden können.

Was ist Datenqualität?

Unter Datenqualität ist sowohl der Grad der Richtigkeit als auch der Nützlichkeit von Daten zu verstehen. Die Bewertung der Datenqualität ist ein wichtiger Teil des Datenqualitätsmanagementprozesses. Die Messung der Datenqualität basiert auf Datenqualitätsmerkmalen und natürlich auf dem Geschäftserfolg, der auf der Ableitung der notwendigen Erkenntnisse beruht. Wenn der Datenstrom nicht übereinstimmt, sollten wir wissen, wie die jeweiligen korrupten Daten identifiziert werden können. Danach müssen wir Datenfehler identifizieren, die behoben werden müssen, und beurteilen, ob die Daten in unseren IT-Systemen für den vorgesehenen Zweck geeignet sind. Probleme mit der Datenqualität können den Erfolg vieler Projekte zunichte machen und zu zusätzlichen Kosten, verpassten Verkaufschancen oder Bußgeldern für unangemessene finanzielle oder behördliche Berichterstattung in einem beliebigen Bereich führen, z. B. im Bankwesen, in der Forschung, in der Automobilindustrie oder in der Medizin. Aus diesem Grund ist eine ständige Datenqualitätskontrolle so wichtig und es lohnt sich, sich in der folgenden Übersicht mit den Prüfungen, Techniken und Tools zur Datenvalidierung vertraut zu machen.

Grundlagen: Die Dimensionen der Datenqualität

Es gibt sechs wichtige Datenqualitätskennzahlen zur Messung der Qualität Ihrer Geschäftsinformationen: Genauigkeit, Vollständigkeit, Konsistenz, Gültigkeit, Einzigartigkeit und Aktualität. Schauen wir sie uns nacheinander an:

Genauigkeit der Daten

Die Datengenauigkeit bezieht sich auf den Grad, in dem Daten die „realen“ Objekte, die sie modellieren sollen, korrekt darstellen. In vielen Fällen wird die Genauigkeit daran gemessen, wie die Werte mit einer identifizierten Quelle korrekter Informationen (z. B. Referenzdaten) übereinstimmen. Die Überwachung dieser Kennzahlen zur Datenqualität ist in der Tat eine ziemliche Herausforderung\, und zwar nicht nur, weil man zur Bestätigung eine sekundäre Quelle benötigt, sondern auch, weil sich Informationen aus der realen Welt im Laufe der Zeit ändern können. Ein klassisches Beispiel für das Genauigkeitsproblem sind Datumsformate USA und EU wie MM/TT/JJJJ vs. TT/MM/JJJJ. Ob Sie es glauben oder nicht, dies ist immer noch ein häufiges Problem, das diese Art von Daten unbrauchbar machen kann. Datengenauigkeit ist im wahrsten Sinne des Wortes das wichtigste Merkmal, das Daten nutzbar und zielgerichtet macht.

Vollständigkeit der Daten

Die Vollständigkeit der Daten bezieht sich auf die Vollständigkeit oder Vollständigkeit der Daten. Damit die Daten wirklich vollständig sind, sollten keine Lücken oder fehlende Informationen vorhanden sein. Manchmal sind unvollständige Daten unbrauchbar, werden aber oft trotzdem verwendet, selbst wenn Informationen fehlen, was zu kostspieligen Fehlern und falschen Schlussfolgerungen führen kann. Unvollständige Daten sind oft das Ergebnis erfolglos gesammelter Daten. Zum Beispiel: Das Sammeln von Kontaktdaten erfordert einen Namen, einen Nachnamen und eine E-Mail sowie die korrekte Verknüpfung dieser Daten zwischen den Datensätzen. Unvollständige Daten können zu Inkonsistenzen und Fehlern führen, die sich auf Genauigkeit und Zuverlässigkeit auswirken.

Datenkonsistenz

Eine strenge Definition von Konsistenz legt fest, dass zwei Datenwerte, die aus getrennten Datensätzen stammen, nicht miteinander in Konflikt geraten dürfen. Mit anderen Worten: Es werden nur gültige Daten gespeichert, die zwei Datensätzen entsprechen. Dies kann die Konsistenz auf Datensatzebene, die Konsistenz zwischen Datensätzen oder die zeitliche Konsistenz betreffen. Beachten Sie, dass Konsistenz nicht unbedingt Korrektheit bedeutet. Das häufigste Beispiel für Datenkonsistenz ist ein defektes Backup.

Gültigkeit der Daten

Validität ist die intuitivste aller Datenqualitätskennzahlen — Daten sollten nach definierten Geschäftsregeln und -parametern erfasst werden, dabei dem richtigen Format entsprechen und in den richtigen Bereich fallen. Es ist leicht nachzuvollziehen, dass beispielsweise bei physikalischen und biologischen Entitäten und Ereignissen die Grenzen der Richtigkeit und der Maßstab eindeutig angegeben sind, zum Beispiel Körpertemperatur, Körpergröße oder Lebenserwartung. Jeder Wert außerhalb des Datenbereichs ist ungültig.

Eindeutigkeit der Daten

Die Dimension der Einzigartigkeit erfordert, dass keine Entität mehr als einmal innerhalb des Datensatzes existiert. Eindeutigkeit stellt sicher, dass es in allen Datensätzen keine Duplikate oder Überschneidungen von Werten gibt. Datenbereinigung und Deduplizierung können helfen, einem niedrigen Eindeutigkeitswert abzuhelfen. Ein Beispiel, bei dem die Eindeutigkeit von Daten von entscheidender Bedeutung ist, ist eine Datenbank mit einer Telefonnummer oder einer persönlichen ID-Nummer.

Aktualität der Daten

Aktualität — Aktuelle Daten sind verfügbar, wenn sie benötigt werden. Daten können in Echtzeit aktualisiert werden, um sicherzustellen, dass sie leicht verfügbar und zugänglich sind. Aktualität kann als die Zeit zwischen dem Zeitpunkt, zu dem Informationen erwartet werden, und dem Zeitpunkt, zu dem sie sofort zur Verfügung stehen, gemessen werden. Der Erfolg von Geschäftsanwendungen, die auf Stammdaten basieren, hängt von konsistenten und aktuellen Informationen ab. Daher sollten Service-Levels definiert werden, die angeben, wie schnell die Daten über das zentrale Repository verbreitet werden müssen, damit gemessen werden kann, ob diese Zeitvorgaben eingehalten werden. Ein Beispiel dafür, wann Aktualität von größter Bedeutung ist, ist die Erfassung des Zeitpunkts der Patientenversorgung in der Notaufnahme. Die Zusammenfassung der obigen Beschreibung ist in der Checkliste für Datenqualitätsdimensionen enthalten: Dimension: Definition, Referenz, Aktualität, Grad, in dem Daten die Realität vom erforderlichen Zeitpunkt aus repräsentieren. Der Zeitpunkt, zu dem das Ereignis in der realen Welt aufgezeichnet wurde, ist VollständigkeitDas Verhältnis der gespeicherten Daten gegenüber dem Potenzial von „100% vollständig“. Geschäftsregeln, die definieren, was „100% vollständig“ bedeutet, Einzigartigkeit. Je nachdem, wie das Objekt identifiziert wird, wird nichts mehr als einmal aufgezeichnet. Datenelement, gemessen an sich selbst oder seinem Gegenstück in einem anderen Datensatz oder DatabaseValidityData sind gültig, wenn sie der Syntax (Format, Typ, Bereich) ihrer DefinitionDatenbank-, Metadaten- oder Dokumentationsregeln entsprechen, was die zulässigen Typen (Zeichenfolge, Ganzzahl, Gleitkomma), das Format (Länge, Anzahl der Ziffern) und den Bereich (Minimum, Maximum oder innerhalb einer Gruppe zulässiger Werte enthalten) KonsistenzDas Fehlen eines Unterschieds beim Vergleich von zwei oder mehr Repräsentationen einer Sache mit einem gemessenen DefinitionData-Element gegen sich selbst oder ihr Gegenstück in einem anderen Datensatz oder DatenbankgenauigkeitDer Grad, in dem Daten das „echte“ korrekt beschreiben „Welt“ Objekt oder Ereignis, das beschrieben wird. Idealerweise wird die „reale“ Wahrheit durch Primärforschung ermittelt.Dimension:MeasureScopeTimelinessTime difference [Maßeinheit: Zeit] Jedes Datumselement, Datensatz, Datensatz oder DatenbankvollständigkeitEin Maß für das Fehlen von Leerwerten (Null) oder das Vorhandensein von nicht leeren Werten [Maßeinheit: Prozentsatz] 0-100% der kritischen Daten, die in einem beliebigen Datenelement, Datensatz oder Daten gemessen werden sollen Set oder DatabaseUniquenessAnalysis der Anzahl der Dinge, wie sie in der „realen Welt“ bewertet wurden, im Vergleich zur Anzahl der Datensätze von Dingen im Datensatz. [Maßeinheit: Prozentsatz] Gemessen an allen Datensätzen innerhalb eines einzelnen Datensatzes ValidityVergleich zwischen den Daten und den Metadaten oder der Dokumentation für das Datenelement [Maßeinheit: Prozentsatz der als gültig oder ungültig erachteten Datenelemente] Alle Daten können in der Regel auf ihre Gültigkeit hin gemessen werden. Die Gültigkeit gilt auf Datenelementebene und Datensatzebene (für Kombinationen gültiger Werte) KonsistenzAnalyse des Musters und/oder der Werthäufigkeit [Maßeinheit: Prozentsatz] Bewertung von Dingen über mehrere Datensätze hinweg und/oder Bewertung von Werten oder Formaten in Datensätzen, Datensätzen und DatenbankenGenauigkeitDer Grad, in dem die Daten die Eigenschaften des Objekts oder der Objekte in der realen Welt widerspiegeln, die sie repräsentieren. [Maßeinheit: Der Prozentsatz der Dateneingaben, die die Datengenauigkeitsregeln erfüllen.] Jedes Objekt oder alle Objekte der „realen Welt“, die durch Daten charakterisiert oder beschrieben werden können, die als Datenelement, Datensatz oder Datenbank gespeichert werden.Dimension:Related DimensionsExampleTimelinessAccuracy, weil es unweigerlich mit der Zeit zerfallt.Jedes Datumselement, Datensatz oder DatenbankVollständigkeit/Genauigkeit Das Sammeln von Kontaktinformationen erfordert Vor- und Nachname und E-Mail-Adresse und die korrekte Beziehung dieser Daten zwischen DatensätzenEUniquenessConsistencyPercentage aller doppelten Datensätze in DatasetValidityAccuracy, Completness, Consistency und UniquenessJeder Wert, der im Bereich von DataConsistencyAccuracy, Validity und UniquenessLeider auch broken backupAccuracyValidity, Uniqueness, Consistencyis das Datenformat USA vs EU wie MM/DD/YYYY vs DD/MM/YYYY

So ermitteln Sie die Datenqualität

Die Bewertung der Datenqualität ist keine leichte Aufgabe. Es erfordert ein Verständnis der Datenqualitätsmetriken, daher müssen Sie erfahrene und talentierte Datenqualitätsexperten einstellen. Sie haben zwei Möglichkeiten: Sie können in Datenqualitätsdienste investieren oder sich intern mit Ihrem eigenen Team von Datenqualitätsexperten darum kümmern. Wenn Sie über Grundkenntnisse über die Dimensionen der Datenqualität verfügen, können Sie sich eingehender mit der Bestimmung der Datenqualität befassen. Ihr erstes Ziel besteht darin, den Zustand des Datensatzes zu ermitteln, indem Sie Bestandsaufnahmen durchführen, bei denen die relative Genauigkeit, Eindeutigkeit und Gültigkeit Ihrer Daten in Basisstudien gemessen werden. Die festgelegten Basisbewertungen für Datensätze können dann fortlaufend mit den Daten in Ihren Systemen verglichen werden, um neue Datenqualitätsprobleme zu identifizieren, damit diese behoben werden können. Der zweite Schritt des Datenqualitätsmanagements besteht darin, eine Reihe von Datenqualitätsregeln zu erstellen, die auf Geschäftsanforderungen basieren. Anhand dieser Regeln wird bewertet, ob Ihre Daten gut genug sind oder ob eine Korrektur erforderlich ist. Solche Regeln spezifizieren die erforderlichen Qualitätsniveaus in Datensätzen und geben detailliert an, welche verschiedenen Datenelemente enthalten sein müssen, damit sie auf Datenqualitätsmerkmale überprüft werden können.. Aber was tun wir, wenn wir eine schlechte Datenqualität feststellen?

Was ist eine Datenbereinigung?

Datensätze können verarbeitet werden von: Datenbereinigung oder Datenbereinigung. Dies ist ein sehr wichtiger Teil des Datenqualitätsmanagementprozesses, dessen Hauptziel darin besteht, Datenfehler zu beheben und gleichzeitig daran zu arbeiten, Datensätze zu erweitern, indem fehlende Werte, aktuellere Informationen oder zusätzliche Datensätze hinzugefügt werden. Basierend auf der Menge der Datensätze können diese anhand eines Werts in jedem Datensatz oder durch Überprüfung von Metadaten wie Anzahl oder Reihenfolge der Überschriften, Spalten und Zeilennummern und vielen anderen herausgefiltert werden. All diese Operationen können mithilfe spezieller Tools und Techniken ausgeführt werden. Beispiele dafür finden Sie im nächsten Absatz.

Tools und Techniken für das Datenqualitätsmanagement

Spezialisierte Softwaretools für das Datenqualitätsmanagement können Datensätze abgleichen, Duplikate löschen, neue Daten validieren, Korrekturrichtlinien festlegen und personenbezogene Daten in Datensätzen identifizieren. Außerdem erstellen sie Datenprofile, um Informationen über Datensätze zu sammeln und mögliche Ausreißerwerte zu identifizieren. Solche Tools ermöglichen es Unternehmen, die Datenqualität effizient zu überwachen. Informieren Sie sich daher über die verfügbaren Lösungen.

Große Erwartungsbibliothek

Eine Datenqualitätslösung ist beispielsweise die Great Expectation Library (https://greatexpectations.io/expectations/), das sich durch seinen Slogan definiert: Wissen Sie immer, was Sie von Ihren Daten erwarten können. Große Erwartungen hilft Datenteams auch dabei, Pipeline-Schulden durch Datentests, Dokumentation und Profilerstellung zu beseitigen. Dies bedeutet, dass die Bibliothek Vertrauen, Integrität und Beschleunigung der Datenwissenschaft bietet und Datentechnik Teams, die sich mit allen gängigen Datenproblemen befassen, darunter: expect_column_values_to_not_be_nullExpect_Column_Values_to_match_regexexpect_column_values_to_be_uniqueexpect_table_row_count_to_be_betweenexpect_column_median_to_be_betweenWeitere Informationen zu diesen Techniken finden Sie auf den offiziellen Great Expectations Auf der Website gibt es einige Fallstudien zu den Erfahrungen verschiedener Unternehmen und Teams. (klicken!)

Ein alternativer Ansatz für das Datenqualitätsmanagement

Datenvalidierungsalgorithmen bieten eine weitere Möglichkeit, die Datenqualität zu bestimmen: Auf dem Medium-Konto von MultiTech gibt es ein Angebot für Big-Data-Migrationsworkloads in Apache Spark, das die Big-Data-Validierung beinhaltet. Big Data bezieht sich auf ein riesiges Datenvolumen, das mit einem herkömmlichen Rechenansatz nicht innerhalb eines bestimmten Zeitrahmens gespeichert und verarbeitet werden kann. In numerischer Hinsicht bedeutet dies die Verarbeitung von Gigabyte, Terabyte, Petabyte, Exabyte oder noch größeren Datenmengen. In diesem Zusammenhang müssen die Techniken besser für Probleme geeignet sein. Aus diesem Grund beinhaltet der vorgestellte Algorithmus: -Zeilen- und Spaltenanzahl — Überprüfung von Spaltennamen — Überprüfung von Teilmengendaten ohne Hashing-Statistikvergleich — Hash-Validierung ganzer Daten. Diese stehen im Vordergrund, da die Nachverfolgung und Berichterstattung über die Datenqualität ein besseres Verständnis der Datengenauigkeit ermöglichen. Darüber hinaus sollten die Prozesse und Tools, die zur Generierung dieser Informationen verwendet werden, äußerst nützlich sein und nach Möglichkeit automatisierte Funktionen ausführen.

Zusammenfassung

Dieser Blogbeitrag ist eine Einführung in die Welt der Datenqualität und Datenqualitätsbewertung. Er enthält eine Beschreibung der sechs Datenqualitätsdimensionen: Genauigkeit, Vollständigkeit, Konsistenz, Gültigkeit, Einzigartigkeit und Aktualität, mit ihren Definitionen, Beispielen und Beschreibungen der Beziehungen zwischen ihnen. Auf der Grundlage der vorgestellten Indikatoren wurden Methoden zur Bestimmung der Datenqualität sowie drei grundlegende Methoden zum Umgang mit schlechter Datenqualität erörtert: durch Verarbeitung, Verwendung von Softwaretools und Anwendung spezieller Algorithmen. Erwägen Sie, professionelle Datenqualitätsdienste in Anspruch zu nehmen? Wir können Ihnen bei der Bewertung der Datenqualität helfen und die höchste Qualität Ihrer Geschäftsdaten sicherstellen. Kontaktiere uns wenn Ihr Unternehmen effiziente Lösungen für das Datenqualitätsmanagement benötigt. Für weitere Artikel folgen Sie bitte unserem Blog.Weitere Informationen zu Data Pipeline-Lösungen finden Sie in unserem Blog:

Share this post
Data Engineering
MORE POSTS BY THIS AUTHOR

Curious how we can support your business?

TALK TO US