Der data quality management-Prozess besteht aus vielen Schritten. Tatsächlich müssen die Daten, die du für dein Unternehmen erhebst, sorgfältig analysiert und vorbereitet werden, bevor sie für business intelligence oder andere Zwecke nützlich sind. In diesem Artikel erfährst du, was data quality ist, was Daten „gut“ macht und wie du dich um data quality management kümmerst.
Du weißt noch nicht viel über data quality management, bist aber entschlossen, die Qualität deiner business insights zu verbessern? Großartig! Du bist hier genau richtig! In diesem Artikel erfährst du mehr über die dimensions of data quality – kurz gesagt, wir beschreiben, wie datasets beschaffen sein sollten, um als high quality zu gelten. Außerdem geben wir dir Hinweise, welche data quality management tools du in deinem Unternehmen einsetzen kannst.
Was ist Data Quality?
Data quality sollte als Grad sowohl der Korrektheit als auch der Nützlichkeit von Daten verstanden werden. Data quality assessment ist ein wichtiger Teil des data quality management-Prozesses. Die Messung der data quality basiert auf data quality characteristics und natürlich auf dem Geschäftserfolg, der durch die Gewinnung notwendiger insights ermöglicht wird. Wenn es im data stream eine Diskrepanz gibt, sollten wir wissen, wie wir die jeweiligen fehlerhaften Daten identifizieren können. Danach müssen wir data errors erkennen, die behoben werden müssen, und beurteilen, ob die Daten in unseren IT systems für den vorgesehenen Zweck geeignet sind.
Data quality problems können den Erfolg vieler Projekte gefährden, zu zusätzlichen Kosten, entgangenen Verkaufschancen oder Bußgeldern wegen fehlerhafter Finanz- oder Compliance-Berichte in Bereichen wie Banking, Forschung, Automotive oder Medizin führen. Deshalb ist eine ständige data quality control so wichtig und es lohnt sich, sich mit data validation checks, techniques und tools im folgenden Überblick vertraut zu machen.
Grundlagen: The Dimensions of Data Quality
Es gibt sechs Haupt-data quality metrics zur Messung der Qualität deiner business information: accuracy, completeness, consistency, validity, uniqueness und timeliness. Schauen wir sie uns einzeln an:
Data accuracy
Data accuracy bezieht sich darauf, inwieweit Daten die „real-life“-Objekte korrekt repräsentieren, die sie modellieren sollen. In vielen Fällen wird accuracy daran gemessen, wie sehr die Werte mit einer identifizierten Quelle korrekter Informationen (z. B. reference data) übereinstimmen. Diese data quality metrics ist tatsächlich ziemlich schwierig zu überwachen, nicht nur weil man eine zweite Quelle zum Abgleich benötigt, sondern auch, weil sich reale Informationen im Laufe der Zeit ändern können. Ein klassisches Beispiel für ein accuracy-Problem sind die USA- vs. EU-Datumsformate wie MM/DD/YYYY vs. DD/MM/YYYY. Das ist immer noch ein häufiges Problem, das solche Daten unbrauchbar machen kann. Data accuracy ist buchstäblich das wichtigste Merkmal, das Daten nutzbar und zweckmäßig macht.
Data completeness
Data completeness bezieht sich auf die Vollständigkeit der Daten. Damit Daten wirklich complete sind, darf es keine Lücken oder fehlenden Informationen geben. Manchmal sind incomplete data unbrauchbar, werden aber trotzdem verwendet, was zu teuren Fehlern und falschen Schlussfolgerungen führen kann. Incomplete data entstehen oft durch nicht erfolgreich erhobene Daten. Beispiel: Das Sammeln von Kontaktdaten erfordert Name, Nachname und E-Mail sowie die korrekte Zuordnung dieser Daten zwischen den Datensätzen. Incomplete data können zu Inkonsistenzen und Fehlern führen, die accuracy und reliability beeinträchtigen.
Data consistency
Eine strenge Definition von consistency besagt, dass zwei Datenwerte aus verschiedenen data sets nicht miteinander in Konflikt stehen dürfen. Anders gesagt: Es werden nur valid data gespeichert, die zwischen zwei data sets übereinstimmen. Dies kann record-level consistency, cross-record consistency oder temporal consistency betreffen. Beachte, dass consistency nicht unbedingt correctness bedeutet. Das häufigste Beispiel für data consistency ist ein beschädigtes Backup.
Data validity
Validity ist die intuitivste aller data quality metrics – Daten sollten gemäß definierten business rules und Parametern erhoben werden, dem richtigen Format entsprechen und im richtigen Wertebereich liegen. Es ist leicht zu verstehen, dass z. B. physische und biologische Entitäten und Ereignisse ihre Korrektheitsgrenzen und Skalen klar definiert haben, z. B. Körpertemperatur, Körpergröße oder Lebenserwartung. Jeder Wert außerhalb des zulässigen Bereichs ist invalid.
Data uniqueness
Die Dimension uniqueness verlangt, dass keine Entität mehr als einmal im data set existiert. Uniqueness stellt sicher, dass es keine Duplikate oder Überschneidungen von Werten in allen data sets gibt. Data cleansing und deduplication können helfen, einen niedrigen uniqueness-Score zu verbessern. Ein Beispiel, bei dem data uniqueness entscheidend ist, ist eine Datenbank mit Telefonnummern oder persönlichen Identifikationsnummern.
Data timeliness
Timeliness – timely data sind verfügbar, wenn sie benötigt werden. Daten können in Echtzeit aktualisiert werden, um sicherzustellen, dass sie jederzeit verfügbar und zugänglich sind. Timeliness kann als die Zeit zwischen dem erwarteten Zeitpunkt der Information und ihrer tatsächlichen Verfügbarkeit gemessen werden. Der Erfolg von business applications, die auf master data basieren, hängt von konsistenten und timely information ab. Daher sollten service levels definiert werden, die festlegen, wie schnell Daten im zentralen repository verfügbar sein müssen, damit die Einhaltung dieser timeliness-Anforderungen gemessen werden kann. Ein Beispiel, bei dem timeliness besonders wichtig ist, ist die Protokollierung von Patientenevents in der Notaufnahme.
Eine Zusammenfassung der obigen Beschreibung findest du in der Data Quality Dimensions checklist:
[Tabelle mit Definitionen, Maßen und Beispielen]
Wie bestimmt man data quality?
Data quality assessment ist keine einfache Aufgabe. Sie erfordert ein Verständnis der data quality metrics, daher solltest du erfahrene und talentierte data quality experts einstellen. Du hast zwei Möglichkeiten – du kannst in data quality services investieren oder dies intern mit deinem eigenen Team von data quality experts erledigen.
Wenn du Grundkenntnisse über die dimensions of data quality hast, kannst du tiefer in die Bestimmung der data quality einsteigen. Dein erstes Ziel ist es, den Zustand des data set durch data asset inventories zu bestimmen, bei denen accuracy, uniqueness und validity deiner Daten in baseline studies gemessen werden. Die festgelegten baseline ratings für data sets können dann fortlaufend mit den Daten in deinen Systemen verglichen werden, um neue data quality issues zu identifizieren und zu beheben.
Der zweite Schritt im data quality management ist das Erstellen eines Satzes von data quality rules auf Basis der business requirements, mit denen beurteilt wird, ob deine Daten gut genug sind oder verbessert werden müssen. Solche rules legen die erforderlichen Qualitätsniveaus in data sets fest und beschreiben, welche data elements enthalten sein müssen, damit sie auf data quality attributes geprüft werden können.
Aber was tun wir, wenn wir poor data quality entdecken? Was ist data cleaning?
Datasets können durch data cleansing oder data scrubbing verarbeitet werden. Das ist ein sehr wichtiger Teil des data quality management-Prozesses, dessen Hauptziel es ist, data errors zu beheben und gleichzeitig data sets durch das Hinzufügen fehlender Werte, aktuellerer Informationen oder zusätzlicher Datensätze zu verbessern. Je nach Menge der data sets können diese durch Werte in jedem Datensatz oder durch Überprüfung von metadata wie Anzahl oder Reihenfolge der headers, columns und row numbers gefiltert werden. All diese Operationen können mit speziellen tools und techniques durchgeführt werden, Beispiele findest du im nächsten Abschnitt.
Data quality management tools und techniques
Spezialisierte software tools für data quality management können Datensätze abgleichen, Duplikate löschen, neue Daten validieren, remediation policies festlegen und personal data in data sets identifizieren; sie führen auch data profiling durch, um Informationen über data sets zu sammeln und mögliche outlier values zu erkennen. Solche tools ermöglichen Unternehmen ein effizientes data quality monitoring, daher lohnt es sich, die verfügbaren Lösungen zu kennen.
Great Expectation Library
Eine data quality-Lösung ist zum Beispiel die Great Expectation Library (https://greatexpectations.io/expectations/), die sich mit dem Slogan definiert: Always know what to expect from your data. Great Expectations hilft data teams auch, pipeline debt durch data testing, documentation und profiling zu eliminieren. Das bedeutet, dass die Bibliothek Vertrauen, Integrität und Beschleunigung für data science und data engineering teams bietet, indem sie alle Arten von häufigen data issues abdeckt, darunter:
- expect_column_values_to_not_be_null
- expect_column_values_to_match_regex
- expect_column_values_to_be_unique
- expect_table_row_count_to_be_between
- expect_column_median_to_be_between
Mehr zu diesen techniques findest du auf der offiziellen Great Expectations-Website, wo es auch einige case studies zu den Erfahrungen verschiedener Unternehmen und Teams gibt.
Alternativer Ansatz zum data quality management
Data Validation algorithms bieten einen weiteren Weg zur Bestimmung der Data Quality: Auf dem Medium-Account von MultiTech gibt es einen Vorschlag für Big Data Migration Workloads in Apache Spark, der Big Data validation umfasst. Big Data bezieht sich auf riesige Datenmengen, die mit herkömmlichen Methoden nicht innerhalb eines bestimmten Zeitrahmens gespeichert und verarbeitet werden können. In Zahlen bedeutet das die Verarbeitung von Gigabytes, Terabytes, Petabytes, Exabytes oder noch mehr Daten. In diesem Kontext müssen techniques besser zu den Problemen passen. Deshalb umfasst der vorgestellte Algorithmus:
- Row and Column count
- Checking Column names
- Checking Subset Data without Hashing
- Statistics Comparison
- Hash Validation on entire data
Diese werden hervorgehoben, weil das Tracking und Reporting von data quality ein besseres Verständnis der data accuracy ermöglicht. Außerdem sollten die eingesetzten Prozesse und tools möglichst viele Funktionen automatisiert erledigen.
Zusammenfassung
Dieser Blogpost ist eine Einführung in die Welt der data quality und data quality assessment. Er enthält eine Beschreibung der sechs data quality dimensions: accuracy, completeness, consistency, validity, uniqueness und timeliness, mit Definitionen, Beispielen und Beschreibungen der Beziehungen zwischen ihnen. Basierend auf den vorgestellten Indikatoren werden Methoden zur Bestimmung der data quality sowie drei grundlegende Wege zum Umgang mit poor data quality diskutiert: durch Verarbeitung, den Einsatz von software tools und die Anwendung spezieller algorithms.
Überlegst du, professionelle data quality services zu nutzen? Wir können dir bei der data quality assessment helfen und die höchste Qualität deiner business data sicherstellen.
Kontaktiere uns wenn Ihr Unternehmen effiziente Lösungen für das Datenqualitätsmanagement benötigt. Für weitere Artikel folgen Sie bitte unserem Blog.
Big data architektur wie baut man eine effiziente